💈 🌡️ 🏐 Google abre o código-fonte do analisador robots.txt 👨🏼‍🎨 🤹🏻 🦑

Hoje, o Google anunciou um rascunho de RFC do padrão REP (Robots Exclusion Protocol) , disponibilizando simultaneamente seu analisador de arquivos robots.txt sob a Licença Apache 2.0. Até hoje, não havia um padrão oficial para o REP (Robots Exclusion Protocol) e o robots.txt (este era o mais próximo a ele), o que permitia aos desenvolvedores e usuários interpretá-lo à sua maneira. A iniciativa da empresa visa reduzir as diferenças entre implementações.

Um rascunho do novo padrão pode ser visualizado no site da IETF , e o repositório está disponível no Github em https://github.com/google/robotstxt .

O analisador é o código-fonte que o Google usa como parte de seus sistemas de produção (com exceção de edições menores - como arquivos de cabeçalho limpos que são usados apenas dentro da empresa) - os arquivos robots.txt são analisados exatamente como o Googlebot (incluindo como ele trata caracteres Unicode em padrões). O analisador é escrito em C ++ e consiste basicamente em dois arquivos - você precisa de um compilador compatível com C ++ 11, embora o código da biblioteca remonta aos anos 90, e você encontrará ponteiros brutos e strbrk nele . Para montá-lo, é recomendável usar o Bazel (o suporte ao CMake está planejado para o futuro próximo).

A própria idéia do robots.txt e do padrão pertence a Martain Coster, que o criou em 1994 - segundo a lenda , o motivo foi a aranha de busca Charles Strauss, que "deixou cair" o servidor Bonfire usando um ataque DoS. Sua idéia foi escolhida por outros e rapidamente se tornou o padrão de fato para os envolvidos no desenvolvimento de mecanismos de busca. Aqueles que queriam fazer a análise às vezes tinham que fazer engenharia reversa do Googlebot, incluindo o Blekko, que escreveu seu próprio analisador para Perl para seu mecanismo de pesquisa.

O analisador não ficou sem momentos divertidos: veja, por exemplo, quanto trabalho foi desaprovado no processamento .

Google abre o código-fonte do analisador robots.txt

More articles: