Google abre el código fuente del analizador robots.txt

imagen

Hoy, Google anunció un borrador de RFC del estándar del Protocolo de Exclusión de Robots (REP) , haciendo que su analizador de archivos robots.txt esté disponible simultáneamente bajo la Licencia Apache 2.0. Hasta hoy, no existía un estándar oficial para el Protocolo de exclusión de robots (REP) y el archivo robots.txt (este era el más cercano), lo que permitía a los desarrolladores y usuarios interpretarlo a su manera. La iniciativa de la compañía apunta a reducir las diferencias entre las implementaciones.

Se puede ver un borrador del nuevo estándar en el sitio web de IETF , y el repositorio está disponible en Github en https://github.com/google/robotstxt .

El analizador es el código fuente que Google usa como parte de sus sistemas de producción (con la excepción de ediciones menores, como los archivos de encabezado limpiados que se usan solo dentro de la empresa), los archivos robots.txt se analizan exactamente como Googlebot (incluyendo cómo trata a los personajes Unicode en patrones). El analizador está escrito en C ++ y esencialmente consta de dos archivos: necesita un compilador compatible con C ++ 11, aunque el código de la biblioteca se remonta a los años 90, y encontrará punteros sin procesar y strbrk en él . Para ensamblarlo, se recomienda utilizar Bazel (el soporte de CMake está planeado en un futuro próximo).

La idea misma de robots.txt y el estándar pertenece a Martain Coster, quien lo creó en 1994; según la leyenda , la razón fue la araña de búsqueda Charles Strauss, quien "dejó caer" el servidor Bonfire usando un ataque DoS. Su idea fue recogida por otros y rápidamente se convirtió en el estándar de facto para aquellos involucrados en el desarrollo de motores de búsqueda. Aquellos que querían hacer su análisis a veces tenían que realizar ingeniería inversa en Googlebot, incluido Blekko, que escribió su propio analizador para Perl para su motor de búsqueda.

El analizador no estuvo exento de momentos divertidos: observe, por ejemplo, cuánto trabajo se dedicó al procesamiento de rechazo .

Source: https://habr.com/ru/post/458428/


All Articles