Google ouvre le code source de l'analyseur robots.txt

image

Aujourd'hui, Google a annoncé un projet de RFC de la norme REP (Robots Exclusion Protocol) , rendant simultanément son analyseur de fichiers robots.txt disponible sous la licence Apache 2.0. Jusqu'à aujourd'hui, il n'existait pas de norme officielle pour le protocole d'exclusion des robots (REP) et le fichier robots.txt (c'était le plus proche), ce qui permettait aux développeurs et aux utilisateurs de l'interpréter à leur manière. L'initiative de l'entreprise vise à réduire les différences entre les implémentations.

Un projet de la nouvelle norme peut être consulté sur le site Web de l'IETF , et le référentiel est disponible sur Github à https://github.com/google/robotstxt .

L'analyseur est le code source que Google utilise dans le cadre de ses systèmes de production (à l'exception des modifications mineures - telles que les fichiers d'en-tête supprimés qui ne sont utilisés qu'au sein de l'entreprise) - les fichiers robots.txt sont analysés exactement comme le fait Googlebot (y compris comment il traite les caractères Unicode dans les modèles). L'analyseur est écrit en C ++ et se compose essentiellement de deux fichiers - vous avez besoin d'un compilateur compatible avec C ++ 11, bien que le code de la bibliothèque remonte aux années 90, et vous y trouverez des pointeurs «bruts» et strbrk . Pour l'assembler, il est recommandé d'utiliser Bazel (le support CMake est prévu dans un futur proche).

L'idée même de robots.txt et de la norme appartient à Martine Coster, qui l'a créé en 1994 - selon la légende , la raison en est l'araignée de recherche Charles Strauss, qui a «largué» le serveur Bonfire à l'aide d'une attaque DoS. Son idée a été reprise par d'autres et est rapidement devenue la norme de facto pour ceux qui sont impliqués dans le développement de moteurs de recherche. Ceux qui voulaient faire son analyse devaient parfois inverser l'ingénierie de Googlebot, y compris Blekko, qui a écrit son propre analyseur pour Perl pour son moteur de recherche.

L'analyseur n'était pas sans moments amusants: jetez un œil, par exemple, à la quantité de travail nécessaire pour interdire le traitement .

Source: https://habr.com/ru/post/fr458428/


All Articles