Page Rank dans l'ère du Web 2.0 - Partie 1

image
Des élections ont lieu afin de savoir dont les prévisions électorales se sont avérées plus précises. c) Robert Orben
Pour évaluer la contribution de Google au développement des moteurs de recherche, vous devez vous déplacer il y a environ 20 ans. En ces temps troublés, la quantité d'informations sur Internet était des centaines de fois inférieure à celle d'aujourd'hui, mais la recherche des bonnes informations était beaucoup plus difficile. L'utilisateur pourrait passer beaucoup de temps sur le site Web du moteur de recherche, en essayant de formuler une requête différente pour le moteur de recherche et toujours ne pas obtenir le résultat souhaité. Il y avait même des agences qui offraient leurs services de recherche sur Internet pour de l'argent. À l'aube des moteurs de recherche, l'importance d'une page a été déterminée par de nombreux facteurs subjectifs, tels que le balisage html, le nombre de termes, de titres et l'audace de la police sur la page. Il n'est pas rare qu'une page spécialement créée ou une copie de la page d'origine, remplie des en-têtes et des termes nécessaires, se soit avérée en haut. De plus, du point de vue de l'homme, cela n'avait absolument aucun sens, mais avait une cote très élevée dans le moteur de recherche.

En 1997, deux étudiants de l'Université de Stanford ont proposé le célèbre algorithme de Page Rank. En fait, c'est le cas rare où les ingénieurs ont sauté d'un marais de longue date et ont trouvé une solution simple et élégante qui, en une seule étape, a fermé la pile de problèmes et prédéterminé le résultat de la bataille entre les PDG et les moteurs de recherche pendant de nombreuses années à venir. L'essence de Page Rank est la «démocratie» dans le monde du Web. Chaque page d'un site qui contient un lien vers un autre site "vote" pour elle. Ainsi, les sites de sources primaires les plus fréquemment cités et faisant autorité se classent au sommet. Le Page Rank permet de figurer en tête des sites les plus populaires qui, comme les bulles d'air dans l'eau, apparaissent en fonction de l '«opinion» d'un grand nombre de sites moins populaires. Un tel système a bien fonctionné dans l'écosystème du début des années 2000, où les petits sites Internet dominaient, dont le contenu était fréquenté par les webmasters et les gestionnaires de contenu. Avec l'avènement du Web 2.0, les utilisateurs d'Internet eux-mêmes sont devenus la principale source d'information sur Internet, ce qui a modifié Internet. Tout d'abord, l'énorme flux d'informations provenant des utilisateurs a conduit à l'émergence de sites géants avec des millions, et parfois des dizaines et des centaines de millions de pages. Deuxièmement, les sites ont commencé à contenir un grand nombre d'informations non structurées et non adaptées aux moteurs de recherche, un grand nombre de mèmes locaux et des erreurs de syntaxe. Une fois qu'un sujet a été créé, par exemple sur un forum ou un blog sous une rubrique, il peut facilement passer à un autre domaine de discussion. Lors de la recherche sur ces sites, le principal problème n'est pas de déterminer l'autorité du site, mais de classer correctement les pages au sein du site lui-même, car des centaines et des milliers de pages peuvent désormais relever de la requête de recherche. Bien sûr, dans de tels cas, le Page Rank ne fonctionne pas et de nombreux moteurs de recherche utilisent des astuces de l'ère "pré-Google", telles que l'analyse des en-têtes, des balises, etc.

Dans la partie suivante, je vous dirai s'il est possible de contourner ce problème à l'aide de l'apprentissage automatique, comment créer les pages de classement des machines au sein du site lui-même, compte tenu de sa terminologie unique en utilisant l'exemple d'une recherche sur ce site.

Source: https://habr.com/ru/post/fr429902/


All Articles