
Las elecciones se llevan a cabo para averiguar qué pronóstico electoral resultó ser más preciso. (c) Robert Orben
Para evaluar la contribución de Google al desarrollo de motores de búsqueda, debe mudarse hace unos 20 años. En esos tiempos difíciles, la cantidad de información en Internet era cientos de veces menor que ahora, pero la búsqueda de la información correcta era mucho más difícil. El usuario podría pasar mucho tiempo en el sitio web del motor de búsqueda, tratando de formular una consulta diferente al motor de búsqueda y aún así no obtener el resultado deseado. Incluso hubo agencias que ofrecieron sus servicios de búsqueda en Internet por dinero. En los albores de los motores de búsqueda, la importancia de una página estaba determinada por muchos factores subjetivos, como el marcado html, el número de términos, encabezados y la negrita de la fuente en la página. No es infrecuente que una página especialmente creada o una copia de la página original, llena de los encabezados y términos necesarios, resulte estar en la parte superior. Además, desde el punto de vista del hombre, no tenía absolutamente ningún significado, pero tenía una calificación muy alta en el motor de búsqueda.
En 1997, dos estudiantes de la Universidad de Stanford propusieron el famoso algoritmo Page Rank. De hecho, este es el caso raro cuando los ingenieros saltaron de un pantano a largo plazo y encontraron una solución elegante y simple que cerró la pila de problemas en un solo paso y predeterminó el resultado de la batalla entre los CEO y los motores de búsqueda durante muchos años. La esencia de Page Rank es la "democracia" en el mundo de la Web. Cada página en un sitio que contiene un enlace a otro sitio "vota" por él. Por lo tanto, los sitios autorizados de fuentes primarias más frecuentemente citados suben a la cima. Page Rank ayuda a encabezar los sitios más populares, que, como las burbujas de aire en el agua, aparecen según la "opinión" de un gran número de sitios menos populares. Tal esquema funcionó bien en el ecosistema de principios de la década de 2000, donde dominaban los pequeños sitios de Internet, cuyo contenido era atendido por webmasters y administradores de contenido. Con el advenimiento de la Web 2.0, los propios usuarios de Internet se convirtieron en la principal fuente de información en Internet, lo que alteró Internet. En primer lugar, el enorme flujo de información de los usuarios ha llevado a la aparición de sitios gigantes con millones, y a veces decenas y cientos de millones de páginas. En segundo lugar, los sitios comenzaron a contener una gran cantidad de información no estructurada y no adaptada para motores de búsqueda, una gran cantidad de memes locales y errores de sintaxis. Una vez que se ha creado un tema, digamos en un foro o blog bajo un encabezado, puede moverse fácilmente a otra área para su discusión. Al buscar en dichos sitios, el problema principal no es determinar la autoridad del sitio, sino clasificar correctamente las páginas dentro del propio sitio, porque ahora cientos y miles de páginas pueden caer bajo la consulta de búsqueda. Por supuesto, en tales casos, Page Rank no funciona y muchos motores de búsqueda usan trucos de la era "anterior a Google", como el análisis de encabezados, etiquetas, etc.
En la siguiente parte, le diré si es posible solucionar este problema con la ayuda del aprendizaje automático, cómo hacer que la máquina clasifique las páginas dentro del sitio, dada su terminología única utilizando el ejemplo de búsqueda en este sitio.