Page Rank na Era da Web 2.0 - Parte 1

imagem
As eleições são realizadas para descobrir cuja previsão de eleição se mostrou mais precisa. c) Robert Orben
Para avaliar a contribuição do Google para o desenvolvimento de mecanismos de pesquisa, você precisa se mudar há cerca de 20 anos. Naqueles tempos difíceis, a quantidade de informações na Internet era centenas de vezes menor do que agora, mas a busca pelas informações corretas era muito mais difícil. O usuário pode passar muito tempo no site do mecanismo de pesquisa, tentando formular uma consulta diferente para o mecanismo de pesquisa e ainda não obter o resultado desejado. Havia até agências que ofereciam seus serviços de busca na Internet por dinheiro. No início dos mecanismos de busca, a importância da página foi determinada por muitos fatores subjetivos, como marcação html, número de termos, títulos e ousadia da fonte na página. Não é raro que uma página criada especialmente ou uma cópia da página original, preenchida com os títulos e termos necessários, estejam no topo. Além disso, do ponto de vista do homem, não tinha absolutamente nenhum significado, mas possuía uma classificação muito alta no mecanismo de busca.

Em 1997, dois estudantes da Universidade de Stanford propuseram o famoso algoritmo Page Rank. De fato, esse é o caso raro em que os engenheiros saltaram de um pântano de longo prazo e encontraram uma solução elegante e simples que fechou a pilha de problemas em uma única etapa e predeterminou o resultado da batalha entre CEOs e mecanismos de busca nos próximos anos. A essência do Page Rank é a "democracia" no mundo da Web. Cada página de um site que contém um link para outro site "vota" nele. Assim, os sites com autoridade de fontes primárias mais citados sobem ao topo. O Page Rank ajuda a alcançar os sites mais populares, que, como bolhas de ar na água, aparecem com base na "opinião" de um grande número de sites menos populares. Esse esquema funcionou bem no ecossistema do início dos anos 2000, onde pequenos sites da Internet dominavam, cujo conteúdo era frequentado por webmasters e gerentes de conteúdo. Com o advento da Web 2.0, os próprios usuários da Internet se tornaram a principal fonte de informação na Internet, o que alterou a Internet. Em primeiro lugar, o enorme fluxo de informações dos usuários levou ao surgimento de sites gigantes com milhões e, às vezes, dezenas e centenas de milhões de páginas. Em segundo lugar, os sites começaram a conter um grande número de informações não estruturadas e não adaptadas para os mecanismos de busca, um grande número de memes locais e erros de sintaxe. Depois que um tópico é criado, digamos em um fórum ou blog sob um cabeçalho, ele pode ser movido facilmente para outra área para discussão. Ao pesquisar nesses sites, o principal problema não é determinar a autoridade do site, mas classificar corretamente as páginas dentro do próprio site, porque agora centenas e milhares de páginas podem se enquadrar na consulta de pesquisa. É claro que, nesses casos, o Page Rank não funciona e muitos mecanismos de pesquisa usam truques da era "pré-Google", como analisar títulos, tags etc.

Na próxima parte, mostrarei se é possível contornar esse problema com a ajuda do aprendizado de máquina, como fazer a máquina classificar as páginas no próprio site, dada sua terminologia exclusiva, usando o exemplo de uma pesquisa neste site.

Source: https://habr.com/ru/post/pt429902/


All Articles