Como digitalizamos toda a Internet e o que aprendemos

Quantos sites você usa diariamente? Algumas redes sociais, um mecanismo de pesquisa, vários editores favoritos, cerca de 5 serviços em funcionamento. Talvez seja improvável que mais de 20 sites sejam digitados.



Você já se perguntou quantos sites na Internet e o que acontece com eles?

Periodicamente, os artigos são apresentados com base em uma amostra dos diferentes sites 1M principais. Mas eu sempre estava pensando se é possível passar por todos os domínios da Internet sem criar análises em uma amostra muito pequena.

Eu fiz essa pergunta pela primeira vez há mais de um ano. Começamos a desenvolver um rastreador para sites e precisávamos testá-lo em grandes volumes. Tomando o núcleo do rastreador, pela primeira vez, examinei os domínios do Runet - são 5,5 milhões de domínios e, afinal, 213 milhões de domínios (no outono de 2017).

Nos últimos tempos, muito esforço e dinheiro foram investidos no desenvolvimento, os algoritmos se tornaram melhores, decidi voltar à análise da Internet e coletar ainda mais dados.

O objetivo dessa coleta de informações é obter uma amostra confiável principalmente de hosts, redirecionamentos, cabeçalhos de servidor e x-powered-by.

Método de coleta


O próprio aplicativo é escrito em Go, usando suas próprias implementações para trabalhar com o dns e o cliente http. Como a fila redis, db é mysql.

Inicialmente, há apenas um domínio simples, como exemplo.com. A análise consiste em várias etapas:

  1. verifique a disponibilidade de http://example.com, http://www.example.com, https://example.com, https://www.example.com
  2. se pelo menos uma das opções conseguiu conectar, então:
    - analise /robots.txt
    - verifique a presença de /sitemap.xml

Cerca de 100 mil domínios são exibidos e excluídos todos os dias. Obviamente, é quase impossível fazer uma transmissão instantânea do status da rede, mas você precisa fazer isso o mais rápido possível.

Implementamos um cluster adicional de servidores de rastreamento, o que nos permitiu atingir uma velocidade média de 2 mil domínios por segundo . Assim, a verificação de 252 milhões de domínios levou cerca de um dia e meio .

Digressão lírica
Paralelamente ao rastreamento, desenvolve-se a habilidade “1001 maneiras de responder aos abusos”. Este é apenas o flagelo de qualquer análise mais ou menos grande. Valeu muito esforço para modificar o algoritmo para que ele não caia no mesmo ip em um curto período ou não bata no https várias vezes.

Dados


A figura mais importante na análise de rede é o número de domínios "ativos". Chamamos o domínio de "ativo" para o qual o IP é resolvido e pelo menos uma das versões www / sem www_ http / https fornece qualquer código de resposta.



Claro que você não pode esquecer o código 418 - manequins: 2227 peças.

No total, foram encontrados 13,2 milhões de endereços IP . Vale a pena notar que, para alguns domínios, vários endereços IP são fornecidos ao mesmo tempo, para outros, apenas um, mas cada vez é diferente.
Assim, a temperatura média no hospital , em média, 16 locais estão localizados em um IP.

A imagem pelos códigos de status é a seguinte:



a quantidade é maior que o número total de domínios, porque cada host pode fornecer 4 códigos de status diferentes (combinações www / não www, http / https)

Https


A transição para https é uma tendência dos últimos anos. Os mecanismos de pesquisa estão promovendo ativamente a implementação de um protocolo seguro, e o Google Chrome começará em breve a marcar sites http como inseguros.



Assim, o compartilhamento de sites de trabalho em https atingiu 73% do número de sites trabalhando em http.

O maior problema de transição é a redução quase inevitável do tráfego, pois para mecanismos de pesquisa, http / https, mesmo no mesmo domínio, são sites tecnicamente diferentes. Novos projetos geralmente começam imediatamente em https.

www ou sem www?


O subdomínio www surgiu junto com a própria Internet, mas mesmo agora, algumas pessoas não aceitam endereços sem www.

Ao mesmo tempo, 200 códigos de resposta para a versão sem www fornecem 118,6 milhões . domínios e com www - 119,1 milhões de domínios .

Em 4,3 milhões de domínios, o ip não está vinculado à versão sem www, ou seja, Você não acessa example.com . 3 milhões de domínios não estão vinculados ao subdomínio www.

Um ponto importante é a presença de redirecionamentos entre versões. Porque se forem fornecidos 200 códigos nos dois casos, para um mecanismo de pesquisa, esses são dois sites diferentes com conteúdo duplicado. Quero lembrá-lo, não esqueça de configurar os redirecionamentos corretos.
Redireciona com www-> sem www 32 milhões , sem www-> www 38 milhões

Olhando para esses números, é difícil dizer quem ganhou - www ou sem www.

Redirecionamentos


Nos círculos de SEO, existe uma opinião de que o método mais eficaz de promoção de sites é postar redirecionamentos para sites de sites quase temáticos.

35,8 milhões de domínios serão redirecionados para outros hosts e, se os agruparmos por finalidade, veremos os líderes:



Tradicionalmente, os principais são registradores de domínio e estacionamentos.

Se você procurar no topo menos de 10.000 redirecionamentos recebidos, poderá ver muitos sites familiares, como booking.com.

E no top até 1000 existem cassinos e outros sites de entretenimento.

Cabeçalho do servidor


Finalmente cheguei à parte divertida!

186 milhões de domínios não fornecem um título de cabeçalho vazio . Isso representa 87% de todos os domínios vivos, uma amostra bastante confiável.

Se você simplesmente agrupar por valor, obteremos:



Os líderes são 20 servidores, que juntos possuem 96%:



O líder mundial é o Apache, prateado no Nginx e fecha a trindade do IIS. No total, esses três servidores hospedam 87% da Internet do mundo.

Países conservadores:



Vale ressaltar que no Runet a imagem é diferente:



Aqui o Nginx é o líder absoluto, o apache tem uma participação de três vezes menos.

Onde mais você gosta do Nginx:



Os servidores restantes são distribuídos da seguinte maneira:



X-Powered-By


Apenas 57,3 milhões de hosts têm o cabeçalho X-Powered-By , que é aproximadamente 27% dos domínios ativos.

Líderes brutos:



se você processar os dados e descartar o lixo - o php ganha:



Versões do PHP:



Pessoalmente, estou um pouco surpreso com essa popularidade de 5,6 e, ao mesmo tempo, agrada que a participação total de setes esteja crescendo.

Há também um site no Runet que diz que funciona no php / 1.0, mas a veracidade dessa figura é questionável.

Cookies




Conclusão


Eu mostrei apenas uma parte muito pequena das informações encontradas. Cavar esses dados é como cavar uma pilha de lixo para encontrar artefatos interessantes.

Os tópicos com o bloqueio de bots de mecanismo de pesquisa e serviços de análise (ahrefs, majestic e outros) permaneceram fechados. Nesta amostra, existem muitas redes de satélites diferentes, não importa como você tente ocultar as pegadas, mas em milhares de domínios você pode ver padrões.

Em um futuro próximo, para coletar ainda mais dados, principalmente links, palavras, sistemas de publicidade, códigos de análise e muito mais.

Ficarei feliz em ouvir seus comentários e comentários.

Source: https://habr.com/ru/post/pt413739/


All Articles