Comment nous avons scanné tout Internet et ce que nous avons appris

Combien de sites utilisez-vous quotidiennement? Un couple de réseaux sociaux, un moteur de recherche, plusieurs éditeurs préférés, environ 5 services de travail. Il est peut-être peu probable que plus de 20 sites soient dactylographiés.



Vous êtes-vous déjà demandé combien de sites sur Internet et ce qui leur arrive?

Périodiquement, des articles proposent des études basées sur un échantillon de différents sites 1M. Mais je me demandais toujours s'il était possible de parcourir tous les domaines Internet sans construire d'analyse sur un très petit échantillon.

J'ai posé cette question pour la première fois il y a plus d'un an. Nous avons commencé à développer un robot pour les sites Web et nous devions le tester sur de gros volumes. En prenant le cœur du robot, pour la première fois, je suis allé sur les domaines Runet - c'est 5,5 millions de domaines, et après tout 213 millions de domaines (à l'automne 2017).

Au cours du temps passé, beaucoup d'efforts et d'argent ont été investis dans le développement, les algorithmes sont devenus meilleurs, j'ai décidé de revenir à l'analyse d'Internet et de collecter encore plus de données.

Le but de cette collecte d'informations est d'obtenir un échantillon fiable principalement des hôtes, des redirections, des en-têtes de serveur et des x-powered.

Méthode de collecte


L'application elle-même est écrite en Go, en utilisant ses propres implémentations pour travailler avec le client DNS et http. En tant que file d'attente redis, db est mysql.

Au départ, il n'y a qu'un domaine nu, tel que example.com. L'analyse comprend plusieurs étapes:

  1. vérifier la disponibilité de http://example.com, http://www.example.com, https://example.com, https://www.example.com
  2. si au moins une des options a réussi à se connecter, alors:
    - analyser /robots.txt
    - vérifier la présence de /sitemap.xml

Environ 100 000 domaines apparaissent et suppriment chaque jour. De toute évidence, il est presque impossible de faire une conversion instantanée de l'état du réseau, mais vous devez le faire le plus rapidement possible.

Nous avons déployé un cluster supplémentaire de serveurs d'exploration, ce qui nous a permis d'atteindre une vitesse moyenne de 2 000 domaines par seconde . Ainsi, la vérification de 252 millions de domaines a pris environ un jour et demi .

Digression lyrique
Parallèlement à l'exploration, la compétence «1001 façons de répondre aux abus» se développe. Ce n'est que le fléau de toute analyse plus ou moins importante. Cela a valu beaucoup d'efforts pour modifier l'algorithme afin qu'il ne tombe pas sur le même ip en peu de temps ou ne frappe pas plusieurs fois sur https.

Les données


Le chiffre le plus important dans l'analyse de réseau est le nombre de domaines «actifs». Nous appelons le domaine «live» auquel IP se résout et au moins une des versions www / sans www_ http / https donne un code de réponse.



Bien sûr, vous ne pouvez pas oublier le code 418 - mannequins: 2227 pièces.

Au total, 13,2 millions d'adresses IP ont été trouvées. Il convient de noter que pour certains domaines, plusieurs adresses IP sont données à la fois, pour d'autres une seule, mais chaque fois est différente.
Ainsi, la température moyenne dans l'hôpital , en moyenne, 16 sites sont situés sur une IP.

L'image par codes d'état est la suivante:



le montant est supérieur au nombre total de domaines, chaque hôte peut donner 4 codes de statut différents (combinaisons www / non www, http / https)

Https


La transition vers https est une tendance de ces dernières années. Les moteurs de recherche promeuvent activement la mise en œuvre d'un protocole sécurisé, et Google Chrome va bientôt commencer à marquer les sites http comme non sécurisés.



Ainsi, la part des sites de travail sur https a atteint 73% du nombre de sites travaillant sur http.

Le plus gros problème de transition est le rabattement presque inévitable du trafic, pour les moteurs de recherche, http / https, même sur le même domaine, sont des sites techniquement différents. Les nouveaux projets démarrent généralement immédiatement sur https.

www ou sans www?


Le sous-domaine www est né avec Internet lui-même, mais même maintenant, certaines personnes n'acceptent pas les adresses sans www.

Dans le même temps, le code de réponse 200 pour la version sans www donne 118,6 millions . domaines, et avec www - 119,1 millions de domaines .

À 4,3 millions de domaines, ip n'est pas lié à la version sans www, c'est-à-dire Vous n'allez pas sur example.com . 3 millions de domaines ne sont pas liés ip au sous-domaine www.

Un point important est la présence de redirections entre les versions. Parce que si 200 codes sont donnés dans les deux cas, alors pour un moteur de recherche ce sont deux sites différents avec un contenu en double. Je veux vous rappeler, n'oubliez pas de configurer les redirections correctes.
Redirige avec www-> sans www 32 millions , sans www-> www 38 millions

En regardant ces chiffres, il m'est difficile de dire qui a gagné - www ou sans www.

Redirige


Dans les cercles de référencement, il y a une opinion que la méthode la plus efficace de promotion de site Web est de publier des redirections vers celui-ci à partir de sites presque thématiques.

35,8 millions de domaines seront redirigés vers d'autres hôtes et si nous les groupons par objectif, nous voyons les leaders:



Traditionnellement, les premiers sont les registraires de domaine et les parkings.

Si vous regardez en haut pour moins de 10 000 redirections entrantes, vous pouvez voir de nombreux sites familiers comme booking.com.

Et dans le top jusqu'à 1000, il y a des casinos et d'autres sites de divertissement.

En-tête de serveur


Enfin arrivé à la partie amusante!

186 millions de domaines ne donnent pas un titre d'en-tête vide . Cela représente 87% de tous les domaines vivants, un échantillon assez fiable.

Si vous regroupez simplement par valeur, nous obtenons:



Les leaders sont 20 serveurs, qui ont ensemble 96%:



Le leader mondial est Apache, argent à Nginx et ferme la trinité d'IIS. Au total, ces trois serveurs hébergent 87% de l’ Internet dans le monde.

Pays conservateurs:



Il est à noter que dans Runet, l'image est différente:



Ici, Nginx est le leader absolu, apache a une part de trois fois moins.

Où d'autre aimez-vous Nginx:



Les serveurs restants sont répartis comme suit:



X-Powered-By


Seuls 57,3 millions d'hôtes ont l'en- tête X-Powered-By , ce qui représente environ 27% des domaines actifs.

Leaders bruts:



si vous traitez les données et jetez les ordures - alors php gagne:



Versions PHP:



Personnellement, je suis quelque peu surpris par une telle popularité de 5,6 et en même temps, il est agréable que la part totale des sept augmente.

Il y a aussi un site dans Runet qui dit que cela fonctionne sur php / 1.0, mais la véracité de ce chiffre est discutable.

Les cookies




Conclusion


Je n'ai montré qu'une très petite partie des informations trouvées. Creuser dans ces données, c'est comme creuser dans un tas d'ordures afin de trouver des artefacts intéressants.

Les sujets concernant le blocage des robots des moteurs de recherche et les services d'analyse (ahrefs, majestueux et autres) n'ont pas été ouverts. Sur cet exemple, il existe de nombreux réseaux satellites différents, peu importe comment vous essayez de masquer les empreintes, mais sur des milliers de domaines, vous pouvez voir des modèles.

Dans un futur proche, pour collecter encore plus de données, notamment sur les liens, les mots, les systèmes publicitaires, les codes analytiques, et bien plus encore.

Je serai heureux d'entendre vos commentaires et commentaires.

Source: https://habr.com/ru/post/fr413739/


All Articles