Combien de noms de domaine .com ne sont pas utilisés?

Lors de la recherche de noms gratuits dans la zone .com, j'ai été désagréablement surpris par le nombre de domaines déjà occupés mais inutilisés. Apparemment, toutes les combinaisons de lettres prononcées dans toutes les principales langues du monde sont enregistrées. Et même des combinaisons courtes imprononçables. Soit il existe un grand marché de domaine, soit les mêmes noms vous viennent-ils à l'esprit comme tout le monde? Regardons les statistiques nues ...

Il y a actuellement 137 millions de noms de domaine .com enregistrés. Selon Verisign , au 27 janvier 2019, il y avait 137 756 106 domaines .com dans la «zone active». Avant cela, j'ai vérifié l'exactitude de la figure avec le fichier de zone DNS.

Parmi ceux-ci, environ un tiers sont utilisés (entreprises, sites Web personnels, courrier électronique, etc.). Un autre tiers, apparemment, n'est pas utilisé, et le dernier tiers est utilisé à diverses fins spéculatives.

Voici comment les domaines sont utilisés (dans un échantillon de 2188 pièces):



Comment j'ai obtenu ces chiffres


J'ai commencé à explorer avec une sélection aléatoire de domaines de premier niveau à partir du fichier DNS de la zone (le fichier a été téléchargé le 21/01/2019, et l'exploration s'est poursuivie jusqu'au 23/01/2019) jusqu'à ce que j'atteigne 100000 domaines valides (toutes les entrées ne sont pas valides là-bas, certaines agissent comme des pièges pour attraper personnes qui distribuent illégalement des fichiers de zone, et environ 1% sont des serveurs de noms; après leur exclusion, il reste 98 854 domaines valides).

Pour chaque domaine, j'ai compilé les éléments suivants:

  • Enregistrement WHOIS
  • tous les enregistrements DNS pour les domaines de premier niveau et les sous-domaines www (avec ANY quelle requête DNS directement vers les serveurs de noms spécifiés dans l'enregistrement WHOIS);
  • Réponses HTTP et HTTPS (code d'état, en-têtes et corps) pour la page principale du domaine de premier niveau et du sous-domaine www (certificats SSL non valides classés le domaine dans la catégorie Error );
  • capture d'écran de la page principale de Mozilla Firefox 64.0 pour Linux.

La numérisation a pris un peu plus de 48 heures à partir d'un serveur du centre de données de Singapour. J'ai ensuite lancé la deuxième étape de l'exploration pour tous les domaines qui ne pouvaient pas se connecter via HTTP ou HTTPS (en cas d'erreurs temporaires). Et enfin, pour 2188 domaines de l'échantillon, j'ai vérifié manuellement toutes les erreurs au cas où le robot expirait ou les événements DOM étaient bloqués en JavaScript.

Ensuite, j'ai écrit un script d'aide pour accélérer la classification manuelle des sites en fonction de leur capture d'écran et de leur contenu.


Le script présente les catégories possibles comme une liste de boutons avec un contenu par défaut

Avec ce script, j'ai catégorisé les sites en deux jours. Tous les sites ne devaient pas être distingués manuellement: dans certains cas, la catégorie était évidente dans le champ <title>, j'ai donc appliqué des expressions régulières. Dans d'autres cas, la capture d'écran n'était pas suffisante, j'ai donc dû ouvrir manuellement le domaine dans le navigateur pour vérification.

Statistiques sommaires et conclusions


Top 10 des bureaux d'enregistrement .com parmi une sélection de 100 000 domaines




  • GoDaddy a enregistré un tiers de tous les noms de domaine. Ce sont environ 45 millions de domaines. Parmi ceux-ci, une page de stationnement sur trois. En d'autres termes, plus de 10% de tous les domaines .com sur Internet placent des annonces GoDaddy.
  • Bien qu'un échantillon de 1851 bureaux d'enregistrement, ils sont contrôlés par un petit nombre d'opérateurs. Par exemple, seul DropCatch.com contrôle plus d'un millier de bureaux d'enregistrement: DropCatch.com 1000 LLC, DropCatch.com 1001 LLC, DropCatch.com 1002 et ainsi de suite; d'autres bureaux d'enregistrement utilisent des schémas similaires avec des nombres, mais certains ont des schémas moins évidents.
  • Au cours de la dernière année, 25% des domaines ont été enregistrés.

Âge des domaines à partir d'un échantillon de 100 000 unités (en années)




Catégories de domaine


La liste des catégories a été complétée au fur et à mesure que vous travaillez. Par exemple, je ne m'attendais pas à un grand nombre de domaines de jeu (sous alias).

Pour la plupart des catégories, une sélection aléatoire de captures d'écran est fournie.

Contenu (31% ou ~ 43 millions)


Le contenu est un domaine avec n'importe quel contenu unique. C'est la catégorie par défaut où je mets des sites en cas de doute.



Publicité (23% ou ~ 31 millions)


Veuillez noter que la moitié des domaines de cette catégorie sont des pages de stationnement de GoDaddy, où GoDaddy place des annonces Google pour les mots clés liés au nom de domaine.



Pas de serveur Web (11% ou ~ 16 millions)


Si je ne pouvais pas me connecter ou obtenir une réponse valide sur le port 80 ou 443 pour le domaine de premier niveau ou le sous-domaine www, alors que le domaine n'a pas d'enregistrement MX, je le mettais dans cette catégorie. Certains de ces domaines sont probablement utilisés d'une autre manière, par exemple, comme serveurs FTP ou serveurs de jeux, mais il me semble qu'une telle minorité. Tous les sites sur IPv6 sont également arrivés ici, car le serveur du robot a été configuré uniquement pour IPv4.

Vide (9,2% ou ~ 13 millions)


Un domaine vide est celui pour lequel le serveur Web répond, mais renvoie des pages vierges, des erreurs 404 ou des modèles vierges (par exemple, les paramètres par défaut de WordPress).

La différence entre un domaine vide et un domaine parqué est que le domaine vide est vraisemblablement configuré par l'utilisateur, mais le contenu n'a pas encore été ajouté.



À vendre (7,1% ou ~ 9,8 millions)


De nombreux domaines sont mis en vente par le biais de divers courtiers et plateformes de trading. Près de la moitié d'entre eux semblent être vendus par HugeDomains, bien que leur site Web ne parle que de «plus de 200 000» domaines disponibles à l'achat. J'ai pris en compte uniquement les domaines de sites bien connus ou lorsque les coordonnées n'étaient pas incluses dans la publicité, car les réseaux publicitaires et les courtiers mentent souvent et représentent le propriétaire du domaine (à la place, j'ai classé tous ces domaines comme des annonces).



Erreur (5,7% ou ~ 7,9 millions)


Si le domaine a renvoyé une erreur de n'importe quel type, que ce soit une erreur HTTP ou une erreur sur la page, je l'ai affecté à cette catégorie.

Veuillez noter que certains domaines privés pourraient accidentellement arriver ici s'ils utilisaient l'authentification conventionnelle, car je n'ai pas distingué 403 Forbidden (en raison du manque d'informations d'identification de base pour l'authentification) des autres erreurs.



Garé (4,8% ou ~ 6,5 millions)


Les domaines parqués affichent la page du registraire ou indiquent que le domaine n'a pas encore été configuré. Pour entrer dans cette catégorie, le domaine doit publier une page sans publicité externe. Il peut annoncer ses propres services, mais ne peut pas publier d'annonces sur le réseau publicitaire.



Jeux d'argent (3,0% ou ~ 4 millions)


Presque tous les sites de cette catégorie sont en chinois et fonctionnent sous des alias: il s'agit souvent de courtes chaînes de nombres ou de consonnes (par exemple, 17770012 ou tdwhtr). Ils suivent des modèles courants et contiennent des images similaires, souvent avec des logos générés automatiquement. Je suppose que leur objectif est d'attirer les gens pour leur porter chance.



Courrier (2,6% ou ~ 3,5 millions)


Si le domaine n'appartient à aucune catégorie, mais qu'il possède un enregistrement MX dans DNS (pour les e-mails), je l'ai affecté à la catégorie "Courrier". N'a pas vérifié si le serveur de messagerie ou la distribution fonctionne. Il est possible que bon nombre de ces domaines ne soient pas utilisés pour le courrier électronique.

Redirection (1,1% ou ~ 1,6 million)


Cela inclut les «domaines de vanité» qui sont envoyés aux pages Facebook, les noms alternatifs de sociétés, etc.

Privé (0,64% ou ~ 0,9 million)


Ce sont des sites sur lesquels aucun contenu n'est disponible sans autorisation (ou, dans certains cas, inscription).



Porno (0,59% ou ~ 0,8 million)


Comme les sites de jeux d'argent, de nombreux sites pornographiques opèrent sous différents alias. Les sites Web sont principalement en chinois et les domaines suivent des modèles de dénomination similaires. Étant donné que de nombreux sites affichent directement du matériel pornographique (sans avertissement), je n'ai pas pris de captures d'écran.

Source: https://habr.com/ru/post/fr440600/


All Articles