Bei der Suche nach freien Namen in der .com-Zone war ich unangenehm überrascht von der Anzahl bereits besetzter, aber nicht genutzter Domains. Anscheinend sind alle ausgesprochenen Buchstabenkombinationen in allen wichtigen Sprachen der Welt registriert. Und sogar unaussprechliche kurze Kombinationen. Entweder gibt es einen großen Domain-Markt, oder fallen Ihnen nur die gleichen Namen ein wie allen anderen? Schauen wir uns die nackten Statistiken an ...
Derzeit sind 137 Millionen .com-Domainnamen registriert. Laut
Verisign befinden sich zum 27. Januar 2019 in der „aktiven Zone“ 137.756.106 .com-Domains. Vorher habe ich die Richtigkeit der Abbildung mit der DNS-Zonendatei überprüft.
Davon wird etwa ein Drittel verwendet (Unternehmen, persönliche Websites, E-Mail usw.). Ein weiteres Drittel wird offenbar nicht verwendet, und das letzte Drittel wird für verschiedene spekulative Zwecke verwendet.
So werden Domains verwendet (in einem Beispiel von 2188 Teilen):

Wie ich zu diesen Zahlen gekommen bin
Ich habe mit dem Crawlen mit einer zufälligen Auswahl von Top-Level-Domains aus der DNS-Datei der Zone begonnen (die Datei wurde am 21.01.2019 heruntergeladen und das Crawlen bis zum 23.01.2019 fortgesetzt), bis ich 100.000 gültige Domains erreicht habe (nicht alle Einträge sind dort gültig, einige dienen als Catchpots zum Abfangen Personen, die Zonendateien illegal verteilen, und etwa 1% sind Nameserver (nach ihrem Ausschluss verbleiben 98 854 gültige Domänen).
Für jede Domain habe ich Folgendes zusammengestellt:
- WHOIS-Aufzeichnung
- alle DNS-Einträge für Domänen der obersten Ebene und
www
Unterdomänen (mit einer ANY
DNS-Abfrage direkt an die im WHOIS-Eintrag angegebenen Nameserver);
- HTTP- und HTTPS-Antworten (Statuscode, Header und Body) für die Hauptseite der Top-Level-Domain und der
www
Subdomain (ungültige SSL-Zertifikate klassifizierten die Domain in die Kategorie Error
);
- Screenshot der Hauptseite in Mozilla Firefox 64.0 für Linux.
Das Scannen von einem Server im Rechenzentrum von Singapur dauerte etwas mehr als 48 Stunden. Dann habe ich die zweite Phase des Crawls für alle Domänen gestartet, die keine Verbindung über HTTP oder HTTPS herstellen konnten (bei vorübergehenden Fehlern). Und schließlich habe ich für 2188 Domains aus dem Beispiel alle Fehler manuell überprüft, falls das Zeitlimit für den Crawler abgelaufen ist oder DOM-Ereignisse in JavaScript blockiert wurden.
Dann habe ich ein Hilfsskript geschrieben, um die manuelle Klassifizierung von Websites anhand ihres Screenshots und Inhalts zu beschleunigen.
Das Skript präsentiert die möglichen Kategorien als Liste von Schaltflächen mit StandardinhaltMit diesem Skript habe ich Websites in zwei Tagen kategorisiert. Nicht alle Sites mussten manuell unterschieden werden: In einigen Fällen war die Kategorie im Feld <title> offensichtlich, daher habe ich reguläre Ausdrücke angewendet. In anderen Fällen reichte der Screenshot nicht aus, sodass ich die Domain zur Überprüfung manuell im Browser öffnen musste.
Zusammenfassende Statistiken und Schlussfolgerungen
Top 10 .com-Registrare aus einer Auswahl von 100.000 Domains

- GoDaddy hat ein Drittel aller Domainnamen registriert. Dies sind ungefähr 45 Millionen Domains. Davon jede dritte Parkseite. Mit anderen Worten, mehr als 10% aller .com-Domains im Internet schalten GoDaddy-Anzeigen.
- Obwohl es sich um eine Stichprobe von 1851 Registraren handelt, werden sie von einer kleinen Anzahl von Betreibern kontrolliert. Beispielsweise kontrolliert nur DropCatch.com mehr als tausend Registrare: DropCatch.com 1000 LLC, DropCatch.com 1001 LLC, DropCatch.com 1002 usw. Andere Registrare verwenden ähnliche Schemata mit Nummern, aber einige haben weniger offensichtliche Schemata.
- Im vergangenen Jahr wurden 25% der Domains registriert.
Alter der Domains aus einer Stichprobe von 100.000 Einheiten (in Jahren)

Domain-Kategorien
Die Liste der Kategorien wurde während Ihrer Arbeit ergänzt. Zum Beispiel habe ich nicht mit einer großen Anzahl von Domains für Glücksspiele gerechnet (unter Aliasnamen).
Für die meisten Kategorien wird eine zufällige Auswahl von Screenshots bereitgestellt.
Inhalt (31% oder ~ 43 Millionen)
Inhalt ist eine Domain mit einem eindeutigen Inhalt. Dies ist die Standardkategorie, in der ich im Zweifelsfall Websites platziere.

Werbung (23% oder ~ 31 Millionen)
Bitte beachten Sie, dass die Hälfte der Domains in dieser Kategorie die Park-Seiten von GoDaddy sind, auf denen GoDaddy Google-Anzeigen für Keywords platziert, die sich auf den Domain-Namen beziehen.

Kein Webserver (11% oder ~ 16 Millionen)
Wenn ich auf Port 80 oder 443 keine Verbindung herstellen oder keine gültige Antwort für die Top-Level-Domain oder die www-Subdomain erhalten konnte,
obwohl die Domain keinen MX-Eintrag hat, habe ich sie in diese Kategorie eingeordnet. Einige dieser Domänen werden wahrscheinlich auf andere Weise verwendet, beispielsweise als FTP- oder Spieleserver, aber es scheint mir, dass eine solche Minderheit. Alle IPv6-Sites wurden ebenfalls hier angezeigt, da der Crawler-Server nur für IPv4 konfiguriert wurde.
Leer (9,2% oder ~ 13 Millionen)
Eine leere Domain ist eine Domain, auf die der Webserver antwortet, die jedoch leere Seiten, 404-Fehler oder leere Vorlagen zurückgibt (z. B. WordPress-Standardeinstellungen).
Der Unterschied zwischen einer leeren und einer geparkten Domain besteht darin, dass die leere Domain vermutlich vom Benutzer konfiguriert wird, der Inhalt jedoch noch nicht hinzugefügt wurde.

Zu verkaufen (7,1% oder ~ 9,8 Mio.)
Viele Domains werden über verschiedene Broker und Handelsplattformen zum Verkauf angeboten. Fast die Hälfte von ihnen scheint von HugeDomains verkauft zu werden, obwohl auf ihrer Website nur von „über 200.000“ Domains gesprochen wird, die zum Kauf angeboten werden. Ich habe nur Domains von bekannten Websites berücksichtigt oder wenn Kontaktdaten nicht in der Anzeige enthalten waren, da häufig Werbenetzwerke und Broker den Domaininhaber repräsentieren (stattdessen habe ich alle Domains als Anzeigen klassifiziert).

Fehler (5,7% oder ~ 7,9 Millionen)
Wenn die Domäne einen Fehler eines beliebigen Typs zurückgegeben hat, sei es ein HTTP-Fehler oder ein Fehler auf der Seite, habe ich ihn dieser Kategorie zugewiesen.
Bitte beachten Sie, dass einige private Domains versehentlich hierher gelangen könnten, wenn sie die herkömmliche Authentifizierung verwenden, da ich 403 Forbidden (aufgrund des Fehlens grundlegender Anmeldeinformationen für die Authentifizierung) nicht von anderen Fehlern unterschieden habe.

Geparkt (4,8% oder ~ 6,5 Millionen)
Geparkte Domains zeigen die Registrierungsseite an oder zeigen an, dass die Domain noch nicht konfiguriert wurde. Um in diese Kategorie zu fallen, muss die Domain eine Seite ohne externe Werbung herausgeben. Er kann für seine eigenen Dienste werben, jedoch keine Anzeigen aus dem Werbenetzwerk schalten.

Glücksspiel (3,0% oder ~ 4 Millionen)
Fast alle Sites dieser Kategorie sind auf Chinesisch und arbeiten unter Aliasnamen: Oft handelt es sich um kurze Zahlen- oder Konsonantenfolgen (z. B. 17770012 oder tdwhtr). Sie folgen gängigen Mustern und enthalten ähnliche Bilder, häufig mit automatisch generierten Logos. Ich denke, ihr Ziel ist es, Menschen für viel Glück zu gewinnen.

Post (2,6% oder ~ 3,5 Millionen)
Wenn die Domain nicht in eine Kategorie fällt, aber einen MX-Eintrag in DNS (für E-Mail) hat, habe ich ihn der Kategorie "Mail" zugewiesen. Ich habe nicht überprüft, ob der Mailserver oder die Zustellung funktioniert. Möglicherweise werden viele dieser Domains nicht für E-Mails verwendet.
Weiterleitung (1,1% oder ~ 1,6 Millionen)
Dies umfasst "Vanity Domains", die an Facebook-Seiten gesendet werden, alternative Firmennamen usw.
Privat (0,64% oder ~ 0,9 Millionen)
Dies sind Websites, auf denen kein Inhalt ohne Genehmigung (oder in einigen Fällen Registrierung) verfügbar ist.

Porno (0,59% oder ~ 0,8 Millionen)
Wie Glücksspielseiten arbeiten viele Pornoseiten unter verschiedenen Decknamen. Websites sind überwiegend auf Chinesisch und Domains folgen ähnlichen Namensmustern. Da auf vielen Websites pornografisches Material direkt (ohne Vorwarnung) angezeigt wird, habe ich keine Screenshots gemacht.