Wie viele Websites nutzen Sie täglich? Ein paar soziale Netzwerke, eine Suchmaschine, mehrere Lieblingsverlage, etwa 5 Arbeitsdienste. Möglicherweise ist es unwahrscheinlich, dass mehr als 20 Websites eingegeben werden.

Haben Sie sich jemals gefragt, wie viele Websites im Internet vorhanden sind und was mit ihnen passiert?
In regelmäßigen Abständen werden Artikel mit Studien erstellt, die auf einer Stichprobe verschiedener Top-1M-Standorte basieren. Aber ich habe mich immer gefragt, ob es möglich ist, alle Internetdomänen zu durchsuchen, ohne eine sehr kleine Stichprobe zu analysieren.
Ich habe diese Frage zum ersten Mal vor mehr als einem Jahr gestellt. Wir haben mit der Entwicklung eines Crawlers für Websites begonnen und mussten ihn auf großen Volumes testen. Ich nahm den Kern des Crawlers und ging zuerst die Runet-Domänen durch - das sind 5,5 Millionen Domänen und danach alle 213 Millionen Domänen (Herbst 2017).
In der letzten Zeit wurde viel Aufwand und Geld in die Entwicklung investiert, die Algorithmen wurden besser, ich beschloss, zur Analyse des Internets zurückzukehren und noch mehr Daten zu sammeln.
Der Zweck dieser Informationssammlung besteht darin, ein zuverlässiges Beispiel für funktionierende Hosts, Weiterleitungen, Server-Header und x-powered-by zu erhalten.
Erhebungsmethode
Die Anwendung selbst ist in Go geschrieben und verwendet eigene Implementierungen für die Arbeit mit dem DNS- und dem http-Client. Als Redis-Warteschlange ist db MySQL.
Anfangs gibt es nur eine nackte Domain wie example.com. Die Analyse besteht aus mehreren Phasen:
- Überprüfen Sie die Verfügbarkeit von
http://example.com, http://www.example.com, https://example.com, https://www.example.com
- Wenn mindestens eine der Optionen eine Verbindung herstellen konnte, gilt Folgendes:
- analysiere /robots.txt
- Überprüfen Sie, ob /sitemap.xml vorhanden ist
Täglich werden etwa
100.000 Domains angezeigt und gelöscht. Natürlich ist es fast unmöglich, den Netzwerkstatus sofort zu erfassen, aber Sie müssen dies so schnell wie möglich tun.
Wir haben einen zusätzlichen Cluster von Crawler-Servern bereitgestellt, mit denen wir eine durchschnittliche Geschwindigkeit von
2.000 Domänen pro Sekunde erreichen konnten . Somit
dauerte die Überprüfung von
252 Millionen Domains etwa anderthalb Tage .
Lyrischer ExkursParallel zum Crawlen entwickelt sich die Fähigkeit „1001 Möglichkeiten, Missbräuche zu beantworten“. Dies ist nur die Geißel einer mehr oder weniger großen Analyse. Es hat sich sehr gelohnt, den Algorithmus so zu modifizieren, dass er nicht in kurzer Zeit auf dieselbe IP-Adresse fällt oder nicht mehrmals auf https klopft.
Daten
Die wichtigste Zahl in der Netzwerkanalyse ist die Anzahl der "Live" -Domänen. Wir nennen die Domain "live", in die IP aufgelöst wird, und mindestens eine der Versionen www / without www_ http / https gibt einen Antwortcode an.

Natürlich können Sie den Code 418 nicht vergessen - Dummies: 2227 Stück.
Insgesamt wurden
13,2 Millionen IP-Adressen gefunden. Es ist erwähnenswert, dass für einige Domänen mehrere IP-Adressen gleichzeitig angegeben werden, für andere nur eine, aber jedes Mal anders.
Somit befindet sich bei der
Durchschnittstemperatur im Krankenhaus durchschnittlich 16 Standorte auf einer IP.
Das Bild nach Statuscodes lautet wie folgt:

Die Menge ist größer als die Gesamtzahl der Domains, weil Jeder Host kann 4 verschiedene Statuscodes vergeben (Kombinationen www / non www, http / https).
Https
Der Übergang zu https ist ein Trend der letzten Jahre. Suchmaschinen fördern aktiv die Implementierung eines sicheren Protokolls, und Google Chrome wird in Kürze http-Websites als unsicher markieren.

Somit erreichte der Anteil der auf https arbeitenden Websites
73% der Anzahl der auf http arbeitenden Websites.
Das größte Übergangsproblem ist der fast unvermeidliche Verkehrsrückgang Für Suchmaschinen sind http / https, auch in derselben Domain, technisch unterschiedliche Websites. Neue Projekte starten normalerweise sofort auf https.
www oder ohne www?
Die www-Subdomain entstand zusammen mit dem Internet selbst, aber selbst jetzt akzeptieren einige Leute keine Adressen ohne www.
Gleichzeitig ergeben 200 Antwortcodes für die Version
ohne WWW 118,6 Millionen . Domains und
mit www - 119,1 Millionen Domains .
Bei 4,3 Millionen Domains ist ip nicht an die Version ohne www gebunden, d. H. Sie werden nicht zu
example.com gehen. 3 Millionen Domains sind nicht an die WWW-Subdomain gebunden.
Ein wichtiger Punkt ist das Vorhandensein von Weiterleitungen zwischen Versionen. Weil Wenn in beiden Fällen 200 Codes angegeben werden, handelt es sich bei einer Suchmaschine um zwei verschiedene Websites mit doppeltem Inhalt. Ich möchte Sie daran erinnern, vergessen Sie nicht, die richtigen Weiterleitungen zu konfigurieren.
Weiterleitungen mit
www-> ohne www 32 Millionen ,
ohne www-> www 38 MillionenWenn ich mir diese Zahlen anschaue, fällt es mir schwer zu sagen, wer gewonnen hat - www oder ohne www.
Weiterleitungen
In SEO-Kreisen gibt es die Meinung, dass die effektivste Methode der Website-Werbung darin besteht, Weiterleitungen von nahezu thematischen Websites zu dieser Website zu veröffentlichen.
35,8 Millionen Domains werden an andere Hosts weitergeleitet. Wenn wir sie nach Zweck gruppieren, sehen wir die Verantwortlichen:

An der Spitze stehen traditionell Domain-Registrare und Parkplätze.
Wenn Sie oben nach weniger als 10.000 eingehenden Weiterleitungen suchen, sehen Sie viele bekannte Websites wie booking.com.
Und in den Top bis zu 1000 gibt es Casinos und andere Unterhaltungsseiten.
Server-Header
Endlich zum lustigen Teil!
186 Millionen Domains geben keinen leeren Header-Titel aus . Dies sind 87% aller lebenden Domänen, eine ziemlich zuverlässige Stichprobe.
Wenn Sie einfach nach Wert gruppieren, erhalten wir:

Die Führer sind 20 Server, die zusammen 96% haben:

Der Weltmarktführer ist Apache, Silber bei Nginx und schließt die Dreifaltigkeit von IIS. Insgesamt hosten diese drei Server
87% des weltweiten Internets.
Konservative Länder:

Es ist bemerkenswert, dass das Bild in Runet anders ist:

Hier ist Nginx der absolute Anführer, Apache hat einen dreimal geringeren Anteil.
Wo sonst magst du Nginx:

Die restlichen Server sind wie folgt verteilt:

X-Powered-By
Nur 57,3 Millionen Hosts haben den X-Powered-By- Header, was ungefähr 27% der Live-Domains entspricht.
Rohe Führer:

Wenn Sie die Daten verarbeiten und den Müll entsorgen, gewinnt PHP:

PHP-Versionen:

Persönlich bin ich etwas überrascht von einer solchen Popularität von 5,6 und gleichzeitig ist es erfreulich, dass der Gesamtanteil von sieben wächst.
Es gibt auch eine Seite in Runet, die besagt, dass sie mit PHP / 1.0 funktioniert, aber die Richtigkeit dieser Zahl ist fraglich.
Cookies

Fazit
Ich habe nur einen sehr kleinen Teil der gefundenen Informationen gezeigt. Das Eingraben in diese Daten ist wie das Eingraben in einen Müllhaufen, um interessante Artefakte zu finden.
Die Themen mit dem Blockieren von Suchmaschinen-Bots und Analysediensten (Ahrefs, Majestic und andere) blieben ungeöffnet. In einem solchen Beispiel gibt es viele verschiedene Satellitennetzwerke, unabhängig davon, wie Sie versuchen, die Fußabdrücke zu verbergen, aber in Tausenden von Domänen können Sie Muster erkennen.
In naher Zukunft sollen noch mehr Daten gesammelt werden, insbesondere zu Links, Wörtern, Werbesystemen, Analysecodes und vielem mehr.
Ich freue mich über Ihre Kommentare und Kommentare.