كم عدد المواقع التي تستخدمها يوميا؟ زوجان من الشبكات الاجتماعية ، محرك بحث ، العديد من الناشرين المفضلين ، حوالي 5 خدمات عمل. ربما من غير المحتمل أن تتم كتابة أكثر من 20 موقعًا.

هل تساءلت يومًا عن عدد المواقع على الإنترنت وماذا يحدث لها؟
بشكل دوري ، تأتي المقالات بدراسات مبنية على عينة من أفضل مواقع 1 مليون مختلفة. لكنني كنت أتساءل دائمًا إذا كان من الممكن تصفح جميع نطاقات الإنترنت دون إنشاء تحليلات على عينة صغيرة جدًا.
سألت هذا السؤال لأول مرة منذ أكثر من عام. بدأنا في تطوير زاحف لمواقع الويب ونحتاج إلى اختباره على كميات كبيرة. مع أخذ جوهر الزاحف ، ذهبت أولاً إلى نطاقات Runet - هذا 5.5 مليون نطاق ، وبعد ذلك عبر جميع المجالات البالغ عددها 213 مليون نطاق (خريف 2017).
على مدار الماضي ، تم استثمار الكثير من الجهد والمال في التطوير ، وأصبحت الخوارزميات أفضل ، وقررت العودة إلى تحليل الإنترنت وجمع المزيد من البيانات.
الغرض من هذه المجموعة من المعلومات هو الحصول على عينة موثوقة بشكل أساسي من المضيفين العاملين ، وعمليات إعادة التوجيه ، ورؤوس الخادم و x-powered-by.
طريقة الجمع
يتم كتابة التطبيق نفسه في Go ، باستخدام تطبيقاته الخاصة للعمل مع عميل DNS و http. كقائمة انتظار redis ، db هو الخلية.
في البداية ، لا يوجد سوى مجال مجرد ، مثل example.com. يتكون التحليل من عدة مراحل:
- تحقق من توفر
http://example.com, http://www.example.com, https://example.com, https://www.example.com
- إذا تمكن أحد الخيارات على الأقل من الاتصال ، فعندئذٍ:
- تحليل ملف / robots.txt
- تحقق من وجود /sitemap.xml
يظهر حوالي
100 ألف نطاق وحذفها كل يوم. من الواضح أنه يكاد يكون من المستحيل إنشاء حالة فورية لحالة الشبكة ، ولكن عليك القيام بذلك في أسرع وقت ممكن.
لقد نشرنا مجموعة إضافية من خوادم الزاحف ، مما سمح لنا بتحقيق متوسط سرعة
2 ألف نطاق في الثانية . وهكذا ،
استغرق التحقق من
252 مليون نطاق حوالي يوم ونصف .
الاستطراد الغنائيبالتوازي مع الزحف ، تتطور مهارة "1001 طريقة للرد على الانتهاكات". هذه مجرد آفة أي تحليل كبير أكثر أو أقل. كان الأمر يتطلب الكثير من الجهد لتعديل الخوارزمية بحيث لا تقع على نفس IP في فترة قصيرة أو لا تدق على https عدة مرات.
البيانات
الرقم الأكثر أهمية في تحليل الشبكة هو عدد المجالات "الحية". نحن نسمي المجال "مباشر" الذي يحل به IP ويعطي أحد الإصدارات على الأقل www / بدون www_ http / https أي رمز استجابة.

بالطبع لا يمكنك نسيان الكود 418 - الدمى: 2227 قطعة.
في المجموع ، تم العثور على
13.2 مليون عنوان IP . من الجدير بالذكر أنه بالنسبة لبعض المجالات ، يتم إعطاء العديد من عناوين IP في وقت واحد ، وللنطاقات الأخرى عنوان واحد فقط ، ولكن يختلف كل مرة.
وبالتالي ،
يبلغ متوسط درجة الحرارة في المستشفى ، في المتوسط ، 16 موقعًا على عنوان IP واحد.
الصورة برموز الحالة هي كما يلي:

المبلغ أكبر من إجمالي عدد المجالات ، لأنه يمكن لكل مضيف إعطاء 4 رموز حالة مختلفة (مجموعات www / non www ، http / https)
Https
الانتقال إلى https هو اتجاه السنوات الأخيرة. تعمل محركات البحث بنشاط على تعزيز تنفيذ بروتوكول آمن ، وسيبدأ Google Chrome قريبًا في وضع علامة على مواقع http باعتبارها غير آمنة.

وبالتالي ، بلغت حصة مواقع العمل على https
73٪ من عدد المواقع التي تعمل على http.
أكبر مشكلة انتقالية هو تخفيض حركة المرور الذي لا مفر منه ، كما لمحركات البحث http / https ، حتى في نفس المجال ، هي مواقع مختلفة من الناحية الفنية. تبدأ المشاريع الجديدة عادةً فورًا على https.
www أو بدون www؟
جاء النطاق الفرعي www مع الإنترنت نفسها ، ولكن حتى الآن ، لا يقبل بعض الأشخاص العناوين بدون www.
في الوقت نفسه ،
يعطي 200 رمز استجابة للنسخة
بدون www 118.6 مليون . المجالات ،
ومع www - 119.1 مليون المجالات .
عند 4.3 مليون نطاق ، لا يتم ربط IP بالإصدار بدون www ، أي لن تذهب إلى
example.com . لا يتم ربط 3 ملايين نطاق بالملكية الفكرية لنطاق www الفرعي.
نقطة مهمة هي وجود عمليات إعادة توجيه بين الإصدارات. لأن إذا تم إعطاء 200 كود في كلتا الحالتين ، فإن محرك البحث هما موقعان مختلفان مع محتوى مكرر. أريد أن أذكركم ، لا تنسوا تكوين عمليات إعادة التوجيه الصحيحة.
عمليات إعادة التوجيه باستخدام
www-> بدون www 32 مليون ،
بدون www-> www 38 مليونبالنظر إلى هذه الأرقام ، من الصعب بالنسبة لي أن أقول من فاز - www أو بدون www.
عمليات إعادة التوجيه
في دوائر كبار المسئولين الاقتصاديين ، هناك رأي مفاده أن الطريقة الأكثر فعالية للترويج لموقع الويب هي نشر عمليات إعادة التوجيه إليه من المواقع شبه المواضيعية.
سيتم إعادة توجيه 35.8 مليون نطاق إلى مضيفين آخرين ، وإذا قمنا بتجميعها حسب الغرض ، فإننا نرى القادة:

تقليديا ، الأعلى هم مسجلي المجال ومواقف السيارات.
إذا نظرت إلى الجزء العلوي لعدد أقل من 10000 عملية إعادة توجيه واردة ، فيمكنك مشاهدة العديد من المواقع المألوفة مثل booking.com.
وفي الأعلى حتى 1000 يوجد كازينوهات ومواقع ترفيهية أخرى.
رأس الخادم
وصل أخيرا إلى الجزء الممتع!
186 مليون نطاق لا يعطي عنوان رأس فارغ . هذا هو 87 ٪ من جميع المجالات الحية ، وهي عينة موثوق بها إلى حد ما.
إذا جمعت ببساطة حسب القيمة ، نحصل على:

القادة هم 20 خادومًا ، معًا 96 ٪ منهم:

الشركة الرائدة عالمياً هي Apache والفضة في Nginx وتغلق ثالوث IIS. في المجموع ، تستضيف هذه الخوادم الثلاثة
87٪ من الإنترنت في العالم.
الدول المحافظة:

من الجدير بالذكر أنه في Runet الصورة مختلفة:

هنا Nginx هي القائدة المطلقة ، تمتلك أباتشي حصة أقل بثلاث مرات.
في أي مكان آخر تحب Nginx:

يتم توزيع الخوادم المتبقية على النحو التالي:

X مدعوم من قبل
فقط 57.3 مليون مضيف لديهم رأس X-Powered-By ، وهو ما يقرب من 27٪ من المجالات المباشرة.
القادة الخام:

إذا قمت بمعالجة البيانات والتخلص من القمامة - ثم يفوز php:

إصدارات PHP:

أنا شخصياً فوجئت إلى حد ما بهذه الشعبية البالغة 5.6 وفي نفس الوقت ، يسرني أن إجمالي حصة السبعات في تزايد.
هناك أيضًا موقع واحد في Runet يقول أنه يعمل على php / 1.0 ، ولكن صحة هذا الرقم مشكوك فيه.
ملفات تعريف الارتباط

الخلاصة
عرضت جزءًا صغيرًا جدًا من المعلومات التي تم العثور عليها. يشبه الحفر في هذه البيانات الحفر في كومة من القمامة للعثور على القطع الأثرية المثيرة للاهتمام.
بقيت الموضوعات التي تم حظر برامج تتبع محركات البحث وخدمات التحليلات (ahrefs و majestic وغيرها) غير مفتوحة. في هذه العينة ، هناك العديد من شبكات الأقمار الصناعية المختلفة ، بغض النظر عن كيفية محاولتك إخفاء آثار الأقدام ، ولكن على آلاف المجالات يمكنك رؤية الأنماط.
في المستقبل القريب ، لجمع المزيد من البيانات ، ولا سيما حول الروابط والكلمات وأنظمة الإعلان ورموز التحليلات وغير ذلك الكثير.
سأكون سعيدا لسماع تعليقاتكم وتعليقاتكم.