كم عدد أسماء نطاق .com لا تستخدم؟

عند البحث عن أسماء مجانية في منطقة .com ، فوجئت بشكل غير سارة بعدد المجالات التي تم شغلها بالفعل ولكن غير المستخدمة. على ما يبدو ، يتم تسجيل جميع المجموعات الواضحة من الرسائل بجميع اللغات الرئيسية في العالم. وحتى مجموعات قصيرة لا يمكن التنبؤ بها. إما أن يكون هناك سوق نطاق كبير ، أو تفعل نفس الأسماء تتبادر إلى الذهن مثل أي شخص آخر؟ دعونا نلقي نظرة على الإحصاءات العارية ...

يوجد حاليا 137 مليون اسم نطاق مسجل. وفقًا لـ Verisign ، اعتبارًا من 27 يناير 2019 ، هناك 137،756،106 نطاقًا .com في "المنطقة النشطة". قبل ذلك ، راجعت صحة الشكل مع ملف منطقة DNS.

من هذه ، يتم استخدام حوالي الثلث (الشركات ، والمواقع الشخصية ، والبريد الإلكتروني ، وما إلى ذلك). ثالث آخر ، على ما يبدو ، لا يستخدم ، والثالث الأخير يستخدم لأغراض المضاربة المختلفة.

إليك كيفية استخدام النطاقات (في عينة من 2188 قطعة):



كيف حصلت على هذه الأرقام


لقد بدأت الزحف باختيار عشوائي لنطاقات المستوى الأعلى من ملف DNS للمنطقة (تم تنزيل الملف في 01/21/2019 ، واستمرت عملية الزحف حتى 01/23/2019) حتى وصلت إلى 100000 نطاق صالح (ليست كل الإدخالات صالحة هناك ، وبعضها يعمل كمقاطع للقبض الأشخاص الذين يوزعون ملفات المنطقة بشكل غير قانوني ، وحوالي 1٪ هم خوادم أسماء ؛ وبعد استبعادهم ، تبقى 98 854 نطاقات صالحة).

لكل مجال ، قمت بجمع ما يلي:

  • سجل WHOIS
  • جميع سجلات DNS لنطاقات المستوى الأعلى والنطاقات الفرعية www (مع ANY استعلام DNS مباشرة إلى خوادم الأسماء المحددة في سجل WHOIS) ؛
  • ردود HTTP و HTTPS (رمز الحالة ، الرؤوس والهيئات) للصفحة الرئيسية لنطاق المستوى الأعلى والنطاق الفرعي www (شهادات SSL غير صالحة صنفت المجال في فئة Error ) ؛
  • لقطة شاشة للصفحة الرئيسية في Mozilla Firefox 64.0 لنظام التشغيل Linux.

استغرق المسح الضوئي أكثر من 48 ساعة بقليل من خادم واحد في مركز بيانات سنغافورة. ثم أطلقت المرحلة الثانية من الزحف لجميع المجالات التي تعذرت الاتصال عبر HTTP أو HTTPS (في حالة وجود أخطاء مؤقتة). وأخيرًا ، بالنسبة إلى نطاقات 2188 من العينة ، راجعت جميع الأخطاء يدويًا في حالة انتهاء وقت الزاحف أو حظر DOM في JavaScript.

ثم كتبت نصًا مساعدًا لتسريع التصنيف اليدوي للمواقع بناءً على لقطة الشاشة ومحتواها.


يقدم البرنامج النصي الفئات المحتملة كقائمة من الأزرار ذات المحتوى الافتراضي

باستخدام هذا البرنامج النصي ، قمت بتصنيف المواقع في يومين. ليس من الضروري تمييز جميع المواقع يدويًا: في بعض الحالات ، كانت الفئة واضحة في الحقل <title> ، لذلك قمت بتطبيق تعبيرات منتظمة. في حالات أخرى ، لم تكن لقطة الشاشة كافية ، لذا اضطررت إلى فتح المجال يدويًا في المتصفح للتحقق.

ملخص الإحصاءات والاستنتاجات


أفضل 10 مسجلين .com من مجموعة من 100000 نطاق




  • سجلت GoDaddy ثلث جميع أسماء النطاقات. هذه هي حوالي 45 مليون المجالات. من هذه ، كل صفحة وقوف السيارات الثالثة. بمعنى آخر ، أكثر من 10٪ من جميع نطاقات .com على الإنترنت تضع إعلانات GoDaddy.
  • على الرغم من أن عينة من 1851 من المسجلين ، يتم التحكم فيها من قبل عدد صغير من المشغلين. على سبيل المثال ، يتحكم DropCatch.com فقط في أكثر من ألف مسجل: DropCatch.com 1000 LLC و DropCatch.com 1001 LLC و DropCatch.com 1002 وما إلى ذلك ؛ يستخدم المسجلون الآخرون مخططات مماثلة مع أرقام ، ولكن لدى البعض مخططات أقل وضوحًا.
  • خلال العام الماضي ، تم تسجيل 25 ٪ من المجالات.

عصر المجالات من عينة من 100000 وحدة (بالسنوات)




فئات المجال


تم استكمال قائمة الفئات أثناء عملك. على سبيل المثال ، لم أكن أتوقع عددًا كبيرًا من المجالات للمقامرة (تحت الأسماء المستعارة).

بالنسبة لمعظم الفئات ، يتم توفير مجموعة عشوائية من لقطات الشاشة.

المحتوى (31 ٪ أو حوالي 43 مليون دولار)


المحتوى مجال له أي محتوى فريد. هذه هي الفئة الافتراضية التي أضع فيها أي مواقع في حالة الشك.



الإعلان (23 ٪ أو حوالي 31 مليون دولار)


يرجى ملاحظة أن نصف النطاقات في هذه الفئة هي صفحات مواقف GoDaddy ، حيث يضع GoDaddy إعلانات Google للكلمات الرئيسية ذات الصلة باسم المجال.



لا يوجد خادم ويب (11٪ أو حوالي 16 مليون)


إذا لم أتمكن من الاتصال أو الحصول على استجابة صالحة على المنفذ 80 أو 443 لنطاق المستوى الأعلى أو النطاق الفرعي www ، في حين أن المجال لا يحتوي على سجل MX ، فقد وضعته في هذه الفئة. ربما يتم استخدام بعض هذه المجالات بطريقة أخرى ، على سبيل المثال ، كملقمات FTP أو ألعاب ، ولكن يبدو لي أن هذه الأقلية. أي مواقع على IPv6 حصلت هنا أيضًا ، لأنه تم تكوين خادم الزاحف فقط ل IPv4.

فارغة (9.2٪ أو حوالي 13 مليون)


المجال الفارغ هو المجال الذي يستجيب عليه خادم الويب ، لكنه يعرض صفحات فارغة أو 404 أخطاء أو قوالب فارغة (على سبيل المثال ، إعدادات WordPress الافتراضية).

يتمثل الاختلاف بين المجال الفارغ والمجال المستضاف في أنه من المفترض أن يتم تكوين المجال الفارغ بواسطة المستخدم ، ولكن المحتوى لم تتم إضافته بعد.



للبيع (7.1٪ أو حوالي 9.8 مليون)


يتم طرح العديد من المجالات للبيع من خلال العديد من الوسطاء ومنصات التداول. يبدو أن HugeDomains قد بيع نصفها تقريبًا ، على الرغم من أن موقعه على الويب يتحدث فقط عن "أكثر من 200000" نطاق متاح للشراء. لقد أخذت في الاعتبار المجالات فقط من المواقع المعروفة أو عندما لم يتم تضمين تفاصيل الاتصال في الإعلان ، لأن شبكات الإعلانات والوسطاء غالبًا ما تكمن في أنها تمثل مالك النطاق (بدلاً من ذلك ، قمت بتصنيف جميع هذه المجالات كإعلانات).



خطأ (5.7 ٪ أو حوالي 7.9 مليون دولار)


إذا أرجع المجال خطأ من أي نوع ، سواء كان خطأ HTTP أو خطأ على الصفحة ، فقد خصصته لهذه الفئة.

يرجى ملاحظة أن بعض النطاقات الخاصة يمكن أن تصل هنا عن طريق الخطأ إذا استخدموا المصادقة التقليدية ، لأنني لم أميز 403 محظور (بسبب عدم وجود بيانات اعتماد أساسية للمصادقة) عن الأخطاء الأخرى.



متوقفة (4.8 ٪ أو حوالي 6.5 مليون دولار)


تعرض المجالات المتوقفة صفحة المسجل أو تشير إلى أن المجال لم يتم تكوينه بعد. لتقع في هذه الفئة ، يجب أن يصدر المجال صفحة بدون إعلانات خارجية. يمكنه الإعلان عن خدماته الخاصة ، ولكن لا يمكنه نشر إعلانات من شبكة الإعلانات.



المقامرة (3.0٪ أو حوالي 4 ملايين)


جميع مواقع هذه الفئة تقريبًا باللغة الصينية وتعمل ضمن الأسماء المستعارة: غالبًا ما تكون هذه سلاسل قصيرة من الأرقام أو الحروف الساكنة (على سبيل المثال ، 17770012 أو tdwhtr). تتبع الأنماط الشائعة وتحتوي على صور مماثلة ، غالبًا باستخدام الشعارات التي يتم إنشاؤها تلقائيًا. أعتقد أن هدفهم هو جذب الناس لحظ سعيد.



البريد (2.6 ٪ أو حوالي 3.5 مليون دولار)


إذا لم يندرج المجال في أي فئة ، ولكن لديه سجل MX في DNS (للبريد الإلكتروني) ، فقد قمت بتعيينه إلى فئة "البريد". لم يتحقق ما إذا كان خادم البريد أو التسليم يعمل. من المحتمل أن العديد من هذه المجالات لا تستخدم للبريد الإلكتروني.

إعادة التوجيه (1.1٪ أو حوالي 1.6 مليون)


يتضمن ذلك "مجالات الغرور" التي يتم إرسالها إلى صفحات Facebook ، وأسماء الشركات البديلة ، إلخ.

خاص (0.64٪ أو حوالي 0.9 مليون)


هذه هي المواقع التي لا يتوفر فيها محتوى دون الحصول على إذن (أو في بعض الحالات ، التسجيل).



الاباحية (0.59 ٪ أو ~ 0.8 مليون)


مثل مواقع المقامرة ، تعمل العديد من المواقع الإباحية تحت أسماء مستعارة مختلفة. غالبًا ما تكون مواقع الويب باللغة الصينية ، وتتبع النطاقات أنماط تسمية مماثلة. نظرًا لأن العديد من المواقع تعرض المواد الإباحية مباشرةً (دون سابق إنذار) ، لم أقم بالتقاط لقطات شاشة.

Source: https://habr.com/ru/post/ar440600/


All Articles