Berapa banyak nama domain .com yang tidak digunakan?

Saat mencari nama gratis di zona .com, saya terkejut dengan jumlah domain yang sudah terisi tetapi tidak terpakai. Rupanya, semua kombinasi huruf yang diucapkan dalam semua bahasa utama dunia terdaftar. Dan bahkan kombinasi pendek yang tidak dapat dilanggar. Apakah ada pasar domain yang besar, atau apakah nama yang sama muncul di pikiran seperti orang lain? Mari kita lihat statistik telanjangnya ...

Saat ini ada 137 juta nama domain terdaftar. Menurut Verisign , pada 27 Januari 2019, ada 137.756.106 domain .com di "zona aktif". Sebelum itu, saya memeriksa kebenaran gambar dengan file zona DNS.

Dari jumlah tersebut, sekitar sepertiganya digunakan (bisnis, situs web pribadi, email, dll.). Sepertiga lainnya, tampaknya, tidak digunakan, dan sepertiga terakhir digunakan untuk berbagai tujuan spekulatif.

Begini cara domain digunakan (dalam sampel 2188 keping):



Bagaimana saya mendapat angka-angka ini


Saya mulai merangkak dengan pilihan acak dari domain tingkat atas dari file DNS zona (file itu diunduh pada 01/21/2019, dan merangkak berlanjut hingga 23/01/2019) sampai saya mencapai 100.000 domain yang valid (tidak semua entri valid di sana, beberapa bertindak sebagai catchpots untuk penangkapan orang-orang yang secara ilegal mendistribusikan file zona, dan sekitar 1% adalah server nama; setelah pengecualian mereka, 98.884 domain yang valid tetap ada).

Untuk setiap domain, saya menyusun yang berikut:

  • Catatan WHOIS
  • semua catatan DNS untuk domain tingkat atas dan subdomain www (dengan kueri DNS ANY langsung ke server nama yang ditentukan dalam catatan WHOIS);
  • Respons HTTP dan HTTPS (kode status, tajuk dan badan) untuk halaman utama domain tingkat atas dan subdomain www (sertifikat SSL tidak valid mengklasifikasikan domain dalam kategori Error );
  • tangkapan layar halaman utama di Mozilla Firefox 64.0 untuk Linux.

Pemindaian memakan waktu lebih dari 48 jam dari satu server di pusat data Singapura. Lalu saya meluncurkan tahap kedua perayapan untuk semua domain yang tidak dapat terhubung melalui HTTP atau HTTPS (jika terjadi kesalahan sementara). Dan akhirnya, untuk 2188 domain dari sampel, saya secara manual memeriksa semua kesalahan jika perayap kehabisan waktu atau peristiwa DOM diblokir dalam JavaScript.

Kemudian saya menulis skrip pembantu untuk mempercepat klasifikasi manual situs berdasarkan tangkapan layar dan konten mereka.


Skrip menyajikan kategori yang mungkin sebagai daftar tombol dengan konten default

Dengan skrip ini, saya mengategorikan situs dalam dua hari. Tidak semua situs harus dibedakan secara manual: dalam beberapa kasus, kategorinya jelas di bidang <title>, jadi saya menerapkan ekspresi reguler. Dalam kasus lain, tangkapan layar tidak cukup, jadi saya harus membuka domain secara manual di browser untuk verifikasi.

Statistik ringkasan dan kesimpulan


Pendaftar 10 .com teratas dari 100.000 pilihan domain




  • GoDaddy telah mendaftarkan sepertiga dari semua nama domain. Ini adalah sekitar 45 juta domain. Dari jumlah tersebut, setiap halaman parkir ketiga. Dengan kata lain, lebih dari 10% dari semua domain .com di Internet menempatkan iklan GoDaddy.
  • Meskipun sampel 1851 pendaftar, mereka dikendalikan oleh sejumlah kecil operator. Misalnya, hanya DropCatch.com yang mengendalikan lebih dari seribu pendaftar: DropCatch.com 1000 LLC, DropCatch.com 1001 LLC, DropCatch.com 1002 dan seterusnya; pendaftar lain menggunakan skema serupa dengan angka, tetapi beberapa memiliki skema yang kurang jelas.
  • Selama setahun terakhir, 25% domain terdaftar.

Usia domain dari sampel 100.000 unit (dalam tahun)




Kategori Domain


Daftar kategori ditambahkan saat Anda bekerja. Misalnya, saya tidak mengharapkan sejumlah besar domain untuk judi (berdasarkan alias).

Untuk sebagian besar kategori, pilihan tangkapan layar acak disediakan.

Konten (31% atau ~ 43 juta)


Konten adalah domain dengan konten unik apa pun. Ini adalah kategori default tempat saya menaruh situs apa pun jika ragu.



Periklanan (23% atau ~ 31 juta)


Harap perhatikan bahwa setengah dari domain dalam kategori ini adalah halaman parkir GoDaddy, tempat GoDaddy menempatkan iklan Google untuk kata kunci yang terkait dengan nama domain.



Tidak ada server web (11% atau ~ 16 juta)


Jika saya tidak dapat menghubungkan atau menerima respons yang valid pada port 80 atau 443 untuk domain tingkat atas atau subdomain www, sementara domain tersebut tidak memiliki catatan MX, saya memasukkannya ke dalam kategori ini. Beberapa domain ini mungkin digunakan dalam beberapa cara lain, misalnya, sebagai FTP atau server game, tetapi bagi saya sepertinya minoritas. Semua situs di IPv6 juga ada di sini, karena server perayap dikonfigurasikan hanya untuk IPv4.

Kosong (9,2% atau ~ 13 juta)


Domain kosong adalah domain yang direspons oleh server web, tetapi mengembalikan halaman kosong, 404 kesalahan atau template kosong (misalnya, pengaturan default WordPress).

Perbedaan antara domain kosong dan parkir adalah bahwa domain kosong mungkin dikonfigurasikan oleh pengguna, tetapi kontennya belum ditambahkan.



Dijual (7,1% atau ~ 9,8 juta)


Banyak domain disiapkan untuk dijual melalui berbagai broker dan platform perdagangan. Hampir setengah dari mereka tampaknya dijual oleh HugeDomains, meskipun situs web mereka hanya berbicara tentang "lebih dari 200.000" domain yang tersedia untuk dibeli. Saya hanya memperhitungkan domain dari situs yang dikenal atau ketika detail kontak tidak dimasukkan dalam iklan, karena jaringan iklan dan broker sering berbohong yang mewakili pemilik domain (sebagai gantinya, saya mengklasifikasikan semua domain tersebut sebagai iklan).



Kesalahan (5,7% atau ~ 7,9 juta)


Jika domain mengembalikan kesalahan jenis apa pun, baik itu kesalahan HTTP atau kesalahan pada halaman, saya menugaskannya ke kategori ini.

Harap perhatikan bahwa beberapa domain pribadi tidak sengaja dapat sampai di sini jika mereka menggunakan otentikasi konvensional, karena saya tidak membedakan 403 Forbidden (karena kurangnya kredensial dasar untuk otentikasi) dari kesalahan lain.



Diparkir (4,8% atau ~ 6,5 juta)


Domain terparkir menampilkan halaman pendaftar atau menunjukkan bahwa domain belum dikonfigurasikan. Untuk masuk dalam kategori ini, domain harus mengeluarkan halaman tanpa iklan eksternal. Dia dapat mengiklankan layanannya sendiri, tetapi tidak dapat memposting iklan dari jaringan iklan.



Perjudian (3,0% atau ~ 4 juta)


Hampir semua situs dari kategori ini adalah dalam bahasa Cina dan bekerja dengan alias: sering kali ini adalah rangkaian angka atau konsonan pendek (misalnya, 17770012 atau tdwhtr). Mereka mengikuti pola umum dan berisi gambar yang serupa, seringkali dengan logo yang dibuat secara otomatis. Saya kira tujuan mereka adalah untuk menarik orang agar beruntung.



Mail (2,6% atau ~ 3,5 juta)


Jika domain tidak termasuk dalam kategori apa pun, tetapi memiliki catatan MX dalam DNS (untuk email), saya menugaskannya ke kategori "Mail". Tidak memeriksa apakah server email atau pengiriman berfungsi. Mungkin banyak dari domain ini tidak digunakan untuk email.

Redirect (1,1% atau ~ 1,6 juta)


Ini termasuk "domain rias" yang dikirim ke halaman Facebook, nama perusahaan alternatif, dll.

Pribadi (0,64% atau ~ 0,9 juta)


Ini adalah situs di mana tidak ada konten yang tersedia tanpa otorisasi (atau, dalam beberapa kasus, pendaftaran).



Porno (0,59% atau ~ 0,8 juta)


Seperti situs judi, banyak situs porno beroperasi dengan alias berbeda. Situs web sebagian besar dalam bahasa Cina, dan domain mengikuti pola penamaan yang serupa. Karena banyak situs menampilkan materi pornografi secara langsung (tanpa peringatan), saya tidak mengambil tangkapan layar.

Source: https://habr.com/ru/post/id440600/


All Articles