Bagaimana kami memindai seluruh Internet dan apa yang kami pelajari

Berapa banyak situs yang Anda gunakan setiap hari? Beberapa jejaring sosial, mesin pencari, beberapa penerbit favorit, sekitar 5 layanan yang berfungsi. Mungkin, tidak mungkin bahwa lebih dari 20 situs akan diketik.



Pernahkah Anda bertanya-tanya berapa banyak situs di Internet dan apa yang terjadi pada mereka?

Secara berkala, artikel muncul dengan studi yang dibangun pada sampel berbagai situs 1M teratas. Tapi saya selalu bertanya-tanya apakah mungkin untuk menjelajahi semua domain Internet tanpa membangun analitik pada sampel yang sangat kecil.

Saya pertama kali menanyakan pertanyaan ini lebih dari setahun yang lalu. Kami mulai mengembangkan perayap untuk situs web dan perlu mengujinya dalam volume besar. Mengambil inti dari perayap, saya pertama-tama membahas domain Runet - ini adalah 5,5 juta domain, dan setelah itu di seluruh 213 juta domain (musim gugur 2017).

Selama masa lalu, banyak usaha dan uang telah diinvestasikan dalam pengembangan, algoritme menjadi lebih baik, saya memutuskan untuk kembali ke analisis Internet dan mengumpulkan lebih banyak data.

Tujuan dari pengumpulan informasi ini adalah untuk mendapatkan sampel yang andal terutama dari host yang bekerja, arahan ulang, header server dan x-powered-by.

Metode pengumpulan


Aplikasi itu sendiri ditulis dalam Go, menggunakan implementasinya sendiri untuk bekerja dengan klien dns dan http. Sebagai antrian redis, db adalah mysql.

Awalnya, hanya ada domain kosong, seperti example.com. Analisis ini terdiri dari beberapa tahap:

  1. periksa ketersediaan http://example.com, http://www.example.com, https://example.com, https://www.example.com
  2. jika setidaknya salah satu opsi berhasil terhubung, maka:
    - menganalisis /robots.txt
    - periksa keberadaan /sitemap.xml

Sekitar 100 ribu domain muncul dan dihapus setiap hari. Jelas, hampir tidak mungkin membuat status jaringan instan, tetapi Anda perlu melakukan ini secepat mungkin.

Kami mengerahkan sekelompok server perayap tambahan, yang memungkinkan kami mencapai kecepatan rata-rata 2 ribu domain per detik . Dengan demikian, verifikasi 252 juta domain memakan waktu sekitar satu setengah hari .

Penyimpangan liris
Sejalan dengan merangkak, keterampilan "1001 cara untuk menjawab pelanggaran" berkembang. Ini hanyalah momok dari analisis yang kurang lebih besar. Perlu banyak upaya untuk memodifikasi algoritma sehingga tidak jatuh pada ip yang sama dalam waktu singkat atau tidak mengetuk https beberapa kali.

Data


Angka paling penting dalam analisis jaringan adalah jumlah domain "langsung". Kami menyebut domain "langsung" tempat IP diselesaikan dan setidaknya salah satu versi www / tanpa www_ http / https memberikan kode respons apa pun.



Tentu Anda tidak bisa melupakan kode 418 - Dummiesis: 2227 lembar.

Secara total, 13,2 juta alamat ip ditemukan. Perlu dicatat bahwa untuk beberapa domain beberapa alamat IP diberikan sekaligus, untuk yang lain hanya satu, tetapi setiap kali berbeda.
Dengan demikian, suhu rata - rata di rumah sakit , rata-rata, 16 situs berada pada satu IP.

Gambar dengan kode status adalah sebagai berikut:



jumlahnya lebih besar dari jumlah total domain, karena setiap host dapat memberikan 4 kode status yang berbeda (kombinasi www / non www, http / https)

Https


Transisi ke https adalah tren beberapa tahun terakhir. Mesin pencari secara aktif mempromosikan penerapan protokol aman, dan Google Chrome akan segera mulai menandai situs http sebagai tidak aman.



Dengan demikian, pangsa situs yang bekerja di https mencapai 73% dari jumlah situs yang bekerja di http.

Masalah transisi terbesar adalah penarikan lalu lintas yang hampir tak terhindarkan, seperti untuk mesin pencari http / https, bahkan pada domain yang sama, secara teknis adalah situs yang berbeda. Proyek baru biasanya mulai segera di https.

www atau tanpa www?


Subdomain www muncul bersama dengan internet itu sendiri, tetapi bahkan sekarang, beberapa orang tidak menerima alamat tanpa www.

Pada saat yang sama, 200 kode respons untuk versi tanpa www menghasilkan 118,6 juta . domain, dan dengan www - 119,1 juta domain .

Pada 4,3 juta domain, ip tidak terikat dengan versi tanpa www, mis. Anda tidak akan pergi ke example.com . 3 juta domain tidak terikat ip ke subdomain www.

Poin penting adalah keberadaan pengalihan antar versi. Karena jika 200 kode diberikan dalam kedua kasus, maka untuk mesin pencari ini adalah dua situs yang berbeda dengan konten duplikat. Saya ingin mengingatkan Anda, jangan lupa untuk mengkonfigurasi pengalihan yang benar.
Redirect dengan www-> tanpa www 32 juta , tanpa www-> www 38 juta

Melihat angka-angka ini, sulit bagi saya untuk mengatakan siapa yang menang - www atau tanpa www.

Arahan ulang


Di kalangan seo ada pendapat bahwa metode promosi situs web yang paling efektif adalah memposting arahan ulang dari situs yang hampir bertema.

35,8 juta domain akan dialihkan ke host lain dan jika kami mengelompokkannya secara sengaja, kami melihat para pemimpin:



Secara tradisional, yang teratas adalah pendaftar domain dan tempat parkir.

Jika Anda melihat di bagian atas kurang dari 10.000 pengalihan yang masuk, Anda dapat melihat banyak situs yang sudah dikenal seperti booking.com.

Dan di atas hingga 1000 ada kasino dan situs hiburan lainnya.

Header server


Akhirnya sampai pada bagian yang menyenangkan!

186 juta domain tidak memberikan judul Header kosong . Ini adalah 87% dari semua domain yang hidup, sampel yang cukup andal.

Jika Anda hanya mengelompokkan berdasarkan nilai, kami mendapatkan:



Para pemimpin adalah 20 server, yang bersama-sama memiliki 96%:



Pemimpin dunia adalah Apache, perak di Nginx dan menutup trinitas IIS. Secara total, ketiga server ini menampung 87% dari Internet dunia.

Negara Konservatif:



Perlu dicatat bahwa dalam Runet gambarnya berbeda:



Di sini Nginx adalah pemimpin absolut, apache memiliki pangsa tiga kali lebih sedikit.

Di mana lagi Anda suka Nginx:



Server yang tersisa didistribusikan sebagai berikut:



X-Didukung-Oleh


Hanya 57,3 juta host memiliki header X-Powered-By , yang merupakan sekitar 27% dari domain langsung.

Pemimpin mentah:



jika Anda memproses data dan membuang sampah - maka php menang:



Versi PHP:



Secara pribadi, saya agak terkejut dengan popularitas 5,6 dan pada saat yang sama, menyenangkan bahwa total pangsa tujuh tumbuh.

Ada juga satu situs di Runet yang mengatakan itu berfungsi di php / 1.0, tetapi kebenaran angka ini dipertanyakan.

Kue kering




Kesimpulan


Saya hanya memperlihatkan sebagian kecil dari informasi yang ditemukan. Menggali data ini seperti menggali di tumpukan sampah untuk menemukan artefak yang menarik.

Topik dengan memblokir bot mesin pencari dan layanan analitik (ahrefs, agung dan lainnya) tetap belum dibuka. Pada sampel ini, ada banyak jaringan satelit yang berbeda, tidak peduli bagaimana Anda mencoba menyembunyikan jejak kaki, tetapi pada ribuan domain Anda dapat melihat polanya.

Dalam waktu dekat, untuk mengumpulkan lebih banyak data, khususnya tentang tautan, kata-kata, sistem periklanan, kode analitik, dan banyak lagi lainnya.

Saya akan senang mendengar komentar dan komentar Anda.

Source: https://habr.com/ru/post/id413739/


All Articles