Cómo escaneamos todo Internet y lo que aprendimos

¿Cuántos sitios usas diariamente? Un par de redes sociales, un motor de búsqueda, varias editoriales favoritas, alrededor de 5 servicios de trabajo. Quizás, es poco probable que se tipeen más de 20 sitios.



¿Alguna vez se ha preguntado cuántos sitios en Internet y qué les sucede?

Periódicamente, los artículos presentan estudios basados ​​en una muestra de diferentes sitios principales de 1M. Pero siempre me preguntaba si es posible revisar todos los dominios de Internet sin crear análisis en una muestra muy pequeña.

La primera vez que hice esta pregunta fue hace más de un año. Comenzamos a desarrollar un rastreador para sitios web y necesitábamos probarlo en grandes volúmenes. Tomando el núcleo del rastreador, por primera vez revisé los dominios de Runet: son 5.5 millones de dominios, y después de los 213 millones de dominios (en el otoño de 2017).

En el pasado, se ha invertido mucho esfuerzo y dinero en el desarrollo, los algoritmos han mejorado, decidí volver al análisis de Internet y recopilar aún más datos.

El objetivo de esta recopilación de información es obtener una muestra confiable principalmente de hosts, redireccionamientos, encabezados de servidor y x-powered-by.

Método de recogida


La aplicación en sí está escrita en Go, usando sus propias implementaciones para trabajar con el cliente dns y http. Como la cola de redis, db es mysql.

Inicialmente, solo hay un dominio desnudo, como example.com. El análisis consta de varias etapas:

  1. verifique la disponibilidad de http://example.com, http://www.example.com, https://example.com, https://www.example.com
  2. si al menos una de las opciones logró conectarse, entonces:
    - analizar /robots.txt
    - verifique la presencia de /sitemap.xml

Alrededor de 100 mil dominios aparecen y se eliminan todos los días. Obviamente, es casi imposible hacer un reparto instantáneo del estado de la red, pero debe hacerlo lo más rápido posible.

Implementamos un grupo adicional de servidores de rastreo, lo que nos permitió alcanzar una velocidad promedio de 2 mil dominios por segundo . Por lo tanto, la verificación de 252 millones de dominios tomó aproximadamente un día y medio .

Digresión lírica
Paralelamente al rastreo, se desarrolla la habilidad "1001 formas de responder a los abusos". Esto es solo el flagelo de cualquier análisis más o menos grande. Valió mucho esfuerzo modificar el algoritmo para que no caiga en la misma ip en un período corto o no toque https varias veces.

Datos


La cifra más importante en el análisis de red es el número de dominios "en vivo". Llamamos al dominio "en vivo" al que resuelve IP y al menos una de las versiones www / sin www_ http / https proporciona ningún código de respuesta.



Por supuesto, no puede olvidarse del código 418 - para dummies: 2227 piezas.

En total, se encontraron 13,2 millones de direcciones IP . Vale la pena señalar que para algunos dominios se dan varias direcciones IP a la vez, para otros solo una, pero cada vez es diferente.
Por lo tanto, la temperatura promedio en el hospital , en promedio, 16 sitios se encuentran en una IP.

La imagen por códigos de estado es la siguiente:



la cantidad es mayor que el número total de dominios, porque cada host puede proporcionar 4 códigos de estado diferentes (combinaciones www / non www, http / https)

Https


La transición a https es una tendencia de los últimos años. Los motores de búsqueda están promoviendo activamente la implementación de un protocolo seguro, y Google Chrome pronto comenzará a marcar los sitios http como inseguros.



Por lo tanto, la proporción de sitios de trabajo en https alcanzó el 73% del número de sitios que trabajan en http.

El mayor problema de transición es la reducción de tráfico casi inevitable, ya que Para los motores de búsqueda http / https, incluso en el mismo dominio, son sitios técnicamente diferentes. Los nuevos proyectos generalmente comienzan de inmediato en https.

www o sin www?


El subdominio www surgió junto con Internet en sí, pero incluso ahora, algunas personas no aceptan direcciones sin www.

Al mismo tiempo, el código de respuesta 200 para la versión sin www da 118,6 millones . dominios, y con www - 119.1 millones de dominios .

Con 4,3 millones de dominios, ip no está vinculada a la versión sin www, es decir No irás a example.com . 3 millones de dominios no están vinculados ip al subdominio www.

Un punto importante es la presencia de redireccionamientos entre versiones. Porque si se dan 200 códigos en ambos casos, para un motor de búsqueda, estos son dos sitios diferentes con contenido duplicado. Quiero recordarte, no olvides configurar las redirecciones correctas.
Redirecciona con www-> sin www 32 millones , sin www-> www 38 millones

Mirando estos números, es difícil para mí decir quién ganó - www o sin www.

Redireccionamientos


En los círculos seo, existe la opinión de que el método más eficaz de promoción de sitios web es publicar redirecciones desde sitios casi temáticos.

35.8 millones de dominios serán redirigidos a otros hosts y si los agrupamos por propósito, vemos a los líderes:



Tradicionalmente, los principales son registradores de dominios y estacionamientos.

Si busca en la parte superior menos de 10,000 redirecciones entrantes, puede ver muchos sitios conocidos como booking.com.

Y en el top hasta 1000 hay casinos y otros sitios de entretenimiento.

Encabezado del servidor


Finalmente llegué a la parte divertida!

186 millones de dominios no dan un título de encabezado vacío . Este es el 87% de todos los dominios vivos, una muestra bastante confiable.

Si simplemente agrupa por valor, obtenemos:



Los líderes son 20 servidores, que en conjunto tienen el 96%:



El líder mundial es Apache, plata en Nginx y cierra la trinidad de IIS. En total, estos tres servidores alojan el 87% de Internet del mundo.

Países conservadores:



Es de destacar que en Runet la imagen es diferente:



Aquí Nginx es el líder absoluto, apache tiene una participación de tres veces menos.

¿Dónde más te gusta Nginx:



Los servidores restantes se distribuyen de la siguiente manera:



X-Powered-By


Solo 57.3 millones de hosts tienen el encabezado X-Powered-By , que es aproximadamente el 27% de los dominios activos.

Líderes en bruto:



si procesa los datos y descarta la basura, entonces php gana:



Versiones de PHP:



Personalmente, estoy algo sorprendido por tal popularidad de 5.6 y, al mismo tiempo, complace que la proporción total de sietes esté creciendo.

También hay un sitio en Runet que dice que funciona en php / 1.0, pero la veracidad de esta cifra es cuestionable.

Cookies




Conclusión


Mostré solo una parte muy pequeña de la información que se encontró. Excavar en estos datos es como excavar en un montón de basura para encontrar artefactos interesantes.

Los temas relacionados con el bloqueo de bots de motores de búsqueda y servicios de análisis (ahrefs, majestic y otros) permanecieron sin abrir. En esta muestra, hay muchas redes satelitales diferentes, no importa cómo intentes ocultar las huellas, pero en miles de dominios puedes ver patrones.

En un futuro cercano, para recopilar aún más datos, en particular sobre enlaces, palabras, sistemas de publicidad, códigos analíticos y mucho más.

Estaré encantado de escuchar sus comentarios y comentarios.

Source: https://habr.com/ru/post/es413739/


All Articles