
Internet es un entorno grande y dinámico donde todo está conectado entre sí de una manera u otra y puede influirse entre sí. Tal relación, cuando un pequeño cambio en una parte del sistema puede conducir a un cambio completo en otra, se conoce popularmente como el "efecto mariposa". El efecto ilustra perfectamente cómo una "botas bien colocadas en la consola" puede hacer caer un servicio importante y, al mismo tiempo, un par de extraños ... Hablaremos de esto.
Hace cinco años, cuando apareció el Wi-Fi en el metro ...
... fue un fenómeno que dividió la vida de los moscovitas en "antes" y "después". En ese momento, el proyecto era el único en el mundo, y todo en él era igual de único: estructura de red, modelo de monetización, servicios de usuario, enfoques de construcción y operación.
Casi desde el lanzamiento del primer segmento de Wi-Fi en el metro, obtuvimos autorización y nuestro propio portal de medios. Experimentamos generosamente con el portal en términos de integración con servicios de terceros, de hecho, exploramos las capacidades de nuestro modelo de negocio ("¿y si vendemos café en el metro con entrega a la entrada desde el lobby?").
Al principio, involucramos activamente a socios de diversos campos en nuestro trabajo. Pero casi todas las publicaciones de un nuevo servicio de afiliación llevaron a la caída de este último bajo carga y la necesidad de una reversión de emergencia de los cambios. Pocas personas pueden sobrevivir a miles de nuevas solicitudes por minuto, y algunas son incapaces de hacerlo en principio debido a la arquitectura no escalable. La presencia de tal problema nos hizo monitorear el desempeño de los servicios de afiliados, de los cuales la experiencia del usuario depende directamente. Y también desarrollar mecanismos para reducir esta dependencia (proxy, caché).
Una vez que un fuerte grito en la oficina de "Five Hundred" puso en marcha a toda la compañía, ahora tales situaciones prácticamente no ocurren. En la pantalla de julio de 2015, el resultado del lanzamiento de un servicio de venta de flores con entrega en nuestro subdominio.Pero la evolución nunca va rápido. Antes de construir el sistema actual, teníamos que "llenar conos" y experimentar toda una serie de accidentes por nuestra propia experiencia. Además, el proceso no se detiene: cuanto más profundizamos en los problemas, más identificamos las dependencias más inesperadas. Mirando hacia atrás, entendemos lo importante que es a veces tener un ejemplo de cómo sucede. Eso es lo que queremos compartir.
El nuevo iOS redujo el tráfico en un 20%
MaximaTelecom se especializa en la construcción de redes en el transporte. La gran mayoría de los dispositivos de suscriptores que usan nuestra red son móviles, teléfonos inteligentes y tabletas basados en Android e iOS. Ambos proveedores, Google y Apple, tienen hojas de ruta para lanzar actualizaciones a sus sistemas operativos. En las nuevas versiones, los módulos responsables de conectarse a Wi-Fi a menudo cambian. En el mejor de los casos, el día del lanzamiento de la actualización, el tráfico está creciendo debido a que los dispositivos descargan la actualización a través de Wi-Fi. Pero hay casos catastróficos.
El año pasado, Apple lanzó una nueva versión de iOS 10.3.1, después de lo cual el tráfico de la red se estrelló en casi un 20%. Resultó que en la nueva versión, Apple "rompió" el proceso de conexión a la red: la mecánica de autorización en Captive dejó de funcionar y los dispositivos no pudieron iniciar sesión en MT_FREE. Tuve que liberar una solución en modo de emergencia y corregir la situación. El problema se solucionó después de tres actualizaciones menores, después de que abrimos un caso en el rastreador de errores de Apple.

El número de llamadas a la página de autorización auth.wi-fi.ru por minuto. El gráfico muestra claramente un retraso significativo de los indicadores para el período anterior.La situación se ve agravada por el hecho de que el Wi-Fi es una tecnología bastante antigua y muy extendida, cuya creación no se suponía que se utilizaría en una escala como la que tenemos en el Metro de Moscú. Entonces, tenemos que lidiar con una "ensalada" completa de varios dispositivos, cada uno de los cuales se comporta en la red a su manera. Las métricas planas del número de megabytes abstractos o "suscriptores esféricos en la red" no son aplicables a nosotros. Cualquier servicio, ya sea acceso básico a Internet, un portal de medios o una aplicación móvil, debe considerarse en el contexto de dispositivos y / o sistemas operativos específicos, ya que el problema puede afectar a un grupo específico y bastante limitado.
... y algunas docenas de las opciones más exóticas.Esto no es DDOS: el accidente de un operador móvil provocó un salto en el tráfico de casi un tercio
Hace dos años, uno de los operadores móviles tuvo un accidente grave. En tales casos, los usuarios buscan una alternativa al servicio de comunicación. Si hablamos del metro, entonces no había formas alternativas de comunicación en los trenes.
AclaracionY ahora, solo unos pocos operadores brindan servicio en áreas equipadas con un cable radiante. Pero esta tecnología tiene una capacidad muy limitada y no puede proporcionar un nivel de servicio comparable para una proporción significativa de usuarios. Sin mencionar el costo del tráfico en los planes de tarifas límite.
Pero en las estaciones, las comunicaciones celulares se han desarrollado con bastante fuerza, sin mencionar los segmentos terrestres, donde el Wi-Fi compite directamente con él.
Nos enteramos del accidente en la red del operador de telefonía móvil a través de nuestro servicio de despacho, que anunció que nos estaban atacando. El crecimiento en el número de usuarios y el tráfico fue tal que al principio pensamos que estábamos basados en DDOS. Luego nos enteramos de las razones reales del aumento del tráfico, descubriendo que un tercio de los empleados no tienen teléfonos celulares.
Así es como se veían nuestros usuarios de Wi-Fi sobre el suelo.La especificidad de nuestra situación específicamente es que tenemos redes Wi-Fi, lo que significa que no nos importa qué tarjeta SIM de qué operador de telecomunicaciones esté instalado en el dispositivo del usuario.
Vale la pena mencionar que el accidente que ocurrió afectó nuestro servicio en parte y negativamente. Algunos segmentos de la red MT_FREE, en particular, la red en autobuses urbanos y trenes de cercanías, utilizan la comunicación celular como una red troncal, lo que significa que un accidente en las redes celulares conduce a la degradación del servicio en estos segmentos.
Wi-Fi en el metro sin anuncios? Si!
La publicidad es la base del acceso gratuito a la red MT_FREE, porque es gracias a ella que el servicio existe y vale la pena. Como AdServer base, hemos estado usando AdFox durante muchos años. Es interesante que AdServer en sí no sufrió cambios significativos durante todo el tiempo que trabajamos con él. Uno de sus detalles es el sistema de recopilación de estadísticas sobre impresiones, que se forma por intervalos por hora. Esto provoca picos rítmicos en el tiempo de respuesta del servicio (cada hora, exactamente al borde de la hora, el "giro" comienza a "jugar bromas" y pensar en cada respuesta). ¡No captamos este matiz muy inmediatamente!
Cronología de respuesta de AdFox para una solicitud de anuncio. Las explosiones y caídas en el borde de la hora son claramente visibles.De hecho, observamos los mismos "picos" característicos por hora en el número de impresiones para otras herramientas de monitoreo, para la misma métrica. Pero quiero hablar sobre una situación más extrema. El invierno pasado, AdFox sufrió un grave accidente: el servicio no respondió durante mucho tiempo. En nuestras métricas, esto se manifestó como una falta de autorización del usuario y una fuerte caída en el rendimiento del portal. Al mismo tiempo, la interfaz de administración de AdFox con un error de certificado no estaba disponible.
Ilustración del error del certificado adfox.ru.Después de realizar un par de pruebas y llamar al propio AdFox, descubrimos el accidente y no tuvimos más remedio que dejar que todos los usuarios identificados ingresaran a la red sin publicidad.
Y aquí está el accidente en las métricas de Yandex en nuestro portal.Las descargas más rápidas a veces producen resultados inesperados
La calidad percibida de nuestro servicio depende no solo del trabajo de la infraestructura de otras personas, actualizaciones del sistema operativo y fallas en los recursos masivos, sino también del comportamiento de navegadores específicos en dispositivos específicos. En este sentido, tenemos muchas más oportunidades de influencia, por lo que trabajamos constantemente para mejorar los productos. En promedio, publicamos una actualización por día. Pero a veces una actualización aparentemente simple, que debería conducir a una mejora en la experiencia del usuario, conlleva consecuencias impredecibles.
Dado que tenemos la oportunidad de influir en la operación de los servicios a nivel de red (por ejemplo, al cambiar la prioridad de un tipo de tráfico en relación con otro), surgió la idea de acelerar la autorización al priorizar el tráfico. Publicamos los cambios correspondientes y, con asombro, comenzamos a observar numerosos errores y una caída del 20% en los ingresos publicitarios. Las pruebas técnicas mostraron que el circuito funciona absolutamente correctamente desde el punto de vista de la red. Sin embargo, la reversión de los cambios confirmó que la razón estaba precisamente en la nueva configuración.
Como resultado, descubrimos que al aumentar la prioridad de algunos scripts sobre otros, cambiamos el orden de ejecución de las funciones en el nivel de carga de la página de autorización en el navegador. Esto ha afectado significativamente la experiencia del usuario. De hecho, los scripts de autorización comenzaron a cargarse y ejecutarse más rápido que los scripts de anuncios. Debido a la relación existente entre ellos, surgieron situaciones en las que una función espera el resultado de otra, cuyo archivo aún no se ha descargado en el dispositivo.
Redes sociales vs medios
El comportamiento de los usuarios en Internet corresponde a patrones estándar. Las personas están acostumbradas a comunicarse a través de mensajeros, buscar contenido en portales de medios, leer noticias a través de redes sociales y agregadores de noticias. Es bastante obvio, pero aún se centra en el hecho de que las redes sociales son una alternativa a las noticias, y viceversa. Cuando algo sucede repentinamente con una de las fuentes de información, la atención de los usuarios se redistribuye al resto, generalmente el más accesible. Entonces, en 2017 hubo una falla global en VKontakte. Por nuestra parte, este evento parecía un fuerte aumento en los usuarios y el tiempo en nuestro portal de noticias wi-fi.ru. De hecho, los usuarios, al darse cuenta de que su red social favorita no funciona, nos leyeron las noticias.
El momento del colapso de VK estuvo marcado por un aumento del 30% en la carga en el portal wi-fi.ru.Este caso ilustra la importancia de que los servicios de masas tengan un margen de seguridad para "digerir" las consecuencias de un accidente informativo de "vecino".
Verde: sin accidentes
Las situaciones descritas nos animan constantemente a mejorar la supervisión de los servicios de terceros en MT_FREE. Así es como se ve el tablero para operar nuestra red.
Operación de la red del tablero en San Petersburgo.Un tablero de instrumentos consta de muchos indicadores del tipo de "semáforo": estado verde - todo es normal, color rojo - alarma. El color de los indicadores varía con el tiempo. Esto puede ser un comportamiento normal o un signo de anormalidad. Pero si "estira" todos los indicadores con una línea y coloca cada paso de medida de tal manera en el tablero, obtendrá una imagen bidimensional y en constante crecimiento que describe la evolución de la red en su conjunto. Esta imagen se puede "alimentar" fácilmente con algoritmos de aprendizaje automático estándar diseñados para reconocer patrones gráficos (una especie de FindFace, solo para patrones de sensores).
La tabla de colores de los indicadores basada en el tiempo no es más que una imagen que describe la evolución de la red.A continuación, se agregan algoritmos de autoaprendizaje (como AI) que pueden clasificar automáticamente patrones e identificar causas de desviaciones o datos incompletos. Todo parece simple, pero ¿qué opinas, cuántos operadores de telecomunicaciones realmente lo usan?
Pocos, y no estamos entre ellos.
Para ser justos, la aplicación de esta tecnología en el marco de MaximTelecom se encuentra en una etapa bastante temprana, en gran parte porque no está claro dónde está la línea entre lo que debe recibirse desde fuera de la red y lo que puede obtenerse desde adentro. Nuestra ventaja aquí es que comenzamos a desarrollar la base algorítmica necesaria desde el principio como parte de nuestra plataforma para la monetización de la red publicitaria.
Maxima es el operador, en primer lugar, del servicio gratuito de acceso a Wi-Fi. Además, a diferencia de un número suficientemente grande de Wi-Fi "social", somos un operador de comunicaciones comerciales completo. De hecho, esta es nuestra idea corporativa: nos esforzamos por hacer que la comunicación sea gratuita y rentable al mismo tiempo, y ya hemos demostrado que esto es posible. Casi ningún operador de telecomunicaciones en el mundo puede (o no) querer esto, y por lo tanto no desarrolla tecnología para esto. Esto da la esperanza de que en el futuro podamos llevar nuestras tecnologías al punto en que la experiencia del usuario de MT_FREE no difiera de lo que proporcionan los operadores tradicionales pagados. Al mismo tiempo, el nivel de confiabilidad será mayor debido a un sistema de control y operación inteligente más desarrollado.
Pero, desafortunadamente, no todos los problemas pueden resolverse dentro de las capacidades de una compañía, aunque solo sea porque hay muchos fabricantes de suscriptores y equipos de Wi-Fi de red, y el nivel de unificación es significativamente inferior al de las redes celulares. Resolvemos problemas con varios dispositivos al conectarnos a la red desde el momento del lanzamiento. La "raíz del mal" aquí está en ausencia de cualquier estándar y, como resultado, cada fabricante crea algo propio.
Para resolver estos problemas de la industria, existen asociaciones internacionales. Por ejemplo, ahora lideramos el proyecto para estandarizar la experiencia del usuario cuando se conecta a redes Wi-Fi mediante monetización publicitaria. Pero este es un tema para otro artículo.
Por cierto, estamos constantemente expandiendo el personal de desarrollo, las vacantes relevantes se pueden encontrar en nuestra
página de carrera .