Hola Habr! Hoy queremos compartir con ustedes un art铆culo del jefe de soporte t茅cnico de IT-GRAD, Alik Fakhrutdinova, en el que hablaremos sobre c贸mo construimos un nuevo sistema de monitoreo como parte de una colaboraci贸n con MTS PJSC. Esta vez omitimos los detalles t茅cnicos y los matices y nos enfocamos en la complejidad administrativa del proceso. Debajo del corte, hablaremos sobre qu茅 eventos nos llevaron a construir un nuevo sistema de monitoreo (en lugar de "arruinar" el viejo), hablaremos sobre los nuevos chips de monitoreo como un servicio para los clientes y las dificultades que encontramos en el proceso.

Como ya sabr谩, el concepto de un proveedor de nube unificada est谩 representado actualmente por tres marcas colaboradoras:
- #CloudMTS, creado por el Centro de Innovaci贸n MTS;
- IT-GRAD Company, un proveedor de IaaS basado en la nube;
- Servicio 1cloud.
Ahora todas las marcas dentro de este concepto trabajan juntas y se complementan mutuamente, tratando de cerrar las solicitudes de varios segmentos de nuestra audiencia. Sin embargo, durante la fusi贸n, encontramos algunas dificultades, una de las cuales condujo al desarrollo de un nuevo sistema de monitoreo.
Despu茅s de la transacci贸n, se lanz贸 el proceso de separar la infraestructura de TI en la nube de IT-GRAD en un segmento separado. Fue un per铆odo de transici贸n dif铆cil, durante el cual se desconect贸 una gran cantidad de equipos y centros de datos, que no se incluyeron en el esquema de la transacci贸n. El enrutamiento de las redes internas y externas ha cambiado. Al mismo tiempo, los plazos eran ajustados y los disparadores en el sistema de monitoreo no siempre lograban actualizarse a tiempo. Esto condujo a la generaci贸n de muchos incidentes falsos a partir de equipos inexistentes.
En el proceso de reconfiguraci贸n global, los empleados de aquellos tambi茅n tuvieron dificultades. soporte: se enfrentaron a un flujo tan grande de alertas falsas que fue extremadamente dif铆cil procesar todos los eventos correctamente y de manera oportuna. Se requer铆a reconfigurar por completo el sistema de monitoreo, actualizarlo para las tareas actuales y, de hecho, transformarlo en un nuevo servicio tanto para uso interno como para nuestros clientes.
Como resultado, se decidi贸 crear una unidad de gesti贸n de eventos dedicada, que establecer谩 el sistema de monitoreo en IT-GRAD y, posteriormente, se convertir谩 en un centro 煤nico para monitorear el estado de la infraestructura del proveedor de nube integrado.
Como resultado de la transformaci贸n, los requisitos principales son:
- El sistema de monitoreo deber铆a funcionar no solo en IT-GRAD, sino tambi茅n convertirse en un servicio interno para Unified Cloud Provider y un servicio para los clientes.
- Se necesitaba una soluci贸n que recopilara estad铆sticas de toda la infraestructura de TI.
- Como hay muchos sistemas, todos los eventos de monitoreo deben converger en un 煤nico agregador de datos, donde los eventos y los desencadenantes se verifican en una sola CMDB y, si es necesario, los usuarios son notificados autom谩ticamente.
Una vez recopilados y analizados todos los datos disponibles en ese momento, dividimos la implementaci贸n del proyecto en varias etapas:
- Determinaci贸n de los requisitos para un sistema de monitoreo.
- Elaboraci贸n de modelos de servicios de "componentes de salud".
- An谩lisis de requisitos de confiabilidad y tolerancia a fallas del sistema de monitoreo.
- Pruebas e implementaci贸n consistente del sistema.
- Organizaci贸n de monitoreo como servicio para clientes.
Para mayor claridad, presentamos este proceso en forma de diagrama de flujo.


Dificultades de crecimiento
Por supuesto, la introducci贸n de un sistema tan complejo no pudo funcionar perfectamente, y encontramos algunas dificultades.
- El primer punto es la formaci贸n de un nuevo departamento. Result贸 que encontrar especialistas altamente especializados que conozcan y tengan experiencia pr谩ctica trabajando con varios sistemas de monitoreo no es tan simple. Uno de nuestros requisitos era comprender la supervisi贸n como un servicio, y no solo como uno de los componentes de la infraestructura de TI.
- Plazos para resolver el problema.
- Una infraestructura de TI fragmentada geogr谩ficamente que necesitaba ser llevada a un solo est谩ndar.
- Una gran cantidad de sistemas de monitoreo dispares que deb铆an combinarse en un solo sistema.
Monitoreo e informes en el sistema de monitoreo.

Socialismo: la infraestructura de TI es contabilidad y control. Ni un solo evento, incluso el m谩s insignificante, debe dejarse sin atenci贸n. En este momento, hemos logrado construir un proceso de informes y control, que incluye:
- informes y estad铆sticas de seguimiento de los componentes de nuestros clientes;
- Realizar un an谩lisis de gesti贸n del "estado operativo" de nuestra infraestructura interna;
- planificaci贸n de mejoras de servicio basadas en informes recopilados.
El CMDB 煤nico creado nos permite rastrear el estado y el historial de eventos en toda la infraestructura como un todo y para cada componente individualmente.
Adem谩s, comenzamos a monitorear el estado de los servicios individuales, por ejemplo, las copias de seguridad, es decir, la correcci贸n de las tareas de copia de seguridad. Si por alguna raz贸n la tarea falla, el sistema registra el incidente. Indica el servidor de respaldo, la tarea en s铆 y la m谩quina virtual; sabiendo esto, podemos solucionarlo r谩pidamente. Adem谩s, al monitorear los servicios, podemos proporcionar informes a nuestros clientes.

A continuaci贸n, ofrecemos una captura de pantalla de los informes de Live Technologies.

A continuaci贸n, puede ver un informe resumido sobre el n煤mero de incidentes agrupados por clase de unidades de configuraci贸n (KE) en t茅rminos del grado de influencia en la infraestructura.

Resultados del sistema de monitoreo
El nuevo sistema de monitoreo ya est谩 operando activamente, y estamos listos para compartir con usted los resultados de su trabajo y nuestras propias observaciones.
En este momento, hemos logrado restaurar completamente el monitoreo de la infraestructura IT-GRAD y eliminar la generaci贸n de incidentes falsos. El servicio para clientes se est谩 probando y estar谩 disponible pronto. En el futuro, planeamos completar la integraci贸n de las infraestructuras conectando 1cloud y #CloudMTS a un solo sistema de monitoreo IT-GRAD.
Anteriormente, cuando se activaba un activador de alerta, se generaba un incidente en el soporte de 1 l铆nea. El oficial de servicio lo proces贸 y notific贸 al cliente ya sea por llamada o por correo electr贸nico.
Ahora todo funciona de forma aut贸noma: cuando se activa el disparador durante 2 minutos, si es necesario, se notifica autom谩ticamente al cliente.
Prestaremos un poco de atenci贸n al funcionamiento de las alertas.

En caso de un cambio en el estado del componente de TI, el sistema de monitoreo registra el evento en el agregador de datos, que procesa el evento a trav茅s del cuerpo de la carta y, dependiendo del grado de criticidad del estado del componente especificado en la alerta, genera una solicitud, notificaci贸n o incidente con la prioridad deseada. Adem谩s, el sistema, a trav茅s de CMDB, determina a qu茅 cliente pertenece KE y, de acuerdo con el modelo de salud, alerta por correo electr贸nico o SMS. Adem谩s, en este momento, un robot especial de telegramas para alertas se encuentra en una etapa de finalizaci贸n y pronto estar谩 disponible para todos nuestros clientes.

Ahora, como parte del proceso de monitoreo y control de servicios, estamos monitoreando el "estado de salud" del entorno de TI en tiempo real, notificando autom谩ticamente a los usuarios externos e internos. Monitorear el estado de la infraestructura y los servicios de TI, as铆 como los datos recopilados, le permite tomar medidas proactivas antes de que algo salga mal.
Como puede ver, el proceso de construcci贸n de un sistema de monitoreo est谩 repleto de dificultades. Sin embargo, estamos seguros de que, como resultado del trabajo conjunto de nuestros ingenieros y analistas, hemos obtenido un excelente producto que resuelve dos problemas comerciales a la vez: nos proporciona un monitoreo de alta calidad y nos permite implementar el monitoreo como un servicio para los clientes.