Sobre el monitoreo

introducción


El monitoreo es la parte más importante de su infraestructura. El monitoreo es lo básico de los ingenieros de sistemas. Sin embargo, cada uno tiene su propia forma de entenderlo. Mi camino consiste en la negación. ira y aceptación


Negación


Negación


Es difícil de creer, pero hay una sala de servidores en la foto.


Era 2007. Estaba estudiando en CSU (Universidad Estatal de Chelyabinsk) en el departamento de seguridad de la información como estudiante de segundo año. Decidí solicitar CSU como asistente en el laboratorio de seguridad de la información. Era un trabajo temporal a tiempo parcial. Después de eso en 2009, obtuve un trabajo permanente de medio tiempo más en una organización de producción comercial como administrador del sistema. Esa vez, no solía saber sobre monitoreo, estaba mojado detrás de las orejas y pensaba que era posible ser un héroe y resolver cualquier problema enfrentado. Con suerte, fue un corto período de mi vida, sentí que estaba mal.


Ira


Ira


2010 fue uno de los años más agotadores. Trabajé para 2 empleadores; cursos realizados; estaba preparando una tesis de maestría; Además, era prefecto. Bajo la presión de la experiencia, mi visión sobre el monitoreo estaba cambiando. Ese proceso chocó con mi renuncia. Antes de graduarme del examen, decidí renunciar y busqué un nuevo trabajo. La gran mayoría de los entrevistadores estaban confundidos porque yo era estudiante. Sin embargo, uno de ellos había aceptado contratarme, tenía un trabajo permanente a tiempo completo para una empresa multinacional internacional. Me gradué Estaba mejorando mis habilidades y experiencia, trabajé para empresas que no cuentan con personal. La gran mayoría de nuestros proyectos fueron startups sorprendentes e interesantes. Elevé extremadamente mi calificación, porque no había otras formas en el caso de 400 servidores para una sola persona. Había trabajado como DevOps antes de que fuera convencional. Me quemé en el trabajo y decidí cambiar de trabajo.


Esa vez, pensé, teníamos que controlar todo. Fue realmente importante Todos deberían recibir notificaciones de monitoreo. Además, el conjunto de herramientas de monitoreo estaba cambiando y mejorando. Una de las primeras implementaciones fueron los scripts bash / PowerShell (espacio libre, recuento de actualizaciones disponibles, estado de las copias de seguridad, etc.) y servicios externos Red Alert, Lazy farmer (herramienta interna para la verificación del sitio). Fue lo suficientemente bueno en 2010-2011, sin embargo, enfrentamos muchos problemas diferentes:


  • Correo electrónico infierno.
  • Retrasos impredecibles.
  • Utilización de recursos desconocidos.

Habíamos decidido hacer nuestra vida un poco más fácil y elegir Zabbix. Monitoreamos todo:


  • Recuento de usuarios conectados a wifi.
  • Recuento de páginas impresas.
  • Cuente los túneles VPN vivos.
  • Servidores de temperatura.
  • Carga de red.
  • etc ...

Además, me gustaría compartir algunos de los problemas enfrentados:


  1. Había infraestructuras distribuidas en DC cruzadas y muchas métricas. Nos enfrentamos a que a veces las métricas estaban ausentes. Lo arreglamos a través del proxy Zabbix.
  2. Si el túnel VPN falla, recibiremos una tonelada de mensajes. Configuramos dependencias de infraestructura.
  3. Automatizamos tareas recurrentes. es decir, en caso de poco espacio libre, intentamos limpiarlo automáticamente.
  4. Entendimos que era una mala idea notificar a alguien si la métrica promedio de carga de la CPU sería más del 95% durante 30 segundos, como resultado, agregamos algo así como un período de umbral.
  5. Verificamos escenarios críticos para el negocio (es decir, inicio de sesión web, búsqueda, etc.).
  6. Agregamos Zabbix a las integraciones de Skype, debido a las operaciones de chat.
  7. Quis custodiet ipsos custodes?.
  8. etc ...

Aceptación


Aceptación


Un poco más tarde, entendí que, por un lado, a los hombres de negocios no les importa la RAM / CPU / IOPS. Su interés por TTM (tiempo de comercialización) y las métricas comerciales, pero por otro lado, el intestino de TI debería poder rastrear cualquier tipo de problema.


Comida para llevar


  • Negación No debe monitorear nada, porque sus usuarios lo señalan si ocurre algo extraño.
  • Ira Tienes que controlar todo. Puede notificar a CTO / CEO si la métrica promedio de carga de la CPU será superior al 95% durante 30 segundos.
  • Aceptación Los hombres de negocios no se preocupan por RAM / CPU / IOPS. Su interés por TTM (tiempo de comercialización) y métricas comerciales.

Zabbix había sido lo suficientemente bueno, pero el mundo estaba cambiando. Hubo muchos enfoques modernos para el monitoreo.


  • Es posible dividir la aplicación de monitoreo de monolitos en diferentes niveles: recolectar, almacenar, presentar.
  • Las empresas y las TI deben operar exactamente los mismos datos, pero deben ver los datos desde diferentes puntos de vista.
  • No existe una bala de plata, significa que debe personalizar sus soluciones.

PS


Source: https://habr.com/ru/post/437190/


All Articles