Cómo usamos el sistema de monitoreo minorista Zabbix

Los sistemas de monitoreo como Zabbix no son sorprendentes para los usuarios sofisticados. Sin embargo, en el comercio minorista no son invitados frecuentes, y si se usan, cada vez más para el control del servidor. Fuimos más allá y los usamos para monitorear el software y el equipo de la caja registradora.



Por qué los sistemas de monitoreo rara vez se encuentran en el comercio


Aquí todo es completamente transparente: los minoristas y las empresas de servicios rara vez usan sistemas de monitoreo, porque es difícil evaluar su eficiencia económica. Con la introducción de los procesos comerciales, todo es simple: X dinero y X esfuerzo. Pero calcular cuánto ahorraron al minorista en el futuro es más difícil.

Los contratistas de servicios generalmente no implementan sistemas de monitoreo también porque no reducen la importancia de su trabajo. Esto es lógico: Zabbix le permite identificar un problema antes de que el cliente lo vea. Por un lado, esto mejora la calidad de los servicios prestados. Por otro lado, el cliente a veces tiene la impresión errónea de que sus procesos comerciales están perfectamente organizados y funcionan sin ninguna ayuda externa. Pero esto se puede resolver proporcionando informes a tiempo.

Sin embargo, incluso aquellos minoristas que aceptan implementar un sistema de monitoreo generalmente terminan con el control de servidores, computadoras de oficina, fuentes de alimentación ininterrumpida y equipos de red activos. Hacemos esto también:

  • de los servidores obtenemos datos sobre la utilización de procesadores, el rendimiento de ventiladores, discos duros, memoria, temperatura de procesadores y placas base;

  • de fuentes de energía ininterrumpida: estados, nivel de carga, información sobre cuánto tiempo trabajarán en caso de un corte de energía;

  • desde equipos de red: tráfico en puertos, utilización de recursos.

Como parte de la información recibida, las solicitudes automáticas se realizan en la mesa de servicio. Otros datos nos ayudan a investigar incidentes. Ejemplo clásico: un usuario se queja de que su computadora es lenta. Es difícil rastrearlo sin un sistema de monitoreo, ya sea cuando el ingeniero conecta todo estará bien o el empleado tiene una impresión subjetiva (su PC débil y funcional funciona objetivamente más lentamente que una computadora de juego elegante que está en casa). Por lo tanto, estamos estudiando gráficos retrospectivos para el momento en que una persona observaba un problema.

Pero todo lo anterior es un lugar común, nada nuevo. Dio la casualidad de que fuimos más allá y con la ayuda de Zabbix comenzamos a monitorear el rendimiento del software de la caja registradora y el equipo de la caja registradora. Hacemos esto para grandes minoristas internacionales, ampliamente representados en el mercado ruso en los segmentos de alimentos y no alimentos. Además, nuestro sistema de monitoreo regional fue adquirido por algunos networkers regionales, que ahora pueden controlar de manera independiente el desempeño de sus procesos comerciales.

¿Por qué empezamos a hacer esto?


Hablando francamente, el sistema de monitoreo se implementó en Pilot espontáneamente, sin ningún proyecto y en partes. Si la decisión sobre esto viniera desde arriba, tal vez seguiríamos el camino de otros contratistas de servicios y no nos molestaríamos. Pero hemos iniciado la introducción de empleados lineales: ingenieros. Ante un desglose particular del equipo de la caja registradora o problemas técnicos de software, buscaban cómo prevenirlo en el futuro. Y se les ocurrió la idea de un sistema de monitoreo.

Con él, tenemos tres opciones para resolver problemas:

  • preventivamente: solucione el problema antes de que ocurra. Por ejemplo, al monitorear un disco duro, vemos que el espacio en él se ha reducido a un nivel crítico. Y estamos tomando medidas al respecto;

  • después del hecho, resolvemos el problema después de que sucedió. Por ejemplo, un ventilador en el procesador ha fallado. El procesador todavía se está calentando, pero está funcionando. Tarde o temprano, por supuesto, fallará, pero hasta ahora tenemos la oportunidad de reemplazar el ventilador. Es decir, el usuario aún no ha notado el incidente, pero ya lo está. Desde su punto de vista, resolvemos el problema de manera proactiva, pero desde el punto de vista del equipo, después del hecho;

  • analíticamente: obtenemos una gran cantidad de datos en retrospectiva para analizar incidentes.




Por supuesto, nuestro sistema de monitoreo no afecta a todas las cajas registradoras porque no siempre tiene sentido. Toma un escáner de código de barras. Ellos trabajan o no. Y en el segundo caso, los empleados de la tienda nos informarán un problema mucho más rápido que un sistema de monitoreo. Por lo tanto, nos centramos en el control de terminales POS y cajas registradoras (PCC) .

CCT Health Monitoring


CCP proporciona a través del controlador suficiente información que le permite juzgar su rendimiento. Por ejemplo:

  • Varios datos de inventario: versiones de hardware, firmware, controladores, números de serie. En general, la composición del equipo en el servicio se fija en los anexos de los contratos y se almacena en CMDB, sin embargo, el cliente es libre de mover y reemplazar el equipo como lo desee. Por supuesto, no siempre recuerda que sería bueno notificar a la compañía de servicios al respecto. Aquí es donde el sistema de monitoreo viene al rescate, que rastrea el cambio en la configuración del equipo. Escribimos un módulo de integración que corrige CMDB de acuerdo con los datos de inventario de Zabbix. Además de rastrear la configuración real de los equipos en las instalaciones de servicio, junto con la funcionalidad de autodetección del sistema de monitoreo, reduce enormemente el tiempo para iniciar el inventario de un nuevo cliente, si el contrato estipula dicho trabajo.


Estudio de caso: ¿muchos probablemente recuerden el caso de un error en el firmware de uno de los fabricantes de KKT en diciembre de 2017? Tan pronto como apareció la primera información sobre el problema, configuramos un disparador en Zabbix, señalando la versión de firmware que contiene el error, y obtuvimos una lista de PCC que debían abordarse con urgencia.

  • El código de estado CCP es un parámetro excelente que le permite realizar un seguimiento de casi cualquier mal funcionamiento, desde el tiempo configurado incorrectamente o el sobrecalentamiento del cabezal de la impresora hasta la presencia de datos fiscales no enviados en la unidad fiscal.

Control de software en efectivo


Como parte del control del programa de efectivo, monitoreamos varios signos:

  • la capacidad de servicio de los servicios: si el software está encendido o no, si abre algunos puertos de red o está esperando una conexión;

  • entradas en los registros: por lo general, el software escribe en los registros sobre los problemas encontrados y genera un conjunto de errores. Como señal indirecta, si los registros cambian, entonces el software funciona, si no hay nuevas entradas en ellos, entonces debe crear una solicitud;

  • de hecho, las entradas de registro en sí mismas: si se produce un mensaje de error, se dispara el disparador. Después del procesamiento, los registros se transfieren a ELK: los registros de Logstash se eliminan a través de la API de Zabbix;

  • Los resultados del software de integración que descarga, convierte y envía datos (por ejemplo, transfiere información a EGAIS, OFD, recibe una gama de productos). Por lo tanto, un paquete de datos recientemente formado incorrectamente con la nomenclatura deshabilitó el software de los terminales de auto pago, paralizando su trabajo en una de las tiendas de nuestros clientes. Gracias al sistema de monitoreo, logramos localizar el problema a tiempo;

  • versiones de software y controladores: a veces surgen situaciones en las que, por ejemplo, las versiones de dos programas no son compatibles, pero para que el software efectivo funcione, necesitan interactuar;

  • Bases de datos: supervisamos la capacidad de servicio de los servicios, la disponibilidad de puertos de red, la cantidad de bases de datos, sus versiones y la cantidad de bases de datos desactivadas;

  • servicios externos (por ejemplo, EGAIS, con el que interactuamos a través de redes IP en modo automático).




Problemas que con mayor frecuencia ingresan al sistema de monitoreo


Muy a menudo, Zabbix nos señala problemas de red: inaccesibilidad de dispositivos, tiempo de respuesta demasiado largo. Además, existen dificultades con la utilización de los recursos: las PC de baja potencia generalmente se usan para cajas registradoras. El tercer problema más común es la validez de los datos de sistemas externos.

Muy a menudo, llegan mensajes sobre hora local incorrecta. Las PC con dinero en efectivo generalmente no entran en AD y el servicio ntp debe configurarse allí por separado, lo que a veces se olvida. Y el momento equivocado en la caja está plagado de problemas importantes para la tienda: por ejemplo, vender alcohol cuando está prohibido, lo que puede ocasionar una multa o la pérdida de una licencia.

Fraude y tiempo de inactividad


Otra área de actividad en la que Zabbix, por cierto, resultó ser bastante útil, es la lucha contra el fraude. Sucede que los contratistas en las regiones o los ingenieros de campo individuales, a quienes se les paga por separado, entran en una conspiración con los usuarios del cliente y resuelven problemas que en realidad no existían. Podemos llevarlos al agua limpia analizando las indicaciones del sistema de monitoreo. Si bien esto se hace manualmente, cuando se registra un aumento sospechoso de actividad en un lugar determinado, pero estamos trabajando para verificar automáticamente las aplicaciones con lecturas de Zabbix en todos los casos en que esto sea posible.

Ahora desde nuestro sistema de monitoreo recibe del 15 al 25% de las aplicaciones. Esta es una cantidad bastante pequeña, pero para fines de este año queremos aumentarla hasta un 50% para los clientes que han firmado acuerdos de servicio con nosotros.

Source: https://habr.com/ru/post/442044/


All Articles