Como usamos o sistema de monitoramento de varejo Zabbix

Sistemas de monitoramento como o Zabbix não são surpreendentes para usuários sofisticados. No entanto, no varejo, eles não são convidados frequentes e, se usados, cada vez mais para o controle do servidor. Fomos além e os usamos para monitorar o software e os equipamentos da caixa registradora.



Por que os sistemas de monitoramento raramente são encontrados no varejo


Tudo é completamente transparente aqui: varejistas e empresas de serviços raramente usam sistemas de monitoramento, porque é difícil avaliar sua eficiência econômica. Com a introdução dos processos de negócios, tudo é simples - X dinheiro e X esforço. Mas calcular quanto eles economizaram no varejista no futuro é mais difícil.

Os prestadores de serviços geralmente não implementam sistemas de monitoramento também porque não reduzem a importância de seu trabalho. Isso é lógico: o Zabbix permite identificar um problema antes que o cliente o veja. Por um lado, isso melhora a qualidade dos serviços prestados. Por outro lado, o cliente às vezes tem a impressão errônea de que seus processos de negócios estão perfeitamente organizados e funcionam sem nenhuma ajuda externa. Mas isso pode ser resolvido fornecendo relatórios a tempo.

No entanto, mesmo os varejistas que concordam em implementar um sistema de monitoramento geralmente terminam com o controle de servidores, computadores de escritório, fontes de alimentação ininterruptas e equipamentos de rede ativos. Também fazemos isso:

  • dos servidores, obtemos dados sobre a utilização de processadores, o desempenho de ventiladores, discos rígidos, memória, temperatura de processadores e placas-mãe;

  • de fontes de energia ininterruptas - status, nível de carga, informações sobre quanto tempo elas trabalharão em caso de falta de energia;

  • de equipamentos de rede - tráfego nas portas, utilização de recursos.

Como parte das informações recebidas, solicitações automáticas são feitas no Service Desk. Vários outros dados nos ajudam a investigar incidentes. Exemplo clássico: um usuário reclama que seu computador está lento. Sem um sistema de monitoramento, é difícil rastrear - quando o engenheiro conecta tudo ficará bem ou o funcionário tem uma impressão subjetiva (seu PC fraco funciona objetivamente mais devagar do que um computador de jogos sofisticado que está em casa). Portanto, estamos estudando gráficos retrospectivos para o momento em que uma pessoa estava observando um problema.

Mas tudo isso é comum, nada de novo. Aconteceu que fomos mais longe e, com a ajuda do Zabbix, começamos a monitorar o desempenho do software e equipamentos de registro de caixa. Fazemos isso para grandes varejistas internacionais, amplamente representados no mercado russo nos segmentos alimentício e não alimentício. Além disso, nosso sistema de monitoramento regional foi adquirido por algumas redes regionais, que agora podem controlar independentemente o desempenho de seus processos de negócios.

Por que começamos a fazer isso?


Francamente falando, o sistema de monitoramento foi implementado no Pilot espontaneamente, sem nenhum projeto e em partes. Se a decisão sobre isso viesse de cima, talvez seguíssemos o caminho de outros prestadores de serviços e não nos incomodaríamos. Mas iniciamos a introdução de funcionários lineares - engenheiros. Diante de um colapso específico de equipamentos de caixa registradora ou falhas de software, eles estavam procurando como evitá-lo no futuro. E eles tiveram a ideia de um sistema de monitoramento.

Com ele, temos três opções para resolver problemas:

  • preventivamente - corrija o problema antes que ele aconteça. Por exemplo, ao monitorar um disco rígido, vemos que o espaço nele foi reduzido para um nível crítico. E estamos tomando medidas nesse sentido;

  • depois do fato - resolvemos o problema depois que aconteceu. Por exemplo, um ventilador no processador falhou. O processador ainda está aquecendo, mas está funcionando. Mais cedo ou mais tarde, é claro, falhará, mas até agora temos a oportunidade de substituir o ventilador. Ou seja, o usuário ainda não percebeu o incidente, mas ele já é. Do ponto de vista dele, resolvemos o problema proativamente, mas do ponto de vista do equipamento - depois do fato;

  • analiticamente - obtemos uma grande quantidade de dados em retrospecto para analisar incidentes.




Obviamente, nosso sistema de monitoramento não afeta todas as caixas registradoras porque nem sempre faz sentido. Pegue um scanner de código de barras. Eles trabalham ou não. E, no segundo caso, os funcionários da loja nos reportarão um problema muito mais rapidamente do que um sistema de monitoramento. Portanto, nos concentramos no controle de terminais POS e caixas registradoras (CCP) .

Monitoramento da integridade da CCT


O CCP fornece ao driver informações suficientes que permitem avaliar seu desempenho. Por exemplo:

  • Vários dados de inventário - versões de hardware, firmware, drivers, números de série. Em geral, a composição do equipamento no serviço é fixada nos anexos dos contratos e armazenada no CMDB; no entanto, o cliente é livre para mover e substituir o equipamento como desejar. Obviamente, ele nem sempre se lembra de que seria bom notificar a empresa de serviços sobre isso. É aqui que o sistema de monitoramento chega em socorro, que rastreia a mudança na configuração do equipamento. Escrevemos um módulo de integração que corrige o CMDB de acordo com os dados de inventário do Zabbix. Além de rastrear a configuração real do equipamento nas instalações de serviço, ele, juntamente com a funcionalidade de detecção automática do sistema de monitoramento, reduz capitalmente o tempo para iniciar o inventário de um novo cliente, se esse trabalho for previsto no contrato.


Estudo de caso: muitos provavelmente se lembram do caso de um bug no firmware de um dos fabricantes da KKT em dezembro de 2017? Assim que as primeiras informações sobre o problema apareceram, configuramos um gatilho no Zabbix, sinalizando a versão do firmware que continha o bug, e obtivemos uma lista de CCPs que precisavam ser resolvidos com urgência.

  • O código de status do CCP é um excelente parâmetro que permite rastrear quase qualquer mau funcionamento, desde o tempo definido incorretamente ou o superaquecimento do cabeçote da impressora até a presença de dados fiscais não enviados na unidade fiscal.

Cash Software Control


Como parte do controle do programa de caixa, monitoramos vários sinais:

  • a capacidade de manutenção dos serviços - se o software está ativado ou não, se ele abre algumas portas de rede ou está aguardando uma conexão;

  • entradas nos logs - geralmente o software grava nos logs sobre os problemas encontrados, gera um conjunto de erros. Como sinal indireto, se os logs forem alterados, o software funcionará, se não houver novas entradas neles, será necessário criar uma solicitação;

  • de fato, as próprias entradas do log - se uma mensagem de erro ocorrer, o gatilho será acionado. Após o processamento, os registros são transferidos para o ELK: os logs do Logstash são eliminados pela API do Zabbix;

  • os resultados do software de integração que baixa, converte e envia dados (por exemplo, transfere informações para o EGAIS, OFD, recebe uma variedade de mercadorias). Portanto, um pacote de dados recentemente formado incorretamente com a nomenclatura desativou o software dos terminais de pagamento automático, paralisando seu trabalho em uma das lojas de nossos clientes. Graças ao sistema de monitoramento, conseguimos localizar o problema a tempo;

  • versões de software e driver - às vezes surgem situações em que, por exemplo, as versões de dois programas não são compatíveis, mas para que o software cash funcione, é necessário interagir;

  • Bancos de dados - monitoramos a capacidade de manutenção dos serviços, a disponibilidade de portas de rede, o número de bancos de dados, suas versões e o número de bancos de dados desativados;

  • serviços externos (por exemplo, EGAIS, com os quais interagimos através de redes IP no modo automático).




Problemas que costumam entrar no sistema de monitoramento


Na maioria das vezes, o Zabbix nos sinaliza sobre problemas de rede: inacessibilidade de dispositivos, tempo de resposta muito longo. Além disso, existem dificuldades na utilização dos recursos: PCs de baixa potência são geralmente usados ​​para caixas registradoras. O terceiro problema mais comum é a validade dos dados de sistemas externos.

Muitas vezes, chegam mensagens sobre a hora local incorreta. Os PCs de caixa geralmente não entram no AD e o serviço ntp deve ser configurado lá separadamente, o que às vezes é esquecido. E a hora errada no caixa está repleta de grandes problemas para a loja: por exemplo, vender álcool quando é proibido, o que pode levar a uma multa ou perda de uma licença.

Fraude e tempo de inatividade


Outra área de atividade em que o Zabbix, por acaso, se mostrou bastante útil, é a luta contra a fraude. Acontece que contratados nas regiões ou engenheiros de campo individuais, que são pagos separadamente, entram em conspiração com os usuários do cliente e resolvem problemas que realmente não existiam. Podemos trazê-los para a água potável analisando as indicações do sistema de monitoramento. Enquanto isso é feito manualmente, quando um aumento suspeito de atividade é registrado em um determinado local, estamos trabalhando para verificar automaticamente aplicativos com leituras do Zabbix em todos os casos em que isso for possível.

Agora, nosso sistema de monitoramento recebe de 15 a 25% das aplicações. Essa é uma quantia bastante pequena, mas até o final deste ano queremos aumentar em 50% para os clientes que assinaram contratos de serviço conosco.

Source: https://habr.com/ru/post/pt442044/


All Articles