Comment nous utilisons le système de surveillance de détail Zabbix

Les systèmes de surveillance tels que Zabbix ne sont pas surprenants pour les utilisateurs avertis. Cependant, dans le commerce de détail, ils ne sont pas des clients fréquents, et s'ils sont utilisés, de plus en plus pour le contrôle du serveur. Nous sommes allés plus loin et les utilisons pour surveiller les logiciels et l'équipement de la caisse enregistreuse.



Pourquoi les systèmes de surveillance sont rarement trouvés dans le commerce de détail


Ici, tout est totalement transparent: les détaillants et les sociétés de services utilisent rarement des systèmes de surveillance, car il est difficile d'évaluer leur efficacité économique. Avec l'introduction des processus métier, tout est simple - X argent et X effort. Mais il est plus difficile de calculer combien ils ont économisé au détaillant à l'avenir.

Les prestataires de services n'implémentent généralement pas de systèmes de surveillance, car ils ne réduisent pas l'importance de leur travail. C'est logique: Zabbix vous permet d'identifier un problème avant que le client ne le voie. D'une part, cela améliore la qualité des services fournis. D'un autre côté, le client a parfois l'impression erronée que ses processus commerciaux sont parfaitement organisés et fonctionnent sans aucune aide extérieure. Mais cela peut être résolu en fournissant des rapports à temps.

Cependant, même les détaillants qui acceptent de mettre en œuvre un système de surveillance se retrouvent généralement avec le contrôle des serveurs, des ordinateurs de bureau, des alimentations sans coupure et des équipements réseau actifs. Nous le faisons aussi:

  • à partir des serveurs, nous obtenons des données sur l'utilisation des processeurs, les performances des ventilateurs, des disques durs, la mémoire, la température des processeurs et des cartes mères;

  • à partir de sources d'alimentation sans coupure - statuts, niveau de charge, informations sur la durée de fonctionnement en cas de panne de courant;

  • de l'équipement réseau - trafic sur les ports, utilisation des ressources.

Dans le cadre des informations reçues, des demandes automatiques sont faites au Service Desk. Un certain nombre d'autres données nous aident à enquêter sur les incidents. Exemple classique: un utilisateur se plaint que son ordinateur est lent. Sans système de surveillance, il est difficile de faire le suivi - soit lorsque l'ingénieur se connecte, tout va bien, soit que l'employé a une impression subjective (son PC de travail faible fonctionne objectivement plus lentement qu'un ordinateur de jeu sophistiqué à la maison). Par conséquent, nous étudions des graphiques rétrospectifs pour le moment où une personne observait un problème.

Mais tout ce qui précède est banal, rien de nouveau. Il se trouve que nous sommes allés plus loin et avec l'aide de Zabbix, nous avons commencé à surveiller les performances des logiciels de caisse enregistreuse et de l'équipement de caisse enregistreuse. Nous le faisons pour les grands détaillants internationaux, largement représentés sur le marché russe dans les segments alimentaires et non alimentaires. De plus, notre système de surveillance régional a été acquis par certains réseauteurs régionaux, qui peuvent désormais contrôler indépendamment la performance de leurs processus d'affaires.

Pourquoi avons-nous commencé à faire ça?


Franchement, le système de suivi a été implémenté dans Pilot spontanément, sans aucun projet et en plusieurs parties. Si la décision à ce sujet venait d'en haut, nous pourrions peut-être suivre la voie d'autres prestataires de services et ne nous embêterions pas. Mais nous avons initié l'introduction d'employés linéaires - les ingénieurs. Confrontés à une panne particulière de l'équipement de la caisse enregistreuse ou de problèmes logiciels, ils cherchaient comment l'éviter à l'avenir. Et ils ont eu l'idée d'un système de surveillance.

Avec lui, nous avons trois options pour résoudre les problèmes:

  • à titre préventif - corrigez le problème avant qu'il ne survienne. Par exemple, lors de la surveillance d'un disque dur, nous constatons que l'espace qu'il contient a été réduit à un niveau critique. Et nous prenons des mesures à cet égard;

  • après coup - nous résolvons le problème après qu'il se soit produit. Par exemple, un ventilateur du processeur est tombé en panne. Le processeur chauffe encore, mais il fonctionne. Tôt ou tard, bien sûr, cela échouera, mais jusqu'à présent, nous avons la possibilité de remplacer le ventilateur. Autrement dit, l'utilisateur n'a pas encore remarqué l'incident, mais il l'est déjà. De son point de vue, nous résolvons le problème de manière proactive, mais du point de vue de l'équipement - après coup;

  • analytiquement - nous obtenons une grande quantité de données rétrospectivement pour l'analyse des incidents.




Bien sûr, notre système de surveillance n'affecte pas toutes les caisses enregistreuses car il n'a pas toujours de sens. Prenez un scanner de codes-barres. Ils fonctionnent ou non. Et dans le deuxième cas, les employés du magasin nous signalent un problème beaucoup plus rapidement qu'un système de surveillance. Par conséquent, nous nous sommes concentrés sur le contrôle des terminaux POS et des caisses enregistreuses (CCP) .

Surveillance de la santé CCT


CCP fournit au pilote suffisamment d'informations pour vous permettre de juger de ses performances. Par exemple:

  • Diverses données d'inventaire - versions matérielles, firmware, pilotes, numéros de série. En général, la composition des équipements sur le service est fixée dans les annexes aux contrats et stockée dans la CMDB, cependant, le client est libre de déplacer et de remplacer les équipements à sa guise. Bien sûr, il ne se souvient pas toujours qu'il serait bon d'en informer la société de services. C'est là que le système de surveillance vient à la rescousse, qui suit le changement de configuration de l'équipement. Nous avons écrit un module d'intégration qui corrige CMDB en fonction des données d'inventaire de Zabbix. En plus de suivre la configuration réelle de l'équipement dans les installations de service, il, associé à la fonctionnalité d'auto-détection du système de surveillance, réduit considérablement le temps de démarrage de l'inventaire d'un nouveau client, si de tels travaux sont prévus par le contrat.


Étude de cas: beaucoup se souviennent probablement du cas d'un bug dans le firmware d'un des fabricants de KKT en décembre 2017? Dès que les premières informations sur le problème sont apparues, nous avons configuré un déclencheur dans Zabbix, signalant la version du micrologiciel contenant le bogue, et obtenu une liste des CCP qui devaient être résolus de toute urgence.

  • Le code d'état CCP est un excellent paramètre qui vous permet de suivre presque tous les dysfonctionnements, allant de l'heure mal réglée ou de la surchauffe de la tête d'impression à la présence de données fiscales non envoyées sur le lecteur fiscal.

Contrôle du logiciel de caisse


Dans le cadre du contrôle du programme de trésorerie, nous surveillons différents signes:

  • la facilité de maintenance des services - que le logiciel soit allumé ou non, qu'il ouvre certains ports réseau ou attend une connexion;

  • entrées dans les journaux - généralement le logiciel écrit dans les journaux sur les problèmes rencontrés, génère un ensemble d'erreurs. En tant que signe indirect, si les journaux changent, le logiciel fonctionne, s'il n'y a pas de nouvelles entrées, vous devez créer une demande;

  • en fait, les entrées de journal elles-mêmes - si un message d'erreur se produit, le déclencheur se déclenche. Après le traitement, les enregistrements sont transférés vers ELK: les journaux Logstash sont supprimés via l'API Zabbix;

  • les résultats du logiciel d'intégration qui télécharge, convertit et envoie des données (par exemple, transfère des informations à EGAIS, OFD, reçoit une gamme de biens). Ainsi, un package de données récemment mal formé avec la nomenclature a désactivé le logiciel des terminaux d'auto-paiement, paralysant leur travail dans l'un des magasins de nos clients. Grâce au système de surveillance, nous avons réussi à localiser le problème dans le temps;

  • versions de logiciel et de pilote - parfois, des situations surviennent lorsque, par exemple, les versions de deux programmes ne sont pas compatibles, mais pour que les logiciels de caisse fonctionnent, ils doivent interagir;

  • Bases de données - nous surveillons la facilité de service des services, la disponibilité des ports réseau, le nombre de bases de données, leurs versions et le nombre de bases de données désactivées;

  • des services externes (par exemple, EGAIS, avec lesquels nous interagissons via des réseaux IP en mode automatique).




Problèmes qui entrent le plus souvent dans le système de surveillance


Le plus souvent, Zabbix nous signale des problèmes de réseau: inaccessibilité des appareils, temps de réponse trop long. De plus, il y a des difficultés avec l'utilisation des ressources: les PC de faible puissance sont généralement utilisés pour les caisses enregistreuses. Le troisième problème le plus courant est la validité des données provenant de systèmes externes.

Très souvent, des messages concernant une heure locale incorrecte arrivent. Les PC Cash n'entrent généralement pas dans AD et le service ntp doit y être configuré séparément, ce qui est parfois oublié. Et le mauvais moment à la caisse est lourd de problèmes majeurs pour le magasin: par exemple, vendre de l'alcool quand il est interdit, ce qui peut entraîner une amende ou la perte d'une licence.

Fraude et temps d'arrêt


Un autre domaine d'activité où Zabbix, fortuitement, s'est avéré très utile, est la lutte contre la fraude. Il arrive que des entrepreneurs des régions ou des ingénieurs de terrain individuels, qui sont payés séparément, entament un complot avec les utilisateurs du client et résolvent des problèmes qui n'existaient pas réellement. Nous pouvons les amener à l'eau potable en analysant les indications du système de surveillance. Bien que cela se fasse manuellement, lorsqu'une augmentation d'activité suspecte est enregistrée à un certain endroit, mais nous travaillons pour vérifier automatiquement les applications avec les lectures Zabbix dans tous les cas où cela est possible.

Maintenant, de notre système de surveillance reçoit de 15 à 25% des demandes. C'est un montant assez faible, mais d'ici la fin de cette année, nous voulons le porter à 50% pour les clients qui ont signé des accords de service avec nous.

Source: https://habr.com/ru/post/fr442044/


All Articles