Wie wir das Zabbix-Einzelhandelsüberwachungssystem verwenden

Überwachungssysteme wie Zabbix sind für anspruchsvolle Benutzer nicht überraschend. Im Einzelhandel sind sie jedoch keine häufigen Gäste, und wenn sie verwendet werden, dann immer mehr zur Serversteuerung. Wir gingen weiter und verwendeten sie zur Überwachung von Registrierkassensoftware und -ausrüstung.



Warum Überwachungssysteme im Einzelhandel selten zu finden sind


Hier ist alles völlig transparent: Einzelhändler und Dienstleistungsunternehmen setzen selten Überwachungssysteme ein, da es schwierig ist, ihre Wirtschaftlichkeit zu bewerten. Mit der Einführung von Geschäftsprozessen ist alles einfach - X Geld und X Aufwand. Es ist jedoch schwieriger zu berechnen, wie viel sie dem Einzelhändler in Zukunft erspart haben.

Dienstleister implementieren normalerweise keine Überwachungssysteme, auch weil sie die Bedeutung ihrer Arbeit nicht verringern. Dies ist logisch: Mit Zabbix können Sie ein Problem identifizieren, bevor der Client es sieht. Dies verbessert zum einen die Qualität der erbrachten Leistungen. Andererseits hat der Kunde manchmal den falschen Eindruck, dass seine Geschäftsprozesse perfekt organisiert sind und ohne fremde Hilfe funktionieren. Dies kann jedoch durch eine zeitnahe Berichterstattung gelöst werden.

Selbst Einzelhändler, die sich zur Implementierung eines Überwachungssystems bereit erklären, haben normalerweise die Kontrolle über Server, Bürocomputer, unterbrechungsfreie Stromversorgungen und aktive Netzwerkgeräte. Wir machen das auch:

  • Von Servern erhalten wir Daten über die Auslastung von Prozessoren, die Leistung von Lüftern, Festplatten, Speicher, die Temperatur von Prozessoren und Motherboards.

  • von unterbrechungsfreien Stromquellen - Status, Ladezustand, Informationen darüber, wie viel Zeit sie im Falle eines Stromausfalls arbeiten werden;

  • von Netzwerkgeräten - Verkehr auf Häfen, Nutzung von Ressourcen.

Als Teil der empfangenen Informationen werden automatische Anfragen im Service Desk gestellt. Eine Reihe anderer Daten hilft uns bei der Untersuchung von Vorfällen. Klassisches Beispiel: Ein Benutzer beschwert sich, dass sein Computer langsam ist. Ohne ein Überwachungssystem ist es schwer zu verfolgen - entweder wenn der Ingenieur alles verbindet, ist alles in Ordnung, oder der Mitarbeiter hat einen subjektiven Eindruck (sein schwach funktionierender PC arbeitet objektiv langsamer als ein schicker Spielecomputer, der zu Hause ist). Aus diesem Grund untersuchen wir retrospektive Diagramme für die Zeit, als eine Person ein Problem beobachtete.

Aber all das ist alltäglich, nichts Neues. Es ist einfach so passiert, dass wir weiter gegangen sind und mit Hilfe von Zabbix begonnen haben, die Leistung von Registrierkassensoftware und Registrierkassenausrüstung zu überwachen. Wir tun dies für große internationale Einzelhändler, die auf dem russischen Markt sowohl im Lebensmittel- als auch im Non-Food-Bereich weit verbreitet sind. Unser regionales Überwachungssystem wurde auch von einigen regionalen Netzwerkern übernommen, die nun die Leistung ihrer Geschäftsprozesse unabhängig steuern können.

Warum haben wir damit angefangen?


Ehrlich gesagt wurde das Überwachungssystem spontan, ohne Projekt und in Teilen in Pilot implementiert. Wenn die Entscheidung darüber von oben kommen würde, würden wir vielleicht den Weg anderer Dienstleister gehen und uns nicht darum kümmern. Aber wir haben die Einführung von linearen Mitarbeitern - Ingenieuren - eingeleitet. Angesichts einer bestimmten Störung der Registrierkassenausrüstung oder von Softwareproblemen suchten sie nach Möglichkeiten, dies in Zukunft zu verhindern. Und sie kamen auf die Idee eines Überwachungssystems.

Damit erhalten wir drei Möglichkeiten zur Problemlösung:

  • vorbeugend - Beheben Sie das Problem, bevor es auftritt. Wenn wir beispielsweise eine Festplatte überwachen, stellen wir fest, dass der Speicherplatz auf einer kritischen Ebene reduziert wurde. Und wir ergreifen diesbezüglich Maßnahmen.

  • nachträglich - wir lösen das Problem, nachdem es passiert ist. Beispielsweise ist ein Lüfter am Prozessor ausgefallen. Der Prozessor erwärmt sich noch, funktioniert aber. Früher oder später wird es natürlich scheitern, aber bisher haben wir die Möglichkeit, den Lüfter auszutauschen. Das heißt, der Benutzer hat den Vorfall noch nicht bemerkt, ist es aber bereits. Aus seiner Sicht lösen wir das Problem proaktiv, aber aus Sicht der Ausrüstung - nachträglich;

  • analytisch - wir erhalten im Nachhinein eine große Datenmenge für das Parsen von Vorfällen.




Natürlich betrifft unser Überwachungssystem nicht alle Registrierkassen, da es nicht immer sinnvoll ist. Nehmen Sie einen Barcode-Scanner. Sie arbeiten entweder oder nicht. Und im zweiten Fall melden uns Filialmitarbeiter ein Problem viel schneller als ein Überwachungssystem. Daher haben wir uns auf die Steuerung von POS-Terminals und Registrierkassen (CCP) konzentriert .

CCT-Gesundheitsüberwachung


CCP gibt dem Fahrer genügend Informationen, mit denen Sie die Leistung beurteilen können. Zum Beispiel:

  • Verschiedene Inventardaten - Hardwareversionen, Firmware, Treiber, Seriennummern. Im Allgemeinen ist die Zusammensetzung der Geräte im Service in den Anhängen zu den Verträgen festgelegt und in der CMDB gespeichert. Dem Kunden steht es jedoch frei, die Geräte nach Belieben zu bewegen und auszutauschen. Natürlich erinnert er sich nicht immer daran, dass es schön wäre, das Dienstleistungsunternehmen darüber zu informieren. Hier kommt das Überwachungssystem zur Rettung, das die Änderung der Gerätekonfiguration verfolgt. Wir haben ein Integrationsmodul geschrieben, das CMDB gemäß den Inventardaten von Zabbix korrigiert. Zusätzlich zur Verfolgung der tatsächlichen Konfiguration von Geräten in Serviceeinrichtungen reduziert es in Verbindung mit der automatischen Erkennungsfunktion des Überwachungssystems die Zeit für den Beginn der Bestandsaufnahme eines neuen Kunden erheblich, wenn dies im Vertrag vorgesehen ist.


Fallstudie: Viele erinnern sich wahrscheinlich an den Fehler in der Firmware eines Herstellers von KKT im Dezember 2017? Sobald die ersten Informationen über das Problem erschienen, haben wir in Zabbix einen Trigger eingerichtet, der die Firmware-Version mit dem Fehler signalisiert, und eine Liste der CCPs erhalten, die dringend behoben werden mussten.

  • Der CCP-Statuscode ist ein hervorragender Parameter, mit dem Sie nahezu jede Fehlfunktion verfolgen können, von falsch eingestellter Zeit oder Überhitzung des Druckerkopfs bis hin zum Vorhandensein nicht gesendeter Steuerdaten auf dem Steuerlaufwerk.

Cash Software Control


Im Rahmen der Bargeldprogrammkontrolle überwachen wir verschiedene Anzeichen:

  • die Wartungsfreundlichkeit der Dienste - ob die Software eingeschaltet ist oder nicht, ob sie einige Netzwerkports öffnet oder auf eine Verbindung wartet;

  • Einträge in den Protokollen - normalerweise schreibt die Software über die aufgetretenen Probleme in die Protokolle und generiert eine Reihe von Fehlern. Wenn sich die Protokolle als indirektes Zeichen ändern, funktioniert die Software. Wenn sie keine neuen Einträge enthält, müssen Sie eine Anforderung erstellen.

  • in der Tat die Protokolleinträge selbst - wenn eine Fehlermeldung auftritt, wird der Trigger ausgelöst. Nach der Verarbeitung werden die Datensätze an ELK übertragen: Logstash-Protokolle werden über die Zabbix-API gelöscht.

  • Die Ergebnisse der Integrationssoftware, die Daten herunterlädt, konvertiert und sendet (z. B. Informationen an EGAIS, OFD überträgt, eine Reihe von Waren empfängt). Ein kürzlich falsch geformtes Datenpaket mit der Nomenklatur deaktivierte die Software von Selbstzahlungsterminals und lähmte deren Arbeit in einem Geschäft unseres Kunden. Dank des Überwachungssystems konnten wir das Problem rechtzeitig lokalisieren.

  • Software- und Treiberversionen - Manchmal treten Situationen auf, in denen beispielsweise die Versionen von zwei Programmen nicht kompatibel sind, aber damit Cash-Software funktioniert, müssen sie interagieren.

  • Datenbanken - Wir überwachen die Wartungsfreundlichkeit von Diensten, die Verfügbarkeit von Netzwerkports, die Anzahl der Datenbanken, ihre Versionen und die Anzahl der deaktivierten Datenbanken.

  • externe Dienste (zum Beispiel EGAIS, mit denen wir im automatischen Modus über IP-Netzwerke interagieren).




Probleme, die am häufigsten im Überwachungssystem auftreten


Am häufigsten signalisiert uns Zabbix Netzwerkprobleme: Unzugänglichkeit von Geräten, zu lange Reaktionszeit. Darüber hinaus gibt es Schwierigkeiten bei der Ressourcennutzung: PCs mit geringem Stromverbrauch werden normalerweise für Registrierkassen verwendet. Das dritthäufigste Problem ist die Gültigkeit von Daten aus externen Systemen.

Sehr oft kommen Nachrichten über falsche Ortszeiten. Cash-PCs treten normalerweise nicht in AD ein und der NTP-Dienst muss dort separat konfiguriert werden, was manchmal vergessen wird. Und die falsche Zeit an der Kasse ist mit großen Problemen für das Geschäft verbunden: Zum Beispiel der Verkauf von Alkohol, wenn dies verboten ist, was zu einer Geldstrafe oder zum Verlust einer Lizenz führen kann.

Betrug und Ausfallzeiten


Ein weiterer Tätigkeitsbereich, in dem sich Zabbix übrigens als sehr nützlich herausstellte, ist die Betrugsbekämpfung. Es kommt vor, dass Auftragnehmer in den Regionen oder einzelne Außendiensttechniker, die separat bezahlt werden, eine Verschwörung mit den Benutzern des Kunden eingehen und Probleme lösen, die tatsächlich nicht existierten. Wir können sie zu sauberem Wasser bringen, indem wir die Anzeigen des Überwachungssystems analysieren. Dies erfolgt zwar manuell, wenn an einem bestimmten Ort ein verdächtiger Aktivitätsanstieg aufgezeichnet wird, wir arbeiten jedoch daran, Anwendungen mit Zabbix-Messwerten in allen Fällen, in denen dies möglich ist, automatisch zu überprüfen.

Jetzt erhält unser Überwachungssystem 15 bis 25% der Anträge. Dies ist ein relativ kleiner Betrag, aber bis Ende dieses Jahres möchten wir ihn für Kunden, die mit uns Serviceverträge unterzeichnet haben, auf 50% erhöhen.

Source: https://habr.com/ru/post/de442044/


All Articles