
Die Überwachung ist der wichtigste Teil Ihrer Infrastruktur. Die Überwachung ist die Grundlage der Systemingenieure. Jeder hat jedoch seine eigene Art, es zu verstehen. Mein Weg besteht aus Verleugnung. Wut & Akzeptanz.
Ablehnung

Es ist kaum zu glauben, aber auf dem Foto befindet sich ein Serverraum .
Es war 2007. Ich studierte im zweiten Jahr an der CSU (Tscheljabinsk State University) in der Abteilung für Informationssicherheit. Ich entschied mich, mich als Assistent im Informationssicherheitslabor für die CSU zu bewerben. Es war eine vorübergehende Teilzeitbeschäftigung. Danach bekam ich 2009 einen weiteren Teilzeitjob bei einer Handelsproduktionsorganisation als Systemadministrator. Dieses Mal wusste ich nichts über Überwachung, ich war nass hinter den Ohren und dachte, dass es möglich sei, ein Held zu sein und jedes Problem zu lösen. Hoffentlich war es eine kurze Zeit meines Lebens, ich hatte das Gefühl, dass es falsch war.
Wut

2010 war eines der anstrengendsten Jahre. Ich habe für 2 Arbeitgeber gearbeitet; durchgeführte Kurse; bereitete eine Masterarbeit vor; Außerdem war ich Präfekt. Unter Erfahrungsdruck änderte sich meine Vision von Überwachung. Dieser Prozess kollidierte mit meinem Rücktritt. Vor Abschluss der Prüfung entschied ich mich zum Rücktritt und suchte einen neuen Job. Die überwiegende Mehrheit der Interviewer war verwirrt, weil ich Student war. Einer von ihnen hatte jedoch zugestimmt, mich einzustellen. Ich hatte eine feste Vollzeitstelle für ein internationales multinationales Unternehmen. Ich habe meinen Abschluss gemacht; Ich habe meine Fähigkeiten und Erfahrungen verbessert und für überbesetzte Unternehmen gearbeitet. Die überwiegende Mehrheit unserer Projekte waren erstaunliche und interessante Startups. Ich habe meine Qualifikation extrem verbessert, da es bei 400 Servern für die einzelne Person keine anderen Möglichkeiten gab. Ich hatte als DevOps gearbeitet, bevor es Mainstream war. Ich bin bei der Arbeit ausgebrannt und habe beschlossen, die Arbeit zu wechseln.
Dieses Mal, dachte ich, mussten wir alles überwachen. Es war wirklich wichtig. Jeder sollte Überwachungsbenachrichtigungen erhalten. Außerdem hat sich das Toolset für die Überwachung geändert und verbessert. Eine der ersten Implementierungen waren Bash / PowerShell-Skripte (freier Speicherplatz, Anzahl verfügbarer Updates, Sicherungsstatus usw.) und externe Services Red Alert, Lazy Farmer (internes Tool zur Site-Überprüfung). Es war gut genug in den Jahren 2010-2011, aber wir hatten viele verschiedene Probleme:
- E-Mail Hölle.
- Unvorhersehbare Verzögerungen.
- Unbekannte Ressourcennutzung.
Wir hatten beschlossen, unser Leben etwas einfacher zu gestalten und uns für Zabbix zu entscheiden. Wir haben alles überwacht:
- Anzahl der mit WLAN verbundenen Benutzer.
- Anzahl der gedruckten Seiten.
- Zählen Sie lebende VPN-Tunnel.
- Servertemperatur.
- Netzwerklast.
- etc ...
Außerdem möchte ich einige der anstehenden Probleme mitteilen:
- Es gab DC-verteilte Infrastrukturen und viele Metriken. Wir waren damit konfrontiert, dass manchmal keine Metriken vorhanden waren. Wir haben es über den Zabbix-Proxy behoben.
- Wenn der VPN-Tunnel ausfällt, erhalten wir eine Menge Nachrichten. Wir haben Infrastrukturabhängigkeiten konfiguriert.
- Wir haben wiederkehrende Aufgaben automatisiert. dh bei wenig freiem Speicherplatz haben wir versucht, ihn automatisch zu bereinigen.
- Wir haben verstanden, dass es eine schlechte Idee war, jemanden zu benachrichtigen, wenn die durchschnittliche Metrik für die CPU-Auslastung innerhalb von 30 Sekunden mehr als 95% beträgt. Daher haben wir so etwas wie eine Schwellenperiode hinzugefügt.
- Wir haben geschäftskritische Szenarien überprüft (d. H. Weblogin, Suche usw.).
- Wir haben Skabb-Integrationen aufgrund von Chat-Ops um Zabbix erweitert.
- Quis custodiet ipsos custodes?
- etc ...
Akzeptanz

Ein bisschen später verstand ich, dass sich Geschäftsleute einerseits nicht für RAM / CPU / IOPS interessieren. Ihr Interesse an TTM (Time-to-Market) und Geschäftsmetriken, aber andererseits sollte IT-Darm in der Lage sein, jede Art von Problem zu verfolgen.
Imbiss
- Ablehnung . Sie sollten nichts überwachen, da Ihre Benutzer Sie markieren, wenn etwas Seltsames auftritt.
- Wut Sie müssen alles überwachen. Sie können CTO / CEO benachrichtigen, wenn die durchschnittliche Metrik für die CPU-Auslastung innerhalb von 30 Sekunden mehr als 95% beträgt.
- Akzeptanz Geschäftsleute interessieren sich nicht für RAM / CPU / IOPS. Ihr Interesse an TTM (Time-to-Market) und Geschäftsmetriken.
Zabbix war gut genug gewesen, aber die Welt veränderte sich. Es gab viele moderne Ansätze zur Überwachung.
- Es ist möglich, die Monolith-Überwachungsanwendung auf verschiedene Ebenen aufzuteilen: Sammeln, Speichern, Präsentieren.
- Business & IT müssen genau dieselben Daten verarbeiten, sie sollten jedoch unterschiedliche Sichtweisen auf Daten berücksichtigen.
- Es gibt keine Silberkugel, es bedeutet, dass Sie Ihre Lösungen anpassen sollten.
PS