Hallo habr Heute möchten wir Ihnen einen Artikel des Leiters des technischen Supports von IT-GRAD, Alik Fakhrutdinov, über den Aufbau eines neuen Überwachungssystems im Rahmen einer Zusammenarbeit mit MTS PJSC vorstellen. Dieses Mal lassen wir die technischen Details und Nuancen aus und konzentrieren uns auf die administrative Komplexität des Prozesses. Unter dem Strich werden wir darüber sprechen, welche Ereignisse uns veranlasst haben, ein brandneues Überwachungssystem aufzubauen (anstatt das alte zu „vermasseln“), über neue Überwachungschips als Service für Kunden und die Schwierigkeiten, auf die wir dabei gestoßen sind.

Wie Sie vielleicht wissen, wird das Konzept eines einheitlichen Cloud-Anbieters derzeit von drei zusammenarbeitenden Marken vertreten:
- #CloudMTS, erstellt vom MTS Innovation Center;
- IT-GRAD Company, ein Cloud-basierter IaaS-Anbieter;
- 1cloud service.
Jetzt arbeiten alle Marken innerhalb dieses Konzepts zusammen und ergänzen sich gegenseitig und versuchen, die Anforderungen der verschiedenen Segmente unseres Publikums zu schließen. Während des Zusammenschlusses stießen wir jedoch auf einige Schwierigkeiten, von denen eine zur Entwicklung eines neuen Überwachungssystems führte.
Nach der Transaktion wurde der Prozess der Aufteilung der Cloud-IT-Infrastruktur von IT-GRAD in ein separates Segment gestartet. Es war eine schwierige Übergangszeit, in der eine große Anzahl von Geräten und Rechenzentren getrennt wurden, die nicht in der Transaktionsübersicht enthalten waren. Das Routing der internen und externen Netzwerke hat sich geändert. Gleichzeitig waren die Fristen eng und die Auslöser im Überwachungssystem konnten nicht immer rechtzeitig aktualisiert werden. Dies führte zur Erzeugung vieler falscher Vorfälle aus nicht existierenden Geräten.
Im Zuge der globalen Umgestaltung hatten es auch die Mitarbeiter schwer. Support - Sie sahen sich einer derart großen Anzahl von Fehlalarmen ausgesetzt, dass es äußerst schwierig war, alle Ereignisse korrekt und rechtzeitig zu verarbeiten. Es war notwendig, das Überwachungssystem vollständig neu zu konfigurieren, es für aktuelle Aufgaben zu aktualisieren und es tatsächlich in einen neuen Dienst sowohl für den internen Gebrauch als auch für unsere Kunden umzuwandeln.
Infolgedessen wurde beschlossen, eine eigene Ereignisverwaltungseinheit einzurichten, die das Überwachungssystem in IT-GRAD einrichtet und anschließend zu einem einzigen Zentrum für die Überwachung des Zustands der Infrastruktur des integrierten Cloud-Anbieters wird.
Als Ergebnis der Umwandlung sind die Hauptanforderungen:
- Das Überwachungssystem sollte nicht nur auf IT-GRAD funktionieren, sondern auch ein interner Dienst für den Unified Cloud Provider und ein Dienst für Kunden werden.
- Es wurde eine Lösung benötigt, die Statistiken aus der gesamten IT-Infrastruktur erfasst.
- Da es viele Systeme gibt, müssen alle Überwachungsereignisse in einem einzigen Datenaggregator zusammengefasst werden, in dem Ereignisse und Auslöser anhand einer einzigen CMDB überprüft werden und Benutzer bei Bedarf automatisch benachrichtigt werden.
Nachdem wir alle zu diesem Zeitpunkt verfügbaren Daten gesammelt und analysiert hatten, haben wir die Umsetzung des Projekts in mehrere Phasen unterteilt:
- Ermittlung der Anforderungen an ein Überwachungssystem.
- Erstellung von Modellen für „Gesundheitskomponenten“ -Dienste.
- Analyse der Anforderungen an Zuverlässigkeit und Fehlertoleranz des Überwachungssystems.
- Testen und konsequente Implementierung des Systems.
- Organisation der Überwachung als Dienstleistung für Kunden.
Zur Verdeutlichung stellen wir diesen Prozess in Form eines Flussdiagramms vor.


Wachstumsschwierigkeiten
Natürlich konnte die Einführung eines solch komplexen Systems nicht reibungslos vonstatten gehen, und wir stießen auf einige Schwierigkeiten.
- Der erste Punkt ist die Bildung einer neuen Abteilung. Es stellte sich heraus, dass es nicht so einfach ist, hochspezialisierte Spezialisten zu finden, die mit verschiedenen Überwachungssystemen vertraut sind und über praktische Erfahrung verfügen. Eine unserer Anforderungen war das Verständnis von Monitoring als Service und nicht nur als Bestandteil der IT-Infrastruktur.
- Fristen für die Lösung des Problems.
- Eine geografisch fragmentierte IT-Infrastruktur, die auf einen einheitlichen Standard gebracht werden musste.
- Eine große Anzahl unterschiedlicher Überwachungssysteme, die zu einem einzigen System kombiniert werden mussten.
Überwachung und Berichterstattung im Überwachungssystem

Sozialismus: Die IT-Infrastruktur ist Buchhaltung und Kontrolle. Kein einziges Ereignis, auch nicht das unbedeutendste, sollte unbeachtet bleiben. Im Moment ist es uns gelungen, einen Berichterstattungs- und Kontrollprozess aufzubauen, einschließlich:
- Berichterstattung und Nachverfolgung von Statistiken über die Komponenten unserer Kunden;
- Durchführung einer Managementanalyse des „Betriebszustands“ unserer internen Infrastruktur;
- Planen von Serviceverbesserungen basierend auf gesammelten Berichten.
Mit der erstellten einzelnen CMDB können wir den Status und den Verlauf von Ereignissen sowohl in der gesamten Infrastruktur als auch für jede Komponente einzeln verfolgen.
Darüber hinaus haben wir begonnen, den Status einzelner Dienste, beispielsweise Sicherungen, zu überwachen, und zwar die Richtigkeit der Sicherungsaufgaben. Wenn die Aufgabe aus irgendeinem Grund fehlschlägt, protokolliert das System den Vorfall. Es zeigt den Backup-Server, die Aufgabe selbst und die virtuelle Maschine an - da wir dies wissen, können wir es schnell beheben. Durch Überwachungsdienste können wir unseren Kunden auch Berichte zur Verfügung stellen.

Unten finden Sie einen Screenshot der Berichte von Live Technologies.

Nachfolgend sehen Sie einen zusammenfassenden Bericht über die Anzahl der Incidents, die nach Klasse der Konfigurationseinheiten (KE) in Bezug auf den Grad des Einflusses auf die Infrastruktur gruppiert sind.

Systemergebnisse überwachen
Das neue Überwachungssystem ist bereits in Betrieb und wir sind bereit, Ihnen die Ergebnisse seiner Arbeit und unsere eigenen Beobachtungen mitzuteilen.
Momentan ist es uns gelungen, die Überwachung der IT-GRAD-Infrastruktur vollständig wiederherzustellen und die Erzeugung falscher Vorfälle zu beseitigen. Der Service für Kunden wird derzeit getestet und ist in Kürze verfügbar. In Zukunft planen wir, die Integration von Infrastrukturen zu vervollständigen, indem wir 1cloud und #CloudMTS an ein einziges IT-GRAD-Überwachungssystem anschließen.
Zuvor wurde beim Auslösen eines Alarmauslösers ein Vorfall auf dem 1-Zeilen-Support generiert. Der Duty Officer bearbeitete es und benachrichtigte den Kunden entweder telefonisch oder per E-Mail.
Jetzt funktioniert alles autonom: Wenn der Trigger 2 Minuten lang ausgelöst wird, wird der Client bei Bedarf automatisch benachrichtigt.
Wir werden ein wenig darauf achten, wie Warnungen funktionieren.

Bei einer Änderung des Zustands der IT-Komponente registriert das Überwachungssystem das Ereignis im Datenaggregator, der das Ereignis über den gesamten Brief verarbeitet und in Abhängigkeit vom Grad der Kritikalität des in der Warnung angegebenen Zustands der Komponente eine Anforderung, Benachrichtigung oder einen Vorfall mit der gewünschten Priorität generiert. Darüber hinaus ermittelt das System über die CMDB, zu welchem Kunden KE gehört, und alarmiert gemäß dem Gesundheitsmodell per E-Mail oder SMS. Darüber hinaus befindet sich derzeit ein spezieller Telegramm-Bot für Alarme in der Finalisierungsphase und wird in Kürze allen unseren Kunden zur Verfügung stehen.

Jetzt überwachen wir im Rahmen der Überwachung und Steuerung von Diensten den „Gesundheitszustand“ der IT-Arbeitsumgebung in Echtzeit und benachrichtigen automatisch sowohl externe als auch interne Benutzer. Durch die Überwachung des Status der IT-Infrastruktur und -Dienste sowie der erfassten Daten können Sie proaktive Maßnahmen ergreifen, bevor ein Fehler auftritt.
Wie Sie sehen, ist der Prozess des Aufbaus eines Überwachungssystems voller Fallstricke. Wir sind uns jedoch sicher, dass wir durch die gemeinsame Arbeit unserer Ingenieure und Analysten ein hervorragendes Produkt erhalten haben, das zwei geschäftliche Probleme gleichzeitig löst: Es bietet uns eine qualitativ hochwertige Überwachung und ermöglicht uns, die Überwachung als Dienstleistung für Kunden zu implementieren.