Sieben "NICHT" IT-Infrastrukturüberwachung

Während meiner Arbeit beobachtete ich regelmäßig Situationen, in denen die Implementierung der Überwachung im Unternehmen nicht zu den erwarteten Ergebnissen führte. Die Überwachung funktionierte nicht gut oder überhaupt nicht. Als ich solche Situationen analysierte, stellte ich fest, dass ihre Ursachen fast immer dieselben waren. Obwohl sie alle an der Oberfläche liegen, habe ich mich die ganze Zeit mit ihnen getroffen und beschlossen, sie so zusammenzustellen, dass Sie gewarnt und bewaffnet sind.



1. Implementieren Sie KEIN Überwachungstool


Wenn IT-Abteilungen nur ein Überwachungstool erhalten, entsteht keine effektive und relevante Überwachung von selbst. Versuchen Sie, anstatt ein Überwachungssystem einzuführen, die Schaffung einer Überwachungs-IT-Infrastruktur als Prozessorganisation zu betrachten .

Was meine ich mit dem Überwachungsprozess? Der Überwachungsprozess ist eine Kombination aus Humanressourcen, technischen Mitteln und organisatorischen Maßnahmen zur Lösung der Aufgaben, die das Unternehmen bei der Überwachung während des Betriebs der IT-Infrastruktur stellt. Ich möchte insbesondere darauf hinweisen, dass Personen und Regeln in dieser Definition nicht weniger wichtig sind, sondern mehr als technische Mittel.



Hier sind einige typische Beispiele für die Namen von Überwachungsprojekten, an denen ich einmal teilgenommen habe. Der Name des Projekts spiegelt in den meisten Fällen genau das Ergebnis wider, das der Kunde erhalten wollte:

  • Implementierung eines Unternehmens-Telekommunikationsnetz-Management- und Betriebssystems
  • Erstellen eines Überwachungssystems für die IT-Infrastruktur
  • Entwicklung eines Steuerungssystems und Betrieb der Internetschaltung
  • Implementierung des Schaltanlagenüberwachungssystems von OJSC
  • Schaffung eines Informationstechnologie-Managementsystems
  • Erstellung eines Hardware-Software-Komplexes für das Management- und Überwachungssystem der IT-Infrastruktur

Unternehmen konzentrieren sich auf Technologie und opfern meistens die beiden anderen Komponenten - Personal und organisatorische Maßnahmen. Infolgedessen wird das Tool angezeigt, ein klares Verständnis darüber, wer und wie dieses Tool verwendet werden soll, ist jedoch nicht vorhanden.

Natürlich gibt es in jedem Projekt zur Implementierung eines Überwachungssystems bis zu dem einen oder anderen Grad sowohl ein Vorbild als auch eine begleitende Dokumentation. Diese Dokumentation ist jedoch in der Regel formal und hilft den IT-Abteilungen nicht bei der Beantwortung von Fragen, die bei der Arbeit mit dem System auftreten.

2. Der Integrator erledigt NICHT die ganze Arbeit für Sie


In der Regel ziehen große und mittlere Unternehmen für Projekte im Zusammenhang mit der Überwachung Spezialisten von Integratorunternehmen an. Bei der Prüfung der Infrastruktur verlassen sich Integratoren auf ihr Wissen und ihre Erfahrung bei der Problemlösung. Aber weit davon entfernt, dass dies genau das ist, was das Unternehmen braucht. Niemand kennt die Feinheiten der mit dem Betrieb der IT-Infrastruktur verbundenen Probleme besser als die Spezialisten des Unternehmens.

Daher empfehle ich, vor der Identifizierung eines Drittanbieters die Probleme , die das Unternehmen durch Überwachung lösen möchte, unabhängig zu bestimmen . Zum Beispiel:

  • ungleichmäßige Lastverteilung auf die virtuelle Infrastruktur;
  • hohe Anzahl von Unfällen in der IT-Infrastruktur;
  • ein hohes Maß an Belastung hochqualifizierter Spezialisten durch einfache Aufgaben;
  • geringe Verfügbarkeit von Unternehmensdiensten;
  • eine große Anzahl von Anrufen an die erste Leitung;
  • eine lange Zeit vom Zeitpunkt des Auftretens des Unfalls bis zu seiner Entdeckung;
  • die Notwendigkeit, die Arbeit der Systemadministratoren zu optimieren;
  • geringe Produktivität der IT-Infrastruktur;
  • Mangel an zuverlässigen Daten zu IT-Infrastrukturressourcen;
  • Mangel an Instrumenten zur Unfallverhütung.

Es wird auch in den frühen Phasen der Überwachung äußerst nützlich sein, Metriken zu korrigieren , die Probleme quantifizieren und Statistiken zu diesen Metriken sammeln. Infolgedessen erhalten wir Informationen zum Funktionszustand der IT-Infrastruktur, bevor wir den Überwachungsprozess organisieren. Und nach der Implementierung der Überwachung können wir steuern, wie die Organisation die Änderung dieser Indikatoren beeinflusst hat. Beispiele für solche Metriken sind:

  • durchschnittliche Anzahl der im Berichtszeitraum erfassten Vorfälle;
  • durchschnittliche Ausfallzeit der Schlüsseldienste;
  • Durchschnittliche prozentuale Verfügbarkeit der IT-Infrastruktur;
  • durchschnittlicher Prozentsatz der Auslastung der Infrastruktur;
  • die Anzahl der Anrufe in die erste Leitung für den Berichtszeitraum;
  • durchschnittliche Zeit vom Moment des Vorfalls bis zu seiner Entdeckung;

Je besser Metriken erarbeitet werden, die die Hauptprobleme beim Betrieb der IT-Infrastruktur charakterisieren, desto besser werden sie während der Überwachung verbessert. Die ständige Berechnung dieser Metriken sollte ein wesentlicher Bestandteil des Prozesses sein. Mit einer gewissen Periodizität ist es notwendig, die Formeln für ihre Berechnung zu überarbeiten. So können Sie rechtzeitig auf Änderungen in der Entwicklung der IT-Infrastruktur, ihrer qualitativen und quantitativen Zusammensetzung reagieren. Es ist ratsam, diese Metriken als KPIs bei der Bewertung der Leistung von IT-Infrastruktur-Support-Einheiten zu verwenden.

3. Verwechseln Sie NICHT die Überwachung und Verwaltung der IT-Infrastruktur


Fachkräfte sind eine der drei Schlüsselkomponenten eines effektiven Überwachungsprozesses. Um Geld zu sparen, insbesondere während des Implementierungsprozesses, versuchen Unternehmen manchmal, Systemadministratoren, die am Betrieb der IT-Infrastruktur beteiligt sind, die Unterstützung und Entwicklung des Überwachungssystems anzuvertrauen . Wenn Sie jedoch eine separate Struktur (Spezialist) auswählen, um die Überwachung zu unterstützen, erhöht dies die Servicequalität erheblich. Die Überwachung wird für diese Mitarbeiter die Haupt- und nicht die Nebentätigkeit sein, so dass sie viel mehr an ihrem Erfolg und ihrer Relevanz interessiert sind.

Die Zuständigkeiten der Überwachungseinheit (Spezialist) sollten unter anderem folgende Funktionen umfassen:

  • Verwaltung eines Komplexes von Überwachungssystemen;
  • Erstellung neuer Überwachungsmetriken;
  • Anpassung der Überwachungsschwellen;
  • Entwicklung neuer Überwachungsinstrumente;
  • Ausführung von Benutzeranforderungen;
  • Berichterstattung;
  • Entwicklung des gesamten IT-Überwachungsprozesses.

Auch wenn mehrere IT-Abteilungen gemeinsam an der Konfiguration der Überwachung beteiligt sind, benötigen Sie eine separate Struktur - ein Kompetenzzentrum für alle Aspekte der Überwachung . Dies hilft, doppelte Arbeitskosten zu vermeiden und Konfliktsituationen, die bei gemeinsamer Verwaltung früher oder später auftreten, schnell zu lösen.

4. Erwarten Sie NICHT, dass Ihre Untergebenen die Überwachung verwenden, wenn Sie dies nicht selbst tun.


Es kommt vor, dass der Leiter, der mit der Implementierung der Überwachung im Unternehmen begonnen hat, die erforderlichen Anweisungen gibt, Mittel zuweist, eine Vereinbarung mit dem Integrator abschließt und die Arbeit mit der Überwachung abschließt. Und vergebens, denn damit die Überwachung effektiv ist, muss sie auf allen Ebenen der Unternehmenshierarchie in der einen oder anderen Form gefragt sein. Sobald der Manager den Überwachungsdienst nutzt, wird er automatisch für alle seine Untergebenen obligatorisch.



5. Zwingen Sie die Mitarbeiter NICHT , mit dem Überwachungssystem zu arbeiten


Früher oder später ist die Implementierung des Überwachungssystems abgeschlossen und der Betrieb beginnt. Manchmal wird dies von einem Auftrag begleitet: Alle IT-Abteilungen beginnen mit der Arbeit mit dem System. Direkter Zwang bringt in der Regel keine positiven Ergebnisse. Das Maximum, das erreicht werden kann, ist die formelle Ausführung in der minimal erforderlichen Menge.

Die Überwachung wird positiv aufgenommen, wenn sie jeder Einheit hilft, ihre Probleme zu lösen. Wenn die IT-Betriebsabteilungen nicht mit der Überwachung beginnen, kann dies darauf hinweisen, dass die Ziele der Überwachungsimplementierung falsch festgelegt wurden. Oder dass die Ziele der Implementierung nicht mit den Zielen der IT-Abteilungen übereinstimmen.

Motivieren Sie die Unternehmensabteilungen, Überwachungsergebnisse zu verwenden, und verpflichten Sie sie nicht dazu. Eine gute Option für eine solche Motivation wäre die Erstellung von Schlüsselindikatoren für jede Einheit auf der Grundlage von Metriken, die die Probleme beim Betrieb der IT-Infrastruktur quantitativ beschreiben. Ich habe ihre Beispiele oben gegeben.

6. Konzentrieren Sie sich NICHT darauf, die Funktionalität des Überwachungssystems während des Tests zu testen.


Nach der Entwicklung des Überwachungssystems wird es getestet und anschließend getestet. Hier wird unser nächstes "nicht" relevant. Bis zu dem einen oder anderen Grad bin ich bei jedem Projekt auf dieses Problem gestoßen.

Wenn die Implementierung des Überwachungstools von einer Drittorganisation durchgeführt wird, ist es wichtig, dass die Spezialisten des Unternehmens in den Phasen der Abnahmetests und des Testbetriebs aktiv an der Entwicklung von Systemtestmethoden beteiligt sind. Während des Testens muss genau darauf geachtet werden, ob das Tool wirklich zur Erreichung der für die Überwachung festgelegten Ziele beiträgt .

Hier einige Beispiele für die Verwendung von Metriken für die endgültigen Tests:

  • Optimierung der Nutzung der IT-Infrastruktur. Basierend auf den Berichten des Überwachungssystems ist es möglich, eindeutige und motivierte Entscheidungen hinsichtlich der optimalen Entsorgung und einer rationaleren Verteilung der IT-Infrastruktur zu treffen.
  • Reduzierung der Anzahl der Unfälle in der IT-Infrastruktur. Die Überwachung der IT-Infrastruktur sollte so viele korrekte Signale wie möglich und so wenige falsche wie möglich liefern. Sie können dies überprüfen, indem Sie Statistiken über den Prozentsatz der Signale des Überwachungssystems erfassen, die den Notfallstatus der IT-Infrastrukturkomponenten tatsächlich melden und zu einer Reaktion geführt haben, um die Unfallursachen zu beseitigen.
  • Reduzierung der Belastung durch hochqualifizierte Spezialisten durch einfache Aufgaben. Überprüfung der Vollständigkeit und Detailgenauigkeit des in das System eingebauten Vorbilds sowie der Vollständigkeit seiner Befüllung mit Informationen über die Struktureinheiten des Unternehmens, Analyse der Regeln für die Eskalation von Warnmeldungen, falls das System dies vorsieht. Es ist auch nützlich, den Prozentsatz der Signale zu bestimmen, die die Zielempfänger erreichen, und diesen Wert mit den Zielindikatoren zu vergleichen.
  • Verbesserung der Verfügbarkeit von Unternehmensdiensten . Vergleich der vom Überwachungssystem definierten Indikatoren für die Zugänglichkeit von Unternehmensdiensten mit den tatsächlichen Indikatoren für die Verfügbarkeit für den Berichtszeitraum, die mit alternativen Methoden ermittelt werden. Dies umfasst auch die Überprüfung der Vollständigkeit und Detailgenauigkeit der Liste der Metriken, mit denen die Verfügbarkeit von Unternehmensdiensten ermittelt wird, die Schwellenwerte dieser Metriken und das Festlegen von Warnungen für Zielgruppen der Unterstützung von Unternehmensdiensten.
  • Überprüfung der Qualität der von einem externen Auftragnehmer erbrachten IT-Dienstleistungen . Überprüfung, ob die Überwachungsmetriken der erbrachten Dienstleistungen die Parameter des mit einem externen Auftragnehmer unterzeichneten SLA so weit wie möglich abdecken. Aufgrund ihrer Daten können wir klar sagen, dass der Auftragnehmer die SLA-Bedingungen erfüllt.
  • Inventar der IT-Infrastruktur. Überprüfung der Vollständigkeit der vom Überwachungssystem gesammelten Inventarinformationen und ihrer Übereinstimmung mit den Anforderungen und Zielen des Inventars; Überprüfung der Qualität und Benutzerfreundlichkeit der vom Überwachungssystem erstellten Bestandsberichte.
  • Proaktive Unfallwarnung. Vergleich der Statistiken über die Anzahl der Unfälle im Berichtszeitraum vor Beginn der Nutzung des Überwachungssystems und nach dessen Inbetriebnahme; Vergleich dieser Werte mit Zielen.

Einerseits ist es ziemlich schwierig, dies zu überprüfen. Sie müssen zuerst die Methode zur Berechnung dieser Metriken bestimmen und dann Statistiken darüber sammeln. Andererseits können diese Metriken nicht nur im Überwachungstestprozess verwendet werden, sondern auch in Zukunft im Motivationssystem der am Betrieb beteiligten IT-Abteilungen festgelegt werden.

Die Überprüfung der Grundfunktionalität - zum Beispiel das Auftreten eines Alarms im Überwachungssystem bei einem Stromausfall am Switch - allein lässt keine Ahnung, dass das System seine Aufgaben bewältigen wird. Eine solche Überprüfung zeigt nur, dass das System grundsätzlich funktioniert.

7. Die Überwachung wird erst dann von Vorteil sein, wenn Sie damit arbeiten und sie an Ihre Bedürfnisse anpassen.


Dieses "Nicht" bezieht sich auf die Betriebsphase des Systems nach Abschluss der Implementierung. Es ist äußerst wichtig zu verstehen, dass die Daten im System ohne einen ordnungsgemäß erstellten Überwachungsprozess und dessen Aktualisierung unmittelbar nach Abschluss der Implementierung veraltet sind.

Zum Zeitpunkt der Inbetriebnahme sollten alle organisatorischen Probleme im Zusammenhang mit der Wartung des Systems und der Funktionsweise der Überwachung, den Regeln für dessen Verwendung sowie der Aufteilung der Zuständigkeiten und des Supports so weit wie möglich gelöst sein. Die Regeln und Verfahren zur Lösung von Problemen, die während des Betriebs auftreten, sollten ebenfalls definiert werden. Das Fehlen dieser Regeln ist der Hauptgrund, warum die Überwachung nicht mehr funktioniert und der Integrator sich nach Abschluss der aktiven Arbeitsphase verschlechtert.

Schließlich sollten zu Beginn des kommerziellen Betriebs des Überwachungssystems Vorschriften erstellt werden, in denen die grundlegenden Arbeitsregeln innerhalb des Überwachungsprozesses formuliert werden:

  • wer und wie wird mit dem System arbeiten;
  • Wer ist dafür verantwortlich, das System auf dem neuesten Stand zu halten?
  • Wer hat das Recht, Schwellenwerte anzupassen?
  • Wie werden neue Metriken erstellt?
  • In diesen Fällen sollten neue Metriken erstellt werden.
  • Wie lange dauert die Erstellung neuer Metriken?
  • Was soll passieren, wenn das Überwachungssystem einen Unfall registriert?
  • Wer und wie soll auf diesen Unfall reagieren?
  • Wer ist für die Funktionsweise des Überwachungssystems verantwortlich?
  • Wie Konflikte im Zusammenhang mit dem Auftreten falscher oder fehlender korrekter Signale gelöst werden.

Fazit


Ich hoffe wirklich, dass Sie nach dem Lesen meines Artikels keine ähnlichen Situationen finden wie in Ihrem Unternehmen. Für den Fall, dass sich die Überwachung in Ihrem Unternehmen gerade erst entwickelt, helfen Ihnen Informationen zu diesen sieben Hauptfehlern bei der Implementierung der Überwachung meiner Meinung nach dabei, einen effektiven Prozess zu erstellen, der die Arbeit Ihrer IT-Infrastruktur stabilisiert.

Source: https://habr.com/ru/post/de422829/


All Articles