UnfĂ€lle mit „Nicht beobachten“: eine statistische BegrĂŒndung fĂŒr die Betriebsart des technischen Supports rund um die Uhr



Basierend auf den Ergebnissen zahlreicher betrieblicher Bewertungen von Rechenzentren auf der ganzen Welt stellte das Uptime Institute fest, dass der Personalbestand in Rechenzentren von Ort zu Ort sehr unterschiedlich ist. Diese Beobachtung ist etwas rĂ€tselhaft, aber nicht ĂŒberraschend. WĂ€hrend die Personalausstattung eine wichtige AktivitĂ€t fĂŒr Rechenzentren ist, die versuchen, die operative Exzellenz aufrechtzuerhalten, beeinflussen viele andere Faktoren die Entscheidungen der Unternehmen ĂŒber den erforderlichen Personalbestand.

Unter den Faktoren, die sich auf den gesamten Personalbestand auswirken können, können die KomplexitĂ€t des Rechenzentrums, die Fluktuation, die Anzahl der erforderlichen Arbeitszeiten fĂŒr den technischen Support, die Anzahl der VertrĂ€ge mit Auftragnehmern und die GeschĂ€ftsziele der Barrierefreiheit herausgearbeitet werden. Die Kosten sind ebenfalls problematisch, da jeder Mitarbeiter direkte Kosten fĂŒr das Rechenzentrum verursacht. Aufgrund dieser vielen Faktoren ist es erforderlich, den Personalbestand von Rechenzentren stĂ€ndig zu ĂŒberprĂŒfen, um eine effektive UnterstĂŒtzung zu einem angemessenen Preis zu bieten.

Das Uptime Institute stellt hĂ€ufig die Frage: "Wie hoch ist der Personalbestand fĂŒr mein Rechenzentrum?" Leider gibt es keine prĂ€zise Antwort, die fĂŒr jedes Rechenzentrum universell wĂ€re. Die richtige Besetzung hĂ€ngt von einer Reihe von Variablen ab.

Die Zeit, die erforderlich ist, um Wartungsaufgaben zu erledigen und sicherzustellen, dass die Schichten des technischen Supports abgeschlossen sind, sind zwei Hauptvariablen. Die Personalausstattung zur ErfĂŒllung der Wartungsanforderungen ist ein relativ fester Faktor, hĂ€ngt jedoch davon ab, welche Maßnahmen das Personal des Rechenzentrums ausfĂŒhrt und welche Funktionen den Auftragnehmern zugewiesen sind. Das Verschieben von Schichten des technischen Supports ist definiert als Personal zur Überwachung eines Rechenzentrums und zur Reaktion auf VorfĂ€lle und Ereignisse. Die Besetzung der Schicht fĂŒr technischen Support kann auf verschiedene Arten festgelegt werden. Jede Personalmethode hat potenzielle Auswirkungen auf den Betrieb, je nachdem, welche Prozesse vom technischen Support abgedeckt werden.

Trends verschieben


Das Hauptziel der stĂ€ndigen Anwesenheit von qualifiziertem Personal besteht darin, das Risiko von AusfĂ€llen aufgrund abnormaler Ereignisse zu minimieren, indem ein Vorfall verhindert, verhindert oder isoliert sowie seine Ausbreitung oder Auswirkung auf andere Systeme verhindert wird. In vielen Rechenzentren ist weiterhin stĂ€ndig ein Team von qualifizierten Elektrikern, Maschinenbauingenieuren und anderen Technikern anwesend, die einen 24-Stunden-Betriebsmodus bereitstellen. FernĂŒberwachungstechnologien, die spezielle Anordnung von GebĂ€uden in Form eines Komplexes, der Wunsch nach Kostenausgleich und andere GrĂŒnde können Unternehmen jedoch dazu veranlassen, Mitarbeiter auf unterschiedliche Weise einzustellen.

Die Verwaltung eines Regimes fĂŒr technischen Support ohne qualifiziertes Personal kann das Risiko aufgrund einer verzögerten Reaktion auf abnormale VorfĂ€lle erhöhen. Letztendlich muss das Unternehmen eine Entscheidung mit einem akzeptablen Risiko treffen.

Weitere Modelle fĂŒr den technischen Support mit vollstĂ€ndiger Abdeckung sind:

  • Schulung des Sicherheitspersonals zur Reaktion auf Alarme und DurchfĂŒhrung von Verfahren zur Lösung von Problemen;
  • Überwachung des Rechenzentrums durch ein lokales oder regionales GebĂ€udeĂŒberwachungssystem (BMS) und Einbeziehung von Anruftechnikern;
  • VerfĂŒgbarkeit des Personals vor Ort wĂ€hrend der normalen GeschĂ€ftszeiten und nachts und am Wochenende auf Abruf;
  • Die Arbeit mehrerer Rechenzentren in Form eines speziellen GebĂ€udekomplexes, dessen Team mehrere Rechenzentren unterstĂŒtzt, ohne dass sie jederzeit in jedem einzelnen Rechenzentrum vorhanden sein mĂŒssen.

Diese und andere Methoden sollten individuell auf ihre Wirksamkeit hin bewertet werden. Um das Modell des technischen Supports bewerten zu können, muss das Rechenzentrum die potenziellen Risiken von VorfÀllen im Rechenzentrum und deren potenzielle Auswirkungen auf das GeschÀft ermitteln.

In den letzten 20 Jahren hat das Uptime Institute eine Datenbank mit abnormalen VorfĂ€llen (Abnormal Incident Reports, AIRs) erstellt, in der Informationen von Mitgliedern des Uptime Institute Network verwendet wurden. Das Uptime Institute analysiert die Daten jĂ€hrlich und prĂ€sentiert die Ergebnisse den Mitgliedern des Netzwerks. Die AIRs-Datenbank enthĂ€lt interessante Informationen zu Personalproblemen und effektiven Personalmodellen fĂŒr Rechenzentren.

VorfĂ€lle ereignen sich außerhalb der Arbeitszeit


Im Jahr 2013 ereignete sich eine kleine Mehrheit der VorfÀlle (von 277 FÀllen) wÀhrend der GeschÀftszeiten. 44% der VorfÀlle ereigneten sich jedoch zwischen Mitternacht und 8:00 Uhr, was die potenzielle Notwendigkeit eines technischen Support-Modus rund um die Uhr unterstreicht (siehe Abbildung 1).


Abbildung 1. Etwa die HÀlfte der ungewöhnlichen VorfÀlle im Jahr 2013 ereignete sich zwischen 8.00 Uhr und 12.00 Uhr, die andere HÀlfte zwischen Mitternacht und 8.00 Uhr.

VorfĂ€lle können zu jeder Jahreszeit auftreten. Eine vorrangige Fokussierung der MitarbeiteraktivitĂ€ten auf eine bestimmte Jahreszeit gegenĂŒber anderen wĂ€re nicht produktiv (z. B. ein Urlaubsverbot). Die VorfĂ€lle sind ziemlich gleichmĂ€ĂŸig ĂŒber das ganze Jahr verteilt.

Abbildung 2 zeigt die Verteilung der VorfĂ€lle nach Wochentagen. Das Diagramm zeigt, dass jeder Wochentag einen nahezu gleichen Anteil hat, was darauf hindeutet, dass die Personalausstattung fĂŒr die Schichten jedes Wochentags gleich sein sollte. Dies ist eine wichtige Schlussfolgerung, da einige Rechenzentren die Arbeitsressourcen ihres technischen Supports fĂŒr den Zeitraum von Montag bis Freitag konzentriert haben und die freien Tage fĂŒr die FernĂŒberwachung frei lassen (siehe Abb. 2).


Abbildung 2. Das Personal des Rechenzentrums muss jeden Tag der Woche bereit sein.

VorfÀlle nach Branchen


Abbildung 3 zeigt die VorfÀlle in der Branche weiter und zeigt keinen signifikanten Unterschied in den Trends zwischen den Branchen. Die Grafik zeigt, dass die Finanzdienstleistungsbranche weitaus mehr VorfÀlle gemeldet hat als andere Branchen. Dies spiegelt jedoch eher die Zusammensetzung der Stichprobe wider.


Abbildung 3. VorfĂ€lle in Rechenzentren ereignen sich das ganze Jahr ĂŒber.

Fehlerursachen und Erkennungsmethoden


Wenn man weiß, wann VorfĂ€lle auftreten, kann wenig darĂŒber gesagt werden, welches Personal vorhanden sein sollte. Wenn Sie wissen, welche VorfĂ€lle am hĂ€ufigsten auftreten, können Sie die Schichtstruktur besser gestalten und herausfinden, wie VorfĂ€lle am hĂ€ufigsten erkannt werden. Abbildung 4 zeigt, dass die meisten VorfĂ€lle elektrische Systeme betreffen, gefolgt von mechanischen Systemen. Im Gegensatz dazu verursachen kritische IT-Workloads eine relativ geringe Anzahl von VorfĂ€llen.


Abbildung 4. Mehr als die HÀlfte der 2013 gemeldeten abnormalen VorfÀlle hÀngt mit dem elektrischen System zusammen.

Daher ist es sinnvoll, dass Teams aller Schichten ĂŒber ausreichende Erfahrung verfĂŒgen, um auf die hĂ€ufigsten VorfĂ€lle in elektrischen Systemen zu reagieren. Das Support-Team sollte auch auf andere Arten von VorfĂ€llen reagieren. Die gegenseitige Schulung von Elektrotechnikern zu Mechanik- und GebĂ€udesystemen kann eine ausreichende Abdeckung bieten, und Anrufbeantworter können relativ seltene IT-VorfĂ€lle abdecken.

Die AIRs-Datenbank gibt auch Aufschluss darĂŒber, wie VorfĂ€lle erkannt werden. Abbildung 5 zeigt, dass mehr als die HĂ€lfte der primĂ€ren Informationen zu allen 2013 entdeckten VorfĂ€llen von Alarmsystemen stammen. Mehr als 40% der VorfĂ€lle werden von technischen Spezialisten vor Ort erkannt, was zusammen etwa 95% der FĂ€lle ausmacht. Die grĂ¶ĂŸte VerĂ€nderung in den im Diagramm gezeigten Jahren ist das langsame Wachstum der durch Alarme erkannten VorfĂ€lle.


Abbildung 5. Mit Alarmen können jetzt die meisten VorfÀlle erkannt werden. ZugÀnglichkeitsprobleme werden jedoch hÀufiger von technischen Experten festgestellt.

Alarme können jedoch nicht auf VorfĂ€lle reagieren oder Konsequenzen abmildern. Das Uptime Institute hat eine Reihe von Methoden kennengelernt, mit denen Rechenzentren Fehlfunktionen vermeiden und deren Auswirkungen verringern können. Bei diesen Methoden muss das Personal auf den Vorfall reagieren, Redundanz in kritischen Systemen schaffen und effektive vorausschauende Wartungsprogramme durchfĂŒhren, um potenzielle Fehler vorherzusagen, bevor sie auftreten. Abbildung 6 zeigt, wie oft jede dieser Methoden Rechenzentren „rettet“.


Abbildung 6. Die Redundanz der GerĂ€te im Jahr 2013 trug zu mehr „Rettung“ bei als in den Vorjahren.

Das Diagramm zeigt auch, dass in den letzten Jahren die Redundanz der GerĂ€te und die vorbeugende Wartung effizienter geworden sind und Rechenzentren immer mehr Geld sparen. HierfĂŒr gibt es mehrere mögliche ErklĂ€rungen, darunter die Erhöhung der ZuverlĂ€ssigkeit von Systemen, die breitere Nutzung proaktiver Dienste und BudgetkĂŒrzungen, die zu einer Verringerung der Anzahl der Mitarbeiter oder ihrer Verlagerung außerhalb des Rechenzentrums fĂŒhren.

Fehler im Zusammenhang mit der Grundursache


Die Daten zeigen, dass alle ZugĂ€nglichkeitsprobleme im Jahr 2013 durch ZwischenfĂ€lle mit dem elektrischen System verursacht wurden. Die meisten Fehler traten auf, weil die Wartungsarbeiten nicht ordnungsgemĂ€ĂŸ durchgefĂŒhrt wurden. Diese Feststellung unterstreicht die Bedeutung angemessener Verfahren und gut ausgebildeten Personals.


Abbildung 7. Fast die HĂ€lfte der 2013 gemeldeten Fehler war auf Wartungsprobleme zurĂŒckzufĂŒhren.

In Abb. 7 erörtert weiter die Ursachen von VorfĂ€llen im Jahr 2013. Etwa die HĂ€lfte der VorfĂ€lle wurde als „In Betrieb“ beschrieben, was als unzureichende Wartung, unsachgemĂ€ĂŸe Einrichtung der GerĂ€te, Arbeitsausfall oder Fehlen einer bestimmten Grundursache definiert wird. Die FĂ€lle von „vorbeugender Wartung“ beziehen sich tatsĂ€chlich auf vorbeugende Wartung, die nicht ordnungsgemĂ€ĂŸ durchgefĂŒhrt wurde. Das Personal des Rechenzentrums verursachte nur 2% der VorfĂ€lle, was zeigt, dass die Interaktion zwischen Personal und AusrĂŒstung nicht die Hauptursache fĂŒr VorfĂ€lle und AusfĂ€lle war.

Fazit


Die zunehmende KomplexitĂ€t der Verwaltung der Rechenzentrumsinfrastruktur (DCIM), der GebĂ€udemanagementsysteme (BMS) und der GebĂ€udeautomationssysteme (BAS) erschwert die Beantwortung der Frage, ob es möglich ist, die Anzahl der Mitarbeiter in Rechenzentren zu verringern. Die Fortschritte bei der Verbesserung dieser Systeme sind erheblich. Sie können die Leistung Ihres Rechenzentrums verbessern. Daten zeigen jedoch, dass zur VerhĂŒtung von VorfĂ€llen hĂ€ufig Personal vor Ort erforderlich ist. Aus diesem Grund ist es eine Richtlinie fĂŒr Tier III- und Tier IV-zertifizierte Rechenzentren, weiterhin ĂŒber VollzeitĂ€quivalent-Personal (FTE) zu verfĂŒgen.

Das Hauptziel besteht darin, eine schnelle Reaktionszeit bereitzustellen, um die Folgen von VorfĂ€llen und Ereignissen zu mildern. Die Daten zeigen, dass bei VorfĂ€llen keine temporĂ€ren Muster beobachtet werden. Ihr Aussehen ist ĂŒber alle 24 Stunden und alle 7 Tage der Woche ziemlich gut verteilt.

Hauptziel ist die RisikoprĂ€vention. Rechenzentren entwickeln sich weiter und ermöglichen die Verwaltung durch Remotezugriff und die Erhöhung der Hardware-Redundanz. Jedes Rechenzentrum ist einzigartig und hat seine eigenen Risiken. Der Tech-Support-Modus ist nur ein Faktor, aber sehr wichtig. Die Entscheidung, wie viel Personal in jede Schicht einbezogen werden soll und mit welchen Qualifikationen, kann einen großen Einfluss auf die RisikoprĂ€vention und die VerfĂŒgbarkeit von Rechenzentren haben. Treffen Sie kluge Entscheidungen.

Andere Cloud4Y-Blogartikel:

→ Was sind die tatsĂ€chlichen Kosten fĂŒr Ausfallzeiten der IT-Infrastruktur fĂŒr kleine und mittlere Unternehmen? (externer Link)
→ Die BlĂŒtezeit des Cloud Computing in der Automatisierung von Industrieunternehmen (externer Link)
→ Was passiert mit den Preisen fĂŒr Cloud Computing in den letzten Jahren (Habr)
→ Wie man Proben fĂŒr das einheitliche biometrische System erstellt und warum es gefĂ€hrlich sein kann (Habr)

Source: https://habr.com/ru/post/de418077/


All Articles