Beispiel für die Berechnung des „Verfügbarkeitsfaktors“ für ein IT-System

Bild

Aufgabe: In der Leistungsbeschreibung für ein umfassendes IT-System gab es eine Klausel: „Berechnung des Systemverfügbarkeitskoeffizienten durchführen“.

Lösung: Verwenden Sie Materialien von GOST, fordern Sie zusätzliche Daten von Lieferanten für Ausrüstungsgegenstände an und verwenden Sie einfache Mathematik, um die endgültige Berechnung durchzuführen.

Normative Verweise:

GOST R 27.002-2009 („Zuverlässigkeit in der Technologie (SSTN). Begriffe und Definitionen“)

GOST R 27.003-2011 Zuverlässigkeit in der Technologie (SSTN). Zuverlässigkeitsmanagement. Leitfaden zur Zuverlässigkeitsspezifikation

GOST 27.002-89 Zuverlässigkeit in der Technologie (SSTN). Grundbegriffe. Begriffe und Definitionen

Gemäß GOST R 27.002-2009 („Zuverlässigkeit in der Technologie (SSNT). Begriffe und Definitionen“) ist der Verfügbarkeitsfaktor (im Bereich der Zuverlässigkeit in der Technologie) die Wahrscheinlichkeit, dass sich das Produkt derzeit in einem betriebsbereiten Zustand befindet, der gemäß dem Projekt bestimmt wird unter bestimmten Betriebs- und Wartungsbedingungen .

Die Bereitschaft spiegelt somit die Fähigkeit des Systems wider, seine Funktionen kontinuierlich auszuführen.

Im allgemeinen Fall ist für Informationen und Computergeräte der Verfügbarkeitsfaktor die Wahrscheinlichkeit, dass das Computersystem zu einem (beliebigen) Zeitpunkt in einem funktionsfähigen Zustand ist.

Der Verfügbarkeitsfaktor (K) wird durch die Formel bestimmt:

K = MTBF / (MTBF + MTTR) ,

wo:
- MTBF (mittlere Zeit zwischen Ausfällen) - mittlere Zeit zwischen Ausfällen (mittlere Zeit zwischen Ausfällen);
- MTTR (Mean Time To Repair) - Durchschnittliche Wiederherstellungszeit (durchschnittliche Zeit bis zur Wiederherstellung).

Im Gegensatz zur Zuverlässigkeit, deren Wert nur durch den MTBF-Wert bestimmt wird, hängt die Verfügbarkeit auch von der Zeit ab, die erforderlich ist, um das System wieder in den Betriebszustand zu versetzen.

Wir haben also ein spezifisches IT-System (Rack-Mount-Server, Blade-Server, Datenspeichersystem).

Die Fehlertoleranz auf Geräteebene eines solchen IT-Systems ermöglicht es seinen Diensten, im Falle eines Hardwarefehlers einzelner Komponenten der Serverausrüstung, des Datenspeichersystems oder der Infrastruktur weiter zu arbeiten.

Die Fehlertoleranz der Funktionsweise der internen Komponenten des IT-Systems wird durch die Anwendung folgender Technologien erreicht:

  • Redundanz von Netzteilen für Serverausrüstung, Datenspeichersysteme;
  • redundante Servernetzwerkadapter;
  • Redundanz des optischen Serveradapters;
  • Redundanz der Kabelverbindungsleitungen des Server-Switching- und Datenübertragungsnetzwerks und des Datenspeichernetzwerks;
  • Vervielfältigung von Blade-Chassis-Modulen: Netzteile, Steuermodule, Lüfter, Schaltmodule;
  • Platzieren von Informationen auf Plattenspeichersystemen mithilfe von ausfallsicheren Plattengruppen (RAID).

Infolgedessen verfügen alle Hauptkomponenten der IT-Systemausrüstung - Server, Netzteile, Festplatten, Netzwerkadapter, Switches - über redundante Hot-Swap-Funktionen.

Die Stromversorgung der IT-Systemausrüstung erfolgt aus zwei unabhängigen Quellen. Die Verbindung von IT-Systemgeräten mit externen Datennetzen und Speichernetzwerken wird ebenfalls dupliziert.

Alle Subsysteme des IT-Systems sind redundant. Wenn also ein Element ausfällt, bleibt die Ausstattung des gesamten IT-Systems funktionsfähig. Darüber hinaus ist der Austausch eines ausgefallenen Elements möglich, ohne die Ausrüstung des IT-Systems anzuhalten.

Die Wahrscheinlichkeit (P) des Ausfalls einer Komponente während eines Jahres beträgt:
P = 1 / MTBF.

Der Ausfall einer duplizierten Komponente führt nur dann zu einem Geräteausfall, wenn die Sicherungskomponente auch innerhalb der Zeit ausfällt, die für einen „heißen“ Austausch der zuerst ausgefallenen Komponente erforderlich ist. Wenn die garantierte Austauschzeit für Komponenten 24 Stunden (1/365 Jahre) beträgt (was der etablierten Praxis der Wartung von Servergeräten entspricht), dann ist die Wahrscheinlichkeit eines solchen Ereignisses während des Jahres:
Bild

Nach der Berechnung der Ausfallwahrscheinlichkeit aller N Komponenten der IT-Systemausrüstung ist es möglich, die Ausfallwahrscheinlichkeit der IT-Systemausrüstung innerhalb eines Jahres zu berechnen, indem jede Ausfallwahrscheinlichkeit summiert wird:
Bild

Da Komponentenausfälle normalerweise zeitlich gleichmäßig verteilt sind, können wir anhand der Wahrscheinlichkeit eines Ausfalls der IT-Systemausrüstung während des Jahres die Zeit zwischen Ausfällen bestimmen:
MTBFs = 1 / Ps.

Der Verfügbarkeitsfaktor der IT-Systemausrüstung beträgt:
Kit = MTBFs / (MTBFs + MTTR).

Wir berechnen den Verfügbarkeitsfaktor der IT-Systemausrüstung von 26 Komponenten (jede der Komponenten hat mehrere Elemente).

Das Hauptproblem in der folgenden Tabelle sind die tatsächlichen MTBF-Daten für jede Komponente. Diese Daten sind nur sehr ungern für Anbieter verfügbar. Oft müssen Sie mit Vertretern von Anbietern korrespondieren, um die Bereitstellung und Verfeinerung dieser Daten anzufordern.

In der folgenden Tabelle wurde die Berechnung für das "veraltete" IT-System durchgeführt. Jetzt funktioniert es fast das fünfte Jahr im Kampfmodus ohne Komponentenausfall. Der Kunde plant jedoch bereits die Migration auf neue Komponenten, ohne auf die Fristen aus den endgültig berechneten Daten zu warten.

Bild
Bild
Bild
Bild

(*) - Die anfänglichen Daten zu MTBF sind Schätzungen für diese Ausrüstungsgegenstände des Herstellers oder deren Analoga.

Infolgedessen sind die geschätzten Daten zur Ausstattung unseres Systems:

  • Ausfallwahrscheinlichkeit der Systemausrüstung während des Jahres: 0,0966;
  • MTBF-Ausrüstungssystem (Jahre): 10,35 (90666 Stunden);
  • durchschnittliche Fehlerbehebungszeit (Stunden): 24;
  • Verfügbarkeitsfaktor der Systemausrüstung (%): 99,97;
  • Durchschnittliche Ausfallzeit pro Jahr (Stunden): 2,61 (156 Minuten).

Aus den letzten Zeilen der Tabelle können Sie ersehen, dass wir nicht duplizierte Speicherelemente haben und dieser Moment einen sehr starken Einfluss auf die berechneten Daten hat. Wenn möglich, müssen Sie diese Elemente duplizieren (als Empfehlung) oder ein anderes Speicherlayout verwenden.

Diese Berechnung ist natürlich sehr wertend. Ein grundlegendes Verständnis, dass das System optimal ist oder zusätzliche Elemente benötigt, kann jedoch vermittelt werden.

Tatsächlich werden diese Tabellen mit Berechnungen in den gewünschten Abschnitt der Projektdokumentation eingegeben und an den Kunden ausgegeben.

Es ist interessant, eine solche Berechnung für eine Reihe von Netzwerkgeräten durchzuführen (mit der maximalen Aufteilung in Elemente bis zum SFP-Modul und den Netzteilen) und die resultierenden Daten mit verschiedenen Anbietern zu vergleichen.

Source: https://habr.com/ru/post/de418769/


All Articles