Wir setzen den Artikel fort, dessen Zweck darin besteht, Erfahrungen auszutauschen und wichtige Merkmale und häufige Fehler aufzuzeigen, die beim Entwurf und der Organisation von Stromversorgungssubsystemen der IT-Infrastruktur und des gesamten Rechenzentrums auftreten. Aber ich möchte das Publikum ein wenig erweitern und einige Abschnitte den Grundelementen der Gewährleistung der elektrischen Sicherheit und des Schutzes von Geräten und Personen widmen.
Wer den ersten Teil verpasst hat oder sich an den ersten Teil erinnern möchte,
kann hier hingehen .
Für diejenigen, die verstehen, was ein Automat und ein RCD sind, warum sie benötigt werden, wovor sie schützen und warum, lesen Sie den Abschnitt
Werden RCDs für IT-Geräte, Server und Rechenzentren benötigt? .
Teil zwei
Wir werden sehen, in welchem Verhältnis Energie und IT-Endgeräte stehen. Wir werden die Frage verstehen, in welchen Fällen bei Stromausfällen das Betriebssystem garantiert fehlerfrei funktionieren muss.
Probleme mit der Standby-UmschaltungDie Stromversorgung von Informationsgeräten ist redundant organisiert. Betrachten Sie die Organisation der Stromversorgung im Teil von -- (unterbrechungsfreie Stromversorgung der Stromversorgungsplatine - Stromversorgungseinheit - Stromversorgung). Es gibt folgende Reservierungsarten:
- Redundanz der Kabel zum Rack, Ausrüstung, Verwendung separater Stromverteilungseinheiten, PDU (Abbildung 1)
- Power-Bus-Redundanz im Netzteilfeld mit separaten Stromverteilungseinheiten (PDU) (Abbildung 2)
Redundanz auf der Ebene der Netzteile direkt im Server, Switch, IT-Gerät (Abb. 3)
Redundanz mit einem Rack-Lastschalter, Rack-ABP (SPN, auch bekannt als ATS) (Abb. 4)

Um zwischen primärem und Backup-Eingang zu wechseln, können Sie Folgendes verwenden:
- im Bereich der Informationssysteme: Schränke ABP / STS (Static Transfer Swith) für Hochleistungssysteme, zum Umschalten von einer Backup-USV zum Zeitpunkt des Betriebs eines vollwertigen 2N-Systems oder Kombinationen von N + 1-Systemen auf Strom;
- auf dem Gebiet der Stromversorgungssysteme verschiedener Arten von ABP-Schemata (an Schützen, an Steuerungen);
- auf Server-Rack-Ebene: automatisches Hochgeschwindigkeits-Rack-Mount-ABP \ ATS (Automatic Transfer Swith);
- auf der Ebene spezifischer Informationsgeräte: doppelte Netzteile.
Wie wir
oben für IT-Geräte
zitiert haben , ist „eine Unterbrechung der Stromversorgung nicht akzeptabel“. Und was verbirgt sich unter diesem Satz? Was ist eine „Unterbrechung“ der Leistung von Informationsgeräten? Schauen wir uns nun ein lebendiges Beispiel an.
Der Kunde implementiert einen lokalen Serverraum zusammen mit der IT-Infrastruktur auf zwei Etagen für das Büro des Unternehmens. In der Phase der Diskussion über das Stromversorgungssystem möchte er alle Informationsgeräte mit einem Netzteil (PSU) ausstatten, den zweiten Steckplatz für die Server-Netzteile frei lassen und einen einzelnen Rack-ATS auf dem gesamten Rack montieren. (Abb. 4, Diagramm).
Aussehen der Rückseite des Servers mit doppelten Netzteilen
Wie der Kunde seinen Wunsch argumentierte :
- Kosteneinsparungen (500-800 USD pro Rack-Gerät)
- Sie können die beiden einfachsten PDUs einsetzen und sie bereits nach ATS für die Stromverteilung anwenden
- Absolut das gleiche Maß an Systemzuverlässigkeit im Vergleich zur klassischen Verteilungsmethode
Wir haben eine Auszeit genommen und den Wunsch des Kunden unter verschiedenen Gesichtspunkten, die Zuverlässigkeit der Dienstleistungen im Allgemeinen, in der Garantie- und Nachgarantiezeit sowie Folgendes eingehend untersucht.
- Kosten (Einsparungen) der Kapitalkosten während der Implementierung (CAPEX)
- Abschreibungskosten, Wartung von Ersatzteilen, Arbeitskosten des Kundenpersonals ( OPEX )
- Vergleich der Betriebsalgorithmen und der Umschaltzeit mit der Sicherungsleitung in beiden Fällen, Überprüfung auf „einzelne Fehlerstellen“
- das Ausmaß der Risiken des Einfrierens und / oder Neustarts von Betriebssystemen von Informationsgeräten, der Rückgang der darauf ausgeführten Informationsdienste.
Und das stellte sich heraus:Gemäß dem gesetzlichen Rahmen
GOST 32144-2013 (Elektrische Energie. Elektromagnetische Verträglichkeit technischer Geräte.
Stromqualitätsnormen in Allzwecknetzen. Datum der Einführung - 1. Juli 2014) kann die Hauptursache für Fehlfunktionen von Informationsgeräten Spannungseinbrüche sein
treten normalerweise aufgrund von Störungen in elektrischen Netzen oder in elektrischen Anlagen der Verbraucher sowie beim Anschließen einer starken Last auf
Lesen Sie weiter:
Die Dauer von Spannungseinbrüchen kann bis zu 1 Minute betragen
Dieser Satz besagt, dass Informationsgeräte von USVs und / oder Hochgeschwindigkeits-ATSs bereitgestellt werden sollten, da Spannungseinbrüche dieser Dauer unter dem Gesichtspunkt großer Energie akzeptabel und normal sind, für IT-Geräte und -Dienste jedoch fatal sind.
Übrigens ist anzumerken, dass es derzeit Widersprüche im aktuellen Rechtsrahmen der Russischen Föderation hinsichtlich der Messung von Werten in Bezug auf die Qualität der Elektrizität gibt. Weitere Einzelheiten finden Sie
in dem Artikel von Victor Cherdak, technischer Direktor unseres Unternehmens (Quelle
digitalsubstation.com ).
Einige Auszüge aus dem ArtikelIn den letzten Jahren wurden staatliche Normen im Bereich der Messung elektrischer Energieparameter im Zusammenhang mit CE aktiv entwickelt und wiederholt überarbeitet.

""
Eine wichtige Änderung war der Ersatz von GOST 13109-97 „Elektrische Energie. Elektromagnetische Verträglichkeit. Qualitätsstandards für elektrische Energie in Allzweckstromversorgungssystemen “[16] gemäß GOST 32144-2013. Diese Standards definieren einen anderen Bereich von Stromqualitätsindikatoren.
Aber wie schnell? Wie kann die Zeit in Millisekunden ermittelt werden, für die der Kundendienst (und der Server) nicht ausfallen und das Betriebssystem nicht in einen „kritischen Fehler“ gerät?

Es gibt einen CBEMA-Standard (Computer and Business Equipment Manufacturers Association), der nach einigen Anpassungen jetzt als „ITIC Curves“ (Information Technology Industry Council) bezeichnet wird und dessen Varianten in den IEEE 446 ANSI-Standards enthalten sind. Gemäß diesen Standards müssen die elektronischen Schaltkreise von Netzteilen 20 ms (oder 0,02 Sekunden, dh eine Periode) betriebsbereit bleiben.
Dieselben ITIC-KurvenEntsprechend den Anforderungen an die Stromversorgung für Server- und Computersysteme der
Server-Systeminfrastruktur können wir sagen, dass der Parameter des Netzteils
Tvout_holdup während des Ausfalls der Versorgungsspannung den Betrieb der Informationsausrüstung für mindestens 21 ms sicherstellt. Das heißt, die gesamte Dauer des Netzwerks ist die garantierte normale Betriebszeit des Servers oder Switch. Der Parameter
Tpwok_holdup ist für mindestens 20
ms definiert.
Einige Details zu SSI-Parametern finden Sie hierHilfe: Die Haltezeit ist der Zeitraum, in dem die Stromversorgung die Ausgangsspannungen innerhalb bestimmter Grenzen halten kann, nachdem die Versorgungsspannung an ihrem Eingang verschwunden ist. Bei den meisten Computer-Netzteilen gibt die Haltezeit auch an, wie lange das Power-Good-Signal (PWR_OK) dem System mitteilt, dass die vom Netzteil erzeugten Spannungen instabil sind (bei Computer-Netzteilen beträgt dieser Parameter normalerweise mehr als 16 ms).

Hier ist eine der Tabellen aus dem Dokument

Und dies ist ein Zeitliniendiagramm mit geregelten BP-Betriebsalgorithmen.
Lassen Sie uns nun sehen, welche Schaltzeit APC beispielsweise für einen Rack-Mount-Ladeschalter der Marke
AP7721 angibt . Wir sehen, dass wir hier normalerweise 8-12 ms haben, aber 18 ms ist die maximale Schaltzeit.
Wir können daraus schließen, dass die Zeit für das Umschalten auf den Backup-Eingang für den Rack-Lastschalter der Spezifikation des Netzteils der Serverausrüstung entspricht. Es stellt sich heraus, dass es keine Fehler beim Betrieb von Informationsgeräten geben wird.
Übersichtstabelle der Zeitabläufe der Systemelemente Und was ist mit der wirtschaftlichen Komponente und welche der Optionen ist rentabler und fehlertoleranter?
Angenommen, wir haben drei kleine Server im Rack, in die Sie zwei Netzteile und drei Geräte mit redundanten Netzteilen einsetzen können. Alles ist kritisch und der Ausfall eines der Geräte führt zum Ausfall des gesamten Kundensystems. In jedem Fall benötigen wir einen am Rack montierten Lastschalter. Das sind ungefähr 18 Tausend Rubel.
Der Kunde erklärt, dass er keine PDUs (PDUs) benötigt, was bedeutet, dass das Budget nur ATS kostet - die gleichen 18 Tausend Rubel. Als Ersatz für Power Distribution Units (PDUs) schlägt der Kunde vor, die Stromverteilung „an Bord“ des Rack-Lastschalters zu verwenden. Der Kunde plant auch den Kauf eines Servers mit zwei Steckplätzen für Netzteile, jedoch aus wirtschaftlichen Gründen in einer Konfiguration mit einem Netzteil.
(Abbildung 4)Die klassische Version
(Abbildung 3) umfasst einen Satz von 2 PDUs - etwa 32.000 Rubel, 3 zusätzliche Netzteile pro Server für jeweils 500 US-Dollar für insgesamt 84.000 Rubel. ATS für die gleichen 18 Tausend Rubel. Alles in allem verstehen wir, dass die klassische Lösung den Kunden
etwa 134.000 Rubel kosten wird
.Es scheint wahr zu sein, der Kunde hat Recht, das Geld ist völlig anders. Betrachten wir jedoch die Fehlertoleranz und die Wartungsfreundlichkeit beider Optionen:
Kundenoption: Single Point of Failure - Rack-Lastschalter. Wenn ihm etwas passiert, verlieren wir das gesamte Rack. Sie müssen also Ersatzteile direkt vor Ort haben, was die Schätzung von 18.000 Rubel erhöht. Die Netzteile in den Servern sind einzeln, sie sind auch Fehlerquellen. Es ist daher wünschenswert, mindestens ein und vorzugsweise alle drei Netzteile am Standort in Reserve zu haben. Nehmen wir an, wir brauchen drei Netzteile in einem Ersatzteil, das sind weitere plus 36.000 Rubel. Sie müssen die Leistung überprüfen, die der Rack-ATS schalten kann. Nun gehen wir davon aus, dass 3 kW oder 16 A für die gesamte Ausrüstung des Racks ausreichen. Wenn wir ATS für 32A (7 kW) benötigen, ist es viel teurer (mehr als 100.000 Rubel). Das heißt, das Budget der Option des Kunden
wächst unter detaillierter Berücksichtigung der Zuverlässigkeit
auf 160.000 Rubel . In diesem Fall ist im Notfall trotz der Tatsache, dass Ersatzteile vor Ort sind, eine Ausfallzeit erforderlich, um das Gerät auszutauschen.
Single Point of Failure (SPOF) - Ein Knoten, eine Kommunikationslinie oder ein Objekt eines Datenverfügbarkeitssystems, dessen Ausfall das gesamte System beschädigen oder zu Datenunzugänglichkeiten führen kann
Offene Technologieoption : Wie
in Abbildung 3 dargestellt , bei Bedarf wird jedoch ATS für kleine Netzwerkgeräte mit einem einzigen Netzteil hinzugefügt.
Der Fehlerpunkt ist der gleiche ATS. Wenn ihm etwas passiert, verlieren wir das gesamte Rack. Wir sind uns einig, dass Sie Ersatzteile direkt vor Ort benötigen. Wenn in unserem Fall jedoch nur ATS ausfällt, kann dies nur den Betrieb von Schaltern und Zusatzgeräten beeinträchtigen. Die Server selbst arbeiten weiterhin leise. Netzteile in Ersatzteilen werden nicht benötigt. Wenn eines der duplizierten Netzteile ausfällt, arbeitet der Server weiterhin an dem verbleibenden und wartet höchstwahrscheinlich auf ein neues Netzteil des Anbieters, unabhängig von der Entfernung des Standorts.
Interpretation des Begriffs SPOF für IT-SystemeSingle Point of Failure (SPOF) - Ein Knoten, ein Gerät oder ein Schaltungspunkt, dessen Ausfall das gesamte System deaktivieren kann und die Nichtverfügbarkeit von Daten und Diensten verursacht. Berücksichtigt bei der Entwicklung und dem Design kritischer Systeme. Das völlige Fehlen einzelner Fehlerquellen führt zu einem erheblichen Anstieg der Kapitalkosten während der Implementierung, sodass die Kritikalität eines bestimmten Systems oder einer bestimmten Dienstleistung in der Entwurfsphase auf der Grundlage des Projektbudgets sowie der Wünsche und Anforderungen des Kunden bestimmt wird. Wir finden immer die ideale Lösung für jeden Kunden, identifizieren verschiedene Optionen für die Implementierung des Projekts und bieten sie dem Kunden an. Infolgedessen erhält der Kunde in der Phase der Projektabwicklung genau die Lösung, die er in Bezug auf Preis / Qualität / Zuverlässigkeit sehen wollte.
Somit ist es möglich, aber nicht rational, alle Rack-Geräte an einen einzigen ATS anzuschließen, da in diesem Fall ein einziger Punkt des Stromausfalls auftritt. Der Kauf von Servern mit doppelten Netzteilen ist in jedem Fall vorzuziehen, da die Fehlertoleranz auf der Ebene der Informationsgeräte erheblich zunimmt.
Der Rack-Mount-Lastschalter sorgt für eine korrekte und fast sofortige Umschaltung auf Backup-Eingang, Informationsgeräte spüren dies nicht einmal, Softwareprodukte und Betriebssysteme funktionieren weiterhin ordnungsgemäß. In jedem Fall werden Rack-Stromverteiler benötigt, die nicht eingespart werden müssen. Die offensichtlichen Einsparungen bei den Kapitalkosten für die Stromverteilung können zu unlösbaren Betriebsproblemen führen, z. B. der Notwendigkeit, das gesamte Rack zu „löschen“, nur um den ATS auf eine andere Einheit zu verschieben oder den Rack-Lastschalter zu prüfen.
In jedem Fall sollten für doppelte Netzteile Ersatzteile vorhanden sein, diese sind jedoch nicht immer möglich oder verfügbar.Aussehen eines austauschbaren Server-Netzteils:

Die Verwendung von Rack-ABP hat seine eigenen EigenschaftenZum Beispiel ist die Leistung eines solchen ATS begrenzt und kann durch eine Reihe relativ schwacher Lasten hinsichtlich des Stromverbrauchs geschaltet werden. Es gibt Fragen zur Anzahl der Ausgangsstromanschlüsse. Beispielsweise ist der oben erwähnte ATS AP7721 mit Eingangsanschlüssen vom Typ C14 ausgestattet, was eine maximale Schaltleistung von 2,5 kW bedeutet. Für eine höhere
Lastleistung gibt es ein 2U-Modell
AP7724 , das mit einem 32-A-Stecker am Eingang ausgestattet ist,
dh die maximale Leistung des Geräts kann bis zu 7 kW
betragen . Dies bedeutet, dass ein typisches Gerätegestell vollständig an diesen ATS angeschlossen werden kann. Der Preis für eine solche Entscheidung wird jedoch mehr als 100.000 Rubel betragen.
Die Arbeit von Informationsgeräten mit zwei Netzteilen wurde in einem
Artikel von Vadim Sinitsky @dimskiy ausführlich beschrieben . Wie Sie sehen, gibt es Vor- und Nachteile. Die Verfügbarkeit redundanter Netzteile für Informationsgeräte ist in jedem Fall erforderlich, insbesondere wenn sich das Objekt außerhalb der Zone der schnellen Versorgung des Netzteils durch den Anbieter befindet. Darüber hinaus möchten wir darauf hinweisen, dass Online-Rechner zur Berechnung der Leistung neuer Server von Anbietern nur als Leitfaden für Systemadministratoren und Kundenpersonal verwendet werden können.
Die tatsächlichen Möglichkeiten, einen neuen leistungsstarken Server an ein vorhandenes Rack anzuschließen, sollten unter Berücksichtigung des ursprünglichen Projekts der Stromversorgung, des aktuellen Status und der Last des Rack-Netzwerks, des Servers, der USV, des Generators ... bewertet werden. Unter dem Gesichtspunkt der Verbindung in einem Rack ist auch Folgendes zu beachten:
- aktuelle PDU-Funktionen, z. B. freie Steckplätze
- Nennwerte von Maschinen in Abschirmungen und Querschnitten und die Phase der Kabelleitung zum Rack.
Die Zuverlässigkeit des Stromversorgungssystems des Servers verdient besondere Aufmerksamkeit. Wenn es gemäß dem in
Abb. 2 gezeigten System (mit zwei Bussystemen) gebaut wird, kann das Vorhandensein eines neuen leistungsstarken Servers bei Reparaturarbeiten zu einer Überlastung des gesamten Stromversorgungssystems führen und die Batterielebensdauer von
USVs an Batterien verkürzen Schalten Sie die USV für Überlastung und mehr auf Bypass um ...
Und wie baut man ein Rack-Verteilungssystem auf?
Was ist die BP-Ressource für IT-Geräte und der Algorithmus für deren Software-Redundanz?
Welche PDU bevorzugen Sie: einfach, überwacht? Wie nützlich ist die PDU / PDU-Funktion in der Praxis und hat sie Ihnen jemals geholfen?Verfasser: Oleg Kulikov
Leitender Konstrukteur
Abteilung für Integrationslösungen
"Open Technologies"
okulikov@ot.ru
Eintragung in das nationale Fachregister "NOPRIZ" P-045870