Akzeptanz unabhängiger Rechenzentren



Hallo allerseits! Mein Name ist Cyril Shadsky, ich bin der Leiter der Abteilung für die Verwaltung der externen Rechenzentren von DataLine.

Dieser Artikel widmet sich den wichtigsten Aspekten der Abnahmetests sowie möglichen Problemen und Fallstricken, die unerfahrenen "Testern" viele Nerven verderben können.

Stellen Sie sich vor: Ein zufriedener Auftragnehmer wird uns in vier Jahren über den Fünfjahresplan berichten, dass es keine Probleme gibt und dass die Anlage (Rechenzentrum oder separate Halle) betriebsbereit ist. Es scheint, dass es jetzt an der Zeit ist, mit den Tests zu beginnen, aber ... tatsächlich sind wir bereits zu spät. Abnahmetests sollten mindestens in der Entwurfsphase geplant werden.

Die allererste Frage ist, wem die Tests anvertraut werden sollen. Natürlich Bauherren! Schließlich ist es viel einfacher, als jeden Knoten unabhängig zu überprüfen oder eine unabhängige Kommission einzustellen. Nur für den Fall, ich stelle klar: Das ist ein Witz. Wenn alles so einfach wäre, wäre dieser Artikel nicht geschrieben worden.

Jeder Auftragnehmer überprüft gerne, was er gebaut hat. Es ist sehr gut, nach Pfosten in sich selbst zu suchen und sie an einem anderen Ort zu verstecken.

Denken Sie daran: Selbst der beste und vertrauenswürdigste Auftragnehmer ist eine interessierte Person, und alles, was er versteckt, kann in Zukunft zu einem Problem werden. Führen Sie daher die Abnahmetests immer entweder selbst durch oder wenden Sie sich an eine unabhängige Organisation.

Wenn Sie Erfahrung haben und die Tests Sie nicht erschrecken, können Sie sie selbst durchführen. Ich werde versuchen, Ihnen im Detail zu sagen, wie die Abnahmetests bei uns vereinbart werden und auf welche Probleme wir in verschiedenen Phasen stoßen.

In Data Line gibt es eine Direktion für Kapitalbau, die sich mit dem Bau neuer Hallen und Rechenzentren befasst. Nach dem Bau liegt dies in der Verantwortung des Wartungsdienstes. Für sie ist es wichtig, dass alles mit hoher Qualität gebaut wird. Unser technischer Direktor Sergey Mishchuk ist eine Art „Weltrichter“ zwischen diesen beiden Unternehmensbereichen.

Trotz all unserer Erfahrung finden wir jedes Mal während der Tests eine Vielzahl von Schulen: ernsthafte und kleine. Das ist absolut normal. Sie müssen sie während des Tests fangen, anstatt zu warten, bis sie zu Problemen werden. Hier sind einige Beispiele.

In 99% der Fälle gibt es Beschwerden über das Abdichten von Löchern zwischen Wänden oder Räumen. Diese Situation ist verständlich: Zuerst müssen Sie SCS, Stromkabel, Freon-Pipeline und andere Rohre verlegen, und die Abdichtung wird auf den letzten Moment verschoben. Stellen Sie daher sicher, dass der Vorgang abgeschlossen ist, bevor Sie mit dem Testen beginnen.

Wir machen obligatorisch eine Keimzone. Alle Räumlichkeiten des Rechenzentrums befinden sich in separaten Druckbereichen, „Haus in Haus“.


Hermozone Draufsicht

Wenn Ihr Rechenzentrum über Sicherheitszonen verfügt, müssen diese mit Wasser aus dem Schlauch vergossen werden und sicherstellen, dass nichts ausläuft.

Es gibt kein Entrinnen aus dem Müll. Unter dem Doppelboden stoßen unweigerlich Kabelschnitte, Zahnräder, Bolzen und andere Feilen, die die Arbeiter vergessen haben. Egal wie viele Überprüfungen ich durchführe, es gibt immer Kommentare.

Wenn Sie die Arbeiter nicht zwingen, sofort aufzuräumen, bleibt alles liegen, wenn sie die Ausrüstung bringen und installieren. Was denkst du ist einfacher? An Ort und Stelle beseitigen oder mit einer Taschenlampe unter Arbeitsgestellen schwitzen und Bauschutt entfernen?

Und das alles ist nur die Spitze des Eisbergs, die Probleme, die für ein allgemeines Verständnis des Bildes gegeben sind. Jetzt werden wir jede Phase der Tests im Detail analysieren und mit einer „Nullmarke“ beginnen, nämlich der Planung.

Testvorbereitung




In fast jedem Artikel sprechen wir über die Bedeutung der Vorplanung, und auch heute werden wir diese glorreiche Tradition nicht unterbrechen. Darüber hinaus sollte die Planung Ihr erster (wenn nicht "Null") Schritt bei der Durchführung der Tests sein.

Das Uptime Institute empfiehlt, dass Sie bereits in der Phase des vorläufigen Entwurfs des Rechenzentrums mit der Planung und Erstellung einer Kommission für die Annahme beginnen. Der Beginn der Überprüfungsarbeiten befindet sich bereits in der Entwurfsphase.

Wir beginnen mit der Annahme des Projekts, es gibt keine Möglichkeit, darauf zu verzichten. Es ist am besten, vor dem Bau in der Entwurfsphase zu akzeptieren. Denken Sie daran: Es ist immer einfacher, das zu reparieren, was sich auf Papier befindet, als ein bereits erstelltes Objekt. In einigen Fällen ist eine „leichte Optimierung“ des fertigen Rechenzentrums im Allgemeinen nicht möglich.

Die folgenden Punkte sollten ebenfalls in Ihren Testplan aufgenommen werden:

  • Welche Tests werden durchgeführt?
  • Wann werden die Tests durchgeführt?
  • Wer wird getestet?
  • Welche Mitarbeiter des Unternehmens werden beteiligt sein?
  • Welche Werkzeuge und Geräte werden benötigt (Stromklemmen, Vibrometer, Wärmebildkameras, Anemometer und viele andere obskure, aber notwendige Dinge)?

Für jeden Test erstellen wir eine Liste der zu testenden Systeme, da in verschiedenen Rechenzentren jede Einheit für ihre Ausrüstung verantwortlich ist. An einem Ort werden wir nur Strom und Klimaanlagen überprüfen. In einem anderen Fall können andere Systeme hinzugefügt werden, z. B. AUGPT, Videoüberwachung, ACS (wie mit dem Sicherheitspersonal vereinbart).

Besonderes Augenmerk legen wir auf das Gebäude selbst. In der Regel ist die Betonmarke und die Art und Weise, wie die Böden gegossen werden, nicht unser Erbe und unsere Spezialisierung, aber wir müssen den Doppelboden, die Türen, die Wasserversorgung und das Abwassersystem überprüfen.

Mit anderen Worten, bevor Sie mit dem Test beginnen, müssen Sie genau wissen, was und wo wir testen werden, um Überlagerungen und Verwirrung zu vermeiden.

Ein wichtiger Hinweis: Wenn Sie dieses oder jenes System überprüfen, sollte derjenige, der es gebaut hat, oder eine andere verantwortliche Person in Ihrer Nähe sein. Gilt für alle Stufen.

Im Allgemeinen umfassen Abnahmetests die folgenden Schritte:

  • Projektüberprüfung
  • Überprüfung der Dokumentation
  • Standalone-Tests
  • Umfassende Überprüfungen

Wir werden jeden von ihnen separat betrachten.

Überprüfung von Dokumenten




In keinem Fall sollten Sie diese Phase überspringen und vor allem parallel zu eigenständigen Tests durchführen. Auch wenn die Zeit knapp wird, müssen Sie sicher sein, dass jedes Gerät und jedes System den im Projekt angegebenen entspricht. Ohne Überprüfung der Dokumentation können Sie keine weiteren Tests qualitativ durchführen, ganz zu schweigen von der rechtlichen Seite des Problems.

Eine vollständige Liste der zu prüfenden Dokumente ist individuell und hängt von Ihrer Konfiguration ab.

Ich gebe ein Beispiel für Dokumente, die während der Tests überprüft werden müssen:

  • Exekutivdokumentation für jedes System;
  • Reisepass für Ausrüstung;
  • technologisches Start-up-Gesetz;
  • Akt der Messungen und Tests;
  • Testvorgänge des Crimpsystems;
  • Laborbericht über die Messung des Widerstands der Erdschleife und anderer Kabelverbindungen;
  • Installationsanweisungen für Geräte.

Es gibt noch Betriebsunterlagen. Dies ist im Bauvertrag nicht immer angegeben. Wenn dies nicht der Fall ist, bitten Sie den Auftragnehmer um eine zusätzliche Vereinbarung. Die Betriebsdokumentation sollte Anweisungen und grundlegende Schaltalgorithmen enthalten, aber darauf werden wir im Abschnitt über komplexe Tests zurückkommen.

Zusätzlich zu all dem ist es sehr wünschenswert, ich würde sogar sagen, sicher zu sein, Ladetabellen zu kompilieren. Leider werden sie nicht immer erstellt, aber dies ist ein wichtiges und praktisches Dokument.

Warum wird es benötigt?

In der Regel wird die Redundanz im Rechenzentrum durch zwei Strompfade organisiert, und Sie müssen wissen, welche Last aufgrund eines vollständigen Stromausfalls auf dem anderen auf einen Balken übertragen wird.

Es scheint, dass ein gemeinsames Schema dafür völlig ausreicht. Für Ihre Spezialisten ist es jedoch viel bequemer, mit Tischen zu arbeiten. Weniger wahrscheinlich zu verpassen oder verwirrt zu werden.

Natürlich können wir nicht jede Handlung mit der Realität in Einklang bringen, aber es muss sichergestellt werden, dass alle Handlungen existieren.

Offline-Checks




Autonome Prüfungen sind der nächste Schritt in den Abnahmetests des Rechenzentrums. Hier muss jedes Gerät manuell überprüft werden: Bedienbarkeit, Einstellungen, Betrieb bei maximaler Belastung und natürlich Kennzeichnung - wo ohne :) Es ist wichtig, dass die Kennzeichnung dem Design entspricht. Genauso wichtig ist es jedoch, dass es mit der Realität übereinstimmt.


Beispiel für die Markierung von Glykolschaltungen

Zum Beispiel legen wir für ein Stromverteilungssystem eine Testlast an und schalten jede Maschine in der Schalttafel physisch ein / aus. Und beginnend mit der IT-Ausrüstung gehen wir nacheinander jedes Rack durch, erstellen einen Tisch und stellen sicher, dass beim Ausschalten der Maschine auch die entsprechende Hardware ausgeschaltet wird.

Natürlich erscheinen manchmal auf magische Weise Maschinen in den Schalttafeln, die nicht im Projekt waren. Es ist in Ordnung, Hauptsache, die Last überschreitet nicht die Norm, und dies wurde in der Dokumentation vermerkt.


Rechte Telefonzentrale

Für Geräte wie Klimaanlagen, Dieselaggregate und USVs führen wir einfache Einzelprüfungen durch: Ein / Aus, Betriebsarten, Einstellungen usw. Seltsamerweise ist es wichtig zu überprüfen, wie gut die Ausrüstung befestigt ist. Wir hatten Fälle, in denen wichtige Muttern mit fast einem Finger herausgeschraubt werden konnten.

Die erste Runde ist vorbei und wir geben den Installateuren Zeit, um die Fehler zu beheben. Danach kehren wir zurück und alles geht in die zweite Runde.

Sie sagen, dass die Arbeiter sie untereinander als Kreise der Hölle bezeichnen - sehr oft finden wir bei der zweiten Inspektion Pfosten, die wir vorher nicht bemerkt haben. Und es beginnt: "Was hast du nicht sofort gesagt?"

Sie können Menschen verstehen, aber bei uns ist es fast wie im Film "Achten Sie auf das Auto": Sie holen auf und ich renne weg. Im Gegenteil: Sie eliminieren, aber ich finde.

Unter dem Spoiler befindet sich eine Liste der wichtigsten autonomen Tests, die wir durchführen.
Kühlung:
  • Sichtprüfung der Ausrüstung auf Übereinstimmung mit den Anforderungen des Installationshandbuchs;
  • Überprüfung der Zuverlässigkeit der Befestigung von Rohrleitungen, der Isolierung von Rohrleitungen und ihrer Verbindung;
  • Überprüfung der Zuverlässigkeit der Befestigung elektrischer Geräte in der Schalttafel (Automaten, Magnetstarter, Kontaktblöcke);
  • Überprüfen des Bedienfelds auf Funktionsfähigkeit;
  • Überprüfen des Betriebsalgorithmus der Hardware-Software: Wechseln von der Arbeit zur Sicherung nach der Simulation eines Unfalls; Überprüfen der Rotation nach Zeit (falls vorhanden).

Stromversorgung:
  • Sichtprüfung der Ausrüstung, Überprüfung der Einhaltung der Anforderungen des Installationshandbuchs;
  • Überprüfung der Übereinstimmung des Systems und seiner Komponenten mit einem einzeiligen Diagramm;
  • selektive berührungslose Temperaturmessungen (mit Angabe von Kontrollstellen).

DGU:
  • Überprüfen des Bedienfelds;
  • Überprüfen der korrekten Funktion der Licht- und Tonanzeige;
  • Überprüfung auf Probleme während des Teststarts von Dieselaggregaten im automatischen und manuellen Modus;
  • Überprüfung der Leistung von Dieselaggregaten für 6 Stunden bei 30% der Auslegungslast.

UPS:
  • Überprüfen des automatischen Starts der USV, wenn die Batterien bis zum maximal zulässigen Wert entladen sind, Überprüfen der Batterielebensdauer (bei Arbeiten mit 100% der Auslegungslast);
  • Überprüfung der Hauptparameter der USV während des Betriebs bei 100% Last;
  • Überprüfung des USV-Ausgangs im Bypass im automatischen und manuellen Modus bei Betrieb mit 100% der Auslegungslast.


Wenn alles so funktioniert, wie es sollte, sind die eigenständigen Tests abgeschlossen und der lustigste Teil beginnt: umfassende Tests.

Umfassende Tests




Lassen Sie mich hier einen Exkurs machen und darüber sprechen, was ein Rechenzentrum ist und was für seine Funktionsweise wichtig ist.

Erstens ist das Rechenzentrum ein einziges System, ein fast lebender Organismus. Und seine „Gesundheit“ insgesamt hängt davon ab, wie alle seine Organe interagieren.

Zum Beispiel sagen uns Klimaanlagen oft: „Was magst du nicht? Schau, es bläst und kühlt ab! Alles ist wie es sollte! "

Die Spezialisten der DGU wiederholen sie: "Schauen Sie, alles läuft an und gibt sogar Strom!" Im Allgemeinen funktioniert jedes Gerät gut (wir haben es bei autonomen Tests überprüft), aber nur für sich. Es lohnt sich, alles zusammen zu starten, und das System bröckelt. Um Probleme im Zusammenhang mit dem gemeinsamen Betrieb der Geräte zu identifizieren, werden umfassende Kontrollen durchgeführt.

Der Umfang der Tests kann je nach Redundanzgrad variieren: Je mehr miteinander verbundene Systeme vorhanden sind, desto mehr Arbeitsoptionen müssen Sie überprüfen und debuggen.

Wenn wir beispielsweise ein Tier III-Rechenzentrum bauen, ist es unbedingt erforderlich, dass jedes Element der Infrastruktur, einschließlich Kabel- und Verteilungsrouten, zum Austausch oder zur Reparatur sicher heruntergefahren werden kann. Dementsprechend wächst die Anzahl der notwendigen Tests. Wir schalten verschiedene Geräte ständig aus / aus, wenn das Rechenzentrum unter Last betrieben wird. Änderungen in einem System sollten keinesfalls zu Fehlern in benachbarten Systemen führen.

Wichtige Klarstellung Nr. 1: Alle umfassenden Prüfungen werden unter Last durchgeführt. In 99% der Fälle werden Heißluftgebläse direkt im Maschinenraum platziert und das Rechenzentrum wird „verbrannt“ - so überprüfen wir die Qualität technischer Systeme.

Wichtige Klarstellung Nr. 2: DGU sind die Hauptstromversorgung des Rechenzentrums. Die Stadt ist eine alternative "billige" Quelle, daher führen wir alle komplexen Dieselkontrollen durch.

Eines der Schlüsselsysteme in jedem Rechenzentrum ist die Automatisierung der Hauptschalttafel und des Dieselgenerators. Dieses System muss sehr sorgfältig geprüft werden. Standardpfosten - Es gibt keinen Übergang zur DGU, wenn die Stadteingabe ausgeschaltet ist. Dies liegt daran, dass einige Personen die DGU montieren, während andere die Automatisierung installieren und die Geräte nicht zusammenpassen.

Beim Debuggen des Systems lohnt es sich, eine Einstellungstabelle zu erstellen und die Algorithmen des ATS vorzuschreiben. Wenn Sie auf einen sehr guten und verantwortungsbewussten Auftragnehmer (Designer, Bauunternehmer) stoßen, der alles unabhängig dokumentiert, desto besser. Andernfalls seien Sie nicht faul und schreiben Sie die folgenden Punkte selbst auf:

  1. Nach wie vielen Sekunden kommt der Befehl zum Starten des Dieselgenerators an.
  2. Nach wie vielen Sekunden erfolgt ein Übergang zur DGU.
  3. Absatz 1 und Absatz 2 in umgekehrter Reihenfolge.

Unter dem Spoiler ein Beispielalgorithmus für eine der von uns und dem Uptime Institute verwendeten Prüfungen.
  1. Wir führen den Übergang vom Stadtnetz zur DGU-Gruppe durch, messen Indikatoren.
  2. Wir kommen zurück.
  3. Schalten Sie einen der Dieselaggregate vollständig aus (Kommunikation ausschalten, Automaten) und beobachten Sie, wie das System ohne Ersatzdieselmotor startet. Dies kann zu Problemen führen, die mit falschen Automatisierungseinstellungen verbunden sind.
  4. Wenn die Dieselgeneratoren überprüft werden, arbeiten wir weiter daran und führen die verbleibenden Leistungstests durch.
  5. Wir schalten eine USV aus und beobachten, wie die Last auf einen anderen Balken übergeht. Wir übersetzen in Bypass und umgekehrt, entladen die Batterien.
  6. Wir folgen weiterhin konsequent dem Schema und schalten Schalttafeln aus.


Dann wird die Klimaanlage überprüft. Wir schalten die Klimaanlagen der Reihe nach aus und überprüfen sie auch, wenn sie über ein integriertes ABP-System verfügen.

Wenn die Klimaanlagen so konfiguriert sind, dass sie in einer Gruppe arbeiten und automatisch von der Sicherung zur primären wechseln, überprüfen Sie unbedingt, wie sie funktioniert.

  • alle Verbindungen entfernen;
  • Starten Sie den für das Umschalten verantwortlichen Controller neu.
  • Schalten Sie den Verteilerschalter aus, der die Klimaanlagen verbindet.
  • Automatisierung testen - stürzt hier zu oft ab;
  • Wir tun alles, was in dem Roman „50 Shades of the Data Center“ geschrieben werden könnte.

Bei einem Glykolsystem muss die Hydraulik unbedingt überprüft werden, indem die Pumpen ausgeschaltet und einer der Wärmetauscher und ein oder mehrere Streckenabschnitte abgeschaltet werden.


Hier sehen Sie, dass jeder Schild markiert und mit einer kurzen Anleitung versehen ist

Wichtig: Wenn die Umschaltung manuell erfolgt, muss der Auftragnehmer unbedingt einen Algorithmus bereitstellen. Die Markierungen der Ventile und Riegel müssen die Betriebspositionen angeben (normales Öffnen, normales Schließen).

Oft sagen Auftragnehmer: Dies war nicht im bereitgestellten Testplan enthalten. Sie können dies beantworten: Unfallpläne bieten nicht :)

Gelegentliche Situationen treten ebenfalls auf. Während des Testens einer USV kann beispielsweise eine böse Klimaanlage zum Entladen kommen:

"Was macht ihr Herodes ?!" Warum haben Sie die Pumpen ausgeschaltet?
- Wir haben nichts ausgeschaltet, wir testen die USV.
- Und warum dann die Kältemaschinen vergewaltigen? Sie können brechen!
- Deshalb testen wir, um so enge Momente zu finden.

Ein weiterer häufiger Test ist die Überprüfung des Feuerlöschsystems. Dazu trennen wir die gesamte Automatisierung von den Zylindern und testen, wie die Anweisungen funktionieren. Es kommt vor, dass die Richtungen verwirrt sind, das Öffnen / Schließen funktioniert nicht.

Vergessen Sie nicht das Überwachungssystem (wir haben hier und hier mehr darüber geschrieben). Sobald wir etwas aktivieren oder deaktivieren, muss diese Änderung im Bedienfeld angezeigt werden. Wir prüfen auch, ob die Überwachung mit einer großen Anzahl von Alarmen "dumm" wird.

Testen Sie unbedingt die Überwachungsleistung. In keinem Fall sollten Sie im Notfall die Kontrolle über das Rechenzentrum verlieren.

Wir machen alles mit den Händen eines Bauherrn


Am Anfang schrieb ich, dass Abnahmetests von externen Spezialisten durchgeführt werden sollten. Es gibt jedoch Dinge, die direkt dem Auftragnehmer in Rechnung gestellt werden sollten. Dies ist eine Demonstration des Ein- und Ausschaltens von Geräten (sowie einiger anderer Arbeiten). Die empfangende Partei geht mit einer Checkliste und schreibt die Ergebnisse auf. Ungefähr so:

  • Die Empfangsseite sagt: „Wir müssen die Klimaanlage Nr. 34 ausschalten. Kollegen, schalten Sie es aus und zeigen Sie uns, wie Sie es machen. “
  • Der Erbauer zeigt und erklärt.
  • Die Empfangsseite nimmt auf .

Dies ist eine Regel guter Form.


Eine Frage der Zeit




Wie Sie bereits verstehen können, sind Abnahmetests ein langwieriger Prozess. Ihre Dauer hängt stark von der Größe des Rechenzentrums und der Anzahl der Geräte ab. Im Folgenden werde ich die durchschnittlichen Indikatoren (Rechenzentrum für 50-100 Racks) angeben.

  • Überprüfung der Dokumentation - 3-5 Werktage starker Designer.
  • Autonome Überprüfungen - 3-5 Tage für die Iteration, da Sie jedes Element des Rechenzentrums überprüfen und dem Auftragnehmer Zeit geben müssen, um Fehler zu korrigieren. , .
  • 2-3 , .

, . , 2-3 . .

, — . , — . . , , .

,




.

. , . , , — . , 10 .

: « , , !». , , . . .

, , , . .

, ? , . , .

, , . — , .

: , , , . « », , IT-, . — , .

- , .

Source: https://habr.com/ru/post/de421547/


All Articles