Hallo Habr! In diesem Jahr jährt sich zum 10. Mal der Start unseres ersten
OST-1-Rechenzentrums . In dieser Zeit gelang es meinen Kollegen aus den Bereichen Betrieb und Kapitalbau, mehr als eine Modernisierung der technischen Infrastruktur des Rechenzentrums durchzuführen. Heute werde ich Ihnen die interessantesten Fälle erzählen.
Ein 200-Tonnen-Kran installiert den neuen Stulz-Kühler auf dem Rahmen. Modernisierung des Kühlsystems des OST-1-Rechenzentrumsystems im Jahr 2015. Das Rechenzentrum ist ein lebender Organismus, es wächst, verändert sich, bricht zusammen :) Alles, was der Modernisierung zugeschrieben werden kann, teile ich bedingt mit:
- Geplante Ersetzungen und Reparaturen. Das Gerät ist veraltet, seine Lebensdauer läuft ab. Wir planen, planen und erledigen solche Arbeiten ohne Eile, wenn es für uns zweckmäßig ist (z. B. ein vollständiges Upgrade des „Inneren“ der USV oder der Austausch erschöpfter Batterien).
- Konstruktionsfehler . Nach den Vorschriften von Uptime sollte alles gleichzeitig ausgegeben und beendet werden. Aufgrund eines unsachgemäßen Designs kann beispielsweise das Gleichgewicht zwischen „Kälte - Strom - Ort“ verletzt werden: Es gibt Plätze zum Aufstellen von Gestellen, aber die Halle wird nicht mehr durch Strom oder Klimaanlage gezogen. Das Unangenehmste an diesen Fehlern ist, dass sie nicht sofort angezeigt werden, sondern wenn sich das Rechenzentrum seiner Entwurfskapazität nähert.
- Unfall. Es kommt vor, dass das Gerät vollständig, unwiderruflich und unerwartet beschädigt ist und ausgetauscht werden muss.
Ich werde nicht auf geplante Ersetzungen / Reparaturen eingehen. Dort liegt fast alles in unserer Macht. Ich erzähle Ihnen drei Geschichten über Designfehler und Upgrades nach dem Absturz.
Geschichte 1. Der Maschinenraum hatte nicht genug Kälte
Dies ist eine Geschichte über eine unserer ersten Hallen auf Borovaya. Er arbeitet immer noch. Eine Halle mit einer Auslegungskapazität von 80 Racks mit 5 kW.
Als sich die Halle füllte, war die Kälte nicht mehr ausreichend: Die Temperatur in den kalten Korridoren war höher als nötig, es trat ständig lokale Überhitzung auf. Erst später, auf dem Höhepunkt unserer Erfahrung, stellten wir fest, dass wir Fehler im Design gemacht hatten, und aufgrund dessen litt die Klimaanlage.
Fehler
| Das Problem
|
Eine lange Reihe von Gestellen - mehr als 20 in einer Reihe
| Heiße Luft stagnierte in der Mitte der Reihe
|
Niedrige Decken - bis zu 3 Meter
| Es ist nicht genügend Platz für einen ordnungsgemäßen Luftaustausch vorhanden. Es gab Zonen lokaler Überhitzung
|
Niedriger Doppelboden mit vielen Kommunikationen darunter
| Störung der Kaltluftzirkulation unter dem Doppelboden
|
Die Reihe ist so lang, dass die Klimaanlagen am gegenüberliegenden Ende kaum sichtbar sind. Foto von 2009.Wir haben damals keine „magische Pille“ aus diesen Problemen gesehen und beschlossen, schrittweise und an allen Fronten zu handeln.
Zuerst haben wir überprüft, ob alle Geräte
korrekt installiert wurden und ob sich die Stecker in freien Einheiten befanden. Wir haben auch die Anordnung der Lochfliesen überprüft und die überschüssigen entfernt und zusätzliche Luftführungen unter dem Doppelboden installiert. Wir haben versucht, alle Löcher zu finden und abzudichten, in denen die kalte Luft entweichen konnte. Ich rate Ihnen auch zu überprüfen, was Sie zwischen der Klimaanlage und der Wand haben. Ein Abstand von 5-7 cm ist schon viel.
Hier ist das Ergebnis, dass wir eine einfache Platzierung von Stubs in freien Einheiten erhalten haben.Es wurde besser, aber nicht gut genug. Dann beschlossen wir, die kalten Korridore zu isolieren. Sie bauten ein Dach, Türen aus Polycarbonat. Es stellte sich als billig und fröhlich heraus. Infolgedessen haben wir das parasitäre Gemisch aus heißer und kalter Luft beseitigt und die Effizienz des Kaltversorgungssystems erhöht.
Ein isolierter kalter Korridor derselben Halle.Wir haben verstanden, dass dies für eine Weile ausreichen würde. Mit der Zunahme der IT-Arbeitsbelastung wird sich erneut ein Mangel an Leistung bemerkbar machen.
Sie versuchten, dieses Problem durch Hinzufügen einer Freon-Klimaanlage zu lösen, obwohl die Halle an der Glykolkühlung arbeitete. Wir waren sehr besorgt über die Abmessungen der Klimaanlage (wird sie durch die Tür gehen, wird es genügend Drehwinkel geben), deshalb haben wir ein Modell mit der Möglichkeit einer teilweisen Demontage ausgewählt. Die Klimaanlage wurde nicht wie gewöhnlich von der Seite des heißen Korridors installiert, sondern dort, wo sie sie drücken konnte. Dies fügte uns 80 Kilowatt Kühlung hinzu.
Hier ist die gleiche "Guttapercha" -Klimaanlage Emerson.Diese ganze Geschichte stellte sich als kompliziert heraus: Es war notwendig herauszufinden, wie man Freon-Gleise zu externen Einheiten bringt, wie man diese Klimaanlagen mit Strom versorgt und wo die externen Klimaanlagen platziert werden. Das alles im Arbeitszimmer.
Nur um zu verstehen, wie wenig Platz da ist.Nach all diesen Manipulationen haben wir die lokale Überhitzung beseitigt, die Temperatur wurde gleichmäßig in den kalten und heißen Korridoren verteilt. Es stellte sich heraus, dass die Kapazität der Halle erhöht und die deklarierten Fünf-Kilowatt-Gestelle darin platziert wurden.
Die Moral dieser Geschichte ist, dass Sie keine Angst haben sollten, das Problem in kleinen Schritten zu lösen. An sich mag jede der Handlungen unwirksam erscheinen (und es schien uns damals), aber insgesamt ergibt dies ein Ergebnis.
Vorgeschichte 2. Klimaanlage und Stromversorgung im Maschinenraum sind erschöpft
Ein Kundenraum wurde für 100 Racks mit jeweils 5 kW ausgelegt. Design Rack Breite 800 mm, in jeder Reihe 10 Racks. Dann änderte der Kunde seine Meinung, um anzurufen, und die Halle wurde auf einer gemeinsamen Basis vermietet. Im Leben werden Racks mit einer Breite von 800 mm hauptsächlich für Netzwerkgeräte benötigt, für alles andere werden Sechshundertstel benötigt. Als Ergebnis bekamen wir statt 10 Racks hintereinander 13 und es war noch Platz. Aber der Strom und die Kälte waren nicht genug.
Während der Modernisierung wurde ein neuer Raum für zwei zusätzliche 300-kW-USVs zugewiesen.

Zusätzliche Verteiler erschienen in der Halle.

Die neue Energie musste gleichmäßig verteilt werden. Um die neuen und alten Träger zu trennen, wurden separate Kabelrinnen unter den Doppelboden gelegt. Ein Teil der funktionierenden IT-Ausrüstung wurde durch abwechselndes Umschalten jedes Leistungsstrahls auf neue Schalttafeln umgestellt.
Um das Problem des Kältemangels zu lösen, setzen wir 1 zusätzliche Klimaanlage pro 100 kW Kälte ein.

Während der Montage, Installation und Inbetriebnahme aller Geräte funktionierte die Halle normal weiter. Dies war der schwierigste Moment im Projekt.
Als Ergebnis der Modernisierung haben wir eine Strom- und Kühlhalle für weitere 30 Racks mit jeweils 5 kW hinzugefügt.
Die Entwurfskapazität und die Kapazität der Halle wurden um 30% erhöht.Verlauf 3. Informationen zum Ersetzen von Kältemaschinen
Ein bisschen Hintergrund. Alles begann im Jahr 2010, als 3 Kältemaschinen des OST-Rechenzentrums während des Hurrikans
schwer beschädigt wurden. Um zu überleben, mussten die Kältemaschinen mehrere Tage lang ohne Schutz angetrieben werden, und die Kompressoren bogen sich schnell. Zuerst wurden sie geändert.
Die IT-Auslastung nahm zu, als das Rechenzentrum voll wurde und die Emicon-Kältemaschinen die angegebene Kühlkapazität nicht erreichten. 2012 installierten sie einen zusätzlichen Hiref-Kühler im selben Hydraulikkreis. Also lebten wir noch drei Jahre.
Im Laufe der Zeit haben Emicon-Kältemaschinen Betriebsprobleme verschärft. Ihre Kraft reichte nicht aus, so dass in der Hitze Wasser aus dem Karcher gegossen werden musste. Im Laufe der Jahre werden Wärmetauscher mit kalkhaltigen Ablagerungen überwachsen. Pappelflusen und andere Rückstände, die aufgrund der spezifischen Struktur der Wärmetauscher nicht entfernt werden konnten, füllten die Lücke zwischen dem Freikühlungswärmetauscher und dem Freon-Kondensator. Dort bildete sich ein echter Filzstiefel, der normalerweise keine Luft durchließ.
2015 haben wir gerade eine Charge Stulz-Kältemaschinen für
NORD-4 gekauft . Wir haben uns entschlossen, zwei der drei Emicon-Kältemaschinen in diesem Geschäft zu ersetzen. Nun zu den Details.
Einbau eines zusätzlichen Hiref-Kühlers ohne Neuinstallation der Pumpen. Die IT-Belastung nahm zu und die Effizienz der vom Hurrikan betroffenen Kältemaschinen sank. Im Sommer war das Reservat kaum genug. Wir haben beschlossen, einen weiteren Kühler hinzuzufügen, um die Gesamtkapazität zu erhöhen. Für die Dauer der Arbeiten sollte das Kühlsystem weiter funktionieren. Der schwierigste Teil bei dieser Operation ist die Organisation des Glykolkreislaufs. Wir haben ein Glykolband hergestellt: Von jedem Kühler wurde einem neuen Kühler ein Glykolring zugewiesen. Die Kältemaschinen wurden nacheinander außer Betrieb genommen, und ein Glykolrohr wurde zum neuen Kältemaschinen gebracht.
Fragment des Konzepts der Hydraulik. Es zeigt, dass von jedem der drei Kältemaschinen Zweige zum neuen Kältemaschinen gemacht wurden.Die Hauptaufgabe dieses Kühlers ist es, das Kühlsystem im Sommer zu unterstützen. Dank Hiref haben wir in den heißen Monaten eine garantierte Reserve von N + 1. Aber die im Hurrikan beschädigten Kältemaschinen begannen langsam auszutrocknen, und wir mussten darüber nachdenken, sie zu ersetzen.
Der gleiche "Sommer" Hiref Chiller.Emicon durch Stulz ersetzen. Solche Ersetzungen erfolgen am besten im Herbst oder Frühjahr: Im Sommer ohne Vorbehalt ist es völlig unheimlich, und im Winter ist es einfach unangenehm, die Arbeiten auszuführen. Die Operation war für Februar / März geplant, die Vorbereitungen begannen jedoch im Oktober.
Während dieser Vorbereitungsmonate verlegten wir neue Kabel, kochten Abschnitte der Pipeline, entwickelten einen Plan für die Annäherung an die Maschine mit Ausrüstung (wir haben einen engen Hinterhof) und räumten den Bereich für den Kran frei. Die Kältemaschinen mussten in einem funktionierenden Rechenzentrum gewechselt werden, und für etwa 1,5 Tage blieb er ohne Ersatzkühler. In der Vorbereitungsphase führten wir Tests durch, um zu verstehen, wie sich das Rechenzentrum ohne Vorbehalt anfühlt, erfanden verschiedene Situationen, in denen während der Arbeit etwas schief gehen könnte (z. B. ein langer Stromausfall beim Austausch von Kältemaschinen), und entwickelten einen Aktionsplan . Hier ist eine kurze Chronik dieser Werke.
Nachts kam ein Kühler. Nach einem erfolgreichen Einchecken des Krans in das Gebiet des Rechenzentrums konnte der alte Kühler ausgeschaltet werden.
Der alte Kühler ist noch in Betrieb, während die Vorbereitungsarbeiten laufen. Wir kochen den Rahmen für den neuen Kühler.Dann sollte ein Auto mit einem Kühler zum unmittelbaren Arbeitsplatz fahren. Wir haben, gelinde gesagt, dort ein wenig überfüllt. Ich musste schwitzen, um auf engstem Raum in all diese komplexen Kurven zu passen.


Der in zwei Hälften zerlegte und halbierte Kühler wurde zerlegt.

Der alte und der neue Kühler unterscheiden sich in der Größe. Die Vorbereitung des Metallrahmens dauerte etwas länger. Der Kühler muss noch angehoben und installiert werden.

Im Hintergrund zeigt das Foto, dass Abschnitte des Glykolkreislaufs für den neuen Kühler parallel hinzugefügt werden.


Nach dem Einbau ist die gesamte Hydraulik am Rahmen montiert, der Kühler wird an die Stromversorgung angeschlossen. Das Crimpen erfolgt nachts. Am nächsten Tag erfolgt die Inbetriebnahme und der Anschluss an das Überwachungssystem.
Es dauerte weniger als zwei Tage, um den Vorgang abzuschließen: Am Morgen wurde der alte Kühler ausgeschaltet, und am Ende des nächsten Tages wurde der neue Kühler eingeschaltet.
Zwei Wochen später wurde der zweite Kühler gewechselt. Es scheint, dass Sie einfach alles nach dem bewährten Schema tun mussten, aber etwas ist schief gelaufen. Es schneite die ganze Nacht. Zuerst musste ich Zeit damit verbringen, das Territorium zu räumen, damit der Kran anrufen konnte. Wir begannen, den alten Kühler zu zerlegen, als zweihundert Meter von uns entfernt ein Auto mit einem neuen Kühler kaputt ging. Der Punkt ohne Rückkehr wurde bereits überschritten, und der Wagen der Anhängerräder (Bedienfeld davon) ist auf dem Wagen ausgefallen.
Vor Ort hat es nicht geklappt, wir haben uns für eine zusätzliche Fernbedienung entschieden, die am Samstag auf wundersame Weise im Büro dieser Firma landete. Mit der Fernbedienung gelang es mir, das Auto zu drehen. Infolgedessen haben wir mehr als 3 Stunden gebraucht, um eine Runde zu absolvieren. Mit all den logistischen Überlagerungen dauerte die Arbeit bis in die Nacht. Es ist gut, dass wir uns eine Beleuchtung für die Arbeit im Dunkeln ausgedacht haben. Die restlichen Arbeiten verliefen wie gewohnt, und ab Montag im Rechenzentrum begann ein weiterer neuer Kühler zu arbeiten.
Im März dieses Jahres ersetzten meine Kollegen den dritten Kühler, den letzten der Überlebenden des Hurrikans. Jetzt hat Borova drei Stulz-Kältemaschinen und einen Hiref. Dank einer solchen schrittweisen Modernisierung haben wir jetzt einen großen Vorrat an Kälte und haben keine Angst vor dem heißesten Wetter und Pappelflusen. Neue Kältemaschinen unterstützen den Gefriermodus über einen größeren Temperaturbereich, verbrauchen weniger Energie und arbeiten sehr leise. Sie sind aufgrund der separaten Kompressorräume auch sehr bequem zu warten: Reparaturen können ohne vollständigen Stopp des Kühlers durchgeführt werden.