Reisen durch das Selectel-Rechenzentrum. Dinosaur on Fire, VMware, C2F5H und der unsichtbare Werwolf

Die Arbeit des Systemadministrators basiert auf der Überzeugung, dass Rechenzentrumsingenieure ihren Job kennen. Wir bauen Failover-Cluster, aber was kostet dieses Failover, wenn der Strom ausfällt? Welchen Unterschied macht es, wie schnell der Server die Anforderung verarbeitet, wenn der Kanal vom Rechenzentrum zum Verkehrsaustauschpunkt fällt? Wie kann der Server angehoben werden, wenn er physisch überhitzt ist?


Und ich möchte nicht glauben, sondern wissen, wie genau Fehlertoleranz auf Eisenebene erzeugt wird. Woher kommt diese "neun" Gerätezuverlässigkeit, über die wir bei der Formulierung des SLA Kubernetesov sprechen. Was passiert, wenn ein Projekt im wahrsten Sinne des Wortes brennt?


Wir hatten das Glück, am dritten Tag von Slurm DevOps im Selectel-Rechenzentrum herumzulaufen, in das Allerheiligste zu schauen und sogar ein paar Bilder zur Erinnerung zu machen. Wir haben auch nach Unternehmenslegenden gefragt, die Selectel-Mitarbeiter niemandem erzählen. Und wie sich herausstellte, erinnern sie sich selbst nicht.


Unser Unternehmen in Southbridge ist seit langem mit Selectel verbunden. Jetzt unterstützen wir 58 Projekte, die auf den Servern des Anbieters gehostet werden. Wenn ein Kunde einen Server in Russland benötigt, empfehlen wir Selectel, da wir ihn erfahrungsgemäß als den zuverlässigsten und bequemsten Anbieter von IT-Infrastruktur betrachten.


Lass uns gehen!



Als ich in den vierten Stock ging - die schwierigsten nahmen den Aufzug, die sportlichsten gingen nach oben -, erinnerten mich Kollegen aus Southbridge daran, dass ich unbedingt etwas über Selectel-Legenden lernen sollte: über den Werwolf, über den unruhigen Geist, der beim Bau eines neuen Rechenzentrumsgebäudes umherwanderte und heulte. Ich habe mich schon immer für die Mythologie großer Unternehmen interessiert, die von der turbulenten Phase der Geburt und des ersten Wachstums zurückblieb.


Zu Beginn hatte das Unternehmen ein Rechenzentrum für Flower 1 in St. Petersburg. Das Rechenzentrum diente der Firma Vkontakte. Wir sahen ihn vom Fenster aus, als wir in den vierten Stock gingen. Vor neun bis zehn Jahren hat er einmal mit der Modernisierung aufgehört - und arbeitet seitdem ununterbrochen. In Bezug auf die Zuverlässigkeit gehört es zur Stufe II.


Informationen zur Prüfung (c) "Siebzehn Momente des Frühlings":

Der Hauptindikator des Rechenzentrums ist die Fehlertoleranz. Insgesamt gibt es 4 Kategorien - von Tier I bis Tier IV. Die Zugehörigkeit zu einer bestimmten Kategorie gibt den Grad an Redundanz, physischer Sicherheit und Zuverlässigkeit an.

Tier I (Redundanz - N, Fehlertoleranz - 99,671%) - Es gibt keine Doppelböden im Rechenzentrum, keine Notstromquellen und unterbrechungsfreien Stromversorgungen, und die technische Infrastruktur ist nicht reserviert. Während einer geplanten oder Notfallreparatur stoppt das Rechenzentrum.

Tier II (Redundanz - (N + 1), Fehlertoleranz - 99,749%) - Es gibt ein geringes Maß an Redundanz, Doppelböden und Notstromquellen sind im Rechenzentrum montiert. Reparaturarbeiten führen dazu, dass das Rechenzentrum nicht mehr funktioniert, wie in Tier I.

Tier III (Redundanz - 2N, Fehlertoleranz - 99,982%) - Es ist möglich, Reparaturarbeiten (Ersetzen von Systemkomponenten, Hinzufügen und Entfernen fehlerhafter Geräte) durchzuführen, ohne das Rechenzentrum anzuhalten. Alle Systeme sind reserviert, es gibt mehrere Stromverteilungs- und Kühlkanäle.

Tier IV (Redundanz - 2 (N + 1), Fehlertoleranz - 99.995%) - Doppelte Redundanz und Redundanz des Systems sind erforderlich. Es ist möglich, alle Arbeiten auszuführen, ohne die Arbeit des Rechenzentrums anzuhalten. Engineering-Systeme sind doppelt reserviert, dh sowohl das primäre als auch das sekundäre System werden dupliziert.

Vor uns lag ein leistungsstarker Kühlergrill, eine Tür mit elektronischem Schloss und ein Windrad in voller Höhe aus dicken Metallprofilen. Und dahinter befindet sich der Rechenzentrumsraum.



Das Rechenzentrum, in dem wir uns befanden, ist neuer als das Rechenzentrum in der Nachbarschaft - es wurde 2015 gebaut. Und es gehört zur Kategorie Tier III.


Jetzt verfügt Selectel über zwei Betriebszentren in Tsvetochnaya, drei weitere in Dubrovka und zwei Rechenzentren in Moskau, die als ein Rechenzentrum im Unternehmen gelten. Nur sechs.


Das Gebäude hat vier Stockwerke. Die Büros befinden sich im ersten Stock und einige Geräte befinden sich. Die vierte Etage ist teilweise für Büros vorgesehen, der größte Teil ist jedoch mit technischen Räumlichkeiten belegt.


Bevor der Anbieter hier eintrat, befand sich die Produktion im Gebäude. Die Mitarbeiter des Rechenzentrums selbst erinnern sich nicht an die Produktion von was genau - entweder Film oder Kleidung. Das Unternehmen hat das Gebäude gekauft, um die Risiken komplexer Immobilienbeziehungen auszuschließen, wenn das Gebäude im Besitz eines Dritten ist.


Trotz der Tatsache, dass sich hier früher die Produktion befand, es Werkzeugmaschinen und andere schwere Maschinen gab, verstärkte Selectel die Böden weiter. Auch im Konferenzraum im Erdgeschoss, wo die intensiven Slurm DevOps ( 1 , 2 , 3 ) stattfanden, haben wir auf die verstärkten Stützen geachtet.


Wir gehen nur in Überschuhen zum Rechenzentrum - die übliche Regel für solche Räumlichkeiten. Für das Anziehen von Plastik kostet Onuchi ein „Schuhregal“. Wir sind aufrichtig durchdrungen. Der Begleiter bot uns die Wahl an, selbst Schuhe anzuziehen oder die Extremitäten dem gefräßigen Apparat anzuvertrauen.



Unsere Wahl war vorhersehbar. Igor Olemsky, Direktor von Southbridge: „Wir sind für die Automatisierung . Anton Tarasov, Administrator von Southbridge: "Wenn es so mit Socken wäre, wäre ich der glücklichste Mensch auf dem Planeten . "



Während sie Schuhe trugen, fragten sich die Entwickler von Southbridge aktiv, wo sich die VMware-Server befinden. Jeder war interessiert zu sehen, welche Ausrüstung diese Technologie funktioniert.


Sobald sie den technischen Bereich betraten, kündigten sie sofort die Regeln an: "Wir essen nicht, wir trinken nicht, wir rauchen nicht. Wir legen unsere Hände nirgendwo hin, in irgendwelche Schilde, in irgendwelche Gestelle, Klimaanlagen, Fernbedienungen. Wir halten unsere Hände vor uns wie ein Tyrannosaurus. "


Im vierten Stock befinden sich drei Serverräume. Alle Geräte befinden sich auf dem Doppelboden. Es ist notwendig, dass kalte Luft von unten strömt und dass Kommunikationen hergestellt werden können, die keinen ständigen Zugang benötigen. Dies sind Stromleitungen und Kühlleitungen.



Sobald wir den kleinen Serverraum betraten, traf uns ein Summen. Der Charakter des berühmten Cartoons mit Sägemehl im Kopf würde sicherlich sagen: "Das ist gut, gut, gut, aus gutem Grund!" . Da wir nicht daran gewöhnt waren, hörten wir uns in den ersten paar Minuten kaum. Auch Erklärungen des Führers, kaum erraten, musste ich näher drängen.


Es gibt Gestelle, Gestelle und noch mehr Gestelle ... Sie sind in strengen Reihen angeordnet. In den Server-Rechenzentren haben wir verschiedene Ränge erreicht: 10 Racks, 12, 20, 30. Abhängig von der Konfiguration des Raums, dem vom Kunden gemieteten Bereich und den Aufgaben.




Im Rechenzentrum in allen Serverräumen des Kühlsystems sieht es so aus: Von oben und an den Seiten wird der gekühlte Raum durch die Rackstruktur begrenzt, der vordere Teil wird durch perforierte Türen verschlossen. Klimaanlagen treiben kalte Luft unter den Doppelboden - und Luft steigt unter Druck in die Gestelle.



Es reicht aus, zwischen den Reihen zu wechseln, um zu spüren, wie stark die Lufttemperatur um fünf Grad abfällt. Sie können sogar die Temperaturgrenze spüren. Die Fugen im Doppelboden sind so fest eingepasst, dass die klimatisierte Luft außer dem speziell für die Kühlung vorgesehenen Weg nirgendwo hingehen kann.


Im Server selbst wird die Temperatur irgendwo um 22 ± 2 Grad Celsius gehalten. Im "kalten" Korridor kann die Temperatur auf 16-17 Grad fallen. In dem kleinen Serverraum gab es zwei „kalte“ Korridore. Dementsprechend werden die Korridore zwischen ihnen als "heiß" bezeichnet. Sie sind etwas wärmer als der durchschnittliche Serverraum - die Luft strömt durch die Racks und erwärmt sich von den Geräten.



Es gibt Regale zur Miete an Kunden. Ingenieure verbinden die Stromversorgung - der Kunde ruft die Ausrüstung an und tut, was er will, im Rahmen der Vorschriften und Gesetze. Racks können unterschiedlich gemietet werden. Bis zu 47 Einheiten, halb, vierteilig. Sie sind physisch getrennt - es werden verschiedene Schlösser verwendet. Sie können nur 10 Einheiten mieten. Wer sehr wenig Ausrüstung hat, wird das schon genug haben. Dementsprechend weniger Strom - es wird billiger.


Wenn der Kunde beispielsweise ein „Viertel“ im unteren Bereich mietet und Sie das Kabel verlegen müssen, wird er durch einen speziellen Metallkanal gezogen. Und Kunden in den oberen Teilen des Racks erhalten in keiner Weise Zugang zur Kommunikation anderer Personen: weder zu Strom noch zu Kupfer oder zu optischen Geräten.


Im Serverraum befinden sich Klimaanlagen in Höhe von drei Stück. Nur zwei von ihnen arbeiten. Wenn eine Klimaanlage zur Wartung herausgenommen wird oder eine Störung auftritt, schalten die Ingenieure das Ersatzteil ein. Dieser Reservebestand ist eine Tier III-Spezifikationsanforderung.


Beispielsweise gibt es unterbrechungsfreie Stromversorgungen. Es gibt eine bestimmte Anzahl von ihnen, angenommen 12. Aber es funktioniert 6. Der Serverraum kann eine Stunde lang mit Batterien arbeiten, wenn der Strom nicht mehr zum Rechenzentrum fließt. Wenn jedoch 6 USVs hypothetisch ausfallen, schalten die Ingenieure sechs weitere ein. Aus Gründen der Zuverlässigkeit befinden sich im Rechenzentrum immer doppelt so viele Knoten.



Dieses Rechenzentrum für das Projekt kann bis zu 10 MW verbrauchen. Aber jetzt gibt es nur noch 1,5. Bisher wird nur der vierte Stock für die Ausrüstung genutzt - der zweite und dritte in der Bauphase. Und der vierte ist noch nicht vollständig gefüllt: Er ist für 250 Racks ausgelegt und 200 sind belegt. Es gibt Platz zum Wachsen.


Insgesamt nutzt Selectel in allen Rechenzentren 14,4 MW. Ein Rack in Betrieb 1.200.



Neben den Haupt-Racks, die für verschiedene Projekte verwendet werden, hauptsächlich zur Miete für Kunden, befinden sich Service-Racks in den Server-Racks, in denen nur Selectel-Geräte installiert sind. Es gibt Kreuzgestelle für die passive Verbindung. Sie sind ohne Strom, nur Glasfaser - zum Verbinden von Geräten zwischen Plattformen und zwischen Räumen. Jeder Serverraum hat den gleichen Schrank mit Kreuzen. Cross kann in einen anderen Raum gehen, in einen anderen Serverraum im Erdgeschoss, sobald es gebaut ist, kann es in ein benachbartes Rechenzentrum oder sogar in ein Rechenzentrum auf Dubrovka gehen.


Das Unternehmen verfügt über mehrere solcher Fasern. Wenn einer unterbrochen wird, beginnt das Rechenzentrum ohne Pause mit der Arbeit am anderen. Alle Wege, die gelegt werden, sind immer reserviert.


Wenn sie eine Verbindung zwischen diesem Rechenzentrum und dem benachbarten herstellen, führen die Ingenieure eine Verbindung durch das Kreuz durch die Luft zwischen den Rechenzentren, und die zweite Verbindung führt durch die Kanalisation durch ein anderes Kreuz. Und egal was passiert, es wird immer einen Backup-Kanal geben.


Da sich im Rechenzentrum viele Geräte befinden, überwachen die Mitarbeiter den Brandschutz streng. Das Rechenzentrum verfügt über mehrere Szenarien für den Umgang mit Bränden. Selectel verfügt über Feuerlöscher in jedem Raum, sowohl im Büro als auch im technischen Bereich. Und die Leute sind speziell dafür ausgebildet, mit ihnen zu arbeiten. Wenn das Feuer lokal ist, können Sie es selbst beheben.



Aber wenn es stark brennt, zum Beispiel die Stromversorgung am Server oder der Kompressorkreislauf mit Öl, dann können Feuerlöscher nicht immer damit umgehen. In solchen Fällen verfügt das Rechenzentrum über eine Gasfeuerlöschstation. Von dort laufen gelbe Rohre die Decke hinunter in jeden Raum.


Bei einem schweren Brand werden alle Personen aus dem Serverraum gebracht. Neben jeder Tür befindet sich ein gelber Knopf. Die Tür schließt fest, ein Knopf wird gedrückt, ein Countdown von 30 Sekunden wird gegeben. Es wird Hladon-125-Gas geliefert - Pentafluorethan, chemische Formel C2F5H. Es hemmt den Verbrennungsprozess - und das Feuer hört sofort auf. Beim Löschen eines Feuers in einem Rechenzentrum werden weder Flüssigkeiten noch Pulver verwendet, da diese die Ausrüstung zerstören.


In einem großen Serverraum war es uns verboten, Fotos zu machen. Weil ich aus dem Gedächtnis erzählen werde, was sie gesehen haben. Insgesamt verfügt dieses Rechenzentrum über einen kleinen und zwei große Server.


Der erste große Serverraum verfügt über einen „kalten“ Korridor, der für Selectel-Projekte und zur Kundenvermietung vorgesehen ist. Es ist viel länger als in einem kleinen Serverraum. Bei einigen Racks gibt es individuelle Sicherheitsmaßnahmen - bei einem der Racks haben wir ein elektronisches Schloss mit einem PIN-Code und einer Videokamera oben bemerkt.


Wir haben uns angesehen, wie der Service „Vermietung von zugewiesenem Speicherplatz“ von innen aussieht. Sie können jede Quadratur auf der Website kaufen - natürlich von der verfügbaren. Und der Kunde kann dort alle Gestelle und Geräte platzieren, die den Standards entsprechen.


Ein sehr großer Bereich, der einem Kunden gehört, wurde durch den umschließenden Zaun untersucht. Es gab deutsche Regale auf Sonderbestellung. Es gibt auch ein kleines separates Lagerhaus.


Nach den Geschichten unseres Reiseführers ist dieser Service nicht unbedingt so groß. Sie können zwei Gestelle aufstellen und den Käfig umgeben. Und der Zugang zu ihnen wird nur bei Ihnen sein. Typischerweise entstehen solche Anforderungen, wenn eine Bank oder ein Kunde mit Finanzinstituten zusammenarbeitet.



Wir schauten in die Räumlichkeiten der Feuerlöschstation. Hier befinden sich die Zylinder mit "Freon-125". Das Gerät ist so konfiguriert, dass je nach Größe Gas aus einer bestimmten Anzahl von Flaschen in jeden Raum geleitet wird.



Links entlang des Korridors befindet sich ein Schaltschrankraum. Aber wir haben dort keinen Zugang, nur für den Fall, dass sie keine Ausflüge machen - sonst wird es unangenehm und der Geruch wird für eine lange Zeit nicht verschwinden.


Es gibt unterbrechungsfreie Netzteile und Panels. In diesem Raum kommt das Essen für das gesamte Gebäude. Und schon von hier gibt es eine Verkabelung in allen Räumen. Sammelschienen gehen zu den Serverräumen, die unter der Decke im Korridor zu sehen sind.


An jeden Server werden zwei Busleitungen gesendet. Man geht unter die Decke, man geht unter den Doppelboden - so wird die Reservierungsbedingung erfüllt. Das gesamte Gebäude wird von zwei Eingangsstrahlen des Kraftwerks gespeist. Wenn ein Eingang getrennt ist, funktioniert das Rechenzentrum ab dem zweiten.



Wenn zwei gleichzeitig getrennt werden, werden alle Geräte an wiederaufladbare Batterien übergeben. 750 Batterien befinden sich in einem speziellen Raum. Ein Stück weiter gibt es einen anderen Raum der gleichen Art - und es gibt ebenso viele mehr. Das Rechenzentrum kann je nach Last 1-3 Stunden auf ihnen leben, der Umstieg auf einen Dieselmotor dauert jedoch nur 2 Minuten.


In getrennten Räumen befinden sich riesige Dieselaggregate. Jeder steht auf einer Plattform, die ungefähr ein Knie hoch ist - wie ich aus den Erklärungen verstanden habe, ist dies ein separater Tank mit Kraftstoff für jeden Dieselmotor. Außerdem gibt es im Rechenzentrum mehrere Tanks, die unter der Erde vergraben sind und für mehrere zehn Tonnen Kraftstoff ausgelegt sind.


Wenn sich der Kraftstoff verschlechtert, wird er regelmäßig ausgetauscht. Wenn der Kraftstoff im Dieseltank ausgeht, pumpt die Pumpe Kraftstoff aus den Tanks. Wenn plötzlich ein Ärgernis auftritt und die Pumpe kaputt geht, ist noch ein Ersatz vorhanden.



Absolut alle Systeme sind dupliziert - Internet-Kommunikationskanäle, Kühlung, Stromversorgung, Notlöschsysteme und alternative Stromversorgung.


Wir haben eine Frage zu Telekommunikationsbetreibern gestellt. Der Ingenieur des Unternehmens sagte, dass sie ständig 5-6 Operatoren für Uplinks verwenden. Und es gibt einige Routen. Außerdem verfügt der Anbieter über Verbindungen zu fast allen Verkehrsknotenpunkten in St. Petersburg und Moskau. In Moskau ist der M9 der größte. Und in St. Petersburg - B18 und Kantemirovskaya.


Wenn der Kraftstoff in den unterirdischen Tanks zu Ende geht, wird ein weiterer Tank gebracht. Selectel hat einen Vertrag mit einem Kraftstoffunternehmen. Das Rechenzentrum kann endlos von Diesel leben, es ist nur teurer.


Wir haben gefragt, wie Selectel mit dem menschlichen Faktor umgeht - denn er ist die größte Gefahr, und kein Vorbehalt hilft.


- Wie arbeiten Sie mit menschlichen Fehlern?


- Wir versuchen sie nicht zu wiederholen. Wir sagen mögliche Fehler voraus. Wir führen Schulungen und Übungen durch. Zum Beispiel Schulung zum Umstieg auf einen Dieselgenerator: Wir testen Menschen, wechseln dabei zu Dieseln, manchmal übertragen wir die gesamte Last auf sie. Außerdem gibt es eine Wissensbasis.


Wir sind zu VMware gekommen. Auf Cloud-Servern werden nur Intel-Plattformen verwendet, 2 Terabyte SSD. Reservierung ist natürlich nur für alles. Zum Beispiel sahen wir nah: In jedem Server stecken zwei Netzwerkkarten, zwei Links in jedem. Ein Link führt zu dem Schalter oben, ein anderer Link zum Switch des nächsten Racks. Pro Modul werden zwei Netzteile verwendet.



Im Rechenzentrum gibt es hauptsächlich russische CMO-Racks. In Kundenschaltern auf dem gemieteten Gebiet gibt es verschiedene Lösungen.


Ein Stück weiter den Korridor hinunter vom zweiten großen Serverraum sahen wir einen Aufzug. Es gibt zwei Aufzüge zum Heben von Geräten - eine Tonne und zwei Tonnen. Die Ladefläche wird separat erstellt - sie befindet sich neben dem Konferenzraum im Erdgeschoss.



Im Aufzugsraum sahen wir eine „kleine“ Box mit einem Juniper MX 2010-Router. Der Traum eines jeden Administrators: drei Wechselstromversorgungen, 1 RE-Modul (Routing-Engine): 1800 x 4 (CPU 1,8 GHz QuadCore, 16 GB RAM), 1 Modul SFB (Switch Fabric Board).


Die Kollegen diskutierten, wo sie es hinstellen sollten. Wir beschlossen, dass er zu Hause am besten aussehen würde. Es wird möglich sein, Wi-Fi an Haushaltsgeräte zu verteilen. Umständlich und solide - ein ernstzunehmender Router für ernsthafte Administratoren. Und wenn Sie müde werden, können Sie eine Wohnung in einer Großstadt verkaufen und kaufen.





Es gibt ein noch größeres, leistungsfähigeres und produktiveres Modell - den MX 2020.


Wie funktioniert der Router? Module, Line Cards werden eingefügt - sie sind ungewöhnlich hoch und sehr schmal. Und solche Leitungskarten sind sehr unterschiedlich - sie können 8, 24, 48 Ports haben. Ports können sowohl "zehn" als auch "hundert" sein. Abhängig von Ihren Bedürfnissen und welchen finanziellen Möglichkeiten.


Im MX 2020 gibt es 32 Steckplätze für Line Cards: 16 oben und 16 unten. Und relativ gesehen, wenn Sie 10 Leitungskarten einlegen und jede 48 Ports hat, ergibt sich ein Ergebnis von 480 Ports. Wir stecken fünfundzwanzig Transceiver ein - und multiplizieren 480 Ports mit 25 Gigabit. Dies ist eine der Optionen. Sie können "Hunderte" setzen.


Als sie die technischen Räumlichkeiten verließen, verweilten sie ein wenig am „Snack Point“, wo die Selectel-Ingenieure nachts wieder zu Kräften kamen. Sie fragten, ob die Kaffeemaschinen der Kategorie Tier III im Rechenzentrum dupliziert wurden. An jedem Punkt zwei Kaffeemaschinen - jede hat zwei Netzteile ... und so weiter.



Igor Olemsky fragte:


— -?


— . . , , , . . — , . - . , . — , , .


, DCIM (Data Center Infrastructure Management). , -, . , , , , .


, Selectel, — , , : " 6 - 40 000 " .


- — , . , , .



, . , , -. - , , .


. - , .




, , - . .


— - ?
— , — Selectel.
— - , .
— .
— .


.


. . , , , . , Selectel. -.



, Selectel , :


— , , ?
— . , — .


, - . , , , 8 . . - , Selectel , , , , , .


, . — . , - . . . , , . . .


Selectel, — , , , . , , -, : , , .


.


— ? , - ? , ?


— , — , . , .


Nach den ausweichenden Antworten zu urteilen, ist das Thema des Seltekelovsky-Werwolfs in der Dunkelheit der NDA verborgen. Wir haben nie herausgefunden, ob es existiert, aber wir haben das Rechenzentrum von innen betrachtet.

Source: https://habr.com/ru/post/de467595/


All Articles