Die Hauptursache für Unfälle in Rechenzentren ist das Verlegen zwischen Computer und Stuhl

Das Thema der schweren Unfälle in modernen Rechenzentren wirft Fragen auf, die im ersten Artikel nicht beantwortet wurden - wir haben beschlossen, es zu entwickeln.




Laut Statistiken des Uptime Institute sind die meisten Vorfälle in Rechenzentren mit Ausfällen des Stromversorgungssystems verbunden - sie machen 39% der Vorfälle aus. Ihnen folgt der Faktor Mensch - dies sind weitere 24% der Unfälle. Der drittwichtigste Grund (15%) war das Versagen der Klimaanlage, und der vierte Platz (12%) waren Naturkatastrophen. Der Gesamtanteil anderer Probleme beträgt nur 10%. Ohne die Daten einer seriösen Organisation in Frage zu stellen, heben wir etwas hervor, das bei verschiedenen Unfällen gemeinsam ist, und versuchen zu verstehen, ob es möglich war, diese zu vermeiden. Spoiler: in den meisten Fällen möglich.


Wenden Sie sich an die Wissenschaft


In einfachen Worten, es gibt nur zwei Probleme mit der Stromversorgung: Entweder gibt es keinen Kontakt, wo er sein sollte, oder es sollte keinen Kontakt geben. Sie können lange über die Zuverlässigkeit moderner unterbrechungsfreier Stromversorgungssysteme sprechen, die jedoch nicht immer sparen. Nehmen wir zum Beispiel den sensationellen Fall eines Rechenzentrums von British Airways, das der Muttergesellschaft International Airlines Group gehört. In der Nähe des Flughafens Heathrow gibt es zwei solcher Einrichtungen - Boadicea House und Comet House. Bei der ersten von ihnen trat am 27. Mai 2017 ein versehentlicher Stromausfall auf, der zu einer Überlastung und einem Ausfall des USV-Systems führte. Infolgedessen wurde ein Teil der IT-Ausrüstung physisch beschädigt, und es dauerte drei Tage, um den letzten Unfall zu beheben.


Die Fluggesellschaften mussten mehr als tausend Flüge stornieren oder neu planen, etwa 75.000 Passagiere konnten nicht rechtzeitig fliegen - 128 Millionen US-Dollar wurden für Entschädigungen ausgegeben, ohne die Kosten-Rechenzentren zu berücksichtigen, die zur Wiederherstellung der Funktionalität erforderlich waren. Die Geschichte der Gründe für den Stromausfall ist unverständlich. Wenn Sie den Ergebnissen der internen Untersuchung glauben, die vom Generaldirektor der International Airlines Group, Willie Walsh, geäußert wurde, ist dies auf einen Fehler der Ingenieure zurückzuführen. Trotzdem musste das unterbrechungsfreie Stromversorgungssystem einer solchen Abschaltung standhalten - dafür wurde es montiert. Das Rechenzentrum wurde von Spezialisten des Outsourcing-Unternehmens CBRE Managed Services verwaltet, daher versuchte British Airways, den Schaden durch ein Londoner Gericht zu beheben.



Stromausfälle treten nach ähnlichen Szenarien auf: Erstens ist der Ausfall auf ein Verschulden des Stromversorgers zurückzuführen, manchmal auf schlechtes Wetter oder interne Probleme (einschließlich Personalfehler), und dann kann das unterbrechungsfreie Stromversorgungssystem die Last nicht bewältigen, oder eine kurze Unterbrechung der Sinuskurve führt dazu, dass viele Dienste ausfallen. Wiederherstellung der Gesundheit, die den Durchbruch von Zeit und Geld hinterlässt. Ist es möglich, solche Unfälle zu vermeiden? Natürlich. Wenn Sie das System jedoch richtig entwerfen, sind auch die Entwickler großer Rechenzentren nicht vor Fehlern gefeit.


Menschlicher Faktor


Wenn die direkte Ursache eines Vorfalls die falschen Handlungen des Personals des Rechenzentrums sind, betreffen Probleme häufig (aber nicht immer) den Softwareteil der IT-Infrastruktur. Solche Unfälle ereignen sich auch in großen Unternehmen. Im Februar 2017 wurden einige Amazon Web Services-Server aufgrund eines falsch eingegebenen Mitglieds des technischen Wartungsteams eines der Rechenzentrumsteams getrennt. Beim Debuggen des Abrechnungsprozesses für Cloud-Kunden von Amazon Simple Storage Service (S3) ist ein Fehler aufgetreten. Der Mitarbeiter hat versucht, eine bestimmte Anzahl virtueller Server zu entfernen, die vom Abrechnungssystem verwendet werden, hat jedoch einen größeren Cluster berührt.



Aufgrund des Fehlers des Ingenieurs wurden die Server gelöscht, auf denen die wichtigen Amazon Cloud Storage-Softwaremodule ausgeführt wurden. Zunächst wurde das Indizierungssubsystem beschädigt, das Informationen zu den Metadaten und dem Standort aller S3-Objekte in der US-Region US-EAST-1 enthielt. Der Vorfall betraf auch das Subsystem, in dem Daten gespeichert und der verfügbare Speicherplatz verwaltet werden. Nach dem Entfernen der virtuellen Maschinen mussten diese beiden Subsysteme vollständig neu gestartet werden. Anschließend waren die Ingenieure von Amazon überrascht, dass der öffentliche Cloud-Speicher lange Zeit keine Kundenanforderungen erfüllen konnte.


Der Effekt war weit verbreitet, da viele große Ressourcen Amazon S3 verwenden. Störungen betrafen Trello, Coursera, IFTTT und, was am unangenehmsten ist, die Dienste großer Amazon-Partner aus der S & P 500-Liste. Schäden sind in solchen Fällen nicht leicht zu zählen, aber ihre Bestellung lag im Bereich von Hunderten von Millionen US-Dollar. Wie Sie sehen, reicht nur ein falsches Team aus, um den Dienst der größten Cloud-Plattform zu deaktivieren. Dies ist kein Einzelfall. Am 16. Mai 2019 löschte der Yandex. Cloud-Dienst während der Wartungsarbeiten die virtuellen Maschinen der Benutzer in der Zone ru-central1-c, die sich mindestens einmal im Status SUSPENDED befanden. Hier sind bereits Kundendaten betroffen, von denen einige unwiederbringlich verloren gegangen sind. Natürlich sind die Menschen unvollkommen, aber moderne Informationssicherheitssysteme sind seit langem in der Lage, die Aktionen privilegierter Benutzer zu steuern, bevor sie die von ihnen eingegebenen Befehle ausführen. Wenn Sie solche Lösungen in Yandex oder Amazon implementieren, können solche Vorfälle vermieden werden.



Gefrorene Kühlung


Im Januar 2017 ereignete sich im Rechenzentrum Dmitrov von Megafon ein schwerer Unfall. Dann sank die Temperatur in der Region Moskau auf –35 ° C, was zum Ausfall des Kühlsystems der Anlage führte. Der Pressedienst des Betreibers sprach nicht besonders über die Ursachen des Vorfalls - russische Unternehmen sprechen äußerst ungern über Unfälle in ihren Einrichtungen. In Bezug auf die Öffentlichkeitsarbeit sind wir weit hinter dem Westen zurück. In sozialen Netzwerken gab es eine Version über das Einfrieren des Kühlmittels in den entlang der Straße verlegten Rohren und das Austreten von Ethylenglykol. Wenn Sie ihr glauben, konnte der Betriebsservice aufgrund der langen Ferien nicht sofort 30 Tonnen Kühlmittel erhalten und stieg mit improvisierten Mitteln aus, um unter Verstoß gegen die Regeln für den Betrieb des Systems eine spontane Freikühlung zu organisieren. Schwere Kälte verschlimmerte das Problem - im Januar passierte plötzlich der Winter in Russland, obwohl niemand darauf wartete. Infolgedessen mussten die Mitarbeiter einen Teil der Server-Racks abschalten, wodurch einige Betreiberdienste zwei Tage lang nicht verfügbar waren.



Wahrscheinlich können Sie hier über die Wetteranomalie sprechen, aber solche Fröste sind in der Hauptstadtregion nicht ungewöhnlich. Die Wintertemperatur in der Region Moskau kann auf ein niedrigeres Niveau fallen, sodass Rechenzentren mit der Erwartung eines stabilen Betriebs bei –42 ° C gebaut werden. Am häufigsten versagen Kühlsysteme bei kaltem Wetter aufgrund einer unzureichend hohen Konzentration an Glykolen und überschüssigem Wasser in der Kühlmittellösung. Es gibt Probleme bei der Installation von Rohren oder bei Fehleinschätzungen bei der Konstruktion und Prüfung des Systems, die hauptsächlich mit dem Wunsch nach Einsparungen verbunden sind. Infolgedessen passiert aus heiterem Himmel ein schwerer Unfall, der durchaus verhindert werden könnte.


Naturkatastrophen


In den meisten Fällen stören Gewitter und / oder Hurrikane die Arbeit der technischen Infrastruktur des Rechenzentrums, was zu einer Abschaltung der Dienste und / oder zu physischen Schäden an den Geräten führt. Durch schlechtes Wetter verursachte Vorfälle treten häufig auf. Im Jahr 2012 fegte der Hurrikan Sandy mit starkem Regen an der Westküste der USA entlang. Das Peer 1-Rechenzentrum befindet sich in einem Hochhaus in Lower Manhattan und verlor seine externe Stromversorgung, nachdem Salzwasser die Keller überflutet hatte. Die Notstromaggregate der Anlage befanden sich im 18. Stock, und ihre Kraftstoffversorgung war begrenzt - die nach den Anschlägen vom 11. September in New York eingeführten Regeln verbieten die Lagerung großer Kraftstoffmengen in den oberen Stockwerken.




Die Kraftstoffpumpe fiel ebenfalls aus, weil das Personal mehrere Tage lang den Diesel für Generatoren manuell schleppte. Der Heldentum des Teams rettete das Rechenzentrum vor einem schweren Unfall, aber war es so notwendig? Wir leben auf einem Planeten mit einer Stickstoff-Sauerstoff-Atmosphäre und viel Wasser. Gewitter und Hurrikane sind hier an der Tagesordnung (besonders in Küstengebieten). Konstrukteure sollten wahrscheinlich die mit ihnen verbundenen Risiken berücksichtigen und ein geeignetes unterbrechungsfreies Stromversorgungssystem aufbauen. Oder wählen Sie zumindest einen geeigneteren Ort für das Rechenzentrum als das Hochhaus auf der Insel.


Alles andere


Das Uptime Institute unterscheidet verschiedene Vorfälle in diese Kategorie, von denen es schwierig ist, einen typischen auszuwählen. Diebstahl von Kupferkabeln, die in das Rechenzentrum krachen, Kraftübertragungstürme und Umspannwerke, Brände, Bagger, die die Optik verderben, Nagetiere (Ratten, Kaninchen und sogar Wombats, die im Allgemeinen Beuteltieren gehören) sowie Amateure, um das Schießen auf Drähte zu üben - die Speisekarte ist umfangreich . Stromausfälle können sogar durch eine Energie stehlende illegale Marihuana-Plantage verursacht werden. In den meisten Fällen handelt es sich bei den Tätern des Vorfalls um bestimmte Personen. Das heißt, wir beschäftigen uns erneut mit dem menschlichen Faktor, wenn das Problem einen Vor- und Nachnamen hat. Auch wenn der Unfall auf den ersten Blick mit einer technischen Störung oder Naturkatastrophen verbunden ist, kann er vermieden werden, wenn die Anlage ordnungsgemäß ausgelegt und ordnungsgemäß betrieben wird. Die einzigen Ausnahmen sind Fälle kritischer Schäden an der Rechenzentrumsinfrastruktur oder die Zerstörung von Gebäuden und Strukturen aufgrund von Naturkatastrophen. Dies sind wirklich Umstände höherer Gewalt, und alle anderen Probleme werden durch das Verlegen zwischen Computer und Stuhl verursacht - vielleicht ist dies der unzuverlässigste Teil eines komplexen Systems.

Source: https://habr.com/ru/post/de452962/


All Articles