Moderne Rechenzentren sind zuverlÀssig, aber jedes GerÀt fÀllt von Zeit zu Zeit aus. In einer kurzen Notiz haben wir die wichtigsten VorfÀlle von 2018 gesammelt.
Die Auswirkungen digitaler Technologien auf die Wirtschaft nehmen zu, das Volumen verarbeiteter Informationen nimmt zu, neue Einrichtungen werden gebaut, und das ist gut so, wÀhrend alles funktioniert. Leider haben auch die Auswirkungen von Störungen in Rechenzentren auf die Wirtschaft zugenommen, seit Menschen damit begonnen haben, geschÀftskritische IT-Infrastrukturen in diese einzubauen - dies ist die unvermeidliche Folge der Digitalisierung. Wir veröffentlichen eine kleine Auswahl der auffÀlligsten UnfÀlle, die sich im letzten Jahr in verschiedenen LÀndern ereignet haben.
Die USA
Dieses Land ist ein anerkannter MarktfĂŒhrer im Bereich des Aufbaus von Rechenzentren. Die Vereinigten Staaten haben die gröĂte Anzahl groĂer Handels- und Unternehmensdatenzentren, die globale Dienste anbieten, und daher sind die Folgen von VorfĂ€llen in ihnen am bedeutendsten. Anfang MĂ€rz waren vier Equinix-Betreiberanlagen aufgrund eines starken Zyklons mit StromausfĂ€llen konfrontiert. Die Bereiche wurden fĂŒr GerĂ€te von Amazon Web Services (AWS) verwendet. Der Unfall fĂŒhrte dazu, dass viele beliebte Dienste nicht mehr erreichbar waren: GitHub, MongoDB, NewVoiceMedia, Slack, Zillow, Atlassian, Twilio und mCapital One sowie der virtuelle Assistent von Amazon Alexa wurden verletzt.
Im September wurden die Microsoft-Rechenzentren in Texas von Wetteranomalien heimgesucht. Aufgrund eines Gewitters wurde das Stromversorgungssystem der gesamten Region unterbrochen, und im Rechenzentrum, das von der DGU auf Strom umgestellt wurde, ist nicht bekannt, warum die KĂŒhlung ausgeschaltet wurde. Es dauerte mehrere Tage, um die Folgen des Unfalls zu beseitigen, und obwohl dieser Fehler aufgrund des Lastausgleichs nicht kritisch war, stellten Benutzer auf der ganzen Welt eine leichte Verlangsamung der Microsoft Cloud-Dienste fest.
Russland
Der schwerste Unfall ereignete sich am 20. August in einem der Rechenzentren von Rostelecom. Aus diesem Grund wurden die Server des Unified State Register of Real Estate fĂŒr 66 Stunden angehalten und mussten daher an den Sicherungsstandort ĂŒbertragen werden. Rosreestr konnte erst am 3. September die Bearbeitung der ĂŒber alle KanĂ€le eingegangenen AntrĂ€ge wiederherstellen. Die staatliche Organisation versucht, eine groĂe Summe von Rostelecom wegen VerstoĂes gegen das Service Level Agreement zurĂŒckzugewinnen.
Am 16. Februar wurde aufgrund von Problemen in den Netzen von Lenenergo im Rechenzentrum des Unternehmens Xelnet (St. Petersburg) ein Notstromversorgungssystem eingeschaltet. Eine kurze Unterbrechung der Sinuskurve fĂŒhrte zu Betriebsstörungen vieler Dienste: Sie betraf insbesondere den groĂen Cloud-Anbieter 1cloud. Das auffĂ€lligste Problem fĂŒr das russische Internetpublikum war jedoch die UnfĂ€higkeit, auf die Website des sozialen Netzwerks VKontakte zuzugreifen. Das Interessanteste ist, dass es ungefĂ€hr 12 Stunden gedauert hat, um die Folgen eines kurzfristigen Stromausfalls vollstĂ€ndig zu beseitigen.
Die EuropÀische Union
In der EU wurden 2018 mehrere schwerwiegende ZwischenfĂ€lle registriert. Im MĂ€rz trat im Rechenzentrum des KLM-Luftfahrtunternehmens ein Fehler auf: Die Stromversorgung wurde fĂŒr 10 Minuten unterbrochen, und die KapazitĂ€t der Dieselaggregate war fĂŒr den Betrieb der GerĂ€te nicht ausreichend. Einige der Server wurden getrennt, und die Fluggesellschaften mussten mehrere Dutzend FlĂŒge stornieren oder verschieben.
Dies ist nicht der einzige Unfall im Zusammenhang mit dem Luftverkehr. Bereits im April ist das Stromversorgungssystem des Eurocontrol-Rechenzentrums ausgefallen. Die Organisation kontrolliert die Bewegung von Flugzeugen in der EuropĂ€ischen Union, und wĂ€hrend Spezialisten die Folgen des Unfalls 5 Stunden lang beseitigten, mussten die Passagiere erneut VerspĂ€tungen und umgeplante FlĂŒge ertragen.
Sehr schwerwiegende Probleme entstehen durch UnfĂ€lle in Rechenzentren, die den Finanzsektor bedienen. Die Kosten fĂŒr Unterbrechungen bei der DurchfĂŒhrung von Transaktionen sind hier normalerweise hoch, und die ZuverlĂ€ssigkeit der Objekte ist angemessen, dies spart jedoch nicht vor ZwischenfĂ€llen. Am 18. April konnte die Nordische NASDAQ-Börse (Helsinki, Finnland) tagsĂŒber nicht in ganz Nordeuropa bieten, da im kommerziellen Rechenzentrum DigiPlex, das versehentlich stromlos war, ein Gas-Feuerlöschsystem unbefugt eingefĂŒhrt wurde.
Am 7. Juni zwangen Betriebsunterbrechungen des Rechenzentrums die Londoner Börse (London Stock Exchange, LSE), den Handelsbeginn um eine Stunde zu verschieben. DarĂŒber hinaus wurden im Juni in Europa aufgrund einer Fehlfunktion im Rechenzentrum die Dienste des internationalen Zahlungssystems VISA fĂŒr den gesamten Tag unterbrochen und die Einzelheiten des Vorfalls nicht bekannt gegeben.
Japan
Im Sommer 2018 brach in den unterirdischen Ebenen des im Bau befindlichen Amazon-Rechenzentrums in Tokio ein Brand aus, bei dem 5 Arbeiter starben und mindestens 50 verletzt wurden. Der Brand beschĂ€digte etwa 5.000 m 2 des BetriebsgelĂ€ndes. Die Untersuchung ergab, dass der Faktor Mensch zur Brandursache wurde: Aufgrund des unachtsamen Umgangs mit Acetylenbrennern entzĂŒndete sich die Isolierung.
Fehlerursachen
Die obige Liste der VorfĂ€lle ist bei weitem nicht vollstĂ€ndig, da UnfĂ€lle in Rechenzentren, Kunden von Banken und Telekommunikationsbetreibern leiden, zu Offline-Diensten von Cloud-Anbietern gehen und sogar die Arbeit von Rettungsdiensten gestört wird. Eine kleine Betriebsunterbrechung kann zu schwerwiegenden Verlusten fĂŒhren, wĂ€hrend laut Uptime Institute die meisten AusfĂ€lle (39%) mit dem Stromversorgungssystem zusammenhĂ€ngen. An zweiter Stelle (24%) steht der Faktor Mensch und an dritter Stelle (15%) steht die Klimaanlage. Nur 12% der UnfĂ€lle in Rechenzentren sind auf den Anteil natĂŒrlicher PhĂ€nomene zurĂŒckzufĂŒhren, und nur 10% von ihnen ereignen sich aus anderen als den aufgefĂŒhrten GrĂŒnden.
Trotz der strengen Standards fĂŒr ZuverlĂ€ssigkeit und Sicherheit ist kein einziger Gegenstand gegen ZwischenfĂ€lle versichert. Die meisten von ihnen sind auf StromausfĂ€lle oder Personalfehler zurĂŒckzufĂŒhren. Diese beiden Faktoren sollten vor allem den EigentĂŒmern von Rechenzentren und ServerrĂ€umen berĂŒcksichtigt werden, und die Kunden sollten verstehen: Selbst MarktfĂŒhrer können keine absolute ZuverlĂ€ssigkeit garantieren. Wenn GerĂ€te oder ein Cloud-Service geschĂ€ftskritische Prozesse bedienen, sollten Sie einen Sicherungsstandort in Betracht ziehen.
Fotoquelle: telecombloger.ru