Accidents majeurs dans les centres de données: causes et effets

Les centres de données modernes sont fiables, mais tout équipement se casse de temps en temps. Dans une courte note, nous avons collecté les incidents les plus significatifs de 2018.



L'impact des technologies numériques sur l'économie augmente, les volumes d'informations traitées augmentent, de nouvelles installations sont en construction, et c'est bien, alors que tout fonctionne. Malheureusement, l'impact des perturbations des centres de données sur l'économie a également augmenté depuis que les gens ont commencé à y placer une infrastructure informatique critique - c'est la conséquence inévitable de la numérisation. Nous publions une petite sélection des accidents les plus notables survenus dans différents pays l'année dernière.



Les USA


Ce pays est un leader reconnu dans le domaine de la construction de centres de données. Les États-Unis ont le plus grand nombre de grands centres de données commerciaux et d'entreprise desservant des services mondiaux, et donc les conséquences des incidents en eux sont les plus importantes. Début mars, en raison d'un puissant cyclone, quatre opérateurs d'Equinix ont été confrontés à des pannes de courant. Les zones ont été utilisées pour l'équipement Amazon Web Services (AWS), l'accident a entraîné l'inaccessibilité de nombreux services populaires: GitHub, MongoDB, NewVoiceMedia, Slack, Zillow, Atlassian, Twilio et mCapital One, ainsi que l'assistant virtuel Amazon Alexa ont été blessés.


En septembre, des anomalies météorologiques ont frappé les centres de données Microsoft situés au Texas; puis, en raison d'un orage, le système d'alimentation électrique de toute la région a été perturbé et, dans le centre de données, alimenté par la DGU, on ne sait pas pourquoi le refroidissement s'est arrêté. Il a fallu plusieurs jours pour éliminer les conséquences de l'accident, et bien que, en raison de l'équilibrage de charge, cette défaillance n'ait pas été critique, les utilisateurs du monde entier ont remarqué un léger ralentissement des services cloud de Microsoft.


La russie


L'accident le plus grave s'est produit le 20 août dans l'un des centres de données de Rostelecom. À cause de cela, les serveurs du Registre d'État unifié de l'immobilier se sont arrêtés pendant 66 heures et ont donc dû être transférés sur le site de sauvegarde. Rosreestr n'a pu restaurer le traitement des demandes reçues par tous les canaux que le 3 septembre - l'organisation publique tente de récupérer une grosse somme auprès de Rostelecom pour avoir violé l'accord de niveau de service.


Le 16 février, en raison de problèmes dans les réseaux de Lenenergo, un système d'alimentation de secours a été mis en marche dans le centre de données de la société Xelnet (Saint-Pétersbourg). Une courte interruption de la sinusoïde a entraîné des perturbations dans le travail de nombreux services: en particulier, le grand fournisseur de cloud 1cloud a souffert, mais le problème le plus notable pour le public Internet russe était l'incapacité d'accéder au site du réseau social VKontakte. La chose la plus intéressante est qu'il a fallu environ 12 heures pour éliminer complètement les conséquences d'une panne de courant à court terme.


L'Union européenne


Dans l'UE en 2018, plusieurs incidents graves ont été enregistrés. En mars, une panne s'est produite dans le centre de données du transporteur aérien KLM: l'alimentation a été coupée pendant 10 minutes et la capacité des groupes électrogènes diesel était insuffisante pour que l'équipement fonctionne. Certains serveurs ont été déconnectés et les compagnies aériennes ont dû annuler ou reporter plusieurs dizaines de vols.


Ce n'est pas le seul accident lié au transport aérien - déjà en avril, une panne s'est produite dans le système d'alimentation électrique du centre de données Eurocontrol. L'organisation contrôle les mouvements des avions dans l'Union européenne, et alors que les spécialistes ont éliminé les conséquences de l'accident pendant 5 heures, les passagers ont de nouveau dû subir des retards et reprogrammer les vols.


De très graves problèmes surviennent en raison d'accidents dans des centres de données desservant le secteur financier. Le coût des interruptions dans la réalisation des transactions ici est généralement élevé et le niveau de fiabilité des objets est approprié, mais cela ne permet pas d'économiser des incidents. Le 18 avril, la Bourse nordique NASDAQ (Helsinki, Finlande) n'a pas pu soumissionner dans toute l'Europe du Nord pendant la journée en raison du lancement non autorisé d'un système d'extinction d'incendie à gaz dans le centre de données commercial DigiPlex, qui a été accidentellement mis hors tension.


Le 7 juin, des interruptions dans le fonctionnement du centre de données ont contraint la Bourse de Londres (London Stock Exchange, LSE) à retarder le début de la négociation d'une heure. En outre, en juin en Europe, en raison d'un dysfonctionnement du centre de données, les services du système de paiement international VISA ont été déconnectés toute la journée et les détails de l'incident n'ont pas été dévoilés.


Japon


À l'été 2018, un incendie s'est déclaré aux niveaux souterrains du centre de données d'Amazon en construction à Tokyo, dans lequel 5 travailleurs sont morts et au moins 50 ont été blessés. L'incendie a endommagé environ 5 000 m 2 des locaux de l'installation. L'enquête a montré que le facteur humain est devenu la cause de l'incendie: en raison d'une manipulation imprudente des brûleurs à acétylène, l'isolation s'est allumée.


Causes des échecs


La liste d'incidents ci-dessus est loin d'être complète, en raison d'accidents dans les centres de données, les clients des banques et des opérateurs de télécommunications souffrent, se tournent vers les services hors ligne des fournisseurs de cloud et même le travail des services d'urgence est perturbé. Une petite interruption de service peut entraîner de graves pertes, alors que, selon l'Uptime Institute, la majorité des pannes (39%) sont liées au système d'alimentation. En deuxième position (24%) est le facteur humain et en troisième (15%) est le système de climatisation. Seuls 12% des accidents dans les centres de données peuvent être attribués à la part des phénomènes naturels, et seulement 10% d'entre eux se produisent pour des raisons autres que celles énumérées.


Malgré les normes strictes de fiabilité et de sécurité, aucun objet n'est assuré contre les incidents. La plupart d'entre eux sont dus à des pannes de courant ou à des erreurs de personnel. Ces deux facteurs doivent tout d'abord être pris en compte par les propriétaires de centres de données et de salles de serveurs, et les clients doivent comprendre: même les leaders du marché ne peuvent garantir une fiabilité absolue. Si l'équipement ou un service cloud sert des processus critiques pour l'entreprise, vous devriez envisager un site de sauvegarde.


Source de la photo: telecombloger.ru

Source: https://habr.com/ru/post/fr451834/


All Articles