La principale cause d'accidents dans les centres de données est la pose entre l'ordinateur et le fauteuil

Le sujet des accidents majeurs dans les datacenters modernes soulève des questions auxquelles le premier article n'a pas répondu - nous avons décidé de le développer.




Selon les statistiques de l'Uptime Institute, la plupart des incidents dans les centres de données sont liés à des défaillances du système d'alimentation - ils représentent 39% des incidents. Ils sont suivis par le facteur humain - c'est encore 24% des accidents. La troisième raison (15%) la plus importante était la défaillance du système de climatisation, et la quatrième place (12%) était les catastrophes naturelles. La part totale des autres problèmes n'est que de 10%. Sans remettre en question les données d'une organisation réputée, nous mettons en évidence quelque chose de commun dans différents accidents et essayons de comprendre s'il était possible de les éviter. Spoiler: possible dans la plupart des cas.


Contactez Science


En termes simples, il n'y a que deux problèmes avec l'alimentation: soit il n'y a pas de contact là où il devrait être, soit c'est là qu'il ne devrait pas y avoir de contact. Vous pouvez parler longtemps de la fiabilité des systèmes modernes d'alimentation sans coupure, mais ils n'économisent pas toujours. Prenons par exemple le cas sensationnel d'un centre de données utilisé par British Airways appartenant à la société mère International Airlines Group. Il y a deux de ces installations près de l'aéroport d'Heathrow - Boadicea House et Comet House. Dans le premier d'entre eux, le 27 mai 2017, une panne de courant accidentelle s'est produite, entraînant une surcharge et une panne du système UPS. En conséquence, une partie de l'équipement informatique a été physiquement endommagée et il a fallu trois jours pour résoudre le dernier accident.


Les compagnies aériennes ont dû annuler ou reprogrammer plus d'un millier de vols, environ 75 000 passagers n'ont pas pu voler à temps - 128 millions de dollars ont été dépensés en compensation, sans compter les coûts des centres de données nécessaires pour restaurer la fonctionnalité. L'histoire des raisons de la panne d'électricité est incompréhensible. Si vous croyez aux résultats de l'enquête interne, exprimée par le directeur général du groupe International Airlines, Willie Walsh, cela est dû à une erreur des ingénieurs. Néanmoins, le système d'alimentation sans coupure a dû résister à un tel arrêt - pour cela, il a été monté. Le centre de données était géré par des spécialistes de la société d'externalisation CBRE Managed Services, de sorte que British Airways a tenté de récupérer le montant des dommages par un tribunal de Londres.



Les pannes de courant se produisent selon des scénarios similaires: d'abord, la panne est due à la faute du fournisseur d'électricité, parfois en raison de mauvaises conditions météorologiques ou de problèmes internes (y compris des erreurs de personnel), puis le système d'alimentation sans coupure ne peut pas faire face à la charge ou une courte interruption de la sinusoïde entraîne l'échec de nombreux services, rétablissement de la santé qui laisse la percée du temps et de l'argent. Est-il possible d'éviter de tels accidents? Bien sûr. Si vous concevez le système correctement, cependant, même les créateurs de grands centres de données ne sont pas à l'abri des erreurs.


Facteur humain


Lorsque la cause directe d'un incident est les mauvaises actions du personnel du centre de données, les problèmes affectent le plus souvent (mais pas toujours) la partie logicielle de l'infrastructure informatique. De tels accidents se produisent même dans les grandes entreprises. En février 2017, en raison d'un membre mal tapé de l'équipe de maintenance technique de l'une des équipes du centre de données, certains serveurs Amazon Web Services ont été déconnectés. Une erreur s'est produite lors du débogage du processus de facturation pour les clients cloud Amazon Simple Storage Service (S3). L'employé a tenté de supprimer un certain nombre de serveurs virtuels utilisés par le système de facturation, mais a touché un cluster plus important.



En raison de l'erreur de l'ingénieur, les serveurs sur lesquels les modules logiciels de stockage cloud d'Amazon étaient exécutés ont été supprimés. Tout d'abord, le sous-système d'indexation a été endommagé, contenant des informations sur les métadonnées et l'emplacement de tous les objets S3 dans la région américaine US-EAST-1. L'incident a également affecté le sous-système utilisé pour stocker les données et gérer l'espace de stockage disponible. Après la suppression des machines virtuelles, ces deux sous-systèmes ont nécessité un redémarrage complet, puis les ingénieurs d'Amazon ont été surpris par le fait que pendant longtemps le stockage dans le cloud public ne pouvait pas répondre aux demandes des clients.


L'effet a été généralisé, car de nombreuses ressources importantes utilisent Amazon S3. Des dysfonctionnements ont affecté Trello, Coursera, IFTTT et, ce qui est le plus désagréable, les services de grands partenaires amazoniens de la liste S&P 500. Les dommages dans de tels cas ne sont pas faciles à compter, mais sa commande était de l'ordre de centaines de millions de dollars américains. Comme vous pouvez le voir, pour désactiver le service de la plus grande plateforme cloud, une seule mauvaise équipe suffit. Ce n'est pas un cas isolé, le 16 mai 2019, lors des travaux de maintenance, le service Yandex.Cloud a supprimé les machines virtuelles des utilisateurs de la zone ru-central1-c qui étaient au moins une fois dans l'état SUSPENDU. Ici, les données clients ont déjà été affectées, dont certaines ont été irrémédiablement perdues. Bien sûr, les gens sont imparfaits, mais les systèmes de sécurité de l'information modernes sont depuis longtemps capables de contrôler les actions des utilisateurs privilégiés avant d'exécuter les commandes qu'ils entrent. Si vous implémentez de telles solutions dans Yandex ou Amazon, de tels incidents peuvent être évités.



Refroidissement gelé


En janvier 2017, un accident majeur s'est produit dans le centre de données de Dmitrov à Megafon. Ensuite, la température dans la région de Moscou est tombée à -35 ° C, ce qui a entraîné la défaillance du système de refroidissement de l'installation. Le service de presse de l'opérateur n'a pas particulièrement évoqué les causes de l'incident - les entreprises russes sont extrêmement réticentes à parler des accidents survenus dans leurs locaux, en termes de publicité, nous sommes loin derrière l'Occident. Dans les réseaux sociaux, il y avait une version sur le gel du liquide de refroidissement dans les tuyaux posés le long de la rue et la fuite d'éthylène glycol. Si vous la croyez, le service d'exploitation n'a pas pu, en raison des longues vacances, recevoir rapidement 30 tonnes de liquide de refroidissement et en est sorti par des moyens improvisés, organisant un freecooling impromptu en violation des règles de fonctionnement du système. Le froid sévère a aggravé le problème - en janvier, l'hiver est soudainement arrivé en Russie, bien que personne ne l'attendait. En conséquence, le personnel a dû mettre hors tension une partie des racks de serveurs, raison pour laquelle certains services d'opérateur n'étaient pas disponibles pendant deux jours.



Vous pouvez probablement parler ici de l'anomalie météorologique, mais de telles gelées ne sont pas inhabituelles pour la région de la capitale. La température hivernale dans la région de Moscou peut chuter à des niveaux inférieurs, de sorte que les centres de données sont construits dans l'espoir d'un fonctionnement stable à −42 ° C. Le plus souvent, les systèmes de refroidissement par temps froid échouent en raison d'une concentration insuffisamment élevée de glycols et d'un excès d'eau dans la solution de refroidissement. Il y a des problèmes d'installation de tuyaux ou d'erreurs de calcul dans la conception et les tests du système, liés principalement au désir d'économiser. En conséquence, un accident grave se produit à l'improviste, ce qui pourrait bien être évité.


Catastrophes naturelles


Le plus souvent, des orages et / ou des ouragans perturbent le travail de l'infrastructure d'ingénierie du centre de données, ce qui entraîne une interruption des services et / ou des dommages physiques aux équipements. Les incidents causés par le mauvais temps se produisent assez souvent. En 2012, l'ouragan Sandy a balayé la côte ouest des États-Unis avec de fortes pluies. Situé dans un immeuble de grande hauteur dans le Lower Manhattan, le centre de données Peer 1 a perdu son alimentation électrique externe après que l'eau salée ait inondé les sous-sols. Les générateurs d'urgence de l'installation étaient situés au 18ème étage et leur approvisionnement en carburant était limité - les règles introduites à New York après les attentats du 11 septembre interdisent de stocker de grandes quantités de carburant dans les étages supérieurs.




La pompe à carburant est également tombée en panne, car le personnel a traîné manuellement pendant plusieurs jours le diesel des générateurs. L'héroïsme de l'équipe a sauvé le centre de données d'un grave accident, mais était-ce si nécessaire? Nous vivons sur une planète avec une atmosphère d'azote et d'oxygène et beaucoup d'eau. Les orages et les ouragans sont monnaie courante (en particulier dans les zones côtières). Les concepteurs devraient probablement prendre en compte les risques qui leur sont associés et construire un système d'alimentation électrique ininterrompu approprié. Ou du moins, choisissez un endroit plus approprié pour le centre de données que le gratte-ciel de l'île.


Tout le reste


L'Uptime Institute distingue divers incidents dans cette catégorie, parmi lesquels il est difficile de choisir un incident typique. Vol de câbles en cuivre s'écrasant sur le centre de données, les tours de transmission de puissance et les voitures des postes de transformation, incendies, excavatrices endommageant l'optique, rongeurs (rats, lapins et même wombats, qui appartiennent généralement à des marsupiaux), ainsi que des amateurs pour pratiquer le tir sur fils - le menu est vaste . Des coupures de courant peuvent même être causées par une plantation illégale de marijuana voleuse d' énergie. Dans la plupart des cas, les auteurs de l'incident sont des personnes spécifiques, c'est-à-dire que nous avons à nouveau affaire au facteur humain lorsque le problème a un nom et un prénom. Même si à première vue l'accident est associé à un dysfonctionnement technique ou à des catastrophes naturelles, il peut être évité si l'installation est correctement conçue et correctement exploitée. Les seules exceptions sont les cas de dommages critiques à l'infrastructure du centre de données ou de destruction de bâtiments et de structures en raison de catastrophes naturelles. Ce sont vraiment des circonstances de force majeure, et tous les autres problèmes sont causés par la pose entre l'ordinateur et le fauteuil - c'est peut-être la partie la moins fiable de tout système complexe.

Source: https://habr.com/ru/post/fr452962/


All Articles