El tema de los accidentes graves en los centros de datos modernos plantea preguntas que no fueron respondidas en el primer artículo: decidimos desarrollarlo.

Según las estadísticas del Uptime Institute, la mayoría de los incidentes en los centros de datos están relacionados con fallas del sistema de suministro de energía: representan el 39% de los incidentes. Les sigue el factor humano: este es otro 24% de los accidentes. La tercera razón más importante (15%) fue la falla del sistema de aire acondicionado, y el cuarto lugar (12%) fueron los desastres naturales. La participación total de otros problemas es solo del 10%. Sin cuestionar los datos de una organización acreditada, destacamos algo común en diferentes accidentes y tratamos de entender si era posible evitarlos. Spoiler: posible en la mayoría de los casos.
Ciencia de contacto
En términos simples, solo hay dos problemas con la fuente de alimentación: o no hay contacto donde debería estar, o es donde no debería haber contacto. Puede hablar durante mucho tiempo sobre la fiabilidad de los sistemas modernos de suministro de energía ininterrumpible, pero no siempre ahorran. Tomemos, por ejemplo, el caso sensacional de un centro de datos utilizado por British Airways, propiedad de la compañía matriz International Airlines Group. Hay dos instalaciones de este tipo cerca del aeropuerto de Heathrow: Boadicea House y Comet House. En el primero de ellos, el 27 de mayo de 2017, se produjo un corte de energía accidental, que condujo a una sobrecarga y falla del sistema UPS. Como resultado, parte del equipo de TI se dañó físicamente y tardó tres días en resolver el último accidente.
Las aerolíneas tuvieron que cancelar o reprogramar más de mil vuelos, unos 75 mil pasajeros no pudieron volar a tiempo: se gastaron $ 128 millones en compensación, sin contar los centros de datos de costos que se necesitaban para restaurar la funcionalidad. La historia de los motivos del apagón es incomprensible. Si cree en los resultados de la investigación interna, expresada por el Director General de International Airlines Group, Willie Walsh, ocurrió debido a un error de los ingenieros. Sin embargo, el sistema de suministro de energía ininterrumpible tuvo que soportar tal apagado, para esto fue montado. El centro de datos fue administrado por especialistas de la empresa de outsourcing CBRE Managed Services, por lo que British Airways trató de recuperar la cantidad de daños a través de un tribunal de Londres.

Los apagones se producen de acuerdo con escenarios similares: primero, el apagón se debe a una falla del proveedor de electricidad, a veces debido a mal tiempo o problemas internos (incluidos errores de personal), y luego el sistema de suministro de energía ininterrumpido no puede hacer frente a la carga o una breve interrupción en la sinusoide hace que muchos servicios fallen, Restauración de la salud que deja el avance del tiempo y el dinero. ¿Es posible evitar tales accidentes? Por supuesto Sin embargo, si diseña el sistema correctamente, incluso los creadores de grandes centros de datos no son inmunes a los errores.
Factor humano
Cuando la causa directa de un incidente son las acciones incorrectas del personal del centro de datos, los problemas con mayor frecuencia (pero no siempre) afectan la parte del software de la infraestructura de TI. Tales accidentes ocurren incluso en grandes corporaciones. En febrero de 2017, debido a un miembro incorrectamente escrito del equipo de mantenimiento técnico de uno de los equipos del centro de datos, algunos servidores de Amazon Web Services se desconectaron. Se produjo un error al depurar el proceso de facturación para los clientes de la nube de Amazon Simple Storage Service (S3). El empleado intentó eliminar una cierta cantidad de servidores virtuales utilizados por el sistema de facturación, pero tocó un clúster más grande.

Como resultado del error del ingeniero, se eliminaron los servidores en los que se ejecutaban los importantes módulos de software de almacenamiento en la nube de Amazon. En primer lugar, el subsistema de indexación estaba dañado y contenía información sobre los metadatos y la ubicación de todos los objetos S3 en la región estadounidense US-EAST-1. El incidente también afectó el subsistema utilizado para almacenar datos y administrar el espacio de almacenamiento disponible. Después de la eliminación de las máquinas virtuales, estos dos subsistemas requirieron un reinicio completo, y luego los ingenieros de Amazon se sorprendieron por la sorpresa de que durante mucho tiempo el almacenamiento en la nube pública no pudo atender las solicitudes de los clientes.
El efecto fue generalizado, ya que muchos recursos grandes utilizan Amazon S3. Las fallas de funcionamiento afectaron a Trello, Coursera, IFTTT y, lo que es más desagradable, los servicios de los grandes socios de Amazon de la lista S&P 500. En tales casos, el daño no es fácil de contar, pero su orden fue de cientos de millones de dólares estadounidenses. Como puede ver, para deshabilitar el servicio de la plataforma en la nube más grande, solo un equipo equivocado es suficiente. Este no es un caso aislado, el 16 de mayo de 2019, durante el trabajo de mantenimiento, el servicio Yandex. Cloud eliminó las máquinas virtuales de los usuarios en la zona ru-central1-c que estaban al menos una vez en el estado SUSPENDIDO. Aquí, los datos del cliente ya se han visto afectados, algunos de los cuales se han perdido irremediablemente. Por supuesto, las personas son imperfectas, pero los sistemas modernos de seguridad de la información han podido controlar durante mucho tiempo las acciones de los usuarios privilegiados antes de ejecutar los comandos que ingresan. Si implementa tales soluciones en Yandex o Amazon, estos incidentes pueden evitarse.

Enfriamiento congelado
En enero de 2017, ocurrió un accidente importante en el centro de datos Dmitrov de Megafon. Luego, la temperatura en la región de Moscú cayó a -35 ° C, lo que provocó la falla del sistema de enfriamiento de la instalación. El servicio de prensa del operador no habló particularmente sobre las causas del incidente: las compañías rusas son extremadamente reacias a hablar sobre accidentes en sus instalaciones, en términos de publicidad, estamos muy por detrás de Occidente. En las redes sociales, había una versión sobre la congelación del refrigerante en las tuberías colocadas a lo largo de la calle y la fuga de etilenglicol. Si le cree, el servicio de operación no pudo, debido a las largas vacaciones, recibir de inmediato 30 toneladas de refrigerante y salió por medios improvisados, organizando una refrigeración libre improvisada en violación de las reglas para operar el sistema. El frío severo agravó el problema: en enero, el invierno sucedió repentinamente en Rusia, aunque nadie lo estaba esperando. Como resultado, el personal tuvo que desenergizar parte de los racks de servidores, debido a que algunos servicios del operador no estuvieron disponibles durante dos días.

Probablemente, aquí puede hablar sobre la anomalía climática, pero tales heladas no son inusuales para la región de la capital. La temperatura de invierno en la región de Moscú puede caer a niveles más bajos, por lo que los centros de datos se construyen con la expectativa de un funcionamiento estable a −42 ° . Muy a menudo, los sistemas de enfriamiento en clima frío fallan debido a una concentración insuficientemente alta de glicoles y exceso de agua en la solución de refrigerante. Hay problemas con la instalación de tuberías o con errores de cálculo en el diseño y prueba del sistema, asociados principalmente con el deseo de ahorrar. Como resultado, ocurre un accidente grave de la nada, que bien podría prevenirse.
Desastres naturales
Muy a menudo, las tormentas eléctricas y / o huracanes interrumpen el trabajo de la infraestructura de ingeniería del centro de datos, lo que conduce a la interrupción de los servicios y / o daños físicos a los equipos. Los incidentes causados por el mal tiempo ocurren con bastante frecuencia. En 2012, el huracán Sandy arrasó la costa occidental de los EE. UU. Con fuertes lluvias. Ubicado en un edificio de gran altura en el Bajo Manhattan, el centro de datos Peer 1 perdió su fuente de alimentación externa después de que el agua salada inundó los sótanos. Los generadores de emergencia de la instalación estaban ubicados en el piso 18, y su suministro de combustible era limitado: las reglas introducidas en Nueva York después de los ataques del 11 de septiembre prohíben almacenar grandes cantidades de combustible en los pisos superiores.
La bomba de combustible también falló, porque el personal durante varios días arrastró el diesel para los generadores manualmente. El heroísmo del equipo salvó al centro de datos de un accidente grave, pero ¿fue tan necesario? Vivimos en un planeta con una atmósfera de nitrógeno y oxígeno y mucha agua. Las tormentas eléctricas y los huracanes aquí son comunes (especialmente en las zonas costeras). Los diseñadores probablemente deberían tener en cuenta los riesgos asociados con ellos y construir un sistema de suministro de energía ininterrumpido apropiado. O al menos elija un lugar más adecuado para el centro de datos que el rascacielos de la isla.
Todo lo demás
El Uptime Institute distingue varios incidentes en esta categoría, entre los cuales es difícil elegir uno típico. Robo de cables de cobre que chocan contra el centro de datos, torres de transmisión de energía y subestaciones transformadoras de automóviles, incendios, excavadoras que estropean la óptica, roedores (ratas, conejos e incluso wombats, que generalmente pertenecen a marsupiales), así como aficionados para practicar disparando a los cables: el menú es extenso . Los cortes de energía pueden incluso ser causados por una plantación ilegal de marihuana que roba energía. En la mayoría de los casos, los autores del incidente son personas específicas, es decir, nuevamente estamos tratando con el factor humano cuando el problema tiene un nombre y un apellido. Incluso si a primera vista el accidente está asociado con un mal funcionamiento técnico o desastres naturales, se puede evitar si la instalación está diseñada y operada adecuadamente. Las únicas excepciones son los casos de daños críticos a la infraestructura del centro de datos o la destrucción de edificios y estructuras debido a desastres naturales. Estas son realmente circunstancias de fuerza mayor, y todos los demás problemas son causados por la colocación entre la computadora y la silla, tal vez esta es la parte más poco confiable de cualquier sistema complejo.