Accidentes mayores en centros de datos: causas y efectos

Los centros de datos modernos son confiables, pero cualquier equipo se rompe de vez en cuando. En una breve nota, recopilamos los incidentes más significativos de 2018.



El impacto de las tecnologías digitales en la economía está creciendo, los volúmenes de información procesada están aumentando, se están construyendo nuevas instalaciones, y esto es bueno, mientras todo funciona. Desafortunadamente, el impacto de las interrupciones en los centros de datos en la economía también ha aumentado desde que las personas comenzaron a colocar infraestructura de TI crítica para los negocios, esta es la consecuencia inevitable de la digitalización. Publicamos una pequeña selección de los accidentes más notables que ocurrieron en diferentes países el año pasado.



Los eeuu


Este país es un líder reconocido en el campo de la construcción de centros de datos. Estados Unidos tiene el mayor número de grandes centros de datos comerciales y corporativos que prestan servicios a nivel mundial y, por lo tanto, las consecuencias de los incidentes en ellos son más importantes. A principios de marzo, debido a un potente ciclón, cuatro instalaciones del operador Equinix enfrentaron cortes de energía. Las áreas se utilizaron para el equipo de Amazon Web Services (AWS), el accidente provocó la inaccesibilidad de muchos servicios populares: GitHub, MongoDB, NewVoiceMedia, Slack, Zillow, Atlassian, Twilio y mCapital One, así como el asistente virtual Amazon Alexa, resultaron heridos.


En septiembre, las anomalías climáticas afectaron a los centros de datos de Microsoft ubicados en Texas; luego, debido a una tormenta eléctrica, se interrumpió el sistema de suministro de energía de toda la región, y en el centro de datos cambió a la alimentación de la DGU, no se sabe por qué se apagó el enfriamiento. Se necesitaron varios días para eliminar las consecuencias del accidente, y aunque debido al equilibrio de carga este fallo no fue crítico, los usuarios de todo el mundo notaron una ligera desaceleración en los servicios en la nube de Microsoft.


Rusia


El accidente más grave ocurrió el 20 de agosto en uno de los centros de datos de Rostelecom. Debido a esto, los servidores del Registro Estatal Unificado de Bienes Raíces se detuvieron durante 66 horas y, por lo tanto, tuvieron que ser transferidos al sitio de respaldo. Rosreestr solo pudo restaurar el procesamiento de las solicitudes recibidas a través de todos los canales el 3 de septiembre: la organización estatal está tratando de recuperar una gran suma de Rostelecom por violar el acuerdo de nivel de servicio.


El 16 de febrero, debido a problemas en las redes de Lenenergo, se activó un sistema de alimentación de respaldo en el centro de datos de la compañía Xelnet (San Petersburgo). Una breve interrupción de la sinusoide provocó interrupciones en el trabajo de muchos servicios: en particular, el gran proveedor de nube 1cloud sufrió, pero el problema más notable para la audiencia de Internet rusa fue la incapacidad de acceder al sitio de red social VKontakte. Lo más interesante es que tomó alrededor de 12 horas eliminar por completo las consecuencias de una falla de energía a corto plazo.


La unión europea


En la UE en 2018, se registraron varios incidentes graves. En marzo, se produjo un fallo en el centro de datos de la compañía aérea KLM: la fuente de alimentación se cortó durante 10 minutos y la capacidad de los grupos electrógenos diesel era insuficiente para que el equipo funcionara. Algunos de los servidores se desconectaron y las aerolíneas tuvieron que cancelar o posponer varias docenas de vuelos.


Este no es el único accidente relacionado con el transporte aéreo: ya en abril, se produjo una falla en el sistema de suministro de energía del centro de datos Eurocontrol. La organización controla el movimiento de aeronaves en la Unión Europea, y aunque los especialistas eliminaron las consecuencias del accidente durante 5 horas, los pasajeros nuevamente tuvieron que soportar demoras y reprogramaron los vuelos.


Surgen problemas muy graves debido a accidentes en los centros de datos que sirven al sector financiero. El costo de las interrupciones en la realización de transacciones aquí es generalmente alto, y el nivel de confiabilidad de los objetos es apropiado, pero esto no salva de incidentes. El 18 de abril, la Bolsa de Valores Nórdica NASDAQ (Helsinki, Finlandia) no pudo ofertar en todo el norte de Europa durante el día debido al lanzamiento no autorizado de un sistema de extinción de incendios por gas en el centro de datos comercial DigiPlex, que se desenergizó accidentalmente.


El 7 de junio, las interrupciones en la operación del centro de datos obligaron a la Bolsa de Londres (London Stock Exchange, LSE) a retrasar el inicio de la negociación en una hora. Además, en junio en Europa, debido a un mal funcionamiento en el centro de datos, los servicios del sistema de pago internacional VISA se desconectaron durante todo el día y no se revelaron los detalles del incidente.


Japón


En el verano de 2018, se produjo un incendio en los niveles subterráneos del centro de datos de Amazon en construcción en Tokio, en el que murieron 5 trabajadores y al menos 50 resultaron heridos. El incendio dañó unos 5.000 m 2 de las instalaciones de la instalación. La investigación mostró que el factor humano se convirtió en la causa del incendio: debido al manejo descuidado de los quemadores de acetileno, el aislamiento se encendió.


Razones del fracaso


La lista anterior de incidentes está lejos de ser completa, debido a los accidentes en los centros de datos, los clientes de los bancos y los operadores de telecomunicaciones sufren, pasan a los servicios fuera de línea de los proveedores de la nube e incluso se interrumpe el trabajo de los servicios de emergencia. Una pequeña interrupción en el servicio puede ocasionar graves pérdidas, mientras que, según el Uptime Institute, la mayoría de las fallas (39%) están asociadas con el sistema de suministro de energía. En segundo lugar (24%) está el factor humano, y en tercer lugar (15%) está el sistema de aire acondicionado. Solo el 12% de los accidentes en los centros de datos se pueden atribuir a la proporción de fenómenos naturales, y solo el 10% de ellos ocurren por razones distintas a las mencionadas.


A pesar de los estrictos estándares de fiabilidad y seguridad, ni un solo objeto está asegurado contra incidentes. La mayoría de ellos se deben a fallas de energía o errores de personal. En primer lugar, se debe prestar atención a estos dos factores a los propietarios de centros de datos y salas de servidores, y los clientes deben comprender: incluso los líderes del mercado no pueden garantizar una fiabilidad absoluta. Si el equipo o un servicio en la nube atiende procesos críticos del negocio, debería considerar un sitio de respaldo.


Fuente de la foto: telecombloger.ru

Source: https://habr.com/ru/post/451834/


All Articles