Acidentes graves em data centers: causas e efeitos

Os data centers modernos são confiáveis, mas qualquer equipamento é interrompido de tempos em tempos. Em uma breve nota, coletamos os incidentes mais significativos de 2018.



O impacto das tecnologias digitais na economia está crescendo, o volume de informações processadas está aumentando, novas instalações estão sendo construídas e isso é bom, enquanto tudo funciona. Infelizmente, o impacto de interrupções nos data centers na economia também aumentou desde que as pessoas começaram a colocar uma infraestrutura de TI crítica aos negócios - essa é a conseqüência inevitável da digitalização. Publicamos uma pequena seleção dos acidentes mais notáveis ​​que ocorreram em diferentes países no ano passado.



EUA


Este país é um líder reconhecido no campo da construção de data centers. Os Estados Unidos têm o maior número de grandes data centers comerciais e corporativos que atendem a serviços globais, porque as conseqüências dos incidentes são mais significativas. No início de março, devido a um ciclone poderoso, quatro instalações de operação da Equinix enfrentaram quedas de energia. As áreas foram usadas para o equipamento Amazon Web Services (AWS), o acidente levou à inacessibilidade de muitos serviços populares: GitHub, MongoDB, NewVoiceMedia, Slack, Zillow, Atlassian, Twilio e mCapital One, além do assistente virtual do Amazon Alexa.


Em setembro, as anomalias climáticas atingiram os data centers da Microsoft localizados no Texas; depois, devido a uma tempestade, o sistema de fornecimento de energia de toda a região foi interrompido e, no data center ligado à DGU, a energia da DGU não é conhecida por que o resfriamento foi desligado. Demorou vários dias para eliminar as consequências do acidente e, embora devido ao balanceamento de carga, essa falha não tenha sido crítica, os usuários em todo o mundo notaram uma ligeira desaceleração nos serviços em nuvem da Microsoft.


Rússia


O acidente mais grave ocorreu em 20 de agosto em um dos data centers da Rostelecom. Por causa disso, os servidores do Registro Estadual Unificado de Imóveis pararam por 66 horas e, portanto, tiveram que ser transferidos para o site de backup. A Rosreestr conseguiu restaurar o processamento de aplicativos recebidos em todos os canais em 3 de setembro - a organização estadual está tentando recuperar uma grande quantia da Rostelecom por violar o contrato de nível de serviço.


Em 16 de fevereiro, devido a problemas nas redes da Lenenergo, um sistema de fonte de alimentação de backup foi ativado no data center da empresa Xelnet (São Petersburgo). Uma curta interrupção do senoide levou a interrupções no trabalho de muitos serviços: em particular, o grande provedor de nuvem 1cloud sofreu, mas o problema mais notável para o público russo na Internet foi a incapacidade de acessar o site da rede social VKontakte. O mais interessante é que foram necessárias 12 horas para eliminar completamente as consequências de uma falha de energia a curto prazo.


União Européia


Na UE em 2018, foram registrados vários incidentes graves. Em março, ocorreu uma falha no datacenter da transportadora aérea KLM: a fonte de alimentação foi cortada por 10 minutos e a capacidade dos grupos geradores a diesel era insuficiente para o equipamento operar. Alguns dos servidores foram desconectados e as companhias aéreas tiveram que cancelar ou adiar várias dezenas de voos.


Este não é o único acidente relacionado ao transporte aéreo - já em abril, ocorreu uma falha no sistema de fornecimento de energia do data center do Eurocontrol. A organização controla o movimento de aeronaves na União Européia e, enquanto especialistas eliminaram as consequências do acidente por 5 horas, os passageiros novamente tiveram que suportar atrasos e vôos remarcados.


Problemas muito sérios surgem devido a acidentes em data centers que atendem ao setor financeiro. O custo de interrupções na condução de transações aqui geralmente é alto, e o nível de confiabilidade dos objetos é apropriado, mas isso não salva os incidentes. Em 18 de abril, a Nordic NASDAQ Stock Exchange (Helsinque, Finlândia) não pôde concorrer no Norte da Europa durante o dia devido ao lançamento não autorizado de um sistema de extinção de incêndios a gás no data center comercial DigiPlex, que foi acidentalmente desenergizado.


Em 7 de junho, as interrupções do data center forçaram a London Stock Exchange (LSE) a adiar o início das negociações em uma hora. Além disso, em junho na Europa, devido a um mau funcionamento do data center, os serviços do sistema internacional de pagamentos VISA foram desconectados durante todo o dia e os detalhes do incidente não foram divulgados.


Japão


No verão de 2018, ocorreu um incêndio nos níveis subterrâneos do data center da Amazon em construção em Tóquio, no qual 5 trabalhadores morreram e pelo menos 50 ficaram feridos.O dano danificou cerca de 5.000 m 2 das instalações da instalação. A investigação mostrou que o fator humano se tornou a causa do incêndio: devido ao manuseio descuidado dos queimadores de acetileno, o isolamento se acendeu.


Causas de falhas


A lista acima de incidentes está longe de estar completa, devido a acidentes em datacenters, clientes de bancos e operadoras de telecomunicações sofrem, acessam serviços offline de provedores de nuvem e até o trabalho dos serviços de emergência é interrompido. Uma pequena interrupção no serviço pode levar a sérias perdas, enquanto, segundo o Uptime Institute, a maioria das falhas (39%) está associada ao sistema de fornecimento de energia. Em segundo lugar (24%) é o fator humano e em terceiro (15%) é o sistema de ar condicionado. Apenas 12% dos acidentes nos data centers podem ser atribuídos a fenômenos naturais e apenas 10% deles ocorrem por outros motivos que não os listados.


Apesar dos rígidos padrões de confiabilidade e segurança, nenhum objeto está seguro contra incidentes. A maioria deles ocorre devido a falhas de energia ou erros de pessoal. Esses dois fatores devem, em primeiro lugar, prestar atenção aos proprietários de data centers e salas de servidores, e os clientes devem entender: mesmo os líderes de mercado não podem garantir confiabilidade absoluta. Se o equipamento ou um serviço de nuvem atender a processos críticos de negócios, considere um site de backup.


Fonte da foto: telecombloger.ru

Source: https://habr.com/ru/post/pt451834/


All Articles