O tópico de acidentes graves nos data centers modernos levanta questões que não foram respondidas no primeiro artigo - decidimos desenvolvê-lo.

Segundo as estatísticas do Uptime Institute, a maioria dos incidentes nos datacenters está conectada a falhas no sistema de fornecimento de energia - eles respondem por 39% dos incidentes. Eles são seguidos pelo fator humano - este é mais 24% dos acidentes. O terceiro motivo mais importante (15%) foi a falha do sistema de ar condicionado e o quarto lugar (12%) foram desastres naturais. A participação total de outros problemas é de apenas 10%. Sem questionar os dados de uma organização respeitável, destacamos algo comum em diferentes acidentes e tentamos entender se era possível evitá-los. Spoiler: possível na maioria dos casos.
Contato Ciência
Em termos simples, existem apenas dois problemas com a fonte de alimentação: ou não há contato onde deveria estar ou é onde não deveria haver contato. Você pode conversar por um longo tempo sobre a confiabilidade dos sistemas modernos de fonte de alimentação ininterrupta, mas eles nem sempre economizam. Tomemos, por exemplo, o caso sensacional de um data center usado pela British Airways, de propriedade da empresa controladora International Airlines Group. Existem duas dessas instalações perto do Aeroporto de Heathrow - Boadicea House e Comet House. No primeiro deles, em 27 de maio de 2017, ocorreu uma queda de energia acidental, que levou a uma sobrecarga e uma falha no sistema UPS. Como resultado, parte do equipamento de TI foi fisicamente danificado e levou três dias para resolver o último acidente.
As companhias aéreas tiveram que cancelar ou reprogramar mais de mil voos, cerca de 75 mil passageiros não puderam voar pontualmente - US $ 128 milhões foram gastos em compensação, sem contar os data centers de custo necessários para restaurar a funcionalidade. A história das razões do apagão é incompreensível. Se você acredita nos resultados da investigação interna, proferida pelo Diretor Geral do Grupo International Airlines, Willie Walsh, ocorreu devido a um erro dos engenheiros. No entanto, o sistema de fonte de alimentação ininterrupta teve que suportar tal desligamento - para isso, foi montado. O data center foi gerenciado por especialistas da empresa de terceirização CBRE Managed Services, de modo que a British Airways tentou recuperar a quantidade de danos através de um tribunal de Londres.

As falhas de energia ocorrem de acordo com cenários semelhantes: primeiro, a falha é causada por falha do fornecedor de eletricidade, às vezes devido a intempéries ou problemas internos (incluindo erros de pessoal) e, em seguida, o sistema de fonte de alimentação ininterrupto não consegue lidar com a carga ou uma interrupção curta no senoide faz com que muitos serviços falhem. restauração da saúde que deixa a inovação de tempo e dinheiro. É possível evitar esses acidentes? Claro. Se você projetar o sistema corretamente, no entanto, mesmo os criadores de grandes centros de dados não ficam imunes a erros.
Fator humano
Quando a causa direta de um incidente são as ações erradas da equipe do data center, os problemas geralmente afetam (mas nem sempre) a parte do software da infraestrutura de TI. Tais acidentes ocorrem mesmo em grandes corporações. Em fevereiro de 2017, devido a um membro digitado incorretamente da equipe de manutenção técnica de uma das equipes do data center, alguns servidores da Amazon Web Services foram desconectados. Ocorreu um erro ao depurar o processo de cobrança para clientes em nuvem do Amazon Simple Storage Service (S3). O funcionário tentou remover um certo número de servidores virtuais usados pelo sistema de cobrança, mas tocou em um cluster maior.

Como resultado do erro do engenheiro, os servidores nos quais os importantes módulos de software de armazenamento em nuvem da Amazon estavam em execução foram excluídos. Primeiro, o subsistema de indexação foi danificado, contendo informações sobre os metadados e a localização de todos os objetos S3 na região dos EUA US-EAST-1. O incidente também afetou o subsistema usado para armazenar dados e gerenciar o espaço de armazenamento disponível. Após a remoção das máquinas virtuais, esses dois subsistemas exigiram uma reinicialização completa e, em seguida, os engenheiros da Amazon ficaram surpresos pelo fato de, por um longo período, o armazenamento em nuvem pública não poder atender às solicitações dos clientes.
O efeito foi generalizado, pois muitos recursos grandes usam o Amazon S3. O mau funcionamento afetou Trello, Coursera, IFTTT e, o que é mais desagradável, os serviços de grandes parceiros amazônicos da lista do S&P 500. Nesses casos, não é fácil contar os danos, mas seu pedido foi da ordem de centenas de milhões de dólares. Como você pode ver, para desativar o serviço da maior plataforma em nuvem, basta uma equipe errada. Não é um caso isolado, em 16 de maio de 2019, durante o trabalho de manutenção, o Yandex. O serviço em nuvem excluiu as máquinas virtuais de usuários na zona ru-central1-c que estavam pelo menos uma vez no status SUSPENDED. Aqui, os dados do cliente já foram afetados, alguns dos quais foram irremediavelmente perdidos. Obviamente, as pessoas são imperfeitas, mas os sistemas modernos de segurança da informação há muito conseguem controlar as ações de usuários privilegiados antes de executar os comandos que inserem. Se você implementar essas soluções no Yandex ou na Amazon, esses incidentes poderão ser evitados.

Arrefecimento congelado
Em janeiro de 2017, ocorreu um acidente grave no data center de Megafon em Dmitrov. Então, a temperatura na região de Moscou caiu para -35 ° C, o que levou à falha do sistema de refrigeração da instalação. O serviço de imprensa da operadora não falou particularmente sobre as causas do incidente - as empresas russas estão extremamente relutantes em falar sobre acidentes em suas instalações, em termos de publicidade, estamos muito atrás do Ocidente. Nas redes sociais, havia uma versão sobre o congelamento do líquido de arrefecimento nos canos colocados ao longo da rua e o vazamento de etileno glicol. Se você acredita nela, o serviço de operação não poderia, devido às longas férias, receber imediatamente 30 toneladas de refrigerante e sair usando meios improvisados, organizando um freecooling improvisado, violando as regras de operação do sistema. O frio severo agravou o problema - em janeiro, o inverno aconteceu repentinamente na Rússia, embora ninguém o estivesse esperando. Como resultado, a equipe teve que desenergizar parte dos racks do servidor, devido aos quais alguns serviços da operadora ficaram indisponíveis por dois dias.

Provavelmente, aqui você pode falar sobre a anomalia climática, mas essas geadas não são incomuns para a região da capital. A temperatura do inverno na região de Moscou pode cair para níveis mais baixos, então os data centers são construídos com a expectativa de operação estável a -42 ° . Na maioria das vezes, os sistemas de resfriamento em clima frio falham devido a uma concentração insuficientemente alta de glicóis e excesso de água na solução de refrigeração. Existem problemas com a instalação de tubos ou com erros de cálculo no projeto e teste do sistema, associados principalmente ao desejo de economizar. Como resultado, um acidente grave acontece do nada, o que poderia muito bem ser evitado.
Desastres naturais
Na maioria das vezes, tempestades e / ou furacões interrompem o trabalho da infraestrutura de engenharia do data center, o que leva ao desligamento dos serviços e / ou danos físicos ao equipamento. Incidentes causados por mau tempo ocorrem com bastante frequência. Em 2012, o furacão Sandy varreu a costa oeste dos EUA com fortes chuvas. Localizado em um prédio alto na parte baixa de Manhattan, o data center Peer 1 perdeu sua fonte de alimentação externa depois que a água salgada inundou os porões. Os geradores de emergência da instalação estavam localizados no 18º andar e seu suprimento de combustível era limitado - as regras introduzidas em Nova York após os ataques de 11 de setembro proíbem o armazenamento de grandes quantidades de combustível nos andares superiores.
A bomba de combustível também falhou, porque a equipe por vários dias arrastou o diesel dos geradores manualmente. O heroísmo da equipe salvou o data center de um acidente grave, mas era tão necessário? Vivemos em um planeta com uma atmosfera de nitrogênio-oxigênio e muita água. Tempestades e furacões aqui são comuns (especialmente em áreas costeiras). Os projetistas provavelmente devem levar em consideração os riscos associados a eles e criar um sistema de fonte de alimentação ininterrupta apropriado. Ou pelo menos escolha um local mais adequado para o data center do que os arranha-céus da ilha.
Todo o resto
O Uptime Institute distingue vários incidentes nessa categoria, entre os quais é difícil escolher um típico. Roubo de cabos de cobre colidindo com o data center, torres de transmissão de energia e subestações de transformadores carros, incêndios, escavadeiras estragando a ótica, roedores (ratos, coelhos e até wombats, que geralmente pertencem a marsupiais), bem como amadores para praticar tiro em fios - o menu é amplo . A falta de energia pode até ser causada por uma plantação ilegal de maconha que rouba energia. Na maioria dos casos, os autores do incidente são pessoas específicas, ou seja, estamos novamente lidando com o fator humano quando o problema tem nome e sobrenome. Mesmo que, à primeira vista, o acidente esteja associado a um mau funcionamento técnico ou desastres naturais, isso pode ser evitado se a instalação for projetada e operada adequadamente. As únicas exceções são os casos de danos críticos à infraestrutura do data center ou a destruição de edifícios e estruturas devido a desastres naturais. Essas são realmente circunstâncias de força maior e todos os outros problemas são causados pela deposição entre o computador e a cadeira - talvez essa seja a parte mais não confiável de qualquer sistema complexo.