Há um ano, os data centers mundiais
consumiam 2% de toda a eletricidade gerada no planeta. Segundo analistas, esse número crescerá para 5% até 2020. Além disso, cerca de metade de toda essa energia
é gasta no resfriamento. Esses custos são projetados para reduzir os sistemas de IA.
Hoje falaremos sobre os últimos desenvolvimentos nesta área.
/ photo Arquivo Nacional (Reino Unido) CCProjeto do Google
Em 2016, o DeepMind e o Google
desenvolveram um sistema de inteligência artificial que monitora os componentes individuais do data center. Ela deu aos administradores do data center recomendações sobre como otimizar o consumo de energia dos servidores. A solução permitiu reduzir os custos de energia para a operação de sistemas de refrigeração em 40% e o coeficiente de
PUE em 15%.
De acordo com os operadores do data center, as dicas dos algoritmos das máquinas foram úteis no trabalho, mas demorou muito tempo para processá-las. Portanto, Dan Fuenffinger (Dan Fuenffinger), um dos engenheiros do Google,
propôs transferir completamente o controle inteligente dos sistemas de ar condicionado. Isso deveria ter aliviado os operadores do data center, pois eles precisariam apenas ajustar e controlar todo o processo.
Nos dois anos seguintes, a empresa melhorou seu sistema de IA e agora
gerencia totalmente
o resfriamento das salas de servidores. Por exemplo, o algoritmo da máquina “adivinhou” que, no inverno, o ar frio resfria a água nos chillers com mais força e aproveita-se disso para otimizar o consumo de energia. Isso
reduziu os custos de energia em outros 30%.
O Google acredita que seu desenvolvimento e seus análogos no futuro ajudarão os proprietários de data centers a reduzir o custo dos sistemas de refrigeração em pelo menos metade e a reduzir as emissões de CO2 na atmosfera.
Como isso funciona?
Milhares de sensores físicos monitoram todo o sistema de refrigeração no data center da empresa. Os dados deles vão para a entrada do sistema de IA implantado na nuvem. Esta é uma rede neural de cinco camadas ocultas com 50 neurônios em cada uma.
Ele
trabalha com 19 parâmetros diferentes, incluindo a carga total nos servidores, o número de bombas de água corrente, a umidade externa e até a velocidade do vento. A cada cinco minutos, o sistema lê as leituras dos sensores (são aproximadamente 184 mil amostras - 70% delas foram necessárias para treinar a rede e os 30% restantes foram usados para
verificação cruzada ) e as utiliza para otimizar o valor de PUE.
Ela cria uma lista de previsões, como uma mudança específica no sistema afetará o consumo de energia do data center e a temperatura na casa das máquinas. Por exemplo, uma mudança na temperatura do corredor “frio” pode causar flutuações na carga nos chillers, trocadores de calor e bombas, o que, como resultado, levará a alterações não lineares na produtividade do equipamento.
Na lista compilada, são selecionadas as ações mais eficazes que reduzirão o consumo de energia mais do que outras e não levarão ao mau funcionamento do datacenter. Além disso, essas instruções são enviadas de volta ao data center, onde o sistema de controle local verifica novamente se eles atendem aos requisitos de segurança (e sua implementação não levará a consequências irreparáveis).
Como parte da responsabilidade pelo bom funcionamento de serviços como a Pesquisa Google, Gmail e YouTube foi transferida para sistemas de IA, os desenvolvedores previram várias medidas de proteção. Entre eles estão algoritmos para calcular o indicador de incerteza. Para cada um dos bilhões de ações possíveis, o sistema de IA avalia a confiabilidade e elimina imediatamente aquelas para as quais esse indicador se mostrou baixo (ou seja, com uma alta probabilidade de falha).
Outro método de proteção foi a verificação em dois níveis. As ações ideais calculadas pelos algoritmos MO são comparadas com o conjunto de políticas de segurança prescritas pelos operadores do data center. Somente se tudo estiver em ordem, serão feitas alterações na operação dos sistemas de ar condicionado.
Além disso, os operadores estão sempre prontos para desligar o modo “automático” e assumir o controle.
Desenvolvimentos semelhantes
O Google não é o único a desenvolver soluções de aprendizado de máquina para gerenciar sistemas de refrigeração no data center. Por exemplo, a Litbit está trabalhando na tecnologia Dac para monitorar a potência e o consumo de energia da computação.
/ foto reynermedia CCPara monitorar o status do equipamento, o Dac
usa sensores de IoT. O sistema pode "ouvir" frequências ultrassônicas e "sentir" vibrações anormais no piso. Ao analisar esses dados, o Dac determina se todo o equipamento está funcionando corretamente. Em caso de mau funcionamento, o sistema notifica os administradores, gera um ticket para o suporte técnico e até mesmo desativa o hardware de forma independente (em caso de emergência).
Uma solução semelhante é criada pela Nlyte Software, que
se uniu à equipe do IBM Watson IoT. Seu sistema coleta dados sobre temperatura, umidade, consumo de eletricidade, carga de equipamento no data center e fornece conselhos aos engenheiros para otimizar os processos de trabalho. A solução funciona com infraestrutura em nuvem e no local.
A introdução de sistemas de IA em data centers
vai além das
soluções DCIM usuais (produtos de software para monitoramento de data center). Entre os especialistas do setor de TI, existe uma opinião de que em breve a maioria dos processos que ocorrem no data center será automatizada. Como resultado, os administradores dos datacenters poderão se concentrar em outras tarefas mais importantes que afetam o crescimento e o desenvolvimento das empresas.
Conteúdo relacionado ao PS do primeiro blog corporativo de IaaS: