Olá Habr! Este ano é o 10º aniversário do lançamento do nosso primeiro
data center OST-1 . Durante esse período, meus colegas dos serviços de operação e construção de capital conseguiram realizar mais de uma modernização da infraestrutura de engenharia do data center. Hoje vou falar sobre os casos mais interessantes.
Uma grua de 200 toneladas instala o novo chiller Stulz na estrutura. Modernização do sistema de refrigeração do sistema de data center OST-1 em 2015. O data center é um organismo vivo, cresce, muda, se decompõe :) Tudo o que pode ser atribuído à modernização, compartilho condicionalmente:
- substituições e reparos programados. O equipamento se torna obsoleto, sua vida útil expira. Planejamos, planejamos e executamos esse trabalho sem pressa, quando for conveniente para nós (por exemplo, uma atualização completa do "interior" do no-break ou a substituição de baterias gastas).
- erros de design . De acordo com os preceitos do Uptime, tudo deve ser gasto e terminado ao mesmo tempo. Devido ao design inadequado, o equilíbrio de “frio - eletricidade - local” pode ser violado, por exemplo: há lugares para colocar prateleiras, mas o salão não é mais puxado por eletricidade ou ar condicionado. A coisa mais desagradável com esses erros é que eles não aparecem imediatamente, mas quando o data center se aproxima de sua capacidade de design.
- acidente. Acontece que o equipamento está danificado completamente, de forma irrevogável e inesperada, e precisa ser trocado.
Não vou me debruçar sobre substituições / reparos planejados. Lá, quase tudo está ao nosso alcance. Vou contar três histórias sobre erros de design e atualizações pós-falha.
História 1. A casa das máquinas não tinha frio o suficiente
Esta é uma história sobre um de nossos primeiros salões em Borovaya. Ele ainda está trabalhando. Um salão com uma capacidade de projeto de 80 racks de 5 kW.
À medida que a sala se encheu, o frio deixou de ser suficiente: a temperatura nos corredores frios era mais alta que o necessário, o superaquecimento local aparecia constantemente. Só mais tarde, no auge da nossa experiência, percebemos que havíamos cometido erros no design e, por isso, o ar condicionado sofreu.
Erro
| O problema
|
Uma longa fila de racks - mais de 20 em uma fila
| O ar quente estagnou no meio da fileira
|
Tetos baixos - até 3 metros
| Não há espaço suficiente para a troca de ar adequada. Havia zonas de superaquecimento local
|
Piso elevado com muitas comunicações por baixo
| Interferência para circulação de ar frio sob o piso elevado
|
A fileira é tão longa que os aparelhos de ar condicionado na extremidade oposta são quase invisíveis. Foto de 2009.Como não vimos nenhuma "pílula mágica" desses problemas, decidimos agir em etapas e em todas as frentes.
Primeiro, verificamos se todo o equipamento estava
instalado corretamente e se os plugues estavam em unidades livres. Também verificamos o layout dos ladrilhos perfurados e removemos os excessos, instalamos guias de ar adicionais sob o piso elevado. Tentamos encontrar e selar todos os buracos onde o ar frio poderia escapar. Também aconselho que você verifique o que tem entre o ar condicionado e a parede. Uma folga de 5-7 cm já é muito.
Aqui está o resultado, nos foi dada uma colocação simples de stubs em unidades livres.Melhorou, mas não foi bom o suficiente. Então decidimos isolar os corredores frios. Eles construíram um telhado, portas feitas de policarbonato. Acabou barato e alegre. Como resultado, nos livramos da mistura parasitária de ar quente e frio e aumentamos a eficiência do sistema de suprimento a frio.
Um corredor frio isolado do mesmo salão.Entendemos que isso seria suficiente por um tempo. Com o aumento da carga de trabalho de TI, a falta de energia será novamente sentida.
Eles tentaram resolver esse problema adicionando um condicionador de ar freon, embora o salão trabalhasse com o resfriamento de glicol. Estávamos muito preocupados com as dimensões do ar condicionado (se passa pela porta, existe ângulo de rotação suficiente), por isso selecionamos um modelo com a possibilidade de desmontagem parcial. O ar condicionado não foi instalado do lado do corredor quente, como costuma fazer, mas onde eles poderiam ser espremidos. Isso nos adicionou 80 quilowatts de refrigeração.
Aqui está o mesmo ar condicionado "guta-percha" Emerson.Toda a história acabou sendo complicada: era necessário descobrir como levar faixas de Freon para unidades externas, como levar eletricidade para esses aparelhos de ar condicionado, onde colocar as unidades externas do aparelho. Tudo isso na sala de trabalho.
Só para entender como há pouco espaço.Depois de todas essas manipulações, nos livramos do superaquecimento local, a temperatura foi distribuída igualmente nos corredores frios e quentes. Acabou por aumentar a capacidade do salão e colocar os racks de cinco quilowatts declarados nele.
A moral desta história é que você não deve ter medo de resolver o problema em pequenos passos. Por si só, cada uma das ações pode parecer (e pareceu-nos então) ineficaz, mas no total isso dá um resultado.
História 2. O ar-condicionado e a fonte de alimentação acabaram na casa das máquinas
Uma sala de clientes foi projetada para 100 racks de 5 kW cada. Projete a largura do rack 800 mm, em cada linha, 10 racks. Então o cliente mudou de idéia para ligar e o salão foi alugado em uma base comum. Na vida, racks com uma largura de 800 mm são principalmente necessários para equipamentos de rede, para todo o resto são necessários seis centésimos. Como resultado, em vez de 10 racks seguidos, obtivemos 13 e ainda havia espaço. Mas a eletricidade e o frio não eram suficientes.
Durante a modernização, uma nova sala foi alocada para dois no-breaks adicionais de 300 kW.

Quadros de distribuição adicionais apareceram no salão.

O novo poder precisava ser distribuído uniformemente. Para separar as vigas novas e antigas, foram instaladas bandejas de cabos sob o piso elevado. Parte do equipamento de TI em funcionamento foi transferido para novos quadros de distribuição alternando alternadamente cada feixe de energia.
Para resolver o problema da falta de frio, colocamos 1 ar-condicionado adicional por 100 kW de frio.

Durante a montagem, instalação e comissionamento de todos os equipamentos, o salão continuou a operar normalmente. Este foi o momento mais difícil do projeto.
Como resultado da modernização, adicionamos uma instalação elétrica e fria para outros 30 racks de 5 kW cada.
A capacidade de projeto e a capacidade do salão aumentaram 30%.História 3. Sobre a substituição de chillers
Um pouco de fundo. Tudo começou em 2010, quando três chillers do data center OST foram
gravemente danificados durante o furacão. Então, para sobreviver, foi necessário acionar chillers sem proteção por vários dias, e os compressores dobraram rapidamente. No começo eles foram mudados.
A carga de TI aumentou à medida que o data center ficou cheio e os chillers Emicon não atingiram a capacidade de refrigeração declarada. Em 2012, eles instalaram um chiller Hiref adicional no mesmo circuito hidráulico. Então, vivemos por mais três anos.
Com o tempo, os chillers Emicon exacerbaram problemas operacionais. Seu poder não era suficiente, então no calor teve que derramar água do Karcher. Ao longo dos anos, os trocadores de calor estão repletos de depósitos calcários. Cotão e outros detritos que não puderam ser removidos devido à estrutura específica dos trocadores de calor preencheram a lacuna entre o trocador de calor de freecooling e o condensador Freon. Uma bota de feltro verdadeira se formou lá, o que não deixava o ar passar normalmente.
Em 2015, acabamos de comprar um lote de chillers Stulz para o
NORD-4 . Decidimos substituir dois dos três resfriadores da Emicon nesse negócio. Agora para os detalhes.
Instalar um chiller Hiref adicional sem reinstalar as bombas. A carga de TI estava aumentando e a eficiência dos chillers afetados pelo furacão estava caindo. No verão, a reserva mal era suficiente. Decidimos adicionar outro chiller para aumentar sua capacidade total. Durante a duração do trabalho, o sistema de refrigeração deve ter continuado a funcionar. A parte mais difícil nesta operação é a organização do circuito de glicol. Fizemos uma fita de glicol: a partir de cada chiller, um anel de glicol foi atribuído a um novo chiller. Os chillers foram retirados de serviço um por um e um tubo de glicol foi levado para o novo chiller.
Fragmento do conceito de hidráulica. Isso mostra que, de cada um dos três chillers, ramificações foram feitas para o novo chiller.A principal tarefa deste chiller é oferecer suporte ao sistema de refrigeração no verão. Graças a Hiref, temos uma reserva garantida de N + 1 nos meses quentes. Mas os chillers danificados no furacão começaram a secar lentamente, e tivemos que pensar em substituí-los.
O mesmo "verão" Hiref mais frio.Substituindo Emicon por Stulz. Tais substituições são mais bem feitas no outono ou na primavera: no verão sem reserva, é completamente assustador e no inverno é simplesmente desagradável realizar o trabalho. A operação estava prevista para fevereiro / março, mas os preparativos começaram em outubro.
Durante esses meses preparatórios, colocamos novos cabos, cozinhámos seções da tubulação, desenvolvemos um plano para abordar a máquina com equipamentos (temos um quintal apertado) e limpamos a área para a entrada do guindaste. Os chillers tiveram que ser trocados em um data center em funcionamento e, por cerca de 1,5 dias, ele ficou sem um chiller de backup. Na fase de preparação, realizamos testes para entender como o data center se sentiria sem reserva, inventamos várias situações em que algo poderia dar errado durante o trabalho (por exemplo, um longo apagão durante a substituição de chillers) e desenvolvemos um plano de ação . Aqui está uma breve crônica desses trabalhos.
Um refrigerador chegou à noite. Após um check-in bem-sucedido do guindaste no território do data center, foi possível iniciar o desligamento do antigo chiller.
O chiller antigo ainda está no lugar enquanto o trabalho preparatório está em andamento. Preparamos o quadro para o novo chiller.Em seguida, um carro com um refrigerador deveria chegar ao local de trabalho imediato. Para dizer o mínimo, temos um pouco de gente lá. Eu tive que suar para me encaixar em todas essas voltas complexas em um espaço limitado.


O chiller desmontado e serrado ao meio foi desmontado.

O chiller antigo e o novo diferem em tamanho. Demorou mais tempo para preparar a armação de metal. Resta levantar e instalar o chiller.

No fundo, a foto mostra que seções do circuito de glicol do novo chiller estão sendo adicionadas em paralelo.


Após a instalação, todo o sistema hidráulico é montado na estrutura, o chiller é conectado à fonte de alimentação. O friso é feito à noite. No dia seguinte, ocorre o comissionamento e a conexão com o sistema de monitoramento.
Demorou menos de dois dias para concluir a operação: de manhã, o velho chiller foi desligado e, no final do dia seguinte, o novo chiller foi ligado.
Duas semanas depois, o segundo chiller foi trocado. Parece que você apenas fez tudo de acordo com o esquema comprovado, mas algo deu errado. Estava nevando a noite toda. Primeiro, tive que gastar um tempo limpando o território para que o guindaste pudesse entrar. Começamos a desmontar o chiller antigo, a duzentos metros de nós um carro quebra com um novo chiller. O ponto de não retorno já foi ultrapassado e o vagão das rodas do reboque (painel de controle a partir dele) quebrou no vagão.
Não deu certo no local, optamos por um controle remoto adicional, que no sábado milagrosamente acabou no escritório desta empresa. Com o controle remoto, eu consegui rodar o carro. Como resultado, levamos mais de 3 horas para concluir um turno. Com todas as sobreposições logísticas, o trabalho durou até a noite. É bom que pensássemos em iluminação para o trabalho no escuro. O trabalho restante foi como de costume e, a partir de segunda-feira no data center, outro novo chiller começou a funcionar.
Em março deste ano, meus colegas substituíram o terceiro chiller, o último dos sobreviventes do furacão. Agora Borova tem três chillers Stulz e um Hiref. Graças a essa modernização em fases, agora temos um grande suprimento de frio e não temos medo do clima mais quente e dos flocos de álamo. Os novos chillers suportam o modo de congelamento em uma faixa de temperatura mais ampla, consomem menos energia e trabalham muito silenciosamente. Eles também são muito convenientes de manter devido aos compartimentos separados do compressor: os reparos podem ser realizados sem uma parada completa do chiller.