Viajando pelo data center Selectel. Dinossauro em chamas, VMware, C2F5H e o lobisomem invisível

O trabalho do administrador do sistema baseia-se na crença de que os engenheiros do data center conhecem seu trabalho. Estamos criando clusters de failover, mas quanto custará esse failover se a energia acabar? Que diferença faz a rapidez com que o servidor processa a solicitação se o canal do datacenter cair no ponto de troca de tráfego? Como aumentar o servidor se estiver superaquecido fisicamente?


E eu gostaria de não acreditar, mas de saber exatamente como a tolerância a falhas é criada no nível do ferro. De onde vêm esses "nove" equipamentos confiáveis, sobre os quais estamos falando ao formular o SLA Kubernetesov. O que acontece quando um projeto queima no sentido mais verdadeiro da palavra.


Tivemos a sorte de passear pelo data center Selectel no terceiro dia do Slurm DevOps, examinar o santo dos santos e até tirar algumas fotos para memória. Também perguntamos sobre as lendas da empresa que os funcionários da Selectel nunca contam a ninguém. E, como se viu, eles mesmos não se lembram.


Nossa empresa de Southbridge está associada à Selectel há muito tempo. Agora, oferecemos suporte a 58 projetos hospedados nos servidores do provedor. Quando um cliente precisa de um servidor localizado na Rússia, recomendamos o Selectel, porque por experiência o consideramos o fornecedor mais confiável e conveniente de infraestrutura de TI.


Vamos lá!



Ao subir o quarto andar - os mais difíceis pegaram o elevador, os mais atléticos subiram - colegas de Southbridge me lembraram que eu definitivamente deveria aprender sobre as lendas da Selectel: sobre o lobisomem, sobre o espírito inquieto que vagava e uivava ao construir um novo edifício de data center. Sempre me interessei pela mitologia das grandes empresas, que permaneceram desde o turbulento estágio de nascimento e primeiro crescimento.


No início, a empresa tinha um data center na Flower 1 em São Petersburgo. O data center atendeu a empresa Vkontakte. Nós o vimos da janela quando subimos para o quarto andar. Certa vez, ele parou na modernização há nove ou dez anos - e desde então trabalha continuamente. Em termos de confiabilidade, ele pertence ao Nível II.


Informações para consideração (c) "Dezessete Momentos da Primavera":

O principal indicador do data center é a tolerância a falhas. Existem 4 categorias no total - do Nível I ao Nível IV. Pertencer a uma determinada categoria indica o nível de redundância, segurança física e confiabilidade.

Nível I (Redundância - N, tolerância a falhas - 99,671%) - não há pisos elevados no data center, fontes de energia de backup e fontes de alimentação ininterruptas e a infraestrutura de engenharia não é reservada. Durante um reparo programado ou de emergência, o data center para.

Nível II (Redundância - (N + 1), tolerância a falhas - 99,749%) - há um pequeno nível de redundância, pisos elevados e fontes de energia de backup são montadas no data center, o trabalho de reparo faz com que o data center pare de funcionar, como no Nível I.

Nível III (Redundância - 2N, tolerância a falhas - 99,982%) - é possível executar trabalhos de reparo (substituindo componentes do sistema, adicionando e removendo equipamentos com falha) sem parar o datacenter. Todos os sistemas são reservados, existem vários canais de distribuição de energia e refrigeração.

Nível IV (Redundância - 2 (N + 1), tolerância a falhas - 99.995%) - são necessárias redundância dupla e redundância do sistema. É possível realizar qualquer trabalho sem interromper o trabalho do data center. Os sistemas de engenharia são duplamente reservados, ou seja, os sistemas primário e secundário são duplicados.

À nossa frente havia uma grade poderosa, uma porta com uma trava eletrônica e um cata-vento de altura total feito de perfis metálicos grossos. E atrás dele está o próprio espaço do data center.



O data center em que estávamos localizados é mais recente que o data center do bairro - foi construído em 2015. E pertence à categoria de Nível III.


Agora, a Selectel possui dois centros operacionais em Tsvetochnaya, mais três em Dubrovka, dois data centers em Moscou, considerados como um data center na empresa. Só seis.


O prédio tem quatro andares. Os escritórios estão localizados no primeiro andar e alguns equipamentos estão localizados. O quarto andar é parcialmente alocado para escritórios, mas a maior parte é ocupada por instalações técnicas.


Antes do fornecedor entrar aqui, a produção estava localizada no edifício. Os funcionários do data center em si não se lembram da produção do que exatamente - filme ou roupa. A empresa comprou o prédio para eliminar os riscos de complexas relações de propriedade se o prédio pertencer a terceiros.


Apesar de a produção estar localizada aqui, havia máquinas-ferramentas e outras máquinas pesadas, a Selectel reforçou ainda mais os pisos. Mesmo na sala de conferências no térreo, onde ocorreram os intensivos Slurm DevOps ( 1 , 2 , 3 ), prestamos atenção aos suportes reforçados.


Nós vamos ao data center apenas em capas de sapatos - a regra usual para essas instalações. Colocar onuchi de plástico custa uma "sapateira". Estamos sinceramente imbuídos. O atendente nos ofereceu uma escolha - calçar sapatos ou confiar as extremidades ao aparelho guloso.



Nossa escolha foi previsível. Igor Olemsky, diretor da Southbridge: "Somos a favor da automação" . Anton Tarasov, administrador de Southbridge: "Se fosse assim com as meias, eu seria a pessoa mais feliz do planeta" .



Enquanto usavam sapatos, os desenvolvedores da Southbridge se perguntaram ativamente exatamente onde estão os servidores VMware. Todos estavam interessados ​​em ver em quais equipamentos essa tecnologia funciona.


Assim que entraram na área técnica, anunciaram imediatamente as regras: "Nós não comemos, não bebemos, não fumamos. Não colocamos as mãos em lugar algum, em escudos, em racks, aparelhos de ar condicionado ou controles remotos. Seguramos as mãos na nossa frente, como um tiranossauro. "


No quarto andar, existem três salas de servidores. Todo o equipamento está no piso elevado. É necessário que o ar frio flua de baixo e também que possam ser feitas comunicações que não precisam de acesso constante. Estas são linhas de energia e tubulações de refrigeração.



Assim que entramos na pequena sala do servidor, um zumbido nos atingiu. O personagem do famoso desenho animado com serragem na cabeça certamente diria: "Isso está bem, bem, bem, por uma boa razão!" . Como não estávamos acostumados, mal nos ouvimos nos primeiros minutos. Explicações do guia, também, mal adivinhei, eu tive que me aproximar mais.


Ao redor são racks, racks e ainda mais racks ... Eles estão alinhados em fileiras rígidas. Nos datacenters de servidores, encontramos diferentes classificações: por 10 racks, 12, 20, 30. Dependendo da configuração da sala, da área alugada pelo cliente e das tarefas.




No datacenter em todas as salas de servidores do sistema de refrigeração, fica assim: de cima e dos lados, o espaço de refrigeração é limitado pela estrutura do rack, a parte frontal é fechada por portas perfuradas. Os aparelhos de ar condicionado conduzem o ar frio sob o piso elevado - e o ar sob pressão sobe para os racks.



Basta percorrer as fileiras para sentir como a temperatura do ar cai acentuadamente em cinco graus; você pode até sentir o limite de temperatura. As juntas no piso elevado são montadas com tanta força que o ar condicionado não tem para onde ir, exceto pelo caminho especialmente fornecido para o resfriamento.


No próprio servidor, a temperatura é mantida em torno de 22 ± 2 graus Celsius. No corredor "frio", a temperatura pode cair para 16 a 17 graus. Havia dois corredores "frios" na pequena sala do servidor. Por conseguinte, os corredores entre eles são chamados de "quentes". Eles são um pouco mais quentes que a sala média do servidor - o ar passa pelos racks e esquenta do equipamento.



Existem racks para aluguel aos clientes. Os engenheiros conectam a energia - o cliente liga com o equipamento e faz o que quer, dentro da estrutura dos regulamentos e da legislação. Os racks podem ser alugados de forma diferente. Até 47 unidades, meia, quatro seções. Eles são fisicamente separados - bloqueios diferentes são usados. Você pode alugar apenas 10 unidades. Quem tem muito pouco equipamento, isso será suficiente. Assim, menos energia - acaba mais barato.


Se o cliente alugar, por exemplo, um "quarto" na seção inferior e você precisar colocar o cabo, ele será atraído por um canal de metal especial. E os clientes nas partes superiores do rack não terão acesso às comunicações de outras pessoas de maneira alguma: nem à energia, nem ao cobre, nem à óptica.


Na sala do servidor existem aparelhos de ar condicionado no valor de três peças. Apenas dois deles trabalham. Se um ar condicionado for retirado para manutenção ou se ocorrer uma avaria, os engenheiros ligam a reposição. Esse estoque de reserva é um requisito de especificação de Nível III.


Por exemplo, existem fontes de alimentação ininterruptas. Há um certo número deles, suponha 12. Mas funciona 6. A sala do servidor pode funcionar por uma hora com baterias se a eletricidade parar de fluir para o data center. Mas se seis UPSs quebrarem hipoteticamente, os engenheiros ligarão mais seis. Sempre há o dobro de nós no datacenter para confiabilidade.



Esse data center do projeto pode consumir até 10 MW. Mas agora há apenas 1,5. Até agora, apenas o quarto andar é usado para o equipamento - o segundo e o terceiro na fase de construção. E a quarta ainda não está completamente cheia: foi projetada para 250 racks e estão ocupadas 200. Há espaço para crescer.


No total, a Selectel usa 14,4 MW em todos os data centers. Um rack em operação 1.200.



Além dos racks principais, utilizados em diversos projetos, principalmente para aluguel para clientes, os racks de serviço estão localizados nos racks para servidores, onde apenas o equipamento Selectel está instalado. Existem racks transversais para conexão passiva. Eles são sem energia, apenas fibra óptica - para conectar equipamentos entre plataformas e entre salas. Cada sala do servidor tem o mesmo gabinete com cruzes. Cross pode ir para outra sala, para outra sala de servidores no térreo, assim que for construído, pode ir para um data center vizinho ou mesmo para um data center em Dubrovka.


A empresa possui várias dessas fibras. Se um for interrompido, o datacenter começará a trabalhar no outro sem uma pausa. Todos os caminhos definidos são sempre reservados.


Se eles fizerem uma conexão entre este data center e o vizinho, os engenheiros conduzirão um link através da cruz através do ar entre os data centers, e o segundo link conduzirá através do esgoto através de outra cruz. E aconteça o que acontecer, sempre haverá um canal de backup.


Como há muitos equipamentos no data center, os funcionários monitoram rigorosamente a segurança contra incêndio. O data center tem vários cenários para lidar com incêndios. A Selectel possui extintores de incêndio em todos os cômodos, tanto técnicos quanto comerciais. E as pessoas são treinadas especificamente para trabalhar com elas. Se o incêndio for local, você pode lidar com isso sozinho.



Mas se queima fortemente, por exemplo, a fonte de alimentação no servidor ou no circuito do compressor com óleo, os extintores nem sempre conseguem lidar. Para esses casos, o data center possui uma estação de extinção de incêndio a gás. Dela, tubos amarelos escorrem pelo teto em cada quarto.


Em um incêndio grave, todas as pessoas são retiradas da sala do servidor. Perto de cada porta há um botão amarelo. A porta se fecha firmemente, um botão é pressionado, uma contagem regressiva de 30 segundos é fornecida. O gás Hladon-125 é fornecido - pentafluoroetano, fórmula química C2F5H. Inibe o processo de combustão - e o fogo para imediatamente. Ao extinguir um incêndio em um data center, nem líquidos nem pó são usados ​​porque eles podem danificar o equipamento.


Em uma grande sala de servidores, fomos proibidos de tirar fotos. Porque vou contar de memória o que eles viram. No total, esse data center possui um servidor pequeno e dois grandes.


A primeira grande sala de servidores possui um corredor "frio", feito para projetos Selectel e para aluguel de clientes. É muito mais longo do que em uma pequena sala de servidores. Em algumas prateleiras, existem medidas de segurança individuais - em uma das prateleiras, notamos uma trava eletrônica com um código PIN e uma câmera de vídeo na parte superior.


Vimos como o serviço de "concessão de espaço alocado" é visto de dentro. Você pode comprar qualquer quadratura no site - é claro, daquele que está disponível. E o cliente pode colocar racks e equipamentos que atendam aos padrões.


Uma área muito grande, que pertence a um cliente, foi examinada através da cerca. Havia prateleiras alemãs sob encomenda especial. Há também um pequeno armazém separado.


De acordo com as histórias de nosso guia, este serviço não é necessariamente tão grande. Você pode colocar duas prateleiras e cercar a gaiola. E o acesso a eles estará apenas com você. Normalmente, esses requisitos surgem se for um banco ou um cliente que trabalha com instituições financeiras.



Examinamos as instalações da estação de extinção de incêndio. É aqui que estão os cilindros com "Freon-125". O equipamento está configurado para que, dependendo do tamanho, o gás de um determinado número de cilindros seja enviado para cada sala.



À esquerda, ao longo do corredor, há uma sala de painéis elétricos. Mas não temos acesso lá, apenas no caso de eles não fazerem excursões. Caso contrário, será desconfortável e o cheiro não desaparecerá por muito tempo.


Existem fontes de alimentação e painéis ininterruptos. É nesta sala que chega a comida para todo o edifício. E já a partir daqui há uma fiação em todos os quartos. Os barramentos vão para as salas dos servidores, que podem ser vistas sob o teto no corredor.


Dois dutos de barramento são enviados para cada servidor. Um fica sob o teto, outro sob o piso elevado - é assim que as condições da reserva são atendidas. Todo o edifício é alimentado por dois raios de entrada da usina. Se uma entrada for desconectada, o datacenter funcionará a partir da segunda.



Se dois forem desconectados ao mesmo tempo, todo o equipamento passará para baterias recarregáveis. 750 baterias estão localizadas em uma sala especial. Um pouco mais adiante, há outra sala do mesmo tipo - e há muitas outras. O data center poderá permanecer neles por 1 a 3 horas, dependendo da carga, mas leva apenas 2 minutos para mudar para um motor diesel.


Em salas separadas, há grupos geradores a diesel gigantes. Cada um fica em uma plataforma com cerca de um joelho - como eu entendi pelas explicações, este é um tanque separado com combustível para cada motor diesel. Além disso, no data center existem vários tanques enterrados no subsolo e projetados para várias dezenas de toneladas de combustível.


À medida que o combustível é degradado, ele é substituído periodicamente. Se o combustível acabar no tanque de diesel, a bomba bombeia combustível dos tanques. Se de repente ocorrer um incômodo e a bomba quebrar, ainda haverá um sobressalente.



Absolutamente todos os sistemas são duplicados - canais de comunicação na Internet, refrigeração, fonte de alimentação, sistemas de extinção de incêndio de emergência e fonte de alimentação alternativa.


Fizemos uma pergunta sobre operadoras de telecomunicações. O engenheiro da empresa disse que eles usam constantemente 5-6 operadores para uplinks. E existem algumas rotas. Além disso, o provedor tem conexões com quase todos os pontos de troca de tráfego em São Petersburgo e Moscou. Em Moscou, o maior é o M9. E em São Petersburgo - B18 e Kantemirovskaya.


Se o combustível nos tanques subterrâneos chegar ao fim, outro tanque será trazido. Selectel tem contrato com uma empresa de combustíveis. O data center pode viver infinitamente com diesel, é apenas mais caro.


Perguntamos como Selectel trabalha com o fator humano - porque é ele quem é o maior perigo, e nenhuma reserva ajudará.


- Como você trabalha com erros humanos?


- Tentamos não repeti-los. Prevemos possíveis erros. Realizamos treinamento, exercícios. Por exemplo, treinamento em mudar para um gerador a diesel: testamos pessoas, mudamos para diesel no processo, às vezes transferimos toda a carga para elas. Além disso, há uma base de conhecimento.


Chegamos ao VMware. Em servidores em nuvem, apenas plataformas Intel são usadas, SSD de 2 terabytes. Naturalmente, a reserva é apenas para tudo. Por exemplo, vimos perto: em cada servidor, duas placas de rede, dois links estão presos em cada uma. Um link vai para o switch que está no topo, outro link vai para o switch do próximo rack. São usadas duas fontes de alimentação por módulo.



No centro de dados, existem principalmente racks CMO russos. Nas mesas de clientes na área alugada, existem soluções diferentes.


Um pouco mais adiante, no corredor, da segunda grande sala de servidores, vimos um elevador. Existem dois elevadores para equipamentos de elevação - uma tonelada e duas toneladas. A área de carregamento é feita separadamente - está localizada ao lado da sala de conferências no térreo.



Na sala do elevador, vimos uma caixa “pequena” com um roteador Juniper MX 2010. O sonho de qualquer administrador: três fontes de alimentação CA, 1 módulo RE (mecanismo de roteamento): 1800x4 (CPU 1,8 GHz QuadCore, 16 GB RAM), 1 módulo SFB (Switch Fabric Board).


Os colegas discutiram onde colocá-lo. Decidimos que em casa ele ficaria melhor. Será possível distribuir wi-fi para eletrodomésticos. Pesado e sólido - um roteador sério para administradores sérios. E quando você se cansar, poderá vender e comprar um apartamento em uma cidade grande.





Existe um modelo ainda maior, mais poderoso e produtivo - o MX 2020.


Como o roteador funciona? Módulos, cartões de linha são inseridos nele - eles são extraordinariamente altos e muito estreitos. E essas placas de linha são muito diferentes - elas podem ter 8, 24, 48 portas. As portas podem ser "dezenas" e "cem". Dependendo de quais são suas necessidades e quais oportunidades financeiras.


No MX 2020, existem 32 slots para placas de linha: 16 na parte superior e 16 na parte inferior. E relativamente falando, se você inserir 10 placas de linha e cada uma tiver 48 portas, o resultado será 480 portas. Aderimos a "vinte e cinco" transceptores - e multiplicamos 480 portas por 25 gigabits. Essa é uma das opções. Você pode colocar "centenas".


Quando deixaram as instalações técnicas, permaneceram um pouco no "ponto de lanches", onde os engenheiros da Selectel recuperavam a força à noite. Eles perguntaram se as máquinas de café na categoria Nível III foram duplicadas no data center. Duas máquinas de café em cada ponto - cada uma tem duas fontes de alimentação ... e assim por diante.



Igor Olemsky perguntou:


— -?


— . . , , , . . — , . - . , . — , , .


, DCIM (Data Center Infrastructure Management). , -, . , , , , .


, Selectel, — , , : " 6 - 40 000 " .


- — , . , , .



, . , , -. - , , .


. - , .




, , - . .


— - ?
— , — Selectel.
— - , .
— .
— .


.


. . , , , . , Selectel. -.



, Selectel , :


— , , ?
— . , — .


, - . , , , 8 . . - , Selectel , , , , , .


, . — . , - . . . , , . . .


Selectel, — , , , . , , -, : , , .


.


— ? , - ? , ?


— , — , . , .


A julgar pelas respostas evasivas, o assunto do lobisomem Seltekelovsky é coberto pela escuridão NDA. Nunca descobrimos se ele existe, mas analisamos o data center por dentro.

Source: https://habr.com/ru/post/pt467595/


All Articles