
O que acontece quando nosso cliente solicita um servidor de configuração arbitrário? Qual é a confiabilidade dos servidores personalizados? Discutiremos essas e outras questões em detalhes em um novo artigo hoje.
Ordem do servidor
Apesar do fato de que na seção disponível para pedidos de servidores existem várias dezenas de configurações diferentes, alguns clientes exigem servidores com configurações especiais. Na maioria das vezes, isso é necessário para criar um servidor com desempenho muito alto ou com um grande número de unidades de disco.
Para satisfazer essa necessidade, foi fornecido o serviço "
Servidor dedicado de configuração arbitrária ". O configurador no site permite criar um servidor de qualquer complexidade e alugá-lo por si mesmo em alguns minutos. No entanto, poucas pessoas se perguntam como esses servidores são montados.
Depois que o cliente decide a configuração desejada, faz um pedido e paga por ele, o sistema cria automaticamente um ticket no painel de controle. Esse ingresso vai para o departamento de montagem, e os especialistas começam a verificar a ordem e, de fato, a própria montagem do servidor.
Processo de montagem
Verificação do pedido
O configurador no site geralmente seleciona a versão "correta" dos componentes, mas em alguns casos, os clientes podem não escolher a opção mais ideal para combinar componentes de hardware. Por exemplo, um controlador RAID que não será capaz de oferecer o máximo desempenho em tal configuração ou um número ímpar de slots de RAM em sistemas multiprocessadores. Portanto, os engenheiros primeiro verificam o pedido e, se forem identificados problemas em potencial, devem avisar o cliente em um ticket.
Se o cliente concordar que a configuração não é ótima, você pode facilmente cancelar o pedido e criar um novo. Os fundos após o cancelamento são devolvidos integralmente ao saldo do painel de controle. Após a verificação do pedido, prosseguimos para a preparação dos componentes e a montagem do servidor.
Acessórios
Cada servidor consiste nos seguintes componentes:
- caso (vem imediatamente com uma fonte de alimentação);
- placa mãe ;
- memória de acesso aleatório ;
- processadores
- drives
- controladores de disco (se disponíveis na ordem);
- placas de vídeo (se disponíveis no pedido).
O engenheiro responsável pela montagem prepara todos os componentes e os corrige no sistema contábil, usando números de série como identificadores. Agora, falaremos sobre todos os estágios pelos quais cada servidor de configuração arbitrária passa.
Preparação de caso
Geralmente usamos gabinetes Supermicro, que devem estar preparados para instalar a placa-mãe usando o hardware fornecido. Diferentes modelos de placas-mãe têm pontos de montagem diferentes, portanto, você deve determinar o número de ferragens e parafusos para cada montagem específica.
Embora o número de pedidos seja pequeno, pegamos apenas um conjunto de fixadores projetados para o estojo e adiamos os fixadores não utilizados. A certa altura, ficou claro que leva muito tempo para encontrar o parafuso certo e decidimos empacotar todo o hardware disponível no armazém.
Fixadores pré-embaladosDepois que o último pacote com prendedores foi empacotado, ficou claro que não realizamos esse trabalho em vão. Agora, cada parafuso e cada hardware estão em um local estritamente designado para isso e isso economiza uma quantidade enorme de tempo.
Para impedir que os contatos da placa-mãe toquem na caixa de metal e causem curtos-circuitos, é usada uma camada plástica especial. Sem ele, a montagem é proibida. Além disso, você deve interromper com cuidado (sim, é fornecido pelo fabricante) as portas para as portas no stub na parte traseira do servidor. É realizado elementarmente com uma chave de fenda.
Depois disso, adesivos com o identificador de pedido, bem como o número de série do futuro servidor, são aplicados ao caso. Por conveniência, além do identificador alfanumérico, os rótulos contêm códigos de barras que permitem a leitura rápida de informações usando um scanner.
Instalação da placa-mãe
Imediatamente antes de instalar a placa-mãe, os engenheiros executam algumas etapas preparatórias:
- calçar luvas finas;
- coloque uma pulseira de aterramento.
Antes de tudo, isso é necessário para não danificar as mãos. A lesão mais comum nesse caso são os cortes. Uma pulseira de aterramento não permitirá danos acidentais aos componentes eletrônicos da placa devido à eletricidade estática.
Depois que a placa-mãe é colocada no lugar, os parafusos de fixação são apertados. Deve-se lembrar que o textolito é bastante frágil e não faz esforços excessivos. Para economizar tempo, os engenheiros usam chaves de fenda sem fio.
Agora, os cabos de energia estão conectados à placa-mãe e aos ventiladores do sistema de refrigeração. É importante que, às vezes, o comprimento dos cabos seja mais longo do que o necessário, para que sejam cuidadosamente presos com tiras de nylon finas. Se não for possível fixar a mesa no corpo, o fabricante fornece almofadas de montagem convenientes em fita dupla face. As extremidades são cuidadosamente cortadas com cortadores laterais.
Em seguida, o painel frontal e o painel traseiro são conectados usando os cabos apropriados. Agora você pode prosseguir com a instalação de processadores e outros elementos.
Instalação da CPU
Esta operação é talvez a mais sutil e requer atenção. Até 10 anos atrás, os processadores tinham “pernas” convenientes e os soquetes eram uma matriz plástica com orifícios. Graças a isso, bastava inserir cuidadosamente o processador no soquete e fechar a trava. Começando com o soquete LGA 775, os processadores perderam suas "pernas", deixando apenas suaves contatos. Os soquetes, pelo contrário, agora têm contatos, mas são tão pequenos e frágeis que qualquer operação com a instalação do processador deve ser a mais precisa possível.
Soquete contemporâneo FCLGA3647
Processador escalável Intel XeonDepois que os processadores são instalados em seus lugares, é a vez de instalar radiadores de refrigeração. Como regra, são utilizados radiadores passivos, mas antes disso, a graxa térmica é aplicada - uma camada de material condutor de calor que separa o processador e o radiador. Na maioria das vezes, uma pasta de organossilício como o KPT-8 é usada para isso.
Deve-se lembrar que a principal tarefa da pasta térmica é fechar defeitos microscópicos tanto na superfície do processador quanto na superfície do radiador, proporcionando a maior área de contato possível. Portanto, é aplicado em uma camada muito fina e uniforme. Para fazer isso, use uma espátula especial ou o cartão plástico desnecessário à moda antiga. Os excessos são removidos com cotonetes.
Instalação RAM
Cada fabricante da placa-mãe determina independentemente a ordem correta de instalação dos módulos de RAM, dependendo do seu tipo e velocidade. Para Supermicro, este procedimento de instalação é descrito nas instruções para cada modelo da placa-mãe. No entanto, existem várias regras universais que funcionam na maioria dos casos:
- é indesejável usar um número ímpar de ripas (relevante para os processadores Intel Xeon na linha E5);
- a memória deve ser alocada canal por canal para que o sistema possa usar todos os modos possíveis de mecanismos de controle;
- em um servidor, é desejável usar memória com a mesma latência, tensão e frequência na faixa que a placa-mãe suporta.
Antes da instalação, os engenheiros verificam se não há partículas estranhas de poeira ou papel nos slots. Se necessário, é usado ar comprimido para limpeza.
Instalação da unidade
Tudo é simples aqui. As unidades de disco são fixadas em skids padrão e depois inseridas no servidor. Se forem solicitados controladores de disco ou placas de rede adicionais, eles serão instalados nos slots PCI-E correspondentes e protegidos com parafusos. Depois que tudo é instalado em seu lugar, o engenheiro do departamento de montagem verifica novamente a conformidade de todos os componentes com o pedido e envia o servidor ao suporte para firmware e testes.
Gerenciamento de cabos
Abordamos tópicos como gerenciamento de cabos dentro do servidor. Aqui também têm suas próprias nuances, a principal das quais é o espaço limitado. A maioria dos servidores é projetada para ocupar espaço mínimo em rack. A altura de uma unidade de montagem é 43,7 mm. Por esse motivo, o espaço para cabos após a instalação da placa-mãe e de outros periféricos é bem pequeno.
Curiosidade: uma unidade de montagem em altura é exatamente igual a um vértice (antiga unidade russa de comprimento).
Você sempre deve considerar que o ar deve passar pelo servidor sem obstáculos para resfriar efetivamente os componentes. Quaisquer obstáculos em seu caminho piorarão a dissipação de calor e, consequentemente, aumentarão o consumo de energia devido ao aumento da carga no sistema de refrigeração. Isso é especialmente importante para servidores com várias GPUs, cuja temperatura sob carga atinge 80 graus.
O fluxo de ar é dividido igualmente entre todas as GPUsPortanto, todos os cabos são colocados de maneira a não bloquear a passagem de ar. Os excedentes com a ajuda de gravatas são fixados nos olhos regulares e, em caso de ausência, em plataformas plásticas com fita dupla face.
Os cabos são instalados para não interferir na passagem do fluxo de arFirmware componente
Para começar, responderemos a uma pergunta freqüente - por que isso é necessário? A resposta é simples - esse procedimento é necessário para garantir que todos os componentes do servidor funcionem sem erros, além de aumentar o nível de segurança.
A maioria dos componentes do servidor é criada com a expectativa de que eles possam ser reprogramados. Depois de sair da linha de montagem durante o teste e a operação, na maioria dos casos, erros e vulnerabilidades de software são detectados. Se a possibilidade de reprogramar os componentes não fosse fornecida, para eliminar esses problemas de software, todos os produtos teriam que ser recuperados. Era muito mais barato criar a capacidade de substituir o firmware.
IPMI piscando
O módulo de controle remoto (IPMI / iLO / iDrac) é um dos elementos mais importantes do servidor. É um microcomputador independente, que sempre funciona quando há voltagem operacional na placa-mãe.
Mesmo quando não há componentes no servidor, este microcomputador funciona, executando a tarefa de interpretar e ajustar dados dos sensores do servidor. O módulo está intimamente conectado a todos os subsistemas de gerenciamento de energia e permite executar praticamente qualquer operação remotamente. Portanto, a questão da segurança ao acessar esse dispositivo é muito aguda. A atualização oportuna do firmware permite proteger o módulo contra hackers.
A instalação do firmware geralmente é feita diretamente da interface da web, mas, em alguns casos, pode ser feita pela rede enviando o firmware com o software apropriado para o módulo.
BIOS piscando
O sistema de E / S básico, além do motivo de segurança já listado, requer atualização para outro ponto importante. O firmware do BIOS contém microcódigos para processadores suportados pela placa-mãe, bem como microcódigos para interfaces de rede e chipsets. Quando uma nova versão do processador é lançada, os fabricantes de placas-mãe lançam novas versões de firmware que contêm o microcódigo necessário. Sem isso, o novo processador simplesmente não pode ser iniciado.
Além disso, o lançamento de um novo firmware evita conflitos decorrentes da interação de vários componentes (embutidos na placa-mãe e em dispositivos de terceiros). Juntamente com o firmware do BIOS, os módulos relacionados, como o Intel ME (Management Engine), são frequentemente atualizados.
Para não ser infundado, damos um exemplo. Use as placas-mãe Supermicro X10SRi / X10DRi / X10DRW que suportam os processadores Intel Xeon E5-XXXXv3. Se você colocar o processador da próxima versão E5-XXXXv4 lá, a placa iniciará, mas produzirá erros estranhos da RAM DIMM com falha em slots diferentes. E o problema aqui não está na memória, mas no fato de que o controlador de memória está localizado no processador. Portanto, o reconhecimento incorreto do processador pela placa-mãe leva ao fato de que problemas semelhantes surgem. Piscando com um processador suportado resolve completamente essa situação.
Em alguns casos, os fabricantes de equipamentos interrompem artificialmente o suporte a equipamentos antigos com os modelos mais recentes de placas-mãe. Um exemplo impressionante é a placa-mãe Supermicro X11DPi, que com qualquer versão do firmware do BIOS
não funcionará com os HBAs da série 7 da Adaptec . O controlador de disco simplesmente não inicializa, fazendo com que o servidor congele completamente. E no momento este problema não tem solução.
Controladores de disco intermitentes
Erros no software de dispositivos importantes como controladores de disco podem não apenas causar problemas, mas também se tornar uma fonte de problemas muito grandes. Na maioria dos casos, o processo é muito simples, a intermitência ocorre usando o utilitário nativo, incorporado diretamente no próprio controlador.
Deve-se lembrar que o firmware antigo do controlador de disco pode não apenas corrigir erros, mas também alterar radicalmente a maneira como os metadados são armazenados. Para evitar situações desagradáveis e manter os dados intactos, é imperativo ler a lista de alterações na funcionalidade antes de executar um piscar. Essas informações estão sempre presentes no site do fabricante do equipamento e geralmente são duplicadas no arquivo com o próprio firmware.
Placas de rede piscando
Problemas não menos graves, extremamente difíceis de diagnosticar, podem fornecer placas de rede com erros no nível do firmware. Além da solução de problemas, o software da placa de rede pode afetar diretamente o desempenho. Portanto, este é outro item obrigatório para engenheiros que constroem os servidores.
É importante
Gostaria de observar separadamente que todas as operações em componentes intermitentes são potencialmente perigosas para o equipamento, portanto, é permitido executá-las somente por especialistas qualificados. Se você já é nosso cliente e descobriu a necessidade de atualizar novamente qualquer componente do servidor,
nunca tente fazê-lo sozinho . Basta escrever para nós no ticket qual componente deve ser atualizado novamente, e isso será feito com todas as precauções.
Teste
Após concluir a atualização do software, o engenheiro de montagem passa a testar o servidor montado. Esse teste permite identificar a maioria dos problemas antes mesmo de o servidor ser entregue ao cliente.
Teste de RAM
Para verificar a operacionalidade de todos os módulos de RAM instalados no servidor, é lançada uma ferramenta muito popular chamada memtester. Imediatamente antes do teste, o engenheiro de construção verifica se todos os módulos de memória instalados no servidor são exibidos corretamente no BIOS.
Quando o teste é iniciado, o processo de leitura e gravação de dados na RAM ocorre usando uma sequência diferente de dados e a ordem na qual as células são preenchidas. A velocidade de execução de todos os testes depende diretamente do volume. Nossos requisitos mínimos são um ciclo completo de inspeção.
Se forem detectados erros durante o processo de teste, procuramos um módulo de RAM com falha e o excluímos da configuração, substituindo-o por um similar. Em seguida, o processo de teste é repetido por inteiro. Somente quando todas as iterações de teste são concluídas sem erros, o servidor passa ao teste de estresse.
Teste de CPU e disco
O teste de carga simula a carga máxima no servidor por pelo menos 6 horas para um servidor com unidades magnéticas. No caso de unidades de estado sólido, um teste tão longo pode aumentar drasticamente o desgaste da unidade; portanto, um teste semelhante é realizado para elas com um tempo de execução mais curto.
O teste de carga para processadores Intel é realizado usando o utilitário Intel IPDT (Processor Diagnostic Tool) original. Esse processo faz com que a temperatura do processador suba para a temperatura operacional máxima permitida e o sistema de resfriamento deve remover efetivamente todo esse calor. Os engenheiros de montagem garantem constantemente que o servidor passe nesse teste e a temperatura de todos os componentes não exceda os limites operacionais declarados.
Após a conclusão do teste, as configurações SMART de todas as unidades instaladas são verificadas. Se pelo menos um parâmetro declarado pelo fabricante como motivo para substituir a unidade for diferente de zero, o disco será substituído por outro e também será testado para eliminar a probabilidade de problemas no "modo de combate".
Conclusão
Cada servidor de qualquer configuração alugada por nós é verificado e testado várias vezes, para que possam ser usados com segurança em qualquer projeto de uma só vez, sem perder tempo com repetidos testes e verificações. Cada servidor solicitado terá a versão de firmware mais atual de cada componente, o que oferece boa proteção contra vulnerabilidades e erros existentes.
Conte-nos sobre sua experiência na criação ou teste de servidores. Quais recursos interessantes você encontrou? À espera de suas histórias nos comentários.