Como "colar" um servidor baseado em Intel e superar o limite de expansão de 8 processadores

Se você está ampliando bancos de dados grandes e de repente atinge um limite de desempenho - é hora de expandir. Com a extensão de expansão, fica claro: você adiciona servidores e não conhece a dor. Com o aumento de escala, não é tão divertido. De acordo com a arquitetura sem cola padrão, pegamos dois processadores e depois adicionamos mais dois ... então chegamos a oito e é isso. A Intel não previa mais isso; economize em um novo servidor.



Mas há uma alternativa - arquitetura colada. Nele, as unidades de computação com processador duplo são interconectadas por meio de controladores de nó. Com a ajuda deles, o limite superior por servidor aumenta para 16 ou mais processadores. Neste post, falaremos mais sobre arquitetura colada em geral e como ela é implementada em nossos servidores.

Antes de avançarmos para a arquitetura colada, por uma questão de honestidade, nos debruçamos sobre os prós e contras da falta de brilho.

Soluções feitas de acordo com a arquitetura sem cola são típicas. Os processadores se comunicam sem um dispositivo adicional, mas através do barramento QPI \ UPI padrão. O resultado é um pouco mais barato do que com colado. Mas depois de cada oito processadores, é necessário gastar muito dinheiro - para instalar um novo servidor.


Arquitetura típica sem cola

E com a arquitetura colada, como já dissemos, o teto aumenta para 16 ou mais processadores por servidor.

Como a arquitetura colada do Bull BCS2 funciona


Os pontos fortes da arquitetura Bull BCS2 são fornecidos por dois componentes - Resilient eXternal Node-Controller e cache do processador. Equipes compatíveis com os processadores Intel Xeon E7-4800 / 8800 v4 series são suportadas.


Arquitetura colada Bull BCS2. Todas as conexões no servidor são visíveis aqui. Cada nó BCS possui 7 links XQPI.

Graças ao armazenamento em cache, a quantidade de interação entre os processadores é reduzida - os processadores em cada módulo têm acesso a um cache comum. Assim, a carga na RAM é reduzida. Noda, por sua vez, trabalha como comutador de tráfego e resolve o problema dos “pescoços estreitos” - redireciona o tráfego pelo caminho menos usado.

Como resultado, a arquitetura Bull BCS2 consome apenas 5 a 10% da largura de banda do barramento Intel QPI, o padrão para a arquitetura sem cola. Quanto aos atrasos de acesso à memória local, eles são comparáveis ​​aos sistemas sem cola de 4 soquetes e são 44% menores que os sistemas sem cola de 8 soquetes. De acordo com as especificações, a velocidade total de transferência de dados do nó BCS é de 230 GB / s - 25,6 GB / s são obtidos para cada uma das 7 portas. A largura de banda máxima é de 300 GB / s.



Em cada servidor Bullion S, existe uma opção na placa-mãe. Um link XQPI (16 soquetes) em termos de velocidade é equivalente a dez portas 10 GigE.


Range Bullion S

Nas configurações de 4 e 8 processadores, a diferença entre arquitetura colada e sem cola é insignificante. No entanto, a situação muda ao mudar para 16 processadores. Lembramos que, sem cola, você já precisa de dois servidores para isso. E no servidor Bullion S com arquitetura colada, tudo ocorre assim:


Os módulos de processador duplo são interconectados através de uma rede XQPI com uma taxa de transferência de 14 GT / s (bilhões de transações por segundo)

Os slots acomodam qualquer processador da família E7, com exceção do E7-8893, que só pode ser usado em configurações de processador duplo. Comparado ao acesso à memória local, o atraso do sistema NUMA atinge cerca de x1,5 dentro do módulo e cerca de x4 entre os módulos. O controlador host gerencia a partição de hardware e permite criar até 8 partições separadas em execução no sistema operacional nos servidores Bullion S.

Como resultado, podemos hospedar até 384 núcleos de processador em um servidor. Quanto à RAM, aqui o teto é de 384 módulos DDR4 de 64 GB. No total, temos 24 terabytes.

A configuração descrita é relevante para nossos cavalos de trabalho - servidores Bullion S. Além disso, temos a linha BullSequana S, que pode incluir até 32 processadores físicos baseados na plataforma Intel Purley e nas arquiteturas Skylake e Cascadelake (primeiro trimestre de 2019).

Exemplos de integração


O Bullion S foi projetado para tarefas exigentes - SAP HANA, Oracle, MS SQL, Datalake (certificado Cloudera no BullSequana S), virtualização / VDI na VMware e soluções hiperconvergentes baseadas no VMware vSAN. Parcialmente nos servidores Bullion S, a Siemens criou a maior plataforma SAP HANA do mundo. Também baseado no Bullion S, a PWC criou uma solução enorme para o Hadoop e a análise. No total, cerca de 300 empresas no mundo usam soluções Bull.

Para que você possa estimar as capacidades de nossos servidores, apresentaremos um plano para migrar um banco de dados Oracle do Power para x86 nas filiais de uma operadora de telecomunicações russa:



Conclusão


Graças ao cache do processador, a arquitetura colada permite que os processadores se comuniquem diretamente com outros processadores no nó. E links rápidos - não diminua a velocidade ao interagir com outros clusters. Hoje, até 16 processadores (384 núcleos) e até 24 TB de RAM se encaixam em um servidor Bullion S. A etapa de dimensionamento é de dois processadores - isso facilita a distribuição da carga financeira ao criar uma infraestrutura de TI.

Em materiais futuros, planejamos analisar nossos servidores com mais detalhes. Teremos o maior prazer em responder às suas perguntas nos comentários.

Source: https://habr.com/ru/post/pt432832/


All Articles