
Ontem, 02/02/2019, a Intel anunciou a tão esperada atualização para a família de processadores escaláveis Intel® Xeon®, lançada em meados de 2017. Os novos processadores são baseados em microarquitetura, codinome Cascade Lake e construídos em um processo aprimorado de 14 nm.
Recursos dos novos processadores

Primeiro, dê uma olhada nas diferenças de rotulagem. No artigo anterior sobre o Skylake-SP, já mencionamos que todos os processadores são divididos em 4 séries -
Bronze ,
Prata ,
Ouro e
Platina . O primeiro dígito do número informa a quais séries o modelo do processador pertence:
- 3 - Bronze,
- 4 - Prata,
- 5, 6 - Ouro,
- 8 - Platina.
O segundo dígito indica a geração do processador. Para a família de processadores escaláveis Intel® Xeon®, gerações de codinome:
- 1 - Skylake,
- 2 - Lago Cascade.
Os próximos dois dígitos indicam o chamado SKU (Stock Keeping Unit). De fato, este é apenas um identificador de CPU com um conjunto específico de funções disponíveis.
Além disso, após o número do modelo, pode haver índices indicados por uma ou duas letras. A primeira letra do índice indica os recursos da arquitetura ou otimização do próprio processador e a segunda - a capacidade de memória no soquete.
Por exemplo, considere um processador chamado
Intel® Xeon® 6240 . Descriptografar:
- 6 - Processador da série Gold,
- 2 - a geração do lago Cascade,
- 40 - SKU.
Desempenho
Os processadores de nova geração são projetados com a expectativa de uso nos campos da virtualização, inteligência artificial e computação de alto desempenho. A primeira mudança notável foi o aumento da frequência do relógio. Isso era bastante esperado, já que há um grande número de aplicativos de servidor para os quais a velocidade do clock é mais importante que o número de núcleos do processador. Por exemplo, o produto financeiro 1C, cujos requisitos do sistema indicam claramente que quanto maior a frequência do processador, mais rápido o usuário final obterá o resultado.
Em alguns casos, o número de núcleos foi aumentado. Para maior clareza, compilamos tabelas comparativas de vários processadores da família de processadores escaláveis Intel® Xeon® de primeira e segunda geração:
Um aumento na freqüência do relógio inevitavelmente leva a um aumento na dissipação de calor. Para os principais processadores da série Platinum, ele pode atingir
205W , que é um teste muito sério para um sistema de refrigeração a ar tradicional. Pode-se supor que, no futuro previsível, as plataformas de servidor exigirão refrigeração líquida.
Como na geração anterior do Skylake SP, os processadores são instalados no soquete
LGA3647 (soquete P), devido ao uso de um controlador de memória de 6 canais (até um máximo de 2 módulos de memória por canal). A frequência da memória é
2666 MT / s ; no entanto, ao usar processadores das séries 6000 e 8000, você pode usar a memória com uma frequência de
2933 MT / s (não mais que 1 módulo por canal).

O barramento de
interconexão Ultra-Path , usado com sucesso nos processadores Intel Xeon SP de primeira geração, permaneceu na segunda geração, fornecendo troca de dados entre processadores a velocidades de 9,6 GT / s ou 10,4 GT / s para cada canal. Isso permite escalar efetivamente a plataforma de hardware para 8 processadores físicos, otimizando a largura de banda e a eficiência energética.
Testes
Começamos a testar os processadores de nova geração com a ajuda do conjunto de testes
SPEC , que simula a carga com base na solução das tarefas de vida mais prementes. Esses testes representam os cálculos mais simples e o cálculo de vários processos físicos, por exemplo, resolvendo problemas de física molecular e hidrodinâmica.
Atualmente, preparamos os resultados de alguns testes SPEC para cálculos inteiros usando os processadores Intel® Xeon® Gold 6140 e Intel® Xeon® Gold 6240 como exemplos.
Descrição do teste- O perlbench_r é uma versão simplificada do idioma Perl. A carga de teste imita o trabalho do popular sistema anti-spam SpamAssassin;
- deepsjeng_r - simulação de um jogo de xadrez. O servidor realiza um estudo aprofundado das posições do jogo usando o algoritmo alfa-beta-clipping;
- leela_r - simulação de um jogo em movimento. No processo de teste, há uma análise dos padrões de movimento, bem como uma pesquisa seletiva na árvore com base nos limites superiores de confiança;
- exchange2_r - gerador de quebra-cabeças sudoku não triviais. Escrito no Fortran 95, ele usa a maioria das funções de processamento de array;
- Compilador da linguagem gcc_s C. A carga de teste “compila” o compilador GCC a partir dos códigos-fonte da arquitetura do microprocessador IA-32.
De acordo com os resultados dos testes, fica claro que os processadores da nova geração executam cálculos inteiros mais rapidamente que a geração anterior. Compartilharemos os resultados de outros testes em um dos seguintes artigos.
Suporte à memória persistente Intel® Optane ™ DC
Acelerando a carga de trabalho de bancos de dados e aplicativos altamente carregados - é o que todos os clientes esperavam da próxima atualização. Portanto, uma inovação importante foi o suporte à memória persistente Intel® Optane ™ DC, mais conhecida sob o nome de código Apache Pass.

Essa memória foi projetada para se tornar uma solução universal para o problema ao usar a quantidade certa de DRAM é economicamente desvantajosa, e as características de velocidade dos SSDs principais não são suficientes.
Um exemplo vívido é o posicionamento de bancos de dados diretamente na memória persistente Intel® Optane ™ DC, que elimina a necessidade de troca constante de dados entre a RAM e um dispositivo de armazenamento (um recurso inerente aos sistemas tradicionais).
Um novo tipo de memória é instalado diretamente no slot DIMM e é totalmente compatível com ele. Módulos com o seguinte volume estão disponíveis:
Esses volumes significativos de módulos permitirão que você configure com flexibilidade a plataforma de hardware, tendo recebido um espaço em disco muito amplo e muito rápido para sistemas altamente carregados. A memória persistente Intel® Optane ™ DC tem um enorme potencial de aplicação, incluindo aprendizado de máquina.
Aprendizagem profunda mais rápida
Além de oferecer suporte a um novo tipo de memória, os engenheiros da Intel cuidaram de acelerar o processo de aprendizado profundo. Como as redes neurais convolucionais geralmente exigem multiplicação múltipla de valores de 8 e 16 bits, os novos processadores receberam suporte para as
instruções AVX-512 VNNI (Instruções para redes neurais vetoriais). Isso permitirá otimizar e acelerar o cálculo várias vezes.
A melhor eficiência é alcançada implementando o seguinte conjunto de instruções:
- VPDPBUSD (para cálculos INT8),
- VPDPWSSD (para cálculos INT16).
A linha inferior é reduzir o número de itens processados por ciclo. A instrução
VPDPWSSD combina as duas instruções INT16 e também usa a constante INT32 para substituir as duas instruções atuais
PMADDWD e
VPADDD . A instrução
VPDPUSB também reduz o número de elementos, substituindo as três instruções existentes
VPMADDUSBW ,
VPMADDWD e
VPADDD .
Assim, com a aplicação correta do novo conjunto de instruções, é possível reduzir o número de elementos processados por ciclo de duas a três vezes e aumentar a velocidade do processamento de dados. Uma estrutura apropriada para novas instruções se tornará parte de bibliotecas populares de software de aprendizado de máquina, como:
Otimização de balanceamento de carga
O carregamento uniforme de recursos de computação ficou mais fácil com a tecnologia Intel® Speed Select (em processadores com um índice de Y). O ponto principal é que cada operação começa a ser associada ao número de núcleos envolvidos e à velocidade do relógio. Dependendo do perfil selecionado de cada operação, os recursos são alocados da seguinte maneira:
- mais núcleos, mas com uma velocidade de clock mais baixa;
- menos núcleos, mas com maior velocidade de clock.
Essa abordagem permite que você utilize totalmente os recursos, o que é especialmente importante ao usar ambientes virtualizados. Isso reduzirá os custos, otimizando a carga nos hosts de virtualização.
Aceleração da Computação Científica
O processamento de dados científicos, especialmente ao modelar processos físicos no nível das partículas (por exemplo, calcular interações eletromagnéticas) requer uma quantidade enorme de computação paralela. Este problema pode ser resolvido usando uma CPU, GPU ou FPGA.
As CPUs multinúcleo são universais devido ao grande número de ferramentas e bibliotecas de software para processamento de dados. O uso de uma GPU para esses fins também é muito eficaz, porque você pode executar milhares de threads paralelos diretamente nos núcleos gráficos do hardware. Existem estruturas convenientes para o desenvolvimento, como OpenCL ou CUDA, que permitem criar aplicativos de qualquer complexidade usando a
computação da GPU .
No entanto, há outra ferramenta de hardware sobre a qual já falamos
em artigos anteriores - FPGA. A capacidade de programar esses dispositivos para executar cálculos específicos permite acelerar o processamento de dados, descarregando parcialmente a CPU. Um cenário semelhante pode ser implementado nos novos processadores Cascade Lake em conjunto com os discretos FPGAs Intel® Stratix® 10 SX.
Apesar da menor velocidade de clock em comparação com as CPUs convencionais, o FPGA é capaz de mostrar desempenho dez vezes maior. Para alguns tipos de tarefas, como processamento de sinal digital, o Intel® Stratix® 10 SX pode exibir resultados de até 10 TFLOPS (tera operações de ponto flutuante por segundo).
Escala de plataforma
Fazer negócios em tempo real implica não apenas estabilidade, mas também a capacidade de escalar sob demanda. Um bom exemplo é a plataforma SAP HANA de alto desempenho usada para armazenamento e processamento de dados. A implantação física desta plataforma requer recursos de hardware muito poderosos.
Os processadores escalonáveis Intel® Xeon® foram projetados para transformar sistemas com vários soquetes em elementos essenciais da infraestrutura de TI, fornecendo escalabilidade para atender às demandas dos aplicativos de negócios.

Isso é implementado na forma de suporte para controladores de nó externos, o que permite criar configurações de nível superior ao que uma única plataforma pode fornecer. Por exemplo, você pode criar uma configuração de 32 processadores físicos combinando os recursos de várias plataformas com vários soquetes em um único todo.
Conclusão
Um aumento nas frequências operacionais e nos núcleos do processador, um aumento na produtividade e suporte à memória persistente Intel® Optane ™ DC - todas essas melhorias aumentam significativamente o poder de computação de cada plataforma, reduzindo o custo da quantidade de equipamentos utilizados e aumentando a eficiência do processamento de dados. O princípio da escalabilidade, estabelecido no nível da arquitetura, permite construir uma infraestrutura de TI de qualquer complexidade e alcançar alto desempenho e eficiência energética.
Como a Selectel é uma parceira Intel Platinum, nossos clientes
agora estão disponíveis para encomendar os processadores escaláveis Intel® Xeon® de próxima geração em servidores de configuração arbitrária.
É fácil alugar um servidor com processadores de última geração! Basta ir
à página do configurador e selecionar os componentes necessários. Qualquer dúvida sobre a operação dos serviços pode ser feita aos nossos especialistas,
criando um ticket no painel de controle. Ao pagar um servidor com vários meses de antecedência, você recebe um desconto de até 15%.
Se você estiver interessado em participar do teste das mais recentes tecnologias, faça parte do nosso laboratório Selectel.
Teremos o maior prazer em ouvir suas perguntas e sugestões nos comentários.