"Encontre as cinco diferenças." Escalabilidade e diferença de geração - Novo lote de testes



Menos de dois anos após o anúncio, a Intel lançou a segunda geração de processadores escaláveis ​​Intel Xeon na nova arquitetura Cascade Lake. Oficialmente - 2 de abril. A própria empresa o chama de o maior lançamento de sua história, estrategicamente muito importante para ele. Bem, vamos descobrir o que há de tão especial nesses novos escaláveis.

O que restou?



Os processadores Cascade Lake, ou melhor, Cascade Lake SP, como seus antecessores Skylake, ainda pertencem à plataforma Purley, agora a segunda geração - Purley Refresh. Eles são totalmente compatíveis com o Skylake no nível do conector, chipsets e placas-mãe herdados da primeira geração. Mas com nuances - por exemplo, as novas biografias.
A tecnologia do processo não mudou. Os mesmos 14 nm, no entanto, com otimizações.

O esquema geral de nomes e nomes para as séries Platina, Ouro, Prata e Bronze permaneceu o mesmo. É verdade que existem mais "sufixos". Novos Y, N, V ​​e S foram adicionados às L, M e T. existentes. A numeração da segunda posição (centenas) mudou na numeração: agora, em vez de unidade - duas, ou seja, a ouro 6240 será a sucessora, por exemplo, a ouro 6140.

Caso contrário, as características básicas e o conjunto de recursos não foram alterados. O número de núcleos e tamanhos de cache mantém posições: até 28 e 1 MB L2 por núcleo + até 38,5 MB no total L3. O número e o tipo de linhas PCI-E são os mesmos que eram - 48 linhas da versão 3.0. A escalabilidade é a mesma: até 3 linhas UPI por 10,4 GT / se até 8 soquetes (perfeitamente) no sistema.

O que você adicionou?


Em geral, existem muitas micro-atualizações diferentes, mas eu as destacaria dentre as mais ou menos significativas.

Primeiro, o Cascade Lake introduziu patches de hardware contra vulnerabilidades sensacionais no ano passado . A Intel introduziu soluções de software e hardware nas opções 2 (Spectre), 3, 3a e 4 (Spectre NG), L1TF (Foreshadow). Para a Spectre Variant 1, apenas o patch do software ainda é oferecido. Ou seja, tudo o que já está na linha Intel Core i9. E assim aparece em um comunicado de imprensa:

  • Opção 1. A proteção é realizada por meio do SO e VMM (Virtual Machine Monitor)
  • Opção 2. Reforço de previsão de ramificação de hardware (prevenção de ataques futuros por esse método) + por meio do SO e VMM
  • Opção 3. Endurecimento do hardware
  • Opção 3a. Hardware
  • Opção 4. Hardware + OS / VMM
  • L1TF. Já está fechado graças à opção 3 de proteção de hardware

Em segundo lugar, o suporte à memória DDR4-2933 apareceu. Mas com reservas: somente para as linhas Gold e Platinum (Bronze e Prata ainda funcionam com DDR4-2400) e com apenas um DIMM por canal - em uma configuração com dois DIMMs por canal, a frequência diminui para 2666 MT / s.

Em terceiro lugar, a memória persistente Intel Optane DC (DCPM) foi lançada. A redação mais clara sobre o que é foi obtida por Tiskoma, então cito:
“A memória persistente Intel Optane DC (DCPM) é uma nova classe de tecnologia que combina os conceitos chamados“ memória e armazenamento ”para uso em data centers.”

Você deve se lembrar que a Intel introduziu anteriormente a tecnologia Intel Memory Drive para os módulos Xeon Skylake: Hypervisor (Xen) + Optane NVMe. Tivemos até testes sobre esse assunto, mas os resultados não foram inspiradores e decidimos esperar por uma solução mais impressionante. Parece ter esperado =)

No centro da nova solução da Intel estão os DCPMMs que são visualmente semelhantes aos DIMMs e são compatíveis elétrica e mecanicamente com eles. Eles operam a uma velocidade de 2666 MT / se têm uma capacidade de 128/256/512 GB. No nível lógico, eles usam o protocolo DDR4-T (Transaction), que, de acordo com a Intel, é aprovado pelo JEDEC, mas na prática é suportado apenas nos controladores de memória Cascade Lake. Ou seja, eles instalaram uma memória independente de energia criada usando a tecnologia 3D XPoint no conector DDR4 DIM4, que novamente supera o NAND Flash amplamente difundido em três ordens de grandeza (1000 vezes) em termos da Intel, como velocidade e vida útil.

A solução acabou sendo muito interessante e extremamente ambígua: é claro, existem recursos operacionais (não sem ela), preço e aplicativos. Mas não vamos nos concentrar nesse recurso matador para esta linha de processadores - uma história mais detalhada sobre isso vai muito além do escopo do artigo de hoje. Assim que os testes em todos os modos operacionais possíveis dessa tecnologia estiverem prontos, execute imediatamente o longrid :-)

Quarto, as tecnologias Intel Resource Director Technology (RDT), Speed ​​Select (SST) e Intel DL Boost foram aprimoradas.

Vou começar com RDT. Representa mecanismos de monitoramento e controle bastante finos sobre a execução de aplicativos e o uso de recursos. A peça não é nova, mas nesta linha eles colocaram suas mãos bem e trabalharam em detalhes. A linha inferior é que um aplicativo com maior prioridade no tempo obtém tudo o que precisa. Naturalmente, devido à "violação dos direitos" de outros aplicativos.

Agora SST. Aqui está o mesmo, mas no nível dos núcleos: permite distinguir firmemente um grupo de núcleos que terá uma prioridade aumentada sobre os outros. A aparência desta vez não é estréia, mas é espetacular.

E para a sobremesa, o Intel DL Boost. A inovação refere-se a um novo conjunto de instruções, anteriormente conhecido como Vector Neural Network Instructions (VNNI). Gizmo para IA, ou melhor, para um treinamento mais flexível de redes de aprendizado profundo. De fato, outro complemento sobre o AVX-512.

E finalmente, quinto. De acordo com a antiga tradição, há mais frequências, mais núcleos para atualizações da Intel :-) As frequências base e as frequências no impulso cresceram de 200 a 300 MHz. Com algumas exceções, dois núcleos foram adicionados por processador. A quantidade de RAM suportada aumentou.

Separadamente, vale a pena observar o trabalho da Intel para otimizar o uso de caches e RAM, provavelmente para minimizar o impacto negativo de patches de vulnerabilidades da família Spectre e Meltdown.

Mais detalhes sobre a arquitetura do Cascade Lake podem ser encontrados no wikichip . Eu recomendo a leitura. E agora - testes tradicionais.

Teste


O teste envolveu oito processadores escaláveis ​​Intel Xeon:

  • primeira geração - prata 4110, prata 4114, ouro 6130, ouro 6140
  • segunda geração - prata 4210, prata 4214, ouro 6230 e ouro 6240.



As características de desempenho das plataformas

Todos os processadores têm a mesma configuração básica.

  • Plataforma: Intel Corporation S2600WFT (BIOS SE5C620.86B.02.01.0008.031920191559)
  • RAM:
    • Samsung DDR4-2933 de 16 GB - 12 unidades (uma para cada canal) para os processadores Gold 6230 e 6240
    • Samsung DDR4-2666 de 16 GB - 12 unidades (uma para cada canal) para os processadores Gold 6130 e 6140
    • Samsung DDR4-2400 de 16 GB - 12 unidades (uma para cada canal) para processadores Silver de ambas as gerações
  • SSD: Intel DC S4500 480 GB - 2 peças em RAID1
  • Configuração de processador duplo

Parte do software: CentOS Linux 7 x86_64 (7.6.1810)
Kernel: 3.10.0-957.12.2.el7.x86_64
Otimizações introduzidas em relação à instalação padrão: adicionadas opções de inicialização do kernel lift = noop selinux = 0
O teste é realizado com todos os patches dos ataques Spectre, Meltdown e Foreshadow portados para este kernel.

A lista de testes que iremos realizar:

  1. Geekbench
  2. Sysbench
  3. Phoronix Test Suite

Descrição detalhada do teste
Geekbench Test

Um pacote de testes conduzidos no modo de thread único e multithread. O resultado é um índice de desempenho para os dois modos. Neste teste, consideraremos dois indicadores principais:

  • Pontuação de núcleo único - testes de thread único.
  • Pontuação Multi-Core - testes multiencadeados.

Unidades de medida: abstratos "papagaios". Quanto mais papagaios, melhor.

Teste Sysbench

Sysbench - um pacote de testes (ou benchmarks) para avaliar o desempenho de vários subsistemas de computadores: processador, RAM, armazenamento de dados. O teste é multiencadeado, para todos os núcleos. Neste teste, medi um indicador: eventos de velocidade da CPU por segundo - o número de operações executadas pelo processador por segundo. Quanto maior o valor, mais produtivo o sistema.

Phoronix Test Suite

O Phoronix Test Suite é um conjunto de testes muito rico. Quase todos os testes apresentados aqui são multithread. Apenas dois deles são uma exceção: testes single-threaded Himeno e LAME MP3 Encoding.

Nesses testes, quanto maior a pontuação, melhor.

  1. Teste de senhas John the Ripper multithread. Pegue o algoritmo de criptografia Blowfish. Mede o número de operações por segundo.
  2. O Teste Himeno é um solucionador de pressão de Poisson linear usando o método de ponto de Jacobi.
  3. Compressão 7-Zip - teste 7-Zip usando p7zip com função de teste de desempenho integrado.
  4. O OpenSSL é um conjunto de ferramentas que implementam os protocolos SSL (Secure Sockets Layer) e TLS (Transport Layer Security). Mede o desempenho do OpenSSL RSA de 4096 bits.
  5. Apache Benchmark - o teste mede quantas solicitações por segundo um determinado sistema pode suportar durante a execução de 1.000.000 de solicitações, enquanto 100 solicitações são executadas simultaneamente.

E nesses, se menos, é melhor - em todos os testes, o tempo que leva para medir é medido.

  1. O C-Ray testa o desempenho da CPU em cálculos de ponto flutuante. Este teste é multiencadeado (16 threads por núcleo), dispara 8 raios de cada pixel para suavizar e gera uma imagem de 1600x1200. O tempo necessário para concluir o teste é medido.
  2. Compactação BZIP2 paralela - O teste mede o tempo necessário para compactar um arquivo (pacote .tar do código-fonte do kernel Linux) usando a compactação BZIP2.
  3. Codificando dados de áudio. O teste LAME MP3 Encoding é realizado em um único fluxo. O tempo necessário para concluir o teste é medido.
  4. Compilação temporizada do GCC. Mostra quanto tempo leva para construir o compilador GNU GCC (versão 8.2.0). Unidades são segundos.

Neste teste, eu removi o teste ffmpeg porque ele parou de passar adequadamente no número total de núcleos que os modernos ouro possuem em uma configuração de processador duplo.

Resultados do teste






No teste Geekbench nas versões single-thread e multi-thread, o novo Scalable ignora os antigos em todos os aspectos. Em um teste de rosca única de 3% a 6%, em rosca múltipla de 6% a 13% e na apoteose - a prata 4210 é melhor que a prata 4110 em até 33%.



No teste Sysbench, a diferença é de 22% a 37%. A diferença mínima entre o ouro 6140 e o ouro 6240 é de 7% a favor do novo.



No teste, John The Ripper Silver 4210 ultrapassa a prata 4110 em 41% e entre a prata 4214 e a prata 4114 a diferença é de quase 30% - naturalmente, a favor do primeiro. Agora ouro. O ouro 6230 é 16% mais rápido que o ouro 6130. A diferença mínima entre o ouro 6140 e o ouro 6240 é de 7,6%.



O Silver 4210 ultrapassa o Silver 4110 em 29% e o Silver 4214 predecessor em 23%. A diferença entre os pares de ouro é de 20% e 8%, respectivamente.



No teste Himeno de thread único, você pode ver um aumento líquido de 200 a 300 MHz - de 2,2% para 6% a favor da nova geração.



O teste compress-7zip copia quase completamente o resultado do teste John The Ripper: Blowfish. Um belo espaço entre o Silver 4110 e o Silver 4210: 4210 é quase 35% mais rápido que o seu antecessor. A prata 4214 e o ouro 6230 são 18% e 20% melhores que os 4114 e 6130, respectivamente.O intervalo mínimo entre o ouro 6140 e o ouro 6240: o novo é 4,7% melhor do que antes.



No teste compress-pbzip2, a imagem é semelhante ao teste compress-7zip. Das diferenças significativas, a diferença entre o ouro 6130 e o ouro 6230 diminuiu, aqui é de 5,6%.



No teste Encode-mp3 de thread único, vemos novamente a diferença de 200-300 MHz. De 4% a 7% - a segunda geração escalável é muito melhor que a primeira neste teste.



No teste openssl, a maior diferença entre o Silver 4110 e o Silver 4210 é de 41%. Entre 4114 e 4214 - 29%. Os ouro têm menos. Entre o ouro 6130 e 6230 - 23%. E no par de ouro 6140 e 6240 - 4,6%. Observo que o ouro 6240 é apenas 0,78% melhor que o ouro 6230.



No teste Apache, a prata 4210 é melhor que a prata 4110 em 40%, a prata 4214 ultrapassa a prata 4114 em 36%, o ouro 6230 é melhor que o ouro 6130 em 21% e o ouro 6240 passa neste teste melhor que o ouro 6140 em 29%. Vou me concentrar especialmente nas versões Silver 4210, Silver 4214 e Gold 6230: o Gold 6230 é 3% melhor que o Silver 4210 e 1,5% melhor que o Silver 4214. Ou seja, a diferença é mínima. O ouro 6240 é 13% melhor que o ouro 6230.



No teste do GCC, a nova geração ultrapassa seus antecessores em cerca de 19%, 16%, 11% e 9,5%, respectivamente.



Qual é o resultado?

Observamos uma lacuna significativa entre o Silver 4110 e o Silver 4210 - a nova geração é melhor que a anterior em testes multithread de cerca de 20% a 40%. Obrigado, frequências e núcleos.
Já existe menos diferença entre o Silver 4114 e o Silver 4214: teste máximo - no teste Apache, ele atinge 36%.

Além disso, a diferença está diminuindo. O ouro 6230 ultrapassa o ouro 6130 na faixa de 11% no teste GCC a 23% no teste OpenSSL.

E, finalmente, a diferença mínima entre os pares Gold 6140 e Gold 6240: o novo está 3% -10% à frente do anterior, de acordo com o resultado da maioria dos testes. Uma exceção é o teste do Apache: a diferença é de 28% - menos núcleos, mais frequência básica (o Apache geralmente é um teste muito interessante).

E agora passamos a testes adicionais. Mas primeiro, um breve histórico.

Teste de RAM


Os novos processadores escaláveis ​​Gold 62xx Intel Xeon agora suportam um novo tipo de RAM DDR4-2933. Nós, logicamente, nos perguntamos: quanto a frequência da RAM afetará o desempenho geral do sistema. Em geral, com base no pressuposto de que mais ou mais sempre dá algo positivo, acreditava-se que um novo processador emparelhado com nova memória provaria ser ótimo. Mas uma coisa é supor e outra é verificar experimentalmente.

Para o teste, levamos o processador Gold 6240 em uma configuração de processador duplo. As características de desempenho da plataforma e do componente de software não foram alteradas. Testaremos essa memória: DDR4-2400, DDR4-2666 e DDR4-2933.

Sempre feliz quando disponível há tudo o que você precisa para testar hipóteses =) E agora vamos ver o que resultou disso.

Resultados do teste de RAM


Quando está bom demais, já está ruim. Por isso, decidi abandonar a ideia de desenhar todos os gráficos e trazer os resultados para as tabelas - mais convenientes e rápidos, embora menos claros. Os gráficos também serão, mas apenas os mais interessantes, na minha opinião.









"Ou estamos fazendo algo errado, ou uma de duas coisas."

A citação dos irmãos Pilot, embora ligeiramente parafraseada, acabou sendo muito útil após a conclusão do teste de memória ...

Como em todos os testes, fizemos dez medições e escolhemos valores médios para elas. Como você pode ver, os testemunhos variam tanto quanto os do cidadão Krolikova do filme Shirley-Myrli.

Nos testes, os resultados altos do Phoronix 50 a 50 mostram configurações com RAM 2400 e 2933 MHz. O Geekbench comparou a memória 2933 com os parâmetros Memory Score_Single e Memory Score_Multi, mas o resultado geral é surpreendente.

De suposições - o efeito de uma frequência mais alta na latência. E aqui vem o equilíbrio entre velocidade e tempo de resposta. Mas, para ser sincero, não tenho certeza ... Se você tem algo a dizer sobre isso - pergunto nos comentários.

Na última vez, fiquei convencido de que o não uso de todos os canais da memória do processador exerce uma influência maior nos resultados do teste. No próximo teste de processador, consideraremos definitivamente esse efeito e vou lhe dizer o que e como.

Um pequeno passo para o homem, mas um grande passo para a humanidade


Como o camarada Kamnoedov (eu amo o Strugatsky) diria, "aproximadamente nessa aceitação", a Intel está posicionando uma nova linha de processadores Xeon Scalable. No começo do artigo, eu disse que o lançamento do novo Scalable for Intel em si é um passo estratégico importante. Agora eu vou explicar.

Por um lado, o novo Scalable deu início a uma atualização global da plataforma de data center. E já na segunda metade do ano, alguns anúncios interessantes nos aguardam. Por outro lado, todas as inovações não são acidentais - esta é uma resposta às demandas atuais do setor. E uma resposta bastante decente. Memória insuficiente? Aqui está a memória persistente Optane DC. Priorização de hardware e processos de núcleos? Por favor, tenha bombeado SST e RDT. Você já sonhou em formação profissional de redes? :-) Aqui, assine, um novo conjunto de instruções para a IA. Para a Intel, você só pode se alegrar.

Embora, pessoalmente, me pareça que esta versão inclua lista de desejos, que a Intel não conseguiu implementar da última vez. E, é claro, algo tinha que ser feito com falhas de hardware, cuja busca por diferentes especialistas já se tornou um tipo de entretenimento. Tudo o que a Intel tirou do usuário com os buracos Spectrum-Meltowna, ele agora voltou, economizando o preço.

Além disso, a AMD vem de todas as direções, cujas decisões foram muito menos afetadas pelos Spectrum-Meltdowns, e que recentemente afetou muito a Intel como nos desktops (eu gostaria de ter uma juventude tão jovem em uma época tão respeitável), e um pouco no segmento de servidores. A propósito, em termos deste último, é muito interessante ver como o novo AMD Epyc Rome se mostrará, já que a atual geração do Epyc pessoalmente não me deixou indiferente.

Mas voltando ao Scalable.

Qual é o resultado final para um usuário que não é sobrecarregado pela IA e pelas redes treinadas? Aumento inequivocamente óbvio da produtividade devido a um número maior de núcleos, frequências base mais altas e frequências no impulso turbo. E se para processadores Gold de diferentes gerações esse aumento atinge um máximo de 23% - ambos são bons, então para o Silver atinge 40% em alguns testes. Dado o valor quase inalterado, a diferença é bastante agradável, embora como sempre eu queira mais =)

Se você confiar na afirmação da Intel de que isso é apenas o começo, até um cético como eu está curioso para saber o que nos interessará no futuro.

Nos testes, usamos servidores baseados nos processadores escaláveis ​​Intel Xeon: Silver 4110, Silver 4114, Silver 4210 , Silver 4214 , Gold 6130, Gold 6140, Gold 6240 , Gold 6230 , Gold 6240 .

Até 25 de julho, os servidores com o novo Xeon Scalable podem ser solicitados no site 1dedic.ru com um desconto de 25% por 1 mês usando o código promocional NEW_SCALABLE . O código promocional será gravado à meia-noite de 26 de julho de 2019.

Para qualquer servidor dedicado, um desconto de 10% no pagamento do ano.

Testado e escrito por você por Trashwind , administrador sênior do sistema do departamento de operações FirstDEDIC

Source: https://habr.com/ru/post/pt457496/


All Articles