Monstros após as férias: AMD Threadripper 2990WX 32-Core e 2950X 16-Core

Parte 1Parte 2Parte 3Parte 4

Nova pilha de produtos AMD



Metade do reino por alto desempenho. Quando se trata de processamento de dados, a largura de banda se torna um fator-chave: afinal, quanto mais o usuário tiver tempo para fazer, mais projetos serão concluídos e, consequentemente, o número de contratos aumentará. Os usuários de estações de trabalho geralmente descobrem gargalos no sistema e gostam de lançar recursos para resolver um problema, seja núcleos, memória ou aceleração gráfica. O Threadripper de segunda geração, conhecido como Threadripper 2, vai além dos limites antigos da proporção de núcleos e preço: o 2990WX fornece 32 núcleos e 64 threads por apenas US $ 1799. Há outro 2950X com 16 núcleos e 32 threads, e estabelece um novo preço mínimo de US $ 899 Verificamos os dois.

Avaliação do AMD Threadripper 2990WX 32-Core e 2950X 16-Core


Desde que a AMD lançou sua primeira Ryzen de primeira geração com oito núcleos contra quatro núcleos da Intel, houve uma longa discussão sobre quantos núcleos faz sentido. A resposta a esta pergunta depende inteiramente da carga de trabalho: quantas ferramentas diferentes o usuário espera usar ao mesmo tempo. Como o mercado de estações de trabalho abrange uma ampla variedade de usuários "heterogêneos" (e, apesar da necessidade de velocidade), fornecer uma opção única e conveniente para todos é simplesmente irrealista.

O Threadripper da primeira geração da AMD, lançado em 2017, trouxe processadores de 16 núcleos para as massas. Anteriormente disponíveis apenas em plataformas de servidor, os novos componentes eram classificados como muito competitivos em relação às ofertas de 10 núcleos. A AMD usou sua plataforma de servidor com pequenos ajustes para atacar os concorrentes e seu líder Halo.

Os produtos para estações de trabalho da Intel, anteriormente denominados E5-2687W e baseados em servidores de soquete duplo, eram, simplesmente, servidores. Depois de lançar sua mais recente plataforma de desktop de alto desempenho com até 18 núcleos, a Intel lançou a série Xeon W, substituindo os componentes E5-W da geração anterior. Até 18 núcleos por ~ US $ 2.500, embora seu uso exigisse chipsets e placas-mãe especiais.



Hoje, a AMD lança oficialmente a segunda geração do Threadripper. Novos processadores entram no mercado de forma extremamente agressiva: oferecendo uma microarquitetura Zen + aprimorada, obtemos um aumento de 3% no desempenho do IPC; A tecnologia de processo de 12 nm é usada, o que aumenta a frequência e reduz o consumo de energia. A AMD ataca o mercado com o número de núcleos! Não são apenas os processadores de 12 e 16 núcleos substituídos pelos novos modelos Zen + em frequências mais altas, a empresa oferece 24 e 32 núcleos em um processador que custa até US $ 1.799. 32 núcleos por US $ 1.799 versus 18 núcleos por quase US $ 2.500 - um bom golpe para os concorrentes, certo?

Como a AMD suporta 32 núcleos


Para ser chamada de processador de 32 núcleos, a linha de processadores de servidor de primeira geração da AMD, chamada EPYC, usa quatro matrizes de silício de oito núcleos cada. Esses componentes têm oito canais de memória e 128 pistas PCIe 3.0 para diversas finalidades. Ao lançar o Threadripper de primeira geração, a AMD desativou duas dessas matrizes de silício, fornecendo apenas 16 núcleos, quatro canais de memória e 60 pistas PCIe. O produto final foi direcionado a consumidores de varejo.

Para fornecer aos usuários 32 núcleos, a AMD usa o mesmo silício EPYC de 32 núcleos, mas o atualiza para Zen + a 12 nm, para maior frequência e menor potência. É ligeiramente aparado para compatibilidade com a primeira geração: quatro canais de memória e 60 pistas PCIe. Embora a AMD esteja posicionando o produto como um processador de primeira geração atualizado com um grande número de núcleos, em vez de uma versão de servidor simplificada. Essa abordagem é facilmente explicada pela segmentação de produtos. Essa é uma tática que as duas empresas já usaram para lançar uma linha de produtos expandida.



Como resultado, uma das maneiras de perceber os novos chips de segunda geração de 32 e 24 núcleos é o módulo duplo: metade do chip tem acesso a recursos completos, semelhante ao produto da primeira geração, enquanto a outra metade do chip duplica os mesmos recursos de computação, mas possui um atraso de memória adicional e PCIe em comparação com o primeiro semestre. Para qualquer usuário que esteja intrigado com o poder de processamento, e não com a memória ou o PCIe, a AMD é a melhor solução.

Em nossa análise, veremos que essa construção bimodal tem um impacto significativo no desempenho, bom e ruim, novamente, depende do tipo de carga de trabalho.

Nova pilha AMD


A AMD entra oficialmente no mercado com quatro processadores de extração de rosca de segunda geração. Dois deles substituirão diretamente os produtos da primeira geração: o 2950X de 16 núcleos para substituir o 1950X de 16 núcleos e o 2920X de 12 núcleos no 1920X de 12 núcleos. Dois novos processadores não serão de módulo duplo, apenas dois dos quatro cristais de silício do pacote estão ativos (a configuração de 16 núcleos se parece com 8 + 0 + 8 + 0, a de 12 núcleos se parece com 6 + 0 + 6 + 0). Na parte inferior da pilha estará a primeira geração do 1900X de 8 núcleos (4 + 0 + 4 + 0) 1900X, que oferece memória de quatro canais e 60 pistas PCIe.



Dois novos processadores são representados pelo 2990WX de 32 núcleos e pelo 2970WX de 24 núcleos. Eles incluirão quatro núcleos por complexo (8 + 8 + 8 + 8) e três núcleos por complexo (6 + 6 + 6 + 6), respectivamente, têm a natureza de dois módulos da memória e PCIe já descrita. A marca está mudando, agora é WX, presumivelmente para Workstation eXtreme. Isso coloca o produto na mesma linha de marketing da família Radeon Pro WX.



O AMD Ryzen Threadripper 2990WX é um novo superproduto com 32 núcleos e 64 threads, com uma frequência base de 3,0 GHz e uma frequência superior de turbocompressor de 4,2 GHz. O tempo de inatividade do processador é de 2,0 GHz. Nos testes, vimos 2,0 GHz em cada núcleo sem carga.

Outro produto da série WX é o 2970WX: desativa um núcleo por complexo e oferece um total de 24 núcleos. Com as mesmas frequências que o 2990WX, e com as mesmas faixas TDP, PCIe e suporte de memória, este processador será lançado em outubro a um preço de US $ 1.299. Com menos núcleos carregados, podemos esperar que esse processador funcione com turbo com mais frequência. do que um grande irmão de 32 núcleos.



Quanto à série X, o TR 2950X é uma substituição de 16 núcleos. O processador faz pleno uso das frequências rápidas que o novo processo de 12 nm pode fornecer: a frequência base de 3,5 GHz e turbo 4,4 GHz traz o produto da geração anterior de joelhos. De fato, o 2950X parece um AMD Ryzen com overclock bem. Uma vantagem considerável a um preço reduzido: em vez de US $ 999, os usuários agora podem obter um processador de 16 núcleos por US $ 899. O 2950X será lançado no final do mês, em 31 de agosto.

E, finalmente, mencionamos o 2920X, que substituiu o 1920X, e oferece as mesmas melhorias que outros processadores da linha. Como no caso do 2950X, as frequências aumentaram bastante em relação ao ano passado, a frequência base é de 3,5 GHz e o turbo é de 4,3 GHz. Toda essa beleza em um pacote com um design térmico de 180 watts. O 2920X será lançado em outubro pelo preço de varejo de US $ 649.

Núcleo a núcleo, ou comprometimentos do projeto


A abordagem da AMD para esses grandes processadores é pegar uma pequena unidade de repetição, como um complexo de 4 núcleos ou um cristal de silício de 8 núcleos (que inclui dois complexos), e colocar vários em um processador. "Na saída" o número necessário de núcleos e threads. Entre os benefícios estão muitos blocos replicados, como canais de memória e pistas PCIe. A desvantagem é a maneira pela qual esses núcleos e memória devem se comunicar.

No design de silício monolítico padrão (único), cada núcleo está localizado no interconector interno com um controlador de memória e pode ir para a memória principal com um pequeno atraso. A taxa de câmbio entre os núcleos e o controlador de memória é geralmente bastante baixa, e o mecanismo de roteamento (anel ou grade) pode determinar a largura de banda, latência e escalabilidade. O desempenho final geralmente é um compromisso entre esses fatores.

Em um design com vários cristais, no qual cada carimbo tem acesso não apenas a uma memória específica localmente, mas também a outra memória usando um salto, somos confrontados com uma arquitetura de memória desigual. É conhecido como design NUMA. Nesse caso, o desempenho pode ser limitado por esse atraso de memória anormal. Portanto, o software deve ser "compatível com NUMA" para otimizar a latência e a taxa de transferência. Não esqueça que transições adicionais entre a matriz e os controladores de memória exigem um certo poder de computação.

Descobrimos isso anteriormente na primeira geração do Threadripper (a presença de duas matrizes de silício ativas no pacote). Se os dados necessários estavam na memória local para outro silício, era necessário um salto. Com a segunda geração do Threadripper, esse salto se torna muito mais difícil.



À esquerda está o design 1950X / 2950X com duas matrizes de silício ativas. Cada matriz tem acesso direto a 32 pistas PCIe e dois canais de memória, que somam 64/4 pistas PCIe e quatro canais de memória. Por sua vez, os núcleos que trabalham com memória / PCIe e estão conectados à sua matriz funcionam mais rapidamente do que quando usam recursos conectados a outra matriz.

O 2990WX e o 2970WX têm dois silícios "inativos" ativados, mas não têm acesso direto adicional à memória ou PCIe. Não há memória ou conexão "local" para esses núcleos: cada acesso à memória principal requer uma transição adicional. Além disso, existem interconectores matriz a matriz baseados no AMD Infinity Fabric (IF) que consomem energia.

A razão pela qual esses núcleos adicionais não têm acesso direto está na plataforma: a plataforma TR4 para processadores Threadripper usa memória de quatro canais e 60 slots PCIe. Se as outras duas matrizes incluem memória local e PCIe, serão necessárias novas placas-mãe e dispositivos de memória.

Os usuários podem perguntar se podemos mudar o design para que cada cristal de silício tenha um canal de memória e um conjunto de 16 pistas PCIe? É provável. No entanto, a plataforma é um pouco limitada em como os pinos e as rotas são controlados nos soquetes e nas placas-mãe. O firmware espera dois canais de memória para cada silício, além disso, existem motivos relacionados à fonte de alimentação. As placas-mãe atuais no mercado simplesmente não são configuradas dessa maneira. Esse fato terá um grande impacto no desempenho, portanto, lembre-se disso quando chegarmos aos testes.
Vale ressaltar que esta é a segunda geração do Threadripper e a plataforma de servidores da AMD, EPYC, são irmãos. Ambos têm o mesmo layout de processador e soquete, mas o EPYC inclui todos os canais de memória (oito) e todas as pistas PCIe (128):



E se o Threadripper 2 perder desempenho devido à presença de vários núcleos sem acesso direto à memória, o EPYC terá memória direta disponível. O processador requer mais energia, mas oferece uma configuração mais uniforme do tráfego do núcleo para a rede.

Voltando ao Threadripper 2, é importante entender como o chip será carregado. A AMD confirmou que, em grande parte, o agendador carregará primeiro os kernels diretamente conectados à memória antes de usar outros kernels. Acontece que cada núcleo tem um "peso" de prioridade, com base no desempenho, desempenho térmico e potência. A prioridade é dada às pessoas mais próximas da memória. A prioridade dos núcleos diminui à medida que se enchem devido à ineficiência térmica.

Impulso de precisão 2


Os tempos turbo exatos para cada novo processador agora serão determinados pela funcionalidade de escalonamento de frequência de tensão da AMD usando o Precision Boost 2. Esse recurso, que examinamos em detalhes na revisão do Ryzen 7 2700X, depende da energia disponível para determinar a frequência, em vez de uma tabela de referência discreta de tensões e frequências com base na carga. Dependendo dos recursos iniciais do sistema, a frequência e a tensão serão alteradas dinamicamente para usar mais energia potencial disponível a qualquer momento da carga do processador.



Um processador pode usar mais energia do que uma tabela de pesquisa fixa permite, o que deve ser adequado para todos os processadores em um determinado modelo.

O Precision Boost 2 trabalha em conjunto com o XFR2 (eXtreme Frequency Range), que responde à faixa de temperatura disponível. Se houver um orçamento térmico adicional fornecido por um bom refrigerador, o processador poderá usar mais energia antes de atingir o limite térmico e obter uma frequência adicional. A AMD afirma que um bom cooler em um ambiente cool pode aumentar o poder de computação em mais de 10% em alguns testes, graças ao uso da tecnologia XFR2. Para demonstrar esse "plus" lançando o Threadripper 2 no meio do período mais quente da Europa, a AMD foi difícil. A Europa é conhecida por ignorar os condicionadores de ar em todo o mundo e, quando a temperatura ambiente excede os 30ºC, o aumento da produtividade é limitado. Uma revisão escandinava pode mostrar melhores resultados do que uma revisão dos trópicos.

Por fim, isso complica os testes do Threadripper 2. Com a tabela turbo, o desempenho está intimamente ligado às características de cada elemento de silício, o que torna o consumo de energia a única gradação. Com o PB2 e o XF2, não há dois processadores funcionando da mesma maneira.

Felizmente para nós, fizemos a maioria dos nossos testes em um hotel com ar condicionado, graças ao Intel Data-Centric Innovation Summit, que ocorreu uma semana antes do lançamento dos processadores.

Overdrive de precisão


Os novos processadores suportam o recurso Precision Boost Overdrive, que abrange áreas importantes como energia, corrente de projeto térmico e corrente de projeto elétrico. Se alguma dessas três áreas "demonstrar" o potencial não utilizado, o sistema tentará aumentar a frequência e a tensão para aumentar o desempenho. O PBO é uma combinação de overclock “padrão”, acelerando todos os núcleos ao mesmo tempo, com a possibilidade de aumentar a frequência em um núcleo para obter um ganho de desempenho em cargas de trabalho médias. O PBO economiza energia quando o tempo de inatividade do processador e trabalha com desempenho padrão. O Precision Boost Overdrive está ativado com o Ryzen Master.

Essas "três áreas principais" são definidas pela AMD da seguinte maneira:

  • Potência do pacote (CPU), ou PPT - o consumo máximo de energia permitido de um soquete, depende da fonte de alimentação do soquete;
  • Current Thermal Design Current ou TDC - corrente máxima fornecida pelo regulador de tensão da placa-mãe após atingir uma temperatura estável;
  • Corrente de projeto elétrico ou EDC - corrente máxima fornecida pelo regulador de tensão da placa-mãe no estado de pico.

Expandindo esses limites, o PBO expande os recursos do PB2, o que, por sua vez, permite carregar o sistema da maneira mais eficiente possível.



StoreMI


Juntamente com os novos processadores Ryzen Threadripper 2, os usuários têm acesso à solução de software StoreMI. Permite criar um armazenamento em camadas personalizado combinando DRAM, SSD e HDD em um único espaço de armazenamento. A implementação do software aloca dinamicamente dados usando até 2 GB de DRAM, até 256 GB de SSD (NVMe ou SATA) e um disco rígido rotativo. Essa abordagem fornece os melhores recursos de leitura e gravação, com falta de espaço em uma unidade de alta velocidade.



A AMD inicialmente ofereceu esse software como um complemento para a plataforma Ryzen APU por US $ 20 e, posteriormente, de graça (até 256 GB SSD) para usuários dos processadores da série Ryzen 2000. A oferta agora se estende ao Threadripper. A AMD demonstra como idealmente o software oferece tempos de inicialização 90% mais rápidos.

Alimente-me: o Infinity Fabric precisa de mais energia


Quando o movimento de dados entre núcleos e controladores de memória mudou de uma topologia em anel para uma malha ou chiplet, a comunicação entre núcleos se tornou muito mais complicada. A partir de agora, cada núcleo ou seu ambiente deve atuar como um roteador e determinar o melhor caminho para os dados, caso sejam necessários vários "saltos" para atingir o objetivo pretendido. Como vimos na malha MoDe-X da Intel ao lançar o Skylake-X, você precisa simultaneamente evitar a concorrência para aumentar o desempenho e reduzir o comprimento dos condutores para reduzir a potência. Acontece que em tais sistemas, a tecnologia da comunicação internuclear começa a consumir muita energia, às vezes mais do que os próprios núcleos.

Para descrever a potência do chip, todos os processadores de consumo têm um “TDP” nominal ou potência de projeto térmico. A Intel e a AMD medem esse valor de maneira diferente com base em cargas de trabalho e temperaturas. Tecnicamente, TDP é a energia térmica que o cooler deve dissipar quando o processador está totalmente carregado (e geralmente é determinado na frequência base, não na frequência turbo de todos os núcleos). O consumo real de energia pode ser maior, dependendo das perdas devido à fonte de alimentação ou dissipação térmica através da placa, mas para a maioria das situações, o TDP e o consumo de energia em geral são considerados iguais.

Isso significa que as classificações TDP em processadores modernos, como 65 W, 95 W, 105 W, 140 W, 180 W e agora 250 W, devem mostrar aproximadamente o pico de consumo de energia. No entanto, nem toda essa energia pode aumentar a frequência nos núcleos. Parte dela será usada em controladores de memória, em E / S, em gráficos integrados (se houver um no chip). Acontece que as conexões internucleares estão se tornando um participante de pleno direito no consumo de energia. Queremos saber quanto eles consomem.

Para entender o escopo, vamos começar com algo simples e conhecido para a maioria dos usuários. Os processadores Intel Coffee Lake mais recentes, como o Core i7-8700K, usam o chamado design de barramento em anel. Esses processadores usam um anel para conectar cada um dos núcleos e o controlador de memória: se você precisar mover os dados, eles caem no anel e se movem até chegar ao destino. O sistema de interações internucleares é chamado historicamente de "Uncore" e é capaz de interagir com núcleos que operam em diferentes frequências e em escala de potência, conforme necessário. A distribuição de energia é a seguinte:



Apesar do TDP de 95 W, este processador nas frequências base consome cerca de 125 W em carga máxima, o que é muito mais que o seu TDP (também determinado na frequência base). Estamos interessados ​​em outra coisa: a relação entre o consumo da Uncore e a potência total. uncore 4% , 7-9%. « 10%».

- : Intel Skylake-X. Intel «mesh» (), MoDe-X. , , .



, , 14 . mesh , , Intel, .



, uncore mesh 20% , 25-30% . .

AMD . crossbar. , . . «»», Infinity Fabric (IF).



IF , . , , Ryzen 7 2700X, TDP 105 .



AMD . -, , IF 43% . 4% i7-8700K 19% i9-7980XE. 43% 25%.

-, , IF , ~ 17,6 ~ 25,7 . Intel , ~ 13,8 40 .

Ryzen Threadripper 2950X — 16- Threadripper, .



, IF. Uncore + .



Infinity Fabric 59% . ( CCX), CCX , die-to-die - .

, IF, 34 43 , 25% , 2700X.

2990WX. , IF , IF-:



. , DRAM. AMD IF-, . - , IF- . - .



. Infinity Fabric 56,1 76,7 , 73% . 2950 34 , , IF. .

, , 2990WX TDP 250 , 180 . , . , IF , 36%, 35% 40% . , , , 25% 2700X 2950X.

, , EPYC 7601, , ? Zen , EPYC IO, , Uncore .



, 2990WX, , . uncore .



, 74,1 , IF 66,2 89%! , 66,2 90 . 90 180 TDP!

O exposto acima leva a uma conclusão interessante - se compararmos puramente academicamente os méritos de um núcleo com outro, devemos considerar a contribuição do poder da Uncore? Para uma análise real, certamente sim, mas para uma puramente acadêmica? Deixe-me profetizar:

Após a batalha pelo número de núcleos, a próxima batalha será pela interconexão. Baixo consumo, escalabilidade e alto desempenho: escalar um nó de processador não é nada se o Uncore responder por 90% da potência total do chip.

Obrigado por ficar conosco. Você gosta dos nossos artigos? Deseja ver materiais mais interessantes? Ajude-nos fazendo um pedido ou recomendando a seus amigos, um desconto de 30% para os usuários da Habr em um análogo exclusivo de servidores básicos que inventamos para você: Toda a verdade sobre o VPS (KVM) E5-2650 v4 (6 núcleos) 10GB DDR4 240GB SSD 1Gbps da US $ 20 ou como dividir o servidor? (as opções estão disponíveis com RAID1 e RAID10, até 24 núcleos e até 40GB DDR4).

3 meses de graça ao pagar por um novo Dell R630 por um período de seis meses - 2 x HDD Intel Deca-Core Xeon E5-2630 v4 / 128GB DDR4 / 4x1TB ou SSD 2x240GB / 1Gbps 10 TB - de US $ 99,33 por mês , apenas até o final de agosto, faça o pedido pode estar aqui .

Dell R730xd 2 vezes mais barato? Somente nós temos 2 TVs Intel Dodeca-Core Xeon E5-2650v4 128GB DDR4 6x480GB SSD 1Gbps 100 a partir de US $ 249 na Holanda e nos EUA! Leia sobre Como criar um prédio de infraestrutura. classe usando servidores Dell R730xd E5-2650 v4 custando 9.000 euros por um centavo?

Source: https://habr.com/ru/post/pt421147/


All Articles