Revisão da AMD Ryzen Threadripper 1950x e 1920x: CPU com esteróides



No início de 2000, foi travada a grande "Guerra de Frequências". Um fabricante capaz de conduzir ciclos máximos por segundo através de seu processador tinha uma vantagem óbvia sobre seus concorrentes. Isso levou à criação de alguns chips muito quentes, cuja arquitetura foi esquecida ao longo do tempo em nome de algo mais razoável. Passados ​​10 a 15 anos, uma nova guerra está crescendo em torno de nós: "Guerra dos Núcleos". Quantos núcleos de CPU com comunicação interprocessos de alta velocidade podem ser colocados em um processador consumidor? Mais recentemente, a resposta foi 10 e a AMD está entrando no mercado com os novos processadores Theadripper de 16 núcleos. Temos os dois - 1950x e 1920x, para fritá-los completamente em nome de uma nova revisão.

Nova Ordem Mundial


Em 2017, a AMD lançou uma nova arquitetura de microprocessador - Zen. A arquitetura foi usada na nova série de processadores Ryzen com o objetivo óbvio de romper parte do mercado com as soluções de PC para desktop de ponta da Intel. Três representantes da família Ryzen 7 têm 8 núcleos com tecnologia hyperthreading e apresentam uma relação muito boa de desempenho e preço, às vezes mostrando um resultado comparável ao dobro dos processadores Intel caros. Eles são seguidos por quatro processadores Ryzen 5 com um preço aproximadamente igual à linha quad core i5. Pelo mesmo dinheiro, a AMD oferece um processador com doze threads, três vezes mais que o Core i5. Finalmente, o Ryzen 3 custa cerca de US $ 120, competindo diretamente com o Core i3, com o dobro de núcleos que o produto da Intel. Agora estamos vendo a AMD apresentar oficialmente a família de processadores AMD EPYC, oferecendo até 32 núcleos; nos próximos meses, o produto entrará no mercado e, por enquanto, os OEMs estão testando processadores e determinando seu desempenho.


Longe dos produtos listados, está a família Ryzen Threadripper da AMD ou simplesmente Threadripper. Esses processadores têm o mesmo design das CPUs AMD EPIC do lado do servidor, mas são adaptados para PCs de mesa. Os dois primeiros processadores são 1950X e 1920X, com 16 e 12 núcleos, respectivamente. Eles foram seguidos pelo 1900X de 8 núcleos, lançado em 31 de agosto, promete aparecer em 1920, que a verdade ainda não foi anunciada. Todos esses chips são instalados em um soquete LGA do tipo TR4 de 4094 pinos. O soquete é idêntico ao SP3 usado para EPIC (embora os soquetes não sejam intercambiáveis) e supera o soquete do tipo AMGA PGA de 1331 pinos usado para os processadores Ryzen 7/5/3.



* Informações mais recentes da AMD, de acordo com nossos dados
** Produto não anunciado, especificações sujeitas a alterações.

Se o Ryzen 7 pretende fazer parte do mercado das soluções de desktop de ponta da Intel (HEDT), o Threadripper é criado para definir um novo padrão de desempenho. Esse segmento pode ser chamado de "área de trabalho super high-end" (SHED). O número de núcleos que a AMD introduziu nos processadores Threadripper anteriormente só podia ser visto nas soluções de servidor Intel; a empresa oferecia 28 núcleos por um valor igual a quase US $ 10 mil. Ao oferecer chips com um grande número de núcleos, frequências razoáveis, potência e IPC, a AMD apaga os limites entre usuários, semiprofissionais e clientes corporativos. Para competir, a Intel anunciou o lançamento da plataforma Skylake-X com 12, 14, 16 e 18 núcleos nos próximos meses.

Como os chips Intel mais rápidos, os processadores AMD certamente serão procurados por quem deseja fazer tudo de uma vez. Para o usuário de um PC doméstico, isso permite combinar o processo do jogo durante o fluxo (transcodificação e upload em tempo real) com a hospedagem do servidor do jogo e a execução paralela de algumas tarefas adicionais. Para o segmento semiprofissional, isso significa processamento ou computação de vídeo usando várias GPUs / FPGAs. A essência da idéia é que, se o usuário precisar fazer algo no computador, ele poderá usar o sistema simultaneamente para outras tarefas, com um suprimento suficiente de energia da CPU, slots PCI, RAM e espaço de armazenamento. O Threadripper, como já mencionado, herdou o design do processador do servidor e, consequentemente, seus aspectos da alta densidade de desempenho que identificaram o servidor na última década.

Nova tomada, novas placas-mãe


Novamente, como a plataforma Intel HEDT, a AMD lança a plataforma X399 no Threadripper para fornecer todas as ferramentas necessárias para o novo processador. O grande slot TR4 e todos os seus pinos fornecem memória de quatro canais com dois DIMMs por canal, além de até 60 linhas PCIe para placas adicionais (placas de vídeo, placas de rede, SSD, etc.). Atualmente, essas placas-mãe suportam dois processadores Threadripper já lançados, além de um processador que será lançado no final do mês e outro processador que não foi anunciado, embora tenham sido recebidas informações privilegiadas sobre seu lançamento (data de lançamento desconhecida).



O novo soquete é visivelmente diferente dos soquetes AMD anteriores, mostrando até que ponto a tecnologia avançou. Em vez de um soquete PGA com uma trava simples para fixação confiável da CPU no soquete, o conector LGA TR4 possui três parafusos Torx, que devem ser desaparafusados ​​em uma determinada ordem (como visto na figura acima), após o qual a trava do conector simplesmente se abre. Abaixo, há um suporte no qual o processador está inserido. Cada processador Threadripper possui um quadro fixo para colocação conveniente da CPU no suporte.



Devido ao design do conector e ao tamanho dos processadores, os orifícios para conectar o cooler da CPU também variam. Como cada Threadripper apresentado é avaliado em 180 watts, a AMD recomenda usar pelo menos refrigeração líquida e fornece um suporte de processador Asetek a cada processador vendido (uma chave de fenda Torx também está incluída).



O suporte é mais estreito, por um lado, o que indica o "topo" do soquete no layout tradicional da placa-mãe.



A essência do design da placa-mãe se resume a como cada uma das funções de E / S disponíveis é roteada. O diagrama de blocos básico da AMD é o seguinte:



A configuração proposta da AMD fornece 48 linhas do CPU para os slots PCIe para comunicação SLI / CFX de 4 vias (16/16/8/8), 12 linhas do CPU para os slots M.2 para NVMe de 4 vias x4 e 4 linhas para o chipset . Nesse caso, o chipset pode ter duas portas Ethernet de gigabit, um slot PCIe x4, um slot PCIe x1, PCIe x1 para Wi-Fi, SATA, portas USB 3.1 Gen 1 e USB 3.1 Gen 2 e USB 3.1 Gen 2 e portas USB 2.0.

Presumivelmente, os preços das placas-mãe X399 variam de US $ 249 a US $ 599, dependendo da funcionalidade. A placa-mãe que testamos para escrever esta análise foi o ASUS X399 ROG Zenith Extreme, cujo preço sugerido pelo fabricante (MSRP) é de $ 549.

Concorrentes


Pedimos à Intel e à AMD que esclarecessem quem elas consideram o principal concorrente dos processadores Threadripper. Dado que o Threadripper é um produto voltado para o consumidor - curiosamente, na verdade não é voltado para estações de trabalho - a AMD anunciou que o atual Core i9-7900X (processador de 10 núcleos) da Intel é o produto concorrente mais adequado . O Xeon é um produto corporativo que não será vendido em sistemas prontos para uso exigidos pelos clientes da Threadripper.

A Intel nos surpreendeu ao reportar exatamente o mesmo que a AMD. Eles disseram que o Core i9-7900X é o principal concorrente da Threadripper no momento do lançamento do processador. Esperava-se que as empresas oferecessem algum tipo de solução 2P mais barata, mas, depois de ouvir a opinião da Intel, ficou claro por que isso não aconteceu. Há duas razões óbvias: primeiro, Intel Consumer e Intel Enterprise são quase duas empresas diferentes que se sobrepõem um pouco e participam dos negócios umas das outras. Eles também não têm uma política geral de comunicação com a imprensa. Pergunte ao consumidor Intel - obtenha a resposta da equipe do consumidor. Pergunte à equipe da empresa e você verá que eles estão mais focados no EPYC, não no Threadripper. A segunda razão é que o "sistema 2P barato" simplesmente não existe quando se trata de comprar novos processadores. A maioria das discussões on-line sobre sistemas Intel 2P baratos envolve a compra de CPUs no mercado cinza ou de revendedores.

Assim, o verdadeiro concorrente é essencialmente o Skylake-X (e o Broadwell-E com desconto). Como resultado, o AMD Threadripper 1950X com 16 núcleos e 1920X com 12 núcleos se opõem ao Core i9-7900X com 10 núcleos e ao Core i7-7820X com 8 núcleos. Considere os rivais - o Core i7-6950X da Broadwell devido à sua arquitetura, AMD Ryzen 7 1800X, Ryzen7 1700, que foi incluído na lista como um exemplo de uma boa relação desempenho / preço.



O ponto principal aqui é que o Threadripper tem mais núcleos e mais pistas PCIe pelo mesmo preço. O ADM oferece CPUs com um Turbo mais baixo, mas com uma frequência base mais alta, com um pouco mais de energia para essas plataformas. Será uma batalha interessante.

Artigos nesta revisão:


  1. AMD Ryzen Theadripper 1950x e 1920x
  2. Alimentando a Besta e os Principais Recursos do Processador
  3. Chip, ônibus e NUMA
  4. Modo Criador e Modo Jogo
  5. Configuração do Testbed
  6. Conjunto de testes 2017
  7. Desempenho de benchmarking: testes de sistema da CPU
  8. Desempenho de benchmarking: testes de renderização da CPU
  9. Desempenho de benchmarking: testes da Web da CPU
  10. Desempenho de benchmarking: testes de codificação da CPU
  11. Desempenho de benchmarking: Testes de CPU Office
  12. Desempenho de benchmarking: testes herdados da CPU
  13. Desempenho de jogos: Civilization 6 (1080p, 4K, 8K, 16K)
  14. Desempenho nos jogos: Cinzas da escalada da singularidade (1080p, 4K)
  15. Desempenho nos jogos: Shadow of Mordor (1080p, 4K)
  16. Desempenho nos Jogos: Ascensão do Tomb Raider (1080p, 4K)
  17. Desempenho de jogos: Rocket League (1080p, 4K)
  18. Desempenho nos jogos: Grand Theft Auto V (1080p, 4K)
  19. Consumo de energia, eficiência energética
  20. Análise do modo criador e do jogo
  21. Conclusão

Notas adicionais


Por razões fora do nosso controle, não há testes de processador Skylake-X nesta revisão. Houve alguns problemas durante o teste, que postergaram esse processo para uma data posterior. Fizemos mais alguns testes usando o BIOS mais recente e com um sistema de refrigeração mais sério, mas, após a chegada do processador Threadripper, o SKL-X foi cuidadosamente empacotado e o Threadripper assumiu seu lugar como sujeito experimental. Agora, olhando para os resultados do teste SKL-X, é óbvio que os problemas que surgiram estavam relacionados ao BIOS / firmware. Em um futuro próximo, está planejado trabalhar duro para encontrar um erro, para esse fim está planejado substituir a placa-mãe X299 por uma nova.

2. Alimentando a Besta e os principais recursos do processador


Quando a frequência foi considerada a característica mais importante dos processadores, o principal problema era regular características como eficiência, características térmicas e custo dos cálculos: quanto mais altas as frequências aumentavam, mais tensão era necessária, mais distante do modo ideal do processador, maior o consumo de energia por unidade de trabalho. Para o processador, classificado em primeiro lugar na linha de produtos, atuando como o “campeão do desempenho”, essas deficiências pareciam sem importância - até que a temperatura operacional atingisse 90 ° C.

Agora, com o início da Guerra Nuclear, outros problemas surgiram. Quando havia apenas um kernel, fornecer dados para o kernel por meio de caches e DRAM era uma tarefa relativamente simples. Com 6, 8, 10, 12 e 16 núcleos, o principal obstáculo era a necessidade de fornecer a cada núcleo um fluxo de dados para operação contínua, a fim de evitar inatividade sem sentido dos núcleos. Esta não é uma tarefa fácil: agora cada núcleo do processador precisa de uma maneira rápida de trocar dados entre si e com a memória principal. Parece "alimentar a fera".

Características principais: 60 pistas PCIe vs 44 pistas PCIe


Depois de muitos anos desempenhando papéis secundários, a AMD com novos processadores ocupará um dos lugares de liderança no mercado. O Ryzen 7 tinha apenas 16 linhas PCIe (pista) e eles podiam competir parcialmente com os processadores Intel com 28/44 linhas PCIe. Agora, o processador Threadripper terá acesso a 60 linhas para placas PCIe adicionais. Em alguns casos, isso pode ser chamado de 64 linhas, mas quatro delas são reservadas para o chipset X399. Por US $ 799 e US $ 999, o Threadripper concorre com 44 pistas PCIe no processador Intel Core i9-7900X a um preço de US $ 999.



A razão para tantas pistas PCIe é o mercado-alvo que esses processadores estão buscando: consumidores de computação de alto desempenho. São usuários que usam vários processadores gráficos, vários dispositivos de armazenamento PCIe, precisam de redes de ponta, armazenamento de dados de ponta e outro hardware diverso que pode ser usado com o PCIe. Como resultado, provavelmente veremos placas-mãe com 32 ou 48 pistas para slots PCIe (x16 / x16, x8 / x8 / x8 / x8, x16 / x16 / x16, x16 / x8 / x16 / x8), dois ou três Slots PCIe 3.0 x4 para dispositivos de armazenamento U.2 ou M.2 e Ethernet mais rápida (5 Gbit, 10 Gbit). A AMD permite que cada um dos sistemas raiz PCIe x16 se divida em x1 em no máximo sete dispositivos. As quatro pistas do PCIe que vão para o chipset também suportam várias pistas PCIe 3.0 e PCIe 2.0 para controladores SATA ou USB.

A Intel tem uma estratégia diferente, permitindo implementar 44 faixas em x16 / x16 / x8 (40 faixas) ou x16 / x8 / x16 / x8 (40 faixas) ou x16 / x16 a x8 / x8 / x8 / x8 (32 faixas) com 4 12 pistas para armazenar controladores PCIe ou Ethernet ou Thunderbolt 3. O chipset Skylake-X possui mais 24 barramentos PCIe para controladores SATA, USB e Gigabit Ethernet.

Principais recursos: DRAM e ECC


Os produtos Intel são divididos por nicho; portanto, se um cliente deseja ter um processador com um grande número de núcleos com ECC (memória de código de correção de erros), ele precisa comprar o Xeon. Normalmente, o Xeon suporta uma velocidade de memória fixa, dependendo do número de canais completos (1 DIMM por canal em DDR4-2666, 2 DIMMs por canal em DDR4-2400), além das tecnologias ECC e RDIMM. No entanto, as plataformas de consumidores HEDT para Broadwell-E e Skylake-X não suportarão essas tecnologias e usarão apenas o UDIMM não ECC.

A AMD suporta ECC em seus processadores Threadripper, fornecendo aos clientes 16 núcleos com ECC. No entanto, eles devem ser apenas UDIMM (DRAM não registrados), mas com suporte para RAM de overclock, para aumentar a velocidade do Infinity Fabric (os processadores AMD Ryzen usam a conexão interna do Infinity Fabric, que substituiu o barramento HyperTransport, para se comunicar entre as unidades individuais). A AMD anunciou oficialmente que os processadores Threadripper podem suportar até 1 TB de RAM, embora exija placas UDIMM de 128 GB, cujo tamanho máximo atualmente é de 16 GB. A Intel reivindica um limite de 128 GB para o Skylake-X ao usar UDIMM de 16 GB.

Ambos os processadores suportam memória de quatro canais em DDR4-2666 (1DPC - DIMM por canal) e DDR4-2400 (2DPC).

Recursos principais: Cache


Tanto a AMD quanto a Intel usam caches L2 privados para cada núcleo, depois o cache L3 (cache vítima L3) antes de passar para a memória principal. O cache de vítima é um cache que recebe dados excluídos do cache abaixo dele e não pode buscar previamente os dados. Mas o tamanho desses caches e como a AMD e a Intel interagem com eles são diferentes.



A AMD usa cache L2 de 512 KB para cada núcleo, cache L3 de 8 MB por complexo de quatro núcleos. No Threadripper de 16 núcleos, existem quatro complexos de 4 núcleos; como resultado, temos 32 MB de cache L3; no entanto, cada núcleo pode acessar apenas os dados encontrados no L3 local. Para obter acesso ao L3 de outro complexo, será necessário tempo adicional, o que causa atrasos significativos.

No Skylake-X da Intel, temos 1 MB de cache L2 por núcleo, o que significa uma maior probabilidade de acerto no cache L2, o cache L3 foi reduzido para 1.375 MB por núcleo. L3 deixou de ser inclusivo, o que significa que o conteúdo do cache L2 não é copiado para o cache L3; se o kernel exigir dados de outro kernel que esteja no cache L2, será necessário executar a solicitação correspondente - esses dados não estão mais no cache L3, portanto, leva mais tempo e latência No entanto, o atraso é um pouco simplificado pelo design. Isso difere acentuadamente da estrutura de cache Broadwell-E, onde 256 KB são L2 e 2.5 MB são L3 por núcleo. O Broadwell-E armazena em cache com uma solução arquitetônica inclusiva.


3. Chip, ônibus e NUMA


Na linha Ryzen, a AMD desenvolveu um chip de silício de 8 núcleos, conhecido como chip Zeppelin. Consiste em dois complexos de núcleo (CCX) com quatro núcleos cada, com cada CCX tendo acesso a 8 MB de cache L3. O chip Zeppelin tem acesso a dois canais DRAM e um limite de 16 pistas PCIe para placas adicionais. Com o lançamento do Threadripper, a AMD dobrou essa matriz.

Se você desmontasse o processador Threadripper, veria quatro chips de silicone, semelhantes aos do processador EPYC (Multi Core Module design MCM). Dois desses chips estão endurecendo “juntas”, silicone vazio, que serve apenas para a distribuição de peso e resfriamento. Os outros dois chips (em cantos opostos, para melhorar o desempenho térmico e o roteamento) são essencialmente o mesmo Zeppelin usado no Ryzen, cada um dos quais contém oito núcleos e tem acesso a dois canais de memória. Eles trocam dados através do barramento interno Infinity Fabric, para o qual a AMD reivindica uma largura de banda de 102 GB / s (full duplex bidirecional) e um atraso de 78 ns para acessar a memória mais próxima (DRAM conectada ao mesmo chip) e 133 ns para acessar memória distante (DRAM em outro chip). Verificamos e podemos confirmar esses números para a memória DDR4-2400. Usando DDR4-3200, são alcançadas velocidades de acesso de 65 ns e 108 ns, respectivamente.


Apesar do fato deste slide da AMD mostrar dois chips, há quatro no processador. Como apenas dois deles estão ativos, a AMD simplificou o gráfico.

Em comparação, o EPYC reivindica uma taxa de transferência de dados entre chips de até 42,6 GB / s em DDR4-2666. Isso se deve ao fato de que no EPYC existem três conexões internas para os chips e uma externa (para outro soquete). Os chips no Threadripper precisam interagir com apenas um outro chip, o que oferece alguma flexibilidade. Parece que o Threadripper usa duas das três conexões a uma velocidade de 10,4 GT / s (gigatransaction por segundo):

  • Chip-to-chip para EPYC é limitado a 42,6 GB / s ao usar DDR4-2667
  • O chip para chip do Threadripper é limitado a 102,2 GB / s ao usar DDR4-3200
  • 42,6 GB / s * 2 canais * 3200/2667 = 102,2 GB / s
  • 42,6 GB / s * 3 canais * 3200/2667 a 8,0 GT / s = 115,8 GB / s (demais)
  • 42,6 GB / s * 3 canais * 3200/2667 a 6,4 GT / s = 92,6 GB / s (muito pequeno)

Essa configuração da AMD é exatamente o que é chamada de configuração NUMA: acesso não uniforme à memória. Isso significa que o código não pode contar com um atraso constante (e baixo) entre solicitar algo da DRAM e recebê-lo. Isso pode ser um problema para código de alto desempenho; portanto, alguns programas são projetados com suporte à NUMA, permitindo vincular memória ao controlador DRAM mais próximo, reduzindo a taxa de transferência potencial, mas priorizando a latência.

NUMA não é novo na arquitetura x86. Depois que os processadores começaram a enviar controladores de memória integrados no chip, em vez de controladores externos, na ponte norte da placa-mãe, a NUMA tornou-se parte integrante dos sistemas multiprocessadores. A esse respeito, a AMD era líder desde o início; eles estavam anos à frente da Intel no desenvolvimento de controladores em um chip para processadores x86. Assim, a AMD trabalha com a NUMA há muitos anos e, da mesma forma, a NUMA trabalha em sistemas de servidores multiprocessadores Intel há quase uma década.

A novidade do Threadripper é que nunca ter tocado o consumidor na NUMA. Os processadores MSM personalizados podiam ser contados nos dedos, e teríamos que voltar à família Core 2 Quad para encontrar um processador com vários núcleos de chip, que precedia os controladores de memória dos processadores Intel. Assim, o Threadripper foi o primeiro processador a introduzir usuários da NUMA.

Mais importante, porém, o software do consumidor também não foi preparado para o NUMA, portanto, quase nenhum programa pode usar seus recursos. A boa notícia é que, embora o NUMA mude as regras do jogo, ele não interrompe a operação do software antigo. Os sistemas operacionais habilitados para NUMA ajudam o software pronto para uso a oferecer suporte a operações de encadeamento e memória em um único host NUMA para fornecer recursos de desempenho padrão.

A desvantagem disso é que, como um pai extremamente cuidadoso, o sistema operacional impede que softwares inapropriados usem outros nós NUMA ou, como no caso do Threadripper, proíbe aplicativos de usar o segundo chip e seus 8 núcleos.


No nível do hardware, o Threadripper consiste em dois nós NUMA

Em um mundo ideal, todos os softwares seriam compatíveis com NUMA, o que resolveria qualquer problema nesse problema. Mas, na prática, tudo parece um pouco diferente: o software está mudando lentamente e é altamente improvável que, no futuro próximo, os processadores no estilo NUMA se tornem comuns. Além disso, a programação do NUMA pode ser bastante difícil, especialmente no caso de cargas de trabalho ou algoritmos associados ao trabalho com núcleos e memória "distantes". Portanto, as peculiaridades da NUMA nunca desaparecerão completamente, e é por isso que a AMD assumiu a responsabilidade de resolver esse problema.

A AMD implementou switches, tanto no BIOS quanto no aplicativo, para oferecer suporte e controlar o NUMA no Threadripper. Por padrão, o Threadripper realmente oculta sua arquitetura NUMA. Em vez disso, a AMD usa o Threadripper na configuração UMA: um sistema de acesso à memória unificado no qual a memória é enviada para qualquer DRAM e o atraso é variável (por exemplo, ~ 100 ns em média entre 78 e 133 ns), mas se concentra no alto rendimento de pico . Ao introduzir a CPU para o sistema operacional como um design integral, a largura de banda da memória é aumentada e todos os aplicativos (compatíveis com NUMA e não) veem todos os 16 núcleos como parte da mesma CPU. Portanto, para aplicativos que não suportam NUMA (e, portanto, seu desempenho seria reduzido pelo sistema operacional no modo NUMA) - isso permite maximizar o número de núcleos, threads e memória que eles podem usar.


Todos os 32 threads são apresentados como parte de uma única CPU monolítica

A desvantagem do modo UMA é que, uma vez que oculta o funcionamento do Threadripper, ele não permite que o SO e os aplicativos tomem decisões totalmente informadas e, portanto, seu desempenho é reduzido. Os aplicativos sensíveis à latência e não otimizados para NUMA podem perder desempenho se usarem núcleos e memória conectados a outro chip. AMD Threadripper NUMA, NUMA . , . , .

, - . , -- , . AMD 400mm2+ , . , , , .



Intel Skylake-X: LCC , 10 HCC, 12 18 . (3x4 5x4 ), . Intel , , (, , , ). Skylake-X Intel (MODe-X) Intel, — . 2,4 . Skylake-X Intel , , .

, AMD Infinity Fabric, , Intel — MoDe-X.


4. Creator Mode Game Mode


- , AMD «», . Creator Mode ( ) Game Mode , .

:

  • Legacy Compatibility Mode, on or off (off by default)
  • Memory Mode: UMA vs NUMA (UMA by default)

, DRAM PCIe. LCM , , 16- 32 . LCM , , 8 16 . , (, DiRT) 20 . . - .

, , (UMA) (NUMA). , . , 20% , , .



NUMA - , NUMA, , . , . , , , , bandwidth . , . , — FPS 99- .

, AMD « » «» «». , SMT, «» , (NUMA), Distributed (UMA), Distributed .

  • When Memory Access Mode is Local, NUMA is enabled (Latency)
  • When Memory Access Mode is Distributed, UMA is enabled (Bandwidth, default)

, . AMD , . Creator . , FPS .



, .



BIOS, « » « ». , ASUS Local Distributed, NUMA UMA. Legacy Compatibility Zen, , . Ryzen Master .



Threadripper, AMD Ryzen Master , , , , . , Creator . AMD «». «Creator» «Game Mode», , ( «Legacy Compatibility Mode» «Memory Access Mode»), .


, Creator Game Mode . , , – . , Threadripper , , . SMT - , AMD Creator Game Mode.

16- Threadripper 1950X. , DRAM. ( 2 ), L1, L2, L3 . UMA, Creator, . Ryzen 5 1600X Zeppelin 6950X Broadwell . DDR4-2400, DIMM .



1950X , 8 , L3 CCX. , Game 79 , Creator — 108 . , Ryzen 5 1600X, , 8 (20 41 ), Creator Game 87 . , Creator , , Ryzen Game.

DRAM DDR4-3200 Threadripper 1950X, :



8 , L3 , . 8 DDR4-2400 41 18 DDR4-3200. , , : Creator DDR4-3200 Game DDR4-2400 (87 79 ), Game DDR4-3200 65 .

, Game mode, ( ). AMD?



:

  • At DDR4-2400, 79 and 136 «» (108 )
  • At DDR4-3200, 65 and 108 «» (87 )

— , Creator, , UMA + Creator ( ) .


5.


-, , , . , , JEDEC. , , , , JEDEC . , (XMP ), BIOS. JEDEC — , , , , .



, , : , .


Devemos agradecer às seguintes empresas por fornecerem equipamentos gentilmente para nossas muitas tarefas de teste. Alguns desses hardwares não são usados ​​especificamente nesta configuração de teste, mas em outros testes.

Agradecemos à Sapphire por fornecer várias GPUs AMD. Nós nos encontramos com a Sapphire na Computex 2016 e discutimos a plataforma para nossos futuros testes nas GPUs AMD para sua produção para vários projetos futuros. Como resultado, eles puderam nos fornecer o chip mais recente que a AMD pode oferecer. No topo da lista, havia um par de GPUs Sapphire Nitro R9 Fury de 4 GB com base na primeira geração da tecnologia HBM e da plataforma AMD Fiji. Como a primeira GPU de consumo com HDM, a R9 Fury é um momento importante na história das placas gráficas, e essas super placas vêm com 3584 SP rodando a 1050 MHz e GPU com 4 gigabytes de memória HBM de 4096 bits a 1000 MHz.



Após a Fury, a Sapphire também apresentou um par de seus mais recentes cartões Nitro RX 480 8GB para apresentar o atual processador de alto desempenho da AMD de 14nm (a partir de março de 2017). A mudança para 14nm levou a uma melhoria significativa no consumo de energia da AMD, que, combinada com a versão mais recente do GCN, nos permitiu criar uma placa de vídeo pronta para VR por cerca de US $ 200. A placa de vídeo Sapphire Nitro RX 480 8GB OC foi projetada para ser a classe premium da família RX 480, que possui um conjunto completo de 8 GB de memória GDDR5 a 6 Gb / s e 2304 SP operando nas frequências de clock de 1208/1342 MHz.



Juntamente com o R9 Fury e o RX 480 - projetados para testes de jogos - a Sapphire passou por um par de RX 460, que será usado para testar o processador. A quantidade de energia disponível na GPU pode afetar diretamente o desempenho da CPU, especialmente se o processador interage com a placa de vídeo o tempo todo. A RX 460 é uma excelente placa para essa finalidade, pois combina alto desempenho e baixo consumo de energia sem exigir conectores de energia adicionais. O Sapphire Nitro RX 460 2GB segue a filosofia Nitro - fornece boa energia a um preço baixo. Seu 896 SP opera em frequências de 1090/1216 MHz, é equipado com 2 GB GDDR5 com um efetivo 7000 MHz.



Também devemos agradecer à MSI por nos fornecer a GPU GTX 1080 Gaming X 8GB. Apesar da escala da AnandTech, fornecer placas gráficas de ponta com testes não é uma tarefa fácil. A MSI resolveu o problema da melhor tradição e nos apoiou com um par de placas gráficas de alta qualidade. A placa de vídeo MSI GTX 1080 Gaming X 8GB é um produto refrigerado a ar premium que é um nível inferior ao Seahawk, mas supera o Aero e o Armor refrigerado a água. Esta é uma placa grande com duas ventoinhas Torx, um design individual de PCB, tecnologia Zero-Frozr, PWM aprimorado e um grande painel traseiro para facilitar o resfriamento. O cartão usa uma matriz de silício GP104-400 em um processo TSMC de 16 nm, contém 2560 núcleos CUDA e pode operar em frequências de até 1847 MHz no modo OC (ou 1607-1733 MHz no modo silencioso). A bordo, há um GDDR5X de 8 GB operando a uma frequência de 10.010 MHz. Por um longo tempo, o GTX 1080 foi um campeão reconhecido entre as placas de vídeo.



Agradecimentos à ASUS por fornecer a GPU GTX 1060 6GB Strix. Para concluir o segmento alto / baixo para as GPUs AMD e NVIDIA, analisamos as placas GTX 1060 de 6 GB para manter um equilíbrio entre preço e desempenho e ter a oportunidade de testar jogos em uma resolução maior que 1080p com uma placa de vídeo.

A ASUS estendeu uma mão amiga com a variante Strix GTX 1060. Esta placa é ainda mais longa que a GTX 1080, com três ventoinhas e LEDs. STRIX é uma marca de jogos de baixo custo ASUS seguindo a ROG, enquanto o Strix 1060 é metade da placa 1080. Possui 1280 núcleos CUDA operando com uma frequência base de 1506 MHz (até 1746 MHz no modo OC) e 6 GB GDDR5 com uma frequência 8008 MHz em uma interface de memória de 192 bits.



Agradecimentos a Crucial por fornecer o SSD MX200. O ponto crítico é que nossa lista de testes está crescendo com novos benchmarks e nomes de jogos, e o 1TB MX200 é uma ajuda séria. Construído no controlador Marvell 88S9189 e alimentado por um chip Micron com 16nm MLC de 128Gb, ​​é um dispositivo de 7 mm, 2,5 polegadas, projetado para IOPS de leitura aleatória 100K e velocidade de leitura e gravação de 555/500 MB / s. Os modelos de 1 TB que usamos aqui suportam a criptografia TCG Opal 2.0 e IEEE-1667 (eDrive) e têm uma resistência nominal de 320 TB com uma garantia de três anos.



Agradecimentos à Corsair por fornecer a fonte de alimentação AX1200i. O AX1200i foi a primeira fonte de alimentação a oferecer controle e gerenciamento digital através do sistema Corsair Link. É capaz de fornecer 1200 watts a 50 ° C e é certificado 80 PLUS Platinum. Isso fornece 89-92% de eficiência em 115 V e 90-94% em 230 V. O AX1200i é totalmente modular, com um design maior de 200 mm e com uma ventoinha de 140 mm com rolamento de esferas duplo para suportar operações de alto desempenho.

O AX1200i foi projetado como um cavalo de batalha com 8 slots PCIe com suporte a GPU de quatro direções. O AX1200i também possui um modo de ventilador Zero RPM que permite desligar o ventilador se a fonte de energia estiver operando com menos de 30% de carga.



Obrigado G.Skill pela memória fornecida. Ao longo dos anos, a G.Skill tem apoiado a AnandTech ao testar CPU ou placas-mãe. Já escrevemos sobre seus chips de alto desempenho e alta frequência, e todos os anos a Computex G.Skill organiza o torneio mundial de overclocking de nitrogênio líquido no local da exposição.




6. suíte de testes 2017


Para esta revisão, introduzimos um novo conjunto de testes de processador. Ele usa nossos novos scripts projetados especificamente para este teste. Isso significa que, após a instalação de um sistema operacional novo, podemos configurar o sistema operacional para obter compatibilidade máxima, instalar novos testes, salvar a versão desejada do sistema operacional sem atualizações aleatórias e executar uma série de testes em menos de cinco minutos. Depois disso, você precisa de um clique de um botão para iniciar o teste de 8 a 10 horas (com um núcleo de alto desempenho) com quase 100 marcas de dados correspondentes nos testes abaixo para os processadores, seguidos pelos nossos testes de jogos, eles trabalharão 4-5 horas em cada um dos testados GPUs. Os testes de CPU abrangem uma ampla variedade de segmentos, muitos dos quais lhe serão familiares. Alguns dos testes são novos para o benchmarking em geral, mas não menos importantes para a CA.

Nossos novos testes de CPU cobrem seis áreas principais. Cobrimos a Web (temos uma versão não atualizável do Chrome 56), testes gerais do sistema (abertura de PDFs complexos, emulação, simulação cerebral, IA, conversão de imagens 2D em modelos 3D), renderização (rastreamento de raios, modelagem), codificação ( compressão, AES, h264 e HEVC), testes de escritório (PCMark e outros) e nossos testes anteriores - atavismo da geração de código ruim, interessante para comparação.

Uma observação sobre a preparação do sistema operacional. Como usamos o Windows 10, há uma alta probabilidade de uma atualização repentina do sistema, o que violará nossos testes. Em conexão com essa ameaça, tomamos uma ampla gama de medidas de proteção: atualizações proibidas ao máximo, Windows Defender desativado, OneDrive excluído, Cortana desativado o máximo possível. Além disso, eles ativaram o modo de alto desempenho nas configurações de energia e desligaram o relógio da plataforma interna, o que pode causar um erro se a frequência base mudar (e, portanto, o tempo será impreciso).

Testes da Web no Chrome 56
Sunspider 1.0.2
Mozilla Kraken 1.1
Google Octane 2.0
WebXPRT15

Testes do sistema
Abertura de PDF
FCAT
3DPM v2.1
Dolphin v5.0
DigiCortex v1.20
Agisoft PhotoScan v1.0

Testes de renderização
Corona 1.3
Blender 2.78
CPU LuxMark v3.1 C ++
CPU do LuxMark v3.1 OpenCL
POV-Ray 3.7.1b4
Cinebench R15 ST
Cinebench R15 MT

Testes de codificação
7 zip 9,2
WinRAR 5.40
Codificação AES (TrueCrypt 7.2)
HandBrake v1.0.2 x264 LQ
HandBrake v1.0.2 x264-HQ
HandBrake v1.0.2 HEVC-4K

Escritório / Profissional
PCMark8
Compilação de cromo (v56)
SYSmark 2014 SE

Testes herdados
3DPM v1 ST / MT
x264 HD 3 Passe 1, Passe 2
Cinebench R11.5 ST / MT
Cinebench R10 ST / MT

Testes de jogos da CPU


Quanto ao nosso novo conjunto de testes de GPU, decidimos pensar grande. Existem muitos usuários no ecossistema que colocam o jogo no topo de suas prioridades quando se trata de escolher um processador. E se houver uma chance de economizar US $ 50 no processador e obter a melhor placa de vídeo sem sacrificar o desempenho, é assim que a maioria dos jogadores escolherá. É aqui que sérias dificuldades nos aguardam - jogos não apenas com requisitos diferentes, mas também carregam o sistema de maneiras diferentes, e as placas de vídeo reagem de maneira diferente ao fluxo de código do jogo. Além disso, os usuários têm uma gama muito ampla de julgamentos e preferências que determinam o que exatamente é a "norma". Com tantos graus de liberdade, os testes podem ser estendidos até o fim de nossas vidas, apesar de os resultados ficarem obsoletos dentro de alguns meses após o início dos testes - quando um novo jogo for lançado ou uma nova GPU aparecer no mercado. Para maior precisão, vamos usar jogos para o DirectX 12, o que simplifica o uso de mais núcleos de processador no processo do jogo.

Nossa lista inicial de nove jogos lançados em fevereiro rapidamente se tornou seis devido à falta de um nível profissional de personalização nos jogos da Ubisoft. Se você quiser ver os testes For Honor, Steep ou Ghost Recon: Wildlands na AnandTech, informe à Ubisoft Annecy ou Ubisoft Montreal onde nos encontrar. Embora esses jogos tenham uma referência interna digna de aplicação, infelizmente, ele não fornece ao usuário final granularidade quadro a quadro, apesar de ser usado na preparação dos dados que o usuário finalmente vê (como resultado, geralmente é oculto por outro camada). Em vez disso, eu preferiria automatizar esses testes via entrada, mas os tempos de carregamento extremamente inconsistentes são um grande obstáculo.

Portanto, a lista de testes incluídos em nosso script 4/2, automatizada antes da execução de um botão, e fornecendo resultados quatro horas depois para cada GPU. As permissões e configurações usadas também estão listadas:

  • Civilização 6 (1080p Ultra, 4K Ultra)
  • Cinzas da singularidade: escalada * (1080p extremo, 4K extremo)
  • Sombra de Mordor (1080p Ultra, 4K Ultra)
  • Ascensão do incursor do túmulo # 1 - GeoValley (1080p alto, 4K médio)
  • Ascensão do incursor do túmulo # 2 - Profetas (1080p alto, 4K médio)
  • Ascensão do Tomb Raider # 3 - Montanha (1080p alta, 4K média)
  • Rocket League (1080p Ultra, 4K Ultra)
  • Grand Theft Auto V (1080p muito alto, 4K alto)

Para cada GPU durante o teste, os jogos listados (para cada combinação de resolução / configuração) são executados quatro vezes e os valores divergentes são descartados. A taxa de quadros média, o percentil 99 e os dados Time Under x FPS são classificados e os dados originais são arquivados.

As quatro GPUs que obtivemos para os testes são:

  • MSI GTX 1080 Gaming X 8G
  • ASUS GTX 1060 Strix 6G
  • Sapphire Nitro R9 Fury 4GB
  • Sapphire Nitro RX 480 8GB

Em nosso script de teste, salvamos algo especial para o GTX 1080. Os seguintes testes também foram adicionados:

  • Civilização 6 (8K Ultra, 16K Menor)

Esse benchmark, com algumas limitações, pode ser lançado, embora vá além das características do monitor usado, permitindo testes "futuros" de GPUs em 8K e 16K com alguns resultados interessantes. Nós apenas executamos esses testes no GTX 1080 porque não faz sentido assistir a uma apresentação de slides mais de uma vez.

* Conforme indicado na nota desta revisão, não temos dados sobre jogos no processador Skylake-X. Realizamos uma série de testes antes de obter o Threadripper, usando as atualizações mais recentes e o BIOS mais recente. No entanto, agora, analisando os dados, vemos vários problemas de desempenho não resolvidos que devem ser fechados antes da publicação dos resultados.


7. Testes de sistema da CPU


Nosso primeiro conjunto de testes são testes gerais do sistema. Este conjunto de testes foi projetado para emular o que as pessoas costumam fazer no sistema operacional, como abrir arquivos grandes ou processar pequenas pilhas de dados. Difere um pouco dos nossos testes de escritório, que usam padrões da indústria, e alguns dos testes aqui são relativamente novos e incomuns.

Abrindo arquivos PDF


O primeiro da lista é um teste que escrevemos usando um monstruoso documento PDF que recebemos antes de participar de um evento. Embora o documento contenha apenas uma página, ele contém tantas camadas de alta qualidade que o meu laptop médio levou 15 segundos para abrir o arquivo e recuperar o controle do sistema. Este documento se tornou o melhor candidato para o nosso teste "vamos abrir um péssimo documento em PDF". Aqui usamos o Adobe Reader DC com a funcionalidade de atualização desativada. Nosso benchmark define a resolução da tela para 1080p, abre o PDF no modo de ajuste da tela e mede o tempo entre o envio do comando para abrir o arquivo e o horário em que o arquivo é expandido na tela, e o usuário novamente tem controle sobre o software. O teste foi repetido 10 vezes, após o qual o tempo médio foi calculado. Os resultados são mostrados em milissegundos.



Esse teste é de thread único, para que os chips de alta frequência da Intel obtenham uma vitória clara. Além disso, neste teste, há uma diferença imperceptivelmente especial entre os chips Threadripper.

Processamento FCAT: link


Uma das cargas mais interessantes que caíram em nossas mãos nos últimos trimestres é o FCAT, uma ferramenta que usamos para medir e analisar visualmente os atrasos nos jogos devido a queda ou quadros corrompidos. O processo FCAT requer a inclusão de uma sobreposição de cores no jogo, a gravação do processo do jogo e a análise subsequente do arquivo de vídeo usando o software apropriado. No entanto, esse software geralmente é de thread único, pois o vídeo está principalmente no formato RAW, o que implica em um tamanho de arquivo grande e requer a transferência de uma grande quantidade de dados. Para o nosso teste, fazemos um registro de 90 segundos do teste Rise of the Tomb Raider, que roda no GTX 980 Ti a 1440p, com aproximadamente 21 GB de tamanho e medindo o tempo necessário para processar usando a ferramenta de análise visual.



Como na abertura do PDF, o desempenho de thread único está no topo.

Referência do Dolphin: link


Muitos emuladores são vinculados pelo desempenho do processador de processador único, e os relatórios gerais tendem a sugerir que Haswell melhorou significativamente o desempenho do emulador. Esse benchmark lança o programa Wii, no qual o feixe rastreia uma cena tridimensional complexa dentro do emulador Dolphin Wii. Os resultados deste teste são um indicador muito confiável da velocidade da emulação do processador Dolphin, que é uma tarefa intensiva de núcleo único que usa a maioria dos aspectos do processador. Os resultados são apresentados em minutos, onde o próprio Wii mostrou um resultado de 17,53 minutos.



O Dolphin se mostra bem onde há um alto desempenho de um núcleo, embora, a julgar pelo teste, o multithreading ainda esteja presente e núcleos adicionais estejam envolvidos.

Teste de algoritmo de movimento 3D v2.1: link


Esta é a versão mais recente do nosso benchmark 3DPM. O objetivo do 3DPM é simular algoritmos científicos parcialmente otimizados retirados diretamente da minha dissertação de doutorado. A versão 2.1 difere da 2.0 na medida em que transfere as estruturas básicas de partículas por referência e não por valor e reduz o número de conversões duplas> flutuantes-> duplas executadas pelo compilador. Isso fornece uma aceleração de 25% em comparação com a versão 2.0, o que significa novos dados.



Portanto, em nosso primeiro teste puramente multithread, o 1950X com 32 threads vence. O 1920X é superior ao 1950X no modo SMT-off, com 24 fluxos em 16 fluxos.

DigiCortex v1.20: link


Embora desatualizado por alguns anos, o software DigiCortex é um projeto caseiro para visualizar a atividade dos neurônios e sinapses no cérebro. O software vem com vários parâmetros de referência, e adotamos um pequeno parâmetro que executa uma simulação cerebral de 32 mil neurônios / 1,8 bilhão de sinapses. Os resultados do teste indicam a capacidade do sistema emular em tempo real, o que significa que qualquer resultado acima de um é adequado para emulação.



O DigiCortex requer uma mistura de alta frequência do processador e desempenho de DRAM para obter um bom resultado, portanto, qualquer coisa com memória de quatro canais é adequada. O 1950X no modo SMT-off vence aqui por causa do acesso rápido à memória principal, combinado com a presença de 16 threads para acessá-lo. Broadwell-E é o concorrente mais próximo e supera até o Skylake-X, provavelmente devido à topologia do anel (anel) contra a rede (malha) no Skylake. O desempenho 1950X no modo Creator, no entanto, é muito menor do que o dos chips Ryzen padrão, mostrando que com uma única arquitetura de memória pode ocorrer uma diminuição significativa no desempenho. O 1920X falhou neste teste por um motivo desconhecido.

Agisoft Photoscan 1.0: link


O Photoscan permanece em nosso conjunto de testes da versão anterior dos testes, mas agora trabalhamos no Windows 10, para que recursos como o Speed ​​Shift nos processadores mais recentes entrem em ação. O conceito do Photoscan é a conversão de várias imagens 2D em um modelo 3D - portanto, quanto mais detalhadas as imagens e mais, melhor o modelo. O algoritmo consiste em quatro estágios: vários single-threaded e vários multi-threaded, e também possui alguma dependência do cache e da memória. Para algumas cargas de trabalho multithread mais diversas, opções como Speed ​​Shift e XFR podem tirar proveito da espera ou do tempo de inatividade da CPU, proporcionando um aumento significativo no desempenho de novas microarquiteturas.



A Agisoft variável e multithreading variável mostra que, nesse processo, o elemento decisivo da vitória é a combinação de núcleos, IPC e frequência. A AMD está na liderança, provavelmente devido à sua implementação no AVX.


8. Testes de renderização da CPU


Os testes de renderização são os favoritos há muito reconhecidos das revisões e testes, porque o código usado pelos pacotes de renderização geralmente é otimizado para reduzir todo o desempenho. Às vezes, a renderização de programas também depende muito da memória - quando você tem muitos threads carregando toneladas de dados, a memória de baixa latência pode ser a chave para tudo. Windows 10, .

Corona 1.3: link


Corona — , , 3ds Max Maya, . – , . , , . , , « » ( , , « », ). Corona , .



.

Blender 2.78: link


-, Blender . Blender 5 , , . , , AMD, Intel , , , .



Blender .

LuxMark v3.1: link


, LuxMark , , , . OpenCL, C ++. , IPC, , C ++ OpenCL .





Blender, LuxMark . — . , 10- Core i9-7900X CPU (C ++), , , - IPC .

POV-Ray 3.7.1b4: link


suit — POV-Ray. . , AMD Ryzen, , . , , POV-Ray .



LuxMark, POV-Ray .

Cinebench R15: link


CineBench , , , . IPC ST, — MT.





Intel , 18- 3200 Cinebench R15. 6,7% Threadripper 1950X .


9. CPU Web Tests


- — . , « » , . , - Chrome 56 2017. , , .

SunSpider 1.0.2: link


- – SunSpider. JavaScript-, IPC , - , . 10 . 4 .



Mozilla Kraken 1.1: link


Kraken — Javascript, , SunSpider, , . , .



Google Octane 2.0: link


, Google Mozilla, , JS . , SunSpider JS, Kraken , Octane , , .



WebXPRT 2015: link


, , WebXPRT , . , , , , , .



, - . - — , Threadripper's . , — .


10. CPU Encoding Tests


. / , . / - « » — , . , . -, -. , 3D-, , , / .

7-Zip 9.2: link


, , 7-Zip. , . .







/ 7-zip. AMD .

WinRAR 5.40: link


2017 WinRAR . WinRAR , 7-Zip, . , 7-Zip, , (33 1,37 , 2834 370 150 ) . — , . - DRAM 10 , .



WinRAR — , . . Threadripper Creator.

AES Encoding


, AES-, . , --, AES . , . TrueCrypt - 1 DRAM. — GB / s .



HandBrake v1.0.2 H264 and HEVC: link


, ( , ) , . – , , . . Google, VP9, : H264, , 1080p, HEVC ( H265), , H264, ( ). HEVC , 4, .

Handbrake , .

/ H264: 2- 640x266 H264 Main profile High profile, very-fast .



/ H264: , 4K (3840x4320), 60 Main High, very-fast .



HEVC: HQ, 4K60 H264 4K60 HEVC.



HQ H264 AMD , SMT-off 1950X - SMT. HEVC, 1950X 7900X .


11. CPU Office Tests


, , — , , . — , , , , , , .

Chromium Compile (v56)


Windows 10 Pro, VS Community 2015.3 Win10 SDK Chromium. 2017 , . — — , .



, , 1920X Ryzen 7. , CCX , . 1950x «3---CCX» 1920x ( ). , , , , 2 1950X 8 12 16 Zen.

PCMark8: link


, PCMark 2008/2009 , Futuremark PCMark8, 2017 . PCMark , , « ». «» , C ++ OpenCL, . PCMark8 Home, Work Creative , , .





, Creative PCMark 8 . , .

SYSmark 2014 SE: link


SYSmark Bapco, . SYSmark , , Photoshop Onenote, , . (Office, Media, Data), . (Core i3-6100, 4 DDR3, 256 SSD, HD 530) 1000 .




12. CPU Legacy Tests


, - . , , 10 . Windows 10, , , .

3D Particle Movement v1


3DPM — , 3D-, Brownian Motion, . , IPC , «» . , , . - , , false sharing.





CineBench 11.5 and 10


Cinebench — , MAXON Cinema 4D. Cinebench . , , Cinebench, , . , , , , Cinebench, . 15, 11,5 10.









x264 HD 3.0


, x264 HD 3.0, , . 5.0.1, 1080p x264-. 3.0 720p, high-end , . , , 90 .





1950X: , , .


13. Civilization 6


, - — Civilization 6. Sid Meier , Civ . , - . , , , , . , , .



- — , , 5 . Civilization 6 Firaxis , . , Civilization , DirectX 12.

, , Civilization 20 , AI . Civilization «AI Benchmark», , . , .

1920x1080 4K . Civilization 6 MSAA, . , , 0 ( ) 5 (). Civ6- () 0 , MSAA — 2x.

, 8K 16K (Civ6 ) GTX 1080, 8K, 4K, 16K .

MSI GTX 1080 Gaming 8G Performance
1080p



4K





8K



16K



ASUS GTX 1060 Strix 6G Performance
1080p



4K



Sapphire Nitro R9 Fury 4G Performance
1080p




4K



Sapphire Nitro RX 480 8G Performance
1080p



4K



, Threadripper , Ryzen , Time Under Threadripper.


14. Shadow of Mordor


– - Middle Earth: Shadow of Mordor ( SoM). Monolith LithTech Jupiter EX . SoM . , Red Dead Redemption, SoM Zero Punctuation's Game of the Year 2014 .



2014 , SoM , . SoM , , , . , , , , 4K.

, , , , . , Graphical Quality, Lighting, Mesh, Motion Blur, Shadow Quality, Textures, Vegetation Range, Depth of Field, Transparency Tessellation. .

1080p 4K, 4K-, Ultra. FPS, 99 time under .

MSI GTX 1080 Gaming 8G Performance
1080p



4K



ASUS GTX 1060 Strix 6G Performance
1080p



4K



Sapphire Nitro R9 Fury 4G Performance
1080p





4K



Sapphire Nitro RX 480 8G Performance
1080p



4K




16. Rise of the Tomb Raider (1080p, 4K)


Rise of the Tomb Raider (RoTR), Crystal Dynamics, Tomb Raider, . : RoTR .



Tomb Raider TressFX, RoTR . : , , , , , , DirectX 12.

, : (1-), (2-) (3-) — ( , — , ).

, , , 2-, , CPU , . - .

RoTR , , , , , , , , , , PureHair, TressFX.

-, 1920x1080 4K, 4K-. 1080p High, 4K Medium, - .

, RoTR , , INI-, TR . , , . FPS, 99 time under .

#1 Geothermal Valley Spine of the Mountain



MSI GTX 1080 Gaming 8G Performance
1080p



4K



ASUS GTX 1060 Strix 6G Performance
1080p





4K





Sapphire Nitro R9 Fury 4G Performance
1080p





4K





Sapphire Nitro RX 480 8G Performance
1080p





4K





#2 Prophet's Tomb



MSI GTX 1080 Gaming 8G Performance
1080p





4K





ASUS GTX 1060 Strix 6G Performance
1080p





4K





Sapphire Nitro R9 Fury 4G Performance
1080p





4K





Sapphire Nitro RX 480 8G Performance
1080p





4K





#3 Spine of the Mountain Geothermal Valley



MSI GTX 1080 Gaming 8G Performance
1080p





4K





ASUS GTX 1060 Strix 6G Performance
1080p





4K





Sapphire Nitro R9 Fury 4G Performance
1080p





4K





Sapphire Nitro RX 480 8G Performance
1080p





4K




, 1950X .


17. Rocket League


« – » . Katamari – , , . . , , Rocket League.

Rocket League pick-up-and-play, ( ), . Unreal Engine 3, , - , . 2015 5 , , , . , , , , . Rocket League , — .



, , , «» . , . , Unreal 3, Rocket League . .

, Rocket League , , . : Fraps , ( ), , 4v4, , , .

, , , , , . , , . (Aquadome, , , - / ) . 4 (, 5 DIRT: Rally benchmark), , 99- time under.



Rocket League : Low, Medium, High High FXAA. ; . 1920x1080 4K FPS.

MSI GTX 1080 Gaming 8G Performance
1080p





4K





ASUS GTX 1060 Strix 6G Performance
1080p





4K





Sapphire Nitro R9 Fury 4G Performance
1080p





4K





Sapphire Nitro RX 480 8G Performance
1080p





4K




Ryzen NVIDIA, . , , Ryzen Rocket League NVIDIA, Threadripper. , , Intel, , Rocket League , SMT-off 1950X. Time Under AMD, 1950X .


18. Grand Theft Auto


Grand Theft Auto 14 2015 , AMD, NVIDIA . GTA , , Advanced Game Engine Rockstar DirectX 11. , , , , , , .



. : , – 90 . , , — , , . , . , .

GTA , , . , / / / . MSAA, , -, . , , , , , ( , GPU , , R7 240 4 ).

, 1920x1080, Very High , 4K High . , , 99- time-under .

MSI GTX 1080 Gaming 8G Performance
1080p





4K





ASUS GTX 1060 Strix 6G Performance
1080p





4K





Sapphire Nitro R9 Fury 4G Performance
1080p





4K





Sapphire Nitro RX 480 8G Performance
1080p





4K





, Threadripper Ryzen, .


19. ,


Um Threadripper com um sistema de resfriamento de processador projetado para dissipação de calor de 180 W TDP (potência de projeto térmico) é um grande salto em frente às soluções AMD anteriores que trabalham na faixa de 40 a 95 W, ou plataformas Intel, onde a maioria dos processadores possui TDP até 95 watts e 140 watts de alta qualidade. Embora não se esqueça que a AMD já lançou um processador com 220W TDP - o FX-9590 operando a 5 GHz, que foi originalmente vendido por um ano como um produto exclusivo para OEMs, para garantir que os usuários tenham energia suficiente refrigeração. No final, foi lançado como o produto final com um refrigerador de líquido e dois ventiladores.

CPU Turbo de 5 GHz da AMD no varejo: Revisão da FX-9590 e ASRock 990FX Extreme9

Assim, o TPD de 180W ainda não é um conceito novo para a AMD. Para esta revisão, usei o resfriamento líquido da AMD, obtido na época com o FX-9590, porque foi projetado para trabalhar com pelo menos 220 watts. (A AMD também forneceu o cooler Thermaltake 3x120 junto com o Threadripper, mas foi muito mais difícil de instalar em nosso banco de testes.)

Para testar a energia, executamos o Prime95 por pelo menos 60 segundos e, em seguida, usamos o software para pesquisar os sensores de energia integrados no chip para obter os resultados. Dependendo da CPU, podemos receber dados para todo o chip, para o núcleo, DRAM, GPU uncore ou integrada - é importante que nossa ferramenta tenha a atualização mais recente, pois os registros para receber esses dados devem ser conhecidos. Normalmente, essa maneira de ler o consumo de energia pode não ser precisa o suficiente em comparação com métodos mais invasivos, é rápida e acessível para gerenciar scripts. Além disso, são esses dados que determinam quando o processador central atinge os limites de energia e precisa aumentar a velocidade do ventilador.

Para começar, vejamos o consumo total de energia do Threadripper.



Em geral, o Threadripper é muito voraz, mesmo em modo inativo. A maior parte da energia aqui é consumida pelo controlador de memória e pelo barramento PCIe para suportar o processador gráfico com uma tela estática. O fato de a memória 1950X DDR4-3200 consumir outros 13 W + da CPU mostra como o controlador de memória afeta o consumo geral de energia. Para todos os chips, registramos 2 watts de potência para os núcleos.

Quando carregamos o processador em um thread, ele lança uncore / mesh, além de memória, e entra no modo turbo máximo. Dependendo de como o processador foi projetado, isso pode carregar um ou vários núcleos de uma só vez - e, embora apenas um núcleo faça o trabalho, o restante ainda aumentará o consumo de energia.



Os resultados mostram que diferentes processadores Threadripper novamente mostram aproximadamente o mesmo resultado, consumindo significativamente mais processadores Ryzen, e correspondem às CPUs 10C / 8C da Broadwell-E e Haswell-E, respectivamente. O 1950X rodando na DDR4-3200 ainda consome mais 13 watts, mas é interessante que o consumo de energia dos núcleos Skylake-X tenha saltado para o mesmo valor. Parece que a conexão MoDe-X usada no Skylake-X também consome energia significativa.

No próximo teste, carregamos o processador com o número máximo de threads para esse design de chip. Essa abordagem fornecerá carga máxima em todos os núcleos, um controlador de memória e interconexão.



Todos os processadores Threadripper atingiram 177 watts, logo abaixo do TDP de 180 watts, e os processadores Skylake-X excederam o seu TDP de 140 watts. O 1950X no modo de jogo parece consumir um pouco menos de energia, o que pode ser devido ao lançamento da DRAM no NUMA.

Para alguns chips, podemos ver apenas o consumo de energia dos núcleos. E a plena carga, obtivemos resultados interessantes:



Um elemento-chave neste gráfico é o 1950X em execução no DDR4-3200. Como a DRAM mais rápida exige que o controlador de memória consuma mais energia, ele deixa menos energia para os núcleos do processador, o que pode levar a uma frequência turbo mais baixa. Portanto, enquanto a memória mais rápida pode garantir melhor desempenho em cenários dependentes de memória, a frequência do kernel pode ser menor, resultando em pior desempenho geral. Esta é uma observação interessante, portanto calculamos a potência do núcleo em 1950X nas DDR4-2400 e DDR4-3200.



Neste gráfico, o número do núcleo no eixo vertical é o núcleo em que a energia foi medida e, na horizontal, o número de núcleos que foram carregados, duas linhas de cada vez.
Inicialmente, vemos que quando dois threads carregam o mesmo núcleo, esse dispositivo de núcleo único consome 20,77 watts. A partir do momento em que metade dos núcleos do chip é carregado, o indicador cai para 19 watts, depois para 17 watts, 16 watts e até 11 watts. Como vemos, ao carregar 8 núcleos, os próprios núcleos consomem 89 watts - e se adicionarmos o consumo do controlador DRAM, o resultado certamente será maior que o do processador Ryzen. No entanto, à medida que carregamos mais de 10 núcleos, algo estranho acontece: o consumo total de energia dos núcleos cai de 120 watts para 116 watts e para 102 watts quando 24 threads estão em execução. Isso indica que a segunda camada da matriz de silício consome menos energia por núcleo. Então, o consumo aumenta novamente, com um chip totalmente carregado, dando a cada núcleo cerca de 8,2 watts.

A mudança para a memória DDR4-3200 mostra um cenário semelhante:



Primeiro, um núcleo recebe até 21 watts e, em seguida, à medida que novos núcleos são carregados, em torno de 4 núcleos / 8 threads, observamos menos consumo - 15 watts por núcleo na DDR4-3200 (compare com 16 watts por núcleo na DDR4-2400). Seguindo em frente, observamos uma ligeira flutuação nos fluxos de 24 a 26 e, como resultado, em plena carga, o consumo de 114 W por todos os núcleos, 20 W a menos do que na DDR4-2400.

Nem todos os dados do Modo Jogo foram obtidos adequadamente, portanto, não ousamos tirar conclusões profundas dos resultados, embora valha a pena fazer uma observação interessante. No modo de jogo, quando o sistema requer um pequeno número de encadeamentos, por exemplo, de 2 a 8, uma vez que o SMT está desativado, esses encadeamentos devem ser executados em CCX diferente. No modo Criador, esses fluxos são agrupados em 1 a 4 núcleos em um CCX e consomem menos energia. Para DDR4-2400, isso significa 65 watts no modo Creator para 8 threads (4 núcleos) em comparação com 89 watts no modo Game para 8 núcleos ativos.


20. Análise do Modo Criador e Modo Jogo


Conforme declarado na página 3 desta revisão, a AMD oferece dois modos: modo Criador com todos os núcleos ativados e arquitetura de acesso à memória uniforme (UMA) e modo de jogo, onde uma das matrizes está desabilitada e a arquitetura é ajustada à arquitetura de memória não uniforme (NUMA) . A idéia é que, no modo Criador, você tenha todos os fluxos e largura de banda à sua disposição, enquanto o Modo Jogo se concentra na compatibilidade com jogos que não estão prontos para trabalhar com tantos núcleos, enquanto aumenta a velocidade da transferência de dados para a memória e para o kernel. até o núcleo e mantendo os fluxos dentro da mesma camada de silício.

Ambos os métodos têm seus lados positivo e negativo. E, embora eles possam ser alternados pressionando um botão no Ryzen Master e depois reiniciando, a maioria dos usuários interessados ​​nessas configurações provavelmente escolherá o modo desejado uma vez e esquecerá-o (e aqui, observe que, se o BIOS for redefinido, as configurações também. ..)




21. Conclusão


Nesta revisão, examinamos vários tópicos importantes sobre processadores com um grande número de núcleos: potência, frequência e "alimentar a fera". Iniciar o processador é como uma dieta reversa - você precisa colocar o máximo de dados possível para obter pelo menos alguma coisa na saída e entender o que está oculto "sob o capô".

A AMD e a Intel adotam abordagens diferentes para atingir a meta. Vemos uma solução multi-matriz versus uma solução monolítica. Complexos de kernel e Infinity Fabric vs. mesh baseados no MoDe-X. Acesso unificado à memória versus acesso desigual à memória. Ambos estão lutando por alta frequência e baixo consumo de energia. A AMD suporta ECC e mais pistas PCIe, enquanto a Intel fornece um chipset mais completo e instruções especiais para o AVX-512. Ambos os concorrentes estão lutando pelo mercado de prosumer e estações de trabalho de ponta, o que contribui para cenários de multitarefa de alto desempenho como uma chave para liberar o potencial de seus processadores.



Aqui está o que vemos nas especificações: Comparado ao Core i9-7900X, o AMD Ryzen Threadripper 1950X tem mais 6 núcleos, além de 16 linhas PCIe adicionais e suporte a ECC pelo mesmo preço. Comparado com o Core i9-7960X de 16 núcleos, o Threadripper 1950X ainda tem uma vantagem: 16 linhas PCIe, suporte ECC, muito mais barato que seu concorrente.

O processador 1920X oferece ao usuário mais núcleos, suporte ECC e mais que o dobro do número de pistas PCIe em comparação com o Core i7-7820X por uma diferença de US $ 100. Simplificando, se houver hardware que exija pistas PCIe, a AMD tem algo a oferecer.



Quanto aos testes de desempenho, existem vários ângulos para descrever nossos resultados. A AMD ainda está atrasada no que diz respeito ao IPC bruto, mas mostra resultados decentes em frequência. A Intel ainda vence em tarefas de thread único, especialmente aquelas que dependem do atraso da DRAM. A AMD avança quando a tarefa exige threads sérios, geralmente a alocação de memória não é tão problemática quanto parece. Se o usuário tiver uma carga de trabalho escalável, a AMD fornecerá o kernel para permitir que ele seja escalado o mais amplo possível.



Embora o design do Threadripper possa ser mais adequado para tarefas de trabalho pesadamente carregadas, sua alta frequência em comparação com o Ryzen 7 significa que os jogos se tornarão parte da "equação". No modo Criativo padrão, o desempenho dos jogos do Threadripper está no meio: no máximo, poucos jogos podem usar todos esses fluxos, e o atraso variável da DRAM significa que os kernels às vezes, grosso modo, tropeçam uns nos outros, tentando "falar" e prever quando o trabalho será feito. Para resolver esse problema, a AMD oferece um modo de jogo que reduz o número de núcleos e concentra a alocação de memória na DRAM mais próxima do núcleo (em detrimento da largura de banda máxima da DRAM). Isso tem o maior impacto na taxa de quadros mínima e não no FPS médio e afeta 1080p mais do que 4K, o que pode ser o oposto das expectativas de um jogador de alto nível. O modo de jogo não afeta alguns jogos, enquanto em outros pode abrir novas possibilidades.

Se eu pegasse e dissesse que os processadores Threadripper não são, em geral, processadores, isso irritaria o público técnico. A resposta mais correta não é o melhor processador de jogos. Mas a AMD cobre tudo isso do outro lado: o processador permite ao usuário reproduzir, transmitir, assistir e processar tudo ao mesmo tempo.

Você precisará fazer muito e imediatamente preencher 16 núcleos ao máximo, o que significa que, para quem faz isso, a AMD é uma potencial ganhadora. Para quem precisa de largura de banda hardcore, transcodificação, decodificação; renderizar como Blender, Cinema 4D ou ray tracing é um ótimo processador. Para proprietários de várias GPUs ou fãs de multi-armazenamento, ou aqueles que desejam inserir seis FPGAs PCIe 3.0 x8 no sistema, a AMD oferece um bom produto.



Por outro lado, não importa a aparência de 16 núcleos em um processador de consumidor (e, nesse sentido, todo o Threadripper parece legal - no estilo dos anos 90 hardcore), os threads do Threadripper estão longe de ser sempre úteis em cargas de consumidores. Apenas algumas cargas de trabalho conhecidas podem saturar completamente o chip: a codificação de vídeo é o melhor exemplo. O restante simplesmente não pode usar mais do que alguns threads. Esse fato se deve em grande parte ao fato de que, nos últimos 8 anos, os chips quad-core da Intel foram um exemplo de processadores de alto desempenho para consumidores. No entanto, a lei irritante da Amdahl está sempre próxima e o número de núcleos nos processadores continua a crescer.

Há um fator imprevisível aqui - esta é a área em que a AMD é pioneira: distribuição desigual de núcleos. A NUMA nunca foi orientada para o cliente até agora, e é por isso que a AMD enfrenta os problemas discutidos em nossa análise.

A presença de vários modos é uma escolha muito inteligente, especialmente porque há muito software que não conhece o NUMA, mas pode carregar bem a CPU se o NUMA for deduzido da equação e o processador for considerado um dispositivo completamente monolítico. Um tanto desagradável, no entanto, é o fato de que os modos de comutação exigem uma reinicialização; Você pode obter um bom retorno alternando os modos, mas isso exigirá movimento extra. A longo prazo, o código habilitado para NUMA removerá esse problema e usará automaticamente a memória com a menor latência. Mas mesmo neste caso, a AMD criou não apenas uma solução, mas também um problema, já que mesmo na versão ideal o NUMA criará vários problemas de programação, e é improvável que todo programa possa usá-lo corretamente no futuro.

Com isso dito, um processador com NUMA é atualmente um pouco redundante no espaço do consumidor. É muito bom para certas cargas extremas, mas não tão equilibrado quanto o Ryzen. Descartando o excesso, isso significa que o Threadripper nem sempre oferece um aumento notável no desempenho em comparação ao Ryzen. E esse não é um recurso exclusivo da AMD - por um longo tempo, os produtos Intel HEDT exigiram uma escolha entre o número de núcleos e o desempenho de nível superior de thread único, mas calcular o desempenho da CPU ficou ainda mais difícil com o Threadripper. Existem dificuldades em dimensionar um processador para o mesmo número de núcleos, e o Threadripper carrega esse fardo. Portanto, para os consumidores (e este é o mercado para o qual o processador está direcionado), é importante, como nunca antes, considerar suas cargas de trabalho planejadas. Você precisa de uma codificação Handbrake mais rápida ou de uma jogabilidade mais suave? Você pode lançar núcleos suficientes no Threadripper para manter a fera ocupada ou ocasionalmente precisa apenas de mais do que os 8 núcleos Ryzen existentes?



A AMD prometeu que o soquete permanecerá por pelo menos duas gerações; portanto, a série Threadripper 2000, quando aparecer, deve vir imediatamente após a atualização do BIOS. Curiosamente, dado o tamanho do soquete e a configuração da matriz, a AMD pode facilmente transformar esses dois pacotes de silício "mortos" em pacotes de silício "reais" e oferecer 32 núcleos. (Embora esses núcleos adicionais sejam um gargalo nos problemas de velocidade de acesso).

Esta é a guerra nuclear. Estamos nos aproximando do primeiro chip que pode fazer o Kessel rodar menos de doze parsecs (consulte Star Wars - aprox. Transl.)

Como um anúncio. Na véspera das férias de inverno, as promoções são ainda mais relevantes! Apresse-se para aproveitar a oferta de Ano Novo e obtenha um desconto de 25% no primeiro pagamento ao fazer o pedido por 3 ou 6 meses!

Estes não são apenas servidores virtuais! Estes são VPS (KVM) com unidades dedicadas, que não podem ser piores que servidores dedicados e, na maioria dos casos - melhor! Fabricamos VPS (KVM) com unidades dedicadas na Holanda e nos EUA (configurações de VPS (KVM) - E5-2650v4 (6 núcleos) / 10GB DDR4 / 240GB SSD ou 4TB HDD / 1Gbps 10TB disponíveis a um preço excepcionalmente baixo - de US $ 29 / mês , opções com RAID1 e RAID10 estão disponíveis) , não perca a chance de fazer um pedido para um novo tipo de servidor virtual, onde todos os recursos pertencem a você, como em um dedicado, e o preço é muito mais baixo, com um hardware muito mais produtivo!

Como construir a infraestrutura do edifício. classe usando servidores Dell R730xd E5-2650 v4 custando 9.000 euros por um centavo? Dell R730xd 2 vezes mais barato? Somente nós temos 2 TVs Intel Dodeca-Core Xeon E5-2650v4 128GB DDR4 6x480GB SSD 1Gbps 100 a partir de US $ 249 na Holanda e nos EUA!

Source: https://habr.com/ru/post/pt409491/


All Articles