Parte 1 →
Parte 2 →
Parte 3 →
Parte 4 →
Parte 5Testes HEDT: Testes do sistema
A seção "Testes do sistema" se concentra nos testes em condições reais com as quais o consumidor se depara. Nesta seção, examinamos os tempos de carregamento do aplicativo, processamento de imagem, física simples, emulação, modelagem neural, computação otimizada e o desenvolvimento de modelos tridimensionais, usando software facilmente acessível e personalizável. Embora alguns dos testes sejam mais fáceis de se sobrepor aos recursos de pacotes grandes, como o PCMark (publicamos esses valores na seção de testes do office), vale a pena considerar várias perspectivas. Em todos os testes, explicaremos em detalhes o que exatamente está sendo testado e como realizamos os testes.
Download do aplicativo: GIMP 2.10.4
Um dos aspectos mais importantes da experiência do usuário e do fluxo de trabalho é a velocidade do sistema. Um bom teste nesse caso é verificar os tempos de carregamento do aplicativo. Atualmente, a maioria dos programas é armazenada em um SSD e carregada quase instantaneamente, mas algumas ferramentas de escritório exigem pré-carregamento de ativos. A maioria dos sistemas operacionais usa cache, portanto, quando um software é baixado frequentemente (navegador da web, ferramentas de escritório), ele pode ser inicializado muito mais rapidamente.
No conjunto de testes anterior, verificamos quanto tempo levou para carregar um documento PDF grande no Adobe Acrobat. Infelizmente, este teste foi um pesadelo de programação e se recusou a mudar para o Win10 RS3 sem lutar. Enquanto isso, descobrimos um aplicativo que pode automatizar esse teste, conduzi-lo ao GIMP. O GIMP é um aplicativo de edição de fotos popular e gratuito, é um editor de código aberto e a principal alternativa ao Adobe Photoshop. Nós o configuramos para fazer o download de um modelo de design grande de 50 MB e executamos a carga 10 vezes com um intervalo de 10 segundos entre eles. Devido ao armazenamento em cache, os primeiros 3 a 5 resultados são mais lentos que os subsequentes; o tempo para o armazenamento em cache pode ser inconsistente. Portanto, derivamos o valor médio dos últimos cinco resultados para mostrar o processamento da CPU durante o carregamento em cache.

Esse benchmark dividiu os competidores em duas categorias: processadores com um pequeno número de núcleos de um lado e processadores de desktop principais do outro. O 1920X e o 2950X tiveram um desempenho rápido, enquanto o Intel de 18 núcleos e o AMD de 32 núcleos mais lentos. Provavelmente, isso se deve à diferença no desempenho de um núcleo; no entanto, suspeito que o resultado possa ser afetado pela latência da memória.
FCAT: processamento de imagem
O software FCAT foi projetado para detectar micro-sticks, quadros perdidos, executar testes gráficos quando duas placas de vídeo são combinadas para renderizar uma cena. Devido aos mecanismos de jogo e aos drivers gráficos, nem todas as combinações de GPU funcionaram perfeitamente, como resultado do software capturou cores para cada quadro renderizado e executou dinamicamente a gravação de dados RAW usando um dispositivo de captura de vídeo.

O software FCAT aceita o vídeo gravado, no nosso caso, são 90 segundos 1440p do jogo Rise of the Tomb Raider e converte os dados de cores em dados de tempo de quadro, para que o sistema possa exibir a taxa de quadros "observada" e se correlacionar com o consumo de energia dos aceleradores de vídeo. Este teste, devido à rapidez com que foi concluído, é de thread único. Iniciamos o processo e, como resultado, obtemos o tempo de conclusão.

Todos os sistemas de teste funcionam aproximadamente da mesma forma, mas o desempenho mais rápido do processador único da Intel o eleva mais do que outros processadores. O EPYC 7601 é o último da lista devido à baixa frequência de um único núcleo.
Movimento de partículas 3D v2.1: movimento browniano
Nosso teste 3DPM é uma referência personalizada projetada para modelar seis algoritmos diferentes para mover partículas no espaço tridimensional. Os algoritmos foram desenvolvidos como parte da minha tese de doutorado e, finalmente, funcionam melhor na GPU, dão uma boa idéia de como os fluxos de comando são interpretados por diferentes microarquiteturas.
A parte principal dos algoritmos é a geração de números aleatórios - usamos a geração relativamente rápida, que completa a implementação de cadeias de dependências no código. A atualização principal em comparação com a primeira versão primitiva desse código - o problema do False Sharing em caches foi resolvido, esse foi o principal gargalo. Estamos pensando em aplicar as versões AVX2 e AVX512 deste teste para futuras revisões.
Para esse teste, executamos um conjunto de partículas usando seis algoritmos diferentes por 20 segundos com pausas de 10 segundos e relatamos a velocidade total das partículas em milhões de operações (movimentos) por segundo.

O 3DPM parece gostar de fluxos e frequência, e é por isso que a AMD ocupa os quatro primeiros lugares. Até o mais recente processador de 16 núcleos da AMD supera o processador de 18 núcleos da Intel neste teste, usando instruções diferentes do AVX. É interessante ver uma comparação entre 2990WX e EPYC 7601 - a frequência adicional no processador do consumidor ajuda a aumentar a produtividade em 30% +.
Dolphin 5.0: emulação de console
Um dos testes populares solicitados em nosso pacote é a emulação de console. A capacidade de selecionar um jogo de um sistema desatualizado e executá-lo é muito atraente e depende dos esforços do emulador: é necessário um sistema x86 muito mais poderoso para emular com precisão um console antigo que não seja o x86. Especialmente se o código desse console foi criado levando em consideração algumas falhas físicas e bugs de hardware.
Para nosso teste, usamos o popular software de emulação Dolphin e executamos um projeto de computação para determinar com que precisão nossos processadores podem emular o console. Neste teste, a emulação do Nintendo Wii durará cerca de 1050 segundos.

O desempenho do Dolphin geralmente depende de especificações de thread único, então a Intel está novamente à frente, embora seja estranho que o R7 2700X ocupe o último lugar. Para eliminar o resultado errado, tenho que executar este teste novamente. No entanto, nas peças TR de segunda geração, a frequência de clock mais alta do 2950X permite ultrapassar o 2990WX em 20 segundos.
DigiCortex 1.20: Modelagem do cérebro de moluscos
Esta referência foi originalmente projetada para modelar e visualizar a atividade dos neurônios e sinapses no cérebro. O software vem com vários modos predefinidos, escolhemos uma pequena referência que simula um cérebro de 32 mil neurônios / 1,8 bilhão de sinapses, o que equivale a um cérebro de molusco.

Quaisquer resultados acima de "unidades" são adequados para operação em tempo real. Dos dois modos, o modo “sem início sinapse”, que é difícil para a DRAM, e o modo “com início sinapse”, no qual o processador está carregado, selecionamos o último. Apesar da nossa escolha, o teste ainda é afetado pela velocidade da DRAM.

Os processadores de quatro matrizes com um grande número de núcleos estão à frente de uma grande margem, embora o EPYC 7601 de baixa frequência o coloque na lista de perdedores. Parece que a latência adicional da estrutura de dois módulos no 2990WX não afetou muito os resultados, há uma suspeita de que haja desempenho adicional.
y-Cruncher v0.7.6: cálculos otimizados para microarquitetura
Uma vez ouvi falar do y-Cruncher como uma ferramenta para ajudar a calcular várias constantes matemáticas. Mas depois de conversar com seu desenvolvedor Alex Yee (um pesquisador da NWU e desenvolvedor de otimização de software), percebi que ele otimizou o software de uma maneira incrível para obter o melhor desempenho. Qualquer simulação que leve mais de 20 dias se beneficiará de um aumento de 1% na produtividade! Alex começou a trabalhar com o y-Cruncher como um projeto no ensino médio, mas agora o projeto é relevante.
Para o nosso teste, executamos o y-Cruncher v0.7.6 através de todas as variantes otimizadas possíveis de cálculos binários, de thread único e multi-thread, incluindo arquivos binários otimizados para o AVX-512. O teste é para calcular 250 milhões de caracteres do número Pi, usamos versões single-thread e multi-threaded deste teste.


O software Intel está bem otimizado para as instruções AVX2 e AVX512 e usamos essas instruções em um teste de thread único. No entanto, quando carregamos novos núcleos e canais de memória, os dois processadores AMD de 32 núcleos parecem concorrentes dignos do Core i9, levando em consideração o custo.
Agisoft Photoscan 1.3.3: Converter imagem 2D em modelo 3D
Um dos ISVs com quem trabalhamos há vários anos é a Agisoft. A campanha está desenvolvendo um software chamado PhotoScan, que converte uma série de imagens 2D em um modelo 3D. Essa é uma ferramenta importante no desenvolvimento e arquivamento de modelos e depende de vários algoritmos de thread único e multi-thread para mover de um lado do cálculo para o outro.

Em nosso teste, tiramos a versão 1.3.3 do software com um grande conjunto de dados - fotos de 84 x 18 megapixels. Executamos um teste usando um conjunto bastante rápido de algoritmos. O teste ainda é mais exigente do que seu antepassado de 2017. Como resultado, relatamos o tempo total de conclusão do processo.

O 2990WX é deixado para trás porque possui núcleos que não conseguem acessar a memória com rapidez suficiente. Para comparação, o EPYC 7601 com o dobro do canal de memória roda quase 500 segundos (20% +) mais rápido. Portanto, se o 2990WX receber canais de memória adicionais, poderá estar no topo desta lista.
Curiosamente, o TR 1950X ignora o TR 2950X, que possui melhor latência de cache e maior frequência em todos os cenários. Por que isso é um mistério?
Benchmarks do HEDT: testes de renderização
Em um ambiente profissional, a renderização costuma ser uma preocupação principal para as cargas de trabalho do processador. É usado em vários formatos: da renderização 3D à rasterização, em tarefas como jogos ou rastreamento de raios, utiliza a capacidade do software para gerenciar malhas, texturas, colisões, aliases e física (em animação). A maioria dos renderizadores oferece código para a CPU, enquanto alguns usam GPUs e escolhem ambientes que usam FPGAs ou ASICs especializados. Para estúdios grandes, os processadores ainda são o principal hardware.
Corona 1.3: Renderização de desempenho
Um renderizador aprimorado otimizado para o desempenho de software como 3ds Max e Cinema 4D, o teste Corona renderiza uma cena gerada da versão 1.3 padrão. Geralmente, a implementação do benchmark da GUI mostra o processo de construção da cena, permite que o usuário veja o resultado como "tempo para concluir".

Entramos em contato com o desenvolvedor, ele nos forneceu uma versão em linha de comando do teste, que fornece saída direta dos resultados. Em vez do tempo que levou para construir a cena, relatamos o número médio de raios por segundo em seis execuções, porque a proporção de ações concluídas por unidades de tempo é visualmente mais fácil de entender.

Então, a AMD rasgou nosso mecanismo gráfico. Como mostramos o resultado do teste Corona em feixes por segundo, com um total de 12 milhões, que transfere oito dígitos para o nosso mecanismo, que tenta interpretá-lo como uma representação exponencial do número (1,2 x 10 ^ 7), que não pode ser exibido no gráfico . Tivemos que converter esse gráfico em milhões de feixes por segundo para fazer o motor funcionar.
O 2990WX está à frente com 32 núcleos devido à sua alta frequência, está muito à frente do processador EPYC. O EPYC e o Core i9 estão próximos, mas o TR2950X é metade do preço.
Blender 2.79b: Suíte de Criação 3D
Uma ferramenta de renderização de última geração, o Blender é um produto de código aberto com muitas definições e configurações e é usado por muitos estúdios de animação de última geração em todo o mundo. A organização lançou recentemente uma suíte de testes do Blender; um novo teste pode levar mais de uma hora. Para obter os resultados, executamos um dos subtestes deste pacote pela linha de comando - a cena padrão "bmw27" no modo "Apenas CPU", medimos o tempo de conclusão da renderização.

Núcleos adicionais permitem que o 2990WX fique à frente do EPYC e Core i9. 2990WX + 58% de taxa de transferência adicional em comparação com o Core i9.
LuxMark v3.1: LuxRender através de vários caminhos de código
Existem várias maneiras de lidar com a renderização de dados: CPU, GPU, Accelerator e outros. Além disso, existem muitas estruturas e APIs. LuxMark - uma referência desenvolvida usando o mecanismo LuxRender, oferece várias cenas e APIs diferentes.
retirado da versão Linux do LuxMarkEm nosso teste, executamos uma cena simples de "bola" usando código C ++ e OpenCL, mas no modo CPU. Essa cena começa com uma renderização aproximada e melhora lentamente sua qualidade ao longo de dois minutos. Tomado é a taxa média do número de quilos-raios por segundo.


Por alguma razão, os processadores Intel Skylake-X falham em nossos testes do OpenCL. No teste C ++, controladores de memória adicionais no processador EPYC o substituem pelo TR2 e Core i9. 2990WX e Core i9 são quase iguais.
POV-Ray 3.7.1: rastreamento de raios
O mecanismo de rastreamento de raios Persistence of Vision é outra ferramenta bem conhecida de benchmarking que está em hibernação há algum tempo até a AMD lançar seus processadores Zen. De repente, a Intel e a AMD começaram a inserir código no ramo principal de um projeto de código aberto. Para o nosso teste, usamos o teste interno para todos os núcleos, chamados na linha de comando.

Este é outro teste que adora núcleos e frequência, que é o que o 2990WX possui. O 2990WX pode concluir o teste em quase 20 segundos. Talvez seja hora de um teste interno maior.
Benchmarks do HEDT: testes de escritório
Conjunto de testes do Office - Um conjunto de benchmarks padrão do setor que se concentram nos fluxos de trabalho do escritório. Estes são testes sintéticos, + verificamos o desempenho do compilador nesta seção. Para avaliar o equipamento como um todo, esses critérios são importantes para os usuários.
PCMark 10: padrão da indústria
A Futuremark, agora conhecida como UL, vem desenvolvendo testes que são padrões da indústria há mais de duas décadas. O último conjunto de testes do sistema é o PCMark 10. Aqui, em comparação com o PCMark 8, vários testes são aprimorados, mais atenção é dada ao OpenCL e, em particular, em casos como streaming de vídeo.
O PCMark divide suas notas em aproximadamente 14 áreas diferentes, incluindo o lançamento de aplicativos, páginas da web, planilhas, edição de fotos, renderização, videoconferência e física. Nós publicamos todos esses dados em nosso banco de dados Bench. Um indicador chave para a revisão atual é a pontuação geral.

Uma das desvantagens do PCMark é que ele parece coletar todos os resultados, produzindo algum valor médio em todas as direções. Curiosamente, os processadores Intel são deixados para trás, os 2950X e 2700X estão no topo.
Compilação de cromo: Windows VC ++ Compilando o Chrome 56
Um grande número de leitores da AnandTech são engenheiros de software que observam como o hardware funciona. Compilar o kernel do Linux é "padrão" para revisores que compilam com frequência. Mas nosso teste é um pouco mais diversificado - usamos as instruções do Windows para compilar o Chrome, em particular a versão do Chrome em 56 de março de 2017. As instruções do Google sobre como compilar no Windows depois de baixar 400.000 arquivos do repositório são bastante detalhadas.
Em nosso teste, seguindo as instruções do Google, usamos o compilador MSVC e o ninja para controlar a compilação. Como você pode esperar, este é um teste com multithreading variável, com requisitos variáveis para DRAM, que se beneficiam de caches mais rápidos. Os resultados do teste são o tempo gasto na compilação, que convertemos para o número de compilações por dia.

Este teste é uma combinação tão agradável de fluxos ST, MT e memória limitada que é realmente interessante ver o resultado final. Infelizmente, para o nosso novo pacote, os arquivos de saída não foram configurados corretamente; portanto, apesar da conclusão do teste, obtivemos apenas alguns resultados. Mas mesmo isso demonstra uma métrica interessante: o 2950X avança com o 2990WX junto com o Core i9, mas o sistema EPYC esbarra nos traseiros devido às suas baixas frequências.
3DMark Physics: física da computação em jogos
Juntamente com o PCMark, há um benchmark do 3DMark, Futuremark (UL) - um conjunto de testes de jogos. Cada teste de jogo consiste em uma ou duas cenas pesadas para a GPU, além de um teste físico, dependendo de quando o teste foi escrito e em qual plataforma ele se destina. Os principais assuntos em dificuldade crescente são Tempestade de Gelo, Cloud Gate, Sky Diver, Fire Strike e Time Spy.
Alguns dos subtestes oferecem outras opções, como Ice Storm Unlimited ou Fire Strike. Ice Storm Unlimited foi projetado para plataformas móveis com renderização fora da tela. O Fire Strike Ultra foi projetado para sistemas 4K de alto desempenho com muitos recursos adicionais. Vale ressaltar que o Time Spy atualmente possui o modo AVX-512 (que podemos usar no futuro).
Quanto aos nossos testes, enviamos os resultados de cada teste físico à Bench, mas, para a revisão, levamos os resultados das cenas mais exigentes: Tempestade de Gelo Ilimitada, Cloud Gate, Cloud Gate, Sky Diver, Fire Strike Ultra e Time Spy,





Nos testes de jogos, não é tão perceptível que a presença de grandes processadores com muitos núcleos não beneficie particularmente o desempenho. A física dos jogos claramente prefere a largura de banda da memória. Sabemos que o Time Spy não foi projetado para ser dimensionado em mais de 10 núcleos e vemos que o processador de 10 núcleos está em primeiro lugar. , , .
GeekBench4:
, Mac, GeekBench 4 — , . , , , , n-, , HTML.
, . - , ( ).
(Crypto, Integer, Floating Point, Memory) , .


HEDT Benchmarks: Encoding Tests
, , . , , , , , , , . , , .
Handbrake 1.1.0:
, Handbrake — , , , . . , AVX-512 OpenCL . , , CPU, .
Handbrake , - Logitech C920 1080p60 ( , ). . :
- 720p60 at 6000 kbps constant bit rate, fast setting, high profile
- 1080p60 at 3500 kbps constant bit rate, faster setting, main profile
- 1080p60 HEVC at 3500 kbps variable bit rate, fast setting, main profile



, . Core i9, AVX2, . AMD, , , 1950X 2700X . , 2950X , , Core i9, , 1950X. 2990WX .
7-zip v1805:
/ 7-zip , . , . .
, : . , , Windows Scheduler . , .



, . , , 2990WX, , , AMD. Phoronix, Linux.
, . 32- AMD , 16- 18- .
, , . .
WinRAR 5.60b3:
, WinRAR. . , right-click Windows . , , 30 60- 2000 -, .
WinRAR , , 10 , .

, . R7 2700X AMD, — 10- Intel. , 8700K, , . AMD , 32- .
AES:
, , . Windows BitLocker Microsoft ( ). AES discontinued TrueCrypt , .
, — AES / , . AES, , AVX-512.

, . , , 2990WX . EPYC 7601 , 1950X. 2950X, , , 18- Core i9 Intel.
HEDT Benchmarks: -
low-end small form factor , -, , . - , , - . , ( ) . , - . - , , , .
, .
WebXPRT 3: - ,
, XPRT, Principled Technologies, -, , , «3». ( , ) : , , , , HTML5, , .
, . , .

WebXPRT 2015: HTML5 Javascript Web UX
WebXPRT — 2015 , - . - , , - . - . , , , . — , . « » .
WebXPRT3, , . , .

Speedometer 2: Javascript Frameworks
- — Speedometer 2, javascript, : , . , , , -.
«rpm», . .

Google Octane 2.0: Core Web Compute
- , — Octane Google. 2.0 , , , , , — .
. .

Mozilla Kraken 1.1: Core Web Compute
Ainda mais antigo que o Octane, aqui está o Kraken, desta vez desenvolvido pela Mozilla. Este é um teste antigo que executa mecânica computacional relativamente uniforme, como processamento de áudio ou filtragem de imagem. O teste Kraken é altamente otimizado e produz um resultado muito instável, dependendo da versão do navegador.
O benchmark principal passa por cada um dos subtestes dez vezes e retorna o tempo médio de conclusão de cada ciclo em milissegundos. Executamos o benchmark completo quatro vezes, medimos o resultado médio.

3DPM v1: uma variante do 3DPM v2.1 com código nativo
O primeiro teste "herdado" no pacote é a primeira versão do nosso teste 3DPM. Esta é a versão nativa final do código, como se tivesse sido escrito por um cientista sem conhecimento de como o hardware, os compiladores ou a otimização do computador funcionam (como era no começo). O teste representa uma grande quantidade de modelagem científica em estado selvagem, onde obter uma resposta é mais importante que a velocidade da computação.
Nesta versão, a única otimização real estava nos sinalizadores do compilador (-O2, -fp: fast): compilação no modo release e ativação do OpenMP nos principais ciclos de computação. Os loops não foram dimensionados para funções e a desaceleração mais grave é o compartilhamento falso no cache. O código possui longas cadeias de dependências baseadas na geração de números aleatórios, o que leva a uma diminuição no desempenho em algumas microarquiteturas de computação.


x264 HD 3.0: teste de transcodificação herdada
Esse teste de transcodificação é muito antigo; a Anandtech o utilizava nos dias dos processadores Pentium 4 e Athlon II. Nele, o vídeo 720p padronizado é codificado com dupla conversão e o benchmark mostra quadros por segundo de cada passagem. O teste é de thread único e, em algumas arquiteturas, encontramos restrições de IPC - instruções por relógio.


Obrigado por ficar conosco. Você gosta dos nossos artigos? Deseja ver materiais mais interessantes? Ajude-nos fazendo um pedido ou recomendando a seus amigos, um
desconto de 30% para os usuários da Habr em um análogo exclusivo de servidores básicos que inventamos para você: Toda a verdade sobre o VPS (KVM) E5-2650 v4 (6 núcleos) 10GB DDR4 240GB SSD 1Gbps da US $ 20 ou como dividir o servidor? (as opções estão disponíveis com RAID1 e RAID10, até 24 núcleos e até 40GB DDR4).
3 meses de graça ao pagar por um novo Dell R630 por um período de seis meses -
2 x HDD Intel Deca-Core Xeon E5-2630 v4 / 128GB DDR4 / 4x1TB ou SSD 2x240GB / 1Gbps 10 TB - de US $ 99,33 por mês , apenas até o final de agosto, faça o pedido pode estar
aqui .
Dell R730xd 2 vezes mais barato? Somente nós temos
2 TVs Intel Dodeca-Core Xeon E5-2650v4 128GB DDR4 6x480GB SSD 1Gbps 100 a partir de US $ 249 na Holanda e nos EUA! Leia sobre
Como criar um prédio de infraestrutura. classe usando servidores Dell R730xd E5-2650 v4 custando 9.000 euros por um centavo?