Mais café, menos cafeína: Intel 9a geração (parte 2)

Parte 1Parte 2Parte 3Parte 4

Testes do sistema



A seção "Testes do sistema" se concentra nos testes em condições reais com as quais o consumidor se depara, com um leve viés na taxa de transferência. Nesta seção, veremos o tempo de carregamento do aplicativo, processamento de imagem, física simples, emulação, modelagem neural, cálculos otimizados e o desenvolvimento de modelos tridimensionais usando software facilmente acessível e personalizável. Embora alguns dos testes sejam mais fáceis de se sobrepor aos recursos de pacotes grandes, como o PCMark (publicamos esses valores na seção de testes do office), vale a pena considerar várias perspectivas. Em todos os testes, explicaremos em detalhes o que está sendo testado e como exatamente estamos testando.

Download do aplicativo: GIMP 2.10.4


Um dos aspectos mais importantes da experiência do usuário e do fluxo de trabalho é a velocidade do sistema. Um bom teste aqui é verificar o tempo de carregamento do aplicativo. Atualmente, a maioria dos programas, quando armazenados em um SSD, é baixada quase instantaneamente, mas algumas ferramentas de escritório exigem o pré-carregamento de ativos antes que eles estejam prontos. A maioria dos sistemas operacionais também usa cache, portanto, quando um software é baixado com freqüência (navegador da web, ferramentas de escritório), ele pode ser inicializado muito mais rapidamente.

No conjunto de testes anterior, verificamos quanto tempo levaria para carregar um PDF grande no Adobe Acrobat. Infelizmente, este teste foi um pesadelo de programação e se recusou a atualizar para o Win10 RS3 sem lutar. Enquanto isso, descobrimos um aplicativo que pode automatizar esse teste. Foi decidido usar o GIMP, um aplicativo de edição de fotos popular e gratuito. Este é um editor de código aberto, a principal alternativa ao Adobe Photoshop. Nós o configuramos para fazer o download de um modelo de design grande de 50 MB e executamos a carga 10 vezes com um intervalo de 10 segundos entre eles. Devido ao armazenamento em cache, os primeiros 3 a 5 resultados costumam ser mais lentos que os demais, e o tempo de armazenamento em cache pode ser inconsistente; portanto, usamos a média dos últimos cinco resultados para mostrar o processamento da CPU durante o carregamento em cache.



O carregamento de aplicativos, como regra, é limitado a um único encadeamento, mas é óbvio que em algum momento ele é limitado aos recursos do kernel. Tendo acesso a mais recursos por fluxo (em um ambiente sem HT), os processadores 8C / 8T e 6C / 6T estão à frente dos dois processadores de 5,0 GHz em nossos testes.

FCAT: processamento de imagem


O software FCAT foi projetado para detectar micro-sticks, queda de quadros e executar testes gráficos quando duas placas de vídeo são combinadas para renderizar uma cena. Devido aos mecanismos de jogo e aos drivers gráficos, nem todas as combinações de GPU funcionaram perfeitamente, como resultado do software capturou cores para cada quadro renderizado e executou dinamicamente a gravação de dados RAW usando um dispositivo de captura de vídeo.



O software FCAT aceita o vídeo gravado, no nosso caso, são 90 segundos 1440p do jogo Rise of the Tomb Raider e converte os dados de cores em dados de tempo de quadro, para que o sistema possa exibir a taxa de quadros "observada" e se correlacionar com o consumo de energia dos aceleradores de vídeo. Este teste, devido à rapidez com que foi concluído, é de thread único. Iniciamos o processo e obtemos o tempo de conclusão como resultado.



O FCAT é outro cenário limitado pelo desempenho de thread único e parece que os novos processadores da 9ª geração têm um desempenho muito bom aqui. 9700K e 9900K deram o mesmo tempo com uma diferença de milissegundos.

Movimento de partículas 3D v2.1: movimento browniano


Nosso teste 3DPM é uma referência personalizada projetada para modelar seis algoritmos diferentes para mover partículas no espaço tridimensional. Os algoritmos foram desenvolvidos como parte da minha tese de doutorado e, finalmente, funcionam melhor na GPU e fornecem uma boa idéia de como os fluxos de comando são interpretados por várias microarquiteturas.

A parte principal dos algoritmos é a geração de números aleatórios - usamos a geração relativamente rápida, que completa a implementação de cadeias de dependências no código. A atualização principal em comparação com a primeira versão primitiva desse código é que o problema do Compartilhamento Falso nos caches foi resolvido, que era o principal gargalo. Também estamos considerando a aplicação das versões AVX2 e AVX512 deste teste para futuras revisões.



Para este teste, executamos um conjunto de partículas usando seis algoritmos diferentes, em 20 segundos, com pausas de 10 segundos e relatamos a velocidade total das partículas em milhões de operações (movimentos) por segundo.



Com base no código não-AVX, o 9900K mostra um IPC e frequências um pouco melhores em comparação com o R7 2700X, embora esse não seja realmente um salto percentual tão grande quanto se poderia esperar. Processadores sem HT perdem neste teste.

Mas quando usamos o AVX2 / AVX512, os processadores Skylake-X encontram-se em seus elementos. O 9900K agora é significativamente superior ao R7 2700X, ainda mais do que esperávamos, o Core i7-9700K também está à frente.

Dolphin 5.0: emulação de console


Um dos testes populares solicitados em nosso pacote é a emulação de console. A capacidade de selecionar um jogo de um sistema desatualizado e executá-lo é muito atraente e depende dos esforços do emulador: é necessário um sistema x86 muito mais poderoso para emular com precisão um console antigo que não seja o x86. Especialmente se o código desse console foi criado levando em consideração algumas falhas físicas e bugs de hardware.

Para nosso teste, usamos o popular software de emulação Dolphin, executamos um projeto de computação para determinar com que precisão nossos processadores podem emular o console. Neste teste, a emulação do Nintendo Wii durará cerca de 1050 segundos.



O Dolphin é outro cenário limitado pelo desempenho de um único encadeamento, razão pela qual os processadores Intel historicamente estão na liderança. Aqui, o 9900K ignora o 9700K por apenas um segundo.

DigiCortex 1.20: Modelando o cérebro de uma lesma marinha


Esta referência foi originalmente projetada para modelar e visualizar a atividade dos neurônios e sinapses no cérebro. O software vem com vários modos predefinidos, escolhemos uma pequena referência que simula um cérebro de 32 mil neurônios / 1,8 bilhão de sinapses, o que equivale ao cérebro de uma lesma do mar.



Nós relatamos os resultados do teste como uma oportunidade para emular dados em tempo real, para que quaisquer resultados acima da "unidade" sejam adequados para operação em tempo real. Dos dois modos, o modo “sem início sinapse”, que é difícil para a DRAM, e o modo “com início sinapse”, no qual o processador está carregado, selecionamos o último. Apesar da nossa escolha, o teste ainda é afetado pela velocidade da DRAM.



O DigiCortex depende muito do desempenho do processador e da largura de banda da memória, mas parece que o Ryzen de 6 núcleos pode competir facilmente com o 9900K de 8 núcleos. O 8700K / 8086K parece fazer melhor com este teste.

y-Cruncher v0.7.6: Cálculos otimizados para microarquitetura


Uma vez ouvi falar do y-Cruncher como uma ferramenta para ajudá-lo a calcular várias constantes matemáticas. Mas depois que comecei a conversar com seu desenvolvedor, Alex Yee, pesquisador da NWU e agora desenvolvedor de otimização de software, percebi que ele otimizou o software de uma maneira incrível para obter melhor desempenho. Naturalmente, qualquer simulação que leve mais de 20 dias se beneficiará de um aumento de 1% na produtividade! Alex começou a trabalhar com o y-Cruncher como um projeto no ensino médio, mas agora o projeto está atualizado, Alex está constantemente trabalhando nele para tirar proveito dos conjuntos de instruções mais recentes, mesmo antes de ficarem disponíveis no nível do hardware.

Para o nosso teste, executamos o y-Cruncher v0.7.6 através de todas as variantes otimizadas possíveis de cálculos binários, de thread único e multi-thread, incluindo arquivos binários otimizados para o AVX-512. O teste é calcular 250 milhões de caracteres do número Pi e usamos versões single-thread e multi-threaded deste teste.





À medida que o triturador em Y tira proveito do AVX2 / AVX512, vemos que os processadores Skylake-X estão novamente partindo para seu mundo acolhedor. No modo multithread, o 9900K / 9700K requer 8 núcleos para ultrapassar o processador de 6 núcleos que suporta o AVX512.

Agisoft Photoscan 1.3.3: Converter imagem 2D em modelo 3D


Um dos ISVs com quem trabalhamos há vários anos é a Agisoft. A campanha está desenvolvendo um software chamado PhotoScan, que converte uma série de imagens 2D em um modelo 3D. Essa é uma ferramenta importante no desenvolvimento e arquivamento de modelos e depende de vários algoritmos de thread único e multi-thread para mover de um lado do cálculo para o outro.



Em nosso teste, usamos a versão 1.3.3 do software com um grande conjunto de dados - fotos de 84 x 18 megapixels. Executamos o teste de acordo com um conjunto bastante rápido de algoritmos, mas ainda mais rigoroso que o nosso teste de 2017. Como resultado, relatamos o tempo total de conclusão do processo.



O Photoscan é uma tarefa que aproveita ao máximo o alto rendimento e o desempenho de thread único; nesse caso, a presença de HT é um fardo.

Testes de renderização


Em um ambiente profissional, a renderização costuma ser uma preocupação principal para as cargas de trabalho do processador. Ele é usado em vários formatos: da renderização 3D à rasterização, em tarefas como jogos ou rastreamento de raios, e usa a capacidade do software para gerenciar malhas, texturas, colisões, aliases e física (em animação). A maioria dos renderizadores oferece código para a CPU, enquanto alguns usam GPUs e escolhem ambientes que usam FPGAs ou ASICs especializados. No entanto, para estúdios grandes, os processadores ainda são o principal hardware.

Corona 1.3: Renderização de desempenho


Um renderizador aprimorado e otimizado para o desempenho de softwares como 3ds Max e Cinema 4D, o teste Corona renderiza uma cena gerada da versão 1.3 padrão. Normalmente, a implementação do benchmark da GUI mostra o processo de construção da cena e permite ao usuário ver o resultado como "tempo para concluir".



Entramos em contato com o desenvolvedor que nos forneceu a versão da linha de comando do teste. Ele fornece uma conclusão direta dos resultados. Em vez de relatar o tempo em que a cena foi construída, relatamos o número médio de raios por segundo em seis execuções, pois a proporção de ações concluídas por unidades de tempo é visualmente mais fácil de entender.



Corona é um teste totalmente multiencadeado, portanto, os processadores sem HT estão um pouco atrasados. O Core i9-9900K decola, ultrapassando os componentes de 8 núcleos da AMD com uma margem de 25% e perdendo apenas para o Threadripper de 12 núcleos.

Blender 2.79b: Suíte de Criação 3D


Uma ferramenta de renderização de última geração, o Blender é um produto de código aberto com muitas definições e configurações e é usado por muitos estúdios de animação de última geração em todo o mundo. A organização lançou recentemente um conjunto de testes do Blender, algumas semanas depois que decidimos reduzir o uso do teste do Blender em nosso novo pacote, mas um novo teste pode levar mais de uma hora. Para obter nossos resultados, executamos um dos subtestes deste pacote pela linha de comando - a cena padrão "bmw27" no modo "CPU only" e medimos o tempo de conclusão da renderização.



O liquidificador possui uma mistura eclética de requisitos, da largura de banda da memória ao desempenho bruto, mas, como em Corona, os processadores sem HT estão um pouco atrasados. A alta frequência 9900K eleva-a acima de 10C Skylake-X e AMD 2700X, mas não superior a 1920X.

LuxMark v3.1: LuxRender através de vários caminhos de código


Como mencionado acima, existem muitas maneiras diferentes de processar dados de renderização: CPU, GPU, Accelerator e outros. Além disso, existem muitas estruturas e APIs nas quais você pode programar, dependendo de como o software será usado. O LuxMark, um benchmark desenvolvido usando o mecanismo LuxRender, oferece várias cenas e APIs diferentes.


retirado da versão Linux do LuxMark

Em nosso teste, executamos uma cena simples de "bola" usando código C ++ e OpenCL, mas no modo CPU. Essa cena começa com uma renderização aproximada e melhora lentamente a qualidade ao longo de dois minutos, fornecendo o resultado final no que você pode chamar de "quilo médio por segundo".





POV-Ray 3.7.1: rastreamento de raios


O mecanismo de rastreamento de raios Persistence of Vision é outra ferramenta de benchmarking conhecida que entrou em hibernação por algum tempo até a AMD lançar seus processadores Zen, quando de repente a Intel e a AMD começaram a inserir código no ramo principal de um projeto de código aberto. Para o nosso teste, usamos o teste interno para todos os núcleos, chamados na linha de comando.



Testes de escritório


O conjunto de testes do Office foi projetado para se concentrar em benchmarks mais padrão do setor, focados nos fluxos de trabalho do escritório. Esses são testes mais sintéticos, mas também testamos o desempenho do compilador nesta seção. Para usuários que precisam avaliar o equipamento como um todo, esses são geralmente os critérios mais importantes.

PCMark 10: Padrão da Indústria


A Futuremark, agora conhecida como UL, desenvolve testes que se tornaram padrões da indústria há duas décadas. O último conjunto de testes do sistema é o PCMark 10, onde vários testes são aprimorados em comparação com o PCMark 8, e é dada mais atenção ao OpenCL, especificamente em casos como streaming de vídeo.

O PCMark divide suas notas em aproximadamente 14 áreas diferentes, incluindo o lançamento de aplicativos, páginas da web, planilhas, edição de fotos, renderização, videoconferência e física. Publicamos todos esses dados em nosso banco de dados Bench, mas a pontuação geral é um indicador importante para a revisão atual.



Aqui, onde muitos testes são misturados, os novos processadores Intel ocupam as três primeiras posições, em ordem. Até o i5-9600K vai à frente do i7-8086K.

Compilação de cromo: Windows VC ++ Compilando o Chrome 56


Um grande número de leitores da AnandTech são engenheiros de software que observam como o hardware funciona. Embora compilar o kernel do Linux seja "padrão" para revisores que costumam compilar, nosso teste é um pouco mais diversificado - usamos as instruções do Windows para compilar o Chrome, em particular a versão do Chrome em 56 de março de 2017, como era quando criamos o teste. O Google fornece instruções bastante detalhadas sobre como compilar no Windows depois de baixar 400.000 arquivos do repositório.



Em nosso teste, seguindo as instruções do Google, usamos o compilador MSVC e o ninja para controlar a compilação. Como você pode esperar, este é um teste com multithreading variável e com requisitos variáveis ​​de DRAM que se beneficiam de caches mais rápidos. Os resultados obtidos em nosso teste são o tempo gasto na compilação, que convertemos para o número de compilações por dia.

O desempenho de alta frequência de um turbo completo parece ter tido um bom desempenho em nosso teste de compilação.

3DMark Physics: física da computação em jogos


Juntamente com o PCMark, há um benchmark do 3DMark, Futuremark (UL) - um conjunto de testes de jogos. Cada teste de jogo consiste em uma ou duas cenas pesadas para a GPU, além de um teste físico, dependendo de quando o teste foi escrito e de qual plataforma ele se destina. Os principais assuntos, em dificuldade crescente, são Tempestade de Gelo, Cloud Gate, Sky Diver, Fire Strike e Time Spy.

Alguns dos subtestes oferecem outras opções, como Ice Storm Unlimited (projetado para plataformas móveis com renderização fora da tela) ou Fire Strike Ultra (projetado para sistemas 4K de alto desempenho com muitos recursos adicionais). Vale a pena notar que o Time Spy atualmente possui o modo AVX-512 (que podemos usar no futuro).

Quanto aos nossos testes, enviamos os resultados de cada teste físico para a Bench, mas, para a revisão, mantemos os resultados das cenas mais exigentes: Tempestade de Gelo Ilimitada, Cloud Gate, Cloud Gate, Sky Diver, Fire Strike Ultra e Time Spy.











O teste mais antigo da Tempestade de Gelo não gostou muito do novo Core i9-9900K, empurrando-o para trás do R7 1800X. Para testes orientados para PC mais modernos, 9900K vence. A falta de HT impede que outros dois processadores na linha mostrem resultados altos.

GeekBench4: Teste Sintético


Uma ferramenta comum para testes de plataforma cruzada em dispositivos móveis, PCs e Macs, o GeekBench 4 é o teste sintético perfeito de um sistema usando uma variedade de algoritmos que exigem largura de banda máxima. Os testes incluem criptografia, compactação, transformação rápida de Fourier, operações de memória, física de n corpos, operações de matriz, manipulação de histograma e análise de HTML.





Estou incluindo este teste devido à popularidade da consulta, embora os resultados sejam muito sintéticos. Muitos usuários geralmente atribuem grande importância aos seus resultados devido ao fato de ter sido compilado em plataformas diferentes (embora com compiladores diferentes).
Registramos as classificações dos principais subtestes (criptografia, número inteiro, ponto flutuante, memória) em nosso banco de dados de resultados de testes, mas, para a revisão, publicamos apenas resultados gerais de thread único e multithread.

Testes de codificação


, , . , , , , , , . , , .

Handbrake 1.1.0:


, Handbrake — , , , . . , AVX-512 OpenCL . , , CPU, .

Handbrake , - Logitech C920 1080p60 ( , ). . :

  • 720p60 at 6000 kbps constant bit rate, fast setting, high profile
  • 1080p60 at 3500 kbps constant bit rate, faster setting, main profile
  • 1080p60 HEVC at 3500 kbps variable bit rate, fast setting, main profile







7-zip v1805:


/ 7-zip , . , . .







, : , . , , Windows Scheduler . , .

WinRAR 5.60b3:


, WinRAR. . , right-click Windows . , , 30 60- 2000 -, .



WinRAR , , 10 , , .

AES:


, , . Windows BitLocker . AES discontinued TrueCrypt , .

, , — AES / , . AES , AVX-512.



-


low-end , small form factor , -, , . - , , - . , ( ) . , - : -, , . - , , , .

, .

WebXPRT 3: - ,


, XPRT, Principled Technologies, -, , , «3». ( , ) : , , , , HTML5, , .



, . , .

WebXPRT 2015: HTML5 Javascript Web UX


WebXPRT — 2015 , - , . - , , - , . - . , , , . — , . « », .



WebXPRT3, , . , .

Speedometer 2: Javascript Frameworks


- — Speedometer 2, javascript, : , , . , , , -.

«rpm», . .



Google Octane 2.0: Core Web Compute


- , , — Octane Google. 2.0 , , , , , — .

, . .



Mozilla Kraken 1.1: Core Web Compute


, Octane, Kraken, Mozilla. , , . , Kraken , , .

, . , .



3DPM v1: 3DPM v2.1


«» — 3DPM. , , , ( ). , , ( 4 , ; 5 – ).
(-O2, -fp: fast): OpenMP . , false sharing . , , .





x264 HD 3.0:


, Anandtech Pentium 4 Athlon II. 720p , . , IPC — instructions-per-clock.





Obrigado por ficar conosco. Você gosta dos nossos artigos? Deseja ver materiais mais interessantes? Ajude-nos fazendo um pedido ou recomendando a seus amigos, um desconto de 30% para os usuários da Habr em um análogo exclusivo de servidores básicos que inventamos para você: Toda a verdade sobre o VPS (KVM) E5-2650 v4 (6 núcleos) 10GB DDR4 240GB SSD 1Gbps da US $ 20 ou como dividir o servidor? (as opções estão disponíveis com RAID1 e RAID10, até 24 núcleos e até 40GB DDR4).

VPS (KVM) E5-2650 v4 (6 núcleos) 10 GB DDR4 240 GB SSD 1 Gbps até 1º de janeiro de graça, se pago por um período de seis meses, você pode fazer o pedido aqui .

Dell R730xd 2 vezes mais barato? Somente nós temos 2 TVs Intel Dodeca-Core Xeon E5-2650v4 128GB DDR4 6x480GB SSD 1Gbps 100 a partir de US $ 249 na Holanda e nos EUA! Leia sobre Como criar um prédio de infraestrutura. classe usando servidores Dell R730xd E5-2650 v4 custando 9.000 euros por um centavo?

Source: https://habr.com/ru/post/pt431158/


All Articles