假期后的怪兽:AMD Threadripper 2990WX 32核和2950X 16核(第3部分-测试)

第1部分第2部分第3 部分第4 部分第5部分


HEDT测试:系统测试


“系统测试”部分着重于在消费者所面临的真实条件下进行测试。 在本节中,我们将使用易于访问且可自定义的软件来研究应用程序加载时间,图像处理,简单物理学,仿真,神经建模,优化计算以及三维模型的开发。 尽管某些测试更容易与大型软件包(例如PCMark)的功能重叠(我们在办公测试部分中发布了这些值),但值得考虑各种角度。 在所有测试中,我们将详细说明正在测试的内容以及如何进行测试。

应用下载:GIMP 2.10.4


用户体验和工作流程中最重要的方面之一是系统的速度。 在这种情况下,一个很好的测试是检查应用程序加载时间。 如今,大多数程序都存储在SSD上,并且几乎可以立即加载,但是某些办公工具需要预加载资产。 大多数操作系统使用缓存,因此,当频繁下载某些软件(Web浏览器,Office工具)时,可以更快地初始化它。

在先前的测试套件中,我们检查了将大型PDF文档加载到Adobe Acrobat中花费了多长时间。 不幸的是,该测试是编程方面的噩梦,并且拒绝不加争辩地切换到Win10 RS3。 同时,我们发现了一个可以自动执行此测试并驱动GIMP的应用程序。 GIMP是一种流行且免费的照片编辑应用程序,它是一个开源编辑器,是Adobe Photoshop的主要替代产品。 我们将其配置为下载一个大小为50 MB的大型设计模板,执行了10次加载,两次加载之间的间隔为10秒。 由于缓存,前3-5个结果比随后的结果要慢;缓存的时间可能不一致。 因此,我们从最后五个结果中得出平均值,以显示缓存加载期间的CPU处理情况。



该基准将参赛者巧妙地分为两类:一侧具有少量内核的处理器,另一侧具有顶级台式机处理器。 1920X和2950X的执行速度较快,而18核的Intel和32核AMD的速度较慢。 这可能是由于一个内核的性能差异所致,但是,我怀疑结果可能会受到内存延迟的影响。

FCAT:图像处理


FCAT软件旨在检测微棒,掉落的帧,在将两个视频卡组合在一起以渲染场景时运行图形测试。 由于游戏引擎和图形驱动程序的原因,并非所有GPU组合都能完美运行,因此该软件会为每个渲染帧捕获颜色,并使用视频捕获设备动态执行RAW数据记录。



FCAT软件接受录制的视频,在我们的案例中是90分钟的1440p游戏(古墓丽影:崛起),并将颜色数据转换为帧时间数据,因此系统可以显示“观察到的”帧速率,并与视频加速器的能耗相关。 由于测试完成的速度快,该测试是单线程的。 我们开始该过程,并因此获得完成时间。



所有测试系统的工作大致相同,但英特尔更快的单处理器性能使其比其他处理器更高。 由于单核的频率较低,EPYC 7601排在最后。

3D粒子运动v2.1:布朗运动


我们的3DPM测试是一个自定义基准测试,旨在模拟六种不同的算法来在三维空间中移动粒子。 这些算法是作为我的博士学位论文的一部分开发的,最终在GPU上运行效果最佳,从而很好地了解了如何通过不同的微体系结构解释命令流。

算法的关键部分是随机数的生成-我们使用相对较快的生成,它完成了代码中依赖链的实现。 与该代码的原始第一个版本相比,主要更新-解决了缓存中的False Sharing问题,这是主要瓶颈。 我们正在考虑将该测试的AVX2和AVX512版本应用于将来的审查。

对于此测试,我们使用六种不同的算法对一组粒子运行了20秒,暂停10秒的粒子集,并以每秒数百万次操作(运动)报告总粒子速度。



3DPM似乎喜欢数据流和频率,这就是AMD占据前四名的原因。 在本次测试中,甚至使用了AVX以外的指令,AMD的最新16核处理器也超过了英特尔的18核处理器。 有趣的是,将2990WX与EPYC 7601进行了比较-消费类处理器上的额外频率有助于将生产率提高30%以上。

Dolphin 5.0:控制台仿真


控制台仿真是我们程序包中最受欢迎的测试之一。 从过时的系统中选择游戏并运行它的能力非常吸引人,并且取决于仿真器的工作:需要一个功能更强大的x86系统才能准确地仿真x86以外的旧游戏机。 特别是如果此控制台的代码是考虑到一些物理缺陷和硬件错误而编写的。

对于我们的测试,我们使用流行的Dolphin仿真软件,并通过该软件运行一个计算项目,以确定处理器对控制台的仿真精度。 在此测试中,Nintendo Wii仿真将持续约1050秒。



Dolphin的性能通常取决于单线程规格,因此Intel再次遥遥领先,尽管R7 2700X排在最后是很奇怪的。 为了消除错误的结果,我必须再次运行此测试。 但是,在第二代TR部件上,2950X的较高时钟频率使其可以比2990WX超出20秒。

DigiCortex 1.20:软体动物大脑建模


该基准最初旨在模拟和可视化大脑中神经元和突触的活动。 该软件具有各种预定义的模式,我们选择了一个小的基准,该模拟的大脑模拟了32,000个神经元/ 18亿个突触的大脑,相当于蛤脑。



任何高于“单位”的结果都适用于实时操作。 在这两种模式中,DRAM很难使用“无突触启动”模式,而加载处理器的“有突触启动”模式则选择后者。 尽管我们选择了该选项,但测试仍然受DRAM速度影响。



尽管低频EPYC 7601使其成为失败者,但具有大量内核的四矩阵处理器仍遥遥领先。 看起来2990WX中的两个模块结构的额外延迟并没有对结果造成太大的影响,有人怀疑它具有额外的性能。

y-Cruncher v0.7.6:针对微体系结构优化的计算


我曾经听说过y-Cruncher作为一种工具来帮助计算各种数学常数。 但是,在与开发人员Alex Yee(NWU研究人员和软件优化开发人员)交谈之后,我意识到他以一种令人难以置信的方式对软件进行了优化,以获得最佳性能。 任何耗时20天以上的模拟都将受益于1%的生产率提高! 亚历克斯(Alex)在高中时就开始与y-Cruncher一起工作,但现在该项目很重要。

对于我们的测试,我们通过二进制,单线程和多线程计算的所有可能优化变体运行y-Cruncher v0.7.6,包括针对AVX-512优化的二进制文件。 该测试是要计算2.5亿个字符Pi的数量,我们使用此测试的单线程和多线程版本。





英特尔软件针对AVX2和AVX512指令进行了优化,我们在单线程测试中使用了该指令集。 但是,当我们加载新的内核和内存通道时,考虑到成本,这两种32核AMD处理器看起来都值得与Core i9竞争。

Agisoft Photoscan 1.3.3:将2D图像转换为3D模型


我们使用了多年的ISV之一就是Agisoft。 该活动正在开发名为PhotoScan的软件,该软件可以将一系列2D图像转换为3D模型。 这是模型开发和归档中的重要工具,它依赖于许多单线程和多线程算法来从计算的一侧转移到另一侧。



在我们的测试中,我们使用具有大型数据集的软件1.3.3版本-照片84 x 18兆像素。 我们使用一组相当快速的算法进行测试。 这项测试比其2017年的前任还要苛刻。 结果,我们报告了整个过程的完成时间。



2990WX被遗弃了,因为它的内核无法足够快地访问内存。 相比之下,具有两倍内存通道的EPYC 7601的运行速度快了将近500秒(20%+)。 因此,如果2990WX接收了更多的内存通道,它将能够排在该列表的首位。

有趣的是,TR 1950X绕过了TR 2950X,后者在所有情况下均具有更好的缓存延迟和更高的频率。 为什么会这样呢?

HEDT基准测试:渲染测试


在专业环境中,渲染通常是处理器工作负载的主要考虑因素。 它以各种格式使用:从3D渲染到栅格化,在诸如游戏或光线跟踪之类的任务中,它使用软件的功能来管理网格,纹理,碰撞,别名和物理(动画)。 大多数渲染器为CPU提供代码,而某些渲染器使用GPU并选择使用FPGA或专用ASIC的环境。 对于大型工作室,处理器仍然是主要硬件。

Corona 1.3:性能渲染


经过改进的渲染器,针对3ds Max和Cinema 4D等软件的性能进行了优化,Corona测试可渲染1.3版标准的生成场景。 通常,GUI基准测试的实现会显示场景构建过程,使用户可以将结果视为“完成时间”。



我们联系了开发人员,他给了我们测试的命令行版本,该版本可以直接输出结果。 我们报告了六次运行中每秒平均发出的光线,而不是花费时间来构建场景,因为在视觉上更容易理解完成的动作与时间单位的比率。



因此,AMD破坏了我们的图形引擎。 因为我们以每秒光束数显示电晕测试结果,总共有1200万次,将八位数字传输到引擎,然后引擎尝试将其解释为数字的指数表示形式(1.2 x 10 ^ 7),因此无法在图形上显示。 为了使引擎正常工作,我们必须将此图转换为每秒数百万条光束。

2990WX由于具有较高的频率而领先于32核,远远领先于EPYC处理器。 EPYC和Core i9靠得很近,但TR2950X的价格是一半。

Blender 2.79b:3D创作套件


Blender是一种高端渲染工具,是一种具有许多设置和配置的开源产品,并且被全世界许多高端动画工作室使用。 该组织最近发布了Blender测试套件,新测试可能需要一个多小时。 为了获得结果,我们通过命令行运行此程序包中的子测试之一-“仅CPU”模式下的标准场景“ bmw27”,我们测量渲染的完成时间。



附加内核使2990WX能够超越EPYC和Core i9。 与Core i9相比,2990WX + 58%的额外吞吐量。

LuxMark v3.1:通过各种代码路径的LuxRender


处理渲染数据的方式有很多:CPU,GPU,加速器等。 此外,还有许多框架和API。 LuxMark-使用LuxRender引擎开发的参考,提供了几种不同的场景和API。


取自Linux版本的LuxMark

在我们的测试中,我们使用C ++和OpenCL代码在CPU模式下运行一个简单的“ Ball”场景。 该场景从粗略渲染开始,并在两分钟的过程中逐渐提高其质量。 所采用的是每秒千公里的平均数量。





由于某些原因,英特尔Skylake-X处理器在我们的OpenCL测试中失败。 在C ++测试中,EPYC处理器上的其他内存控制器将其置于TR2和Core i9之上。 2990WX和Core i9几乎相等。

POV-Ray 3.7.1:射线追踪


Vision Persistence Vision光线跟踪引擎是另一个著名的基准测试工具,在AMD发布其Zen处理器之前,它一直处于休眠状态。 突然,英特尔和AMD都开始将代码推入开源项目的主分支。 对于我们的测试,我们对所有内核使用内置测试,从命令行调用。



这是另一项热爱内核和频率的测试,这就是2990WX所具有的。 2990WX可以在近20秒内完成测试。 也许是时候进行更大的内置测试了。

HEDT基准测试:办公室测试


Office测试套件-一组针对办公室工作流程的行业标准基准。 这些是综合测试,+我们在本节中检查编译器性能。 要整体评估设备,这些标准对用户很重要。

PCMark 10:行业标准


Futuremark(现在称为UL)已经开发了超过二十年的行业标准测试。 最后一组系统测试是PCMark10。与PCMark 8相比,这里进行了一些测试,对OpenCL进行了更多的关注,尤其是在诸如视频流的情况下。

PCMark将其成绩分为大约14个不同的领域,包括启动应用程序,网页,电子表格,照片编辑,渲染,视频会议和物理。 我们将所有这些数据发布到Bench数据库中。 当前评分的关键指标是总体得分。



PCMark的缺点之一是它似乎会收集所有结果,从而在各个方向上产生一些平均值。 有趣的是,英特尔处理器紧随其后,2950X和2700X在顶部。

Chromium编译:Windows VC ++编译Chrome 56


AnandTech的大量读者都是软件工程师,他们在观察硬件的工作原理。 对于经常编译的审阅者来说,编译Linux内核是“标准”。 但是我们的测试更加多样化-我们使用Windows指令来编译Chrome,特别是2017年3月56日的Chrome版本。 Google关于从存储库下载400,000个文件后如何在Windows下进行编译的说明非常详细。

在我们的测试中,按照Google的说明,我们使用MSVC编译器和忍者控制编译。 如您所料,这是对可变多线程的测试,对DRAM有不同的要求,这得益于更快的缓存。 测试结果是编译所花费的时间,我们将其转换为每天的编译次数。



该测试很好地结合了ST,MT流和有限的内存,因此看到最终结果真的很有趣。 不幸的是,对于我们的新软件包,输出文件的配置不正确,因此尽管测试已完成,但仍得到了一些结果。 但这甚至表明了一个有趣的指标:2950X与2990WX以及Core i9一起脱颖而出,但是EPYC系统由于其低频而掠过了后部。

3DMark Physics:游戏中的计算物理


除PCMark外,还有3DMark基准,即Futuremark(UL)-一组游戏测试。 每个游戏测试包含一个或两个场景(对于GPU来说很繁重)以及一个物理测试,具体取决于该测试的编写时间和目标平台。 难度增加的主要主题是“冰暴”,“云门”,“跳伞”,“大火”和“时间间谍”。

一些子测验还提供其他选项,例如“冰风暴无限”或“火爆打击”。 Ice Storm Unlimited专为具有屏幕外渲染的移动平台而设计。 Fire Strike Ultra专为具有许多附加功能的高性能4K系统而设计。 值得注意的是,Time Spy当前具有AVX-512模式(我们将来可以使用)。

至于测试,我们会将每个物理测试的结果发送到Bench,但是对于审查,我们采用了最苛刻的场景的结果:《冰暴无限》,《云门》,《跳伞者》,《 Fire Strike Ultra》和《时间间谍》,











在游戏测试中,具有许多内核的大型处理器并没有特别使性能受益,这一点并不是那么明显。 游戏物理学显然更喜欢内存带宽。 我们知道,Time Spy的扩展内核设计不能超过10个,并且我们看到10核处理器居于首位。 , , .

GeekBench4:


, Mac, GeekBench 4 — , . , , , , n-, , HTML.

, . - , ( ).
(Crypto, Integer, Floating Point, Memory) , .





HEDT Benchmarks: Encoding Tests


, , . , , , , , , , . , , .

Handbrake 1.1.0:


, Handbrake — , , , . . , AVX-512 OpenCL . , , CPU, .

Handbrake , - Logitech C920 1080p60 ( , ). . :

  • 720p60 at 6000 kbps constant bit rate, fast setting, high profile
  • 1080p60 at 3500 kbps constant bit rate, faster setting, main profile
  • 1080p60 HEVC at 3500 kbps variable bit rate, fast setting, main profile








, . Core i9, AVX2, . AMD, , , 1950X 2700X . , 2950X , , Core i9, , 1950X. 2990WX .

7-zip v1805:


/ 7-zip , . , . .

, : . , , Windows Scheduler . , .







, . , , 2990WX, , , AMD. Phoronix, Linux.

, . 32- AMD , 16- 18- .

, , . .

WinRAR 5.60b3:


, WinRAR. . , right-click Windows . , , 30 60- 2000 -, .

WinRAR , , 10 , .



, . R7 2700X AMD, — 10- Intel. , 8700K, , . AMD , 32- .

AES:


, , . Windows BitLocker Microsoft ( ). AES discontinued TrueCrypt , .

, — AES / , . AES, , AVX-512.



, . , , 2990WX . EPYC 7601 , 1950X. 2950X, , , 18- Core i9 Intel.

HEDT Benchmarks: -


low-end small form factor , -, , . - , , - . , ( ) . , - . - , , , .

, .

WebXPRT 3: - ,


, XPRT, Principled Technologies, -, , , «3». ( , ) : , , , , HTML5, , .

, . , .



WebXPRT 2015: HTML5 Javascript Web UX


WebXPRT — 2015 , - . - , , - . - . , , , . — , . « » .

WebXPRT3, , . , .



Speedometer 2: Javascript Frameworks


- — Speedometer 2, javascript, : , . , , , -.

«rpm», . .



Google Octane 2.0: Core Web Compute


- , — Octane Google. 2.0 , , , , , — .

. .



Mozilla Kraken 1.1: Core Web Compute


甚至比Octane还老,这是由Mozilla开发的Kraken。 这是一项旧测试,执行相对统一的计算机制,例如音频处理或图像过滤。 Kraken测试经过高度优化,并且会产生非常不稳定的结果,具体取决于浏览器的版本。

主基准测试通过十次子测试,并返回每个周期的平均完成时间(以毫秒为单位)。 我们四次运行完整基准测试,测量平均结果。



3DPM v1:具有本机代码的3DPM v2.1的变体


软件包中的第一个“继承”测试是3DPM测试的第一个版本。 这是该代码的最终本机版本,就好像它是由一位科学家编写的,不了解计算机硬件,编译器或优化的工作原理(就像刚开始时一样)。 该测试代表了野外的大量科学建模,获得答案比计算速度更重要。

在此版本中,唯一真正的优化是在编译器标志(-O2,-fp:快速)中:以发布模式进行编译,并在主要计算周期中启用OpenMP。 循环的大小不适合函数,最严重的减慢是缓存中的错误共享。 该代码具有基于随机数生成的长链依赖关系,这导致某些计算微体系结构的性能下降。





x264 HD 3.0:旧版转码测试


这种转码测试非常古老; Anandtech在Pentium 4和Athlon II处理器时代就使用了它。 在其中,标准的720p视频经过双重转换编码,基准测试显示了每遍图像的每秒帧数。 该测试是单线程的,在某些体系结构中,我们遇到了IPC限制-时钟指令。





感谢您与我们在一起。 你喜欢我们的文章吗? 想看更多有趣的资料吗? 通过下订单或将其推荐给您的朋友来支持我们, 为我们为您发明的入门级服务器的独特模拟,为Habr用户提供30%的折扣: 关于VPS(KVM)E5-2650 v4(6核)的全部真相10GB DDR4 240GB SSD 1Gbps从$ 20还是如何划分服务器? (RAID1和RAID10提供选件,最多24个内核和最大40GB DDR4)。

购买六个月的新Dell R630 可免费获得3个-2个Intel Deca-Core Xeon E5-2630 v4 / 128GB DDR4 / 4x1TB HDD或2x240GB SSD / 1Gbps 10 TB-每月99.33美元起 ,仅直到8月底,订购可以在这里

戴尔R730xd便宜2倍?在荷兰和美国,我们有2台Intel Dodeca-Core Xeon E5-2650v4 128GB DDR4 6x480GB SSD 1Gbps 100电视(249美元起) 阅读有关如何构建基础架构大厦的信息。 使用价格为9000欧元的Dell R730xd E5-2650 v4服务器的上等课程?

Source: https://habr.com/ru/post/zh-CN421521/


All Articles