第1部分 →
第2部分 →
第3 部分 →
第4部分新的AMD产品堆栈
高性能的一半王国。 在数据处理方面,带宽成为关键因素:毕竟,用户有更多的时间去做,更多的项目将被完成,因此,合同数量将增加。 工作站用户经常会发现系统中的瓶颈,并喜欢将资源投入解决核心,内存或图形加速等问题。 第二代Threadripper(称为Threadripper 2)超越了内核和价格之比的旧限制:2990WX仅提供1799美元即可提供32内核和64线程。还有另一款具有16内核和32线程的2950X,它设定了新的最低价格899美元我们都检查了。
AMD Threadripper 2990WX 32核和2950X 16核评论
自从AMD推出第一代第一代Ryzen时,它拥有8个内核和4个Intel内核,对此进行了很长时间的讨论。 这个问题的答案完全取决于工作量:用户期望同时使用多少种不同的工具。 由于工作站市场涵盖了各种各样的“杂色”用户(尽管需要速度),因此为每个人提供单一便捷的选择是不现实的。
AMD第一代Threadripper于2017年发布,将16核处理器推向了大众。 以前只能在服务器平台上使用,新组件被认为与10核产品相比具有很高的竞争力。 AMD通过微调对其服务器平台进行了攻击,以攻击竞争对手及其领导者Halo。
英特尔自己的工作站产品(以前称为E5-2687W,基于双路服务器)是服务器。 英特尔发布了具有多达18个内核的最新高性能台式机平台后,发布了Xeon W系列,取代了上一代的E5-W组件。 多达18个内核的价格约为2500美元,尽管使用它们需要特殊的芯片组和主板。

今天,AMD正式发布了第二代Threadripper。 新处理器极具竞争力地进入了市场:通过提供改进的Zen +微体系结构,我们的IPC性能提高了3%。 使用12纳米制程技术,从而提高了频率并降低了功耗。 AMD大量内核攻击市场! 不仅12和16核处理器被更高频率的新Zen +型号所取代,该公司还在处理器中提供24和32核,价格高达1799美元。 32个核的价格为1,799美元,而18个核的价格为近2500美元-对竞争对手来说是一个不错的打击,对吗?
AMD如何支持32核
AMD的第一代服务器处理器产品线称为EPYC,被称为32核处理器,它使用四个芯片阵列,每个阵列八个内核。 这些组件具有八个内存通道和128个PCIe 3.0通道,可用于各种用途。 当发布第一代Threadripper时,AMD禁用了其中的两个硅阵列,仅提供16个内核,四个存储通道和60个PCIe通道。 最终产品针对零售消费者。
为了向用户提供32核,AMD使用相同的32核EPYC硅片,但将其升级到12 nm的Zen +以实现更高的频率和更低的功耗。 为了与第一代产品兼容,对它进行了微调:四个存储通道和60个PCIe通道。 尽管AMD将产品定位为具有大量内核的更新的第一代处理器,而不是简化的服务器版本。 产品细分很容易解释这种方法。 这是两家公司已经习惯于推出扩展产品线的策略。

结果,感知新的32核和24核第二代芯片的一种方法是双模块:与第一代产品相似,一半的芯片可以访问全部资源,而另一半芯片则复制相同的计算资源,但是具有额外的存储延迟和PCIe相比上半年。 对于那些对处理能力而不是内存或PCIe感到困惑的用户,AMD是最佳解决方案。
在我们的审查中,我们将看到这种双峰构造对性能的好坏都有重大影响,同样,这取决于工作负载的类型。
新的AMD堆栈
AMD正式推出了四个第二代第二代拆线处理器。 其中有两个将直接取代第一代产品:16核2950X取代16核1950X,以及12核2920X取代12核1920X。 两个新的处理器将不是双模块的,封装上的四个硅晶体中只有两个处于活动状态(16核配置看起来像8 + 0 + 8 + 0,12核配置看起来像6 + 0 + 6 + 0)。 堆栈的底部将是第一代8核(4 + 0 + 4 + 0)1900X,它提供四通道内存和60个PCIe通道。

32核2990WX和24核2970WX代表了两个新处理器。 它们将分别具有每个复合体的四个核心(8 + 8 + 8 + 8)和每个复合体的三个核心(6 + 6 + 6 + 6),具有已描述的内存和PCIe两模块特性。 品牌正在改变,现在是WX,大概是Workstation eXtreme。 这使该产品与Radeon Pro WX系列处于同一行销线上。

AMD锐龙Threadripper 2990WX是具有32核和64线程的新超级产品,其基本频率为3.0 GHz,涡轮增压器的最高频率为4.2 GHz。 处理器的停机时间为2.0 GHz。 在测试中,我们看到每个内核在无负载的情况下为2.0 GHz。
WX系列的另一产品是2970WX:每个组合系统禁用一个内核,并且总共提供24个内核。 具有与2990WX相同的频率,并具有相同的TDP,PCIe通道和内存支持,该处理器将于10月以1299美元的价格推出。装载较少的内核,我们可以预期该处理器在Turbo中的工作频率会更高。比一个32核大哥大。

至于X系列,TR 2950X是16核的替代品。 该处理器充分利用了新的12纳米工艺所能提供的快速频率:3.5 GHz的基本频率和4.4 GHz的Turbo频率使上一代产品to之以鼻。 实际上,2950X看起来像是超频的AMD锐龙。 以降低的价格带来的巨大优势:用户现在可以以899美元的价格获得16核处理器,而不是999美元。2950X将于8月31日月底发布。
最后,我们提到2920X,它取代了1920X,并提供了与该系列中其他处理器相同的改进。 与2950X一样,频率相比去年有了很大提高,基本频率为3.5 GHz,turbo为4.3 GHz。 所有这些美感都采用180瓦的散热设计。 2920X将于10月发布,零售价为649美元。
核仁到核仁,或设计折衷
AMD处理这些大型处理器的方法是采用一个小型的重复单元,例如4核复合体或8核硅晶体(包括两个复合体),然后将多个重复单元放入一个处理器中。 “在出口处”所需数量的核心和线程。 好处包括很多复制块,例如内存通道和PCIe通道。 缺点是这些内核和内存之间应该进行通信的方式。
在标准的单片(单)硅设计中,每个内核都位于带有存储器控制器的内部互连器上,并且可以以低延迟进入主存储器。 内核与内存控制器之间的交换速率通常很低,并且路由机制(环形或网格)可以确定带宽,延迟和可伸缩性。 最终性能通常是这些因素之间的折衷。
在具有多个晶体的设计中,每个标记不仅可以在本地访问特定的存储器,而且还可以通过跳转访问另一个存储器,因此我们面临着不平衡的存储器体系结构。 它被称为NUMA设计。 在这种情况下,此异常的存储延迟可能会限制性能。 因此,该软件必须是“ NUMA感知”的,以便同时优化延迟和吞吐量。 不要忘记,矩阵与存储控制器之间的其他转换需要一定的计算能力。
我们在第一代Threadripper中发现了这一点(包装中存在两个有源硅矩阵)。 如果所需的数据在另一个芯片本地的存储器中,则需要跳转。 对于第二代Threadripper,这种跳转变得更加困难。

左侧是带有两个有源硅阵列的1950X / 2950X设计。 每个矩阵可直接访问32个PCIe通道和两个存储通道,这些通道总共可增加64/4 PCIe通道和四个存储通道。 反过来,与使用内存/ PCIe并连接到其矩阵的内核相比,使用与另一个矩阵连接的资源的工作速度更快。
2990WX和2970WX启用了两个“非活动”芯片,但没有直接访问内存或PCIe的权限。 这些内核没有“本地”内存或连接:对主内存的每次访问都需要进行额外的转换。 此外,还有其他基于AMD Infinity Fabric(IF)的矩阵到矩阵互连器会消耗能量。
这些附加内核无法直接访问的原因在于该平台:用于Threadripper处理器的TR4平台使用四通道内存和60个PCIe插槽。 如果其他两个矩阵包括本地内存和PCIe,则将需要新的主板和内存设备。
用户可以问我们是否可以更改设计,以便每个硅晶体具有一个存储通道和一组16条PCIe通道? 有可能。 但是,该平台在如何控制插槽和母板上的引脚和路径上受到了一定限制。 固件为每个芯片期望两个存储通道,除此之外,还有一些与电源有关的原因。 市场上当前的主板根本就没有这样配置。 这个事实将对性能产生重大影响,因此在进行测试时请记住这一点。
值得注意的是,这是Threadripper的第二代产品,AMD的服务器平台EPYC是兄弟。 它们都具有相同的处理器和插槽布局,但是EPYC包括所有内存通道(八个)和所有PCIe通道(128):

并且,如果Threadripper 2由于存在多个内核而无法直接访问内存而导致性能下降,则EPYC可以使用直接内存。 处理器需要更多的功率,但是提供了从核心到网络的流量更统一的配置。
回到Threadripper 2,重要的是要了解芯片的加载方式。 AMD已经确认,在使用其他内核之前,调度程序将首先加载直接连接到内存的内核。 事实证明,根据性能,散热性能和功耗,每个内核都具有“优先权”。 优先考虑最接近内存的用户。 核心的优先级随着热效率的降低而降低。
精准提升2
现在,每个新处理器的确切加速时间将由AMD电压频率缩放功能(使用Precision Boost 2)确定。我们在Ryzen 7 2700X评测中详细检查了此功能,它依靠可用功率来确定频率,而不是使用离散的电压和频率参考表根据负载。 根据系统的初始功能,频率和电压将动态变化,以在处理器负载的任何时间使用更多可用的潜在功率。

处理器可以使用比固定查找表所允许的功率更多的功率,这应该适合给定模型中的所有处理器。
Precision Boost 2与XFR2(极限频率范围)配合使用,后者可响应可用的温度范围。 如果良好的冷却器提供了额外的散热预算,则处理器可以在达到散热极限之前使用更多功率,并获得额外的频率。 AMD声称,由于使用XFR2技术,在凉爽的环境中使用良好的散热器可以在某些测试中将计算能力提高10%以上。 为了通过在欧洲最热的时期推出Threadripper 2来证明这一“优势”,AMD很难。 欧洲以忽略世界各地的空调而闻名,当环境温度超过30ºC时,生产率的提高就会受到限制。 斯堪的纳维亚评论可能比热带地区的评论显示出更好的结果。
最终,这使Threadripper 2的测试变得复杂。借助涡轮工作台,性能与每个硅元件的特性紧密相关,这使功耗成为唯一的等级。 使用PB2和XF2,没有两个处理器可以相同地工作。
对我们来说幸运的是,由于处理器启动前一周举行的英特尔数据中心创新峰会,我们在空调酒店进行了大多数测试。
精密升压过载
新处理器支持Precision Boost Overdrive功能,该功能涵盖了关键领域,例如功率,热设计电流和电气设计电流。 如果这三个区域中的任何一个“证明”了未使用的电势,系统将尝试同时增加频率和电压以提高性能。 PBO是“标准”超频的组合,可同时加速所有内核,并有可能增加一个内核的频率,从而获得中等工作负载的性能。 当处理器停机并以标准性能工作时,PBO可以节省能源。 Ryzen Master会打开Precision Boost Overdrive。
AMD将这三个“关键领域”定义如下:
- 封装(CPU)功率或PPT-插槽的最大允许功耗,取决于插槽的电源;
- 热设计电流或TDC-达到稳定温度后由主板的稳压器提供的最大电流;
- 电气设计电流或EDC-处于峰值状态的主板稳压器提供的最大电流。
通过扩展这些限制,PBO扩展了PB2的功能,从而使您可以尽可能高效地加载系统。

StoreMI
与新的Ryzen Threadripper 2处理器一起,用户可以访问StoreMI软件解决方案。 它允许您通过将DRAM,SSD和HDD组合到单个存储空间中来创建自定义分层存储。 该软件实现使用高达2 GB的DRAM,高达256 GB的SSD(NVMe或SATA)和旋转的硬盘驱动器动态分配数据。 这种方法提供了最佳的读取和写入功能,而高速驱动器上没有空间。

AMD最初以20美元的价格向Ryzen APU平台提供该软件的附加软件,随后为Ryzen 2000系列处理器的用户免费提供(高达256 GB SSD),现在该服务扩展到Threadripper。 AMD演示了理想情况下软件如何将启动时间缩短90%。
喂我:Infinity Fabric需要更多动力
当内核与内存控制器之间的数据移动从环形拓扑变为网格或小芯片时,内核之间的通信变得更加复杂。 从现在开始,每个核心或其环境应充当路由器,并在需要多个“跳跃”以实现预期目标时确定数据的最佳路径。 正如我们在启动Skylake-X时使用英特尔的MoDe-X网格看到的那样,您需要同时避免竞争以提高性能并减少导体的长度以降低功耗。 事实证明,在这样的系统中,核间通信技术开始消耗大量能量,有时甚至比核心本身更多。
为了描述芯片的功率,所有消费类处理器都具有标称的“ TDP”或散热设计功率。 英特尔和AMD根据工作负载和温度不同来衡量此值。 从技术上讲,TDP是处理器满载时冷却器必须耗散的热能(通常由基本频率决定,而不是由所有核心的Turbo频率决定)。 实际能耗可能更高,具体取决于由于电源或电路板散热造成的损耗,但在大多数情况下,TDP和能耗通常被认为是相等的。
这意味着现代处理器(例如65W,95W,105W,140W,180W和现在的250W)上的TDP额定值应大致显示峰值功耗。 但是,并非所有这些能量都可以增加原子核的频率。 它的一部分将用于内存控制器,IO,集成显卡(如果芯片上有一个)。 事实证明,核之间的连接正在成为功耗的成熟参与者。 我们想知道它们消耗了多少。
为了了解范围,让我们从简单易懂的东西开始,让大多数用户知道。 较新的Intel Coffee Lake处理器(例如Core i7-8700K)使用所谓的环形总线设计。 这些处理器使用一个环连接每个核心和内存控制器:如果您需要移动数据,它们将落入环中并移动直到到达目的地。 核相互作用系统在历史上被称为“非核”,并且能够与以不同频率运行的核进行交互,并根据需要扩展功率。 功率分配如下:

尽管TDP为95 W,但该处理器在基本频率下的满负载功耗约为125 W,这远大于其TDP(也由基本频率确定)。 我们对其他东西感兴趣:Uncore消耗与总功率的比率。 uncore 4% , 7-9%. « 10%».
- : Intel Skylake-X. Intel «mesh» (), MoDe-X. , , .

, , 14 . mesh , , Intel, .

, uncore mesh 20% , 25-30% . .
AMD . crossbar. , . . «»», Infinity Fabric (IF).

IF , . , , Ryzen 7 2700X, TDP 105 .

AMD . -, , IF 43% . 4% i7-8700K 19% i9-7980XE. 43% 25%.
-, , IF , ~ 17,6 ~ 25,7 . Intel , ~ 13,8 40 .
Ryzen Threadripper 2950X — 16- Threadripper, .

, IF. Uncore + .

Infinity Fabric 59% . ( CCX), CCX , die-to-die - .
, IF, 34 43 , 25% , 2700X.
2990WX. , IF , IF-:

. , DRAM. AMD IF-, . - , IF- . - .

. Infinity Fabric 56,1 76,7 , 73% . 2950 34 , , IF. .
, , 2990WX TDP 250 , 180 . , . , IF , 36%, 35% 40% . , , , 25% 2700X 2950X.
, , EPYC 7601, , ? Zen , EPYC IO, , Uncore .

, 2990WX, , . uncore .

, 74,1 , IF 66,2 89%! , 66,2 90 . 90 180 TDP!
— , Uncore power? , , ? :
, . , : , Uncore 90% .
感谢您与我们在一起。 你喜欢我们的文章吗? 想看更多有趣的资料吗? 通过下订单或将其推荐给您的朋友来支持我们,
为我们为您发明的入门级服务器的独特模拟,为Habr用户提供
30%的折扣: 关于VPS(KVM)E5-2650 v4(6核)的全部真相10GB DDR4 240GB SSD 1Gbps从$ 20还是如何划分服务器? (RAID1和RAID10提供选件,最多24个内核和最大40GB DDR4)。
购买六个月的新Dell R630
可免费获得3个月
-2个Intel Deca-Core Xeon E5-2630 v4 / 128GB DDR4 / 4x1TB HDD或2x240GB SSD / 1Gbps 10 TB-每月99.33美元起 ,仅直到8月底,订购可以在
这里 。
戴尔R730xd便宜2倍? 仅
在荷兰和美国,我们有
2台Intel Dodeca-Core Xeon E5-2650v4 128GB DDR4 6x480GB SSD 1Gbps 100电视(249美元起) ! 阅读有关
如何构建基础架构大厦的信息。 使用价格为9000欧元的Dell R730xd E5-2650 v4服务器的上等课程?