映泰(Biostar)Racing P1:冷排气

我们并不是第一个注意到紧凑型计算机(例如Intel Compute Stick)在性能方面不够出色的人。 熟悉Biostar的类似设备后,期望并不是最乐观的。 像更年轻的台式计算机一样,Racing P1在Atom Z8000系列中最弱的处理器之一上运行。 但是,Biostar选择的x5-Z8350芯片仅迈出了一步,但比其弟弟的生产率更高。 让我们尝试评估该平台的性能,这要归功于Biostar的努力,不再是一成不变的东西,但它也不是笔记本电脑。


图1前面板上装有USB 3.0 / 2.0,SD卡插槽,背光触点,耳机插孔和电源按钮

使用的工具是Win64的NCRB基准(NUMA CPU和RAM基准),以及用于识别JavaCPUID处理器的跨平台实用程序。


中央处理器


CPUID指令确认Biostar Racing P1平台上已安装Intel Atom x5-Z8350处理器。 它的标称频率为1.44 GHz,但这并不能阻止它在必要时合法加速到1.92 GHz。 即使对这个平台的了解不多,但自相矛盾是显而易见的:它在1.44到1.92范围内的操作通常是一个规则,而不是例外。


图2英特尔凌动x5-Z8350的出厂规格

x5-Z8350处理器决定选择最小或标准时钟频率并启动Turbo模式是基于对负载和工作温度的分析。 SDP(方案功耗)框架定义了设备的典型功耗。 控制机制可独立评估情况,在“轻”负载的情况下,可降低芯片的能耗。 开启Turbo模式的能力是温度的函数,因此夏季和冬季测试的结果可能会有所不同。 总的来说,Racing P1也是本赛季的“换鞋鞋”。


超出研究范围,我们注意到加力燃烧器会导致〜220 V的电源线上消耗高达7瓦的功率。巡航模式Racing P1将这个值降低了大约一半,睡眠模式需要略大于2瓦的交流电(通过普通的家用功率计监控功耗) 。


图3Intel Atom x5-Z8350功能上的CPUID

英特尔凌动x5-Z8350可处理最大容量为128位的数据。 不支持现代功能扩展AVX 256/512。 这意味着我们的测量工具将是一组矢量指令SSE 128,以及测量对象-缓存和动态RAM。


图4NCRB实用程序的系统信息和测试模式选择窗口:左侧菜单显示指令集,包括处理器支持的功能扩展

这里重要的离题是适当的:在一般情况下,操作数的最大容量并不意味着最高性能。 因此,许多包括AM2(含AM2)在内的AMD处理器使用经典MOV指令处理两次64位下载的速度要比使用MOVAPD指令处理一个128位SSE加载的速度更快。 回想一下,在进行实验之前,我们已经通过实验进行了确定-将ASE用于Atom x5-Z8350确实是最有效的方案。


L1快取


通常,缓存大小是2的幂的倍数。 在第一级,制造商尝试在说明和数据之间平均分配它。 x5-Z8350处理器的体系结构不遵守所有这些规范。 它的四个内核中的每个内核都具有32 KB的指令缓存和24 KB的数据缓存。


图5缓存级别分类

许多源给出了一个内核的高速缓存大小乘以它们的数量的乘积,这给出了更令人印象深刻的视图:128KB指令高速缓存和96KB数据高速缓存。 至少在撰写本文时,官方页面传统上对L1缓存保持沉默。


请注意,CPUID指令未声明零级高速缓存(类似于L1跟踪高速缓存),该零级高速缓存存储解码的指令并提高短周期的效率。 检查其可用性和功能分析值得单独发布。


理论与实践:缓存性能


缓存速度的度量包括对块的循环读取或写入操作,该块的大小小于所研究的缓存级别的大小,因此数据访问操作就是缓存命中。 实际上,目标(L1,L2高速缓存或DRAM)的选择取决于处理后的数据块的大小。


在指定了要测试的实体之后,我们将继续考虑机器指令级别的操作。 在我们的实验中,我们使用16个SSE2 MOVAPD指令的扩展周期,每个指令在存储器和XMM寄存器之一之间传输128位操作数。 结果,在循环的一次迭代中,16个寄存器XMM0 ... XMM15被完全加载。


为了完整起见,我们注意到MOVAPD指令也可以用于在两个XMM寄存器之间传输数据,但是在我们的情况下,寄存器操作不会给出存储对象性能的概念。 MOVAPD指令要求的对齐要求确保了最高性能:操作数地址必须是16字节(128位)的倍数。



L1缓存基准


尽管读或写块小于L1高速缓存的大小(在图中,这是X轴),但是交换速率很高。 一旦块超出L1,就会发生高速缓存未命中并且速度下降。 显然,在评估性能时,对应于图表左侧的“上一步”很有用。


图6数据块读取速度与其大小的关系图;
邻域X =大小L1

最高速度(以兆字节/秒(MBPS)为单位)对应于每条指令的最小滴答数( CPI,每条指令的时钟数 ),约为30英镑


图7数据块的写入速度与其大小的关系图;
邻域X =大小L1

从图中可以看出,用于读取L1的拐点对应于24 KB的理论值。 记录下来,此处理器中使用的缓存策略的特征是速度“提前下降”,这将是单独研究的主题。 但是现在可以注意到-尽管在某些情况下可以避免不必要的数据阻塞L1,但是该策略对记录性能指标没有帮助。


结果表明,Atom x5-Z8350处理器的一个内核开发了速度。 大量测试(尤其是AIDA64)显示了所有内核的总体性能。


我们将通过对峰值吞吐量建模来进行小的理论计算。 对于正在研究的CPU,Turbo模式下的时钟频率为1920 MHz。 在一个时钟周期内发送128位或16字节:

  • 1920 * 16 = 30720(约30 GB /秒)

TSC计数器(时间戳计数器)用作示例时间间隔的来源。 由于处理器内核和TSC通常是异步时钟,因此每条指令的TSC时钟周期的值是小数。


根据文档中指示的频率值,确保处理器以Turbo模式运行。 1920 MHz的提升核心频率的一个时钟周期约为0.521纳秒。 时间戳计数器在其上工作的1440 MHz标称频率的一个时钟周期约为0.694纳秒。 对于每个周期执行的指令,每个指令的TSC周期数(CPI)的理论值应为

  • 0.521 / 0.694 = 0.750

在0.759 ... 0.767之间显示的最小CPI测量值非常接近该值。


L2快取


研究中的处理器的四个核心分为两组,每组两个。 L2缓存的总大小为2 MB,并在它们之间平均分配。 结论很明显:每个内核都有1 MB的L2高速缓存,访问权限是与组邻居共享的。



L2缓存基准


当观察到的24 KB <X <1 MB的双重不平等,当已处理的数据块不再放置在L1中,但仍然放置在L2中时,L2高速缓存速度是中心的“步骤”。


图8数据块读取速度与其大小的关系图;
邻域X =大小L2

从曲线图中可以看出,当超过1 MB的限制时,由于L2耗尽而导致速度降低。 找不到从相邻组“借用”缓存的功能,该功能已将速度降低的时刻移至了2 MB。


图9数据块的写入速度与其大小的关系图;
邻域X =大小L2

L2写缓存的性能等级接近读取:12英镑对11.5英镑。 该结果的理论背景将在下一份出版物中讨论

Source: https://habr.com/ru/post/zh-CN413857/


All Articles