专用芯片将无法使我们脱离“僵局加速器”



CPU速度的提高正在减缓,并且我们看到半导体行业转向加速器卡,因此结果继续得到明显改善。 Nvidia从这种过渡中受益最大,但是,它是同一趋势的一部分,推动了对神经网络加速器,FPGA和Google TPU等产品的研究。 近年来,这些加速器以惊人的速度提高了电子产品的速度,许多人开始希望它们代表着摩尔定律放慢发展的新发展道路。 但是一项新的科学研究表明,实际上,一切都不如某些人所希望的那样乐观。

诸如GPU,TPU,FPGA和ASIC之类的特殊架构,即使它们与通用CPU的工作方式大不相同,它们仍使用与x86,ARM或POWER处理器相同的功能节点。 这意味着这些加速器的速度提高在某种程度上还取决于与晶体管缩放相关的改进。 但是,这些改进中有多少比例取决于生产技术的改进以及与摩尔定律相关的密度的增加,而哪些部分取决于这些处理器所针对的目标领域的改进呢? 仅与晶体管有关的改进百分比是多少?

普林斯顿大学电气工程副教授David Wenzlaf和他的研究生Adi Fuchs创建了一个模型,使他们能够衡量改进的速度。 他们的模型使用了基于各种功能单元制作的1612 CPU和1001 GPU的各种容量的特性,以数字方式评估与改进单元相关的收益。 Wenzlaf和Fuchs创建了一个衡量与CMOS相关的性能的指标 (CMOS驱动的回报,CDR),可以与通过芯片专业化(CSR)获得的进步进行比较。



团队得出了令人沮丧的结论。 从长远来看,由于芯片的专业化而获得的优势基本上与放置在毫米级硅中的晶体管数量有关,并且与这些与每个新功能单元相关的晶体管的改进有关。 更糟糕的是,在不提高CMOS规模的情况下,通过改进加速器电路可以提取多少速度存在根本限制。

从长远来看,上述所有内容都非常重要。 Wenzlaf和Fuchs进行的一项研究表明,初次使用加速器时,速度通常会急剧提高。 随着时间的流逝,当最终要研究最佳加速方法并描述最佳实践时,研究人员会采用最佳方法。 此外,在加速器上,可以很好地解决来自经过良好研究的可并行化区域(GPU)的明确任务。 但是,这也意味着从长远来看,相同的属性(由于任务可以适用于加速器)限制了从该加速中获得的优势。 该团队称此问题为“死锁加速器”。

高性能计算市场可能已经有一段时间了。 2013年,我们撰写了有关扩展超级计算机的艰难道路 。 甚至在那时,Top500仍预测加速器将在性能等级上实现一次飞跃,但不会提高速度。



但是,这些发现的后果超出了高性能计算市场的范围。 例如,在研究了GPU后,Wenzlaf和Fuchs发现,无法归因于改进的CMOS的收益非常小。



在图。 已经显示出GPU的绝对性能增长(包括从CMOS开发中获得的收益),而这些收益仅来自CSR的发展。 如果您从GPU电路中去除CMOS技术的所有突破,CSR就是那些可以保留的改进。

下图阐明了数量的关系:



降低CSR并不意味着会降低GPU的绝对数量。 正如福克斯写道:
CSR“基于CMOS的电势”对利润进行归一化,而“电势”考虑了晶体管的数量以及速度,能源使用效率,面积等方面的差异。 (在不同代的CMOS中)。 在图。 如图6所示,我们通过三角测量所有不同组合上的应用程序的测量速度,并使用那些没有足够通用应用程序(少于五个)的组合之间的传递关系,对“架构+ CMOS节点”组合进行了近似比较。

直观地,这些图可以理解为图1。 图6a展示了“工程师和经理所看到的”,以及图。 6b是“我们看到的,不包括CMOS的潜力”。 我会冒险建议您,与更好的晶体管或更好的专业化相比,您应该更关心新芯片是否领先于前一个芯片。

GPU市场定义明确,设计合理且专业化,AMD和Nvidia都有充分的理由相互竞争,改善电路。 但是,尽管如此,我们看到,加速在很大程度上是由于与CMOS相关的因素,而不是由于CSR。

科学家研究的FPGA和用于处理视频编解码器的专用板也属于这种特性,即使随着市场的增长,随着时间的推移相对的改进或多或少也变得如此。 允许您积极响应加速的相同特征最终会限制加速器提高效率的能力。 Fuchs和Wenzlaf谈到GPU:“尽管GPU图形的帧速率增加了16倍,但我们认为速度和能源效率的进一步提高将分别达到1.4-2.4倍和1.4-1.7倍” 。 AMD和Nvidia没有特殊的回旋余地,可以通过改进CMOS来提高速度。

这项工作的意义很重要。 她说,当摩尔定律停止运作时,针对他们的建筑领域的特定速度将不再显着提高速度。 即使芯片设计人员可以集中精力改进固定数量的晶体管的性能,但由于研究充分的工艺几乎无处可改善,因此这些改进将受到限制。

这项工作表明需要开发一种全新的计算方法。 一种可能的替代方案是Intel Meso体系结构 。 Fuchs和Wenzlaf还建议使用替代材料和其他解决方案,这些解决方案超出了CMOS的范围,包括研究使用非易失性存储器作为加速器的可能性。

Source: https://habr.com/ru/post/zh-CN444964/


All Articles