情况:虚拟GPU的性能并不比铁解决方案差

2月,在斯坦福大学举行了高性能计算(HPC)会议。 VMware的代表表示,使用GPU时,基于修改后的ESXi虚拟机管理程序的系统在速度上不比裸机解决方案差。

我们谈论使之得以实现的技术。


/图片Victorgrigas CC BY-SA

性能问题


根据分析师的说法,数据中心中约70%的工作负载已虚拟化 。 但是,剩余的30%仍然可以在没有管理程序的裸机上工作。 这30%大部分由高负荷应用程序组成,例如与训练神经网络和使用图形处理器有关的应用程序。

专家通过将虚拟机管理程序作为抽象的中间层会影响整个系统的性能这一事实来解释这种趋势。 在五年前的研究中, 您可以找到有关速度下降10%的数据。 因此,公司和数据中心运营商不急于将HPC负载转移到虚拟环境。

但是虚拟化技术正在发展和改进。 在一个月前的一次会议上,VMware表示ESXi虚拟机管理程序不会对GPU性能产生不利影响。 计算速度可能下降百分之三,这与裸机相当。

如何运作


为了提高具有GPU的HPC系统的性能,VMware对虚拟机管理程序的工作进行了许多更改。 特别是,他摆脱了vMotion功能。 它是负载平衡所必需的,通常在服务器或GPU之间传输虚拟机(VM)。 禁用vMotion导致以下事实:每个VM现在都分配有一个特定的图形处理器。 这有助于降低数据共享成本。

系统的另一个关键组件 DirectPath I / O 技术 。 它允许用于并行计算的CUDA驱动程序直接绕过虚拟机管理程序而与虚拟机进行交互。 当您需要在同一GPU上运行多个VM时,将激活GRID vGPU解决方案。 它将存储卡划分为几个部分(但计算周期未划分)。

在这种情况下,两个虚拟机的操作方案如下所示:


结果与预测


该公司通过 训练基于TensorFlow的语言模型来进行管理程序测试 。 与裸机相比,对生产力的“损害”仅为3-4%。 同时,作为回报,系统能够根据当前负载按需分配资源。

这家IT巨头还进行了容器测试 。 该公司的工程师训练了神经网络来识别图像。 同时,一个GPU的资源分布在四个容器VM之间。 结果,单个计算机的性能下降了17%(相比之下,具有完全访问GPU资源访问权限的单个VM)。 但是,每秒处理图像的数量增加了两倍。 期望这样的系统在数据分析和计算机建模领域中找到应用。

在VMware可能遇到的潜在问题中,专家们挑选出了相当狭窄的目标受众。 少数公司目前正在使用高性能系统。 尽管Statista 指出 ,到2021年,世界数据中心94%的工作负载将被虚拟化。 据分析人士称,HPC市场的价值将从2017年的32美元增长到2022年的450亿美元。


/图片全球接入点 PD

类似的解决方案


大型IT公司在市场上开发了几种类似产品:AMD和Intel。

第一家GPU虚拟化公司提供 SR-IOV(单根输入/输出虚拟化)方法。 这项技术使VM可以访问系统的某些硬件功能。 该解决方案使您可以在性能相同的虚拟化系统上将图形处理器拆分为16个用户。

至于第二家IT巨头,他们的技术基于 Citrix XenServer 7虚拟机管理程序,它结合了标准GPU驱动程序和虚拟机的工作,从而使虚拟机可以在数百个用户的设备上显示3D应用程序和桌面。

未来技术


虚拟GPU开发人员押注于AI系统的实施以及高性能解决方案在商业技术市场中的日益普及。 他们希望处理大量数据的需求将增加对vGPU的需求。

现在,制造商正在寻找一种将CPU和GPU的功能整合到一个内核中的方法,以加快解决与图形有关的任务,执行数学计算,逻辑运算和数据处理的任务。 此类内核将来在市场上的出现将改变资源虚拟化的方法及其在虚拟和云环境中工作负载之间的分配。



在我们公司的博客中阅读有关该主题的内容:


来自Telegram频道的几则帖子:

Source: https://habr.com/ru/post/zh-CN443946/


All Articles