人工智能架构优化:竞赛开始

随着AI体系结构的改善和成本的下降,专家表示,越来越多的企业将掌握这些技术,这将推动创新并为公司和AI开发人员带来丰厚的回报。

AI应用程序通常在与传统企业应用程序完全不同的架构基础上工作。 反过来,供应商愿意做很多事情来提供需求不断增长的新组件。

EY的AI专家,顾问Keith Strier表示:“计算行业正在发生重大变化-企业对AI的兴趣推动了创新,这些创新将有助于以任何规模掌握和部署AI。 投资者向优化AI的初创公司投入了大量资金,大型制造商不仅开始提供芯片和存储,而且还提供部署所需的网络和云服务。”

据他介绍,现在IT主管的主要任务是为公司需求选择合适的人工智能体系结构。

Streer表示,由于AI是前所未有的数学运算,因此与熟悉的公司工作负载相比,实施此技术需要完全不同的技术条件和安全工具。 为了充分利用AI,供应商将需要提供AI所需的技术基础架构,云和其他服务,否则将无法进行如此复杂的计算。

但是我们已经在朝着这个方向前进,而且将来还会有更高级的人工智能架构。 斯特雷尔(Streer)相信,提供计算架构的灵活性,功能和速度不仅是从事高性能计算发展的小公司,而且是高性能计算行业的其他代表,包括旨在创建高标准AI-的微芯片和云服务的初创公司。计算。

随着AI领域中越来越多的专家和开发人员的涌现,这项技术将变得越来越容易获得,这将为公司和供应商带来强大的创新动力并带来可观的收益。

同时,IT主管应该熟悉与创建供企业使用的人工智能体系结构相关的困难,以便为解决这些问题做好准备。

芯片开发


从传统计算架构向AI过渡的最重要条件是图形处理器,可编程逻辑集成电路(FPGA)和专用AI芯片的开发。 基于GPU和FPGA的架构的激增将有助于提高计算和存储系统的生产率和灵活性,这将使解决方案提供商能够为AI和机器学习应用程序提供一系列高级服务。

Vexata Inc.创始人兼首席技术官Surya Varanasi说:“这些芯片架构从负载中释放了许多高级功能(例如AI培训),并帮助实现了用于计算和存储的改进堆栈,从而提供了无与伦比的性能和效率。”数据管理解决方案提供商。

但是,尽管新的微电路无法实现更复杂的功能。 为了为AI工作负载选择最佳架构,必须执行需要高吞吐量且不能无延迟的大规模计算。 此处成功的关键是高速网络。 但是许多AI算法必须等到输入下一组数据后才能使用,因此您不应忘记延迟。

此外,当跨越服务器边界或从服务器传输到存储时,数据会通过多种协议。 为了简化这些过程,数据专家可能会尝试在本地定位数据,以便一台服务器可以处理大量数据而无需等待其他数据。 GPU和存储之间改进的集成还有助于节省资金。 其他供应商正在寻找简化AI服务器设计以确保兼容性的方法,以使同一服务器可用于不同的工作负载。

用于处理AI工作负载的非易失性内存


直接连接驱动器(DAS)是许多基于GPU的解决方案的核心,它使AI的分布式学习和逻辑结论的形成大大复杂化。 结果,安装和管理这些数据线以进行深度学习已成为一项复杂且耗时的任务。

为了解决此问题,非易失性存储器(NVM)是合适的,其最初旨在在固态驱动器(SSD)与传统公司服务器之间提供高质量的连接。 现在,这种类型的内存通常包含在I / O矩阵中,以优化AI工作负载。

最重要的是,结构上的NVMe(NVMeF)-所谓的这些接口-将有助于降低在网络协议之间进行转换的成本,并控制每种类型的SSD的特性。 这将使CIO能够证明使用大数据集的AI应用程序的成本合理。

接口NVMeF会带来风险,包括对先进技术的高成本需求。 另外,该行业仍然依赖NVMeF供应商,因此IT主管在选择产品时应尽量避免与供应商特定的关系。
Varanasi相信,但是实施NVMeF将使您朝着优化人工智能的企业架构迈出新的一步。

Varanasi说:“尽管要在工业规模上将NVMe扩展到Fabrics架构需要再花一年或一年半的时间,但我们已经拥有了主要组件,并且先驱们已经报告了令人鼓舞的结果,” Varanasi说。


渴望开发AI应用程序的CIO如果可以在短期内成功替换现有的存储网络,则可以尝试创建针对NVMeF AI优化的共享存储池。 但是,如果等到NVMeF向后兼容,您可能会损失很多。

减少数据移动


在计划AI部署的各个阶段时,您需要特别注意移动数据的成本。 AI项目,包括那些用于处理和转换数据以及训练算法的项目,需要大量的数据。

完成这些任务所需的硬件和人力资源以及移动数据本身所花费的时间会使AI项目的成本过高。 IBM Research存储加速技术专家经理Haris Pozidis博士说,如果CIO设法避免在各个阶段之间移动数据,他们很可能将能够开发出满足这些需求的可行AI基础架构。 制造商已经在解决此问题。

例如,IBM正在试验各种硬件和软件优化选项,以减少苏黎世实验室中大型AI应用程序的数据移动。 此类优化已帮助46倍提高了流行点击分析工具的测试脚本的性能。 Pozidis说,分布式学习和GPU加速是这项工作的核心,从而改善了对稀疏数据结构的支持。

并发是加速AI工作负载的另一个重要组成部分。 对于分布式培训,有必要在硬件和软件级别进行更改,这将提高并行图形处理器算法的处理效率。 IBM研究人员创建了一个具有数据并行性的原型平台,它使您可以扩展和学习超过一台机器上的内存量的大量数据。 这对于大规模应用非常重要。 针对通信学习和提供数据局部性而优化的新平台有助于减少数据移动。

在硬件级别,IBM研究人员使用NVMeF改善了服务器上以及服务器与存储之间的GPU,CPU和内存组件的互连性。

“不同的AI工作负载的性能可能会受到网络瓶颈,内存带宽以及CPU和GPU之间带宽的限制。 但是,如果您在系统的所有部分中实现更有效的连接算法和协议,则可以朝着开发更快的AI应用程序迈出一大步,” Pozidis说。


复合计算

如今,大多数工作负载都使用针对特定硬件体系结构优化的预配置数据库。


Teradata分析产品和解决方案副总裁Chad Miley表示,市场正在朝着软件驱动的硬件发展,这将使组织能够根据当前任务在GPU和CPU之间智能地分配处理。


困难在于企业使用不同的计算引擎来访问不同的存储选项。 大型公司喜欢使用高性能的输入输出环境来存储需要定期访问的有价值的数据,例如,有关客户,财务,供应链,产品和其他组件的信息。 反过来,很少使用的数据集(例如传感器读数,Web内容和多媒体)存储在低成本的云存储中。

组合计算的目标之一是使用容器来优化实例的性能,例如SQL引擎,图形引擎,机器学习和深度学习引擎,这些实例访问分布在不同存储库中的数据。 几个分析计算引擎的部署允许使用多处理器模型,这些模型使用来自不同引擎的数据,并通常带来更好的结果。

诸如Dell Technologies,Hewlett Packard Enterprise和Liquid之类的IT供应商正在逐渐远离在计算级别分配工作负载的传统体系结构。 相反,他们寻求将AI工作负载分配给由中央处理单元,GPU,内存和存储设备组成的整个系统。 对于这样的过渡,有必要掌握新的网络组件,当连接系统的各个组件时,这些组件将提高速度并减少延迟。

例如,许多云数据中心使用以太网来连接计算组件和存储,其延迟约为15微秒。 InfiniBand的高速交换计算机网络已在许多融合基础架构中使用,可以将延迟降低多达1.5微秒。 Liquid已创建了一套工具,用于使用PCI Express(PCIE)连接不同的节点,从而将延迟减少到150纳秒。

此外,一些专家建议增加用于通过快速连接处理大型负载的GPU的内存量。 例如,DDR4通常与RAM一起使用,从而将延迟减少到14纳秒。 但这仅适用于几英寸的小段。

ClusterOne AI管理服务的创始人和开发者Little Marrek认为,需要更多的工作来确保AI工作负载在软件环境中的兼容性。 尽管有些企业已经在尝试确保与Docker和Kubernetes的兼容性,但是将相同的方法应用于GPU还为时过早。

“总的来说,运行GPU工作负载并对其进行监控并不容易,” Marrek说。 “没有通用的解决方案可以监视所有系统。”



存储和GPU


另一种方法是使用图形处理器对数据进行预处理,以减少特定类型的分析所需的数量,并帮助组织数据并为其分配标签。 这将允许您为处理中涉及的多个GPU准备合适的数据集,以便该算法可以从内存内部运行,而不是通过慢速网络从存储中传输数据。

Nyriad Ltd.的创始人兼首席技术官兼创始人Alex St. John表示:“我们将存储,计算和内存视为解决方案的独立组件,该解决方案在历史上一直发展,因此试图增加处理量。”世界上最大的射电望远镜的研究结果-带有平方千米天线阵列(SKA)的望远镜。
数据量越大,将它们移到某处进行处理就越困难。

SKA望远镜需要大量功率才能处理160 TB的实时无线电信号数据,这是研究人员的主要障碍。 结果,他们决定放弃在数据中心最常用的RAID存储,并部署并行集群文件系统,例如BeeGFS,这简化了AI工作负载的数据准备。

致力于人工智能架构最佳策略的IT主管应特别注意可用性。 如果开发人员,数据专家以及开发和运营集成团队可以快速掌握新技术,则他们可以将时间和精力投入到创建成功的业务逻辑上,而不用解决部署问题和数据线。

此外,组织需要仔细考虑将新的AI架构构建到现有生态系统中将花费多少精力和时间。

“在实施新的基础架构和规划大型工作负载之前,CIO需要评估需要多少可用资源,” Iguazio的创始人兼首席执行官Asaf Someh说。

Source: https://habr.com/ru/post/zh-CN415929/


All Articles