ML芯片-谈论新产品

我们正在谈论全球主要制造商和创业公司的新架构-晶圆级芯片,张量处理器和基于图形的设备。

主题选择:



照片- 梁咏仪 -不飞溅

晶圆深度学习


在经典处理器的生产中,硅衬底被分为单个晶体。 但是在晶圆级处理器的情况下,半导体晶圆没有被分割-它变成了大芯片。 结果,组件彼此靠近,并且系统性能提高。

Cerebras Systems和TSMC的工程师采用了这种方法,开发了用于深度学习的芯片-Cerebras WSE 。 它在夏末的Hot Chips会议上显示 。 该器件一个边长为21.5厘米的方形晶体,由1.2万亿个晶体管组成,合计40万个内核。 这些内核使用专有的Swarm系统相互“通信”,带宽为100 Pbit / s。

开发人员说,该芯片通过滤除矩阵运算中的零数据来预先优化计算 -它们占所有值的50%至98%。 结果,在Cerebras上学习模型的速度比在传统GPU上快一百倍。 但是,《纽约时报》对这种说法做出了反应对此持怀疑态度-独立专家尚未测试硬件。

Cerebras的计算核心是可编程的。 可以对其进行优化以与任何神经网络一起使用。 预计新芯片将在云系统和机器学习应用中找到应用:从无人机到语音助手。 目前尚不清楚该芯片何时上市销售,但是许多公司已经在工作负载上对其进行了测试。

硅互连结构 (Si-IF)是用于MO应用的另一种晶圆级设备。 它是在加利福尼亚大学实验室开发的。 Si-IF是在单个硅晶片上结合了数十个GPU的设备。 开发人员已经为24和40个GPU引入了两个原型。 它们的性能比传统设备的性能高2.5倍。 他们计划在数据中心中使用该系统。

张量处理器


在2018年5月,谷歌发布了TPU v3 ,这是其第三代张量处理器,可用于TensorFlow机器学习 。 对新设备的技术特性知之甚少。 生产版本将使用12纳米或16纳米工艺技术制造。 热设计功率-200瓦,性能-使用bfloat 16时为105 TFLOPS。这是用于深度学习的16位浮点表示系统。

在许多任务上,第二代Google TPU 性能超过了NVIDIA Tesla V100的五倍。 工程师说,第三代的功率是其前代产品的八倍。 我们甚至不得不在芯片上安装液体冷却。


图片-Cineca -CC BY

公司计划将其许多系统转移到新的张量处理器上:语音助手,照片处理服务和RankBrain搜索查询排名算法。 该公司还希望在TPU的基础上构建基于云的可扩展超级计算机,并为参与AI系统研究的科学家开放对它们的访问权限。 春末,该服务以beta模式启动

芯片处理复杂图形


英国初创公司Graphcore已开发出一种用于深度学习任务的芯片-Colossus IPU (智能处理单元)。 它包含1200个内核和一组专门的超越功能 。 每个核心处理六个线程。 Iron与Poplar软件配对。 它编译模型并在其基础上构建在IPU处理器上运行的复杂多级算法图。 对第一个Graphcore样本的测试表明,它们的性能是传统GPU的一百倍。

Startup 已随附用于服务器全尺寸PCI-E卡。 它的结构包括两个IPU芯片,它们是根据16纳米工艺技术制造的,由240亿个晶体管组成。 这种设备的计算能力为125 TFLOPS。 卡旨在用于IaaS提供商的数据中心和具有自动驾驶仪的汽车。 这家初创公司的创始人 ,有一百多家客户使用他们的设备工作,但是他们没有指定具体的公司。

用于机器学习的硬件设备领域的竞争变得越来越严重。 新的竞争者进入市场,提供创新的架构,而知名公司则继续增加现有解决方案的容量。 无论如何,这都会影响到数据中心所有者,数据科学工程师和其他开发人工智能系统的专家的手中。


会员程序1cloud.ru 。 我们的云用户可以赚钱并减少虚拟基础设施的租赁成本。

例如,我们提供私有云服务。 借助其帮助,您可以为任何复杂的项目部署IT基础架构。

Source: https://habr.com/ru/post/zh-CN472230/


All Articles