🗺️ 📘 🏩 ML芯片-谈论新产品 ⏏️ 😸 ⛹🏾

我们正在谈论全球主要制造商和创业公司的新架构-晶圆级芯片，张量处理器和基于图形的设备。

^{主题选择：}

适用于软件开发人员的工具：MO的开放框架和库

照片- 梁咏仪 -不飞溅

晶圆深度学习

在经典处理器的生产中，硅衬底被分为单个晶体。但是在晶圆级处理器的情况下，半导体晶圆没有被分割-它变成了大芯片。结果，组件彼此靠近，并且系统性能提高。

Cerebras Systems和TSMC的工程师采用了这种方法，开发了用于深度学习的芯片-Cerebras WSE 。它在夏末的Hot Chips会议上显示。该器件是一个边长为21.5厘米的方形晶体，由1.2万亿个晶体管组成，合计40万个内核。这些内核使用专有的Swarm系统相互“通信”，带宽为100 Pbit / s。

开发人员说，该芯片通过滤除矩阵运算中的零数据来预先优化计算 -它们占所有值的50％至98％。结果，在Cerebras上学习模型的速度比在传统GPU上快一百倍。但是，《纽约时报》对这种说法做出了反应，对此持怀疑态度-独立专家尚未测试硬件。

Cerebras的计算核心是可编程的。可以对其进行优化以与任何神经网络一起使用。预计新芯片将在云系统和机器学习应用中找到应用：从无人机到语音助手。目前尚不清楚该芯片何时上市销售，但是许多公司已经在工作负载上对其进行了测试。

硅互连结构 （Si-IF）是用于MO应用的另一种晶圆级设备。它是在加利福尼亚大学实验室开发的。 Si-IF是在单个硅晶片上结合了数十个GPU的设备。开发人员已经为24和40个GPU引入了两个原型。它们的性能比传统设备的性能高2.5倍。他们计划在数据中心中使用该系统。

张量处理器

在2018年5月，谷歌发布了TPU v3 ，这是其第三代张量处理器，可用于TensorFlow机器学习库。对新设备的技术特性知之甚少。生产版本将使用12纳米或16纳米工艺技术制造。热设计功率-200瓦，性能-使用bfloat 16时为105 TFLOPS。这是用于深度学习的16位浮点表示系统。

在许多任务上，第二代Google TPU 的性能超过了NVIDIA Tesla V100的五倍。工程师说，第三代的功率是其前代产品的八倍。我们甚至不得不在芯片上安装液体冷却。

图片-Cineca -CC BY

公司计划将其许多系统转移到新的张量处理器上：语音助手，照片处理服务和RankBrain搜索查询排名算法。该公司还希望在TPU的基础上构建基于云的可扩展超级计算机，并为参与AI系统研究的科学家开放对它们的访问权限。春末，该服务以beta模式启动。

芯片处理复杂图形

英国初创公司Graphcore已开发出一种用于深度学习任务的芯片-Colossus IPU （智能处理单元）。它包含1200个内核和一组专门的超越功能。每个核心处理六个线程。 Iron与Poplar软件配对。它编译模型并在其基础上构建在IPU处理器上运行的复杂多级算法图。对第一个Graphcore样本的测试表明，它们的性能是传统GPU的一百倍。

Startup 已随附用于服务器的全尺寸PCI-E卡。它的结构包括两个IPU芯片，它们是根据16纳米工艺技术制造的，由240亿个晶体管组成。这种设备的计算能力为125 TFLOPS。卡旨在用于IaaS提供商的数据中心和具有自动驾驶仪的汽车。这家初创公司的创始人说，有一百多家客户使用他们的设备工作，但是他们没有指定具体的公司。

用于机器学习的硬件设备领域的竞争变得越来越严重。 新的竞争者进入市场，提供创新的架构，而知名公司则继续增加现有解决方案的容量。 无论如何，这都会影响到数据中心所有者，数据科学工程师和其他开发人工智能系统的专家的手中。

会员程序1cloud.ru 。我们的云用户可以赚钱并减少虚拟基础设施的租赁成本。

例如，我们提供私有云服务。借助其帮助，您可以为任何复杂的项目部署IT基础架构。

ML芯片-谈论新产品

晶圆深度学习

张量处理器

芯片处理复杂图形

More articles: