我们正在谈论全球主要制造商和创业公司的新架构-晶圆级芯片,张量处理器和基于图形的设备。
主题选择:
照片- 梁咏仪 -不飞溅晶圆深度学习
在经典处理器的生产中,硅衬底被
分为单个晶体。 但是在晶圆级处理器的情况下,半导体晶圆没有被分割-它变成了大芯片。 结果,组件彼此靠近,并且系统性能提高。
Cerebras Systems和TSMC的工程师采用了这种方法,开发了用于深度学习的芯片
-Cerebras WSE 。 它在夏末的Hot Chips会议上
显示 。 该器件
是一个边长为21.5厘米的方形晶体,由1.2万亿个晶体管组成,合计40万个内核。 这些内核使用专有的Swarm系统相互“通信”,带宽为100 Pbit / s。
开发人员说,该芯片通过滤除矩阵运算中的零数据来预先
优化计算 -它们占所有值的50%至98%。 结果,在Cerebras上学习模型的速度比在传统GPU上快一百倍。 但是,《纽约时报》对这种说法
做出了反应 ,
对此持怀疑态度-独立专家尚未测试硬件。
Cerebras的计算核心是可编程的。 可以对其进行优化以与任何神经网络一起使用。 预计新芯片将在云系统和机器学习应用中找到应用:从无人机到语音助手。 目前尚不清楚该芯片何时上市销售,但是许多公司已经在工作负载上对其进行了测试。
硅互连结构 (Si-IF)是用于MO应用的另一种晶圆级设备。 它是在加利福尼亚大学实验室
开发的。 Si-IF是在单个硅晶片上结合了数十个GPU的设备。 开发人员已经为24和40个GPU引入了两个原型。 它们的性能比传统设备的性能高2.5倍。 他们计划在数据中心中使用该系统。
张量处理器
在2018年5月,谷歌发布了
TPU v3 ,这是其第三代张量处理器,可用于
TensorFlow机器学习
库 。 对新设备的技术特性知之甚少。 生产版本将使用12纳米或16纳米工艺技术制造。 热设计功率-200瓦,性能-使用bfloat 16时为105 TFLOPS。这是用于深度学习的16位浮点表示系统。
在许多任务上,第二代Google TPU
的性能
超过了NVIDIA Tesla V100的五倍。 工程师说,第三代的功率是其前代产品的八倍。 我们甚至
不得不在芯片上
安装液体冷却。
图片-Cineca -CC BY公司计划将其许多系统转移到新的张量处理器上:语音助手,照片处理服务和RankBrain搜索查询排名算法。 该公司还希望在TPU的基础上构建基于云的可扩展超级计算机,并为参与AI系统研究的科学家开放对它们的访问权限。 春末,该服务以beta模式
启动 。
芯片处理复杂图形
英国初创公司Graphcore已开发出一种用于深度学习任务的芯片-Colossus
IPU (智能处理单元)。 它包含1200个内核和一组专门的
超越功能 。 每个核心处理六个线程。 Iron与Poplar软件配对。 它编译模型并在其基础上构建在IPU处理器上运行的复杂多级算法图。 对第一个Graphcore样本的测试表明,它们的性能是传统GPU的一百倍。
Startup
已随附用于服务器
的全尺寸PCI-E卡。 它的结构包括两个IPU芯片,它们是根据16纳米工艺技术制造的,由240亿个晶体管组成。 这种设备的计算能力为125 TFLOPS。 卡旨在用于IaaS提供商的数据中心和具有自动驾驶仪的汽车。 这家初创公司的创始人
说 ,有一百多家客户使用他们的设备工作,但是他们没有指定具体的公司。
用于机器学习的硬件设备领域的竞争变得越来越严重。 新的竞争者进入市场,提供创新的架构,而知名公司则继续增加现有解决方案的容量。 无论如何,这都会影响到数据中心所有者,数据科学工程师和其他开发人工智能系统的专家的手中。
会员程序1cloud.ru 。 我们的云用户可以赚钱并减少虚拟基础设施的租赁成本。

例如,我们提供
私有云服务。 借助其帮助,您可以为任何复杂的项目部署IT基础架构。