硬件AI的主要参与者诞生时的实时报告,可加速TensorFlow并与NVidia竞争



明天将有官方新闻稿发布,内容涉及旧的硅谷MIPS与年轻的AI公司Wave Computing的合并。 有关此事件的信息昨天已泄露给媒体,不久CNet,《福布斯》,《 EE时报》和许多高科技网站都发布了有关此事件的文章。 因此,今天,合并后的公司总裁Derek Meyer(右下图)说:“好吧,与朋友分享信息”,我决定就与此次活动相关的技术和人员写几句话。

MIPS和Wave的主要投资者是亿万富翁Dado Banatao(下图,中左图),他于1980年代创立了Chips&Technoilogies公司,该公司为早期员工提供芯片组。 Wave + MIPS中还有其他名人,例如Stephensson(右上图),他是1980年代初期最受欢迎的C编译器的作者。 MIPS在俄罗斯广为人知。 在设计师Smriti手中(左图)是Zelenograd的一块板,MIPS持牌人Elvis-NeoTek和Baikal Electronics坐落在该板上。

Wave已经发布了一种芯片,该芯片包含数千个处理单元,实质上是简化的处理器。 该设计针对非常快速的神经网络计算进行了优化。 Wave有一个编译器,可将数据流图转换为该结构的配置文件。

合并后的公司将创建一种芯片,该芯片由这种计算单元和多线程MIPS内核组成。 现在,Wave以盒子形式出售其技术,该盒子用于数据中心,用于在云中计算神经网络。 以下芯片将用于嵌入式设备。

神经网络传统上表示为数据流图。 这是一个图,其节点包含标量,向量和矩阵的常量,变量和算术运算:



Google已经创建了TensorFlow库,该库是用于构建此类图并在网格上运行计算的API-包括常规推断和使用反向传播的训练。 该API最常与python一起使用,其代码如下所示:



同时,以上示例中的python使用了算术运算的重新定义,该运算实际上并不计算,而是在内存中构建图形。 在C语言中,用于在TensorFlow中构建图形的代码如下所示:



在Google中,我有一位乌克兰程序员Mikhail Simbirsky,他在python上使用TensorFlow。 例如,使用Google的神经网络来分析用户行为,以便通过广告定位用户。 尽管Google使用NVidia GPU和其自己的Google加速器,但一些用于训练Google神经网络的计算却需要几天甚至几周的时间。 这不是一件容易的事,因为在处理器和GPU之间传输数据非常耗时:



处理器和GPU的设计问题之一是GPU长时间处于空闲状态:



另一个问题是接口的内存带宽不足。 Wave与MIPS结合将解决一个和另一个问题。 在新产品中,处理器不会将加速器用作协处理器,但它们会协同工作。

为此,将修改MIPS内核,以最终创建用于AI的标准硬件平台。 MIPS I6400 / I6500(Samurai / Daimio)和MIPS I7200(由MediaTek许可)内核的优势是多线程。 ARM没有多线程。 这是MIPS I6400内核上的多线程管道的外观:



现在的问题是最精明的评论员:对于CPU和硬件加速器的组合,多线程的优势是什么? 特别是Wave的加速器,它是所谓的CGRA-粗粒度可重配置阵列-粗粒度可重配置阵列的变体。

如果您熟悉FPGA(现场可编程门阵列)/ FPGA(可编程逻辑集成电路),则CGRA的概念有些相似,但它们不适用于单个位,而是适用于每个单元中的8-64位整个总线有ALU,还有几个单元-一个算术协处理器。 这是整个层次结构的样子:



这是一个可重新配置的单元。 她有一个小的缓冲区,其指令类似于8位电池微控制器的简单命令,例如最早出现在Apple计算机中的6502。 同时,古老的Apple处理器的工作频率为几兆赫兹,而CGRA中的单元的工作频率为几千兆赫兹。 此外,Apple中只有一个处理器,但是有1.6万个这样的单元:



Wave上的晶体显然很大,因此对于每组电池,您必须使用带有时钟信号的本地同步电路。 但是最大的问题不是硬件,而是软件。 计算网格的图形必须散布在这一系列设备上,并且要确切地知道将在哪个周期内进行计算。 这称为静态调度。 因此,Wave聘请了许多编译器,其中包括著名的野牛-Stephen Johnson,他与Kernigan和Richie一起起源。 这是丹尼斯·里奇(Dennis Ritchie)关于史蒂芬·约翰逊(Stephen Johnson)的文章:
在1980年代,C迅速流行起来,并且几乎所有机器和操作系统都可以使用编译器。 尤其是,它已成为个人计算机的编程语言,对于这些计算机的商业软件开发人员和热衷于编程的普通用户而言,它都是流行的。 在本世纪初,几乎每个编译器都基于Johnson的pcc。 到1985年,已经有许多由独立开发人员创建的编译器。
当我18岁(1988年)并且是MIPT的学生时,斯蒂芬·约翰逊是我的上帝。 我参与了基于可移植C编译器的两个编译器的开发。 一个编译器是用于电子SS LSI,红十字会的,相当于苏联的Cray-1矢量超级计算机。 第二个编译器是针对Orbit 20-700的,这是一台内置于苏联MiG-29战斗机和1980年代早期其他机型的内置计算机。

所以我只需要和斯蒂芬·约翰逊合影。 他告诉了我他为Unix以及设计自动化,自动概要分析等制作的其他工具。



当然,在所有这些业务中,Dado Banatao与一位投资者合影。 曾几何时,Dado Banatao创建了第一个涂鸦的芯片组。 他与鲍尔默一起调试了驱动程序。 “有时候比尔·盖茨走进房间,这打扰了我们,”达多·巴纳陶说。 现在,根据互联网,他有50亿美元。 他是最著名的高科技菲律宾人,在他的祖国创建了一个AI中心并开展其他教育计划。



Dado Banatao在Marvell赚了最多的钱。 这是傍晚的阳光下她在圣塔克拉拉的办公室:



Wave雇用了许多曾经在MIPS工作的人员。 由于MIPS在1990年代是Silicon Graphics的一部分,因此某些MIPS属于Silicon Graphics。 当时,MIPS处理器在好莱坞的制图站中,用于拍摄侏罗纪公园等第一部逼真的图形电影。 这些图形站与加利福尼亚山景城的计算机历史博物馆中的西伯利亚女孩Irina一起:



在今天的聚会结束时,为了纪念明天的正式宣布和昨天的新闻出版物,发生了吃蛋糕和喝香槟的活动:



明天将有很多工作-从Verilog RTL(我的直接职责)到讨论体系结构,应用程序,甚至与数据科学家交谈(他们觉得自己来自另一个宇宙,而且这与电子工程师和编译器是共同的)。

Source: https://habr.com/ru/post/zh-CN414163/


All Articles