Google Coral Edge TPU的内在功能:测试速度和解析设备



在2019年,谷歌终于发布了可以购买的Coral品牌的TPU设备。 但是,没有那么强大的培训用云网络,例如BigGAN的100 petaflop / s,甚至还没有最便宜的180 TFlop / s v2 TPU,每小时租金为4.5美元。 这些TPU设备应“在边缘”工作,也就是说,可以为无需访问Internet的小型设备实现深度学习解决方案。 我们可以购买的那些TPU有多好?

当前产品的规格中其速度表示为4个TOP(每秒操作数)。 这些不是支持32位浮点运算的标准设备,因为在这些设备上运行的tensorflow-lite使用8位定点算法。 同样,您不会在它们中找到像云TPU或GPU那样的内存带宽。 Edge TPU通过USB 3.0或第二代mPCIe总线连接到设备,因此速度将限制为500-640 MB / s。 当然,由于此类设备上只有8 MB的SRAM ,因此与设备之间进行数据传输所需的时间不会超过16毫秒,而我们编写本文所测试的模型仅花费了10毫秒。 您不会因为内存不足而受苦,因为这些设备并非旨在从头开始学习。 但是,您可以在此设备上训练模型的最后一层。 使用边缘TPU的要点是建立逻辑结论,这就是我将如何检查此设备的速度。

最封闭的设备(如Coral Edge TPU)于2019年3月发布,正是我设法玩弄了它。 这是Coral原型之一,尽管根据文档,它的性能与发布的带有mPCIe的主板完全相同。 USB 3.0没问题,但是如果您不想与外部加密狗弄乱,可以将M.2 Accelerator A + E卡而不是WiFi卡放在插槽中:


左:笔记本电脑中的wifi卡。 右:插入同一插槽的M.2 A + E加速器。

尺寸为30毫米x 65毫米,成本为75美元的边缘TPU加速器内部是什么? 能否有一个价格为35美元的30 mm x 22 mm mPCIe加速器,带有USB适配器和散热器? 我们可以轻轻地打开一盒塑料和金属吗?


前后边缘TPU

得益于非常坚固的散热器,塑料盒可以毫无问题地打开。 拧下4个螺钉即可卸下散热器本身。


卸下塑料盖的设备背面(带或不带散热器)以及散热器本身

上面问题的答案:不,不是字面上的意思,但是董事会非常相似:


Coral Edge TPU的工作面。 右侧是M2 A + E加速器和一个1美分硬币上的单独TPU芯片

散热器芯片可能是TPU(更大)和内存。 将Edge TPU收集回去后,我进行了自己的速度测试,尽管Google的测试表明其性能比CPU快10甚至20倍。

来自Coral站点的用于对象识别的示例可以在CPU和TPU上运行。 我将此设备连接到具有Galium OS 2.1的 Acer Chromebook 11上,它与Debian足够相似,以便安装tf-lite和用于TPU的程序,而不会出现任何问题。 用于对象识别的MobileNetV2 SSDLite模型占用的内存不到7 MB,可处理300x300图像。 在TPU上,一幅图像将在20毫秒内处理(+10毫秒用于一次图像复制)。 在2014年使用Intel Celeron 2.16GHz CPU的笔记本电脑上,图像处理时间为1500毫秒。 在另一台PC上,使用Intel Xeon处理器2.5 GHz CPU(根据cpubenchmark.net,它的速度是我的15倍),图像处理时间为130毫秒(消耗210 W!)。 根据cpubenchmark.net的数据,可用的最快CPU速度将比此速度快3倍:并且它仍将比边缘TPU慢,而且边缘TPU更便宜,消耗更少!

一个更有趣的项目是识别笔记本电脑摄像头视频流中的对象。 在赛扬处理器上, 所选示例每秒处理少于一帧。 在TPU上,它每秒处理20帧-即实时工作。 与TPU进行通信的时间只有四分之一,其余时间用于调整图片大小并显示CPU处理的最终数据。 尽管我安装了TPU程序以使其在最大频率下运行,但我并没有接近其极限,因此TPU散热器没有预热到任何不舒适的温度。

给出的示例很容易更改和调整。 要开始使用该设备,您只需通过apt-get安装TPU工作环境,然后通过pip安装tf-lite-您就可以使用示例了。 这些示例中的模型已经过预编译。 为了进行更合理的速度测试,您需要从头开始训练模型,在GPU和CPU上运行它,将其转换为tf-lite,然后在CPU和TPU上运行。

总的来说,我对此设备感到满意。 令我惊讶的是,能够识别300x300图像中的对象的网络可以在2014年的上网本上实时运行,而升级仅需花费75美元(如果使用M.2板,则只需花费35美元)。 当然,区域TPU不会取代GPU进行训练甚至评估模型。 但是,我看到了板上的巨大潜力,其中一个TOP的成本为10美元,功耗为0.5瓦。 它比使用GPU便宜至少10倍! 而且耗能少得多。 这是在现场演示工作的绝佳选择。 如果产品网站上的标签上标明了您感兴趣的任务,那么当优先考虑低功耗和小系统尺寸时,该芯片将非常有用。

Source: https://habr.com/ru/post/zh-CN482788/


All Articles