🐧 🏽 🔞 机器视觉神经网络在逼真的计算机游戏上受到训练。 🚧 🕴🏾 🏌️

电脑游戏《侠盗猎车手5》（Grand Theft Auto V）的镜头和用于机器视觉

神经网络教学的语义标记神经网络在几乎所有计算机视觉竞赛中都创造了新记录，并且也越来越多地用于其他AI应用程序中。如此令人难以置信的神经网络性能的关键组成部分之一是可用于培训和评估的大数据集。例如，Imagenet大规模视觉识别挑战（ILSVRC）具有超过一百万个图像，用于评估现代神经网络。但是从最新结果来看（ResNet仅显示错误的3.57％的结果），研究人员很快将不得不编译更广泛的数据集。然后-更加广泛。顺便说一句，为这些照片添加注释是很多工作，其中一部分必须手动完成。

一些计算机视觉系统开发人员提供了一种替代方法来训练和测试此类系统。他们使用人工计算机游戏中的合成帧来代替手动注释训练照片。

这是一种完全合乎逻辑的方法。在现代游戏中，图形达到了逼真的水平，以至于合成图像与真实世界的照片仅略有不同。同时，游戏引擎可以生成无限数量的此类帧-这立即显着解决了收集数百万张照片用于训练和评估神经网络的问题。

尽管游戏引擎使用有限数量的纹理，但是视角，照明，天气和细节级别的组合却很多种，从而提供了足够多的数据集。

今年，两组研究人员在实践中检查了是否有可能将计算机游戏中生成的帧用于训练计算机视觉神经网络。来自不列颠哥伦比亚大学（加拿大）计算机科学系的一组研究人员发表了一篇科学文章，为此他们从计算机游戏中收集了60,000帧具有类似于CamVid和Cityscapes 数据集的道路视图。研究人员设法证明，在合成图像上训练后的神经网络显示出与在真实照片中训练后相似的错误级别。此外，使用真实照片对合成图像进行训练会显示更好的结果。

所有60,000帧都是在虚拟的晴天（虚拟时间11:00）拍摄的，分辨率为1024×768和最大图形设置（出于版权考虑，游戏名称未公开）。一辆无人驾驶的汽车意外地沿着游戏街行驶，遵守道路规则。每秒拍摄一次。它们每个都伴随有自动语义分割（天空，行人，汽车，树木，背景-分割绝对准确并从游戏中获取），深层图像（深度图像，带有对象标记的地图）以及表面法线。

除了基本的VG数据集外，研究人员还制作了另一个VG +数据集，该数据集包含很多语义信息，不仅限于五个标签-此处的分割不准确。标记是使用SegNet自动执行的。

VG +集合中

带有紧密标记的帧为了比较神经网络训练的有效性，准备了带有扩展标记集的CamVid和Cityscapes数据集（五个标记）以及CamVid +和Cityscapes +。

带有注释的CamVid原始照片

两张Cityscapes +图像的随机图像，并带有详细的注释

为了进行语义分类，在Simonyan 和Sisserman的16层VGG网络的顶部使用了具有简单FCN8架构的Long卷积神经网络。。

研究人员进行了一些实验，以评估在不同数据集上训练的神经网络对物体的识别效率。在几乎所有情况下，使用合成数据训练的神经网络要比使用实际照片训练的神经网络表现出更好的结果。即使在检查真实照片时，她也显示出最佳结果。

例如，该表显示了当从CamVid +和Cityscapes +集合的真实照片中识别出对象时，在三个数据集（真实照片，游戏中的合成数据，混合集合）上训练的相同神经网络的性能。

如您所见，在训练神经网络时，最好用真实照片补充计算机游戏中的合成图像。

科学文章公布 2016年8月5日在arXiv.org，第二个版本日- 8月15（PDF）。

除了不列颠哥伦比亚大学的研究人员之外，来自达姆施塔特技术大学（德国）和英特尔实验室的另一组科学家几乎同时完成了同样的工作。他们从开放世界的计算机游戏《侠盗猎车手5》中提取了24,966帧进行训练。研究人员得出了相同的结果：使用由2/3合成图像和1/3 CamVid照片组成的训练数据集时，准确性识别率高于仅使用CamVid照片时。

使用常规方法学习和使用GTA V（底线）中的帧时，从CamVid集中识别照片中的各种对象的准确性

同时，在专门开发的编辑器中的半自动注释大大减少了准备用于训练神经网络的数据集所需的时间。例如，注释一张CamVid照片花费60分钟，一张Cityscapes照片花费90分钟，而半自动GTA V帧注释平均仅花费7秒（视频，编辑器演示）。

从达姆施塔特技术大学和英特尔实验室的研究人员的工作已在欧洲会议计算机视觉编制ECCV'16（10月11日至一十四日），并公布在学校网站上。作者提供了用于读取标签和完整数据集的源代码：源照片和带有语义标记的深度图像。注释编辑器的源代码可能会在将来发布。

得益于在创建逼真的计算机游戏方面的进步，人工智能系统的开发人员将拥有一个学习机器视觉系统的绝佳平台。这些系统将用于无人驾驶车辆和机器人。

也许计算机游戏不仅可以用于机器视觉，还可以用于在社会中创造自然的行为模式。仅通过AI培训，您才应该谨慎选择游戏。

机器视觉神经网络在逼真的计算机游戏上受到训练。

More articles: