神经网络预测摄影的未来1秒


针对视频处理进行了优化的生成式对抗神经网络能够显示下一秒内将发生的事情,

预测不久的将来的能力对于任何人来说都是一项重要技能。人类反应的速度不足以实时对周围事件做出反应,因此我们以恒定模式预测它们的可能性接近100%。运动员知道球会飞到哪里。商人知道对话者何时伸出手来握手。我们预测道路上汽车的行驶轨迹以及人们对面部表情和手中物体的后续动作。

人工智能还需要了解未来。他必须了解什么事件会导致什么结果,以避免明显的疏忽并计划他的行动。一群来自麻省理工学院计算机科学与人工智能实验室(CSAIL)教授神经网络通过在数百万个视频中进行训练来预测未来

在单个静态框架(照片)中训练有素的神经网络正在尝试预测未来事件。该程序受64×64像素的帧大小和32帧的预测持续时间(即大约一秒钟)的限制。

了解未来可以更好地了解当前。这是现实世界中任何运转的机器人都应具备的基本能力。用叉子和刀子观察一个人站在一盘食物前,应该清楚地预测这个人很快就会开始进食。没有这样的理解,机器人将无法有效发挥作用-您不希望机器人坐在椅子上时将椅子拿起并向侧面移动吗?不,他必须立即了解会发生什么,并且不要碰任何东西。反之亦然,迅速将椅子精确地移动到人坐在的地方。

目前,即使是最先进的AI系统也缺乏预测不久的将来的基本能力。因此,这项研究是如此重要。纽约大学和Facebook的研究小组也进行了类似的工作,但是他们的神经网络仅产生了未来的一些帧,或者显示它太模糊了。

由CSAIL开发的程序可以非常准确地预测最平庸和明显的事件。例如,她从平台上火车的照片中预测火车的运动。

从照片预测事件的示例。人,动物,自然现象,运输的运动样本

在科学研究中,开发人员解决了一个基本问题,即研究框架中事件如何随时间变化的场景。显然,这样的任务对于正式注释非常困难。因此,直接在完成的材料上训练了神经网络-在数百万个没有语义注释的视频上。这种方法具有某些优势,因为AI可以离线学习,只需观察周围发生的事情并在Internet上处理大量视频材料即可。

然后,训练有素的神经网络的任务是在单个静态框架中生成小视频。为了获得现实的结果,研究的作者使用了生成对抗网络(GAN)。一个神经网络生成视频,第二个鉴别器网络学习区分假视频与真实视频并阻止假视频。如鉴别者所学,网络生成器必须生成越来越逼真的视频才能通过测试。


生成模型使用两个分别模拟前景和背景的流将它们彼此分离,并清楚地区分对象的运动。



随着时间的流逝,这样的程序将能够更有效地帮助处于不同情况下的人。例如,机器人可以预测人何时会跌倒-并防止其跌落。汽车中的数字助理将学会通过手和眼睛的移动来预测驾驶员的动作,从而避免发生事故。

训练了神经网络的所有视频以及程序的源代码均已在公共领域发布。生成的对抗神经网络代码在GitHub上。使用训练数据(大约10.5 TB的视频资料),您可以自己重复实验。另外,也可以下载经过培训的模型(档案中有1 GB)。

培训视频取自Flickr照片和视频托管,并已获得免费许可。这些都是主题场景:海滩赛事,高尔夫比赛,火车站和医院的婴儿。



200万个视频只是两年的视频素材。 《科学》的作者之一卡尔·冯德里克(Carl Vondrick)承认: “与通过10岁儿童的大脑传递的视频信息量或在地球生命发展的进化过程中处理的信息量相比,这是非常小的。” 工作。

但这仅仅是开始,AI迈出了第一步,但是您需要从某个地方开始。将来,神经网络将在视频的更长片段上进行训练。作者希望,鉴于物理定律和物体特性的局限性,人工智能将逐渐开始限制未来可能的选择。实验表明,神经网络能够吸收它们。该程序将逐步学习预测更遥远的未来,而不仅仅是1秒。可能还会有其他模块连接到该模块,例如个性识别,唇读,预测某人脸上的犯罪等等。发表

科学文章在麻省理工学院的网站上。这项研究得以继续进行,这要归功于美国国家科学基金会的资助以及Google对研究小组三分之二成员的资助。该报告是为第29届神经信息处理系统会议(NIPS 2016)编写的,该会议将于12月5日至10日在巴塞罗那举行。

Source: https://habr.com/ru/post/zh-CN399667/


All Articles