Nvidia教神经网络减慢视频播放速度

在我们的生活中,可能需要用慢动作将许多瞬间记录在相机上–儿童的第一步,第一次出海旅行,爱犬的trick俩。 新型的智能手机可以每秒240帧或更高的频率拍摄,但是在这种模式下您将无法持续录制-内存不足,电池很快就会耗尽。 英伟达创建的神经网络可以处理已经捕获的视频,将它们转换为慢动作。


Nvidia的研究人员创建了一个深度学习系统,可以将每秒30帧的视频处理为慢动作视频。 他们使用了PyTorch深度学习库和Nvidia Tesla V100 GPU。 该系统使用11,000个日常和体育活动视频进行了培训,以每秒240帧的频率拍摄。 因此,她开始预测中景。 为了测试该技术的准确性,研究人员使用了一个单独的视频数据库。

与正常的放慢情况相比,该技术可让您使视频更流畅,更模糊。 帧速率上升到每秒480。 为了演示结果,团队将The Slo Mo Guys视频博主拍摄的慢动作视频与以新方式放慢速度的相同视频进行了比较。

第一个神经网络评估视频流-场景中的运动,对象,表面和边缘的结构。 她沿着时间轴向前移动,并以相反的顺序输入两个输入帧。 然后,系统预测像素如何从一帧移动到下一帧,从而创建这些移动的2D向量。

然后,第二个神经网络开始工作,该神经网络预测可见性图-排除那些必须被对象遮挡才能去除伪像的像素。 并且系统借助所有接收到的数据使两个输出之间的新帧失真,以确保平稳过渡。

在视频中,您可以比较结果。 当然,人工制作的慢动作视频与最初以高帧频拍摄的原始视频之间也存在差异。 与Slo Mo Guys在54秒内跳入游泳池相比,这尤其值得注意。 但是,如果没有什么可比的,则很难将真实视频与“假”视频区分开。

团队尚不知道如何将其开发商品化。 他们认为,这仍然远非理想,需要大量资源,包括临时资源。 即使将这种技术实现为产品,它也可能不会在用户的设备上运行-计算将在云中进行。



4月,来自Nvidia的专家展示了另一种为图像添加新片段的技术-照片重建。 该方法允许您从图像中删除对象,然后系统将用真实的背景替换空片段,并在从照片中删除眼睛和脸部其他部分后再添加它们。

在准备训练神经网络时,研究人员从随机条纹和各种大小的孔中创建了5.5万多个面罩。 培训后,又使用了25,000个新口罩来验证结果的准确性。

在训练过程中,将遮罩叠加在图像上,以帮助神经网络学习如何重建丢失的像素。


Super SloMo的科学工作:视频插值的多个中间帧的高质量估计已发布在预印本网站arXiv.org上: arXiv:1712.00080

Source: https://habr.com/ru/post/zh-CN414953/


All Articles