神经网络使用照片执行3D面部重建


在AFLW2000-3D集中的图像上应用VRN指导方法的一些结果

互联网上有很多创业公司,包括俄罗斯的创业公司,都在从照片中恢复人脸的3D结构。 例如, VisionLabs及其Face.DJ应用程序可以从单张照片执行3D重建。 这种转换(通过照片进行3D建模)具有实际意义。 创建模型后,例如可以更改发型,试戴眼镜,留胡须等。该技术可用于面部验证和识别系统。

但是现在,这些初创企业的业务正处于危险之中:他们的工作很容易由新的神经网络VRN(体积回归网络)完成,该网络已在GitHub上公开发布 。 您可以将自己的照片或任何其他照片直接上传到站点-神经网络将在几秒钟内在线转换( 演示 )。

由于2D摄影的3D重建非常复杂,因此被认为是机器视觉的基本问题之一。 当前大多数系统需要从不同角度拍摄同一个人的多张照片才能工作。 一篇新的科学论文的作者认为,现有模型整体上使用复杂而效率低下的数据处理管道来构建模型并拟合结果。 事实证明,卷积神经网络比人类开发的模型和算法更容易,更有效地完成了这项工作。

这些插图显示,VRN神经网络可以处理相对于相机镜头任意角度的各种面部表情,并且可以处理一张照片。 脸部背景上的异物(眼镜,棒棒糖)不会打扰她。

由诺丁汉大学(英国)的亚伦·杰克逊(Aaron Jackson)领导的这项研究的作者采用了非常简单的方法来对图像进行体素化。 它没有其他3D重建方法(包括3D Morphable Model-3DMM )固有的许多缺点。 通常,下图说明了新VRN方法的本质。


(a)拟议的体积回归网络(VRN)接受RGB图像作为输入,并直接返回3D体积输出,完全跳过了3DMM拟合。 每个矩形是256个属性的剩余模数。 (b)拟议的VRN引导架构首先从3D地标定义2D投影,并将其与原始图像进行匹配。 该堆栈被发送到重建网络,该网络直接返回该卷。 (c)拟议的VRN架构-多任务返回人脸的3D大量图像和一组稀疏的3D地标。

该研究的作者证明,在对包含照片及其相应3D模型的数据集进行训练后,卷积神经网络(CNN)能够从照片成功生成3D模型。 在这种情况下,对来自300W基地的人员及其使用3DMM获得的相应3D网格的60,000张二维照片进行了训练。

事实证明,要产生令人满意的结果,神经网络不需要使用3DMM模型,而是可以成功地执行从2D到3D的直接转换。

用户通过互联网( demo )上传的大量任意照片证明了该模型的能力。 显然,在一张照片中,VRN方法优于任何其他3D重建系统。 迄今为止,该演示已经处理了来自互联网的40万张任意照片。

神经网络也可以在您自己的计算机上本地运行。 该程序代码在GitHub上发布 。 要工作,您需要安装的Torch7科学计算框架 ,或多或少具有CUDA支持功能的Nvidia图形处理器。 该程序已在Linux操作系统上进行了测试,并且作者不知道它在Windows下如何工作。 您还将需要MATLAB,bash,ImageMagick,GNU awk,Python 2.7(+ visvis,imageio,numpy)。

描述神经网络的科学文章于2017年3月22日发布(arXiv:1703.07834, pdf )。

Source: https://habr.com/ru/post/zh-CN406993/


All Articles