Quelques résultats de l'application de la méthode VRN - Guided sur des images de l'ensemble AFLW2000-3DIl existe un certain nombre de startups sur Internet, dont des russes, qui sont engagées dans la restauration de la structure 3D du visage à partir de photographies. Par exemple,
VisionLabs avec son application Face.DJ peut effectuer une reconstruction 3D à partir d'une seule photographie. Une telle transformation (modélisation 3D par photo) a un sens pratique. Après avoir créé le modèle, il devient possible, par exemple, de changer la coiffure, d'essayer des lunettes, de faire pousser une barbe, etc. La technologie peut être utilisée dans les systèmes de vérification et de reconnaissance faciale.
Mais maintenant, l'entreprise de telles startups est en danger: leur travail est facilement effectué par le nouveau réseau neuronal VRN (Volumetric Regression Network), qui est
publié publiquement sur GitHub . Vous pouvez télécharger votre propre photo ou toute autre photo directement sur le site - et le réseau de neurones se convertira en ligne en quelques secondes (
démo ).
La reconstruction 3D à partir de la photographie 2D est considérée comme l'un des problèmes fondamentaux de la vision industrielle en raison de son extrême complexité. La plupart des systèmes actuels nécessitent plusieurs photographies de la même personne sous différents angles pour fonctionner. Selon les auteurs d'un nouvel article scientifique, les modèles existants dans leur ensemble utilisent un pipeline de traitement de données complexe et inefficace pour construire un modèle et ajuster le résultat. Il s'est avéré que le réseau neuronal convolutionnel fait le travail beaucoup plus facilement et plus efficacement que les modèles et algorithmes développés par l'homme.
Les illustrations montrent que le réseau neuronal VRN gère le traitement de diverses expressions faciales à un angle arbitraire par rapport à l'objectif de la caméra - et fonctionne sur une seule photographie. Les objets étrangers sur le fond du visage (lunettes, sucette) ne la dérangent pas.
Les auteurs de ce développement, dirigés par Aaron Jackson (Aaron Jackson) de l'Université de Nottingham (Royaume-Uni) ont adopté une approche très simple de la voxélisation des images. Il est dépourvu de nombreuses lacunes inhérentes à d'autres méthodes de reconstruction 3D (y compris
le modèle 3D Morphable - 3DMM ). En général, l'essence de la nouvelle méthode VRN est représentée dans l'illustration ci-dessous.
(a) Le réseau de régression volumétrique (VRN) proposé accepte une image RVB en entrée et renvoie directement une sortie volumétrique 3D, ignorant complètement l'ajustement 3DMM. Chaque rectangle est un module résiduel de 256 attributs. (b) L'architecture VRN-Guided proposée définit d'abord une projection 2D à partir de points de repère 3D et la fait correspondre avec l'image originale. Cette pile est envoyée au réseau de reconstruction, qui renvoie directement le volume. (c) L'architecture VRN proposée - Multitâche renvoie à la fois une image volumineuse 3D d'un visage et un ensemble de repères 3D clairsemés.Les auteurs de l'étude ont prouvé que le réseau neuronal convolutif (CNN) est capable de générer avec succès des modèles 3D à partir de photos après une formation sur un ensemble de données contenant des photos et leurs modèles 3D correspondants. Dans ce cas, une formation a été effectuée sur 60 000 photographies bidimensionnelles d'individus de la base 300W et leurs grilles 3D correspondantes obtenues à l'aide de 3DMM.
Il s'est avéré que pour produire un résultat satisfaisant, le réseau neuronal n'a pas besoin d'utiliser le modèle 3DMM et effectue avec succès la conversion directe de 2D en 3D.
La capacité du modèle est prouvée sur un grand nombre de photos arbitraires que les utilisateurs téléchargent via Internet (
démo ). Apparemment, la méthode VRN est supérieure à tout autre système de reconstruction 3D sur une seule photo. À ce jour, la démo a déjà traité plus de 400 000 photos arbitraires sur Internet.
Un réseau de neurones peut également être exécuté localement sur votre propre ordinateur. Le code du programme est
publié sur GitHub . Pour fonctionner, vous avez besoin du
cadre informatique scientifique
Torch7 installé, du processeur graphique Nvidia plus ou moins productif avec prise en charge CUDA. Le programme a été testé sous le système d'exploitation Linux et l'auteur n'a aucune idée de son fonctionnement sous Windows. Vous aurez également besoin de MATLAB, bash, ImageMagick, GNU awk, Python 2.7 (+ visvis, imageio, numpy).
Un article scientifique décrivant le réseau neuronal a été
publié le 22 mars 2017 (arXiv: 1703.07834,
pdf ).