Einige Ergebnisse der Anwendung der VRN-Guided-Methode auf Bilder aus dem AFLW2000-3D-SetEs gibt eine Reihe von Startups im Internet, darunter auch russische, die sich mit der Wiederherstellung der 3D-Struktur des Gesichts anhand von Fotos befassen. Beispielsweise kann
VisionLabs mit seiner Face.DJ-Anwendung eine 3D-Rekonstruktion aus einem einzelnen Foto durchführen. Eine solche Transformation (3D-Modellierung durch Foto) ist praktisch sinnvoll. Nach dem Erstellen des Modells ist es beispielsweise möglich, die Frisur zu ändern, eine Brille anzuprobieren, einen Bart wachsen zu lassen usw. Die Technologie kann in Gesichtsüberprüfungs- und Erkennungssystemen verwendet werden.
Jetzt ist das Geschäft solcher Startups in Gefahr: Ihre Arbeit kann problemlos vom neuen neuronalen Netzwerk VRN (Volumetric Regression Network) ausgeführt werden, das
auf GitHub öffentlich zugänglich gemacht wurde . Sie können Ihr eigenes oder ein anderes Foto direkt auf die Website hochladen - und das neuronale Netzwerk wird in wenigen Sekunden online konvertiert (
Demo ).
Die 3D-Rekonstruktion aus der 2D-Fotografie wird aufgrund ihrer extremen Komplexität als eines der grundlegenden Probleme der Bildverarbeitung angesehen. Die meisten aktuellen Systeme erfordern mehrere Fotos derselben Person aus verschiedenen Blickwinkeln, um arbeiten zu können. Laut den Autoren eines neuen wissenschaftlichen Papiers verwenden bestehende Modelle als Ganzes eine komplexe und ineffiziente Datenverarbeitungspipeline, um ein Modell zu erstellen und das Ergebnis anzupassen. Wie sich herausstellte, erledigt das Faltungsnetzwerk die Arbeit viel einfacher und effizienter als von Menschen entwickelte Modelle und Algorithmen.
Die Abbildungen zeigen, dass das neuronale VRN-Netzwerk die Verarbeitung verschiedener Gesichtsausdrücke in einem beliebigen Winkel zum Kameraobjektiv bewältigt - und an einem einzelnen Foto arbeitet. Fremdkörper vor dem Hintergrund des Gesichts (Brille, Lutscher) stören sie nicht.
Die Autoren dieser Entwicklung, angeführt von Aaron Jackson (Aaron Jackson) von der University of Nottingham (UK), haben einen sehr einfachen Ansatz zur Voxelisierung von Bildern gewählt. Es weist viele der Mängel auf, die anderen Methoden der 3D-Rekonstruktion (einschließlich
3D Morphable Model - 3DMM )
inhärent sind . Im Allgemeinen ist die Essenz der neuen VRN-Methode in der folgenden Abbildung dargestellt.
(a) Das vorgeschlagene volumetrische Regressionsnetzwerk (VRN) akzeptiert ein RGB-Bild als Eingabe und gibt direkt die volumetrische 3D-Ausgabe zurück, wobei die 3DMM-Anpassung vollständig übersprungen wird. Jedes Rechteck ist ein Restmodul von 256 Attributen. (b) Die vorgeschlagene VRN-gesteuerte Architektur definiert zunächst eine 2D-Projektion von 3D-Orientierungspunkten und stimmt sie mit dem Originalbild ab. Dieser Stapel wird an das Rekonstruktionsnetzwerk gesendet, das das Volume direkt zurückgibt. (c) Die vorgeschlagene VRN-Architektur - Multitask gibt sowohl ein voluminöses 3D-Bild eines Gesichts als auch eine Reihe von spärlichen 3D-Orientierungspunkten zurück.Die Autoren der Studie haben bewiesen, dass das Convolutional Neural Network (CNN) nach dem Training an einem Datensatz, der Fotos und die entsprechenden 3D-Modelle enthält, erfolgreich 3D-Modelle aus Fotos generieren kann. In diesem Fall wurden 60.000 zweidimensionale Fotografien von Personen aus der 300-W-Basis und ihre entsprechenden 3D-Gitter, die mit 3DMM erhalten wurden, geschult.
Wie sich herausstellte, muss das neuronale Netzwerk das 3DMM-Modell nicht verwenden, um ein zufriedenstellendes Ergebnis zu erzielen, und führt erfolgreich eine direkte Konvertierung von 2D nach 3D durch.
Die Kompetenz des Modells wird anhand einer Vielzahl beliebiger Fotos nachgewiesen, die Benutzer über das Internet hochladen (
Demo ). Anscheinend ist die VRN-Methode jedem anderen 3D-Rekonstruktionssystem in einem einzelnen Foto überlegen. Bis heute hat die Demo bereits mehr als 400.000 beliebige Fotos aus dem Internet verarbeitet.
Ein neuronales Netzwerk kann auch lokal auf Ihrem eigenen Computer ausgeführt werden. Der Programmcode wird
auf GitHub veröffentlicht . Zum Arbeiten benötigen Sie das installierte wissenschaftliche Computer-
Framework Torch7 , den mehr oder weniger produktiven Nvidia-Grafikprozessor mit CUDA-Unterstützung. Das Programm wurde unter dem Linux-Betriebssystem getestet und der Autor hat keine Ahnung, wie es unter Windows funktioniert. Sie benötigen außerdem MATLAB, Bash, ImageMagick, GNU awk, Python 2.7 (+ visvis, imageio, numpy).
Ein wissenschaftlicher Artikel, der das neuronale Netzwerk beschreibt, wurde am 22. März 2017 veröffentlicht (arXiv: 1703.07834,
pdf ).