Algunos resultados de aplicar el VRN - Método guiado en imágenes del conjunto AFLW2000-3DHay una serie de nuevas empresas en Internet, incluidas las rusas, que se dedican a restaurar la estructura 3D de la cara a partir de fotografías. Por ejemplo,
VisionLabs con su aplicación Face.DJ puede realizar la reconstrucción en 3D a partir de una sola fotografía. Tal transformación (modelado 3D por foto) tiene sentido práctico. Después de crear el modelo, es posible, por ejemplo, cambiar el peinado, probarse anteojos, dejarse crecer la barba, etc. La tecnología puede usarse en sistemas de verificación y reconocimiento facial.
Pero ahora el negocio de estas nuevas empresas está en peligro: su trabajo se lleva a cabo fácilmente por la nueva red neuronal VRN (Red de Regresión Volumétrica), que se ha
publicado públicamente en GitHub . Puede cargar su propia foto o cualquier otra directamente en el sitio, y la red neuronal se convertirá en línea en unos segundos (
demostración ).
La reconstrucción 3D a partir de la fotografía 2D se considera uno de los problemas fundamentales de la visión artificial debido a su extrema complejidad. La mayoría de los sistemas actuales requieren múltiples fotografías de la misma persona desde diferentes ángulos para funcionar. Según los autores de un nuevo artículo científico, los modelos existentes en su conjunto utilizan una tubería de procesamiento de datos compleja e ineficiente para construir un modelo y ajustar el resultado. Al final resultó que, la red neuronal convolucional hace el trabajo mucho más fácil y más eficiente que los modelos y algoritmos desarrollados por humanos.
Las ilustraciones muestran que la red neuronal VRN hace frente al procesamiento de diversas expresiones faciales en un ángulo arbitrario con respecto a la lente de la cámara, y funciona en una sola fotografía. Los objetos extraños contra el fondo de la cara (anteojos, piruleta) no la molestan.
Los autores de este desarrollo, liderados por Aaron Jackson (Aaron Jackson) de la Universidad de Nottingham (Reino Unido), han adoptado un enfoque muy simple para la voxelización de imágenes. Carece de muchas de las deficiencias inherentes a otros métodos de reconstrucción 3D (incluido
el Modelo Morphable 3D - 3DMM ). En general, la esencia del nuevo método VRN se representa en la siguiente ilustración.
(a) La Red de Regresión Volumétrica (VRN) propuesta acepta una imagen RGB como entrada y devuelve directamente la salida volumétrica 3D, omitiendo completamente el ajuste 3DMM. Cada rectángulo es un módulo residual de 256 atributos. (b) La arquitectura guiada VRN propuesta primero define una proyección 2D a partir de puntos de referencia 3D y la compara con la imagen original. Esta pila se envía a la red de reconstrucción, que devuelve directamente el volumen. (c) La arquitectura VRN propuesta: la multitarea devuelve una imagen voluminosa 3D de una cara y un conjunto de puntos de referencia 3D dispersos.Los autores del estudio demostraron que la red neuronal convolucional (CNN) es capaz de generar con éxito modelos 3D a partir de fotos después del entrenamiento en un conjunto de datos que contiene fotos y sus modelos 3D correspondientes. En este caso, el entrenamiento se llevó a cabo en 60,000 fotografías bidimensionales de individuos de la base de 300W y sus correspondientes cuadrículas 3D obtenidas usando 3DMM.
Al final resultó que, para producir un resultado satisfactorio, la red neuronal no necesita usar el modelo 3DMM y realiza con éxito la conversión directa de 2D a 3D.
La competencia del modelo se demuestra en una gran cantidad de fotos arbitrarias que los usuarios cargan a través de Internet (
demo ). Aparentemente, el método VRN es superior a cualquier otro sistema de reconstrucción 3D en una sola fotografía. Hasta la fecha, la demostración ya ha procesado más de 400,000 fotos arbitrarias de Internet.
Una red neuronal también se puede ejecutar localmente en su propia computadora. El código del programa se
publica en GitHub . Para trabajar, necesita el
marco de cómputo científico
Torch7 instalado, el procesador gráfico Nvidia más o menos productivo con soporte CUDA. El programa fue probado en el sistema operativo Linux y el autor no tiene idea de cómo funciona en Windows. También necesitará MATLAB, bash, ImageMagick, GNU awk, Python 2.7 (+ visvis, imageio, numpy).
El 22 de marzo de 2017 se
publicó un artículo científico que describe la red neuronal (arXiv: 1703.07834,
pdf ).