GAN a appris à créer des visages avec une texture et une géométrie réalistes

Bonjour, Habr! Je vous présente la traduction de l'article «Synthèse de surface et de texture du visage via GAN» .

Lorsque les chercheurs manquent de données réelles, ils ont souvent recours à l'augmentation des données, comme moyen d'élargir l'ensemble de données existant. L'idée est de modifier l'ensemble de données d'apprentissage existant de manière à laisser intactes les propriétés sémantiques. Pas une tâche si banale en ce qui concerne les visages humains.

La méthode de génération de visage devrait prendre en compte des transformations de données complexes telles que

  • poser
  • Ă©clairage
  • dĂ©formations non rigides

tout en créant des images réalistes qui sont cohérentes avec les statistiques de données réelles.

Considérez comment des méthodes de pointe tentent de résoudre ce problème.

Approches modernes pour faire face à la génération


Les réseaux de neurones accusatoires génératifs (GAN) se sont révélés plus efficaces pour donner plus de réalisme aux données synthétiques. En acceptant les données synthétisées en entrée, le GAN produit des échantillons qui ressemblent davantage à des données réelles . Cependant, les propriétés sémantiques peuvent être modifiées et même la fonction de perte, punissant les changements de paramètres, ne résout pas le problème à la fin.

Le modèle 3D Morphable (3DMM) est la méthode la plus courante pour représenter et synthétiser la géométrie et les textures et a été initialement introduit dans le contexte de la génération de visages humains en trois dimensions. Selon ce modèle, la structure géométrique et les textures d'un visage humain peuvent être approximées linéairement comme une combinaison de vecteurs racines.

Récemment, le modèle 3DMM a été combiné avec des réseaux de neurones convolutifs pour augmenter les données. Cependant, les échantillons résultants sont trop lisses et irréalistes, comme le montre l'image ci-dessous:

Personnes obtenues Ă  l'aide de 3DMM
Personnes obtenues Ă  l'aide de 3DMM


De plus, les 3DMM génèrent des données basées sur une distribution gaussienne, qui reflète rarement la distribution réelle des données. Par exemple, voici deux coefficients PCA (analyse en composantes principales) construits sur des visages réels et synthétisés à l'aide de 3DMM. La différence entre la distribution synthétique et la distribution réelle peut facilement conduire à la génération de données incorrectes.
Les deux premiers coefficients PCA pour les individus réels (à gauche) et générés par 3DMM (à droite)
Les deux premiers coefficients PCA pour les individus réels (à gauche) et générés par 3DMM (à droite)



Idée de pointe


Slossberg, Shamai et Kimmel du Technion Israel Institute of Technology proposent une nouvelle approche de la synthèse de visages humains réalistes en utilisant une combinaison de 3DMM et GAN.

En particulier, les chercheurs utilisent le GAN pour simuler l'espace des textures humaines paramétrées et créer les géométries de faces correspondantes, en calculant les meilleurs coefficients 3DMM pour chaque texture. Les textures générées sont mappées à la géométrie appropriée pour produire de nouvelles faces 3D haute résolution.

Une telle architecture génère des images réalistes, tout en:

  • Ne souffre pas du contrĂ´le d'attributs tels que la pose et l'Ă©clairage
  • quantitativement non limitĂ© dans la gĂ©nĂ©ration de nouveaux visages.

Examinons de plus près le processus de génération de données.

Processus de génération de données


Pipeline de préparation des données
Préparation des données


Le pipeline de génération de données comprend quatre étapes principales:

  • Collecte de donnĂ©es : les chercheurs ont collectĂ© plus de 5 000 scans (scans de visage) de diffĂ©rents groupes ethniques, de sexe et d'âge. Chaque participant devait reprĂ©senter 5 expressions faciales diffĂ©rentes, y compris neutre.
  • Marquage : 43 points clĂ©s ont Ă©tĂ© ajoutĂ©s au mashi semi-automatiquement, en rendant le visage et en utilisant le dĂ©tecteur de marquage de visage prĂ©-formĂ©
  • Alignement des mailles : mis en Ĺ“uvre en raison de la dĂ©formation du modèle de maillage du visage en fonction de la gĂ©omĂ©trie de chaque scan, en se concentrant sur le balisage apposĂ©.
  • Transfert de texture : la texture est transfĂ©rĂ©e de la numĂ©risation vers le modèle Ă  l'aide de la technique de lancer de rayons intĂ©grĂ©e Ă  la boĂ®te Ă  outils Blender. Après cela, la texture est convertie du modèle en une bande bidimensionnelle Ă  l'aide d'une transformation universelle prĂ©dĂ©finie


Textures du visage Ă  doublure plate
Textures du visage Ă  doublure plate


L'étape suivante consiste à enseigner au GAN comment créer des simulations de textures alignées. Pour cette tâche, les chercheurs ont utilisé un GAN progressif avec un générateur et un discriminateur organisés en réseau neuronal symétrique. Dans une telle implémentation, le générateur augmente progressivement la taille de la carte de caractéristiques jusqu'à ce qu'elle atteigne la taille de l'image de sortie, tandis que le discriminateur réduit progressivement la taille à une seule sortie.

Textures faciales synthétisées par GAN
Textures de visage GAN


La dernière étape consiste à créer une géométrie de face. Les chercheurs ont essayé différentes approches pour trouver les coefficients de géométrie corrects pour la texture. Comparaison qualitative et quantitative des différentes méthodes ci-dessous (erreur géométrique L2):

Deux textures synthétisées mappées sur des géométries différentes
Deux textures synthétisées superposées à différentes géométries.


De façon inattendue, la méthode des moindres carrés donne les meilleurs résultats. Compte tenu de la simplicité de la méthode, elle a été choisie pour toutes les expériences.

Résultats


La méthode proposée peut générer de nombreux nouveaux visages, et chacun d'eux peut être représenté dans différentes poses, avec des expressions et des éclairages différents. Diverses expressions faciales sont ajoutées à la géométrie neutre à l'aide du modèle de forme de mélange. Les images résultantes sont présentées ci-dessous:

image

image

Identités générées par la méthode proposée avec différentes poses et éclairages

Pour les évaluations quantitatives, les chercheurs ont utilisé la métrique tronquée de Wasserstein (SWD) pour mesurer la distance entre les distributions de la formation et les images générées.



Le tableau montre que les textures résultantes sont statistiquement plus proches des données réelles que celles obtenues avec 3DMM.

L'expérience suivante évalue la capacité de synthétiser des images, qui sont significativement différentes de l'ensemble de données d'apprentissage, et d'obtenir des images jamais vues auparavant. Ainsi, 5% des individus n'ont pas été inclus dans l'évaluation. Les chercheurs ont mesuré L2 la distance entre chaque personne réelle des données de formation et la plus similaire des données générées, et de même - pour la vraie personne de l'ensemble de données de formation.

La distance entre les identités générées et réelles
Distance entre les visages synthétisés et réels


Comme le montrent les graphiques, les données de test sont plus proches des images générées que des images d'apprentissage. De plus, la distance «Test to fake» n'est pas trop différente de «Fake to real». Il s'ensuit que les échantillons obtenus ne sont pas seulement des visages synthétisés similaires à un ensemble d'apprentissage, mais des visages complètement nouveaux.

Enfin, pour vérifier la possibilité de générer l'ensemble de données initial, une évaluation qualitative a été réalisée: les textures faciales obtenues par ce modèle ont été comparées à leur voisine la plus proche dans la métrique L2.

Textures faciales synthétisées (en haut) vs. voisins réels les plus proches correspondants (en bas)
Textures synthétisées (ci-dessus) par rapport aux vrais "voisins" les plus proches (ci-dessous)


Comme vous pouvez le voir, la texture réelle la plus proche est assez différente de l'original, ce qui nous permet de conclure sur la possibilité de générer de nouveaux visages.

Résumé


Le modèle proposé est probablement le premier qui est capable de synthétiser de manière réaliste à la fois la texture et la géométrie des visages humains. Cela peut être utile pour détecter et reconnaître des visages ou des modèles de reconstruction de visage. De plus, il peut être utilisé dans les cas où de nombreux visages réalistes différents sont requis, par exemple dans l'industrie cinématographique ou les jeux informatiques. De plus, cette structure n'est pas limitée à la synthèse de visages humains, mais peut en fait être utilisée pour d'autres classes d'objets où l'augmentation des données est possible.

L'original

Traduit - Stanislav Litvinov.

Source: https://habr.com/ru/post/fr422723/


All Articles