Qu'est-ce que l'IA perce lors de la génération de visages humains

En 2014, le chercheur en apprentissage automatique Jan Goodfellow a proposé l'idée de réseaux de conflits génératifs ou GAN. La «générativité» consiste dans le fait que le résultat de leur travail est des images, et non une évaluation des intrants (comme «hot dog ou pas»), et la «compétitivité» - que deux réseaux de neurones jouent au chat et à la souris comme des fédéraux avec des contrefacteurs : un réseau de neurones essaie de tromper l'autre en créant des images réalistes, et le second essaie de distinguer les faux.

Les premières images du GAN étaient faciles à identifier. Regardez ces visages de 2014 .


«Apprentissage sans enseignant de la représentation avec les réseaux compétitifs générateurs de convolution profonde» (2014), Radford et al. Aussi connu sous le nom de DCGAN

Mais les derniers visages générés à partir d'octobre 2017 sont déjà plus difficiles à identifier.


«Croissance progressive du GAN pour améliorer la qualité, la stabilité et la diversité» (2017), Karras et al. Aussi appelé PGAN ou ProGAN

Voici quelques-unes des caractéristiques des images générées par le GAN. Nous nous concentrons sur les visages car ils sont un terrain d'essai commun pour les chercheurs, et bon nombre des artefacts les plus visibles apparaissent dans d'autres types d'images.

Les cheveux raides ressemblent à de la peinture




Les cheveux longs ont souvent l'air hypertrophiés avec des mèches droites, comme si quelqu'un enduisait un tas d'acrylique avec un couteau à palette ou une énorme brosse.

Le texte n'est pas déchiffrable




Si le GAN s'est entraîné sur les visages, il lui est difficile de trouver des objets structurés rares en arrière-plan. De plus, les GAN sont formés sur les versions standard et miroir des images, ce qui entraîne des problèmes lors de la modélisation du texte, qui est généralement affiché dans une seule orientation.

Fond surréaliste




L'une des raisons pour lesquelles les visages générés semblent crédibles est que toutes les images d'entraînement étaient centrées. Cela réduit la variation dans la génération, par exemple, des yeux et des oreilles. En revanche, l'arrière-plan peut contenir n'importe quoi. Il est trop difficile à modéliser, de sorte que le réseau de neurones reproduit finalement les textures de fond générales, plutôt que les scènes de fond «réelles».

Asymétrie




Un GAN peut avoir des difficultés à gérer des dépendances éloignées. Par exemple, les accessoires jumelés, tels que les boucles d'oreilles, correspondent généralement dans l'ensemble de données, mais pas dans les images créées. Les yeux sur ces photographies regardent généralement dans la même direction et généralement la même couleur, et les visages générés souffrent souvent de strabisme et d'hétérochromie. L'asymétrie apparaît souvent sur les oreilles de différentes hauteurs ou tailles.

Dents étranges




Les GAN peuvent constituer une scène commune, mais éprouvent actuellement des difficultés avec des détails répétitifs semi-réguliers tels que les dents. Parfois, le GAN donne des dents tordues, étire ou serre les dents individuelles de manière étrange. Historiquement, ce problème s'est manifesté dans d'autres domaines, tels que la synthèse de textures avec des images telles que des briques.

Cheveux chaotiques




C'est l'un des moyens les plus rapides de reconnaître une fausse image. En règle générale, le GAN recueille les cheveux en morceaux, crée des faisceaux aléatoires autour des épaules et jette un shag épais sur le front. Les coiffures réelles sont très variées et détaillées, ce qui en fait l'un des objets les plus difficiles pour une génération GAN réaliste. Les objets étrangers peuvent parfois se transformer en textures velues.

Plancher incompréhensible




Ce GAN a été formé sur la suite CelebA avec 200 000 images de 10 000 célébrités. Dans cet ensemble, je n'ai rencontré personne avec des poils du visage, des boucles d'oreilles et du maquillage en même temps; mais le GAN mélange régulièrement les attributs typiques des différents sexes. En général, je pense que cela est dû au fait que le GAN n'a pas toujours une idée des catégories binaires opposées qui sont acceptées dans la société humaine (dans ce cas, «l'homme contre la femme»).

Bruit semi-régulier




Au lieu d'un fond monochrome, certaines zones peuvent recevoir un bruit semi-régulier avec des rayures horizontales ou verticales. Dans les cas ci-dessus, le réseau essaie probablement d'imiter la texture du tissu. Les GAN plus anciens génèrent un bruit beaucoup plus perceptible, qui est généralement décrit comme des artefacts d'échecs .

Rainbow flare




Certaines zones avec un remplissage solide clair reçoivent une fusée multicolore: ce sont les cols, les cous et les yeux blancs (non représentés ici).

Exemples d'images réelles




Faites attention à un arrière-plan clair, du texte, des boucles d'oreilles jumelées, des dents de même taille, des coiffures détaillées. Connaissant toutes les astuces GAN, essayez de jouer au jeu et vérifiez comment vous distinguez les vrais visages des faux. Remarque: certains ont des problèmes avec le bouton Démarrer .

Source: https://habr.com/ru/post/fr432580/


All Articles