L'éditeur graphique GANpaint dessine des objets et montre les capacités GAN


L'une des brosses supprime / ajoute des arbres, l'autre - des personnes, etc.

Les réseaux générateurs de conflits (GAN) créent des images incroyablement réalistes, souvent indiscernables des vraies. Depuis l'invention de ces réseaux en 2014, de nombreuses recherches ont été menées dans ce domaine et un certain nombre d'applications ont été créées, notamment pour la manipulation d'images et la prédiction vidéo . Plusieurs variantes du GAN ont été développées et des expériences sont en cours.

Malgré cet immense succès, de nombreuses questions demeurent. On ne sait pas exactement quelles sont les raisons des artefacts terriblement irréalistes, quelles connaissances minimales sont nécessaires pour générer des objets spécifiques, pourquoi une variante du GAN fonctionne-t-elle mieux qu'une autre, quelles différences fondamentales sont codées dans leurs échelles? Pour mieux comprendre le fonctionnement interne du GAN, des chercheurs du Massachusetts Institute of Technology, du MIT-IBM Watson AI et des divisions IBM Research ont développé le cadre GANDissection et le programme GANpaint , un éditeur graphique sur le réseau contradictoire.

Le travail est accompagné d'un article scientifique qui explique en détail la fonctionnalité du cadre et discute des questions auxquelles les chercheurs tentent de trouver des réponses. Ils tentent notamment d'étudier les représentations internes des réseaux génératifs-compétitifs. La «structure analytique pour visualiser et comprendre le GAN au niveau des unités, des objets et des scènes», c'est-à-dire le cadre GANDissection, devrait aider.

Par la méthode de division d'une image en parties (dissection de réseau basée sur la segmentation), le système détermine des groupes d '«unités interprétées» qui sont étroitement liés aux concepts d'objets. Ensuite, une évaluation quantitative des causes qui provoquent des changements dans les unités interprétées est effectuée. Cela se fait «en mesurant la capacité des interventions à contrôler les objets à la sortie». En termes simples, les chercheurs étudient la relation contextuelle entre des objets spécifiques et leur environnement en introduisant des objets détectés dans de nouvelles images.


Le cadre de dissection GAN démontre que des neurones spécifiques dans le GAN sont formés en fonction du type de scène qu'il apprend à dessiner: par exemple, un neurone veste apparaît lors de l'étude des salles de conférence, et un neurone plaque apparaît lors du dessin des cuisines.

Pour s'assurer que les ensembles de neurones contrôlent le dessin des objets, et pas seulement en corrélation, le cadre intervient dans le réseau et active et désactive directement les neurones. Voici comment fonctionne l'éditeur graphique GANpaint - il s'agit d'une démonstration visuelle du cadre analytique.


GANpaint active et désactive les neurones dans un réseau formé pour créer des images. Chaque bouton du panneau de gauche correspond à un ensemble de 20 neurones. Seulement sept boutons:

  • un arbre;
  • herbe
  • la porte;
  • le ciel;
  • un nuage;
  • brique;
  • le dôme.

GANpaint peut ajouter ou supprimer de tels objets.

En commutant directement les neurones, vous pouvez observer la structure du monde visuel que le réseau neuronal a appris à modéliser.

Lors de l'étude des résultats des travaux d'autres réseaux génératifs-compétitifs, un étranger peut se poser une question: le GAN crée-t-il vraiment une nouvelle image ou se contente-t-il de créer une scène à partir d'objets rencontrés lors de la formation? Peut-être que le réseau se souvient simplement des images, puis les lit de la même manière? Ce travail de recherche et l'éditeur de GANpaint montrent que les réseaux ont vraiment appris certains aspects de la composition, disent les auteurs.

Une découverte intéressante est que les mêmes neurones contrôlent une certaine classe d'objets dans différents contextes, même si l'apparence finale de l'objet varie considérablement. Les mêmes neurones peuvent basculer vers le concept de «porte», que vous ayez besoin d'ajouter une lourde porte sur un grand mur de pierre ou une petite porte sur une petite cabane. Le GAN comprend également quand et quand les objets ne peuvent pas être créés. Par exemple, lorsque les neurones de porte sont activés, la porte apparaît vraiment au bon endroit dans le bâtiment. Mais si vous faites de même dans le ciel ou sur un arbre, une telle tentative n'a généralement aucun effet.

L'article scientifique «GAN Dissection: Visualizing and Understanding Generative Adversarial Networks» a été publié le 26 novembre 2018 sur le site de préimpression arXiv.org (arXiv: 1811.10597v2).

Des démos interactives, des vidéos, du code et des données sont publiés sur Github et sur le site Web du MIT .

Source: https://habr.com/ru/post/fr436088/


All Articles