
Le groupe de recherche Microsoft Research a présenté un réseau neuronal compétitif génératif qui est capable de générer des images avec plusieurs objets sur la base d'une description textuelle. Contrairement aux précédents algorithmes de conversion de texte en image similaires capables de reproduire uniquement des images d'objets de base, ce réseau de neurones peut gérer plus efficacement des descriptions complexes.
La complexité de la création d'un tel algorithme était que, premièrement, le bot n'était pas en mesure de recréer tous les objets de base de bonne qualité selon leurs descriptions, et deuxièmement, il ne pouvait pas analyser comment plusieurs objets peuvent se relier entre eux dans au sein d'une même composition. Par exemple, pour créer une image selon la description «Une femme dans un casque est assise sur un cheval», le réseau neuronal a dû sémantiquement «comprendre» comment chacun des objets est lié les uns aux autres. Nous avons réussi à résoudre ces problèmes en formant le réseau de neurones basé sur l' ensemble de données ouvertes COCO contenant des données de balisage et de segmentation pour plus de 1,5 million d'objets.

L'algorithme est basé sur un réseau de neurones ObjGAN (Objective Attentive Generative Adversarial Newtorks) orienté objet. Elle analyse le texte, en extrait des mots-objets qui doivent être placés sur l'image. Contrairement à un réseau conventionnel génératif-contradictoire composé d'un générateur qui crée des images et d'un discriminateur qui évalue la qualité des images générées, ObjGAN contient deux discriminateurs différents. On analyse à quel point chacun des objets reproduits est réaliste et à quel point il correspond à la description existante. Le second détermine le degré de réalisme de l'ensemble de la composition et se rapporte au texte.
Le prédécesseur de l'algorithme ObjGAN était AttnGAN, également développé par des chercheurs de Microsoft. Il est capable de générer des images d'objets à partir de descriptions textuelles plus simples. La technologie de conversion de texte en images peut être utilisée pour aider les concepteurs et les artistes à créer des croquis.
L'algorithme ObjGAN est accessible au public sur GitHub.
Plus de détails techniques.