Un robot de dessin pour rĂ©aliser des scĂšnes de tous les jours et mĂȘme des histoires

Dessin de bot


Si on vous demandait de dessiner une image de plusieurs personnes en tenue de ski, debout dans la neige, il y a de fortes chances que vous commenciez par un contour de trois ou quatre personnes raisonnablement positionnĂ©es au centre de la toile, puis esquissez dans les skis sous leur les pieds. Bien que cela n'ait pas Ă©tĂ© spĂ©cifiĂ©, vous pourriez dĂ©cider d'ajouter un sac Ă  dos Ă  chacun des skieurs pour empanner avec les attentes de ce que les skieurs porteraient. Enfin, vous rempliriez soigneusement les dĂ©tails, peignant peut-ĂȘtre leurs vĂȘtements en bleu, des Ă©charpes en rose, le tout sur un fond blanc, rendant ces personnes plus rĂ©alistes et s'assurant que leur environnement correspond Ă  la description. Enfin, pour rendre la scĂšne plus vivante, vous pouvez mĂȘme esquisser des pierres brunes qui dĂ©passent dans la neige pour suggĂ©rer que ces skieurs sont dans les montagnes.


Maintenant, il y a un bot qui peut faire tout ça.


La nouvelle technologie d'IA en cours de développement chez Microsoft Research AI peut comprendre une description en langage naturel, esquisser une disposition de l'image, synthétiser l'image, puis affiner les détails en fonction de la disposition et des mots individuels fournis. En d'autres termes, ce bot peut générer des images à partir de descriptions textuelles de sous-titres de scÚnes quotidiennes. Ce mécanisme délibéré a produit une amélioration significative de la qualité d'image générée par rapport à la technique de pointe précédente pour la génération de texte en image pour des scÚnes quotidiennes compliquées, selon les résultats des tests standard de l'industrie rapportés dans « Object-driven Text- to-Image Synthesis via Adversarial Training », qui sera publié ce mois-ci à Long Beach, en Californie, lors de la Conférence IEEE 2019 sur la vision par ordinateur et la reconnaissance des formes (CVPR 2019). Il s'agit d'un projet de collaboration entre Pengchuan Zhang , Qiuyuan Huang et Jianfeng Gao de Microsoft Research AI , Lei Zhang de Microsoft, Xiaodong He de JD AI Research et Wenbo Li et Siwei Lyu de l'Université d'Albany, SUNY (tandis que Wenbo Li travaillait comme stagiaire chez Microsoft Research AI).


Il existe deux principaux dĂ©fis intrinsĂšques au problĂšme des robots de dessin basĂ©s sur la description. La premiĂšre est que de nombreux types d'objets peuvent apparaĂźtre dans les scĂšnes de tous les jours et que le bot devrait ĂȘtre capable de les comprendre et de les dessiner tous. Les mĂ©thodes prĂ©cĂ©dentes de gĂ©nĂ©ration de texte en image utilisent des paires image-lĂ©gende qui ne fournissent qu'un signal de supervision Ă  grain trĂšs grossier pour gĂ©nĂ©rer des objets individuels, ce qui limite leur qualitĂ© de gĂ©nĂ©ration d'objet. Dans cette nouvelle technologie, les chercheurs utilisent l'ensemble de donnĂ©es COCO qui contient des Ă©tiquettes et des cartes de segmentation pour 1,5 million d'instances d'objets Ă  travers 80 classes d'objets communes, permettant au bot d'apprendre Ă  la fois le concept et l'apparence de ces objets. Ce signal supervisĂ© Ă  grain fin pour la gĂ©nĂ©ration d'objets amĂ©liore considĂ©rablement la qualitĂ© de gĂ©nĂ©ration de ces classes d'objets courantes.


Le deuxiĂšme dĂ©fi rĂ©side dans la comprĂ©hension et la gĂ©nĂ©ration des relations entre plusieurs objets dans une mĂȘme scĂšne. Un grand succĂšs a Ă©tĂ© obtenu en gĂ©nĂ©rant des images qui ne contiennent qu'un seul objet principal pour plusieurs domaines spĂ©cifiques, tels que les visages, les oiseaux et les objets communs. Cependant, la gĂ©nĂ©ration de scĂšnes plus complexes contenant plusieurs objets avec des relations sĂ©mantiquement significatives entre ces objets reste un dĂ©fi important dans la technologie de gĂ©nĂ©ration de texte en image. Ce nouveau robot de dessin a appris Ă  gĂ©nĂ©rer la disposition des objets Ă  partir de modĂšles de co-occurrence dans l'ensemble de donnĂ©es COCO pour ensuite gĂ©nĂ©rer une image conditionnĂ©e sur la disposition prĂ©-gĂ©nĂ©rĂ©e.


Génération d'images attentives orientées objet


Au cƓur du bot de dessin de Microsoft Research AI se trouve une technologie connue sous le nom de Generative Adversarial Network, ou GAN. Le GAN se compose de deux modĂšles d'apprentissage automatique - un gĂ©nĂ©rateur qui gĂ©nĂšre des images Ă  partir de descriptions textuelles et un discriminateur qui utilise des descriptions textuelles pour juger de l'authenticitĂ© des images gĂ©nĂ©rĂ©es. Le gĂ©nĂ©rateur tente d'obtenir de fausses images devant le discriminateur; le discriminateur, d'autre part, ne veut jamais ĂȘtre dupe. En travaillant ensemble, le discriminateur pousse le gĂ©nĂ©rateur vers la perfection.


Le robot de dessin a été formé sur un ensemble de données de 100 000 images, chacune avec des étiquettes d'objets saillants et des cartes de segmentation et cinq légendes différentes, permettant aux modÚles de concevoir des objets individuels et des relations sémantiques entre les objets. Le GAN, par exemple, apprend à quoi devrait ressembler un chien en comparant des images avec et sans descriptions de chiens.


Figure 1: une scĂšne complexe avec plusieurs objets et relations.

Figure 1: une scĂšne complexe avec plusieurs objets et relations.


Les GAN fonctionnent bien lors de la génération d'images contenant un seul objet saillant, comme un visage humain, des oiseaux ou des chiens, mais la qualité stagne avec des scÚnes quotidiennes plus complexes, une telle scÚne décrite comme «Une femme portant un casque monte à cheval» (voir la figure 1.) En effet, ces scÚnes contiennent plusieurs objets (femme, casque, cheval) et de riches relations sémantiques entre elles (femme portant un casque, femme chevauchant un cheval). Le bot doit d'abord comprendre ces concepts et les placer dans l'image avec une mise en page significative. AprÚs cela, un signal plus supervisé capable d'enseigner la génération d'objet et la génération de mise en page est requis pour remplir cette tùche de compréhension du langage et de génération d'image.


Au fur et à mesure que les humains dessinent ces scÚnes compliquées, nous décidons d'abord des principaux objets à dessiner et faisons une mise en page en plaçant des boßtes englobantes pour ces objets sur la toile. Ensuite, nous nous concentrons sur chaque objet, en vérifiant à plusieurs reprises les mots correspondants qui décrivent cet objet. Pour capturer ce trait humain, les chercheurs ont créé ce qu'ils ont appelé un GAN attentif orienté objet, ou ObjGAN, pour modéliser mathématiquement le comportement humain de l'attention centrée sur l'objet. ObjGAN fait cela en décomposant le texte d'entrée en mots individuels et en faisant correspondre ces mots à des objets spécifiques de l'image.


Les humains vérifient généralement deux aspects pour affiner le dessin: le réalisme des objets individuels et la qualité des correctifs d'image. ObjGAN imite également ce comportement en introduisant deux discriminateurs - un discriminateur par objet et un discriminateur par patch. Le discriminateur par objet essaie de déterminer si l'objet généré est réaliste ou non et si l'objet est cohérent avec la description de la phrase. Le discriminateur par patch essaie de déterminer si ce patch est réaliste ou non et si ce patch est cohérent avec la description de la phrase.


Travaux connexes: visualisation de l'histoire


Des modĂšles de gĂ©nĂ©ration de texte en image Ă  la pointe de la technologie peuvent gĂ©nĂ©rer des images d'oiseaux rĂ©alistes sur la base d'une description en une seule phrase. Cependant, la gĂ©nĂ©ration de texte en image peut aller bien au-delĂ  de la synthĂšse d'une seule image basĂ©e sur une phrase. Dans « StoryGAN: A Sequential Conditional GAN ​​for Story Visualization », Jianfeng Gao de Microsoft Research, avec Zhe Gan, Jingjing Liu et Yu Cheng de Microsoft Dynamics 365 AI Research, Yitong Li, David Carlson et Lawrence Carin de Duke University, Yelong Shen de Tencent AI Research et Yuexin Wu de l'UniversitĂ© Carnegie Mellon vont plus loin et proposent une nouvelle tĂąche, appelĂ©e Story Visualization. Étant donnĂ© un paragraphe de plusieurs phrases, une histoire complĂšte peut ĂȘtre visualisĂ©e, gĂ©nĂ©rant une sĂ©quence d'images, une pour chaque phrase. C'est une tĂąche difficile, car le robot de dessin n'est pas seulement nĂ©cessaire pour imaginer un scĂ©nario qui correspond Ă  l'histoire, modĂ©liser les interactions entre les diffĂ©rents personnages apparaissant dans l'histoire, mais il doit Ă©galement ĂȘtre en mesure de maintenir la cohĂ©rence globale entre les scĂšnes et les personnages dynamiques. Ce dĂ©fi n'a Ă©tĂ© relevĂ© par aucune mĂ©thode de gĂ©nĂ©ration d'images ou de vidĂ©os.


Figure 2: Visualisation de l'histoire vs génération d'image simple.

Figure 2: Visualisation de l'histoire vs génération d'image simple.


Les chercheurs ont mis au point un nouveau modĂšle de gĂ©nĂ©ration de sĂ©quence histoire-image, StoryGAN, basĂ© sur le cadre sĂ©quentiel GAN ​​conditionnel. Ce modĂšle est unique en ce qu'il se compose d'un encodeur de contexte profond qui suit dynamiquement le flux de l'histoire, et de deux discriminateurs au niveau de l'histoire et de l'image pour amĂ©liorer la qualitĂ© de l'image et la cohĂ©rence des sĂ©quences gĂ©nĂ©rĂ©es. StoryGAN peut Ă©galement ĂȘtre naturellement Ă©tendu pour l'Ă©dition d'image interactive, oĂč une image d'entrĂ©e peut ĂȘtre Ă©ditĂ©e sĂ©quentiellement sur la base des instructions de texte. Dans ce cas, une sĂ©quence d'instructions utilisateur servira d'entrĂ©e «histoire». En consĂ©quence, les chercheurs ont modifiĂ© les ensembles de donnĂ©es existants pour crĂ©er les ensembles de donnĂ©es CLEVR-SV et Pororo-SV, comme le montre la figure 2.


Applications pratiques - une histoire vraie


La technologie de génération de texte en image pourrait trouver des applications pratiques agissant comme une sorte d'assistant de croquis pour les peintres et les décorateurs d'intérieur, ou comme un outil pour la retouche photo à commande vocale. Avec plus de puissance de calcul, les chercheurs imaginent la technologie générant des films d'animation basés sur des scénarios, augmentant le travail des cinéastes d'animation en supprimant une partie du travail manuel impliqué.


Pour l'instant, les images gĂ©nĂ©rĂ©es sont encore loin d'ĂȘtre photo-rĂ©alistes. Les objets individuels rĂ©vĂšlent presque toujours des dĂ©fauts, tels que des visages flous et / ou des bus aux formes dĂ©formĂ©es. Ces dĂ©fauts indiquent clairement qu'un ordinateur, et non un ĂȘtre humain, a créé les images. NĂ©anmoins, la qualitĂ© des images ObjGAN est nettement meilleure que les images GAN les meilleures de leur catĂ©gorie prĂ©cĂ©dente et sert de jalon sur la voie vers une intelligence gĂ©nĂ©rique de type humain qui augmente les capacitĂ©s humaines.


Pour que les IA et les humains partagent le mĂȘme monde, chacun doit avoir un moyen d'interagir avec l'autre. Le langage et la vision sont les deux modalitĂ©s les plus importantes pour que les humains et les machines interagissent. La gĂ©nĂ©ration de texte en image est une tĂąche importante qui fait progresser la recherche en intelligence multimodale en vision du langage.


Les chercheurs qui ont créé ce travail passionnant ont hùte de partager ces résultats avec les participants au CVPR de Long Beach et d'entendre ce que vous pensez. En attendant, n'hésitez pas à consulter leur code open-source pour ObjGAN et StoryGAN sur GitHub

Source: https://habr.com/ru/post/fr457200/


All Articles