
Die Forschungsgruppe Microsoft Research führte ein generativ-wettbewerbsfähiges neuronales Netzwerk ein, das Bilder mit mehreren Objekten basierend auf einer Textbeschreibung generieren kann. Im Gegensatz zu früheren ähnlichen Text-zu-Bild-Algorithmen, die nur Bilder von Basisobjekten reproduzieren können, kann dieses neuronale Netzwerk komplexe Beschreibungen effizienter verarbeiten.
Die Komplexität der Erstellung eines solchen Algorithmus bestand darin, dass der Bot zuvor nicht in der Lage war, alle Basisobjekte in guter Qualität gemäß ihrer Beschreibung neu zu erstellen, und zweitens nicht analysieren konnte, wie mehrere Objekte in Beziehung zueinander stehen können innerhalb einer Komposition. Um beispielsweise ein Bild gemäß der Beschreibung „Eine Frau in einem Helm sitzt auf einem Pferd“ zu erstellen, musste das neuronale Netzwerk semantisch „verstehen“, wie sich die einzelnen Objekte zueinander verhalten. Wir haben es geschafft, diese Probleme zu lösen, indem wir das neuronale Netzwerk basierend auf dem offenen COCO-Datensatz trainiert haben, der Markup- und Segmentierungsdaten für mehr als 1,5 Millionen Objekte enthält.

Der Algorithmus basiert auf einem objektorientierten generativ-kompetitiven neuronalen Netzwerk ObjGAN (Object Driven Attentive Generative Adversarial Newtorks). Sie analysiert den Text und extrahiert daraus Wörter-Objekte, die auf dem Bild platziert werden müssen. Im Gegensatz zu einem herkömmlichen generativ-kontradiktorischen Netzwerk, das aus einem Generator, der Bilder erzeugt, und einem Diskriminator besteht, der die Qualität der erzeugten Bilder bewertet, enthält ObjGAN zwei verschiedene Diskriminatoren. Man analysiert, wie realistisch jedes der reproduzierten Objekte ist und wie sehr es mit der vorhandenen Beschreibung übereinstimmt. Die zweite bestimmt, wie realistisch die gesamte Komposition ist und bezieht sich auf den Text.
Der Vorgänger des ObjGAN-Algorithmus war AttnGAN, das ebenfalls von Microsoft-Forschern entwickelt wurde. Es ist in der Lage, Bilder von Objekten aus einfacheren Textbeschreibungen zu generieren. Die Technologie zum Konvertieren von Text in Bilder kann verwendet werden, um Designern und Künstlern beim Erstellen von Skizzen zu helfen.
Der ObjGAN-Algorithmus ist auf GitHub öffentlich verfügbar.
Weitere technische Details.