Vergleich von realen Fotos (oben), erzeugten Bildern mit semantischer Regularisierung (mittlere Reihe) und ohneEin Forscherteam der Universität Tel Aviv hat ein neuronales Netzwerk entwickelt, das Bilder von Gerichten nach ihren Textrezepten erzeugen kann. So kann eine Hausfrau im Voraus sehen, was sich als Ergebnis herausstellt, wenn der eine oder andere Absatz des Rezepts geändert wird: Fügen Sie eine neue Zutat hinzu oder entfernen Sie einige der vorhandenen. Im Prinzip ist diese wissenschaftliche Arbeit eine gute Idee für eine kommerzielle Anwendung, zumal der Quellcode des Programms
öffentlich veröffentlicht wird .
Ein neuronales Netzwerk ist eine modifizierte Version eines generativen kontradiktorischen Netzwerks (GAN) namens StackGAN V2. Das Training fand auf einer großen Basis von 52.000 Paar Bildern / Rezepten aus dem Rezept1M-Datensatz statt.
Im Prinzip kann ein neuronales Netzwerk fast jede Liste von Zutaten und Anweisungen - sogar fantastische Kombinationen - aufnehmen und herausfinden, wie das fertige Produkt aussieht.
„Alles begann, als ich meine Großmutter nach einem Rezept für ihre legendären Fischfrikadellen mit Tomatensauce fragte“,
sagt Ori Bar El, Hauptautor der Zeitung. "Aufgrund ihres fortgeschrittenen Alters erinnerte sie sich nicht an das genaue Rezept." Aber ich habe mich gefragt, ob es möglich ist, ein System zu bauen, das ein Rezept aus dem Bild von Lebensmitteln anzeigt. Nachdem ich über diese Aufgabe nachgedacht hatte, kam ich zu dem Schluss, dass es für das System zu schwierig ist, ein genaues Rezept mit echten und „versteckten“ Zutaten wie Salz, Pfeffer, Butter, Mehl usw. zu erhalten. Dann fragte ich mich, ob es umgekehrt gemacht werden könnte. Generieren Sie nämlich Produktbilder basierend auf Rezepten. Wir glauben, dass diese Aufgabe für Menschen sehr schwierig ist, insbesondere für Computer. Da die meisten modernen Systeme der künstlichen Intelligenz versuchen, Experten für Aufgaben zu ersetzen, die für den Menschen einfach sind, hielten wir es für interessant, ein Problem zu lösen, das sogar über die menschlichen Fähigkeiten hinausgeht. Wie Sie sehen, kann dies mit einigem Erfolg geschehen. “
Das Generieren von Bildern aus Text ist eine komplexe Aufgabe, die viele Computer-Vision-Anwendungen hat. Jüngste Arbeiten haben gezeigt, dass generative Adversarial Networks (GANs) sehr effektiv sind, um realistische Bilder von hoher Qualität aus Datensätzen mit geringer Variabilität und niedriger Auflösung zu synthetisieren.
Es ist auch bekannt, dass cGAN-Netzwerke überzeugende Bilder direkt aus einer Textbeschreibung generieren. Kürzlich wurde im Rahmen einer wissenschaftlichen Studie ein Rezept1M-Datensatz veröffentlicht, der 800.000 Rezeptpaare und die entsprechenden Bilder enthält (siehe A. Salvador, N. Hynes, Y. Aytar, J. Marin, F. Ofli, I. Weber, und A. Torralba.
Lernen modalübergreifender Einbettungen zum Kochen von Rezepten und Lebensmittelbildern. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition , 2017). Dieses Set weist aufgrund der Vielfalt der Lebensmittelkategorien nach Kategorien eine hohe Variabilität auf. Zusätzlich wird den Bildern komplexer Text aus zwei Abschnitten (Zutaten und Anweisungen) beigefügt. Insgesamt kann der Textteil Dutzende von Zeilen enthalten.
Mit solch einem hervorragenden Datensatz konnten die Wissenschaftler der Universität Tel Aviv nur das neuronale Netzwerk trainieren. Sie kombinierten akkumuliertes Wissen im Bereich generativ-wettbewerbsfähiger Netzwerke und einen veröffentlichten Datensatz.
Forscher erkennen an, dass das System noch nicht perfekt ist. Das Problem besteht darin, dass der Originaldatensatz durch Bilder mit einer relativ kleinen Auflösung von 256 × 256 Pixel dargestellt wird und häufig von schlechter Qualität. Es gibt viele Bilder mit schlechten Lichtverhältnissen, breiartigen Bildern und nicht quadratischen Bildern (was das Training von Modellen erschwert). Diese Tatsache erklärt, warum es beiden entwickelten cGAN-Modellen gelungen ist, „breiartige“ Lebensmittelprodukte (z. B. Nudeln, Reis, Suppen, Salate) herzustellen, aber es ist für sie sehr schwierig, Lebensmittelbilder mit einer bestimmten Form (z. B. ein Hamburger oder ein Huhn) zu erstellen.
In Zukunft beabsichtigen die Autoren, die Arbeit fortzusetzen, indem sie dem System die restlichen Rezepte beibringen (etwa 350.000 Bilder verbleiben im Satz geeigneter Daten). Dies negiert jedoch nicht die Tatsache, dass die verfügbaren Fotos von schlechter Qualität sind. Daher bieten sie die Möglichkeit, Ihr eigenes Set basierend auf dem Text von Kinderbüchern und verwandten Bildern zu erstellen.
Der wissenschaftliche Artikel wurde am 8. Januar 2019 auf der Preprint-Site
arXiv.org (arXiv: 1901.02404) veröffentlicht.