Comparaison de vraies photos (ci-dessus), images générées avec régularisation sémantique (ligne du milieu) et sans celle-ciUne équipe de chercheurs de l'Université de Tel Aviv a développé un réseau neuronal qui peut générer des images de plats en fonction de leurs recettes textuelles. Ainsi, une femme au foyer peut voir à l'avance ce qui en résultera si l'un ou l'autre paragraphe de la recette est modifié: ajoutez un nouvel ingrédient ou supprimez certains des ingrédients existants. En principe, ce travail scientifique est une bonne idée pour une application commerciale, d'autant plus que le code source du programme est
publié dans le domaine public .
Un réseau neuronal est une version modifiée d'un réseau contradictoire génératif (GAN) appelé StackGAN V2. La formation s'est déroulée sur une large base de 52 000 paires d'images / recettes du jeu de données recette1M.
En principe, un réseau de neurones peut prendre presque n'importe quelle liste d'ingrédients et d'instructions - même des combinaisons fantastiques - et découvrir à quoi ressemble le produit fini.
«Tout a commencé lorsque j'ai demandé à ma grand-mère une recette pour ses légendaires galettes de poisson à la sauce tomate»,
explique Ori Bar El, auteur principal du document. "En raison de son âge avancé, elle ne se souvenait pas de la recette exacte." Mais je me demandais s'il était possible de construire un système qui affiche une recette à partir de l'image de la nourriture. Après avoir réfléchi à cette tâche, je suis parvenu à la conclusion qu'il était trop difficile pour le système d'obtenir une recette précise avec des ingrédients réels et «cachés», tels que le sel, le poivre, le beurre, la farine, etc. À savoir, générer des images de produits basées sur des recettes. Nous pensons que cette tâche est très difficile pour les gens, en particulier pour les ordinateurs. Étant donné que la plupart des systèmes modernes d'intelligence artificielle tentent de remplacer les experts dans des tâches simples pour l'homme, nous avons pensé qu'il serait intéressant de résoudre un problème qui dépasse même les capacités humaines. Comme vous pouvez le voir, cela peut se faire avec un certain succès. »
La génération d'images à partir de texte est une tâche complexe qui comporte de nombreuses applications de vision par ordinateur. Des travaux récents ont montré que les réseaux contradictoires génératifs (GAN) sont très efficaces pour synthétiser des images réalistes de haute qualité à partir d'ensembles de données à faible variabilité et basse résolution.
Il est également connu que les réseaux cGAN génèrent des images convaincantes directement à partir d'une description textuelle. Récemment, dans le cadre d'une étude scientifique, un ensemble de données de recette1M a été publié contenant 800 mille paires de recettes et leurs images correspondantes (voir A. Salvador, N. Hynes, Y. Aytar, J. Marin, F. Ofli, I. Weber, et A. Torralba.
Apprendre les intégrations multimodales pour les recettes de cuisine et les images alimentaires. Dans les actes de la conférence de l'IEEE sur la vision par ordinateur et la reconnaissance des formes , 2017). Cet ensemble présente une grande variabilité en raison de la variété des catégories d'aliments par catégorie. De plus, un texte complexe de deux sections (ingrédients et instructions) est joint aux images. Au total, la partie texte peut contenir des dizaines de lignes.
Avec un ensemble de données aussi excellent, les scientifiques de l'Université de Tel Aviv ne pouvaient que former le réseau neuronal. Ils ont combiné les connaissances accumulées dans le domaine des réseaux génératifs-compétitifs et un ensemble de données publiées.
Les chercheurs reconnaissent que le système n'est pas encore parfait. Le problème est que l'ensemble de données d'origine est représenté par des images avec une résolution relativement petite de 256 × 256 pixels, et souvent de mauvaise qualité, il y a beaucoup d'images avec de mauvaises conditions d'éclairage, des images en forme de bouillie et des images non carrées (ce qui complique la formation des modèles). Ce fait explique pourquoi les deux modèles développés de cGAN ont réussi à créer des produits alimentaires de type «bouillie» (par exemple, pâtes, riz, soupes, salades), mais il leur est très difficile de générer des images d'aliments sous une forme distincte et distincte (par exemple, un hamburger ou un poulet).
À l'avenir, les auteurs ont l'intention de poursuivre les travaux en enseignant au système le reste des recettes (environ 350 000 images restent dans l'ensemble de données appropriées). Cependant, cela ne nie pas le fait que les photographies disponibles sont de mauvaise qualité. Par conséquent, ils permettent de créer votre propre ensemble à partir du texte de livres pour enfants et d'images associées.
L'article scientifique a été
publié le 8 janvier 2019 sur le site de préimpression
arXiv.org (arXiv: 1901.02404).