La red neuronal genera imágenes de platos según recetas para su preparación.


Comparación de fotos reales (arriba), imágenes generadas con regularización semántica (fila central) y sin ella

Un equipo de investigadores de la Universidad de Tel Aviv ha desarrollado una red neuronal que puede generar imágenes de platos de acuerdo con sus recetas textuales. Por lo tanto, una ama de casa puede ver de antemano lo que resultará como resultado si se cambia uno u otro elemento de la receta: agregue un nuevo ingrediente o elimine algunos de los existentes. En principio, este trabajo científico es una buena idea para una aplicación comercial, especialmente porque el código fuente del programa se publica en el dominio público .

Una red neuronal es una versión modificada de una red de confrontación generativa (GAN) llamada StackGAN V2. La capacitación se llevó a cabo en una gran base de 52 mil pares de imágenes / recetas del conjunto de datos recetas1M.

En principio, una red neuronal puede tomar casi cualquier lista de ingredientes e instrucciones, incluso combinaciones fantásticas, y descubrir cómo se ve el producto terminado.

"Todo comenzó cuando le pedí a mi abuela una receta para sus legendarias empanadas de pescado con salsa de tomate", dice Ori Bar El, autor principal del artículo. "Debido a su avanzada edad, no recordaba la receta exacta". Pero me preguntaba si es posible construir un sistema que muestre una receta a partir de la imagen de los alimentos. Después de pensar en esta tarea, llegué a la conclusión de que es demasiado difícil para el sistema obtener una receta precisa con ingredientes reales y "ocultos", como sal, pimienta, mantequilla, harina, etc. Luego me pregunté si podría hacerse al revés. A saber, generar imágenes de productos basadas en recetas. Creemos que esta tarea es muy difícil para las personas, especialmente para las computadoras. Dado que la mayoría de los sistemas modernos de inteligencia artificial intentan reemplazar a los expertos en tareas que son simples para los humanos, pensamos que sería interesante resolver un problema que incluso supera las capacidades humanas. Como puede ver, esto se puede hacer con cierto éxito ".

Generar imágenes a partir de texto es una tarea compleja que tiene muchas aplicaciones de visión por computadora. Trabajos recientes han demostrado que las redes adversas generativas (GAN) son muy efectivas para sintetizar imágenes realistas de alta calidad a partir de conjuntos de datos de baja variabilidad y baja resolución.

También se sabe que las redes cGAN generan imágenes atractivas directamente a partir de una descripción textual. Recientemente, como parte de un estudio científico, se publicó un conjunto de datos de recetas1M que contiene 800 mil pares de recetas y sus imágenes correspondientes (ver A. Salvador, N. Hynes, Y. Aytar, J. Marin, F. Ofli, I. Weber, y A. Torralba. Aprendizaje de incrustaciones multimodales para recetas de cocina e imágenes de alimentos. En Actas de la Conferencia IEEE sobre Visión por Computadora y Reconocimiento de Patrones , 2017). Este conjunto tiene una gran variabilidad debido a la variedad de categorías de alimentos por categoría. Además, se adjunta texto complejo de dos secciones (ingredientes e instrucciones) a las imágenes. En total, la parte de texto puede contener docenas de líneas.

Con un conjunto de datos tan excelente, los científicos de la Universidad de Tel Aviv solo pudieron entrenar la red neuronal. Combinaron el conocimiento acumulado en el campo de las redes competitivas generativas y un conjunto de datos publicado.

Los investigadores reconocen que el sistema aún no es perfecto. El problema es que el conjunto de datos original está representado por imágenes de resolución relativamente pequeña de 256 × 256 píxeles, y a menudo de baja calidad, hay muchas imágenes con malas condiciones de iluminación, imágenes similares a gachas e imágenes sin forma cuadrada (lo que complica la capacitación de los modelos). Este hecho explica por qué los dos modelos desarrollados de cGAN lograron crear productos alimenticios "parecidos a gachas" (por ejemplo, pasta, arroz, sopas, ensaladas), pero es muy difícil para ellos generar imágenes de alimentos con una forma distinta (por ejemplo, una hamburguesa o pollo).

En el futuro, los autores tienen la intención de continuar trabajando enseñando al sistema el resto de las recetas (quedan aproximadamente 350 mil imágenes en el conjunto de datos adecuados). Sin embargo, esto no niega el hecho de que las fotografías disponibles son de baja calidad. Por lo tanto, permiten la posibilidad de crear su propio conjunto basado en el texto de libros infantiles e imágenes relacionadas.

El artículo científico fue publicado el 8 de enero de 2019 en el sitio de preimpresión arXiv.org (arXiv: 1901.02404).

Source: https://habr.com/ru/post/es435924/


All Articles