A rede neural gera imagens de pratos de acordo com as receitas para sua preparação


Comparação de fotos reais (acima), imagens geradas com regularização semântica (linha do meio) e sem ela

Uma equipe de pesquisadores da Universidade de Tel Aviv desenvolveu uma rede neural que pode gerar imagens de pratos de acordo com suas receitas textuais. Assim, uma dona de casa pode ver com antecedência o que resultará se um ou outro parágrafo da receita for alterado: adicione um novo ingrediente ou remova alguns dos existentes. Em princípio, este trabalho científico é uma boa ideia para uma aplicação comercial, principalmente porque o código fonte do programa é publicado em domínio público .

Uma rede neural é uma versão modificada de uma rede generativa de oposição (GAN) chamada StackGAN V2. O treinamento ocorreu em uma grande base de 52 mil pares de imagens / receitas do conjunto de dados da receita1M.

Em princípio, uma rede neural pode pegar quase qualquer lista de ingredientes e instruções - até combinações fantásticas - e descobrir como é o produto final.

"Tudo começou quando pedi à minha avó uma receita para seus lendários hambúrgueres de peixe com molho de tomate", diz Ori Bar El, principal autor do artigo. "Por causa de sua idade avançada, ela não se lembrava da receita exata." Mas eu queria saber se é possível construir um sistema que exiba uma receita a partir da imagem dos alimentos. Depois de pensar nessa tarefa, cheguei à conclusão de que é muito difícil para o sistema obter uma receita precisa com ingredientes reais e “ocultos”, como sal, pimenta, manteiga, farinha etc. etc. Ou seja, gere imagens de produtos com base em receitas. Acreditamos que esta tarefa é muito difícil para as pessoas, especialmente para computadores. Como a maioria dos sistemas modernos de inteligência artificial tenta substituir especialistas em tarefas simples para humanos, pensamos que seria interessante resolver um problema que vai além das capacidades humanas. Como você pode ver, isso pode ser feito com algum sucesso. ”

Gerar imagens do texto é uma tarefa complexa que possui muitos aplicativos de visão computacional. Trabalhos recentes mostraram que as redes adversárias generativas (GANs) são muito eficazes na síntese de imagens realistas de alta qualidade a partir de conjuntos de dados de baixa variabilidade e baixa resolução.

Também é sabido que as redes cGAN geram imagens atraentes diretamente a partir de uma descrição textual. Recentemente, como parte de um estudo científico, foi publicado um conjunto de dados de receita1M contendo 800 mil pares de receitas e suas imagens correspondentes (ver A. Salvador, N. Hynes, Y. Aytar, J. Marin, F. Ofli, I. Weber, e A. Torralba, aprendendo casamentos multimodais para receitas culinárias e imagens de alimentos (Anais da Conferência do IEEE sobre Visão Computacional e Reconhecimento de Padrões , 2017). Este conjunto tem alta variabilidade devido à variedade de categorias de alimentos por categoria. Além disso, o texto complexo de duas seções (ingredientes e instruções) é anexado às imagens. No total, a parte do texto pode conter dezenas de linhas.

Com um conjunto de dados tão excelente, os cientistas da Universidade de Tel Aviv só puderam treinar a rede neural. Eles combinaram o conhecimento acumulado no campo das redes competitivas entre gerações e um conjunto de dados publicado.

Os pesquisadores reconhecem que o sistema ainda não é perfeito. O problema é que o conjunto de dados original é representado por imagens de resolução relativamente pequena de 256 × 256 pixels e, geralmente, de baixa qualidade, existem muitas imagens com más condições de iluminação, imagens parecidas com mingau e imagens não quadradas (o que complica o treinamento dos modelos). Esse fato explica por que os dois modelos de cGAN desenvolvidos conseguiram criar produtos alimentícios "tipo mingau" (por exemplo, macarrão, arroz, sopas, saladas), mas é muito difícil para eles gerar imagens de alimentos com uma forma distinta e distinta (por exemplo, um hambúrguer ou frango).

No futuro, os autores pretendem continuar trabalhando, ensinando ao sistema o restante das receitas (cerca de 350 mil imagens permanecem no conjunto de dados adequados). No entanto, isso não nega o fato de que as fotografias disponíveis são de baixa qualidade. Portanto, eles permitem a possibilidade de criar seu próprio conjunto com base no texto de livros infantis e imagens relacionadas.

O artigo científico foi publicado em 8 de janeiro de 2019 no site de pré-impressão arXiv.org (arXiv: 1901.02404).

Source: https://habr.com/ru/post/pt435924/


All Articles