比较真实照片(上),带有语义正则化的生成图像(中间行)和不带语义正则化的图像来自特拉维夫大学的一组研究人员开发了一种神经网络,该神经网络可以根据文本配方生成菜肴图像。 因此,家庭主妇可以预先看到如果更改一项或另一项食谱项目的结果:添加新成分或删除某些现有成分。 原则上,这项科学工作对于商业应用是个好主意,尤其是因为该程序的源代码是
在公共领域发布的 。
神经网络是生成对抗网络(GAN)的改进版本,称为StackGAN V2。 培训是基于来自recipe1M数据集的52,000对图像/配方的基础上进行的。
原则上,神经网络可以接受几乎所有成分和说明的清单-甚至是奇妙的组合-并找出最终产品的外观。
该论文的主要作者奥里·巴尔·艾尔
( Ori Bar El)
说: “这一切始于我向祖母索要她传奇的番茄酱鱼肉食谱的时候。” “由于年龄高,她不记得确切的食谱。” 但是我想知道是否有可能建立一个显示食物图像配方的系统。 在考虑了这项任务之后,我得出的结论是,系统很难获得包含真实和“隐藏”成分(例如盐,胡椒,黄油,面粉等)的准确配方。然后我想知道是否可以采用其他方法。 即,根据配方生成产品图像。 我们认为,这项任务对人们来说非常困难,尤其是对于计算机而言。 由于大多数现代人工智能系统都试图替代对人类而言简单的任务中的专家,因此我们认为解决甚至超越人类能力的问题将很有趣。 如您所见,这可以成功完成。”
从文本生成图像是一项复杂的任务,具有许多计算机视觉应用程序。 最近的工作表明,生成对抗网络(GAN)在根据低变异性,低分辨率数据集合成高质量逼真的图像方面非常有效。
还已知cGAN型网络直接从文本描述中生成引人注目的图像。 最近,作为一项科学研究的一部分,发布了一个cheme1M数据集,其中包含80万对食谱及其对应的图像(请参阅A. Salvador,N。Hynes,Y。Aytar,J。Marin,F.Ofli,I。Weber,和A. Torralba。
学习烹饪模式和食物图像的交叉模式嵌入(在IEEE计算机视觉和模式识别会议论文集 ,2017年)中。 由于不同类别的食物种类不同,这组食物具有较高的可变性。 此外,来自两个部分(成分和说明)的复杂文本会附加到图像上。 总共,文本部分可能包含数十行。
拥有如此出色的数据集,特拉维夫大学的科学家只能训练神经网络。 他们将产生性竞争网络领域的积累知识与已发布的数据集结合在一起。
研究人员承认该系统尚不完善。 问题在于初始数据集由相对较小的256×256像素分辨率图像表示,并且通常质量较差,存在许多光照条件较差的图像,稀饭状图像和非方形图像(这使学习模型变得困难)。 这个事实解释了为什么两个开发的cGAN模型都成功创建了“粥状”食品(例如面食,米饭,汤,色拉),但是它们很难生成具有独特形式的食品图像(例如汉堡包或鸡肉)。
将来,作者打算通过向系统传授其余食谱来继续工作(在适当的数据集中保留约35万张图像)。 但是,这并不能否定可用照片质量较差的事实。 因此,它们允许基于儿童读物的文本和相关图像创建自己的集合的可能性。
该科学文章于2019年1月8日
发布在预印本网站
arXiv.org (arXiv:1901.02404)上。