在上一篇文章中,我们遇到了您,并且有人刷新了我们教会机器以理解语音的方式。 现在,可以与人进行对话的程序或机器人令人惊讶。 但是,如果有人告诉机器人“在海边给我画日落”怎么办? 机器人可以理解并绘制吗? 现在他可以了。 多亏了Xiaodong He和他的人工智能研究人员小组的发展(为了不使名字失真,我们不会翻译这个名字)。 我们将了解他们的创作是如何工作的,以及是否有可能使用该程序的作品来开设美术馆。 走吧
简要介绍精髓
如果您夸大其词,该程序将根据“我画画,他们告诉我的内容”的原理工作。 您说“长鼻子的紫色茶壶”,程序逐个像素地尝试准确地描述此信息,换句话说,使您的文字形象化。 为此,她首先需要理解您在说什么,然后确定最重要的词-向量,在此基础上您可以对图像的必要版本进行假设。
他说:“ ...如果您使用Bing并寻找一只鸟,则会得到那只鸟的照片。 但是在我们的例子中,图像是由计算机从头开始逐像素创建的……这些鸟类可能在现实世界中不存在-它们将是计算机代表鸟类的一个例子……”
对于何小东和他的同事来说,这个项目不是第一个。 以前,他们正在开发CaptionBot AI系统,该系统会自动为照片创建描述。 还有SeeingAI,这是一个回答有关摄影的人类问题的系统。 研究人员认为,后者将非常适合盲人和视力障碍者。
“按需艺术家”项目的基础是两个系统的组合:生成对抗网络(GAN)–图像生成器和鉴别器(discriminator)–一个严格分析接收图像质量的模块。
该系统的另一个重要组成部分是人的注意力的数学计算和表达。 当我们看到一个物体时,尽管在潜意识中,我们还是要注意其某些外部特征。 当他们告诉我们有关物体的信息时,情况相同。 有人告诉我们柠檬,我们看到椭圆形的黄色小果实。 我们不代表桃子。 它自动发生在我们的大脑中。 至于机器,您需要对其大脑进行编程,以使其至少像人一样工作。 但是我们知道,一台机器最能理解数字语言-数学,这就是为什么研究人员将注意力从某种事物转换为数学公式的原因。 现在,有关系统的每个组件的更多信息。
注意生成网络GAN
根据研究人员的说法,他们的GAN系统在细节方面与同类系统不同。 普通GAN将整个句子(例如“鼻子长的紫色茶壶”)感知为一个矢量,在渲染时必须遵循。 在我们的英雄发展的情况下,要注意各个单词,这些单词成为图像各个部分的可视化向量。 简而言之,该程序不会立即绘制整个图片,而是将其分成多个部分(如拼图)并分别绘制它们。
为了简单地解释数学系统是如何工作的,让我们想象一下我们的句子(对图像的描述)是一个公式,而这些词是变量。
程序算法的示意图每个单词都是一个重要的向量,也就是说,它决定了程序将朝哪个方向思考。 首先,系统必须选择最重要的单词。 系统尝试匹配单词和将来图像的各个部分。 例如,带有黑色喙的蓝鸟-如果我们考虑单词“ black”,则它指的是喙-图像的单独部分。
确定了每个单词的向量后,程序将以矩阵形式收集所有信息,然后将其开始实现为图像。

例如,研究人员建议考虑4个不同性质的请求(上图)。
考虑一只鸟的前三个图像。 如您所见,它们在质量和细节上截然不同。 事实是,当将整个句子作为单个矢量进行分析时,第一帧(模糊不准确)是图像生成的结果。 在第二帧中,我们的鸟已经更好地可见了,因为该句子被分成了单独的词(向量),从而可以澄清一些细节(例如,黑眼圈-黑眼圈)。
下面显示了相同的图像,但是通过分配与某些单词相对应的各个部分,程序参与了它们的生成,以进一步比较成一个整体。 最近拍摄的照片显示了程序在未来图像描述中最重要的单词。

当从句子中选择两个最重要的单词矢量(黑色+白色,红色+黄色,蓝色+红色)时,该集合呈现图像生成的结果。

如上图所示。 尽管很好地描绘了湖泊本身,但实际上“难以区分的是漂浮在湖面上的一只黑猫”。 与路标情况相同。 但是,第二张图像实际上是准确的(“漂浮在湖面上的红色双层公共汽车”)。 唯一的不是公共汽车,而是船或游艇。
这些实验性查询的结果仅证实该系统仍有很多东西要学习。 特别是,有必要不断补充系统知识库。 这样她就知道该对象的外观。 但是,尽管生成的图像存在所有的不准确性和缺陷,但该系统还是令人惊讶的。 它的应用范围很广:从室内设计协助到仅通过阅读脚本制作动画电影。 此外,结合面部识别系统,图像生成程序还可以为执法机构提供服务,例如在编译可疑照片机器人时。
本文介绍了通过其描述生成图像的程序的基本原理和本质。 为了更深入地了解程序算法的数学组成部分,您可以
下载研究人员的相应报告-油漆很难吗?
“这是容易的还是不可能的。”
(萨尔瓦多·达利)
感谢您与我们在一起。 你喜欢我们的文章吗? 想看更多有趣的资料吗? 通过下订单或将其推荐给您的朋友来支持我们,为我们为您开发
的入门级服务器的独特模拟,为Habr用户提供
30%的折扣: 关于VPS(KVM)E5-2650 v4(6核)的全部真相10GB DDR4 240GB SSD 1Gbps从$ 20还是如何划分服务器? (RAID1和RAID10提供选件,最多24个内核和40GB DDR4 RAM)。
戴尔R730xd便宜2倍? 仅
在荷兰和美国,我们有
2台Intel Dodeca-Core Xeon E5-2650v4 128GB DDR4 6x480GB SSD 1Gbps 100电视(249美元起) ! 阅读有关
如何构建基础架构大厦的信息。 使用价格为9000欧元的Dell R730xd E5-2650 v4服务器的上等课程?