人看到形状的地方,人工智能看到纹理的地方

令人惊讶的是,具有深度学习计算机视觉算法的研究人员经常无法对图像进行分类,因为它们主要关注纹理而不是形状。



如果您看猫的照片,无论它是红色还是条纹的,甚至是黑白,有斑点,有斑点或无光泽的照片,您都将有可能识别出该动物。 当猫s缩在枕头后或跳到桌子上时,您可能会注意到它,只代表模糊的形状。 您自然会学会在几乎任何情况下都识别猫。 但是,尽管基于深度神经网络的机器视觉系统有时可以在固定条件下为人们提供猫识别任务,但它们可能会与至少与他们所知道的图像略有不同或包含噪音或坚毅。

现在,德国研究人员发现了一个意料之外的原因:如果人们注意所描绘对象的形状,则具有深度学习功能的计算机视觉会紧紧抓住对象的纹理。

这项发现于5月在一次国际学习表示会议上提出,强调了人与机器的“思维”之间的鲜明对比,并说明了我们在理解AI的工作方式上有多么错误。 而且它还可以告诉我们为什么我们的愿景是进化的结果。

象牙猫和看飞机


深度学习算法通过神经网络驱动成千上万只有猫或无猫的图像来工作。 系统在此数据中查找图案,然后将其用于在以前从未遇到过的图像上打上最佳标记。 网络体系结构有点像人类视觉系统的结构,因为它具有相互连接的层,可以从图像中提取越来越多的抽象特征。 但是,建立导致正确答案的关联系统的过程是一个黑匣子,人们只能在事实发生后尝试进行解释。 俄勒冈大学的IT专家Thomas Ditterich说:“我们试图了解是什么导致了这些深度学习的计算机视觉算法的成功,以及它们为何如此脆弱”。

一些研究人员更喜欢研究当他们尝试通过稍微改变图像来欺骗网络时会发生什么。 他们发现,即使很小的更改也会导致系统错误地标记图像-大的更改可能不会导致标签更改。 同时,其他专家跟踪系统中的变化,以分析单个神经元对图像的响应方式,并根据系统学习到的属性撰写“ 激活图集 ”。

但是,来自计算神经生物学家Matias Betge和来自德国蒂宾根大学的心理生理学家 Felix Wichmann实验室的一组科学家选择了定性方法。 去年,研究小组报告说 ,当训练由于某种类型的噪声而改变的图像时,网络开始比那些试图制作出相同噪声图像的人更好地识别图像。 但是,相同的图像(略有不同的修改)完全混淆了网络,尽管对于人们来说,新的失真看上去与旧的失真几乎相同。


罗伯特·盖罗斯(Robert Geyros),蒂宾根大学计算神经生物学研究生

为了解释这一结果,研究人员想知道,即使增加一点噪声,哪个图像质量变化最大。 显而易见的选择是纹理。 该研究的主要作者贝奇和威奇曼实验室的研究生罗伯特·盖罗斯Robert Geyros)说:“如果长时间添加大量噪声,物体的形状或多或少会毫发无损。” 但是“当添加少量噪声时,本地图像结构会很快失真”。 因此,他们提出了一种棘手的方法来测试机器和人员的视觉系统如何处理图像。

Geyros,Betge及其同事创建的图像具有两个相互矛盾的特征,一个物体的形状和另一个物体的纹理:例如,涂有灰色大象皮肤纹理的猫剪影,或者用铝罐制成的熊,或者填充有重叠物的平面剪影彼此与表盘图像。 人们几乎每次都根据其形状(猫,熊,飞机)的形状来标记数百种此类图像。 但是,四种不同的分类算法朝相反的方向倾斜,给出了反映物体纹理的标签:大象,罐头,手表。

哥伦比亚大学计算神经科学家Nikolaus Kriegscorte说:“这改变了我们对直接分布的深度神经网络如何进行认知的认识,而无需额外设置,而是经过通常的学习过程。”

乍一看,对AI纹理而不是形状的偏爱似乎很奇怪,但这是有道理的。 “纹理有点高分辨率形状,” Kriegscorte说。 而且,系统更容易适应这样的规模:具有纹理信息的像素数量大大超过了构成对象边界的像素数量,而且网络的第一步与识别局部特征(例如线和面)有关。 与这项研究无关的多伦多约克大学计算机视觉专家约翰·托索斯说:“这正是纹理。” “例如,一组以相同方式排列的细分市场。”

Geyros及其同事表明,这些本地标志足以使网络进行分类。 这是Betge以及该研究的另一位作者博士后Wiland Brendel的证明,该作品也完成了工作 ,并在5月的会议上进行了介绍。 在这项工作中,他们基于“属性袋”原理,构建了一个深度学习系统,其工作方式与深度学习普及之前的分类算法非常相似。 该算法将图片分解为较小的碎片,例如当前模型(例如实验中使用的Geyros),但是随后,不是逐步整合此信息以提取更高抽象级别的符号,而是立即对每块内容进行假设( “在这件作品中,有自行车的证据,在这里是鸟的证据”)。 他只是简单地折叠所有决定来确定对象(“如果更多的零件包含自行车的标志,那么这就是自行车”),而不关注零件的空间关系。 但是他仍然能够以出乎意料的高精度识别物体。

布伦德尔说:“这项工作挑战了深度学习所做的事情与以前的模型完全不同的假设。” “显然,已经有了很大的飞跃。 我只是说它不像某些人希望的那么大。”

约克大学和多伦多大学的博士后阿米尔·罗森菲尔德(Amir Rosenfeld)表示,“我们认为神经网络应该做什么和它们做什么之间存在很大差异”,其中包括神经网络的管理方式。重现人类行为。

椒盐脆饼说话的脉络相同。 他说,很容易假设神经网络将以与人类相同的方式解决问题。 “但是,我们经常忘记其他方法的存在。”

向更人性化的转变


现代深度学习方法可以将局部特征(例如纹理)集成到更全局的模式(例如形式)中。 “这些作品出乎意料且令人信服地展示了什么-尽管该体系结构允许您对标准图像进行分类,但是如果您只是对网络进行培训,这不会自动发生,” Kriegescorte说。

Geyros希望了解如果团队强迫模型忽略纹理会发生什么。 该团队拍摄了传统上用于训练分类算法的图像,并以不同的样式对其进行了绘制,从而剥夺了它们有用的纹理信息。 当他们在新图像中对每个模型进行重新训练时,系统开始依赖于较大的全局模式,并且显示出更大的模式识别趋势,这更像是人。


德国蒂宾根大学计算神经科学家Wieland Brendel

之后,即使没有经过训练以处理此类失真,该算法也开始对噪声图像进行更好的分类。 盖罗斯说:“形状识别网络已经变得完全免费,更加可靠。” “这表明执行某些任务的正确偏见,在我们的情况下,即倾向于使用表格,有助于将知识推广到新的条件。”

这也表明,在人类中,这种趋势可能以自然的方式形成,因为使用形式是识别我们在新的或嘈杂的情况下看到的东西的更可靠的方式。 人们生活在一个三维世界中,在许多不同条件下可以从多个角度看到物体,而我们的其他感觉(例如触摸)可以选择地补充物体的识别。 因此,对于我们的愿景,将表单作为优先纹理是有意义的。 此外,一些心理学家已经表明语言,学习和使用形式的倾向之间存在联系:当教导儿童在研究某些类别的单词时更加关注形式时,后来他们能够发展出比其他单词更广泛的名词词汇。

威奇曼说,这项工作提醒我们:“数据对模型的偏见和偏见的影响比我们想象的要大。” 这并不是研究人员第一次遇到这个问题:已经显示出,由于偏见根深蒂固于他们的训练数据中,面部识别程序,自动恢复搜索和其他神经网络对意外迹象的重视程度过高。 证明从决策过程中消除不必要的偏见是一项艰巨的任务,但威奇曼说,这项新工作表明,从原则上讲这是可能的,而且令人鼓舞。

但是,即使Geyros专注于形式的模型也可以通过在图像中添加过多噪点或更改某些像素而被愚弄,这意味着它们仍需要很长的路要走才能达到与人类视觉相当的质量。 同样,Rosenfeld,Tsotsos和Tsotsos实验室的研究生Marcus Solbach的新作品表明,机器学习算法无法以与人相同的方式捕获不同图像的相似性。 尽管如此,这些工作“有助于准确地表明这些模型尚未在哪些方面复制人脑的重要方面,” Kriegscorte说。 威奇曼说:“在某些情况下,检查数据集可能更为重要。”

多伦多大学的IT专家三亚·菲德勒(Sanya Fiedler)没有参加这项研究,对此表示同意。 她说:“开发智能数据是我们的工作。” 她和她的同事们正在探索辅助任务如何帮助神经网络提高其核心任务的质量。 受Geyros的发现启发,他们最近训练了图像分类算法,不仅可以识别物体本身,而且可以确定哪些像素属于其轮廓。 网络自动变得更好地识别对象。 菲德勒说:“如果只给您一项任务,那么结果就是相对于许多其他事情而言,选择性的注意力和盲目性。” “如果我给您完成多项任务,您将了解不同的事情,而这可能不会发生。” 这些算法都是一样的。” 解决各种问题可以帮助他们“发展各种信息的趋势”,这与在Geyros的形状和纹理实验中发生的情况类似。

Dietrich说:“所有这些研究都是“在加深我们对深度学习正在发生的事情的理解中迈出的非常有趣的一步,也许它将有助于我们克服我们面临的局限性”。 “这就是为什么我喜欢这一系列工作的原因。”

Source: https://habr.com/ru/post/zh-CN462951/


All Articles