机器学习:与大象争夺


一为零,有利于人脑。 在一项新的研究中 ,计算机科学家发现,人工智能系统无法通过视觉识别任何儿童都能轻松处理的物体的测试。

与这项工作无关的纽约大学神经科学家加里·马库斯(Gary Marcus)说:“这项定性且重要的研究提醒我们,“深度学习”本身不能吹嘘它所具有的深度。

当人工智能系统试图对物体进行检测和分类时,研究结果涉及计算机视觉领域。 例如,可能会要求他们找到街道场景中的所有行人,或者只是将鸟与自行车区分开来-这项任务因其复杂性而闻名。

风险很高:计算机正在逐渐开始为人们执行重要的操作,例如自动视频监视和自动驾驶。 对于成功的工作,有必要使AI进行视觉处理的能力至少不低于人类。

任务不容易。 这项新的研究集中在人类视觉的复杂性和创建模仿系统的困难上。 科学家们以客厅为例,测试了计算机视觉系统的准确性。 AI做得很好,可以正确识别架子上的椅子,人和书本。 但是,当科学家在场景中添加一个不寻常的物体(大象的图像)时,其外观的事实使该系统忘记了所有先前的结果。 突然,她开始把椅子叫沙发,把大象叫椅子,而忽略了所有其他物体。

多伦多约克大学的科学家,也是他和他的同事约翰·托托索斯 (同样来自约克)以及多伦多大学的理查德·泽梅尔Richard Zemel)共同进行的一项研究的合著者阿米尔·罗森菲尔德(Amir Rosenfeld)说:“有很多奇怪的现象表明了现代物体检测系统的脆弱性。”

研究人员仍在尝试弄清为什么计算机视觉系统如此容易令人困惑的原因,并且他们已经有了一个很好的猜测。 AI所没有的人类技能要点是能够认识到场景难以理解的能力,我们需要再次仔细考虑。

房间里的大象


放眼世界,我们可以看到数量惊人的视觉信息。 人脑在旅途中对其进行处理。 “我们睁开眼睛,一切都会发生,” Totsotsos说。

相比之下,人工智能则刻苦地创造视觉印象,就像阅读盲文中的描述一样。 他遍历像素的算法指尖,从中逐渐形成越来越复杂的表示。 执行相似过程的各种AI系统是神经网络。 他们通过一系列“层”传递图像。 随着每一层的通过,将处理各个图像细节,例如各个像素的颜色和亮度,并在此分析的基础上形成对对象的越来越抽象的描述。

“处理上一层的结果被传送到下一层,依此类推,就像在传送带上一样,” Totsotsos解释说。


作者:露西·雷丁·伊坎达(Lucy Reading-Ikkanda)/《广达》杂志

神经网络是视觉处理领域中特定日常任务的专家。 它们比人更能应付高度专业化的任务,例如确定狗的品种以及将其他物体分类。 这些成功的例子引起了人们的希望,即计算机视觉系统将很快变得如此智能,以至于它们能够在拥挤的城市街道上驾驶汽车。

它还提示专家探索其漏洞。 在过去的几年中,研究人员进行了许多模拟敌对攻击的尝试-他们提出了迫使神经网络犯错误的场景。 在一个实验中,计算机科学家欺骗了该网络,迫使其将乌龟带上枪。 成功作弊的另一个故事是,研究人员在香蕉等普通物体旁边放置了一个涂有迷幻色彩的烤面包机。

在这项新工作中,科学家们选择了相同的方法。 三名研究人员展示了一张客厅的神经网络照片。 它捕获了一个玩电子游戏的人,他坐在一把旧椅子的边缘,向前倾斜。 通过“消化”这一场景,人工智能迅速识别出几个对象:一个人,一张沙发,一台电视,一把椅子和几本书。

然后,研究人员添加了一个在类似场景中不寻常的物体:半剖面中的大象图像。 而且神经网络很困惑。 在某些情况下,大象的出现迫使她坐在沙发上坐下,有时系统停止看到某些物体,并且在意识到之前没有问题。 例如,这是一本书系列。 此外,即使物体远离大象,也会发生遗漏。


在左图的原始图上,神经网络正确且高度可信地识别了位于客厅中的许多物体,里面充满了各种东西。 但是,一旦添加了大象(右图),程序便开始崩溃。 左下角的椅子变成了沙发,旁边的杯子消失了,大象变成了椅子。

对于相同的自动驾驶,类似的系统错误是完全不可接受的。 如果计算机没有注意到行人,仅因为在此之前的几秒钟内他在路边看到了一只火鸡,计算机将无法驾驶汽车。

至于大象本身,其认可的结果也与尝试不同。 然后系统正确地确定了它,有时称为羊,然后根本没有注意到它。

罗森菲尔德说:“如果大象真的出现在房间里,那么任何人都可能会注意到它。” “而且系统甚至都没有记录他的存在。”

亲密关系


当人们看到意外的东西时,他们会更好地看待它。 不管听起来多么简单,“仔细看”,这都会带来真正的认知后果,并解释了为什么在出现异常情况时会误认为AI。

在处理和识别对象时,最好的现代神经网络只能通过自身向前传递信息。 他们首先选择输入处的像素,然后移动到曲线,形状和场景,然后在每个阶段进行最可能的猜测。 在该过程的早期阶段,任何误解都会导致错误,最后,当神经网络将其“思想”收集在一起以猜测它在看什么时。

Totsosos说:“在神经网络中,所有过程都是紧密联系在一起的,因此,任何地方的任何特征总是有可能影响任何可能的结果。”

人性化的方法更好。 想象一下,您快速浏览了一幅图像,该图像具有一个圆圈和一个正方形,一个红色,另一个蓝色。 之后,要求您命名正方形的颜色。 短暂浏览可能不足以正确记住颜色。 立即知道您不确定,因此需要再次查看。 而且,这非常重要,在第二次查看期间,您已经知道需要关注什么。

“人类视觉系统说:“我仍然无法给出正确的答案,所以我会回去检查错误可能发生的地方,”托茨托斯解释说,他正在开发一种称为“ 选择性调和 ”的理论,该理论解释了视觉感知的这一特征。

大多数神经网络都缺乏回溯的能力。 此功能很难设计。 单向网络的优点之一是它们相对容易训练-只需将图像“传递”通过提到的六层并获得结果。 但是,如果神经网络应该“仔细观察”,它们还需要区分一条细线,什么时候可以返回以及何时继续工作。 人脑在这些不同的过程之间轻松自然地切换。 而且神经网络需要一个新的理论基础,以便它们可以做到相同。

来自世界各地的领先研究人员正在朝这个方向努力,但他们也需要帮助。 最近,Google AI项目宣布了一项针对众包图像分类器的竞赛 ,可以区分故意图像失真的情况。 可以将鸟的图像与自行车的图像区分开的解决方案将获胜。 这将是一个适度但非常重要的第一步。

图片

Source: https://habr.com/ru/post/zh-CN424855/


All Articles