
思想实验
想象一下,你在一个陌生的房间里醒来。 这不是一间让您入睡的舒适卧室,而是一间昏暗的房间,地板凉爽潮湿。 墙上的裂纹的石膏。 而且唯一的入口和出口应该是一扇巨大的铁门,从里面用挂锁锁着。 墙壁上高一点的是一个禁止通行的窗户,可以让一些光线通过。 如果环顾四周,您会得出结论自己被困,这是完全合理的。 看起来糟透了。
但这会让您满意吗? 可能不是。 您可能需要多探索一下房间,或者拉一下挂锁以尝试其可靠性。 或想测试这些抹灰墙的强度。 也许遭受了一些重创,您就可以摆脱困境了? 还是窗上的这些炉排有这么大的开口,您可以爬出来? 与环境的交互作用比被动的观察给您更多的信息。 视觉可能是一种假设,但对其进行测试需要与环境进行真正的互动。
概念的概念
内容和结论是概念。
狗也是一个概念。 以及
奔跑 ,
森林 ,
美丽 ,
绿色或
死亡 。 概念是抽象,我们有别于与世界的日常互动。 它们构成了人们理解世界所需的可重用知识的基础。
当我们对某件事有概念上的理解时,这意味着我们对这件事有一定的经验,我们以某种方式掌握了它。 就内容而言,这种经验意味着我们可以识别世界中可以包含某些东西的容器对象,将它们与“非容器”分开,将一些东西放进去,拿回去,并预测会发生什么,如果我们能以某种方式与他们互动。 我们甚至可以查看新事物,并了解它们是否本身可能包含某些东西,反之亦然-是否可以将它们包含在其他主题中。
人工智能中概念理解的主要方法,包括在像
ImageNet这样的数据集上训练的深度学习系统,显然具有其中一些能力,但它们缺乏更深刻的理解-来自交互的经验。 通过感知图像甚至视频,这些方法可能能够确定其上是否存在特定类型的“容器”,例如杯子,房屋或瓶子,还可以确定该对象在图像中的位置。 但是,当遇到未开发类型的此类对象时,它们几乎肯定会失败。 在这样的系统中,将自己放置在某处的请求只会产生完全的误解,因为它使容器对象的概念与一系列视觉标志相关联,但对某物内部的内容术语没有积极的了解。
感觉运动经验的概念
亨利·庞加莱(HenriPoincaré)是最早强调感觉运动表征在人类理解中的角色之一。 他在他的《科学与假设》一书中指出,一个静止的生物永远无法掌握三维空间的概念。 不久前,几位认知科学家建议概念表示来自感知和行为的整合。 例如,
O'Regan和Noë将感觉运动体验定义为“定义各种运动动作所产生的感觉变化的规则结构”,将被动观察定义为“依赖感觉运动体验知识的探索世界的方式”。
Noë补充说:“概念是一种管理周围事物的方法。”
尽管感觉运动体验的重要性已在认知社区中得到认可,但这些想法已经导致仅几个特定的计算模型探索其在塑造概念中的作用。 在AAAI-18上发表的
文章中,我们展示了一个计算模型,该模型通过与环境的交互来探索概念。
我们做了什么
我们计划实现并研究构成概念理解的两个主要能力:主动发现概念的能力和得出结论或对该概念采取行动的能力。 另外,我们想研究交互能力优于被动方法的情况,并了解使用已经研究的简单概念如何帮助研究更复杂的概念。
我们首先开发了一个特殊的虚拟培训场来探索活跃的概念,我们将这个环境称为
PixelWorld (可在
github上找到 )。 在这个世界上,事物的安排比在现实世界中要容易一些。 这是一个离散的二维字段,包含像素代理和一个或多个其他类型的对象,该对象也由像素(例如,线,点或容器)组成。
该代理的实现方式非常简单:它只能感知自身周围3×3个单元的空间,并且可以向上,向下,向左,向右或停止移动并发送一些信息。 这样的实现甚至需要研究关于世界的最基本概念,包括对象的概念和交互概念的概念。 尽管事实上这似乎是过度的感觉剥夺,但消除丰富的视觉感知却使我们能够专注于将多方面行为转化为有意义的世界观的作用。
我们在两种不同的任务中训练了特工。 第一项任务是调查环境并报告环境中是否存在必要的概念。 例如,一个容器。 如果答案是正确的,那将是有益的。 第二项任务是针对这一概念采取行动。 例如,将自己放在此容器中。 如果他正确地完成了任务并报告了任务,这将得到回报。 为此,我们使用了强化训练。
例如,我们教导了代理确定他何时被封闭在水平平面的对象中。 下面的动画演示了此行为:代理检查右侧是否有墙,然后检查左侧是否有墙。 成功通过两项测试后,他报告称自己“被拘留”。

当下一个特工被侧面上已经有两个物体包围时,我们训练了下一位特工以了解同一件事:一个坚固的容器和一个带孔的容器。 动画显示代理进入正确的对象,检查它是否为固体容器。 它检测到一个洞,然后爬到左侧的容器中,最后发出信号表明它已被拘留。

通过分析代理的行为记录,我们可以更详细地了解代理的行为:

上图显示了代理在上述动画中执行的每个动作。 每个方框代表一个动作,时间从左到右增加。 “向下”,“向右”,“向上”和“向左”是代理的主要动作,“ SMC”的每一行代表代理可以执行的感觉运动交互的特殊情况。 SMC(
感觉运动偶发事件-大约翻译 )可以表示为小程序,执行该程序时,将使用一系列基本操作,直到代理决定停止并发送两个信号中的一个,这两个信号均表示成功(“ SIG1”,绿色)或失败(“ SIG0”,红色)。 这些SMC都是由经过培训以解决更简单的概念性问题的代理商产生的。 例如,如果“ SMC 3”最初在其左侧的地板上,则经过训练可以爬入容器。 这是代理在步骤0到11的动画中所做的第一件事。 因此,代理可以执行复杂的任务,例如对结论做出最终结论,执行一系列相应的低级SMC。
之后,我们将概念扩展到了结论条款之外,并包括了在一个对象之上或在两个对象左边的概念:


仅在一个环境中训练这些代理是不够的,因为要了解环境的哪些方面与概念有关而哪些与概念无关,则需要许多不同的环境。 如此多种类型的环境的存在还使我们能够确定主动方法和重用先前开发的行为将从被动方法中受益的类型。
为了满足这一需求,我们基于一阶逻辑应用了一种特殊类型的记录,以准备用于实验的数据阵列,并使用逻辑表达式生成媒体并针对其中表示的概念对其进行标记。 我们已经创建了96个这样的数组,这些数组按从简单到复杂概念的训练块进行组织。 PixelWorld版本中包含上述记录系统和环境。
我们得到了什么
我们使用卷积神经网络将主动方法与被动方法进行比较,该方法基于对整个环境的静态感知而经过训练,可以确定概念是否存在。 对于使用“结论”的概念,交互式方法显然优于卷积网络。 对于涉及具有多种形式和空间关系的不同对象的概念,我们发现卷积网络在某些情况下效果更好,而在其他情况下效果更差。 应该注意的是,根据定义,被动方法不能与环境交互,因此在这种情况下,唯一可以预料的是对该概念的静态检测。 只有我们的主动方法在需要了解与该概念的某种相互作用或关系的环境中才能成功。
我们还发现,重用行为可以改善任务(检测和交互)的结果,在概念包含多个对象或行为中需要复杂序列的情况下,结果最为明显。
结论
我们的工作表明,互动的感觉运动概念性表示形式可以被形式化和吸收。 虽然本文中反映的实验有助于以一般的方式确定交互作用,但将它们与
生成视觉系统的方法结合起来对于研究现实世界的概念可能是有用的。 此外,将感觉运动表示与“
模式网络 ”之类的技术结合起来,将使代理具有外部世界的内部表示,可用于模拟和规划。
尽管失控的人工智能是科幻电影最好的话题,但我们认为,从感觉运动交互中提取概念是超越现代被动人工智能技术的关键之一。