
尽管没有特别的教导,但是年龄惊人的人们已经能够识别并收藏他们喜欢的物品。 根据对认知能力发展的
研究,与我们周围世界的物体进行交互的可能性在诸如感知和操纵物体(例如目标捕获)之类的能力的发展中起着至关重要的作用。 与外界互动时,人们可以通过纠正自己的错误来学习:我们知道我们做了什么,并从结果中学到东西。 在机器人技术中,人们积极地研究了这种具有错误自我纠正功能的训练方法,因为它可以使机器人系统无需大量的训练数据或手动调整即可学习。
Google受到
对象持久性概念的启发,提供了
Grasp2Vec系统-一种构造对象表示的简单而有效的算法。 Grasp2Vec基于一种直观的理解,即尝试举起任何物体都会为我们提供一些信息-如果机器人抓住并拾取了该物体,则该物体需要在该位置之前被捕获。 另外,机器人知道如果捕获的对象在其捕获中,则意味着该对象不再位于其所在的位置。 使用这种形式的自学习,机器人可以学习识别由于捕获对象后场景中的视觉变化而引起的对象。
基于我们
与X Robotics的
合作 ,在该培训中,仅使用一台摄像机作为输入数据源,就同时培训了多个机器人来捕获家用物体,我们使用机器人捕获来“无意间”捕获物体,这种经验使我们对物体有了丰富的认识。 当机器人手臂可以按需举起物体时,这种想法已经可以用来获得“有意捕获”的能力。
创建感知奖励功能
在
强化学习平台上
,任务
的成功是通过奖励函数来衡量的。 通过最大化奖励,机器人可以
从头开始学习各种捕捉技能。 当可以通过简单的传感器读数来衡量成功时,创建奖励功能很容易。 一个简单的示例是一个按钮,通过单击该按钮可以将奖励
直接转移
到机器人的输入 。
但是,当成功的标准取决于对任务的感知理解时,创建奖励功能就复杂得多。 在一个示例中考虑捕获问题,在该示例中,为机器人提供了捕获中保留的所需对象的图像。 机器人尝试捕获对象后,将检查捕获的内容。 此任务的奖励功能取决于对模式识别问题的答案:对象是否重合?
在左侧,手柄握住画笔,在背景中可见多个对象(黄色杯子,蓝色塑料块)。 在右侧,把手握住杯子,刷子在背景中。 如果左图表示期望的结果,则良好的奖励功能是“了解”这两张照片对应于两个不同的对象。为了解决识别问题,我们需要一个感知系统,该感知系统从非结构化图像(不是由人签名)中提取有意义的对象概念,并在没有老师的情况下学会可视化对象。 本质上,无教师学习算法通过创建有关数据的结构假设来工作。 通常认为图像可以
压缩到较小的空间 ,并且视频帧可以
从先前的帧中
预测出来 。 但是,如果没有关于数据内容的其他假设,通常这不足以从对象的不相关表示中学习。
如果我们在数据收集过程中使用机器人将对象物理分离怎么办? 机器人技术为学习如何表示对象提供了绝佳的机会,因为机器人可以操纵它们,从而提供必要的变化因子。 我们的方法基于以下想法:捕获对象会将其从场景中删除。 结果是1)捕获之前的场景图像; 2)捕获之后的场景图像; 3)捕获对象的单独视图。
左-要捕获的对象。 在中心-捕获后。 右边是捕获的对象。如果我们考虑从图像中提取“一组对象”的内置函数,则应保留以下减法关系:
捕获之前的对象-捕获之后的对象=捕获的对象我们通过卷积架构和简单的度量学习算法实现了这种平等。 在训练期间,下面显示的架构将捕获之前和之后的图像嵌入到密集
的空间特性图中 。 这些图通过平均并集变成矢量,“捕获前”和“捕获后”向量之间的差代表一组对象。 该向量和该感知对象的向量的对应表示通过N对函数等效。

经过训练后,我们的模型自然具有两个有用的属性。
1.对象的相似性
向量嵌入之间
的距离
的余弦系数使我们可以比较对象并确定它们是否相同。 这可用于实施奖励功能以进行强化学习,并允许机器人学习如何在没有人工标记的情况下捕获示例。

2.寻找目标
我们可以结合场景的空间图和对象的嵌入来在图像空间中定位“所需对象”。 进行空间特征图的逐元素乘法和所需对象的矢量对应,我们可以找到空间图上与目标对象相对应的所有像素。
使用Grasp2Vec镶嵌来定位场景中的对象。 左上方是篮子中的物品。 左下方-要捕获的所需对象。 目标物体的矢量和图像空间特征的标量积为我们提供了图像给定部分与目标相似度的每个像素的“激活图”(右上图)。 该地图可用于更接近目标。当多个对象对应于目标时,甚至当目标包含多个对象(两个向量的平均值)时,我们的方法也适用。 例如,在这种情况下,机器人会识别场景中的多个橙色块。
生成的“热图”可用于计划机器人到目标对象的接近。 我们将Grasp2Vec的本地化和实例识别与我们的“捕获任何东西”策略相结合,在数据收集过程中80%的案例中取得成功,在59%的情况下使用机器人以前从未遇到过的新对象取得成功。结论
在我们的
工作中,我们展示了机器人的抓手技能如何创建用于教授对象表示的数据。 然后,我们可以使用演示训练来快速掌握更复杂的技能,例如根据示例进行捕获,同时在我们的自主捕获系统中保留没有老师的所有教学属性。
除了我们的工作之外,其他几本近期著作还研究了如何在没有老师的情况下进行交互,通过
捕获 ,
推动和与环境中的对象进行其他类型的
交互来获取对象的表示。 我们很高兴地期待着不仅机器学习可以为机器人提供更好的感知和控制方面的知识,而且还期待机器人可以在新的自学范式方面为机器学习提供什么。