Google教机器人在“幼儿园”中执行新任务


在幼儿园,机器人学会开门,

学习能力是机器人最重要的能力之一。如果他们开始学习,随着时间的推移积累所需的信息,则可以将其用于执行未预先编程的复杂任务。任务可能非常不同-从照顾老人和医院的病人到打扫房屋。没错,如果您必须分别训练每个机器人,这将花费大量时间。但是如果机器人教机器人怎么办?如果一群机器人一起开始学习怎么办?

这个问题并不是什么新鲜事物;科幻小说家已经多次描述了这个问题。机器人技术和人工智能专家也正在尝试解决这一问题。 Google比其他人更多她对学习机器人感兴趣。实现所需目标的最简单方法之一可能是创建一个机器人的公共知识数据库,该数据库将收集每台机器收集的信息。

所有机器人都必须连接到该基座。如果一个机器人学到了什么,其他所有人都会立即获得知识和经验。Google员工在实践中测试了这个想法(也不是新鲜事物),并取得了良好的效果。特别是,其中一个机器人执行的动作立即成为其“同事”的财产。

机器人可以以完全不同的方式执行相同的动作。有时候会更好,有时会更糟。有关这些动作的任何信息都会被捕获并发送到服务器,在此使用神经网络对其进行处理。认知系统评估每台机器的动作,并仅选择有关正面体验的信息,并丢弃尝试完成一项或另一项任务失败的数据。机器人以一定的频率加载由神经网络处理的数据。并且随着每次新的下载,它们变得越来越有效。在下面的视频中,机器人研究了开门的过程。


经过数小时的培训,机器将有关其操作的信息传输到公共网络。在掌握开门过程中,机器人会研究此过程的详细信息,逐渐“理解”门把手所起的作用以及为尽快打开门需要做什么。


反复试验的学习过程很好,但并不完美。例如,人和动物还可以分析环境要素,评估其对行为的可能影响。随着人和动物的成长,形成了世界的某种图画。显然,人类比大多数动物要复杂得多,但是在两种情况下都有相似的元素。

因此,Google工程师决定向机器人展示物理定律如何影响他们的行为。在一个实验中,机器人被指示学习任何家庭或办公室常用的各种物体。这些是铅笔,钢笔,书籍和其他物品。机器人迅速学习并将信息传递给他们的“同事”。整个机器人团队在短时间内就意识到了其动作后果的概念。



在一个新实验中,工程师指示机器人将特定对象移动到给定点。但是,系统没有收到有关对象性质的任何指令。对象在不断变化。它可以是一瓶水,一罐啤酒,一支笔或一本书。事实证明,机器人使用以前与现实世界互动的经验数据完成了此任务。他们能够计算将物体在表面上移动到所需点的后果。

但是男人呢?


以前的两个实验是在没有人工帮助的情况下仅由机器人参与的。根据Google的说法,如果有人帮助机器,训练机器人系统的速度会大大提高。毕竟,一个人可以快速计算出某些动作的执行结果。例如,在一个实验中,一个人帮助不同的机器人打开不同类型的门。每个系统都有唯一的门和锁。

结果,为所有机器人开发了一种联合策略,称为“政治”。机器人的所有动作均使用深度神经网络进行处理。她处理了来自摄像机的图像,记录了机器人的动作,并将已经处理的信息以策略的形式传输到中央服务器。


机器人通过反复试验不断改进其“策略”。每个机器人都尝试使用最新的最新政策来打开门。机器人动作仍由神经网络处理并上传到服务器。随着时间的流逝,机器人的工作效率比第一次提高了。


机器人开始成功动作后,与机器人一起工作的每位讲师都在一定程度上改变了任务的条件。变化很大(门的位置,开度等),但是变化很大,因此以前制定的策略并不完全适合解决新问题。机器人逐渐学会了应对新条件,随后学会了执行打开不同门和锁的最艰巨的任务。最终的实验证明了这种训练的有效性:机器人能够打开门并锁上它们尚未遇到的东西。


该项目的作者声称,机器人彼此之间以及中央数据仓库之间的交互帮助他们更快,更有效地学习。神经网络的使用大大改善了初步结果。

不幸的是,到目前为止,机器人可以执行的任务非常有限。甚至没有给他们最简单的动作和任务,例如打开门或举起各种物体。人们仍然被迫告诉机器人该怎么做以及如何行动。但是算法正在逐步完善,并且神经网络已不再令人惊讶。因此,希望在不久的将来机器人仍然可以执行复杂的任务。也许未来已经来临。

Source: https://habr.com/ru/post/zh-CN398013/


All Articles