威廉·莎士比亚的字典是12,000个单词。 食人族“ Mumbo-Yumbo”的黑人字典为300个单词。 《 12把椅子》一书中的Ellochka Schukin轻松自如地花费了三十。
男人很容易理解Ellochka。 Sha,莎士比亚比Ellochka更喜欢计算机。 对于我们来说,了解上下文和语调就足够了-我们将弄清楚其余的内容-并且计算机在每个术语中都需要明确。 最好没有同义词。 每个单词后面隐藏的图像越多,理解起来就越困难。 人类单词的上下文相关性质只是用自然语言教授人工智能的困难之一。 如果您对情况有完整的描述,如果您可以将食用洋葱与切碎洋葱区分开来,那么仅通过语调就能识别出讽刺性或修辞性问题对意义的否定。 句子中的语法和单词顺序会带来额外的复杂性。
但是,OpenAI美国人工智能实验室的员工Igor Mordach认为Ellochkin语言还远没有走到尽头,而是一个非常合适的示例,即机器人将在其上构建用于交流的语言,然后他们将理解我们。 对于计算机Ellochka,只有30个字,他后悔。 在他的
实验中,一个计算机程序从头开始创建了该语言。

寻找与机器通信的通用语言
现在,认知系统领导者(IBM Watson,Google,ABBYY,Microsoft,Nanosemantics)中自然语言识别的准确性使我们能够大致理解其含义并在预先确定的主题知识库下回答书面问题,但是即使具有90%短语识别准确度的对话实际上也是很累。 对话式语音充满了感叹词,并且经常在大型公司中通过对话进行交流,这使该机器人能够将对话保持在三岁孩子的水平。
程序准确响应短语含义的能力将解决许多界面问题,这意味着将bot(人工智能代理)连接到任何日常人工任务。 甚至现在还与机器进行对话-例如,电视以遥控语言进行交流。 但是了解很少的团队。 而且他只有在编程后才能理解它们。 从这个简单的示例中可以明显看出,为了与多功能程序和设备(至少是机器人)进行快速灵活的通信,应该从对话中删除中介。 a,其中包括程序员。
计算机语言学的乐观主义者将希望与神经网络联系在一起。 在他们的理解中,唯一的问题是需要处理大量示例。 反对者认为这项任务无法解决。 并不是因为训练的规模,而是因为这项任务与在机器中创造意识的任务是等价的。 各方都解释了计数海豚或交流猴子以发挥其优势的例子-有些是视角,有些则是死胡同。 对于那些对Habré和GT的细节感兴趣的人,有很多关于自然语言的文章。 例如,
“自然语言识别简介”。这篇文章的主题是Igor Mordach所基于的第三种方法-让机器自己首先学习以他们创建的语言进行交流。 开发语言的过程将使人工智能的软件代理更好地理解将术语调整为新含义,短语形成规则的算法,并将此知识用于与人的对话。 这正是Mordach之前完成工作的人,Mordach以前是创建移动机器人电影英雄的专家。 考虑到这一背景,Igor决定在运动训练中包含用于收集信息及其部分同时使用的算法,这些算法可用于任何训练中。
为了向机器人教授机器人(软件代理)的语言,他们将机器人置于“白方块”的条件宇宙中,为他们设定目标,运动的能量以及处理将自己与目标联系起来的经验的能力。 最初,机器人只具有最少的操作命令集,成功的个人经验,并且还提供了一种交换信息的方式-通过紧密的“触觉接触”或通过远程的“听觉与视觉”原型(此处更适合使用信息流向这一术语)。 僵尸程序在“白色方块”的条件宇宙中的目的是为您自己达到某个点,将您的目标告诉另一个代理,交换目标,将另一个代理推向目标,而无需他们之间进行信息交换。 目标和漫游器的颜色或大小不同。
对于特工史密斯,由Mordach创建的矩阵看起来像这样:

在OpenAI实验中,衡量试错成功的参数是实现目标的事实和速度。 它们可能是白方块虚拟世界中某个点的无所作为或运动(与目标直接接触或通过其他代理进行接触)。 目标实现得越快,当前目标对话框中使用的术语列表越有用。 目标和成功都是个人的和集体的。
在完成任务的过程中,机器人通过传统上与人类相对应的新概念(从运动术语到概念:上,下,右,左)丰富了语言储备。 Mordach希望通过设置单词形成规则,机器人可以更轻松地“理解”人类语言中的相同规则。 包括学习使用比较和不确定术语的准确性。 人工智能对抽象和广义术语的理解很差。 更准确地说,他根本什么都不懂,但是他准备使用某些短语,而对于另一些短语,则有必要获取明确的信息。 在“汽车快速行驶”的表达中,至少需要测量“快速”一词。 即使在流量规则方面,“快速”仍然是适合某个时间间隔的一系列值。 更准确地说,有几个间隔-适用于城市,高速公路和农村地区。
神经网络当然知道如何使用模糊的术语,但是它们的训练通常不是从头开始的,它包含许多起始处理规则,并且也不依赖于通过信息传输的信道类型积累的信令经验。 这些是Mordach实验的主要新颖之处。
机器人的远程通信和触觉通信的比较:


当然,缺乏身体和边界使所有这些条件成为条件。
值得注意的是,每个机器人的成功都被计算为所有机器人成功的一小部分,从而鼓励了合作以实现目标。 也就是说,词汇的质量是根据所使用语言的总和来估算的。 事实证明,必须有人收集和报告实现目标的次要情况,如果每个承运人单独实现目标,则将阻止实现这些目标。 统计规则20/80-接收20%的信息可实现目标的80%-它在单个主题的水平上起作用,但是在团队中,某人应始终将其收集到的信息的100%分配给实现目标的另外1%。
视频中显示了机器人在研究Mordach时遇到的所有“口头”和“非口头”接触交流的情况:
机器人交流导致的人造和不起眼的矩阵
Mordach的主要思想是确保理解“周围的世界”,机器人为这种理解创造必要的语言。 在他的概念中,语言是行动的结果。 其他科学家提请注意以下事实:一种发达的语言和在抽象主题上进行交流的能力将使机器可以创建自己的想法,描述和创建以前不存在的新实体。 离我们的世界的转变不远。
理解自然语言的能力被认为与交流主题中意识的存在密切相关。 理解所说的含义的能力会导致机器中意识的出现吗? 也许只有具有类人创造力的人才能完全理解自然语言,并且在自己的环境中创建机器人语言将导致使用此版本或那个版本的Agent Smith的智能机器人。
在训练过程中设置机器人优先级与机器可靠性和可预测性的工程原理背道而驰。 优先级的不可预测性,幻想能力,自我教育能力,人类之间的机器人之间的通信保密性-在先前的OpenAI
实验中已经体现出来。 没有最终目标的约束,这些课程在学习过程中会出现意想不到的优先事项。 在虚拟赛艇比赛的实验中,机器人相关任务的实施变得比1位更有利可图,并且通常将比赛进行到最后。 完成相关任务可增加20%的积分。
很熟悉,不是吗? 罗伯特·谢克利(Robert Sheckley)在65年前的著名故事《卫报》中描述了这一点,从防止杀害到阻止地球上的任何活动,而忽略了主要工作的其他优先事项和任务:
杰克逊打哈欠,把汽车停在路边。 他没有注意到天空中闪闪发光的点。 他不需要提防。 确实,根据所有人类的观念,他根本没有策划谋杀案。
他伸出手,想关掉点火开关……然后有什么东西把他扔回到了机舱的墙上。
“一个笨蛋,”他对悬挂在他身上的机械鸟说。 车没电了。 我根本不想杀了他。
但是守护鸟知道一件事:某些动作会停止身体的活动。 当然,汽车是一种活跃的生物,毕竟它是由金属制成的,就像监护鸟一样,不是吗? 在移动时...
在漫游器中创建自己的语言可能会超出他们自己创建虚拟世界的范围。 至少在人类历史上,存在这样的先例。 引用托尔金:
语言的发明是我工作的基础。 写“故事”的目的更多是为了为这些语言创造一个世界,反之亦然。 对我而言,单词首先出现,然后是与之相关的故事。 我宁愿写“精灵”。 但是,当然,《指环王》这样的书经过了认真的编辑,我在那里留下了读者可以消化的尽可能多的“语言”(尽管现在我发现很多人想要更多)。 [...]无论如何,对我而言,这在许多方面都是关于“语言美学”的文章,有时我会回答那些问我写我的书的人。
OpenAI也担心机器会比我们理解的早思考的事实。 如果机器人也有自己的语言,那么人们几乎肯定会错过这一刻。 因此,Mordach的任务不仅是创建机器人的语言,而且还需要创建人工翻译。 首先,当然是英语。
针对这种恐惧,伊戈尔引用了意识哲学和人工智能哲学领域内著名的思想实验,该实验被约翰·塞尔(John Searle)于1980年出版。 塞尔的陈述的实质是,理论上完全无意识地进行任何正式交流都是可能的,但要使用相当详细的规则来解释对话者的问题以寻求答案。 塞尔更笼统的结论表明,句法构造的任何操纵都不能导致理解。
在这种情况下,一个人自己的语言和一个自己的虚拟宇宙根本不意味着其代理和客体之间存在意识。 就像在电脑游戏中一样。 或者,正如某些人所相信的那样,作为一个意识只是大脑内部一种清晰的“人工”语言与外界信号的自然噪声之间的语义通道的人。