语言感知机器将非常有帮助。但是我们不知道如何构建它们。

关于本文的插图：用计算机理解语言的困难之一是事实，单词的含义常常取决于上下文，甚至取决于字母和单词的外观。在本文提供的图像中，几位艺术家演示了各种视觉提示的使用，这些提示传达了超出字母本身边界的语义负荷。

在韩国首尔举行的紧张的围棋比赛中，有史以来最出色的选手之一与谷歌创建的AI AlphaGo之间进行了激烈的对抗，证明了该程序比人类对手优越的优势。

在第37步中，AlphaGo决定乍一看将黑石头放在一个奇怪的位置。一切都到了这样的地步，她不得不失去一块很大的领土-初学者在基于棋盘空间控制的游戏中犯了一个错误。两名电视评论员在讨论他们是否正确了解计算机的运行过程以及是否损坏。事实证明，尽管存在常识矛盾，但第37步行动使AlphaGo可以在板子的中心构建一个无法逾越的结构。 Google的计划从根本上赢得了这场比赛的胜利，这一举世无双。

AlphaGo胜利这也给人留下了深刻的印象，因为古代的围棋游戏经常被视为对直觉智力的测试。它的规则很简单。两名玩家轮流在棋盘的水平线和垂直线的交点处放置黑色或白色的石头，试图包围对手的棋子并将其从棋盘上移开。但是，要想发挥出色是非常困难的。

如果国际象棋棋手能够提前数步来计算游戏，那么进行下去将很快成为一项难以想象的艰巨任务，此外，游戏中没有经典的技巧。也没有简单的方法来衡量收益，即使对于有经验的玩家，也很难解释他为什么这样做。因此，不可能编写一组简单的规则，而专家级播放的程序将遵循这些规则。

没有教AlphaGo玩围棋。该程序分析了数十万场比赛，并自己进行了数百万场比赛。在各种AI技术中，她使用了越来越流行的称为深度学习的方法。它基于数学计算，其方法的灵感来自于在处理新信息时如何激活大脑中神经元的互连层。该程序在许多小时的实践中自学成才，逐渐磨练了对战略的直觉。她当时能够击败世界上最好的棋手之一，这一事实是机器智能和AI的新里程碑。

在第37步移动后的几个小时，AlphaGo赢得了比赛，并在五场比赛中开始2-0领先。此后，塞多尔站在一群记者和摄影师的面前，并为让人类失望而表示了歉意。“我无语了，”他说，在闪光的瞬间闪烁。

AlphaGo惊人的成功表明，在经历了数十年的绝望和挑战（被称为“人工智能的冬天”）之后，过去几年来，人工智能在人工智能方面取得了巨大进步。深度学习允许机器自行学习如何执行复杂的任务，如果没有人类的参与，几年前的解决方案是无法想象的。机动机器人已经迫在眉睫。在不久的将来，深度学习系统将有助于诊断疾病并提供治疗建议。

尽管取得了令人印象深刻的进步，但AI并没有以任何方式提供主要可能性之一：语言。诸如Siri和IBM Watson之类的系统可以识别简单的口头和书面命令并回答简单的问题，但是它们无法保持对话或实际上无法理解所使用的单词。为了让AI改变我们的世界，这必须改变。

尽管AlphaGo不会说，但它具有可以更好地理解该语言的技术。在Google，Facebook，亚马逊和科学实验室，研究人员正在尝试使用相同的AI工具（包括深度学习）解决这个顽固的问题，这些工具对AlphaGo的成功和AI的兴起负有责任。它们的成功将决定已经开始成为AI革命的事物的范围和属性。这将决定我们的未来-我们将拥有易于与之通信的机器，还是拥有AI的系统将保持神秘的黑匣子，尽管它具有更高的自治性。麻省理工学院认知科学与计算教授乔什·特南鲍姆（Josh Tenenbaum）说：“除非基于语言，否则无法用AI创建类人系统。” “这是定义人类智能的最明显的事物之一。”

也许允许AlphaGo征服go的相同技术将允许计算机掌握该语言，否则将需要其他一些东西。但是，如果不了解语言，人工智能的影响将有所不同。当然，我们仍然会拥有像AlphaGo这样不切实际的强大智能程序。但是我们与AI的关系不会那么紧密，而且可能不会那么友好。“从研究开始以来，最大的问题是：“如果您获得的设备在效率方面很智能，但在对我们的身份缺乏同情方面却不像我们那样呢？” Terry Winograd说斯坦福大学教授。“您可以想象不基于人类智能的机器，它们可以处理大数据并控制整个世界。”

与汽车交谈

AlphaGo胜利后的几个月，我去了AI繁荣的心脏硅谷。我想与在AI的实际应用中取得重大进展并试图使机器对语言有理解的研究人员见面。

我从Vinohrad开始，他住在帕洛阿尔托斯坦福大学校园南端的郊区，离Google，Facebook和Apple总部不远。他卷曲的白发和浓密的胡须使他看起来像一位受人尊敬的科学家，并且他的热情感染着他。

1968年，Grapes进行了最早的尝试来教机器如何说话的尝试之一。作为一个对语言充满热情的数学天才，他来到新的MIT AI实验室获得学位。他决定创建一个程序，通过日常语言的文本输入与人交流。当时，这似乎不是一个大胆的目标。人工智能的发展迈出了非常大的一步，麻省理工学院的其他团队也建立了复杂的计算机视觉系统和机器人操纵器。他回忆说：“有一种未知和无限可能性的感觉。”

但是并非所有人都认为语言是如此容易征服。一些批评家，包括有影响力的语言学家和麻省理工学院的教授诺姆·乔姆斯基（Noam Chomsky），都认为AI研究人员很难教机器理解，因为人类对语言的理解力很差。格雷普斯回想起一个聚会，一个学生乔姆斯基在得知他正在AI实验室工作后离开了他。

但是有乐观的理由。麻省理工学院的德国裔教授约瑟夫·魏曾鲍姆（Joseph Weizenbaum）几年前提出了第一个聊天机器人程序。她的名字叫ELIZA，她被编程为像卡通漫画中的心理学家一样做出回应，重复陈述的关键部分或提出启发继续对话的问题。如果您告诉她您对母亲生气，该程序可能会说：“想到母亲时您还会想到什么？”。一种便宜的技巧，效果惊人。当一些受试者开始用他的汽车验证他们的黑暗秘密时，魏森鲍姆感到震惊。

葡萄想做些可以令人信服的假装，使他假装自己懂这种语言。他首先缩小了问题的范围。他创建了一个简单的虚拟环境，即“块世界”，它由一个虚拟桌子上的一组虚拟对象组成。然后，他创建了一个程序，命名为SHRDLU，可以解析在简化的虚拟世界中进行交流所需的所有名词，动词和简单的语法规则。 SHRDLU（由线性打字机键盘的一行字母组成的无意义的单词）可以描述对象，回答有关它们之间关系的问题，并根据输入命令更改块世界。她甚至还具有一定的记忆力，如果您要她移动“红色圆锥体”，然后写下某个圆锥体，她会认为您已经想到了这个红色圆锥体，而不是其他任何圆锥体。

SHRDLU已成为AI取得巨大进步的旗帜。但这只是一种幻想。当Vinograd试图扩展程序的块世界时，解决其他单词和语法困难所需的规则变得不可控制。仅仅几年后，他投降并离开了AI领域，专注于其他研究。他说：“这些限制比当时看起来要强大得多。”

格雷普斯认为，利用当时可用的工具，不可能教机器真正地理解语言。根据加州大学伯克利分校哲学教授休伯特·德雷福斯（Hubert Dreyfus）的说法，问题在于，他在1972年发表的《计算机不能做什么》一书指出，许多人类行为都需要本能的理解不能通过一组简单的规则来设置。这就是为什么在Sedol和AlphaGo比赛开始之前，许多专家怀疑这些机器是否能够掌握围棋游戏。

但是，在Dreyfus证明自己的观点的同时，数名研究人员正在开发一种方法，最终将为机器提供所需的智能。受神经科学的启发，他们进行了人工神经网络的实验-神经元的数学模拟层，可以训练它们响应某些输入数据来激活。最初，这些系统的运行速度极慢，并且由于逻辑和推理的不切实际而被拒绝。但是，神经网络的一个关键功能是能够学习未手动编程的内容，后来证明对诸如手写识别之类的简单任务很有用。该技能在1990年代发现了商业用途，可以从支票中读取数字。该方法的支持者相信，随着时间的流逝，神经网络将使机器做更多的事情。他们声称，有一天这种技术将帮助并识别该语言。

在过去的几年中，神经网络变得越来越复杂和强大。由于关键的数学改进，更重要的是，更快的计算机硬件和大量数据的出现，该方法得以蓬勃发展。到2009年，多伦多大学的研究人员表明，多层深度学习网络可以以记录精度识别语音。 2012年，同一小组使用深度学习算法赢得了机器视觉竞赛，该算法显示了惊人的准确性。

深度学习神经网络可以通过简单的技巧识别图片中的对象。模拟的神经元层接收输入作为图片，并且响应于单个像素的强度激活一些神经元。产生的信号在到达输出层之前先经过许多相互连接的神经元层，从而发出观察对象的信号。一种称为“反向传播”的数学技术用于调整网络神经元的灵敏度，以创建正确的答案。正是这一步为系统提供了学习的机会。网络上的不同层会响应诸如边缘，颜色或纹理之类的属性。如今，这样的系统能够识别与人类相抗衡的物体，动物或面部。

将深度学习技术应用于语言存在一个明显的问题。单词是任意字符，这就是它们与图像的本质区别。两个词可能具有相似的含义，并且包含完全不同的字母。取决于上下文，同一个单词可能意味着不同的含义。

在1980年代，研究人员提出了一个棘手的想法，即将语言转变为神经网络可以处理的问题。他们表明，单词可以表示为数学向量，这使我们能够计算相关单词的相似度。例如，“船”和“水”在向量空间中很接近，尽管它们看上去有所不同。由Yoshua Bengio领导的蒙特利尔大学的研究人员和另一个Google团队使用此思想构建了网络，其中句子中的每个单词都用于构建更复杂的表示形式。多伦多大学的教授，也是著名的深度学习研究人员（也为Google服务）的杰弗里·欣顿（Geoffrey Hinton）将此称为“心理媒介”。

使用两个这样的网络，您可以将一种语言翻译成另一种语言。将这些类型的网络与识别图片中对象的网络相结合，您可以获得令人惊讶的准确字幕。

生活的意义

该公司的一位研究人员Quoc Le坐在加利福尼亚州芒廷维尤市繁华的Google总部中心的一间会议室中，他研究了这种能够支持真实对话的机器的想法。Lee的雄心壮志解释了说话机器如何有用。他说：“我需要一种模拟汽车思想的方法。” “而且，如果您想假装自己是个想法，那么您可以问这辆车她在想什么。”

Google已经在向计算机教授该语言的基础知识。今年5月，该公司推出了Parsey McParseface系统，该系统可以识别语法，名词，动词和其他文本元素。容易理解语言对公司有何帮助。 Google搜索算法曾经只是简单地跟踪网页之间的关键字和链接。现在，RankBrain系统将读取页面文本以了解其含义并改善搜索结果。 Lee希望进一步推动这一想法。他和他的同事改编了一个对图像的翻译和签名有用的系统，创建了智能回复，该功能可读取Gmail上信件的内容并提供可能的答案。他们还创建了一个程序，该程序通过Google支持聊天学习，可以回答简单的技术问题。

Lee最近创建了一个程序，可以为棘手的问题提供不错的答案。她接受了18900部电影的对话训练。一些答案令人震惊。例如，李问“生活的目的是什么？”，程序回答“为更高的福利服务”。 “这是一个很好的答案，”他笑着回忆。 “也许比我自己回答要好。”

查看更多系统响应时，只有一个问题变得明显。当李问“猫有几只腿？”时，系统回答：“我认为有四只。”然后他问：“ a有几条腿？”然后收到一个奇怪的回答：“八”。实际上，李的程序不理解他在说什么。她了解符号的某些组合会组合在一起，但不了解现实世界。她不知道a是什么样子或如何移动。这仍然是人们没有理智的幻觉，没有常识。从这个意义上说，深度学习系统相当不稳定。 Google的一种系统会为图像创建标题，有时会犯一些奇怪的错误，例如，它将一个路标描述为装有食物的冰箱。

碰巧的是，特里·维诺格拉德（Terry Vinohrad）在帕洛阿尔托（Palo Alto）的邻居竟然是一个可以帮助计算机更好地理解单词真正含义的人。斯坦福大学人工智能实验室主任李飞飞在我访问期间正在休产假，但她邀请我回家，并自豪地将我介绍给了她三个月大的婴儿菲尼克斯。 “注意，她对你的看比对我的看要多。”凤凰卫视盯着我时，李说。 -这是因为你是新来的；这是早期的面部识别。”

Lee在其职业生涯的大部分时间里都研究了机器学习和计算机视觉。几年前，在她的领导下，试图创建一个包含数百万个对象图像的数据库，每个图像都用相应的关键字签名。但是Lee认为，机器需要对世界上正在发生的事情有更复杂的理解，今年她的团队发布了另一个包含图像的数据库，其中的注释更加丰富。对于每张照片，人们都做出了数十个签名：“滑板上的狗”，“狗有浓密的挥舞着的皮毛”，“有裂缝的道路”等等。他们希望机器学习系统能够学习理解物理世界。 “大脑的语言部分会收到很多信息，包括来自视觉系统的信息，” Lee说。 “人工智能的重要组成部分将是这些系统的集成。”

这个过程更接近于教导孩子将单词与对象，关系和动作联系起来。但是，与教导人们的类比并不过分。孩子们无需在滑板上看到狗就能想象或用语言描述它。 Lee认为，当今用于AI和机器学习的工具不足以创建真正的AI。她说：“这不只是具有大型数据集的深度学习。” “我们人类在大数据计算方面做得很差，但是在抽象和创造力方面做得很好。”

没有人知道如何赋予机器这些人类特质，以及这是否完全可能。是否有某种人类特有的东西不允许AI拥有它们？

认知科学专家，例如麻省理工学院的Tenenbaum，认为当今的神经网络缺乏思维的关键组成部分-无论这些网络的大小如何。人们能够在相对少量的数据上相对快速地学习，并且他们具有有效地模拟三维世界的内置能力。特南鲍姆说：“这种语言是建立在其他可能性之上的，甚至可能在他们开始掌握该语言之前就已经存在于更深的婴儿中了：对世界的视觉感知，与我们的运动器械一起工作，对世界物理学的理解以及对其他动物的意图。”

如果他是对的，那么如果不尝试模拟人类的学习过程，创建心理模型和心理学，将很难在AI中重新获得对语言的理解。

讲解

斯坦福大学心理学系的诺亚·古德曼（Noah Goodman）的办公室几乎是空的，除了其中一堵墙壁上的几幅拼写绘画和几棵杂草丛生的植物。在我到达时，古德曼在笔记本电脑上乱涂了一些东西，赤脚放在桌子上。我们在阳光明媚的校园里走来走去买冰咖啡。他解释说：“语言的独特之处在于，它不仅依赖于有关该语言的大量信息，而且还依赖于对我们周围世界的普遍理解，而这两个知识领域彼此隐含地相关。”

古德曼和他的学生开发了Webppl编程语言，该语言可用于赋予计算机概率性常识，这在对话中非常重要。一个实验版本能够识别文字游戏，另一个则是夸张。如果她说有些人必须花费“永恒”在餐馆里等待餐桌，她会自动决定在这种情况下使用该词的字面意思是不太可能的，并且人们很可能会等待很长时间并感到烦恼。该系统还不能称为真正的智能，但是它显示了新方法如何帮助AI程序更生动地进行交谈。

古德曼（Goodman）的例子还表明，教机器语言将是多么困难。在特定情况下理解“永恒”一词的含义是AI系统必须学习的示例，而这实际上是相当简单且基本的事情。

尽管如此，尽管任务很复杂，但使用深度学习识别图像或玩游戏的研究人员的初步成功给我们带来了希望，我们即将在语言领域取得突破。在这种情况下，这一突破及时出现了。如果AI应该成为一种通用工具，帮助人们补充和增强自己的智力，并以一种没有问题的共生模式执行任务，那么语言就是实现这种状态的关键。尤其是如果AI系统将越来越多地使用深度学习和其他技术进行自我编程。

麻省理工学院的机器人车辆教授约翰·伦纳德说：“总的来说，深度学习系统令人吃惊。 “另一方面，他们的工作很难理解。”

正在研究各种自动驾驶技术的丰田汽车已经在MIT发起了由AI和编程语言专家Gerald Sussman领导的研究项目，目的是开发一种可以解释为什么在某个时候或为什么自动驾驶系统的自动驾驶系统。另一个动作。做出这种解释的明显方法是口头的。 “创建知识渊博的系统是一个巨大的挑战，”在麻省理工学院负责另一个丰田项目的伦纳德说。 “但是，是的，理想情况下，他们不仅应该给出答案，而且应该给出解释。”

从加利福尼亚回来的几周后，我会见了Google DeepMind研究人员和AlphaGo开发人员David Silver。他在纽约的一次科学会议上谈到了与塞多尔的比赛。希尔弗解释说，当第二局的程序果断地采取行动时，他的团队会比其他人感到惊讶。他们只能看到AlphaGo预测了获胜的机会，而这一预测在第37步之后并没有太大变化。仅仅几天后，团队在仔细分析了游戏之后，发现了一个问题：通过消化以前的游戏，该程序计算出人类玩家可以以10,000分之一的概率做出这样的举动。她的训练游戏表明，这样的动作提供了异常强大的位置优势。

因此，从某种意义上说，赛车知道此举将打击塞多尔的弱点。

西尔弗说，谷歌正在考虑将这种技术商业化的几种方法，包括智能助手和医疗保健工具。演讲后，我问他关于能够与控制此类系统的AI进行通信的重要性。 “一个有趣的问题，”他停顿了一下。 -对于某些应用程序，这可能很有用。例如，在医疗保健中，了解为什么要做出特定决定可能很重要。”

实际上，人工智能正变得越来越复杂和混乱，很难想象我们将如何在没有语言的情况下与他们一起工作-没有能力问他们“为什么？”。此外，轻松与计算机通信的能力将使它们更加有用，看起来像魔术。毕竟，语言是我们了解世界并与之互动的最佳方式。现在是汽车赶上我们的时候了。

人工智能存在语言问题

语言感知机器将非常有帮助。但是我们不知道如何构建它们。

与汽车交谈

生活的意义

讲解

More articles: