汽车在阅读测试方面已经领先于人们。 但是他们了解他们阅读的内容吗?

称为BERT的工具能够在阅读和理解测试中超越人们。 但是,他还演示了AI仍然需要走哪条路




2017年秋天,来自纽约大学的计算机语言学家山姆·鲍曼Sam Bowman)决定,计算机仍然无法很好地理解文本。 当然,他们学得足够好,可以在某些狭窄的领域模拟这种理解,例如自动翻译或情感分析(例如,确定句子是“粗鲁还是甜美”,如他所说)。 但是,鲍曼想要一个可衡量的证词:对以人类语言编写的内容的真实理解。 然后他想出了一个测试。

在2018年4月与华盛顿大学和DeepMind(一家从事人工智能的Google拥有的公司)的同事合作撰写的论文中,鲍曼提出了一组九项针对计算机的阅读理解任务,其通用名为GLUE(通用语言理解评估)[理解评估通用语言]。 鲍曼说,该测试被设计为“研究界认为有趣的任务的一个相当示意性的例子”,但这种方式“对人们来说很容易”。 例如,在一项任务中,询问有关句子真实性的问题,必须根据先前句子中的信息来估计该句子的真实性。 如果您可以说“特朗普总统已经开始了为期7天的访问,已经登陆伊拉克,”的信息暗示“特朗普总统正在国外访问”,那么您就可以通过测试。

汽车使他失败了。 即使是高级神经网络,所有测试的总分也不超过100分的69分-前三分为负。 鲍曼和同事们并不感到惊讶。 神经网络-具有与哺乳动物脑中神经元的工作大致相似的计算连接的多层结构-在“自然语言处理”领域显示出了良好的结果,但研究人员不确定这些系统是否学到了认真的知识语言。 GLUE证明了这一点。 “早期的结果表明,通过GLUE测试的能力超出了现有模型和方法的能力,” Bowman等人。

但是他们的评估并没有持续很长时间。 Google在2018年10月推出了一种新方法BERT(来自变压器的双向编码器表示)[用于变压器的双向编码器表示]。 他在GLUE中得分为80.5。 在这个新的测试中,仅用了六个月的时间,汽车就从三分减为四跳,变成了四分负。

“就像'该死的',”鲍曼回忆道,用了一个更加多彩的词。 -社区不信任地收到了此消息。 BERT在许多测试等级中获得的分数接近我们认为的最大可能值。” 确实,在GLUE测试中出现BERT之前,甚至没有任何人类成就的评估可与之比较。 当Bowman和他的一名研究生于2019年2月将它们添加到GLUE时,它们只持续了几个月,然后微软基于BERT的模型也击败了他们

在撰写本文时,GLUE测试中几乎所有第一位都被包含,扩展或优化BERT模型的系统占据。 他们中有五个人的才能超群。

但这是否意味着AI开始理解我们的语言,还是只是在学习击败我们的系统? 在基于BERT的神经网络席卷了GLUE类型测试之后,出现了新的评估方法,这些评估方法认为这些NLP系统是“ 聪明的汉斯 ”的计算机版本,这是一匹生活在20世纪初期的马,据称足够聪明,可以在脑海中进行算术运算,但实际上会读取其所有者给予它的无意识迹象。

鲍曼说:“我们知道,我们处于非常无聊和狭narrow的理解语言与创造AI之间的灰色地带。” -通常,专家的反应可以描述如下:这是怎么发生的? 这是什么意思? 我们现在该怎么办?”

编写自己的规则


在著名的“ 中文室 ”思想实验中,一个不懂中文的人坐在一个房间里,里面装满了许多有规则的书。 在书中,您可以找到有关如何接受进入房间的汉字序列并给出适当答案的确切说明。 一个人在房间门底下用手掌问中文。 里面的人按照规则转向书籍,并用中文制定出完全合理的答案。

这项实验用来证明尽管有外界的印象,但不能说房间里的人对中文有任何了解。 但是,即使是理解的模拟也是NLP可接受的目标。

唯一的问题是缺乏具有规则的完美书籍,因为自然语言过于复杂且缺乏系统性,无法简化为一套可靠的规范。 例如,采用以下语法:确定将单词分组为有意义的句子的规则(包括经验的)。 暴力地睡无色的绿色观念这句话有句法,但是任何知道该语言的人都可以理解其无意义。 哪本经过特别设计的规则书可以包含与自然语言相关的不成文事实,更不用说无数其他事实了?

NLP研究人员试图找到这个圆的正交点 ,迫使神经网络在所谓的过程中编写自己的手工规则书 “预培训”或预培训。

直到2018年,主要的培训工具之一就是字典。 该词典使用单词的矢量表示 [单词嵌入],以数字的形式描述单词之间的连接,以便神经网络可以将此信息视为输入-类似于中国房间中某人的粗略词汇表。 但是,矢量字典神经网络上的预训练仍然对句子级别的单词含义不了解。 “从她的角度来看,'人咬狗'和'人咬狗'这两个句子是相同的,”约翰·霍普金斯大学的计算机语言学家特尔· 林森说。


约翰·霍普金斯大学计算机语言学家Tel Linsen。

改进后的方法使用预训练为神经网络提供了更丰富的规则书-不仅是字典,还包括带有上下文的语法-在教其执行特定的NLP任务之前。 在2018年初,来自OpenAI,旧金山大学,艾伦人工智能研究所和华盛顿大学的研究人员同时提出了一种棘手的方法来实现这一目标。 研究人员开始使用单词的矢量表示来训练网络的第一层,而不是只训练其中一个,而是开始训练整个网络以执行更通用的任务,即语言建模。

“最简单的语言建模方法如下:我将阅读一堆单词并尝试预测以下内容,” Facebook研究人员Mile Ott解释说。 “如果我说'乔治·W·布什出生于',那么模型需要预测这句话中的下一个单词。”

经过深度培训的此类语言模型可以非常有效地创建。 研究人员简单地从Wikipedia之类的免费资源中向其神经网络提供大量书面文本(数十亿个单词以语法正确的句子排列),并允许网络自行预测下一个单词。 实际上,这等同于这样一个事实,即我们将使用传入的中文消息作为参考,邀请一个在中国会议室中的人创建自己的规则集。

奥特说:“这种方法的优点在于,该模型获得了大量的语法知识。”

而且,这种预训练的神经网络可以将其语言表示应用于微调过程,以教授与单词预测无关的较窄任务。

Ott解释说:“您可以从预训练阶段获取模型,并将其适应于您需要的任何实际任务。” “从那以后,与直接尝试解决问题相比,您得到了更好的结果。”

2018年6月,当OpenAI引入其包含的语言模型的GPT神经网络时,它花了一个月的时间训练了10亿个单词(摘自11038本书),其在GLUE测试中的得分为72.8分,立即成为最最好的。 尽管如此,萨姆·鲍曼(Sam Bowman)建议,在任何系统至少能够接近人的水平之前,该领域将发展很长一段时间。

然后BERT出现了。

有前途的食谱


那么,BERT是什么?

首先,它不是一个经过全面训练的神经网络,能够立即在人的层面上交付结果。 鲍曼说,这是“用于训练神经网络的非常准确的配方”。 面包师可以按照食谱确保提供美味的蛋糕-可以用于从蓝莓到菠菜乳蛋饼的各种蛋糕-Google研究人员创建了BERT食谱,可以作为“烘焙”神经网络的理想基础(即(它们的微调),以便它们能够很好地处理自然语言中的各种任务。 Google公开了BERT代码,这意味着其他研究人员不再需要从头开始重复此食谱,他们只需下载即可; 这有点像在商店里购买预先烤好的蛋糕换蛋糕。

如果BERT是食谱,那么其成分清单是什么? 分析 BERT设备的Facebook研究人员Omer Levy说:“这是三个不同的东西连接在一起的结果,因此系统开始工作。”


Omer Levy,Facebook研究人员

第一个是经过预训练的语言模型,即来自中文会议室的相同目录。 第二个机会是决定提案中哪些功能最重要。

2017年,Google Brain的工程师Jacob Uzkoreit致力于加快公司理解语言的尝试。 他指出,所有高级神经网络都有其固有的局限性:它们逐词研究句子。 这样的“顺序”似乎与人们阅读文本的想法相吻合。 但是,Uzkoreit变得感兴趣,“不是不是以线性顺序模式理解语言不是最佳选择。”

与同事们以较低的比率开发了一种新的神经网络体系结构,重点关注“注意力”,该机制允许神经网络的每一层为输入数据的某些特征(与其他特征相比)分配较大的权重。 这种引人注目的新架构,即变压器,可以将“狗咬人”这样的句子作为输入,并以不同的方式并行编码每个单词。 例如,一个转换器可以将“位”和“人”绑定为动词和主语-宾语,而忽略冠词“ a”。 同时,她可以将“咬”和“狗”作为动词和主语关联,而忽略冠词“ the”。

变形器的前后不一的性质使句子更具表现力,或者就像Uzkoreit所说的那样呈树状。 神经网络的每一层在某些单词之间建立了许多平行的连接,而忽略了其余的部分-大约是小学学生如何将一个句子分解成多个部分。 这些联系通常是在可能不在附近的单词之间建立的。 “这种结构看起来像几棵树的覆盖物,” Uzkoreit解释说。

句子的这种树状表示法为译者提供了建模上下文含义的机会,并有效地研究了复杂句子中相距遥远的单词之间的联系。 Uzkoreit说:“这有点违反直觉,但来自语言学,长期以来,语言学一直涉及树状语言模型。”


柏林Google团队AI负责人Jacob Uzkoreit

最后,BERT配方中的第三种成分进一步扩展了非线性读数。

与通过神经网络从左到右处理数TB的文本创建的其他预训练语言模型不同,BERT模型从右到左并同时从左到右读取,并学会预测哪些单词被随机从句子中排除。 例如,BERT可以接受格式为“ 1946年在康涅狄格州的乔治·W·布什[...]”的句子,并预测在双向处理了文本的句子中间隐藏了哪个单词(在本例中为“出生”)。 Uzkoreit说:“这种双向性迫使神经网络从单词的任何子集中提取尽可能多的信息。”

像文字游戏一样使用基于BERT的假装-带遮罩的语言建模-并不是新事物。 几十年来,它一直用于衡量人们对语言的理解程度。 对于Google,他提供了一种在神经网络中使用双向性的实用方法,而不是以前在该领域占主导地位的单向预训练方法。 “在BERT之前,单向语言建模是标准,尽管这是一个可选的限制,” Google研究人员Kenton Lee说。

这三种成分中的每一种-具有预训练,注意力和双向性的深度语言模型-分别在BERT之前就存在。 但是直到Google在2018年底发布他们的配方之前,没有人以如此成功的方式将它们结合起来。

精炼配方


像任何好的食谱一样,BRET很快就被各种厨师所采用,以适应他们的口味。 Bowman回忆说,在2019年春季,有一段时期“微软和阿里巴巴互相紧追,每周改变排名,调整模型。” 当BERT的改进版本以RoBERTa的名字在8月首次发布时,来自DeepMind的研究员Sebastian Ruder在其流行的NLP新闻中干脆地指出:“新月,以及经过预训练的新高级语言模型。”

像蛋糕一样,BERT拥有一些影响其工作质量的设计决策。 这包括烘焙的神经网络的大小,用于预训练的数据量,掩盖单词的方法以及神经网络使用此数据已有多长时间。 在随后的食谱中,例如RoBERTa,研究人员调整了这些决定-就像厨师指定食谱一样。

对于RoBERTa,来自Facebook和华盛顿大学的研究人员增加了一些成分的数量(预训练数据,输入序列的长度,训练时间),删除了一个成分(“预测下一个句子”的任务,该任务最初在BERT中使用,并对结果产生负面影响) ),而另一个更改(使掩盖单个单词的任务变得复杂)。 结果,他们短暂地在GLUE排名中排名第一。 六周后,微软和马里兰大学的研究人员对RoBERTa进行了改进,并取得了下一个胜利。 目前,另一种模型在GLUE中排名第一,ALBERT(“ lite BERT”的缩写,即“ lite BERT”)略微改变了BERT的基本结构。

“我们仍在研究哪些配方有效,哪些无效”,负责RoBERTa的Facebook的Ott说。

但是,由于预烘焙蛋糕技术的改进并未教会您化学的基础知识,因此BERT的逐步改进将不会为您提供有关NLP开发的许多理论知识。 约翰·霍普金斯大学计算机语言学家林森说:“我将对你非常诚实-我不会关注这些作品,因为对我来说,它们非常无聊。” 他承认:“这里有一定的科学奥秘,”但不是如何使BERT及其所有后代变得更加聪明,甚至没有弄清楚为什么他们如此聪明。 他说,相反,“我们正在尝试了解这些模型真正理解了多少语言,而不是学习一些奇怪的窍门,这些窍门在通常评估这些模型的数据集上以某种方式起作用。”

换句话说,BERT在做正确的事。 但是,如果他出于错误的原因而这样做呢?

棘手但不聪明


2019年7月,台湾国立大学的两名研究人员成坤在一个相对鲜为人知的性能测试(称为“论证理解任务”)中使用BERT获得了令人印象深刻的结果。 为了完成任务,有必要选择一个隐含的初始条件(“基础”)来支持该参数以支持任何语句。 例如,为了证明“吸烟导致癌症”(陈述),因为“科学研究表明吸烟与癌症之间存在联系”(观点),必须选择论点“可以信任科学研究”(“基础”),而不是另一种选择: “科学研究是昂贵的”(尽管如此,在这种情况下这并不重要)。 一切都清楚了吗?

如果不是全部,请不要担心。 即使没有实践,人们也不擅长此任务。没有锻炼的人的平均基线是100分之80。BERT达到了77,作者说这是“出乎意料的”。

但是他们没有决定BERT能够赋予神经网络推理能力,而不会比Aristotle差,他们怀疑一切实际上都更简单:BERT在理由的表述中发现了表面的模式。的确,在分析了他们的训练数据之后,作者发现了很多证据,证明了这种所谓的“错误的线索。”例如,如果仅选择包含“ not”粒子的所有碱基,则可以在61%的情况下正确回答问题。从数据中清除了所有此类规律性之后,科学家发现BERT结果从77降至53-几乎等同于随机选择。斯坦福人工智能实验室的机器学习杂志《梯度》中的一篇文章进行了比较BERT与Smart Hans在一起,据说他的算术能力很强。Linsen等人

在另一篇名为“错误原因的权利 ”的文章中发表了证据,证明BERT在某些GLUE测试中取得的高成绩还可以归因于训练数据中存在虚假线索。开发了另一组数据,旨在使BERT失去以这种方式工作的能力。该数据集称为Hans(自然语言推理系统的启发式分析,HANS)[基于自然语言得出结论的系统的启发式分析]。

那么,BERT和他的所有亲戚都只是在哄骗高分桌吗? Bowman同意Lensen的观点,即某些GLUE数据草率。它们充满了创建它的人所固有的认知扭曲,并且有可能被基于BERT的强大网络所利用。鲍曼说:“没有通用的技巧可以解决GLUE中的所有问题,但是有很多可能性可以“偷工减料”,这可以帮助GLUE,并且模型可以找到它们。但是他不认为BERT是基于任何有价值的东西。他说:“显然,我们有一个模型已经学到了关于该语言的真正有趣的东西。” “但是,她当然不懂一般意义上的人类语言。”

华盛顿大学和艾伦研究所的计算机科学家Yojin Choi认为,刺激人们对语言达成共识的方法之一是不仅着眼于改进BERT版本,而且着眼于开发更好的质量测试和培训数据以减少发生这种情况的可能性。仿制“智能汉斯”的假冒技术。她的工作探索了一种对抗过滤方法,该方法使用算法来验证NLP的训练数据,并删除过度重复的示例或以其他方式为神经网络留下隐含线索的示例。她说,经过如此竞争性的筛选之后,“ BERT的效率可能会大大下降,而人类的效率不会下降太多。”

尽管如此,一些NLP研究人员认为,即使改进了语言模型的教学程序,对真正理解语言仍然存在真正的障碍。即使经过强大的培训,BERT在一般情况下也无法完美地建模语言。调整之后,他为“特定的NLP任务,甚至该任务的特定数据集” 建模,马萨诸塞大学计算机文本实验室的计算机语言学家Anna Rogers。无论经过精心准备或精心过滤,没有一套培训数据都能够涵盖所有使用自然语言的人可以轻松处理的极端情况和不可预测的输入数据。

Bowman指出,甚至很难理解什么可以说服我们神经网络已经真正理解了该语言。标准测试应该揭示一些与被测知识有关的东西。但是,任何学生都知道测试很容易傻。他说:“对我们来说,要提出足够重且足以防止欺诈的测试非常困难,因此他们的解决方案使我们确信,我们确实在AI语言技术的某些方面解决了问题,”

Bowman及其同事最近提出了一项名为SuperGLUE的测试专为基于BERT的系统而设计。到目前为止,还没有网络能够超越其中的一个人。但是,即使(或何时)发生这种情况,是否也意味着机器可以比以前更好地学习理解语言?还是仅仅是科学将在教学机器方面变得更好,才能通过该测试?

“比喻,”鲍曼说。“我们想出了如何通过LSAT和MCAT测试,但是我们可能没有资格成为医生或律师。” 但是,从所有方面来看,这正是AI领域研究的方向。他说:“在我们弄清楚如何为游戏编写程序之前,国际象棋似乎是对智力的一种严峻考验。” “我们的确进入了一个时代,目标是发明越来越复杂的任务,这些任务代表对语言的理解,并提出解决问题的方法。”

Source: https://habr.com/ru/post/zh-CN479446/


All Articles