来自Google AI博客自2017年
发布有关它们
的信息以来,
变压器体系结构神经网络已应用于各种任务,从
生成幻想风格的文本到
编写音乐和声 。 重要的是,“变形金刚”的高质量工作表明,当将其应用于语言建模和翻译等顺序任务时,
直接分布神经网络可以像递归
神经网络一样有效。 尽管在顺序任务中使用的变压器和其他直接分配模型越来越受欢迎,但是与计算机视觉领域相反,
高级 机器学习 (
AOM )方法已经发现了领先于暴露的
高级模型 ,而它们的体系结构几乎总是手动创建的。手动设置。 自然,我们对将AOM应用于顺序任务是否可以取得相同的成功感兴趣。
在对神经体系结构搜索(NAS)进行了
进化搜索之后,并以翻译作为顺序任务的示例,我们发现了
进化的转换器 (ET)-一种新的转换器体系结构,该体系结构演示了各种
自然语言处理 (OYA)任务的改进。 与原始的转换器相比,ET不仅可以在翻译中获得最先进的结果,而且还展示出了更高的语言建模效率。 我们在
Tensor2Tensor库中
发布了一个新模型,该模型可用于任何顺序任务。
技术员发展
要开始对神经体系结构的进化搜索,我们需要开发新技术,因为用于评估每种体系结构(
从英语到德语WMT'14的翻译)的“适合性”的任务需要计算资源。 结果,与计算机视觉领域的类似搜索相比,这些搜索的要求更高,后者可以在较小的数据库(例如
CIFAR-10)上运行 。 这些技术中的第一个是一个良好的开端,它使用变压器类型的架构而不是随机模型来播种原始的进化种群。 这有助于将搜索集中在搜索空间的明显区域,从而使我们能够快速找到最佳模型。
第二种技术是我们开发的一种新方法,称为渐进动态障碍(PDH)。 该算法是对进化搜索的补充,使您可以为最强的候选者分配更多资源,这与以前的工作不同,在先前的工作中,NAS中的每个候选模型都分配了相同数量的资源。 PDH使我们能够在模型非常糟糕的情况下尽早完成模型评估,同时利用大量资源来奖励有前途的体系结构。
进化的变压器
使用这些方法,我们对翻译任务进行了大规模的NAS搜索,并发现了ET。 像大多数“序列到序列”(sequence to sequence,seq2seq)类型的神经网络架构一样,它具有将输入序列编码为插入序列的编码器,以及使用这些插入序列创建输出序列的解码器。 在翻译的情况下,输入序列是翻译要约,输出序列是翻译。
ET最有趣的功能是在编码器和解码器的模块底部的卷积层,以类似的分支方式添加到这两个位置(即,输入在折叠之前经过两个不同的卷积层)。
常规编码器和ET编码器的体系结构比较。 注意模块底部的分支卷积结构,该结构在编码器和解码器中均独立形成。 解码器在我们的工作中有详细描述。这特别有趣,因为NAS期间的编码器和解码器彼此不共享体系结构,并且在编码器和解码器中独立发现了此体系结构的实用程序,这有利于这种方案。 如果原始的变形金刚完全依靠对他本人生成的相同数据[自我注意力]施加注意力,那么ET是一种混合体,既利用了自我注意力又具有广泛的卷积优势。
ET分数
为了测试这种新架构的有效性,我们首先将其与原始转换器进行了比较,原始转换器负责将英语翻译成德语的工作,我们在搜索过程中使用了该工作。 我们发现ET在所有参数大小上都具有最佳的
BLEU指标和
连通性 ,并且最大的大小增长可与移动设备(〜700万个参数)相提并论,这表明参数的有效使用。 对于较大尺寸的发动机,ET在WMT '14 En-De上获得了最先进的结果,BLEU为29.8,SacreBLEU为29.2。
ET和WMT'14 En-De上不同体积的原始变压器的比较。 小尺寸可获得最大的优势,而ET在较大尺寸上表现出良好的性能,领先于最大的变压器,其参数要少37.6%(可比较的模型用圆圈表示)。为了检查通用性,我们在自然语言处理的其他问题上将ET与转换器进行了比较。 首先,我们检查了不同语言对的翻译,发现ET的有效性更高,并且其分离度与英德翻译中所示的大致相同; 再次,由于有效使用参数,在中型模型上观察到最大的差距。 我们还在
LM1B中对两种模型的解码器进行了语言建模
比较 ,发现连接性有了显着改善。

未来计划
这些结果是探索用于顺序直接分布模型的体系结构搜索应用程序的第一步。 ET在
Tensor2Tensor项目的框架中作为
开源分发,可以在任何连续的问题上使用它。 为了提高可重复性,我们还打开
了我们在搜索中使用
的搜索空间代码 ,并
打开了带有PDH实现的
Colab 。 我们期待着采用新模型的研究机构的成果,并希望其他人能够将这些新的搜索技术作为基础!