神经网络教授使用语音记录识别算法识别嘴唇上的语音


Hal 9000可以用英语完美读懂嘴唇

神经网络现在可以做很多事情,并且逐渐地被教给他们越来越多的技能。 几天前,一个由美国和中国的研究人员组成的联合小组能够训练神经网络,以高度准确地识别嘴唇的语音。

这要归功于额外的要素- 用于音频记录的语音识别算法 。 此外,该算法被用作第二种算法的训练系统,该算法通过视频记录识别语音。

根据科学家的说法,这种方法可以掌握其他唇读技术,而传统的方法所训练的神经网络无法“学习”。 简单的图像序列使得仅掌握基本的唇读技术成为可能。

另外,开发人员使用了一种训练神经网络的方法,称为“知识的提取”。 它允许您保存执行复杂任务的模型的小尺寸。 在正常情况下,可以读取嘴唇的神经网络的大小会很大,这将使其难以在智能手机或其他移动设备上使用。

但是,称为知识蒸馏的模型可以消除这些限制。 在使用此模型的过程中,开发人员需要使用已经受过训练的基本神经网络,并在此基础上创建一个较小的模型,该模型在第一个模型的基础上进行了“培训”。 两个网络都接收几乎相同的源数据。 但是较小的网络正试图在输出层和所有中间层上重复较大的网络的结果。 这个想法由Caruana于2006年首次提出。

来自浙江大学的宋明立(Mingli Song)领导的科学家使用“蒸馏”技术来教神经网络读取嘴唇。 如上所述,这里的老师是用于录音的语音识别算法。 它提供了充分的机会来研究许多微妙的嘴唇运动和语音模式。



产生的电路是对称的,两个递归神经网络彼此平行。 一个卷积神经网络处理视频帧并为另一个提供数据。 研究人员只能想像以数个块的形式提取知识,每个块负责一个特定的任务。 其中一个是每帧,第二个是一个数据序列,第三个是最大的整体序列。

当然,对于正常操作,这样的神经网络需要对数以万计的元素进行仔细的训练。 科学家使用了LRS2数据集,其中包含BBC播音员说的约50,000个单独的句子,以及CMLR数据集,后者是教神经网络阅读普通话的最全面集合。 后者的数据库包含来自CNTV的约10万个报价。



最终系统的识别精度比在CMLR上训练的其他神经网络高约8% ,比在LRS2上训练的神经网络高3%。

Source: https://habr.com/ru/post/zh-CN479092/


All Articles