神经网络LipNet读取嘴唇的准确率为93.4%


指挥官戴夫·鲍曼(Dave Bowman)和副驾驶弗兰克·普尔(Frank Poole)不信任该计算机,因此决定将其与飞船的控制系统断开连接。为此,他们在一个隔音的房间里开会,但是HAL 9000在嘴唇上朗读他们的谈话。摘自电影《 2001年太空漫游》的镜头,

唇读在交流中起着重要作用。 1976年的更多实验表明,如果将错误的声音应用于嘴唇的运动,人们会“听到”完全不同的音素(请参阅“听到嘴唇并看到声音”,《自然 264,746-748,1976年12月23日,doi:10.1038 / 264746a0) 。

从实用的角度来看,唇读是一项重要而有用的技能。您可以在不关闭耳机音乐的情况下了解对话者,无需阅读视野中所有人员的对话(例如,候车室中的所有乘客),也可以通过双筒望远镜或望远镜聆听人们的谈话。该技能的范围非常广泛。熟练掌握它的专业人员将很容易找到一份高薪工作。例如,在安全或竞争情报领域。

自动唇读系统也具有丰富的实践潜力。这些是具有语音识别功能的新一代医疗助听器,在公共场所进行无声演讲的系统,生物特征识别,用于间谍活动信息的秘密传输的系统,通过监视摄像机的视频进行语音识别等。最后,像HAL 9000一样,未来的计算机也会读懂嘴唇

因此,科学家们多年来一直在尝试开发自动唇读系统,但没有取得太大的成功。即使对于相对简单的英语(音素的数量远小于俄语),其识别精度也很低。

基于人的面部表情理解语音是一项艰巨的任务。掌握此技能的人会尝试识别数十个辅音音素,其中许多音素的外观非常相似。对于未经训练的人,很难区分英语的五个视觉音素(即音位)。换句话说,通过嘴唇区分某些辅音的发音几乎是不可能的。人们在正确的唇读方面做得很差也就不足为奇了。即使是听力障碍者中最好的,其准确性也仅占30个单音节的17±12%或多音节单词的21±11%的准确性(以下为英语结果)。

自动唇读是机器视觉的任务之一,它可以归结为视频序列的逐帧处理。由于大多数实用视频材料的质量低下,使任务变得非常复杂,视频材料质量低下,无法准确读取通话中的时空特征,即人的时空特征。脸部朝不同方向移动和转向。机器视觉领域中的最新发展试图跟踪脸部在框架中的运动以解决该问题。尽管取得了成功,但直到最近,他们仍然只能识别单个单词,而不能识别句子。

牛津大学的开发人员在这一领域取得了重大突破。他们训练的LipNet成为世界上第一个成功识别整个句子水平,处理视频镜头的嘴唇的人。当由读取嘴唇的神经网络处理时,英语单词“ please”(上方)和“ lay”(下方)


的逐帧显着性映射会突出显示

LipNet 的最醒目的(显着)特征 -LSTM类型的递归神经网络(长短期记忆)。该架构如图所示。使用连接器时间分类(CTC)方法对神经网络进行了训练,该方法在现代语音识别系统中得到了广泛使用,因为它无需对与正确结果同步的一组输入数据进行训练。


LipNet神经网络体系结构。在输入处,提供了一系列T帧,然后由时空(时空)卷积神经网络(STCNN)的三层处理,每层都有一个空间采样层。对于提取的特征,时间线上的采样率(上采样)将增加,然后由双LTSM处理。LTSM输出的每个时间步均由两层直接分配网络和最后一个SoftMax层处理,

在特殊的GRID产品包中,神经网络的识别准确度为93.4%。这不仅超过了其他软件开发的识别精度(如下表所示),而且还超过了经过特殊培训的人们的阅读效率。

方法数据集尺码发行准确度
Fu等。(2008年)AVICAR85137,9%
Zhao et al. (2009)AVLetter7843,5%
Papandreou et al. (2009)CUAVE180083,0%
Chung & Zisserman (2016a)OuluVS120091,4%
Chung & Zisserman (2016b)OuluVS252094,1%
Chung & Zisserman (2016a)BBC TV>40000065,4%
Wand et al. (2016)GRID900079,6%
LipNetGRID2885393,4%

GRID特殊情况是根据以下模板组成的:

命令(4)+颜色(4)+介词(4)+字母(25)+数字(10)+副词(4),

其中数字对应于六个语言类别中每个词的变体数目。

换句话说,93.4%的准确度仍然是在温室实验室条件下获得的结果。当然,随着对任意人类语音的识别,结果将变得更糟。更不用说对真实视频数据的分析了,在真实视频中,人的脸部无法以出色的照明和高分辨率拍摄特写镜头。

演示视频中显示了LipNet神经网络的操作。


科学论文的会议ICLR 2017年编写并发表在公共领域2016年11月4日。

Source: https://habr.com/ru/post/zh-CN398901/


All Articles