编解码器2 +神经网络=一张软盘上的整个播客

上一篇文章中,我们讨论了Opus编解码器,它以非常低的比特率运行。 但是另一个编解码器旨在达到更低的比特率-这就是编解码器2

编解码器2仅用于编码语音。 尽管比特率令人印象深刻,但声音不如Opus的高质量,可以在音频示例中听到。 但是,与神经网络( WaveNet )结合使用时,编解码器显示出令人印象深刻的结果


神经网络的各层WaveNet

引言


编解码器2是开源的,旨在用于语音编码。 它专注于700到3200 bps的比特率。

开发人员-David Rowe ,目前居住在南澳大利亚州的电子工程师。 他于2009年9月启动了该项目,旨在为世界偏远地区的人们改善低成本的无线电通信。 为此,他将开发一种编解码器,该编解码器将显着减少流传输的文件大小和带宽要求。

David认为,另一个动机是创建一种无专利的编解码器,以替代专有编解码器,他认为,“需要昂贵而笨拙的许可证并扼杀创新”。 他认为您可以不用专利的编解码器,因此他可以免费许可的方式分发所有作品。

潜在的应用


作者列举了编解码器的各种应用,包括VoIP,窄带数字HF / UHF无线电(尤其是业余无线电,以避免使用专有编解码器的问题)上的语音通信,发展中国家和偏远地区的通信,包括军队,警察和救援服务。

在Auphonic,我们对可能使用编解码器更好地压缩播客,演示文稿和有声读物感兴趣,这可以减少使用的空间量并最大程度地降低不良网络连接的影响

如何运作


为了减少比特率,有必要将语音减少到最小可能的信息/数据,即,使过度传输的信息量最小化。

为此,编解码器2使用谐波正弦语音编码 。 他将语音分为10到30毫秒的段,称为帧。 然后分析每个帧的基本电平(音调)和适合4 kHz带宽的谐波数。 另外,对于4kHz范围内的每个谐波,记录振幅和相位。

然后对该信息进行编码,然后解码器根据该数据恢复声音。


编解码器2流程图:编码器(左)和解码器(右)。 Rowtel的插图

音频示例以及与其他编解码器的比较


尽管从理论上讲这一切听起来不错,但实际上呢? 让我们听听。 这是一个简短的wav声音文件:

inor-orig.wav-1.3 MB

我们以各种可用的比特率应用编解码器2(无WaveNet解码器): 3200 bps2400 bps1600 bps1200 bps700 bps

这些示例显示了文件大小的显着减小。

让我们以存储1小时声音音量来看文件:

  • 以3200 bps的速度, 一小时的声音仅需1.37 MB(适合一张旧的3½英寸软盘!)
  • 比特率2400 bps对应于1.03 MB / h
  • 1600 bps的比特率是0.68 MB / h(或一张软盘上大约两个小时的声音!
  • 1200 bps-最高0.51 MB / h
  • 700 bps-最高0.3 MB / h

压缩非常强,但结果显然听起来不自然。

为了比较, MP3中的相同声音为8 Kbps

文件大小明显大于编解码器2的大小,质量可能仍然不可接受。 您可以很好地听到有时被称为嘶嘶声的声音-低质量MP3固有的奇怪金属声音。

有最后一个编解码器可以比较。 它似乎将两个世界融合在一起,也就是说,它以低比特率提供了可接受的质量: Opus

由于其在低比特率下的出色性能,Aufonic已经为用户提供了最高6 Kbps的Opus编码,这是编解码器支持的最低比特率。

在6 kbps时,Opus编解码器似乎明显优于8 kbps的MP3。 声音有些沉闷,但听起来仍然很自然

为了有趣,回到编解码器2,让我们听听他如何编码音乐 ! (请记住,编解码器2不是用于编码音乐,而只是用于语音编码)。

源文件
MP3 8 kbps

就我个人而言,我无法以如此高的比特率收听MP3,因此让我们看一下编解码器2的结果! 因此,分别为3200 bps2400 bps1600 bps1200 bps700 bps

很容易理解,这根本不适合!

编解码器2和WaveNet


正如我们已经听到的那样,尽管压缩效果令人印象深刻,但结果并不是很自然。

但是,如果您看一下康奈尔大学图书馆的Bastian Klein的著作,事情就会变得更加有趣。 他以2400 bps的比特率使用Codec 2进行编码,但用生成的WaveNet深度学习模型代替了Codec 2解码器 (有关更多信息,请参见文章“ Wavenet低比特率语音编码” )。

这是作者的一些例子:

男声
源文件
编解码器2
带WaveNet解码器

女声
源文件
编解码器2
带WaveNet解码器

与编解码器2相比,我们听到了质量显着提高 ,与原始编解码器相比,质量没有明显下降。

David Rowe自己说,他认为结果“在低比特率的语音编码方面有了显着的改进”,并且“一个好的8000 bit / s宽带语音编解码器”。

结论


尽管(原始)编解码器2编解码器是一项非常有趣的工作,但其范围有限,最终结果不适合播客。 从音频示例中还可以清楚地看出,它只能用于压缩语音,而不能压缩音乐。

尽管如此,编解码器2与WaveNet解码器的结合大大提高了质量,而且低比特率(2400 bps)对于播客和有声读物分发将是非常有趣的: 一小时的声音仅需要1.03 MB的空间!

当WaveNet解码器以可用形式出现时,Auphonic将为输出文件添加Codec 2支持。 到目前为止,我们仅对输入文件添加了对Codec 2的支持

Source: https://habr.com/ru/post/zh-CN415557/


All Articles