在
上一篇文章中,我们讨论了Opus编解码器,它以非常低的比特率运行。 但是另一个编解码器旨在达到更低的比特率-这就是
编解码器2 。
编解码器2仅用于编码语音。 尽管比特率令人印象深刻,但声音不如Opus的高质量,可以在
音频示例中听到。 但是,与神经网络(
WaveNet )结合使用时,编解码器显示出
令人印象深刻的结果 。
神经网络的各层WaveNet引言
编解码器2是开源的,旨在用于语音编码。 它专注于700到3200 bps的比特率。
开发人员
-David Rowe ,目前居住在南澳大利亚州的电子工程师。 他于2009年9月启动了该项目,旨在为世界偏远地区的人们改善低成本的无线电通信。 为此,他将开发一种编解码器,该编解码器将显着减少流传输的文件大小和带宽要求。
David认为,另一个动机是创建一种无
专利的编解码器,以替代专有编解码器,他认为,“需要昂贵而笨拙的许可证并扼杀创新”。 他认为您可以不用专利的编解码器,因此他可以免费许可的方式分发所有作品。
潜在的应用
作者列举了编解码器的各种应用,包括VoIP,窄带数字HF / UHF无线电(尤其是业余无线电,以避免使用专有编解码器的问题)上的语音通信,发展中国家和偏远地区的通信,包括军队,警察和救援服务。
在Auphonic,我们对可能使用编解码器更好地压缩播客,演示文稿和有声读物感兴趣,这可以
减少使用的空间量并最大程度地降低
不良网络连接的影响 。
如何运作
为了减少比特率,有必要将语音减少到最小可能的信息/数据,即,使过度传输的信息量最小化。
为此,编解码器2使用
谐波正弦语音编码 。 他将语音分为10到30毫秒的段,称为帧。 然后分析每个帧的基本电平(音调)和适合4 kHz带宽的谐波数。 另外,对于4kHz范围内的每个谐波,记录振幅和相位。
然后对该信息进行编码,然后解码器根据该数据恢复声音。
编解码器2流程图:编码器(左)和解码器(右)。 Rowtel的插图音频示例以及与其他编解码器的比较
尽管从理论上讲这一切听起来不错,但实际上呢? 让我们听听。 这是一个简短的wav声音文件:
inor-orig.wav-1.3 MB我们以各种可用的比特率应用编解码器2(无WaveNet解码器):
3200 bps ,
2400 bps ,
1600 bps ,
1200 bps和
700 bps 。
这些示例显示了文件大小的显着减小。
让我们
以存储1小时声音的
音量来看文件:
- 以3200 bps的速度, 一小时的声音仅需1.37 MB(适合一张旧的3½英寸软盘!)
- 比特率2400 bps对应于1.03 MB / h
- 1600 bps的比特率是0.68 MB / h(或一张软盘上大约两个小时的声音! )
- 1200 bps-最高0.51 MB / h
- 700 bps-最高0.3 MB / h
压缩非常强,但结果显然听起来不自然。
为了比较,
MP3中的相同声音为
8 Kbps 。
文件大小明显大于编解码器2的大小,质量可能仍然不可接受。 您可以很好地听到有时被称为嘶嘶声的声音-低质量MP3固有的奇怪金属声音。
有最后一个编解码器可以比较。 它似乎将两个世界融合在一起,也就是说,它以低比特率提供了可接受的质量:
Opus 。
由于其在低比特率下的出色性能,Aufonic已经为用户提供了最高6 Kbps的Opus编码,这是编解码器支持的最低比特率。
在6 kbps时,Opus编解码器似乎明显优于8 kbps的MP3。 声音有些沉闷,但
听起来仍然很自然 。
为了有趣,回到编解码器2,让我们听听他如何
编码音乐 ! (请记住,编解码器2不是用于编码音乐,而只是用于语音编码)。
源文件MP3 8 kbps就我个人而言,我无法以如此高的比特率收听MP3,因此让我们看一下编解码器2的结果! 因此,分别为
3200 bps ,
2400 bps ,
1600 bps ,
1200 bps和
700 bps 。
很容易理解,这根本不适合!
编解码器2和WaveNet
正如我们已经听到的那样,尽管压缩效果令人印象深刻,但结果并不是很自然。
但是,如果您看一下康奈尔大学图书馆的Bastian Klein的著作,事情就会变得更加有趣。 他以2400 bps的比特率使用Codec 2进行编码,但
用生成的WaveNet深度学习模型代替了Codec 2解码器 (有关更多信息,请参见文章
“ Wavenet低比特率语音编码” )。
这是
作者的一些例子:
男声源文件编解码器2带WaveNet解码器女声源文件编解码器2带WaveNet解码器与编解码器2相比,我们听到了
质量的
显着提高 ,与原始编解码器相比
,质量没有明显下降。
David Rowe自己说,他认为结果
“在低比特率的语音编码方面有了显着的改进”,并且“一个好的8000 bit / s宽带语音编解码器”。
结论
尽管(原始)编解码器2编解码器是一项非常有趣的工作,但其范围有限,最终结果不适合播客。 从音频示例中还可以清楚地看出,它只能用于压缩语音,而不能压缩音乐。
尽管如此,编解码器2与
WaveNet解码器的结合大大提高了质量,而且低比特率(2400 bps)对于
播客和有声读物的
分发将是非常有趣的:
一小时的声音仅需要
1.03 MB的空间!
当WaveNet解码器以可用形式出现时,Auphonic将为
输出文件添加Codec 2支持。 到目前为止,我们
仅对输入文件添加了
对Codec 2的支持 。