在上一篇文章中，我们讨论了Opus编解码器，它以非常低的比特率运行。但是另一个编解码器旨在达到更低的比特率-这就是编解码器2 。

编解码器2仅用于编码语音。尽管比特率令人印象深刻，但声音不如Opus的高质量，可以在音频示例中听到。但是，与神经网络（ WaveNet ）结合使用时，编解码器显示出令人印象深刻的结果。

神经网络的各层WaveNet

引言

编解码器2是开源的，旨在用于语音编码。它专注于700到3200 bps的比特率。

开发人员-David Rowe ，目前居住在南澳大利亚州的电子工程师。他于2009年9月启动了该项目，旨在为世界偏远地区的人们改善低成本的无线电通信。为此，他将开发一种编解码器，该编解码器将显着减少流传输的文件大小和带宽要求。

David认为，另一个动机是创建一种无专利的编解码器，以替代专有编解码器，他认为，“需要昂贵而笨拙的许可证并扼杀创新”。他认为您可以不用专利的编解码器，因此他可以免费许可的方式分发所有作品。

潜在的应用

作者列举了编解码器的各种应用，包括VoIP，窄带数字HF / UHF无线电（尤其是业余无线电，以避免使用专有编解码器的问题）上的语音通信，发展中国家和偏远地区的通信，包括军队，警察和救援服务。

在Auphonic，我们对可能使用编解码器更好地压缩播客，演示文稿和有声读物感兴趣，这可以减少使用的空间量并最大程度地降低不良网络连接的影响 。

如何运作

为了减少比特率，有必要将语音减少到最小可能的信息/数据，即，使过度传输的信息量最小化。

为此，编解码器2使用谐波正弦语音编码 。他将语音分为10到30毫秒的段，称为帧。然后分析每个帧的基本电平（音调）和适合4 kHz带宽的谐波数。另外，对于4kHz范围内的每个谐波，记录振幅和相位。

然后对该信息进行编码，然后解码器根据该数据恢复声音。

编解码器2流程图：编码器（左）和解码器（右）。 Rowtel的插图

音频示例以及与其他编解码器的比较

尽管从理论上讲这一切听起来不错，但实际上呢？让我们听听。这是一个简短的wav声音文件：

inor-orig.wav-1.3 MB

我们以各种可用的比特率应用编解码器2（无WaveNet解码器）： 3200 bps ， 2400 bps ， 1600 bps ， 1200 bps和700 bps 。

这些示例显示了文件大小的显着减小。

让我们以存储1小时声音的音量来看文件：

以3200 bps的速度， 一小时的声音仅需1.37 MB（适合一张旧的3½英寸软盘！）
比特率2400 bps对应于1.03 MB / h
1600 bps的比特率是0.68 MB / h（或一张软盘上大约两个小时的声音！ ）
1200 bps-最高0.51 MB / h
700 bps-最高0.3 MB / h

压缩非常强，但结果显然听起来不自然。

为了比较， MP3中的相同声音为8 Kbps 。

文件大小明显大于编解码器2的大小，质量可能仍然不可接受。您可以很好地听到有时被称为嘶嘶声的声音-低质量MP3固有的奇怪金属声音。

有最后一个编解码器可以比较。它似乎将两个世界融合在一起，也就是说，它以低比特率提供了可接受的质量： Opus 。

由于其在低比特率下的出色性能，Aufonic已经为用户提供了最高6 Kbps的Opus编码，这是编解码器支持的最低比特率。

在6 kbps时，Opus编解码器似乎明显优于8 kbps的MP3。声音有些沉闷，但听起来仍然很自然。

为了有趣，回到编解码器2，让我们听听他如何编码音乐 ！（请记住，编解码器2不是用于编码音乐，而只是用于语音编码）。

源文件
MP3 8 kbps

就我个人而言，我无法以如此高的比特率收听MP3，因此让我们看一下编解码器2的结果！因此，分别为3200 bps ， 2400 bps ， 1600 bps ， 1200 bps和700 bps 。

很容易理解，这根本不适合！

编解码器2和WaveNet

正如我们已经听到的那样，尽管压缩效果令人印象深刻，但结果并不是很自然。

但是，如果您看一下康奈尔大学图书馆的Bastian Klein的著作，事情就会变得更加有趣。他以2400 bps的比特率使用Codec 2进行编码，但用生成的WaveNet深度学习模型代替了Codec 2解码器（有关更多信息，请参见文章“ Wavenet低比特率语音编码” ）。

这是作者的一些例子：

男声
源文件
编解码器2
带WaveNet解码器

女声
源文件
编解码器2
带WaveNet解码器

与编解码器2相比，我们听到了质量的显着提高 ，与原始编解码器相比，质量没有明显下降。

David Rowe自己说，他认为结果“在低比特率的语音编码方面有了显着的改进”，并且“一个好的8000 bit / s宽带语音编解码器”。

结论

尽管（原始）编解码器2编解码器是一项非常有趣的工作，但其范围有限，最终结果不适合播客。从音频示例中还可以清楚地看出，它只能用于压缩语音，而不能压缩音乐。

尽管如此，编解码器2与WaveNet解码器的结合大大提高了质量，而且低比特率（2400 bps）对于播客和有声读物的分发将是非常有趣的： 一小时的声音仅需要1.03 MB的空间！

当WaveNet解码器以可用形式出现时，Auphonic将为输出文件添加Codec 2支持。到目前为止，我们仅对输入文件添加了对Codec 2的支持 。

编解码器2 +神经网络=一张软盘上的整个播客

引言

潜在的应用

如何运作

音频示例以及与其他编解码器的比较

编解码器2和WaveNet

结论

More articles: