俄语语音版本1.0的巨大开放数据集

图片


在今年年初,由于多种原因,我们想到了用俄语创建最大的开放数据集的想法。 关于我们的动力以及一切如何开始的更多信息
可以在这篇文章中阅读- 庞大的俄罗斯语音开放数据集 。 从那时起,我们的项目经历了一系列的大规模变更,我们将数据量增加了三倍,提高了数据质量,为扬声器添加了标签,现在我们终于可以向您展示1.0版了。


我们还没有准备好固步自封,并计划继续对将来版本中的错误进行深入的工作,并提高已经发布的数据的质量。 我们计划将版本1.1投入到有关bug的大规模工作中。


简要介绍Open STT v1.0


  • 超过20,000小时的俄语语音音频(最初将标准设置为10,000小时),2.3 Tb的数据( wav格式,当然.mp3格式要少)
  • 广泛的领域:从专业麦克风上录制的音频开始,以电话呼叫结束:

注解短语钟表国标
广播电台对齐方式830万11,9961367
公开演讲对齐方式170万2,709301
优酷字幕260万2,117346
书本对准/ ASR130万1,632180
来电ASR695K81991
其他数据集TTS,朗诵190万83595

可以在项目存储库中找到更多详细的统计信息


  • 现在,可以通过torrent或通过.mp3的直接链接以.wav (单声道,16KHz,int16)格式高速下载数据;
  • 为3个主要域添加了一个小的手动标记的验证数据集(18小时);

我们竭尽全力提高标记的质量:


  • 改进的模型,用于别名新域;
  • 使用更好和更优化的STT模型进行营养处理;
  • 改进了数字和拉丁字母归一化算法;
  • 逐步重新分区/删除以前版本中的“脏”数据;
  • 治愈了许多儿童问题数据集,例如:
    • 在句子的开头和结尾悬挂单个字母;
    • 由于模型质量低,对齐产量低;
    • 营养过程中带有标点符号的“正确”工作;
  • (很快!)将出现扬声器的真实标签;

我们的数据集可用于哪些任务?


  • 语音识别
  • 语音合成;
  • 去噪,消除音频中的噪音;
  • 语音识别;
  • 扬声器分离;

您将来打算如何开发数据集?


  • 改善/重新加载现有数据集,清理标记;
  • 发布语音识别和后处理模型;
  • 添加带有演讲者ID的标记。 对于某些新领域,有一个现成的布局,但也有将发言人添加到旧数据集中的想法。
  • 可以切换到其他语言。
  • 可以添加几个新域。

您可以在存储库中了解有关新域的更多信息。

Source: https://habr.com/ru/post/zh-CN474462/


All Articles