
在今年年初,由于多种原因,我们想到了用俄语创建最大的开放数据集的想法。 关于我们的动力以及一切如何开始的更多信息
可以在这篇文章中阅读- 庞大的俄罗斯语音开放数据集 。 从那时起,我们的项目经历了一系列的大规模变更,我们将数据量增加了三倍,提高了数据质量,为扬声器添加了标签,现在我们终于可以向您展示1.0版了。
我们还没有准备好固步自封,并计划继续对将来版本中的错误进行深入的工作,并提高已经发布的数据的质量。 我们计划将版本1.1投入到有关bug的大规模工作中。
简要介绍Open STT v1.0
- 超过20,000小时的俄语语音音频(最初将标准设置为10,000小时),2.3 Tb的数据(
wav
格式,当然.mp3
格式要少) - 广泛的领域:从专业麦克风上录制的音频开始,以电话呼叫结束:
可以在项目存储库中找到更多详细的统计信息 。
- 现在,可以通过torrent或通过
.mp3
的直接链接以.wav
(单声道,16KHz,int16)格式高速下载数据; - 为3个主要域添加了一个小的手动标记的验证数据集(18小时);
我们竭尽全力提高标记的质量:
- 改进的模型,用于别名新域;
- 使用更好和更优化的STT模型进行营养处理;
- 改进了数字和拉丁字母归一化算法;
- 逐步重新分区/删除以前版本中的“脏”数据;
- 治愈了许多儿童问题数据集,例如:
- 在句子的开头和结尾悬挂单个字母;
- 由于模型质量低,对齐产量低;
- 营养过程中带有标点符号的“正确”工作;
- (很快!)将出现扬声器的真实标签;
我们的数据集可用于哪些任务?
- 语音识别
- 语音合成;
- 去噪,消除音频中的噪音;
- 语音识别;
- 扬声器分离;
您将来打算如何开发数据集?
- 改善/重新加载现有数据集,清理标记;
- 发布语音识别和后处理模型;
- 添加带有演讲者ID的标记。 对于某些新领域,有一个现成的布局,但也有将发言人添加到旧数据集中的想法。
- 可以切换到其他语言。
- 可以添加几个新域。
您可以在存储库中了解有关新域的更多信息。