在今年年初，由于多种原因，我们想到了用俄语创建最大的开放数据集的想法。关于我们的动力以及一切如何开始的更多信息
可以在这篇文章中阅读- 庞大的俄罗斯语音开放数据集。从那时起，我们的项目经历了一系列的大规模变更，我们将数据量增加了三倍，提高了数据质量，为扬声器添加了标签，现在我们终于可以向您展示1.0版了。

我们还没有准备好固步自封，并计划继续对将来版本中的错误进行深入的工作，并提高已经发布的数据的质量。我们计划将版本1.1投入到有关bug的大规模工作中。

简要介绍Open STT v1.0

超过20,000小时的俄语语音音频（最初将标准设置为10,000小时），2.3 Tb的数据（ wav格式，当然.mp3格式要少）
广泛的领域：从专业麦克风上录制的音频开始，以电话呼叫结束：

域	注解	短语	钟表	国标
广播电台	对齐方式	830万	11,996	1367
公开演讲	对齐方式	170万	2,709	301
优酷	字幕	260万	2,117	346
书本	对准/ ASR	130万	1,632	180
来电	ASR	695K	819	91
其他数据集	TTS，朗诵	190万	835	95

可以在项目存储库中找到更多详细的统计信息。

现在，可以通过torrent或通过.mp3的直接链接以.wav （单声道，16KHz，int16）格式高速下载数据；
为3个主要域添加了一个小的手动标记的验证数据集（18小时）；

我们竭尽全力提高标记的质量：

改进的模型，用于别名新域；
使用更好和更优化的STT模型进行营养处理；
改进了数字和拉丁字母归一化算法；
逐步重新分区/删除以前版本中的“脏”数据；
治愈了许多儿童问题数据集，例如：
- 在句子的开头和结尾悬挂单个字母；
- 由于模型质量低，对齐产量低；
- 营养过程中带有标点符号的“正确”工作；
（很快！）将出现扬声器的真实标签；

我们的数据集可用于哪些任务？

语音识别
语音合成；
去噪，消除音频中的噪音；
语音识别；
扬声器分离；

您将来打算如何开发数据集？

改善/重新加载现有数据集，清理标记；
发布语音识别和后处理模型；
添加带有演讲者ID的标记。对于某些新领域，有一个现成的布局，但也有将发言人添加到旧数据集中的想法。
可以切换到其他语言。
可以添加几个新域。

您可以在存储库中了解有关新域的更多信息。

俄语语音版本1.0的巨大开放数据集

简要介绍Open STT v1.0

我们的数据集可用于哪些任务？

您将来打算如何开发数据集？

More articles: