Au début de cette année, pour plusieurs raisons, nous avons eu l'idée de créer le plus grand ensemble de données ouvertes en russe. En savoir plus sur notre motivation et comment tout a commencé
peut être lu dans cet article - Un énorme ensemble de données ouvertes de la langue russe . Depuis lors, notre projet a subi une série de changements à grande échelle, nous avons triplé la quantité de données, amélioré leur qualité, ajouté des étiquettes pour les haut-parleurs et maintenant nous sommes enfin prêts à vous présenter la version 1.0.

Nous ne sommes pas non plus prêts à nous reposer sur nos lauriers et prévoyons de continuer à travailler intensivement sur les erreurs dans les futures versions et à améliorer la qualité des données publiées. Nous prévoyons de consacrer la version 1.1 à des travaux à grande échelle sur les bogues.

En bref sur Open STT v1.0

Plus de 20 000 heures (initialement nous avons fixé la barre à 10 000 heures) d'audio de la parole russe, 2,3 To de données (au format wav , au format .mp3 bien sûr moins);
Une grande variété de domaines: en commençant par l'audio enregistré sur un microphone professionnel, en terminant par les appels téléphoniques:

Domaine	Annotation	Phrases	Horloge	GB
La radio	Alignement	8.3M	11 996	1367
Prise de parole en public	Alignement	1,7 M	2,709	301
Youtube	Sous-titres	2,6 millions	2 117	346
Livres	Alignement / ASR	1,3 M	1,632	180
Appels	ASR	695K	819	91
Autres jeux de données	TTS, récitation	1,9M	835	95

Des statistiques plus détaillées peuvent être trouvées dans le référentiel du projet.

Désormais, les données peuvent être téléchargées à grande vitesse au format .wav (mono, 16 KHz, int16) via torrent ou via un lien direct en .mp3 ;
Ajout d'un petit ensemble de données de validation étiqueté manuellement (18 heures) pour 3 domaines principaux;

Nous nous sommes efforcés d'améliorer la qualité du balisage:

Modèle amélioré pour aliaser de nouveaux domaines;
Utilisé des modèles STT meilleurs et plus précis pour l'alimentation;
Amélioration de l'algorithme de normalisation des nombres et des lettres latines;
Re-partitionner / supprimer progressivement les données "sales" des versions précédentes;
Guéri un certain nombre de jeux de données sur les problèmes des enfants tels que:
- Balancer des lettres simples au début et à la fin des phrases;
- Faible rendement d'alignement en raison de modèles de faible qualité;
- Travail "correct" avec signes de ponctuation pendant l'alimentation;
(Bientôt!) De véritables étiquettes pour les haut-parleurs apparaîtront;

Pour quelles tâches notre ensemble de données peut-il être utile?

Reconnaissance vocale
Synthèse vocale;
Débruitage, éliminer le bruit dans l'audio;
Identification vocale;
Séparation des orateurs;

Comment envisagez-vous de développer l'ensemble de données à l'avenir?

Améliorer / recharger les ensembles de données existants, nettoyer le balisage;
Publier des modèles de reconnaissance vocale et de post-traitement;
Ajoutez un balisage avec l'ID du haut-parleur. Pour certains des nouveaux domaines, il existe une disposition toute faite, mais il y a aussi l'idée d'ajouter des haut-parleurs aux anciens ensembles de données;
Il est possible de passer à d'autres langues;
Il est possible d'ajouter plusieurs nouveaux domaines;

Vous pouvez en savoir plus sur les nouveaux domaines dans le référentiel.

Énorme ensemble de données ouvertes de la version russe du discours 1.0

En bref sur Open STT v1.0

Pour quelles tâches notre ensemble de données peut-il être utile?

Comment envisagez-vous de développer l'ensemble de données à l'avenir?

More articles: