
Au début de cette année, pour plusieurs raisons, nous avons eu l'idée de créer le plus grand ensemble de données ouvertes en russe. En savoir plus sur notre motivation et comment tout a commencé
peut ĂȘtre lu dans cet article - Un Ă©norme ensemble de donnĂ©es ouvertes de la langue russe . Depuis lors, notre projet a subi une sĂ©rie de changements Ă grande Ă©chelle, nous avons triplĂ© la quantitĂ© de donnĂ©es, amĂ©liorĂ© leur qualitĂ©, ajoutĂ© des Ă©tiquettes pour les haut-parleurs et maintenant nous sommes enfin prĂȘts Ă vous prĂ©senter la version 1.0.
Nous ne sommes pas non plus prĂȘts Ă nous reposer sur nos lauriers et prĂ©voyons de continuer Ă travailler intensivement sur les erreurs dans les futures versions et Ă amĂ©liorer la qualitĂ© des donnĂ©es publiĂ©es. Nous prĂ©voyons de consacrer la version 1.1 Ă des travaux Ă grande Ă©chelle sur les bogues.
En bref sur Open STT v1.0
- Plus de 20 000 heures (initialement nous avons fixé la barre à 10 000 heures) d'audio de la parole russe, 2,3 To de données (au format
wav
, au format .mp3
bien sûr moins); - Une grande variété de domaines: en commençant par l'audio enregistré sur un microphone professionnel, en terminant par les appels téléphoniques:
Des statistiques plus dĂ©taillĂ©es peuvent ĂȘtre trouvĂ©es dans le rĂ©fĂ©rentiel du projet.
- DĂ©sormais, les donnĂ©es peuvent ĂȘtre tĂ©lĂ©chargĂ©es Ă grande vitesse au format
.wav
(mono, 16 KHz, int16) via torrent ou via un lien direct en .mp3
; - Ajout d'un petit ensemble de données de validation étiqueté manuellement (18 heures) pour 3 domaines principaux;
Nous nous sommes efforcés d'améliorer la qualité du balisage:
- ModÚle amélioré pour aliaser de nouveaux domaines;
- Utilisé des modÚles STT meilleurs et plus précis pour l'alimentation;
- Amélioration de l'algorithme de normalisation des nombres et des lettres latines;
- Re-partitionner / supprimer progressivement les données "sales" des versions précédentes;
- Guéri un certain nombre de jeux de données sur les problÚmes des enfants tels que:
- Balancer des lettres simples au début et à la fin des phrases;
- Faible rendement d'alignement en raison de modÚles de faible qualité;
- Travail "correct" avec signes de ponctuation pendant l'alimentation;
- (BientÎt!) De véritables étiquettes pour les haut-parleurs apparaßtront;
Pour quelles tĂąches notre ensemble de donnĂ©es peut-il ĂȘtre utile?
- Reconnaissance vocale
- SynthĂšse vocale;
- Débruitage, éliminer le bruit dans l'audio;
- Identification vocale;
- Séparation des orateurs;
Comment envisagez-vous de développer l'ensemble de données à l'avenir?
- Améliorer / recharger les ensembles de données existants, nettoyer le balisage;
- Publier des modĂšles de reconnaissance vocale et de post-traitement;
- Ajoutez un balisage avec l'ID du haut-parleur. Pour certains des nouveaux domaines, il existe une disposition toute faite, mais il y a aussi l'idée d'ajouter des haut-parleurs aux anciens ensembles de données;
- Il est possible de passer Ă d'autres langues;
- Il est possible d'ajouter plusieurs nouveaux domaines;
Vous pouvez en savoir plus sur les nouveaux domaines dans le référentiel.