Énorme ensemble de donnĂ©es ouvertes de la version russe du discours 1.0

image


Au début de cette année, pour plusieurs raisons, nous avons eu l'idée de créer le plus grand ensemble de données ouvertes en russe. En savoir plus sur notre motivation et comment tout a commencé
peut ĂȘtre lu dans cet article - Un Ă©norme ensemble de donnĂ©es ouvertes de la langue russe . Depuis lors, notre projet a subi une sĂ©rie de changements Ă  grande Ă©chelle, nous avons triplĂ© la quantitĂ© de donnĂ©es, amĂ©liorĂ© leur qualitĂ©, ajoutĂ© des Ă©tiquettes pour les haut-parleurs et maintenant nous sommes enfin prĂȘts Ă  vous prĂ©senter la version 1.0.


Nous ne sommes pas non plus prĂȘts Ă  nous reposer sur nos lauriers et prĂ©voyons de continuer Ă  travailler intensivement sur les erreurs dans les futures versions et Ă  amĂ©liorer la qualitĂ© des donnĂ©es publiĂ©es. Nous prĂ©voyons de consacrer la version 1.1 Ă  des travaux Ă  grande Ă©chelle sur les bogues.


En bref sur Open STT v1.0


  • Plus de 20 000 heures (initialement nous avons fixĂ© la barre Ă  10 000 heures) d'audio de la parole russe, 2,3 To de donnĂ©es (au format wav , au format .mp3 bien sĂ»r moins);
  • Une grande variĂ©tĂ© de domaines: en commençant par l'audio enregistrĂ© sur un microphone professionnel, en terminant par les appels tĂ©lĂ©phoniques:

DomaineAnnotationPhrasesHorlogeGB
La radioAlignement8.3M11 9961367
Prise de parole en publicAlignement1,7 M2,709301
YoutubeSous-titres2,6 millions2 117346
LivresAlignement / ASR1,3 M1,632180
AppelsASR695K81991
Autres jeux de donnéesTTS, récitation1,9M83595

Des statistiques plus dĂ©taillĂ©es peuvent ĂȘtre trouvĂ©es dans le rĂ©fĂ©rentiel du projet.


  • DĂ©sormais, les donnĂ©es peuvent ĂȘtre tĂ©lĂ©chargĂ©es Ă  grande vitesse au format .wav (mono, 16 KHz, int16) via torrent ou via un lien direct en .mp3 ;
  • Ajout d'un petit ensemble de donnĂ©es de validation Ă©tiquetĂ© manuellement (18 heures) pour 3 domaines principaux;

Nous nous sommes efforcés d'améliorer la qualité du balisage:


  • ModĂšle amĂ©liorĂ© pour aliaser de nouveaux domaines;
  • UtilisĂ© des modĂšles STT meilleurs et plus prĂ©cis pour l'alimentation;
  • AmĂ©lioration de l'algorithme de normalisation des nombres et des lettres latines;
  • Re-partitionner / supprimer progressivement les donnĂ©es "sales" des versions prĂ©cĂ©dentes;
  • GuĂ©ri un certain nombre de jeux de donnĂ©es sur les problĂšmes des enfants tels que:
    • Balancer des lettres simples au dĂ©but et Ă  la fin des phrases;
    • Faible rendement d'alignement en raison de modĂšles de faible qualitĂ©;
    • Travail "correct" avec signes de ponctuation pendant l'alimentation;
  • (BientĂŽt!) De vĂ©ritables Ă©tiquettes pour les haut-parleurs apparaĂźtront;

Pour quelles tĂąches notre ensemble de donnĂ©es peut-il ĂȘtre utile?


  • Reconnaissance vocale
  • SynthĂšse vocale;
  • DĂ©bruitage, Ă©liminer le bruit dans l'audio;
  • Identification vocale;
  • SĂ©paration des orateurs;

Comment envisagez-vous de développer l'ensemble de données à l'avenir?


  • AmĂ©liorer / recharger les ensembles de donnĂ©es existants, nettoyer le balisage;
  • Publier des modĂšles de reconnaissance vocale et de post-traitement;
  • Ajoutez un balisage avec l'ID du haut-parleur. Pour certains des nouveaux domaines, il existe une disposition toute faite, mais il y a aussi l'idĂ©e d'ajouter des haut-parleurs aux anciens ensembles de donnĂ©es;
  • Il est possible de passer Ă  d'autres langues;
  • Il est possible d'ajouter plusieurs nouveaux domaines;

Vous pouvez en savoir plus sur les nouveaux domaines dans le référentiel.

Source: https://habr.com/ru/post/fr474462/


All Articles