👨🏼‍🚀 👩‍💼 🐭 Énorme ensemble de données ouvertes du discours russe ⚗️ 🌖 🔒

Les spécialistes de la reconnaissance vocale manquent depuis longtemps d'un grand corpus ouvert de discours oral russe, de sorte que seules les grandes entreprises pouvaient se permettre de faire cette tâche, mais elles n'étaient pas pressées de partager leurs expériences.

Nous sommes pressés de corriger ce malentendu durable pendant des années.

Nous portons donc à votre attention un ensemble de données de 4000 heures de discours oral annoté, collectées auprès de diverses sources Internet.

Détails sous la coupe.

Voici les données de la version actuelle 0.3:

Type de données	Annotation	La qualité	Phrases	Horloge	GB
Livres	alignement	95% / pur	1,1M	1 511	166
Appels	ASR	70% / bruyant	837K	812	89
Généré (adresses russes)	Tts	100% / 4 voix	1,7 M	754	81
Discours à partir d'une vidéo YouTube	sous-titres	95% / bruyant	786K	724	78
Livres	ASR	70% / bruyant	124K	116	13
Autres jeux de données	lecture et alignement	99% / pur	17K	43	5

Et voici un lien vers le site internet de notre immeuble .

Allons-nous développer davantage le projet?

Notre travail n'est pas terminé, nous voulons obtenir au moins 10 mille heures de discours annoté.

Et puis nous allons créer des modèles ouverts et commerciaux pour la reconnaissance vocale en utilisant cet ensemble de données. Et nous vous suggérons de nous rejoindre: aidez-nous à améliorer l'ensemble de données, utilisez-le dans nos tâches.

Pourquoi notre objectif est-il de 10 mille heures?

Il existe diverses études sur la généralisation des réseaux de neurones dans la reconnaissance vocale, mais il est connu qu'une bonne généralisation ne fonctionne pas sur des ensembles de données de moins de 1000 heures. Un chiffre de l'ordre de 10 000 heures est déjà considéré comme acceptable dans la plupart des cas, puis il dépend déjà de la tâche spécifique.

Que peut-on faire d'autre pour améliorer la qualité de la reconnaissance si les données ne sont toujours pas suffisantes?

Souvent, vous pouvez adapter le réseau neuronal à vos haut-parleurs grâce à une narration d'annonceurs de texte.
Vous pouvez également adapter le réseau neuronal à un dictionnaire de votre domaine (modèle de langue).

Comment avons-nous créé cet ensemble de données?

Chaînes trouvées avec sous-titres de haute qualité sur YouTube, audio et sous-titres téléchargés
A donné l'audio pour la reconnaissance à d'autres systèmes de reconnaissance vocale
Nous lisons des adresses avec des voix robotiques
Nous avons trouvé des livres audio et des textes de livres sur Internet, puis les avons fragmentés par des pauses et juxtaposés les uns aux autres (la tâche dite «d'alignement»)
Ajout sur Internet de petits jeux de données russes.
Après cela, les fichiers ont été convertis en un seul format (wav 16 bits, 16 kHz, mono, disposition hiérarchique des fichiers sur disque).
Les métadonnées ont été stockées dans un fichier manifest.csv distinct.

Comment l'utiliser:

Fichier db

L'emplacement des fichiers est déterminé par leurs hachages, comme ceci:

target_format = 'wav' wavb = wav.tobytes() f_hash = hashlib.sha1(wavb).hexdigest() store_path = Path(root_folder, f_hash[0], f_hash[1:3], f_hash[3:15]+'.'+target_format)

Lecture de fichiers

 from utils.open_stt_utils import read_manifest from scipy.io import wavfile from pathlib import Path manifest_df = read_manifest('path/to/manifest.csv') for info in manifest_df.itertuples(): sample_rate, sound = wavfile.read(info.wav_path) text = Path(info.text_path).read_text() duration = info.duration

Les fichiers manifestes contiennent des triplets: le nom du fichier audio, le nom du fichier avec la description textuelle et la durée de la phrase en secondes.

Filtrer les fichiers d'une certaine longueur seulement

 from utils.open_stt_utils import (plain_merge_manifests, check_files, save_manifest) train_manifests = [ 'path/to/manifest1.csv', 'path/to/manifest2.csv', ] train_manifest = plain_merge_manifests(train_manifests, MIN_DURATION=0.1, MAX_DURATION=100) check_files(train_manifest) save_manifest(train_manifest, 'my_manifest.csv')

Que lire ou regarder en russe pour mieux se familiariser avec la tâche de la reconnaissance vocale?

Récemment, dans le cadre du cours Deep Learning sur les doigts, nous avons enregistré une conférence sur le problème de la reconnaissance vocale (et un peu sur la synthèse). Elle vous sera peut-être utile!

Problèmes de licence

Nous publions l'ensemble de données sous une double licence: à des fins non commerciales, nous proposons une licence cc-by-nc 4.0 , à des fins commerciales - à utiliser après accord avec nous.
Comme d'habitude dans de tels cas, tous les droits d'utilisation des données incluses dans l'ensemble de données restent la propriété de leurs propriétaires. Nos droits s'appliquent à l'ensemble de données lui-même. Des règles distinctes s'appliquent à des fins scientifiques et éducatives, voir la législation de votre pays.

Encore une fois , le site du projet pour ceux qui n'ont pas vu le lien ci-dessus .

Énorme ensemble de données ouvertes du discours russe