Dataset terbuka besar untuk pidato Rusia

gambar

Spesialis pengenalan wicara sudah lama tidak memiliki korpus lisan terbuka yang besar di Rusia, jadi hanya perusahaan besar yang mampu melakukan tugas ini, tetapi mereka tidak terburu-buru untuk membagikan praktik terbaik mereka.

Kami sedang terburu-buru untuk memperbaiki kesalahpahaman yang berlangsung selama bertahun-tahun.

Jadi, kami membawa Anda set data 4000 jam pidato lisan beranotasi, yang dikumpulkan dari berbagai sumber Internet.

Detail di bawah potongan.

Berikut adalah data untuk versi saat ini 0.3:
Tipe dataAnotasiKualitasFrasaJamGB
Bukupenjajaran95% / murni1,1 jt1,511166
PanggilanASR70% / berisik837K81289
Dihasilkan (alamat Rusia)Tts100% / 4 suara1,7 jt75481
Pidato dari video YouTubesubtitle95% / berisik786K72478
BukuASR70% / berisik124K11613
Kumpulan data lainnyamembaca dan menyejajarkan99% / murni17 rb435

Dan di sini ada tautan ke situs web gedung kami .

Apakah kita akan mengembangkan proyek lebih lanjut?


Pekerjaan kami untuk ini belum selesai, kami ingin mendapatkan setidaknya 10 ribu jam pidato beranotasi.

Dan kemudian kita akan membuat model terbuka dan komersial untuk pengenalan suara menggunakan dataset ini. Dan kami sarankan Anda bergabung: bantu kami meningkatkan dataset, gunakan dalam tugas kami.

Mengapa tujuan kami 10 ribu jam?


Ada berbagai studi tentang generalisasi jaringan saraf dalam pengenalan suara, tetapi diketahui bahwa generalisasi yang baik tidak bekerja pada kumpulan data kurang dari 1000 jam. Angka urutan 10 ribu jam sudah dianggap dapat diterima dalam kebanyakan kasus, dan kemudian sudah tergantung pada tugas tertentu.

Apa lagi yang bisa dilakukan untuk meningkatkan kualitas pengakuan jika data masih tidak cukup?


Seringkali, Anda dapat menyesuaikan jaringan saraf dengan speaker Anda melalui narasi penyiar teks.
Anda juga dapat mengadaptasi jaringan saraf ke kamus dari area subjek Anda (model bahasa).

Bagaimana kami membuat dataset ini?


  • Menemukan saluran dengan subtitle berkualitas tinggi di YouTube, audio yang diunduh dan subtitle
  • Memberi audio untuk pengenalan ke sistem pengenalan ucapan lainnya
  • Kami membaca alamat dengan suara robot
  • Kami menemukan buku audio dan buku teks di Internet, kemudian memecahnya menjadi beberapa bagian dengan jeda dan membandingkan satu sama lain (tugas yang disebut "penyelarasan")
  • Ditambahkan di Internet dataset Rusia kecil.
  • Setelah itu, file dikonversi menjadi format tunggal (wav 16-bit, 16 kHz, mono, susunan file hirarkis pada disk).
  • Metadata disimpan dalam file manifest.csv yang terpisah.

Cara menggunakannya:


File db


Lokasi file ditentukan oleh hash mereka, seperti ini:

target_format = 'wav' wavb = wav.tobytes() f_hash = hashlib.sha1(wavb).hexdigest() store_path = Path(root_folder, f_hash[0], f_hash[1:3], f_hash[3:15]+'.'+target_format) 

Membaca file


 from utils.open_stt_utils import read_manifest from scipy.io import wavfile from pathlib import Path manifest_df = read_manifest('path/to/manifest.csv') for info in manifest_df.itertuples(): sample_rate, sound = wavfile.read(info.wav_path) text = Path(info.text_path).read_text() duration = info.duration 

File manifes berisi tiga kali lipat: nama file audio, nama file dengan deskripsi teks, dan durasi frasa dalam hitungan detik.

Saring file dengan panjang tertentu saja


 from utils.open_stt_utils import (plain_merge_manifests, check_files, save_manifest) train_manifests = [ 'path/to/manifest1.csv', 'path/to/manifest2.csv', ] train_manifest = plain_merge_manifests(train_manifests, MIN_DURATION=0.1, MAX_DURATION=100) check_files(train_manifest) save_manifest(train_manifest, 'my_manifest.csv') 

Apa yang harus dibaca atau dilihat dalam bahasa Rusia agar lebih mengenal tugas pengenalan ucapan?


Baru-baru ini, sebagai bagian dari kursus Deep Learning dengan jari, kami merekam sebuah ceramah tentang masalah pengenalan ucapan (dan sedikit tentang sintesis). Mungkin dia akan berguna bagi Anda!


Masalah perizinan


  • Kami memposting dataset di bawah lisensi ganda: untuk tujuan non-komersial, kami menawarkan lisensi cc-by-nc 4.0 , untuk tujuan komersial - digunakan setelah perjanjian dengan kami.
  • Seperti biasa dalam kasus tersebut, semua hak untuk menggunakan data yang termasuk dalam dataset tetap milik pemiliknya. Hak kami berlaku untuk dataset itu sendiri. Aturan terpisah berlaku untuk tujuan ilmiah dan pendidikan, lihat undang-undang negara Anda.

Sekali lagi , situs proyek untuk mereka yang tidak melihat tautan di atas .

Source: https://habr.com/ru/post/id450760/


All Articles