Dataset terbuka yang besar untuk bahasa Rusia versi 1.0

gambar


Pada awal tahun ini, karena sejumlah alasan, kami mendapat ide untuk membuat dataset terbuka terbesar di Rusia. Lebih banyak tentang motivasi kita dan bagaimana semuanya dimulai
dapat dibaca di artikel ini - Kumpulan data terbuka yang luas dari pidato Rusia . Sejak itu, proyek kami telah melalui serangkaian perubahan skala besar, kami telah melipatgandakan jumlah data, meningkatkan kualitasnya, menambahkan label untuk speaker dan sekarang kami akhirnya siap untuk menyajikan versi 1.0 kepada Anda.


Kami juga tidak siap untuk berpuas diri dan berencana untuk terus melakukan pekerjaan intensif pada kesalahan dalam versi masa depan dan meningkatkan kualitas data yang dipublikasikan. Kami berencana untuk mencurahkan versi 1.1 untuk pekerjaan skala besar pada bug.


Secara singkat tentang Open STT v1.0


  • Lebih dari 20.000 jam (awalnya kami menetapkan 10.000 pada jam) audio pidato Rusia, 2,3 Tb data (dalam format wav , dalam format .mp3 tentu saja kurang);
  • Berbagai macam domain: dimulai dengan audio yang direkam pada mikrofon profesional, berakhir dengan panggilan telepon:

DomainAnotasiFrasaJamGB
RadioPerataan8.3M11.9961367
Berbicara di depan umumPerataan1,7 jt2,709301
YoutubeTeks2,6 jt2.117346
BukuAlignment / ASR1.3 jt1,632180
PanggilanASR695K81991
Kumpulan data lainnyaTTS, pembacaan1.9 jt83595

Statistik yang lebih rinci dapat ditemukan di repositori proyek.


  • Sekarang data dapat diunduh dengan kecepatan tinggi baik dalam .wav (mono, 16KHz, int16) melalui torrent, atau melalui tautan langsung di .mp3 ;
  • Menambahkan dataset validasi berlabel kecil secara manual (18 jam) untuk 3 domain utama;

Kami melakukan segala upaya untuk meningkatkan kualitas markup:


  • Model yang ditingkatkan untuk alias domain baru;
  • Digunakan model STT yang lebih baik dan lebih halus untuk pemindahan;
  • Peningkatan algoritma untuk menormalkan angka dan huruf Latin;
  • Partisi ulang secara bertahap / hapus data "kotor" dari versi sebelumnya;
  • Menyembuhkan sejumlah dataset masalah anak-anak seperti:
    • Menggantung satu huruf di awal dan akhir kalimat;
    • Hasil pelurusan rendah karena model berkualitas rendah;
    • "Benar" bekerja dengan tanda baca selama proses alimentasi;
  • (Segera!) Label asli untuk pengeras suara akan muncul;

Untuk tugas apa set data kami berguna?


  • Pengenalan ucapan
  • Sintesis ucapan;
  • Denoising, menghilangkan noise dalam audio;
  • Identifikasi suara;
  • Pemisahan speaker;

Bagaimana Anda berencana untuk mengembangkan dataset di masa depan?


  • Memperbaiki / memuat kembali dataset yang ada, markup bersih;
  • Menerbitkan model untuk pengenalan ucapan dan pasca-pemrosesan;
  • Tambahkan markup dengan id pembicara. Untuk beberapa domain baru, ada tata letak yang sudah jadi, tetapi ada juga ide untuk menambahkan speaker ke set data lama;
  • Dimungkinkan untuk beralih ke bahasa lain;
  • Dimungkinkan untuk menambahkan beberapa domain baru;

Anda dapat mempelajari lebih lanjut tentang domain baru di repositori.

Source: https://habr.com/ru/post/id474462/


All Articles