Teknologi Text-to-Speech berkualitas tinggi, ringan dan mudah beradaptasi menggunakan LPCNet


Kemajuan terbaru dalam pembelajaran mendalam membawa perbaikan signifikan pada pengembangan sistem sintesis bicara (selanjutnya - TTS). Hal ini disebabkan oleh penggunaan metode yang lebih efektif dan lebih cepat untuk mempelajari suara dan gaya penutur, serta karena sintesis pidato yang lebih alami dan berkualitas tinggi.

Namun, untuk mencapai hal ini, sebagian besar sistem TTS harus menggunakan model jaringan saraf besar dan kompleks yang sulit untuk dilatih dan yang tidak memungkinkan sintesis suara waktu nyata, bahkan dengan GPU.

Untuk mengatasi masalah ini, tim IBM Research AI kami telah mengembangkan metode baru sintesis jaringan saraf berdasarkan arsitektur modular. Metode ini menggabungkan tiga jaringan saraf yang dalam (selanjutnya disebut DNN) dengan pemrosesan antara sinyal keluarannya. Kami mempresentasikan karya ini dalam artikel kami "Teknologi TTS Berkualitas Tinggi, Ringan dan Beradaptasi Menggunakan LPCNet" di Interspeech 2019. Arsitektur TTS ringan dan dapat mensintesis pidato berkualitas tinggi secara real time. Setiap jaringan mengkhususkan diri dalam berbagai aspek suara speaker, yang memungkinkan Anda untuk secara efektif melatih salah satu komponen secara terpisah dari yang lain.


Diagram 1. Arsitektur Sistem TTS

Keuntungan lain dari pendekatan kami adalah bahwa setelah melatih jaringan inti, mereka dapat dengan mudah diadaptasi ke gaya bicara atau suara baru bahkan pada volume kecil data pelatihan, misalnya, untuk tujuan branding dan penyesuaian.

Dalam proses sintesis, modul antarmuka untuk bahasa tertentu digunakan, yang mengubah teks input menjadi urutan fitur linguistik. Kemudian DNN berikut diterapkan satu demi satu:

1. Prediksi prosodi


Fitur prosodic dari wicara disajikan sebagai vektor empat dimensi per unit TTS (sekitar sepertiga dari kondisi suara menurut SMM (model Markov tersembunyi)), yang meliputi durasi log, pitch log awal dan akhir, serta energi log. Fitur-fitur ini ditentukan selama proses pelatihan, sehingga mereka dapat diprediksi oleh fitur teks yang diterima oleh antarmuka selama sintesis. Prosody sangat penting tidak hanya agar ucapan terdengar alami dan hidup, tetapi juga agar data yang dimaksudkan untuk pelatihan atau adaptasi memiliki refleksi paling lengkap dari gaya bicara pembicara. Adaptasi prosodi ke suara pembicara didasarkan pada Variational Auto Encoder (VAE).


Skema 2. Pelatihan dan pelatihan ulang generator prosodi

2. Prediksi fitur akustik


Vektor fitur akustik memberikan representasi spektral pidato dalam bingkai pendek 10 milidetik dari mana suara aktual dapat dihasilkan. Fitur akustik ditentukan dalam proses pembelajaran, dan mereka dapat diprediksi oleh tanda fonetik dan prosodi selama sintesis.


Skema 3. Penyintesis jaringan

Model DNN yang dibuat adalah data audio (penyiar suara), yang diperlukan untuk pelatihan atau adaptasi. Arsitektur model terdiri dari lapisan konvolusional dan berulang yang dirancang untuk mengekstraksi konteks lokal dan dependensi waktu dalam urutan struktur bunyi dan nada. DNN memprediksi fitur akustik dari turunan pertama dan kedua mereka. Ini diikuti oleh metode kemungkinan maksimum dan filter formant diterapkan yang membantu untuk menghasilkan suara yang terdengar lebih baik.

3. Neural vocoder


Seorang neural vocoder bertanggung jawab untuk menghasilkan ucapan dari fitur akustik. Dia belajar dari pola bicara alami pembicara, mengingat karakteristik masing-masing. Secara teknis, kami adalah orang pertama yang menggunakan vocoder saraf baru, ringan, berkualitas tinggi yang disebut LPCNet dalam sistem TTS yang sepenuhnya dikomersialkan.

Kebaruan dari vocoder ini adalah ia tidak mencoba untuk memprediksi sinyal ucapan kompleks secara langsung menggunakan DNN. Sebaliknya, DNN hanya memprediksi sinyal jalur suara residual yang kurang kompleks, dan kemudian menggunakan filter Linear Predictive Coding (LPC) untuk mengubahnya menjadi sinyal ucapan akhir.


Skema 4. Neural vocoder LPCNet

Adaptasi suara


Adaptasi ke suara mudah dicapai dengan melatih kembali tiga jaringan berdasarkan sejumlah kecil data audio dari speaker target. Dalam artikel kami, kami menyajikan hasil percobaan adaptasi dalam hal kualitas bicara dan kemiripannya dengan pidato pembicara yang sebenarnya. Halaman ini juga menunjukkan contoh-contoh adaptasi ke delapan pembicara VCTK (Voice Cloning Toolkit) yang berbeda, di mana 4 adalah pria dan 4 wanita.

Mendengarkan Hasil


Gambar di bawah ini menunjukkan hasil tes mendengarkan pola bicara VCTK yang disintesis dan alami. Nilai Mean Opinion Score (MOS) didasarkan pada analisis pendengar terhadap kualitas bicara pada skala 1 sampai 5. Kesamaan antara pasangan sampel dinilai oleh siswa pada skala 1 hingga 4.

Kami mengukur kualitas ucapan yang disintesis, serta kemiripannya dengan ucapan pembicara "langsung", membandingkan suara yang diadaptasi perempuan dan laki-laki yang berlangsung 5, 10 dan 20 menit dengan ucapan alami para pembicara.

Hasil pengujian menunjukkan bahwa kami dapat mempertahankan kualitas tinggi dan kesamaan tinggi dengan aslinya bahkan untuk suara-suara yang dilatih pada contoh lima menit.



Diagram 5. Hasil pengujian untuk kualitas dan kesamaan

Pekerjaan ini dilakukan oleh IBM Watson dan berfungsi sebagai dasar untuk rilis baru layanan IBM Watson TTS dengan kualitas suara yang lebih baik (lihat suara "* V3" dalam demo TTS IBM Watson ).

Source: https://habr.com/ru/post/id473400/


All Articles