Sebagian besar sistem pengenalan ucapan manusia modern didasarkan pada metode yang memecah rekaman suara ke dalam fonem dan menganalisis karakteristik frekuensi amplitudo mereka untuk mencari fonem dari huruf-huruf individual berdasarkan klasifikasinya dengan serangkaian karakteristik frekuensi tertentu. Metode semacam itu menganggap setiap fonem sebagai unit tunggal yang tidak dapat dipisahkan dari sinyal suara dengan karakteristik frekuensi kuasi. Dengan pendekatan ini, karakteristik fonem yang berubah secara dinamis dalam waktu tidak diperhitungkan.

Tetapi pendekatan seperti itu untuk analisis wicara dapat diterapkan tidak hanya untuk pengakuannya, tetapi juga untuk pelatihan deskripsi analitis fonem, membangun model matematika dari data yang diterima, dan sintesis suara, hampir sama dengan aslinya.
Analisis komponen bicara manusia
Semua orang dari sekolah masih tahu bahwa sebuah kata terdiri dari satu atau lebih suku kata, yang pada gilirannya terdiri dari satu atau lebih fonem. Fonem adalah suatu unit bahasa yang minimal (yang paling penting adalah bahwa itu bermakna), itu tidak memiliki makna leksikal atau tata bahasa, tetapi berfungsi untuk memungkinkan kita memahami unit-unit dasar bahasa - kata-kata.
Inilah yang terlihat seperti karakteristik amplitudo waktu dari fonem huruf βOβ.

Untuk kenyamanan, saya perhatikan di sini tiga periode waktu yang berbeda:
- a - proses perjalanan (setiap fonem dimulai dengan proses ini)
- b - proses penuaan ("tempat" fonem yang membutuhkan deskripsi)
- c - proses rekursi (berbicara kasar - kami selesai berbicara, suara berakhir :))
Saya melakukan analisis lamanya waktu di mana fonem (karakteristik amplitudo-waktunya) tetap dalam keadaan kuasi-stasioner. Di sini, kita dapat mengasumsikan bahwa pada saat inilah komponen (hampir) dari spektrum suara tetap tidak berubah.
Untuk analisis dan deskripsi lebih lanjut, Anda perlu menguraikan suara paparan menjadi komponen spektral.

Tetapi fonem, seperti atom, tampaknya tidak mungkin untuk dibagi menjadi komponen-komponen yang tampaknya tidak dapat dibagi. Tetapi tidak demikian: setiap puncak dalam grafik di atas sesuai dengan satu komponen harmonik dari fonem - formant. Jadi, setiap fonem dapat dijelaskan jika komponen-komponennya yang paling sederhana dijelaskan. Dan tidak ada yang seharusnya memiliki masalah dengan yang terakhir. Jika Anda hati-hati melihat grafik, Anda dapat dengan mudah menentukan bahwa formant digambarkan secara simultan oleh dua parameter: frekuensi dan amplitudo relatif. Dengan demikian, murni secara matematis, kedua parameter ini membentuk vektor, dan himpunan vektor tersebut yang sesuai dengan forman penting yang ada sesuai dengan matriks parameter.
Kemudian fonem (proses quasistationary) dapat dikarakterisasi dengan serangkaian parameter berikut:

Parameter untuk beberapa vokal lain juga tercantum di sini. Huruf
A adalah amplitudo, masing-masing,
v adalah frekuensi. Adalah adil untuk mengatakan bahwa huruf yang paling "kompleks" adalah "E" dan "I" - spektrum fonem mereka lebih luas, dan frekuensi signifikan dalam dua interval yang berbeda.
Sintesis fonem
Untuk merealisasikan kemungkinan menilai kualitas metode yang diuraikan, sebuah model diusulkan untuk merekonstruksi fonem-fonem bicara manusia menggunakan matriks parametrik yang diperoleh:
. Di sini, di bawah tanda penjumlahan, catatan formal dari formant ditunjukkan. Dengan demikian, menggunakan data dari tabel di atas, Anda dapat membuat model suara, misalnya, huruf "U" dan mensintesisnya.

Set parameter untuk nilai-nilai matriks tergantung pada sifat-sifat fonem. Jadi, untuk rekonstruksi realistis dari rekaman suara "U" vokal, sebuah matriks yang terdiri dari delapan belas parameter numerik yang menggambarkan sembilan forman penting digunakan. Untuk membangun model yang lebih akurat, perlu memperhitungkan semua perwujudan fonem yang penting. Kondisi lain untuk akurasi membandingkan sinyal asli dan yang disintesis adalah durasi yang sama dari sinyal suara.
Kesimpulan dan Kesimpulan
Anda mengerti bahwa fonem bukanlah unit yang tak terpisahkan dalam analisis ucapan manusia. Saya juga menunjukkan kepada Anda cara sederhana untuk secara analitis menggambarkan bentuk-bentuk fonem pembicaraan manusia. Pada bagian terakhir kami memeriksa bahwa adalah mungkin untuk membangun model matematika fonem dari parameter yang diperoleh, dan model yang diperoleh, pada gilirannya, dapat digunakan untuk mensintesis fonem. Saya harap Anda menikmati materi ini. Pada artikel berikutnya, kita akan menganalisis bagaimana pewarnaan emosional suara itu rumit dan bagaimana model matematika dapat dibangun secara empiris untuk itu.
PS
Teks utama dari karya yang diterbitkan dapat ditemukan di
sini .