Konsep antarmuka suara sistem komputer untuk membantu orang dengan gangguan bicara

gambar

Pendahuluan


Saat ini, banyak perhatian diberikan untuk menciptakan lingkungan yang dapat diakses bagi para penyandang cacat dan cacat. Sarana penting untuk memastikan aksesibilitas dan meningkatkan kualitas hidup, interaksi sosial, dan integrasi ke dalam masyarakat bagi penyandang cacat adalah fasilitas komputer dan sistem informasi khusus. Analisis literatur menunjukkan bahwa saat ini berbagai perkembangan sedang berlangsung untuk memfasilitasi interaksi manusia dan komputer, termasuk ke arah pengembangan antarmuka suara untuk mengelola sistem komputer. Namun, perkembangan ini dipandu oleh penciptaan sistem speaker-independen, dilatih tentang data besar dan tidak memperhitungkan kekhasan pengucapan perintah ke komputer oleh orang-orang dengan berbagai pelanggaran fungsi bicara.

Tujuan dari penelitian ini adalah untuk merancang antarmuka suara yang bergantung pada speaker untuk mengelola sistem komputer berdasarkan metode pembelajaran mesin.

Tugas diselesaikan dalam pekerjaan:

  1. Melakukan tinjauan antarmuka suara dan cara menggunakannya untuk mengontrol sistem komputasi;
  2. Untuk mempelajari pendekatan untuk personalisasi kontrol suara dari sistem komputer;
  3. Untuk mengembangkan model matematika dari antarmuka suara untuk mengelola sistem komputer;
  4. Mengembangkan algoritma implementasi perangkat lunak.

Metode solusi. Untuk menyelesaikan tugas digunakan metode analisis sistem, pemodelan matematika, pembelajaran mesin.

Antarmuka suara sebagai cara untuk mengontrol sistem komputasi


Membuat sistem pengenalan ucapan adalah tugas yang sangat sulit. Terutama sulit untuk mengenali bahasa Rusia, yang memiliki banyak fitur. Semua sistem pengenalan ucapan dapat dibagi menjadi dua kelas:

Sistem yang bergantung pada pengeras suara - disesuaikan dengan pidato pengeras suara dalam proses pembelajaran. Untuk bekerja dengan pembicara lain, sistem tersebut memerlukan konfigurasi ulang yang lengkap.

Sistem independen speaker - yang operasinya independen terhadap speaker. Sistem seperti itu tidak memerlukan pelatihan sebelumnya dan mampu mengenali pembicaraan pembicara mana pun.

Awalnya, jenis sistem pertama muncul di pasar. Di dalamnya, gambar suara tim disimpan dalam bentuk standar integral. Untuk membandingkan pelafalan yang tidak diketahui dan tim standar menggunakan metode pemrograman dinamis. Sistem ini bekerja dengan baik ketika mengenali set kecil 10-30 tim dan hanya mengerti satu pembicara. Untuk bekerja dengan pembicara lain, sistem ini membutuhkan konfigurasi ulang yang lengkap.
Untuk memahami percakapan terus-menerus, perlu untuk beralih ke kamus dengan ukuran yang jauh lebih besar, dari beberapa puluh hingga ratusan ribu kata. Metode yang digunakan dalam sistem jenis pertama tidak cocok untuk memecahkan masalah ini, karena tidak mungkin untuk membuat standar untuk sejumlah kata.

Untuk memahami percakapan terus-menerus, perlu untuk beralih ke kamus dengan ukuran yang jauh lebih besar, dari beberapa puluh hingga ratusan ribu kata. Metode yang digunakan dalam sistem jenis pertama tidak cocok untuk memecahkan masalah ini, karena tidak mungkin untuk membuat standar untuk sejumlah kata.

Selain itu, ada keinginan untuk membuat sistem independen dari penyiar. Ini adalah tugas yang sangat sulit, karena setiap orang memiliki cara pengucapan masing-masing: kecepatan bicara, timbre suara, dan fitur pengucapan. Perbedaan seperti itu disebut variabilitas ucapan. Untuk memperhitungkannya, metode statistik baru diusulkan, berdasarkan terutama pada perangkat matematika Hidden Markov Models (SMM) atau Jaringan Syaraf Tiruan . Hasil terbaik dicapai dengan menggabungkan kedua metode ini. Alih-alih menciptakan pola untuk setiap kata, pola suara individu diciptakan yang membentuk kata-kata, yang disebut model akustik. Model akustik dibentuk oleh pemrosesan statistik dari database bicara besar yang berisi rekaman pidato ratusan orang. Sistem pengenalan ucapan yang ada menggunakan dua pendekatan yang berbeda secara mendasar:

Pengenalan tag suara - pengenalan fragmen ucapan dari pola yang direkam sebelumnya. Pendekatan ini banyak digunakan dalam sistem yang relatif sederhana yang dirancang untuk menjalankan perintah suara yang direkam sebelumnya.

Pengakuan unsur leksikal - isolasi dari ucapan unsur leksikal yang paling sederhana, seperti fonem dan alofon. Pendekatan ini cocok untuk membuat sistem dikte teks di mana konversi lengkap suara diucapkan menjadi teks terjadi.

Tinjauan berbagai sumber Internet memungkinkan Anda untuk menyoroti produk-produk perangkat lunak berikut yang memecahkan masalah pengenalan suara dan karakteristik utamanya:

Gorynych PROF 3.0 adalah program yang mudah digunakan untuk mengenali bahasa lisan dan mengetik dikte dengan dukungan untuk bahasa Rusia. Ini didasarkan pada perkembangan Rusia di bidang pengenalan ucapan.

Karakteristik
  • kecanduan pembicara;
  • ketergantungan bahasa (Rusia dan Inggris);
  • akurasi pengenalan tergantung pada inti dari sistem American Dragon Dictate;
  • menyediakan kontrol suara untuk fungsi-fungsi tertentu dari sistem operasi, editor teks dan program aplikasi;
  • membutuhkan pelatihan.

VoiceNavigator adalah solusi teknologi tinggi untuk pusat kontak, yang dirancang untuk membangun Sistem Layanan Mandiri Suara (GHS). VoiceNavigator memungkinkan Anda untuk secara otomatis memproses panggilan menggunakan sintesis ucapan dan teknologi pengenalan.

Karakteristik

  • independensi pembicara;
  • kekebalan terhadap kebisingan lingkungan dan gangguan dalam saluran telepon;
  • Pengenalan ucapan Rusia berfungsi dengan keandalan 97% (kamus 100 kata).

Speereo Speech Recognition - pengenalan ucapan terjadi langsung pada perangkat, dan bukan pada server, yang merupakan keuntungan utama, menurut pengembang.

Karakteristik

  • Pengenalan ucapan Rusia bekerja dengan keandalan sekitar 95%;
  • independensi pembicara;
  • kosakata sekitar 150 ribu kata;
  • dukungan simultan untuk berbagai bahasa;
  • ukuran mesin kompak. Sakrament ASR Engine (dikembangkan oleh Sacrament)

Sakrament ASR Engine - (dikembangkan oleh Sacrament) - Teknologi pengenalan ucapan digunakan untuk membuat alat manajemen ucapan - program yang mengontrol tindakan komputer atau perangkat elektronik lainnya menggunakan perintah suara, serta mengatur bantuan telepon dan layanan informasi.

Karakteristik
  • independensi pembicara;
  • kemandirian bahasa;
  • akurasi pengenalan mencapai 95-98%;
  • pengenalan ucapan dalam bentuk ekspresi dan kalimat kecil;
  • tidak ada kesempatan belajar.

Google Voice Search - Baru-baru ini, pencarian suara Google telah diintegrasikan ke dalam browser Google Chrome, yang memungkinkan Anda untuk menggunakan layanan ini di berbagai platform.

Karakteristik

  • Dukungan bahasa Rusia;
  • kemampuan untuk menanamkan pengenalan ucapan pada sumber daya web;
  • perintah suara, frasa;
  • Untuk bekerja, Anda memerlukan koneksi permanen ke internet.

Dragon NaturallySpeaking - (Nuance Company) Pemimpin dunia dalam perangkat lunak pengenalan ucapan manusia. Kemampuan untuk membuat dokumen baru, mengirim email, mengelola browser populer dan berbagai aplikasi melalui perintah suara.

Karakteristik

  • kurangnya dukungan untuk bahasa Rusia;
  • akurasi pengenalan hingga 99%.

ViaVoice - (IBM) adalah produk perangkat lunak untuk implementasi perangkat keras. Berdasarkan inti ini, ProVox Technologies menciptakan sistem untuk mendikte laporan ahli radiologi VoxReports.

Karakteristik

  • akurasi pengenalan mencapai 95-98%;
  • independensi pembicara;
  • kamus sistem terbatas pada seperangkat istilah tertentu.

Sphinx adalah perangkat lunak pengenalan suara open source yang terkenal dan efisien untuk saat ini. Pengembangan ini dilakukan di Carnegie Mellon University, dilisensikan di bawah Berkley Software Distribution (BSD) dan tersedia untuk penggunaan komersial dan non-komersial.

Karakteristik

  • independensi pembicara;
  • pengenalan ucapan terus menerus;
  • kemampuan belajar;
  • ketersediaan versi untuk sistem tertanam - Pocket Sphinx.

Dengan demikian, survei menunjukkan bahwa produk perangkat lunak yang ditargetkan pada sejumlah besar pengguna yang ada di pasar, bersifat speaker-independent, sebagai suatu peraturan, memiliki lisensi kepemilikan, yang secara signifikan membatasi penggunaannya bagi para penyandang cacat untuk mengelola sistem komputasi. Sistem untuk kontrol suara dari alat khusus, seperti rumah pintar, exoskeleton, dll., Tidak universal. Namun, minat terhadap teknologi baru semakin berkembang, ada peluang untuk mengendalikan berbagai perangkat melalui komunikasi seluler, teknologi bluetooth. Termasuk peralatan rumah tangga. Penggunaan teknologi kontrol suara yang difokuskan pada pengguna tertentu akan meningkatkan kualitas kehidupan sehari-hari dan adaptasi sosial bagi para penyandang cacat.

Alat matematika untuk mengenali keadaan pembicara dan fitur-fiturnya


Untuk mengatasi masalah yang ditimbulkan dalam pekerjaan, kami menganalisis persyaratan untuk sistem.

Sistem harus:

  1. ketergantungan speaker;
  2. Belajar sesuai dengan pengucapan tertentu dari pengguna tertentu;
  3. mengenali sejumlah tag suara dan menerjemahkannya ke dalam perintah kontrol.

Antarmuka suara harus: tergantung pada pembicara, dengan serangkaian kosakata terbatas.

Perintah suara adalah gelombang suara. Gelombang suara dapat direpresentasikan sebagai spektrum frekuensi yang termasuk di dalamnya. Suara digital adalah cara untuk mewakili sinyal listrik melalui nilai numerik diskrit dari amplitudonya. File audio di memori utama berfungsi sebagai informasi input agar antarmuka suara berfungsi, sebagai hasil dari file yang dikirimkan ke jaringan saraf, program memberikan hasil yang sesuai.

Digitalisasi adalah fiksasi amplitudo sinyal pada interval waktu tertentu dan pendaftaran nilai amplitudo yang diperoleh dalam bentuk nilai digital bulat. Digitalisasi sinyal mencakup dua proses - proses pengambilan sampel dan proses kuantisasi.

Proses pengambilan sampel adalah proses mendapatkan nilai sinyal, yang dikonversi dengan langkah waktu tertentu, langkah ini disebut langkah pengambilan sampel. Jumlah pengukuran besarnya sinyal, dilakukan dalam satu detik, disebut frekuensi sampling atau frekuensi sampling, atau frekuensi sampling. Semakin kecil langkah pengambilan sampel, semakin tinggi frekuensi pengambilan sampel dan representasi sinyal yang lebih akurat akan kita dapatkan.

Kuantisasi adalah proses penggantian nilai nyata dari amplitudo sinyal dengan nilai perkiraan dengan akurasi tertentu. Setiap level 2N yang mungkin disebut level kuantisasi, dan jarak antara dua level kuantisasi terdekat disebut langkah kuantisasi. Jika skala amplitudo dibagi secara linear ke dalam level, kuantisasi disebut linier atau homogen.

Nilai amplitudo sinyal yang direkam disebut sampel. Semakin tinggi laju pengambilan sampel dan semakin banyak level kuantisasi, semakin akurat representasi digital dari sinyal.

Dianjurkan untuk menggunakan jaringan saraf yang dapat belajar dan secara otomatis memilih tanda-tanda yang diperlukan sebagai alat matematika untuk memecahkan masalah membedakan fitur karakteristik. Ini akan memungkinkan Anda untuk melatih sistem untuk pengucapan tertentu dari perintah ucapan pengguna tertentu. Membandingkan mekanisme berbagai jaringan saraf, kami telah memilih dua yang paling cocok. Ini adalah jaringan Kosco dan Cohoken.

Peta swadaya Kohonen adalah jaringan saraf dengan pembelajaran tanpa guru, melakukan tugas visualisasi dan pengelompokan. Ini adalah metode memproyeksikan ruang multidimensi ke ruang dengan dimensi yang lebih rendah (paling sering, dua dimensi), juga digunakan untuk menyelesaikan pemodelan, meramalkan masalah, mengidentifikasi set fitur independen, mencari pola dalam set data besar, dan mengembangkan game komputer. Ini adalah salah satu versi jaringan saraf Kohonen.

Jaringan Kohonen adalah jaringan yang sesuai, karena jaringan ini dapat secara otomatis memecah contoh pelatihan menjadi kelompok, di mana jumlah kelompok ditetapkan oleh pengguna. Setelah melatih jaringan, Anda dapat menghitung kelompok mana yang menjadi contoh input dan output hasil yang sesuai.

Jaringan saraf Kosco atau bidirectional associative memory (DAP) adalah jaringan saraf umpan balik satu lapis yang didasarkan pada dua gagasan: teori resonansi adaptif Stefan Grosberg dan memori asosiasi otomatis Hopfield. DAP heteroassociative: vektor input tiba di satu set neuron, dan vektor output yang sesuai dihasilkan pada set neuron lain. Seperti jaringan Hopfield, DAP mampu melakukan generalisasi, menghasilkan reaksi yang tepat, meskipun inputnya terdistorsi. Selain itu, versi adaptif dari WCT dapat diimplementasikan, menyoroti gambar referensi dari contoh bising. Kemampuan ini sangat menyerupai proses berpikir manusia dan memungkinkan jaringan saraf tiruan untuk mengambil langkah ke arah pemodelan otak.

Keuntungan dari jaringan ini adalah bahwa berdasarkan pada jaringan syaraf diskrit dari teori resonansi adaptif, memori asosiatif dua arah baru dikembangkan yang mampu menyimpan informasi baru tanpa melatih kembali jaringan saraf. Ini memungkinkan pengguna untuk mengisi kembali stok tag suara jika perlu.

Desain


Konsep implementasi perangkat lunak berisi tiga tahap yang diimplementasikan dalam satu produk perangkat lunak yang memiliki antarmuka grafis yang ergonomis.

Kumpulan contoh pelatihan.

Untuk melatih jaringan saraf, pengguna diundang untuk mengatakan beberapa kali tag suara yang disiapkan. Karena frasa yang direkam terdiri dari satu kata, ukuran file tidak menjadi masalah. Dan untuk diproses lebih lanjut, suara direkam dalam format WAV. Ini adalah format perekaman lossless PCM. Ini adalah standar untuk pemrosesan suara lebih lanjut menggunakan pustaka python_speech_features dari Python. "Nilai" yang diperlukan untuk pelatihan lebih lanjut jaringan saraf (perintah yang sesuai) harus dilampirkan ke file audio.

Pelatihan jaringan saraf.

Program membaca file audio, dan menghasilkan file audio baru dengan mengubah panjang trek audio, serta mengubah nada, volume dan nada bicara. Hal ini diperlukan untuk meningkatkan jumlah contoh sampel pelatihan, yang akan meningkatkan kualitas pengakuan oleh jaringan saraf. Dalam program ini, pengguna akan diminta untuk melatih jaringan pada tag suara yang direkam sebelumnya. Pengguna juga dapat melengkapi pangkalan dengan tag suara pelatihan, dan melatih ulang jaringan saraf nanti.

Menggunakan program.

Setelah melatih program dengan kata-kata yang diberikan, pengguna dapat mulai bekerja atau menambahkan tag suara baru ke pelatihan. Jaringan saraf yang terlatih dapat mengenali file audio yang dikirimkan.

Kesimpulan


Dengan demikian, dalam pekerjaan penelitian, tinjauan pasar modern antarmuka suara dan penggunaannya dilakukan. Terlihat bahwa perangkat lunak jenis ini difokuskan pada penggunaan sistem kontrol suara independen suara dan tidak memperhitungkan karakteristik individu pengguna, yang sangat penting bagi para penyandang cacat dan gangguan bicara.

Persyaratan untuk antarmuka kontrol suara dari sistem komputer untuk membantu orang dengan gangguan bicara didefinisikan.

Alat matematika yang cocok untuk menerapkan konsep dijelaskan. Algoritma untuk implementasi perangkat lunak antarmuka suara dikompilasi.

Pengembangan lebih lanjut melibatkan pengembangan program dengan antarmuka grafis yang nyaman untuk implementasi antarmuka kontrol suara prototipe yang dapat digunakan untuk berbagai tugas, seperti mengendalikan peralatan rumah tangga, komputer, peralatan robotik (exoskeleton) oleh para penyandang cacat.

Source: https://habr.com/ru/post/id429778/


All Articles