👨🏿‍🔧 📋 📛 Pengenalan ucapan dengan akselerasi perangkat keras. ASIC khusus mengkonsumsi kurang dari 8 mW 🍔 🌎 🚽

Spesifikasi Teknis untuk Pengenalan Ucapan ASIC

Perintah suara adalah antarmuka yang paling alami dan nyaman untuk mengendalikan elektronik. Orang dapat membayangkan bahwa di masa depan, hampir semua perangkat elektronik akan memahami perintah pemiliknya: mulai dari bola lampu di apartemen hingga kulkas, microwave, dan ketel di dapur. Terhubung ke jaringan umum Internet, perangkat-perangkat ini tidak hanya akan memahami pemiliknya, tetapi juga mengoordinasikan tindakan mereka satu sama lain.

Dalam beberapa tahun terakhir, teknologi pengenalan suara telah mencapai tingkat tinggi dan telah matang untuk berbagai aplikasi komersial: kontrol komputer mobil, perawatan kesehatan (dokumentasi digital untuk pengenalan suara dokter) dan penggunaan militer. Misalnya, di pesawat pelatihan Italia M-346 dan di pesawat tempur F-35 milik Amerika, akurasi sistem pengenalan suara mencapai 98% . Tetapi untuk melakukan pengenalan suara pada peralatan rumah tangga dan elektronik yang dapat dipakai, Anda perlu secara drastis mengurangi konsumsi daya antarmuka ini.

Insinyur di Laboratorium Institute of Technology (MIT) Massachusetts untuk Informatika dan Kecerdasan Buatan (CSAIL) telah memulai persiapan untuk gambar futuristik ini ketika semua elektronik di sekitarnya mulai memahami suara manusia. Sebagai bagian dari proyek Qmulus bersama dengan Quanta Computer, para peneliti di MIT telah mengembangkan prototipe microchip khusus (ASIC) untuk pengenalan suara. Fitur unik dari chip ini adalah konsumsi daya yang sangat rendah: dari hanya 0,2 mW hingga 10 mW, tergantung pada jumlah kata yang perlu dikenali. Ini memungkinkan untuk menggunakan elektronik semacam itu di perangkat apa pun, bahkan didukung oleh tubuh manusia.

Metabolisme normal dalam tubuh pria dewasa menghasilkan sekitar 80 watt panas, dan pengendara sepeda terlatih menghasilkan hingga 400 watt energi mekanik. Tentu saja, kekuatan seperti itu tidak dapat digunakan untuk memberi daya elektronik sepenuhnya, tetapi banyak yang tidak diperlukan. Beberapa watt mudah dikeluarkan dari tubuh manusia dalam mode pasif. Misalnya, gelang kecil sepanjang 10 cm di pergelangan tangan menghasilkan terus menerus sekitar 40 mW karena perbedaan suhu tubuh manusia (sekitar 37 ° C) dan udara sekitar (20 ° C).

Jika Anda tidak mengenakan gelang, tetapi seluruh jaket termal atau lebar 50-100 cm, maka itu akan menghapus sekitar 2 watt dari tubuh. Tetapi Anda masih dapat mengubah energi gerak kinetik dan memecah gula dari darah. Ini cukup untuk memberi daya pada benda elektronik, pakaian, dan gadget paling sederhana.

Selain tubuh manusia, perangkat elektronik berdaya rendah dapat menghasilkan energi, misalnya, dari gelombang radio latar belakang (microwave, radio, WiFi, dll.), Dari getaran jendela dan lantai, dll.

Rata-rata smartphone biasa tidak akan bekerja dengan energi yang dikumpulkan dari tubuh manusia atau dari eter. Menurut pengembang, program pengenalan suara pada smartphone pada perangkat keras seluler biasa akan menghasilkan sekitar 1 W. Ini banyak sekali. Menggunakan chip MIT khusus dan Komputer Quanta dalam kondisi nyata berarti penghematan energi 90-99%. Yang paling penting, perangkat berdaya rendah seperti itu secara dramatis memperluas ruang lingkup pengenalan ucapan. Sekarang itu dapat diimplementasikan tidak hanya di smartphone atau perangkat elektronik mahal, tetapi di benda-benda sekitarnya yang paling umum, bahkan di cermin kamar mandi.

Jika Anda mengumpulkan energi dari lingkungan, perangkat seperti itu tidak perlu mengganti baterai sama sekali. Jika Anda masih menyediakan baterai untuk keandalan, maka satu pengisian daya sudah cukup selama berbulan-bulan atau bertahun-tahun.

Proyek gabungan Qmulus di MIT dan Quanta Computer dimulai kembali pada 2005, ketika itu disebut T-Party. Para pengembang menyarankan bahwa dengan penyebaran Internet, chip komputer akan tertanam di berbagai objek, bahkan pada hewan peliharaan dan ternak, untuk memperhitungkan ternak dan memantau kondisinya. Microchip terus mengumpulkan informasi dan mengirimkannya ke server pusat secara real time.

Mungkin chip pengenalan suara dapat dibangun menjadi kerah hewan peliharaan - misalnya, perintah suara dapat mengirim pulsa listrik yang lemah ke kerah, merangsang hewan peliharaan untuk melakukan satu atau beberapa tindakan. Namun, hewan peliharaan dan tanpa microchip sangat memahami perintah suara pemiliknya, sehingga penemuan semacam itu lebih berguna di area lain.

"Perintah suara akan menjadi antarmuka alami untuk perangkat yang dapat dipakai dan pintar," kata Anantha Chandrakasan, profesor teknik listrik di MIT, yang kelompoknya mengembangkan microchip baru. - Miniaturisasi perangkat semacam itu akan membutuhkan antarmuka selain keyboard. Sangat penting untuk mengintegrasikan fungsi pengenalan suara secara lokal, mengurangi konsumsi daya sistem dibandingkan dengan melakukan operasi ini di cloud. "

ASIC yang dirancang menunjukkan akurasi pengenalan yang kira-kira sama dengan perangkat lunak Kaldi komersial dengan kamus 145 ribu kata, dan pada frekuensi clock 80 MHz, kinerja sirkuit mikro (kecepatan mencari kata-kata dalam kisi kosa kata) kira-kira sesuai dengan kinerja komputer dengan prosesor Xeon dan frekuensi jam 3, 7 GHz.

Kualitas Pengenalan Suara Kontinu (WER) dan konsumsi daya ASIC ditunjukkan pada tabel.

Tantangan	Kosakata	Frekuensi	Pertukaran memori	Wer	Konsumsi daya
Tokoh	11	3 MHz	0,11 MB / s	1,65%	172 mcw
Cuaca	2k	23 MHz	10,1 MB / s	4,38%	4,70 mW
Buku harian makanan	7rb	46 MHz	9.02 MB / s	8,57%	4,67 mW
Berita (1)	5rb	15 MHz	4,84 MB / s	3,12%	1,78 mW
Berita (2)	145rb	40 MHz	15,0 MB / s	8,78%	7,78 mW

Artikel ilmiah "Pengenal Ucapan yang Dapat Dikukur dengan Model Akustik Jaringan-Dalam-Neural dan Power-Activated Power Gating" dengan deskripsi microchip dipresentasikan minggu lalu di Konferensi Sirkuit Solid-State Circuits ( presentasi, pdf ).

Pengenalan ucapan dengan akselerasi perangkat keras. ASIC khusus mengkonsumsi kurang dari 8 mW

More articles: