AI menerjemahkan aktivitas otak ke dalam ucapan

gambar

Banyak orang lumpuh yang tidak dapat berbicara memiliki sinyal dari apa yang ingin mereka katakan tersembunyi di otak mereka. Dan tidak ada yang bisa mendekripsi sinyal ini. Namun baru-baru ini, tiga tim peneliti telah membuat kemajuan dalam menerjemahkan data dari elektroda yang ditempatkan di otak secara bedah ke dalam pidato yang disintesis komputer.

Menggunakan model yang dibangun di jaringan saraf, mereka merekonstruksi kata-kata dan bahkan seluruh kalimat, yang, dalam beberapa kasus, cukup dimengerti oleh pendengar manusia pada umumnya.

Tak satu pun dari upaya yang dijelaskan dalam pracetak kerja pada bioRxiv untuk menciptakan kembali ucapan dari pikiran telah membawa kesuksesan. Sebagai gantinya, para peneliti mengamati aktivitas berbagai daerah di otak pasien ketika mereka membaca dengan keras, baik membaca sendiri tetapi masih menggerakkan bibir mereka, berbicara teks secara internal, atau mendengarkan catatan.

"Menunjukkan bahwa pidato yang direkonstruksi cukup dimengerti benar-benar menarik." Kata Stephanie Martin, seorang insinyur neuro di Universitas Jenewa di Swiss, yang terlibat dalam proyek ini.

Orang yang kehilangan kemampuan berbicara setelah stroke, atau karena penyakit, dapat menggunakan mata mereka atau gerakan kecil lainnya untuk mengontrol kursor atau memilih huruf di layar (kosmologis Stephen Hawking menggerakkan pipinya untuk mengaktifkan sakelar yang dipasang pada kacamatanya). Tetapi jika antarmuka otak-komputer dapat secara langsung mereproduksi ucapan pasien, ini akan sangat memperluas kemampuan mereka: itu akan memberikan kontrol atas nada suara dan akan memungkinkan Anda untuk mengambil bagian dalam percakapan yang berlangsung cepat.

"Kami mencoba mengembangkan skema ... neuron yang diaktifkan pada titik yang berbeda dalam waktu dan membuat kesimpulan tentang bagaimana pidato itu terdengar," kata Nima Mesgarani, seorang insinyur di Universitas Columbia. "Mengubah satu menjadi yang lain tidak begitu mudah."

Cara sinyal-sinyal dari neuron ini dikonversi menjadi ucapan bervariasi dari orang ke orang, oleh karena itu model komputer harus dilatih secara terpisah untuk setiap individu. Dan yang terbaik dari semuanya, ternyata untuk model yang belajar dari data yang sangat akurat, penerimaan yang membutuhkan pembukaan tengkorak.

Para peneliti bisa mendapatkan kesempatan ini dalam kasus yang sangat langka. Salah satunya adalah ketika seorang pasien dikeluarkan dari tumor otak. Ahli bedah menggunakan pembacaan sensor yang membaca sinyal listrik langsung dari otak untuk mencari dan menghindari area bicara dan motorik. Contoh lain adalah ketika elektroda ditanamkan pada pasien dengan epilepsi selama beberapa hari untuk menemukan sumber kejang sebelum melakukan operasi.

"Kami memiliki maksimum 20, kadang-kadang 30 menit, untuk mengumpulkan data," kata Stephanie Martin. "Kami sangat, sangat terbatas waktu."

Hasil terbaik dicapai oleh tim "memberi makan" data yang diperoleh dari rekaman aktivitas otak ke jaringan saraf tiruan. Sebagai keluaran (ed. Label), jaringan diberi pidato yang baik diucapkan atau didengar pasien.

Tim Nima Mesgarani mengandalkan data dari lima pasien berbeda dengan epilepsi. Jaringan saraf mereka dilatih pada rekaman dari korteks pendengaran otak orang (yang aktif baik selama pidato seseorang dan saat mendengarkan orang lain), yang pada waktu itu sedang memutar catatan berbagai cerita dan menjuluki urutan angka dari 0 hingga 9. Kemudian model komputer mensintesis ucapan mengucapkan urutan angka dan kelompok kontrol yang sama dapat mengenali 75% dari data ini.

Pidato yang dihasilkan komputer diperoleh dari data aktivitas otak pasien sambil mendengarkan angka

Tim lain, yang dipimpin oleh Tanja Schultz dari University of Bremen di Jerman, menggunakan data dari 6 orang yang menjalani operasi untuk mengangkat tumor otak. Pidato mereka direkam pada mikrofon sementara mereka membaca kata-kata bersuku kata satu dengan keras. Pada saat yang sama, elektroda yang ditempatkan di otak mereka menangkap aktivitas area perencanaan dan area motor, mengirimkan perintah ke jalur suara untuk mengucapkan kata-kata.

Insinyur Miguel Angrick dan Christian Herff, dari Maastricht University, melatih jaringan saraf yang cocok dengan pembacaan data menggunakan elektroda dengan rekaman audio yang dihasilkan, dan kemudian merekonstruksi kata-kata dan frasa untuk model set data baca yang sebelumnya tidak ditampilkan. Menurut data ini, model tersebut mensintesis ucapan sekitar 40% di antaranya ternyata dapat dimengerti oleh manusia.

Merekam komputer yang dihasilkan ucapan berdasarkan data dari elektroda

Dan akhirnya, ahli bedah saraf Edward Chang dan timnya dari University of California di San Francisco merekonstruksi seluruh kalimat pada aktivitas pusat bicara, dibaca oleh elektroda pada 6 pasien dengan epilepsi, pada saat ketika mereka membaca dengan keras. Para peneliti melakukan tes online di mana 166 orang mendengarkan salah satu kalimat yang dihasilkan oleh model komputer dan kemudian harus memilih di antara 10 opsi yang diusulkan yang menurut pendapat mereka dibaca. Beberapa kalimat diidentifikasi dengan benar di lebih dari 80% kasus. Tetapi para peneliti tidak berhenti di situ dan memaksa model untuk menciptakan kembali pidato seseorang sesuai dengan data aktivitas otak yang diperoleh saat dia membaca kata-kata untuk dirinya sendiri, tetapi dia menggerakkan bibirnya pada waktu itu, seolah-olah "mengucapkannya secara internal".

"Ini adalah hasil yang sangat penting," kata Christian Herff, "kami selangkah lebih dekat dengan pidato prosthetics."

"Namun, apa yang benar-benar kita harapkan adalah bagaimana metode ini akan menunjukkan diri ketika pasien tidak dapat berbicara sama sekali." - Menanggapi Stephanie Riès, seorang ilmuwan saraf di University of San Diego di California. “Sinyal otak, ketika seseorang membaca untuk dirinya sendiri atau mendengarkan orang lain, berbeda dari yang muncul saat membaca dengan keras atau dalam komunikasi langsung. Tanpa suara eksternal yang dengannya seseorang dapat membandingkan aktivitas otak, akan sangat sulit bagi model komputer untuk memprediksi di mana pidato internal dimulai dan di mana itu berakhir. "

"Mengurai pidato imajiner akan mengambil lompatan besar ke depan." Kata Gerwin Schalk, seorang ilmuwan saraf di Pusat Nasional untuk Neuroteknologi Adaptif di Departemen Kesehatan Negara Bagian New York. "Dan sekarang sama sekali tidak jelas bagaimana mencapai ini."

Salah satu metode, menurut Herff, dapat menjadi umpan balik bahwa pasien akan memberikan kepada model komputer yang akan mereproduksi bicara secara real time sebagai orang yang secara mental mengucapkan kata-kata. Dengan jumlah pelatihan yang cukup untuk pasien dan AI, otak dan komputer dapat bertemu di suatu tempat di tengah.

Source: https://habr.com/ru/post/id435904/


All Articles