Jaringan saraf diajarkan untuk mengenali ucapan pada bibir menggunakan algoritma pengenalan rekaman suara


Hal 9000 membaca bibir dengan sempurna, meskipun dalam bahasa Inggris

Jaringan saraf mampu melakukan banyak hal sekarang, dan lambat laun mereka diajarkan keterampilan yang semakin banyak. Beberapa hari yang lalu diketahui bahwa tim gabungan peneliti dari AS dan China mampu melatih jaringan saraf untuk mengenali ucapan oleh bibir dengan tingkat akurasi yang tinggi.

Ini dicapai berkat elemen tambahan - algoritma pengenalan suara untuk rekaman audio . Lebih lanjut, algoritma ini digunakan sebagai sistem pelatihan untuk algoritma kedua, yang mengenali pembicaraan melalui rekaman video.

Menurut para ilmuwan, metode ini memungkinkan untuk menguasai teknik membaca bibir tambahan bahwa jaringan saraf yang dilatih oleh metode tradisional tidak dapat "belajar". Urutan gambar yang sederhana memungkinkan untuk hanya menguasai teknik dasar membaca bibir.

Selain itu, para pengembang menggunakan metode pelatihan jaringan saraf, yang disebut "distilasi pengetahuan." Ini memungkinkan Anda untuk menyimpan ukuran kecil model yang melakukan tugas yang kompleks. Dalam situasi normal, jaringan saraf yang dapat membaca bibir akan memiliki ukuran yang cukup besar, yang akan membuatnya sulit digunakan pada ponsel cerdas atau perangkat seluler lainnya.

Tetapi model yang disebut distilasi pengetahuan memungkinkan untuk menghilangkan keterbatasan ini. Dalam perjalanan bekerja dengan model ini, pengembang perlu menggunakan jaringan saraf dasar yang sudah dilatih, dan atas dasar itu menciptakan model yang jauh lebih kecil yang "dilatih" berdasarkan yang pertama. Kedua jaringan menerima data sumber yang hampir sama. Tetapi jaringan yang lebih kecil mencoba mengulangi hasil yang lebih besar, baik pada lapisan keluaran dan pada semua yang menengah. Ide ini pertama kali diperkenalkan oleh Caruana pada tahun 2006.

Para ilmuwan yang dipimpin oleh Mingli Song dari Universitas Zhejiang telah menggunakan "distilasi" untuk mengajar jaringan saraf membaca bibir. Seperti disebutkan di atas, guru di sini adalah algoritma pengenalan suara untuk rekaman audio. Ini memberikan banyak peluang untuk mempelajari sejumlah gerakan bibir dan pola bicara yang halus.



Sirkuit yang dihasilkan simetris, dengan dua jaringan saraf berulang terletak sejajar satu sama lain. Satu jaringan saraf convolutional memproses bingkai video dan menyediakan data untuk yang lain. Peneliti hanya dapat membayangkan distilasi pengetahuan dalam bentuk beberapa blok, yang masing-masing bertanggung jawab untuk tugas tertentu. Salah satunya adalah per frame, yang kedua adalah untuk urutan data, yang ketiga adalah untuk urutan keseluruhan terbesar.

Tentu saja, untuk operasi normal, jaringan saraf seperti itu membutuhkan pelatihan yang cermat pada puluhan ribu elemen. Para ilmuwan telah menggunakan dataset LRS2, yang berisi sekitar 50.000 kalimat individual yang diucapkan oleh penyiar BBC, serta dataset CMLR, set paling komprehensif untuk mengajar jaringan saraf untuk membaca bibir dalam bahasa Mandarin. Database yang terakhir berisi sekitar 100 ribu penawaran dari CNTV.



Keakuratan pengenalan sistem yang dihasilkan sekitar 8% lebih tinggi dari jaringan saraf lain yang dilatih CMLR, dan 3% lebih baik daripada jaringan saraf yang dilatih pada LRS2.

Source: https://habr.com/ru/post/id479092/


All Articles