Spesialis dari University of Texas di Austin (UT Austin) telah
mengembangkan jaringan saraf yang memproses rekaman audio mono-channel pada video dan menciptakan kembali suara "surround" -nya.
Kami memberi tahu cara kerjanya.
Foto oleh marneejill / CC BY-SAMetode pembuatan suara 3D baru
Suara surround sering ditemukan dalam permainan atau film, tetapi suara 3D jarang terjadi pada video bersyarat di jaringan. Merekam membutuhkan peralatan mahal yang tidak selalu tersedia untuk pembuat video - seringkali hanya smartphone yang digunakan untuk pengambilan gambar.
Sebuah trek audio yang direkam dengan cara ini membatasi persepsi kita terhadap video: ia tidak dapat menyampaikan bagaimana sumber suara berada di ruang dan bagaimana mereka bergerak. Karena itu, suara video mungkin terasa "datar."
UT Austin ditangani oleh seorang profesor universitas, Kristen Grauman, dan seorang mahasiswa, Ruohan Gao. Mereka menciptakan sistem berdasarkan algoritma pembelajaran mesin yang memungkinkan untuk mengubah perekaman audio mono-channel menjadi perekaman video "surround". Teknologi ini disebut "2.5D Visual Sound."
Ini bukan suara spasial penuh, tetapi "model". Namun, menurut pengembang, untuk pendengar rata-rata perbedaannya akan hampir tak terlihat.
Bagaimana teknologi bekerja
Sistem yang dikembangkan di UT Austin
menggunakan dua jaringan saraf.
Jaringan saraf pertama didasarkan pada arsitektur
ResNet , yang diperkenalkan oleh para peneliti dari Microsoft pada tahun 2015. Ini mengenali objek dalam video dan mengumpulkan informasi tentang gerakan mereka dalam bingkai. Pada output, jaringan menghasilkan matriks yang disebut peta fitur, dengan koordinat objek pada setiap bingkai video.
Informasi ini ditransmisikan ke jaringan saraf kedua - Mono2Binaural. Ini dikembangkan di University of Texas. Jaringan juga menerima
spektogram rekaman audio yang diperoleh dengan menggunakan
transformasi Fourier jendela menggunakan
fungsi Hann .
Mono2Binaural terdiri dari sepuluh lapisan
konvolusional . Setelah masing-masing lapisan dalam jaringan, ada blok normalisasi batch, yang
meningkatkan akurasi perkiraan algoritma, dan blok rektifikasi linier dengan
fungsi aktivasi ReLU.
Lapisan konvolusional dari jaringan saraf menganalisis perubahan frekuensi dalam spektrogram dan menyusun matriks yang berisi informasi tentang bagian mana dari spektrogram yang harus dimiliki oleh saluran audio kiri dan yang mana di sebelah kanan. Kemudian, menggunakan jendela invers Fourier transform, rekaman audio baru dihasilkan.
Pada saat yang sama, Mono2Binaural dapat mereproduksi suara spasial untuk masing-masing objek dalam video secara terpisah. Misalnya, jaringan saraf dapat mengenali dua instrumen dalam video - drum dan pipa - dan membuat trek suara terpisah untuk masing-masing instrumen tersebut.
Pendapat tentang "2.5D Visual Sound"
Menurut pengembang itu sendiri, mereka berhasil menciptakan teknologi yang menciptakan "sensasi spasial yang realistis." Mono2Binaural menunjukkan hasil yang baik selama pengujian, dan oleh karena itu penulis yakin bahwa proyek mereka memiliki potensi besar.
Untuk membuktikan efektivitas teknologi mereka, para ahli melakukan serangkaian percobaan. Mereka mengundang sekelompok orang yang membandingkan suara dua lagu: satu dibuat menggunakan Mono2Binaural, dan yang kedua menggunakan metode Ambisonics.
Yang terakhir dikembangkan di University of California di San Diego. Metode ini juga menciptakan "surround" audio dari monosound, tetapi, tidak seperti teknologi baru, ia hanya bekerja dengan video 360 derajat.
Kebanyakan pendengar memilih audio Mono2Binaural sebagai yang paling dekat dengan suara asli. Pengujian juga menunjukkan bahwa dalam 60% kasus, pengguna secara akurat mengidentifikasi lokasi sumber suara dengan telinga.
Algoritma masih memiliki beberapa kelemahan. Sebagai contoh, jaringan saraf tidak membedakan suara dari sejumlah besar objek. Plus, jelas, dia tidak akan dapat menentukan posisi sumber suara, yang tidak ada di video. Namun, pengembang berencana untuk menyelesaikan masalah ini.
Analog Teknologi
Di bidang pengenalan suara video, ada beberapa proyek serupa. Kami menulis tentang salah satunya sebelumnya. Ini adalah "
mikrofon visual " dari para ahli dari MIT. Algoritma mereka mengenali getaran mikroskopis dari objek di bawah pengaruh gelombang akustik pada video diam dan mengembalikan suara yang terdengar di dalam ruangan berdasarkan data ini. Para ilmuwan dapat "membaca" melodi lagu
Mary Had a Little Lamb dari sebungkus keripik, tanaman rumah, dan bahkan batu bata.
Foto Quinn Dombrowski / CC BY-SAProyek lainnya sedang mengembangkan teknologi untuk merekam suara dalam video 360 derajat. Salah satunya adalah Ambisonics, yang kami sebutkan sebelumnya. Prinsip algoritma ini mirip dengan Mono2Binaural: ini
menganalisis pergerakan objek dalam bingkai dan menghubungkannya dengan perubahan suara. Namun, teknologi Ambisonics memiliki beberapa keterbatasan: jaringan saraf hanya bekerja dengan video 360 derajat dan tidak memancarkan suara dengan baik jika ada gema pada rekaman.
Proyek lain di bidang ini adalah Sol VR360 dari G-Audio. Tidak seperti perkembangan lainnya, teknologi
ini telah diimplementasikan dalam layanan pengguna untuk pemrosesan suara Sol. Ini menciptakan audio spasial untuk video 360 derajat dari konser atau olahraga. Kerugian dari layanan ini adalah bahwa klip yang dihasilkan diputar hanya di aplikasi Sol.
Kesimpulan
Pengembang sistem untuk membuat suara spasial melihat bidang utama penerapan teknologi dalam VR dan aplikasi AR untuk perendaman maksimal seseorang dalam atmosfer permainan atau film. Jika mungkin untuk mengatasi sejumlah kesulitan yang mereka hadapi, teknologinya juga dapat digunakan untuk membantu orang-orang tunanetra. Dengan bantuan sistem seperti itu, mereka akan dapat memahami secara lebih rinci apa yang terjadi dalam bingkai pada video.
Lebih lanjut tentang teknologi audio di saluran Telegram kami:
A.
InSight pertama kali merekam suara angin Mars
Delapan teknologi audio yang akan memasuki TECnology Hall of Fame pada 2019
Jendela pembatalan bising aktif meredam suara metropolis