Program ini diajarkan untuk memilih suara realistis untuk foto.



Melihat foto, seseorang dapat dengan mudah menebak suara mana yang harus sesuai dengan bingkai ini.

Pengetahuan yang baik datang dengan pengalaman hidup. Kami mengamati berbagai peristiwa dalam kehidupan dan mendengarkan suara. Dengan pengalaman, koleksi besar telah menumpuk di otak. Seseorang melakukan pencarian asosiatif cepat dalam memori, memilih suara yang paling cocok - dan mereproduksinya dengan mengamati foto.

Kira-kira prinsip kerjanya sama dan program baru dikembangkan oleh para spesialis di Disney Research dan Sekolah Tinggi Teknik Swiss dari Zurich untuk memilih suara untuk foto. Pada prinsipnya, para penulis program secara khusus mencoba untuk menyalin proses manusia membangun hubungan antara suara dan gambar.

Informasi tentang suara dapat diperoleh tidak hanya dari kenyataan. Di taman kanak-kanak, semua anak harus diajari bahwa sapi itu mengatakan "mu".

Film dan permainan komputer mengisi kembali koleksi suara otak hingga tingkat yang sangat besar. Lagi pula, mereka sering menunjukkan peristiwa yang orang tidak punya pengalaman hidup. Oleh karena itu, hampir semua orang tahu bagaimana bunyi tembakan dari pistol, walaupun hanya sedikit orang yang mendengarnya. Dapat diasumsikan bahwa suara dari film / game membentuk lebih dari setengah dari semua suara yang terakumulasi dalam memori untuk kehidupan seseorang.

Program Penelitian Disney juga dilatih untuk menyusun koleksi suara dengan cuplikan. Ini bukan tugas yang mudah, karena sistem harus menyaring sejumlah besar suara asing dan menentukan objek mana yang sesuai dengan suara mana.

Penafsiran konten visual adalah tugas utama dari visi mesin. Dalam beberapa tahun terakhir, banyak hasil yang mengesankan telah diperoleh dalam bidang ini dalam klasifikasi dan pengenalan objek, segmentasi, pelacakan, dan rekonstruksi 3D. Tetapi mempelajari jaringan saraf dari hubungan antara konten visual dan data audio masih merupakan area yang belum dijelajahi.

Dalam hal ini, perlu dicatat bahwa otak manusia mampu melakukan hal-hal menakjubkan. Misalnya, ia dapat mengambil suara yang "cocok", yang pada prinsipnya tidak ada. Misalnya, bunyi bunga yang sedang tumbuh, meskipun bunganya, pada prinsipnya, tidak mengeluarkan bunyi apa pun. Para penulis program baru itu tidak bermaksud menyalin fungsionalitas otak manusia dalam bidang fantasi semacam itu. Meskipun ini mungkin, saya kira.

Cara menghasilkan suara


Salah satu opsi untuk memilih suara untuk suatu objek adalah sintesis suara sesuai dengan karakteristik fisik objek dalam video. Tetapi dengan cara ini, jumlah objek yang sangat terbatas dapat disuarakan.

Sebaliknya, sistem Disney Research dan Sekolah Tinggi Teknik Swiss dari Zurich mengumpulkan sampel suara siap pakai dari video nyata. Video tersebut menunjukkan contoh-contoh video yang digunakan untuk pelatihan.


Kemudian sistem diajarkan untuk memisahkan suara yang diinginkan dari orang luar. Prinsip utama dalam prosedur ini adalah menemukan suara yang serupa di semua video dari satu objek. Suara ini akan menjadi suara objek, dan yang lainnya adalah suara latar.

Setelah sistem belajar memilih suara yang sesuai untuk objek tertentu, tugas sepele tetap ada, karena pengenalan objek dalam video sistem visi mesin sudah dilakukan dengan cukup baik.

Para peneliti melakukan percobaan pada 9 jenis objek dengan 10-20 sampel video yang berlangsung 15–90 detik untuk masing-masingnya. Untuk memilih suara yang diperlukan, classifier kNN digunakan .



Sebuah survei terhadap orang menunjukkan bahwa mereka mengenali suara yang disaring oleh program jauh lebih baik daripada suara tanpa filter.



Untuk apa ini?


Selain tugas paling logis dari pelatihan mandiri robot dan sistem kecerdasan buatan lainnya yang menyalin fungsi otak manusia, pemetaan suara ke objek grafik berguna dalam banyak visi mesin dan aplikasi multimedia yang berguna. Misalnya, untuk mengotomatisasi pekerjaan truk kebisingan - seorang spesialis dalam merekam efek suara dalam film dan permainan komputer.

Diketahui bahwa saat merekam film, suara yang keluar tidak terlalu ekspresif. Untuk meningkatkan ekspresifitas film, efek suara kemudian diterapkan secara terpisah ke urutan video. Jadi ternyata filmnya jauh lebih spektakuler dan spektakuler. Selain itu, pembatalan derau membantu menghilangkan cacat saat suara asli tidak cocok dengan urutan video. Misalnya, ketika dalam sebuah film pahlawan memukul lawan dengan keras - tetapi dalam kenyataannya para aktor hanya berpura-pura menjadi hit. Dalam hal ini, pembatalan kebisingan mengoreksi cacat, yaitu, memaksakan suara realistis dari tulang yang berderak, daging yang membeku, otak yang mengalir dan efek menarik lainnya.

Aplikasi lain yang mungkin dari program ini adalah akting suara untuk orang dengan gangguan pendengaran. Sekarang mereka tidak hanya dapat mendengar suara-suara di sekitarnya, tetapi mendengarnya dalam kualitas terbaik, berair, tanpa suara yang tidak perlu - seperti dalam film. Orang-orang biasa tanpa gangguan pendengaran bahkan akan membuat iri orang cacat, karena atlet dengan satu kaki iri terhadap orang yang sama sekali tidak berkaki , yang memiliki keunggulan kompetitif - prostesis bionik yang lebih maju, sehingga mereka berlari jauh lebih cepat dan dengan mudah mengalahkan atlet satu kaki (dan bahkan dua kaki).

Teknologi augmented reality seperti itu kemungkinan akan diminati dalam industri hiburan, di mana seseorang mempersepsikan realitas di sekitarnya melalui antarmuka komputer. Akhirnya, kita akan dapat memblokir orang-orang yang tidak perlu dari dunia di sekitar kita (seperti dalam seri Black Mirror). Sistem hanya akan menyaring suara mereka. Gantikan dengan suara lain yang diizinkan. Gambar orang yang diblokir akan digantikan oleh objek lain dengan generasi suara yang sesuai. Atau, Anda dapat dengan mudah mengubah suara rekan kerja di kantor dan kerabat untuk suara yang lebih menyenangkan. Misalnya, suara teman dapat diubah menjadi pronon seksual selama belaian malam, tambahkan suara yang hilang, dll.

Source: https://habr.com/ru/post/id399317/


All Articles