Jaringan saraf memprediksi 1 detik masa depan dalam fotografi
Jaringan saraf permusuhan generatif yang dioptimalkan untuk pemrosesan video dapat menunjukkan apa yang akan terjadi di detik berikutnya.Kemampuan untuk memprediksi waktu dekat adalah keterampilan penting bagi siapa pun. Kecepatan reaksi manusia tidak cukup untuk bereaksi terhadap peristiwa di sekitarnya secara real time, jadi kami memperkirakannya dalam mode konstan dengan probabilitas mendekati 100%. Atlet tahu di mana bola akan terbang. Pengusaha tahu kapan lawan bicaranya berjabat tangan. Kami memprediksi lintasan mobil di jalan dan tindakan selanjutnya orang pada ekspresi wajah dan benda di tangan mereka.Kecerdasan buatan juga perlu tahu masa depan. Dia harus memahami peristiwa apa yang akan mengarah pada hasil apa, untuk menghindari pengawasan yang jelas dan merencanakan tindakannya. Sekelompok peneliti dariLaboratorium Ilmu Komputer dan Laboratorium Inteligensi Buatan (CSAIL) Massachusetts Institute mengajarkan jaringan saraf untuk memprediksi masa depan dengan melatihnya dalam jutaan video.Jaringan saraf terlatih dalam bingkai statis tunggal (foto) sedang mencoba untuk memprediksi peristiwa masa depan. Program ini dibatasi oleh ukuran bingkai 64 × 64 piksel dan durasi prediksi 32 bingkai, yaitu sekitar satu detik di masa depan.Mengetahui masa depan memungkinkan untuk lebih memahami masa kini. Ini adalah kemampuan dasar yang dimiliki setiap robot yang berfungsi di dunia nyata. Mengamati seseorang di depan sepiring makanan dengan garpu dan pisau di tangannya, orang harus meramalkan bahwa orang ini akan segera mulai makan. Tanpa pemahaman seperti itu, robot tidak dapat berfungsi secara efisien - Anda tidak ingin robot mengambil dan memindahkan kursi ke samping ketika Anda duduk di kursi? Tidak, dia harus mengerti apa yang akan terjadi dalam sedetik dan tidak menyentuh apa pun. Atau sebaliknya, gerakkan kursi dengan cepat ke tempat orang itu duduk.Pada saat ini, bahkan sistem AI yang paling canggih sekalipun tidak memiliki kemampuan dasar untuk memprediksi dalam waktu dekat. Karena itu, penelitian ini sangat penting. Pekerjaan serupa dilakukan oleh kelompok-kelompok penelitian di New York University dan Facebook, tetapi jaringan saraf mereka hanya menghasilkan beberapa frame dari masa depan atau menunjukkannya terlalu buram.Program yang dikembangkan di CSAIL cukup akurat memprediksi peristiwa paling dangkal dan jelas. Misalnya, dari foto kereta di atas platform, ia memperkirakan pergerakannya.Contoh memprediksi peristiwa dari foto. Sampel dari pergerakan manusia, hewan, fenomena alam, transportasiDalam sebuah studi ilmiah, pengembang memecahkan masalah mendasar dalam mempelajari skenario bagaimana peristiwa dalam bingkai terungkap dalam waktu. Jelas, tugas seperti itu sangat sulit untuk penjelasan formal. Oleh karena itu, jaringan saraf dilatih langsung pada materi jadi - pada jutaan video tanpa penjelasan semantik. Pendekatan ini memiliki keuntungan tertentu, karena AI dapat belajar secara offline, hanya menonton apa yang terjadi di sekitar dan memproses sejumlah besar materi video di Internet.Jaringan saraf terlatih kemudian ditugaskan untuk menghasilkan video kecil dalam satu frame statis. Untuk mencapai hasil yang realistis, penulis penelitian menggunakan jaringan permusuhan generatif (GAN). Satu jaringan saraf menghasilkan video, dan jaringan pembeda kedua belajar untuk membedakan video palsu dari yang asli dan memblokir pemalsuan. Ketika pembeda belajar, generator jaringan harus menghasilkan video yang semakin realistis untuk lulus ujian.
Model generatif menggunakan dua aliran yang secara terpisah mensimulasikan latar depan dan latar belakang untuk memisahkan mereka satu sama lain dan dengan jelas membedakan pergerakan objek.
Seiring waktu, program semacam itu akan dapat lebih efektif membantu seseorang dalam situasi yang berbeda. Misalnya, robot dapat memprediksi kapan seseorang akan jatuh - dan menjaganya agar tidak jatuh. Asisten digital di dalam mobil akan belajar untuk memprediksi tindakan pengemudi dengan gerakan tangan dan mata untuk menghindari kecelakaan.Semua video di mana jaringan saraf dilatih, serta kode sumber dari program ini diterbitkan dalam domain publik . Kode jaringan saraf permusuhan generatif ada di GitHub . Dengan menggunakan data untuk pelatihan (sekitar 10,5 terabyte materi video), Anda dapat mengulangi percobaan itu sendiri. Atau, model yang sudah terlatih tersedia untuk diunduh (1 GB di arsip).Video pelatihan diambil dari hosting foto dan video Flickr, di mana video tersebut berada di bawah lisensi gratis. Ini adalah adegan bertema: acara pantai, pertandingan golf, stasiun kereta dan bayi di rumah sakit.
Dua juta video hanya dua tahun cuplikan video. "Hal ini sangat kecil dibandingkan dengan jumlah informasi video yang dilewatkan melalui otak anak 10 tahun, atau dibandingkan dengan jumlah informasi yang diolah dalam evolusi kehidupan di Bumi," - mengakui Carl Vondrik (Carl Vondrick), salah satu penulis ilmiah bekerja.Tapi ini hanya permulaan, AI mengambil langkah pertama, tetapi Anda harus mulai dari suatu tempat. Di masa depan, jaringan saraf akan dilatih pada fragmen video yang lebih panjang. Para penulis berharap bahwa AI secara bertahap akan mulai membatasi pilihan pilihan yang mungkin untuk masa depan, mengingat keterbatasan hukum fisika dan sifat-sifat benda. Eksperimen menunjukkan bahwa jaringan saraf mampu menyerapnya. Secara bertahap, program akan belajar untuk memprediksi masa depan yang lebih jauh, dan bukan hanya 1 detik. Sangat mungkin bahwa modul tambahan akan terhubung dengannya, seperti pengenalan kepribadian, membaca bibir, prediksi kejahatan di wajah seseorang , dll.Artikel ilmiah diterbitkandi situs Institut Teknologi Massachusetts. Studi ini berlanjut berkat pendanaan dari US National Science Foundation dan hibah dari Google untuk dua dari tiga anggota tim peneliti. Laporan ini disiapkan untuk konferensi ke - 29 tentang sistem pemrosesan neuroinformation (NIPS 2016), yang akan diselenggarakan mulai 5 hingga 10 Desember di Barcelona.Source: https://habr.com/ru/post/id399667/
All Articles