Jika sebelum Anda terbang terbang tanpa henti melalui jendela - jangan membuat kesimpulan prematur bahwa itu bodoh. Mungkin ini adalah robot miniatur dengan sistem AI dalam mode belajar mandiri.
Sebuah UAV jatuh 11.500 kali ke benda-benda di sekitarnya, terbang di sepanjang jalur yang dipilih secara acakBagaimana cara mengajar kendaraan udara tak berawak untuk bergerak di sepanjang rute tertentu, menghindari rintangan? Apakah mungkin dilakukan tanpa peta 3D digital ketika datang ke navigasi dalam ruangan? Untuk mengatasi masalah ini, ada beberapa teknologi yang sesuai, termasuk
pelatihan simulasi , di mana “guru” mengajar drone untuk terbang di sepanjang lintasan yang berbeda, mengoreksi tindakannya jika perlu. Secara bertahap, UAV mempelajari rute. Tetapi pendekatan ini jelas dibatasi oleh set data input: guru tidak bisa terus-menerus menemani drone.
Dalam beberapa tahun terakhir, sistem pembelajaran mesin tanpa guru mulai berkembang pesat (diawasi sendiri
belajar). Mereka terbukti sangat baik dalam sejumlah tugas:
navigasi ,
mengambil benda (dalam robot) dan
tugas "mendorong / menarik" (fisika intuitif). Tetapi apakah sistem belajar mandiri mampu menguasai tugas kompleks seperti navigasi dalam ruangan - dan mengatasi keterbatasan pelatihan simulasi?
Studi sebelumnya telah menunjukkan bahwa sistem seperti itu benar-benar mampu belajar tanpa guru dalam simulator, dan bahwa pengetahuan yang terlatih dapat ditransfer ke dunia nyata. Namun dalam praktiknya, pertanyaan lain lebih relevan: apakah pendidikan mandiri di dunia nyata bekerja di ruang yang sewenang-wenang, tanpa simulator dan peta yang sudah disusun sebelumnya? Bagaimanapun, ini adalah tugas yang harus kita hadapi ketika dia membeli robot dan membawanya pulang. Dia harus secara independen mempelajari situasi dan mulai menavigasi di rumah mana pun (sebelumnya lebih baik untuk menghapus semua benda rapuh dari kamar dan menyembunyikan dirinya juga).
Para peneliti dari Carnegie Mellon University (AS) menetapkan tugas yang paling sulit dengan menempatkan quadrocopter dengan jaringan saraf untuk pelatihan mandiri di ruangan yang paling sulit dinavigasi dengan sejumlah besar kamar dan furnitur. Para penulis menekankan bahwa penelitian lain mencoba menyederhanakan lingkungan untuk menghindari tabrakan. Mereka, sebaliknya, ingin mendorong UAV ke jumlah maksimum tabrakan dan kecelakaan, sehingga robot dapat belajar dari pengalaman ini. Para ilmuwan telah merancang sistem belajar mandiri yang memperhitungkan pengalaman negatif ini, serta pengalaman positif dari penerbangan yang sukses di sepanjang lintasan.
Quadcopter AR Drone 2.0 di bawah kendali sistem pembelajaran mesin diuji di 20 kamar rumah - dan sebagai hasilnya, belajar untuk secara efektif menghindari tabrakan di setiap kamar ini. Durasi pelatihan - 40 jam penerbangan. Para peneliti mengatakan biaya bagian drone kecil dan mudah diganti, sehingga kemungkinan kecelakaan bencana bisa diabaikan.
Semua tabrakan benar-benar acak. UAV ditempatkan pada titik arbitrer di ruang angkasa - dan dia terbang secara acak. Setelah kecelakaan itu, ia kembali ke titik awal - dan sekali lagi terbang ke arah yang acak, sampai lagi-lagi ia jatuh di suatu tempat.
Kamera quadrocopter memotret pada 30 frame / s, dan setelah kecelakaan, semua frame dibagi menjadi dua bagian: frame dengan jalur yang baik ditempatkan di grup positif, dan frame diambil segera sebelum tabrakan ditempatkan di grup negatif. Dalam proses pelatihan, drone itu menabrak benda di sekitarnya 11.500 kali - dan merakit salah satu pangkalan kecelakaan UAV terbesar di dunia. "Pengalaman negatif" ini berisi informasi tentang semua cara yang memungkinkan quadrocopter dapat mengalami kecelakaan di suatu tempat.
Kelompok pengalaman positif dan negatif ditransmisikan sebagai masukan ke jaringan saraf, yang belajar membuat prediksi tentang apakah pengalaman positif tertentu dari lintasan saat ini akan mengarah pada munculnya pengalaman negatif dari sampel tumbukan. Artinya, jaringan saraf mulai memprediksi ke mana harus terbang.
Diagram jaringan saraf ditunjukkan pada ilustrasi di bawah ini. Berat lapisan konvolusional (abu-abu) dihitung terlebih dahulu sesuai dengan klasifikasi ImageNet, tetapi pada lapisan yang terhubung (oranye) bobot dipilih secara acak, dan nilai yang paling optimal diasimilasi selama proses belajar mandiri, seluruhnya didasarkan pada data kecelakaan. Ilustrasi menunjukkan input data - frame dari kamera (kiri) dan data output dari jaringan saraf (keputusan untuk terbang lurus, belok kiri atau kanan).

Diagram berikut menunjukkan tempat pengujian - bangunan empat lantai tempat pelatihan drone dilakukan.

Outputnya adalah sistem navigasi yang sangat efektif untuk drone. Pendekatan yang cukup sederhana untuk belajar mandiri sangat efektif khususnya untuk ruangan dengan sejumlah besar hambatan, termasuk memindahkan hambatan seperti orang.
Pengujian komparatif menunjukkan bahwa sistem navigasi ini 2-10 kali lebih efektif daripada
sistem belajar mandiri dengan estimasi jarak monokuler . Terutama perbedaan muncul di sebelah dinding kaca dan dinding tanpa tanda identifikasi, yang secara tradisional mempersulit pekerjaan yang terakhir.

Karya ilmiah
diterbitkan pada 19 April 2017 di situs pracetak arXiv.org (arXiv: 1704.05588v2).