Kemajuan dalam permainan "Pembalasan Montezuma" dianggap oleh banyak orang sebagai sinonim untuk prestasi dalam studi lingkungan yang tidak dikenal

Kami telah mengembangkan metode Random Network Distillation (RND) berbasis prediksi yang mendorong agen pembelajaran yang diperkuat untuk menjelajahi lingkungan melalui rasa ingin tahu. Metode ini untuk pertama kalinya melebihi hasil rata-rata manusia dalam permainan komputer "Montezuma's Revenge" (kecuali untuk aplikasi anonim di ICLR, di mana hasilnya lebih buruk daripada kita). RND menunjukkan efisiensi ultra modern, secara berkala menemukan semua 24 kamar dan melewati tingkat pertama tanpa demonstrasi awal dan tanpa akses ke keadaan dasar permainan.

Metode RND merangsang transisi agen ke keadaan asing dengan mengukur kompleksitas memprediksi hasil superimposis jaringan saraf acak acak pada data keadaan. Jika kondisinya tidak dikenal, maka hasil akhirnya sulit untuk diprediksi, yang berarti bahwa imbalannya tinggi. Metode ini dapat diterapkan pada algoritma pembelajaran penguatan apa pun, mudah diterapkan dan efektif untuk penskalaan. Di bawah ini adalah tautan ke implementasi RND, yang mereproduksi hasil dari artikel kami.

Teks artikel ilmiah , kode

Hasil dalam Pembalasan Montezuma

Untuk mencapai tujuan yang diinginkan, agen pertama-tama harus mempelajari tindakan apa yang mungkin dilakukan di lingkungan dan apa yang merupakan kemajuan menuju tujuan. Banyak sinyal hadiah dalam permainan menyediakan kurikulum, sehingga bahkan strategi penelitian sederhana cukup untuk mencapai tujuan. Dalam karya awal dengan presentasi DQN , Montezuma's Revenge adalah satu - satunya permainan di mana DQN menunjukkan hasil 0% dari rata-rata skor manusia (4700) . Strategi intelijen sederhana tidak mungkin mengumpulkan imbalan apa pun dan menemukan tidak lebih dari beberapa kamar di level tersebut. Sejak saat itu, kemajuan dalam permainan Montezuma's Revenge telah dianggap oleh banyak orang sebagai identik dengan kemajuan dalam studi lingkungan yang tidak dikenal.

Kemajuan yang signifikan dicapai pada tahun 2016 dengan menggabungkan DQN dengan bonus di atas meja, di mana agen berhasil menemukan 15 kamar dan mendapatkan skor tertinggi 6.600 dengan rata-rata sekitar 3.700. Sejak itu, peningkatan yang signifikan dalam hasil hanya dicapai melalui demonstrasi dari orang-orang ahli atau dengan mengakses status dasar emulator .

Kami melakukan percobaan RND skala besar dengan 1024 pekerja, mendapatkan hasil rata - rata 10.000 lebih dari 9 awal dan hasil rata-rata terbaik dari 14.500 . Dalam setiap kasus, agen menemukan 20-22 kamar. Selain itu, dalam satu peluncuran yang lebih kecil, tetapi lebih lama (dari 10), hasil maksimum adalah 17.500, yang sesuai dengan melewati level pertama dan menemukan semua 24 kamar . Grafik di bawah membandingkan dua percobaan ini, yang menunjukkan nilai rata-rata tergantung pada parameter pembaruan.

Visualisasi di bawah ini menunjukkan kemajuan percobaan pada skala yang lebih kecil. Agen, di bawah pengaruh rasa ingin tahu, membuka kamar baru dan menemukan cara untuk mencetak poin Selama pelatihan, hadiah eksternal ini memaksanya untuk kembali ke kamar ini nanti.

Kamar ditemukan oleh agen dan hasil rata-rata selama pelatihan. Tingkat transparansi ruangan sesuai dengan berapa kali dari 10 lintasan agen yang terdeteksi. Video

Studi pembelajaran berskala besar berbasis rasa ingin tahu

Sebelum mengembangkan RND, kami, bersama dengan staf dari University of California di Berkeley, mengeksplorasi pembelajaran tanpa imbalan lingkungan. Keingintahuan menyediakan cara yang lebih mudah untuk mengajar agen untuk berinteraksi dengan lingkungan apa pun , daripada menggunakan fungsi hadiah yang dirancang khusus untuk tugas tertentu, yang belum menjadi fakta yang sesuai dengan solusi masalah. Dalam proyek-proyek seperti ALE , Universe , Malmo , Gym , Gym Retro , Unity , DeepMind Lab , CommAI , sejumlah besar lingkungan simulasi dibuka untuk agen melalui antarmuka standar. Agen yang menggunakan fungsi hadiah umum yang tidak spesifik untuk lingkungan tertentu dapat memperoleh tingkat kompetensi dasar dalam berbagai lingkungan. Ini memungkinkan dia untuk menentukan perilaku yang berguna bahkan tanpa adanya imbalan yang rumit.

Teks artikel ilmiah , kode

Dalam pengaturan pelatihan standar dengan penguatan pada setiap langkah waktu diskrit, agen mengirimkan tindakan ke lingkungan, dan bereaksi, memberikan agen pengamatan baru, hadiah untuk transisi dan indikator akhir episode. Dalam artikel kami sebelumnya, kami mengatur lingkungan untuk menghasilkan hanya pengamatan berikut. Di sana, agen mempelajari model prediktor keadaan berikutnya berdasarkan pengalamannya dan menggunakan kesalahan prediksi sebagai hadiah internal. Akibatnya, ia tertarik pada ketidakpastian. Misalnya, perubahan akun game hanya dihargai jika akun ditampilkan di layar dan perubahan itu sulit diprediksi. Agen, sebagai suatu peraturan, menemukan interaksi yang bermanfaat dengan objek baru, karena hasil interaksi seperti itu biasanya lebih sulit untuk diprediksi daripada aspek lingkungan lainnya.

Seperti peneliti lain , kami mencoba menghindari pemodelan semua aspek lingkungan, terlepas dari apakah mereka relevan atau tidak, memilih fitur pengamatan untuk pemodelan. Anehnya, kami menemukan bahwa bahkan fungsi acak bekerja dengan baik.

Apa yang dilakukan agen penasaran?

Kami menguji agen kami di lebih dari 50 lingkungan yang berbeda dan mengamati berbagai kompetensi mulai dari tindakan acak hingga interaksi sadar dengan lingkungan. Yang mengejutkan kami, dalam beberapa kasus, agen berhasil melewati permainan, meskipun dia tidak diberitahu tujuan melalui hadiah eksternal.

Remunerasi internal pada awal pelatihan

Lompatan dalam hadiah internal di bagian pertama tingkat

Breakout - melompat dalam hadiah internal ketika agen melihat konfigurasi baru blok pada tahap awal pelatihan dan ketika level berlalu untuk pertama kalinya setelah pelatihan selama beberapa jam.

Pong - kami melatih agen untuk mengontrol kedua platform secara bersamaan, dan dia belajar untuk menjaga bola dalam permainan, yang menyebabkan perkelahian yang berkepanjangan. Bahkan ketika berlatih melawan AI dalam gim, agen berusaha memaksimalkan gim, dan tidak menang.

Bowling - agen belajar bermain game lebih baik daripada agen lain yang dilatih langsung untuk memaksimalkan hadiah eksternal. Kami pikir ini terjadi karena agen tertarik oleh kedipan papan skor yang sulit diprediksi setelah lemparan.

Mario - Hadiah internal sangat selaras dengan tujuan permainan: tingkat perkembangan. Agen dihargai untuk mencari area baru, karena detail area yang baru ditemukan tidak dapat diprediksi. Akibatnya, agen menemukan 11 tingkat, menemukan ruang rahasia dan bahkan mengalahkan bos.

Masalah TV yang bising

Sebagai penjudi di mesin slot, tertarik dengan hasil acak, agen kadang-kadang jatuh ke dalam perangkap keingintahuannya sebagai akibat dari "masalah TV berisik". Agen menemukan sumber keacakan dalam lingkungan dan terus mengamatinya, selalu mengalami imbalan internal yang tinggi untuk transisi tersebut. Contoh jebakan tersebut adalah menonton televisi yang menghasilkan suara statis. Kami mendemonstrasikan ini secara harfiah dengan menempatkan agen di labirin Persatuan dengan TV yang memutar saluran acak.

Agen dalam labirin dengan TV berisik

Agen dalam labirin tanpa TV berisik

Secara teoritis, masalah TV yang bising benar-benar serius, tetapi kami masih berharap bahwa di lingkungan yang banyak deterministik seperti Pembalasan Montezuma, rasa ingin tahu akan menyebabkan agen menemukan kamar dan berinteraksi dengan objek. Kami mencoba beberapa opsi untuk memprediksi keadaan berikutnya berdasarkan rasa ingin tahu, menggabungkan bonus penelitian dengan akun game.

Dalam percobaan ini, agen mengontrol lingkungan melalui pengontrol derau, yang dengan beberapa kemungkinan mengulangi tindakan terakhir alih-alih yang sekarang. Pengaturan ini dengan tindakan "lengket" berulang-ulang telah diusulkan sebagai praktik terbaik bagi agen pelatihan dalam permainan yang sepenuhnya deterministik, seperti Atari, untuk mencegah menghafal. Tindakan "Sticky" membuat transisi dari kamar ke kamar tidak dapat diprediksi.

Distilasi jaringan acak

Karena memprediksi keadaan selanjutnya rentan terhadap masalah TV yang bising, kami telah mengidentifikasi sumber kesalahan prediksi yang relevan berikut:

Faktor 1 . Kesalahan peramalan tinggi jika prediktor gagal menggeneralisasi dari contoh yang dipertimbangkan sebelumnya. Pengalaman baru terkait dengan kesalahan prediksi yang tinggi.
Faktor 2 . Kesalahan peramalan tinggi karena tujuan peramalan stokastik.
Faktor 3 . Kesalahan peramalan tinggi karena kurangnya informasi yang diperlukan untuk peramalan, atau karena kelas model peramal terlalu terbatas untuk memenuhi kompleksitas fungsi tujuan.

Kami menentukan bahwa faktor 1 adalah sumber kesalahan yang berguna karena ia mengukur kebaruan pengalaman, sementara faktor 2 dan 3 mengarah pada masalah TV yang bising. Untuk menghindari faktor 2 dan 3, kami mengembangkan RND - bonus penelitian baru berdasarkan prediksi penerbitan jaringan saraf yang konstan dan diinisialisasi secara acak di negara bagian berikutnya, dengan mempertimbangkan keadaan berikut itu sendiri .

Intuisi menunjukkan bahwa model prediksi memiliki kesalahan rendah dalam memprediksi kondisi di mana dia dilatih. Secara khusus, prediksi agen tentang mengeluarkan jaringan saraf yang diinisialisasi secara acak akan kurang akurat di negara-negara baru daripada di negara-negara bahwa agen sering bertemu sebelumnya. Keuntungan menggunakan masalah peramalan sintetik adalah bahwa ia dapat bersifat deterministik (melewati faktor 2), dan dalam kelas fungsi, prediktor dapat memilih prediktor dari arsitektur yang sama dengan jaringan target (melewati faktor 3). Ini menghilangkan masalah RND dari TV berisik.

Kami menggabungkan bonus penelitian dengan hadiah eksternal melalui bentuk optimisasi kebijakan terdekat - Optimalisasi Kebijakan Proximal ( PPO ), yang menggunakan dua nilai nilai untuk dua aliran hadiah . Ini memungkinkan Anda untuk menggunakan diskon yang berbeda untuk hadiah yang berbeda dan untuk menggabungkan imbalan episodik dan non-episodik. Karena fleksibilitas tambahan seperti itu, agen terbaik kami sering menemukan 22 dari 24 kamar di tingkat pertama dalam Pembalasan Montezuma, dan kadang-kadang melewati tingkat pertama setelah menemukan dua kamar yang tersisa. Metode yang sama menunjukkan kinerja rekaman dalam game Venture dan Gravitar.

Visualisasi di bawah ini menunjukkan grafik hadiah internal dalam episode Pembalasan Montezuma, di mana agen pertama kali menemukan obor.

Implementasi yang kompeten adalah penting

Untuk memilih algoritma yang baik, penting untuk mempertimbangkan pertimbangan umum, seperti kerentanan terhadap masalah TV yang bising. Namun, kami menemukan bahwa perubahan yang sangat kecil pada algoritma sederhana kami sangat memengaruhi efektivitasnya: dari agen yang tidak dapat meninggalkan ruangan pertama ke agen yang melewati level pertama. Untuk menambah stabilitas pada pelatihan, kami menghindari kejenuhan sifat dan membawa hadiah internal ke kisaran yang dapat diprediksi. Kami juga melihat peningkatan signifikan dalam efektivitas RND setiap kali kami menemukan dan memperbaiki bug (favorit kami termasuk pengenaan secara acak array, yang mengarah pada fakta bahwa penghargaan eksternal dianggap sebagai non-episodik; kami menyadari ini hanya setelah memikirkan fungsi nilai eksternal , yang tampak mencurigakan secara berkala). Memperbaiki rincian ini telah menjadi bagian penting untuk mencapai kinerja tinggi bahkan ketika menggunakan algoritma yang secara konseptual mirip dengan pekerjaan sebelumnya. Ini adalah salah satu alasan mengapa yang terbaik adalah memilih algoritma sederhana bila memungkinkan.

Pekerjaan di masa depan

Kami menawarkan bidang-bidang berikut untuk penelitian lebih lanjut:

Analisis keuntungan dari berbagai metode penelitian dan pencarian cara baru untuk menggabungkannya.
Melatih agen penasaran dalam berbagai lingkungan tanpa imbalan dan belajar mentransfer ke lingkungan target dengan imbalan.
Kecerdasan global, termasuk solusi terkoordinasi selama jangka waktu yang lama.

Sebuah realisasi baru rasa ingin tahu pada AI. Pelatihan dengan hadiah itu tergantung pada sulitnya memprediksi hasilnya