
Penguatan Pembelajaran dibagi menjadi dua kelas besar: Model-Free dan Model-Based. Dalam kasus pertama, tindakan dioptimalkan secara langsung oleh sinyal hadiah, dan yang kedua, jaringan saraf hanya model realitas, dan tindakan optimal dipilih menggunakan penjadwal eksternal. Setiap pendekatan memiliki kelebihan dan kekurangannya sendiri.
Pengembang dari Berkeley dan Google Brain memperkenalkan algoritma PDDM Berbasis Model dengan penjadwal yang ditingkatkan, yang memungkinkan Anda untuk secara efektif mempelajari gerakan kompleks dengan sejumlah besar derajat kebebasan dalam sejumlah kecil contoh. Untuk mempelajari cara memutar bola di lengan robot dengan sambungan jari realistis dengan kebebasan 24 derajat, hanya butuh 4 jam latihan dengan robot fisik sungguhan.
Penguatan Pembelajaran adalah pelatihan robot dengan sinyal hadiah. Ini mirip dengan bagaimana makhluk hidup belajar. Tetapi masalahnya dipersulit oleh fakta bahwa tidak diketahui bagaimana mengubah bobot jaringan saraf sehingga tindakan yang diusulkannya mengarah pada peningkatan imbalan. Oleh karena itu, dalam Penguatan Pembelajaran, metode pelatihan jaringan saraf konvensional tidak cocok. Lagi pula, tidak diketahui apa tepatnya yang harus ia berikan pada saat ia keluar, yang berarti tidak mungkin menemukan kesalahan antara prediksi dan keadaan sebenarnya. Untuk melewatkan perbedaan ini kembali melalui lapisan jaringan saraf dan mengubah bobot antara neuron untuk meminimalkan kesalahan ini. Ini adalah algoritma propagasi balik klasik yang diajarkan oleh jaringan saraf.
Karena itu, para ilmuwan telah menemukan beberapa cara untuk menyelesaikan masalah ini.
Bebas model
Salah satu pendekatan yang paling efektif adalah model aktor-kritik. Biarkan satu jaringan saraf (aktor) pada inputnya menerima keadaan lingkungan negara, dan pada output, mengeluarkan tindakan yang harus mengarah pada peningkatan imbalan hadiah. Sejauh ini, tindakan ini acak dan hanya bergantung pada aliran sinyal dalam jaringan, karena jaringan saraf belum dilatih. Dan biarkan jaringan saraf kedua (kritik) juga menerima keadaan lingkungan, tetapi juga tindakan dari output jaringan pertama. Dan pada output, biarkan hanya hadiah yang diprediksi, yang akan diterima jika tindakan ini diterapkan.
Sekarang perhatikan tangan Anda: kami tidak tahu tindakan terbaik apa yang harus dilakukan pada hasil jaringan pertama, yang mengarah ke peningkatan imbalan. Karena itu, dengan menggunakan algoritma propagasi balik, kami tidak dapat melatihnya. Tetapi jaringan saraf kedua dapat dengan sangat baik memprediksi nilai yang tepat dari hadiah imbalan (atau lebih tepatnya, biasanya perubahannya), yang akan diterimanya jika tindakan sekarang diterapkan. Jadi mari kita ambil gradien perubahan kesalahan dari jaringan kedua, dan menerapkannya ke yang pertama! Jadi, Anda dapat melatih jaringan saraf pertama dengan metode klasik propagasi balik kesalahan. Kami hanya mengambil kesalahan bukan dari keluaran jaringan pertama, tetapi dari keluaran jaringan kedua.
Akibatnya, jaringan saraf pertama belajar mengeluarkan tindakan optimal yang mengarah pada peningkatan imbalan. Karena jika kritikus membuat kesalahan dan memperkirakan hadiah yang lebih kecil daripada yang ternyata dalam kenyataan, maka gradien dari perbedaan ini akan menggerakkan tindakan aktor ke arah sehingga kritikus lebih akurat memprediksi hadiah. Dan itu berarti ke arah tindakan yang lebih optimal (setelah semua, mereka akan mengarah pada fakta bahwa kritik secara akurat memprediksi penghargaan yang lebih tinggi). Prinsip serupa bekerja di arah yang berlawanan: jika kritik menilai terlalu tinggi hadiah yang diharapkan, perbedaan antara harapan dan kenyataan akan menurunkan hasil tindakan dari jaringan saraf pertama, yang menyebabkan indikasi hadiah yang terlalu tinggi dari jaringan kedua.
Seperti yang Anda lihat, dalam hal ini, tindakan dioptimalkan secara langsung oleh sinyal hadiah. Ini adalah esensi umum dari semua algoritma Model-Free di Reinforcement Learning. Mereka adalah state-of-the-art saat ini.
Keuntungan mereka adalah bahwa tindakan optimal dicari oleh gradient descent, oleh karena itu, pada akhirnya, yang paling optimal ditemukan. Yang berarti menunjukkan hasil terbaik. Keuntungan lain adalah kemampuan untuk menggunakan jaringan saraf kecil (dan karena itu lebih cepat dipelajari). Jika dari seluruh variasi faktor lingkungan, beberapa faktor spesifik adalah kunci untuk menyelesaikan masalah, maka gradient descent cukup mampu mengidentifikasi mereka. Dan gunakan untuk memecahkan masalah. Kedua keunggulan ini telah memastikan kesuksesan dengan metode langsung Model-Free.
Tetapi mereka juga memiliki kelemahan. Karena tindakan diajarkan langsung oleh sinyal hadiah, banyak contoh pelatihan diperlukan. Puluhan juta, bahkan untuk kasus yang sangat sederhana. Mereka bekerja dengan buruk pada tugas-tugas dengan sejumlah besar kebebasan. Jika algoritma tidak segera berhasil mengidentifikasi faktor-faktor kunci di antara lanskap dimensi tinggi, maka kemungkinan besar tidak akan belajar sama sekali. Metode Model-Free juga dapat mengeksploitasi kerentanan dalam sistem, berfokus pada tindakan yang tidak optimal (jika gradient descent menyatu di atasnya), mengabaikan faktor lingkungan lainnya. Untuk tugas Model-Free yang bahkan sedikit berbeda, metode harus dilatih sepenuhnya lagi.
Berbasis model
Metode berbasis model dalam Pembelajaran Penguatan pada dasarnya berbeda dari pendekatan yang dijelaskan di atas. Dalam Berbasis Model, jaringan saraf hanya memprediksi apa yang akan terjadi selanjutnya. Tidak menawarkan tindakan apa pun. Artinya, itu hanyalah sebuah model realitas (karenanya "Model" -Didasarkan pada nama). Dan bukan sistem pengambilan keputusan sama sekali.
Jaringan saraf berbasis Model diumpankan dengan keadaan lingkungan negara saat ini dan tindakan mana yang ingin kita lakukan. Dan jaringan saraf memprediksi bagaimana negara akan berubah di masa depan setelah menerapkan tindakan ini. Dia juga dapat memprediksi hadiah apa yang akan dihasilkan dari tindakan ini. Tapi ini tidak perlu, karena hadiah biasanya dapat dihitung dari negara yang terkenal. Lebih lanjut, keadaan keluaran ini dapat diumpankan kembali ke input jaringan saraf (bersama dengan tindakan yang diusulkan baru), dan dengan demikian secara rekursif memprediksi perubahan dalam lingkungan eksternal banyak langkah ke depan.
Jaringan saraf berbasis model sangat mudah dipelajari. Karena mereka hanya memprediksi bagaimana dunia akan berubah, tanpa membuat saran tindakan optimal apa yang harus dilakukan agar imbalan meningkat. Oleh karena itu, jaringan saraf Berbasis Model menggunakan semua contoh yang ada untuk pelatihannya, dan bukan hanya yang mengarah pada peningkatan atau penurunan imbalan, seperti halnya dalam Model-Free. Ini adalah alasan mengapa jaringan saraf Berbasis Model membutuhkan contoh pelatihan jauh lebih sedikit.
Satu-satunya kelemahan adalah bahwa jaringan saraf Model Based harus mempelajari dinamika nyata dari sistem, dan karena itu harus memiliki kapasitas yang cukup untuk ini. Jaringan saraf Model-Gratis dapat menyatu pada faktor-faktor kunci, mengabaikan sisanya, dan karena itu menjadi jaringan kecil yang sederhana (jika tugas pada prinsipnya diselesaikan dengan sumber daya yang lebih sedikit).
Keuntungan besar lainnya, selain melatih sejumlah kecil contoh, adalah bahwa sebagai model universal dunia, jaringan saraf tunggal Model-Based dapat digunakan untuk memecahkan sejumlah masalah di dunia ini.
Masalah utama dalam pendekatan Berbasis Model adalah tindakan apa tindakan yang harus diterapkan pada input jaringan saraf? Bagaimanapun, jaringan saraf itu sendiri tidak menawarkan tindakan optimal.
Cara termudah adalah dengan berkendara melalui jaringan saraf seperti puluhan ribu tindakan acak dan memilih yang mana jaringan saraf akan memprediksi hadiah terbesar. Ini adalah Pembelajaran Penguatan Berbasis Model klasik. Namun, dengan dimensi besar dan rantai waktu yang lama, jumlah tindakan yang mungkin ternyata terlalu besar untuk memilah semuanya (atau bahkan menebak setidaknya sedikit optimal).
Untuk alasan ini, metode Model-Based biasanya lebih rendah daripada Model-Free, yang oleh keturunan gradien langsung menyatu ke tindakan yang paling optimal.
Versi yang disempurnakan berlaku untuk gerakan dalam robotika bukan untuk menggunakan tindakan acak, tetapi untuk menjaga gerakan sebelumnya, menambah keacakan distribusi normal. Karena gerakan robot biasanya mulus, ini mengurangi jumlah patung. Tetapi pada saat yang sama, perubahan tajam yang penting dapat dilewatkan.
Opsi pengembangan akhir untuk pendekatan ini dapat dianggap sebagai opsi CEM, yang tidak menggunakan distribusi normal tetap yang memperkenalkan keacakan ke jalur tindakan saat ini, tetapi memilih parameter dari distribusi acak menggunakan lintas-entropi. Untuk melakukan ini, populasi perhitungan tindakan diluncurkan dan yang terbaik dari mereka digunakan untuk memperbaiki penyebaran parameter pada generasi berikutnya. Sesuatu seperti algoritma evolusi.
PDDM
Diperlukan pengenalan yang panjang untuk menjelaskan apa yang terjadi dalam algoritma pembelajaran penguatan Model Berbasis PDDM yang baru diusulkan. Setelah membaca artikel di blog Berkeley AI (atau versi yang diperluas ), dan bahkan artikel asli arxiv.org/abs/1909.11652 , ini mungkin tidak jelas.
Metode PDDM mengulangi ide CEM ketika memilih tindakan acak yang perlu dijalankan melalui jaringan saraf berbasis Model untuk memilih tindakan dengan hadiah maksimum yang dapat diprediksi. Hanya alih-alih memilih parameter distribusi acak, seperti yang dilakukan dalam CEM, PDDM menggunakan korelasi temporal antara tindakan dan aturan yang lebih lunak untuk memperbarui distribusi acak. Formula diberikan dalam artikel asli. Ini memungkinkan Anda untuk memeriksa sejumlah besar tindakan yang sesuai dalam jarak waktu yang lama, terutama jika gerakan memerlukan koordinasi yang tepat. Selain itu, penulis algoritma memfilter kandidat untuk tindakan, sehingga memperoleh lintasan pergerakan yang lebih halus.
Sederhananya, para pengembang hanya mengusulkan formula yang lebih baik untuk memilih tindakan acak untuk menguji dalam Pembelajaran Penguatan Berbasis Model klasik.
Tapi hasilnya sangat bagus.
Hanya dalam 4 jam pelatihan tentang robot sungguhan, robot dengan 24 derajat kebebasan belajar memegang dua bola dan memutarnya di telapak tangan tanpa menjatuhkannya. Hasil yang tidak dapat dicapai untuk metode Bebas Model modern dengan sejumlah kecil contoh.
Yang menarik, untuk pelatihan, mereka menggunakan lengan robot kedua dengan 7 derajat kebebasan, yang mengambil bola yang jatuh dan mengembalikannya ke lengan robot utama:

Akibatnya, setelah 1-2 jam, roboruk dengan percaya diri bisa memegang bola dan memindahkannya di telapak tangannya, dan 4 jam sudah cukup untuk pelatihan lengkap.

Perhatikan gerakan jari-jari yang bergerak-gerak. Ini adalah fitur pendekatan Berbasis Model. Karena tindakan yang dimaksudkan dipilih secara acak, mereka tidak selalu bertepatan dengan yang optimal. Algoritma Model-Free berpotensi menyatu pada gerakan halus yang benar-benar optimal.
Namun, pendekatan Berbasis Model memungkinkan dengan satu jaringan saraf yang terlatih memodelkan dunia untuk memecahkan masalah yang berbeda tanpa pelatihan ulang. Ada beberapa contoh dalam artikel, misalnya, Anda dapat dengan mudah mengubah arah rotasi bola di tangan (dalam Model-Free, Anda harus melatih kembali jaringan saraf untuk ini). Atau pegang bola pada titik tertentu di telapak tangan Anda, mengikuti titik merah.

Anda juga dapat membuat Roboruk menggambar lintasan sewenang-wenang dengan pensil, belajar yang untuk metode Model-Free adalah tugas yang sangat sulit.

Meskipun algoritma yang diusulkan bukan merupakan obat mujarab, dan bahkan bukan algoritma AI dalam arti penuh kata (dalam PDDM, jaringan saraf hanya menggantikan model analitis, dan keputusan dibuat dengan pencarian acak dengan aturan rumit yang mengurangi jumlah enumerasi opsi), ini dapat berguna dalam robotika. Karena itu menunjukkan peningkatan yang nyata dalam hasil dan dilatih pada sejumlah kecil contoh.