Halo, Habr!
Kami jarang memutuskan untuk mengirim terjemahan teks ke sini dua tahun lalu, tanpa kode dan fokus akademis yang jelas - tetapi hari ini kami akan membuat pengecualian. Kami berharap bahwa dilema dalam judul artikel ini menjadi perhatian banyak pembaca kami, dan bahwa Anda telah membaca karya asli atau akan membaca karya mendasar tentang strategi evolusi yang dengannya posting ini dipolemikkan. Selamat datang di kucing!

Pada bulan Maret 2017, OpenAI membuat keributan dalam komunitas pembelajaran yang mendalam dengan menerbitkan artikel "
Strategi Evolusi sebagai Alternatif yang Terukur untuk Pembelajaran Penguatan ." Dalam karya ini, hasil yang mengesankan dijelaskan mendukung fakta bahwa cahaya tidak menyatu dalam pelatihan dengan penguatan (RL), dan disarankan untuk mencoba metode lain ketika melatih jaringan saraf kompleks. Kemudian muncul sebuah diskusi tentang pentingnya pembelajaran yang diperkuat dan seberapa besar layaknya status teknologi “wajib” dalam pembelajaran untuk menyelesaikan masalah. Di sini saya ingin berbicara tentang fakta bahwa Anda tidak boleh menganggap kedua teknologi ini sebagai saingan, salah satunya jelas lebih baik daripada yang lain; sebaliknya, mereka pada akhirnya saling melengkapi. Memang, jika Anda berpikir sedikit tentang apa yang diperlukan untuk menciptakan
AI bersama dan sistem sedemikian rupa sehingga sepanjang keberadaannya akan mampu belajar, menilai, dan merencanakan, maka kita hampir pasti akan sampai pada kesimpulan bahwa solusi gabungan ini atau itu akan diperlukan . Ngomong-ngomong, itu adalah sifat yang datang ke solusi gabungan, yang diberkahi dengan kecerdasan kompleks mamalia dan hewan tingkat tinggi lainnya selama evolusi.
Strategi evolusi
Tesis utama dari artikel OpenAI adalah bahwa alih-alih menggunakan pembelajaran penguatan yang dikombinasikan dengan backpropagation tradisional, mereka berhasil melatih jaringan saraf untuk memecahkan masalah kompleks menggunakan apa yang disebut "strategi evolusi" (ES). Pendekatan ES semacam itu terdiri dari menjaga distribusi nilai bobot pada skala jaringan, dengan banyak agen bekerja secara paralel dan menggunakan parameter yang dipilih dari distribusi ini. Setiap agen beroperasi di lingkungannya sendiri dan setelah menyelesaikan sejumlah episode atau tahapan episode, algoritma mengembalikan hadiah total, yang dinyatakan sebagai skor kebugaran. Dengan nilai ini, distribusi parameter dapat dialihkan ke agen yang lebih sukses, menghilangkan yang kurang sukses. Jutaan kali mengulangi operasi semacam itu yang melibatkan ratusan agen, adalah mungkin untuk memindahkan distribusi bobot ke ruang yang akan memungkinkan kita untuk merumuskan kebijakan kualitas bagi agen untuk menyelesaikan tugas mereka. Memang, hasil yang disajikan dalam artikel itu mengesankan: ditunjukkan bahwa jika Anda menjalankan seribu agen secara paralel, maka gerakan antropomorfik dengan dua kaki dapat dipelajari dalam waktu kurang dari setengah jam (sementara metode RL yang paling canggih sekalipun membutuhkan lebih dari satu jam). Untuk ulasan yang lebih rinci, saya sarankan membaca
posting yang sangat baik dari penulis percobaan, serta
artikel ilmiah itu sendiri.
Berbagai strategi pembelajaran untuk postur tegak antropomorfik, dipelajari menggunakan metode ES OpenAI.Kotak hitam
Manfaat besar dari metode ini adalah mudah diparalelkan. Sementara metode RL, misalnya, A3C, memerlukan pertukaran informasi antara alur kerja dan server parameter, ES hanya membutuhkan perkiraan validitas dan informasi umum tentang distribusi parameter. Berkat kesederhanaan seperti itu, metode ini memotong metode RL modern dalam skalabilitas. Namun, semua ini tidak sia-sia: Anda harus mengoptimalkan jaringan berdasarkan prinsip kotak hitam. Dalam hal ini, "kotak hitam" berarti bahwa selama pelatihan struktur internal jaringan benar-benar diabaikan, dan hanya hasil keseluruhan (hadiah untuk episode) yang digunakan, dan itu tergantung padanya apakah bobot jaringan tertentu akan diwarisi oleh generasi mendatang. Dalam situasi di mana kita tidak mendapatkan umpan balik yang jelas dari lingkungan - dan dalam menyelesaikan banyak tugas tradisional yang berhubungan dengan RL, aliran hadiah sangat dijernihkan - masalahnya berubah dari "kotak hitam sebagian" ke "kotak hitam sepenuhnya". Dalam hal ini, adalah mungkin untuk meningkatkan produktivitas secara serius, jadi, tentu saja, kompromi seperti itu dapat dibenarkan. "Siapa yang butuh gradien jika masih berisik?" - ini adalah pendapat umum.
Namun, dalam situasi di mana umpan balik lebih aktif, masalah ES mulai salah. Tim OpenAI menjelaskan bagaimana jaringan klasifikasi sederhana MNIST dilatih menggunakan ES, dan kali ini pelatihannya 1000 kali lebih lambat. Faktanya adalah bahwa sinyal gradien dalam klasifikasi gambar sangat informatif tentang cara mengajarkan klasifikasi yang lebih baik kepada jaringan. Dengan demikian, masalahnya tidak terkait dengan teknik RL seperti halnya dengan imbalan jarang di lingkungan yang menghasilkan gradien bising.
Solusi ditemukan oleh alam
Jika Anda mencoba belajar dari contoh alam, memikirkan cara untuk mengembangkan AI, dalam beberapa kasus AI dapat direpresentasikan sebagai
pendekatan yang berorientasi masalah . Pada akhirnya, alam beroperasi dalam batasan yang tidak dimiliki oleh ilmuwan komputer. Ada pendapat bahwa pendekatan yang murni teoretis untuk menyelesaikan masalah tertentu dapat memberikan solusi yang lebih efektif daripada alternatif empiris. Namun demikian, saya masih berpikir bahwa disarankan untuk memeriksa bagaimana sistem dinamis yang beroperasi di bawah kondisi pembatasan tertentu (Bumi) membentuk agen (hewan, khususnya mamalia), yang mampu berperilaku fleksibel dan kompleks. Sementara beberapa dari batasan ini tidak berlaku di dunia simulasi ilmu data, yang lain hanya sangat baik.
Setelah memeriksa perilaku intelektual mamalia, kita melihat bahwa itu terbentuk sebagai hasil dari interaksi kompleks dari dua proses yang saling terkait:
belajar dari pengalaman orang lain dan
belajar dari pengalaman kita sendiri . Yang pertama sering diidentifikasi dengan evolusi karena seleksi alam, tetapi di sini saya menggunakan istilah yang lebih luas untuk memperhitungkan epigenetik, mikrobioma, dan mekanisme lain yang memastikan pertukaran pengalaman antara organisme yang tidak saling terkait secara genetik satu sama lain. Proses kedua, pembelajaran langsung adalah semua informasi yang dikelola hewan untuk berasimilasi sepanjang hidup, dan informasi ini terkait langsung dengan interaksi hewan ini dengan dunia luar. Kategori ini mencakup segala sesuatu mulai dari belajar untuk mengenali objek hingga menguasai komunikasi yang melekat dalam proses pendidikan.
Secara kasar, kedua proses yang terjadi di alam ini dapat dibandingkan dengan dua opsi untuk mengoptimalkan jaringan saraf. Strategi evolusi, di mana informasi gradien digunakan untuk memperbarui informasi tentang tubuh, mendekati pembelajaran dari pengalaman orang lain. Demikian pula, metode gradien, di mana penerimaan pengalaman tertentu mengarah ke satu atau lain perubahan dalam perilaku agen, dapat dibandingkan dengan belajar dari pengalaman. Jika Anda berpikir tentang varietas perilaku intelektual atau tentang kemampuan yang masing-masing dari dua pendekatan ini kembangkan pada hewan, perbandingan seperti itu lebih jelas. Dalam kedua kasus, "metode evolusi" berkontribusi pada studi perilaku reaktif yang memungkinkan pengembangan kebugaran tertentu (cukup untuk tetap hidup). Belajar berjalan atau melarikan diri dari penangkaran dalam banyak kasus setara dengan perilaku yang lebih “naluriah” yang “terprogram” pada banyak hewan di tingkat genetik. Selain itu, contoh ini menegaskan bahwa metode evolusi berlaku dalam kasus-kasus ketika pemberian sinyal sangat jarang terjadi (misalnya, misalnya, fakta bahwa pembesaran seekor anak kucing yang berhasil). Dalam kasus seperti itu, tidak mungkin untuk menghubungkan hadiah dengan serangkaian tindakan spesifik yang mungkin telah dilakukan bertahun-tahun sebelum timbulnya fakta ini. Di sisi lain, jika kita mempertimbangkan kasus di mana ES gagal, yaitu, klasifikasi gambar, maka hasilnya akan sangat sebanding dengan hasil pelatihan hewan yang dicapai selama eksperimen psikologis perilaku yang tak terhitung jumlahnya yang dilakukan selama lebih dari seratus tahun.
Pelatihan hewan
Metode yang digunakan dalam pembelajaran penguatan dalam banyak kasus diambil langsung dari literatur psikologis pada
pengkondisian operan , dan pengkondisian operan telah dipelajari berdasarkan psikologi hewan. Ngomong-ngomong, Richard Sutton, salah satu dari dua pendiri pelatihan penguatan, memiliki gelar sarjana dalam bidang psikologi. Dalam konteks pengkondisian operan, hewan belajar mengasosiasikan hadiah atau hukuman dengan pola perilaku tertentu. Pelatih dan peneliti entah bagaimana dapat memanipulasi hubungan semacam itu dengan hadiah, memprovokasi hewan untuk menunjukkan kecerdikan atau perilaku tertentu. Namun, pengkondisian operan yang digunakan dalam studi hewan tidak lebih dari suatu bentuk pengkondisian yang lebih jelas, atas dasar yang melatih hewan sepanjang hidup. Kami terus menerima sinyal penguatan positif dari lingkungan dan menyesuaikan perilaku kami. Faktanya, banyak ahli neurofisiologi dan ilmuwan kognitif percaya bahwa pada kenyataannya, manusia dan hewan lain bertindak bahkan satu tingkat lebih tinggi dan terus-menerus belajar memprediksi hasil perilaku mereka dalam situasi masa depan, mengandalkan imbalan potensial.
Peran sentral peramalan dalam pembelajaran mandiri adalah mengubah dinamika yang dijelaskan di atas dengan cara yang paling signifikan. Sinyal yang sebelumnya dianggap sangat langka (hadiah episodik) sangat padat. Secara teoritis, situasinya kira-kira sebagai berikut: pada setiap saat waktu, otak mamalia menghitung hasil berdasarkan pada aliran rangsangan dan tindakan sensoris yang kompleks, sementara hewan hanya tenggelam dalam arus ini. Dalam hal ini, perilaku terakhir hewan memberikan sinyal yang padat, yang harus dipandu oleh koreksi ramalan dan perkembangan perilaku. Otak menggunakan semua sinyal ini untuk mengoptimalkan perkiraan (dan, dengan demikian, kualitas tindakan yang diambil) di masa depan. Tinjauan dari pendekatan ini diberikan dalam buku yang sangat bagus "
Surfing Uncertainty " oleh ilmuwan kognitif dan filsuf Andy Clark. Jika kita mengekstrapolasi argumen semacam itu pada pelatihan agen buatan, maka pelatihan penguatan menunjukkan kelemahan mendasar: sinyal yang digunakan dalam paradigma ini sangat lemah dibandingkan dengan apa yang seharusnya (atau seharusnya). Dalam kasus di mana tidak mungkin untuk meningkatkan saturasi sinyal (mungkin karena, menurut definisi, lemah, atau dikaitkan dengan reaktivitas tingkat rendah) - mungkin lebih baik untuk memilih metode pelatihan yang diparalelkan dengan baik, misalnya, ES.
Pembelajaran yang lebih baik dari jaringan saraf
Berdasarkan prinsip-prinsip aktivitas saraf yang lebih tinggi yang melekat dalam otak mamalia, yang terus-menerus terlibat dalam peramalan, akhir-akhir ini dimungkinkan untuk mencapai keberhasilan tertentu dalam pelatihan penguatan, yang sekarang memperhitungkan pentingnya perkiraan tersebut. Saya dapat merekomendasikan Anda dua karya serupa:
Dalam kedua artikel ini, penulis melengkapi kebijakan jaringan saraf standar default dengan hasil perkiraan mengenai kondisi lingkungan di masa depan. Dalam artikel pertama, peramalan diterapkan ke berbagai variabel pengukuran, dan yang kedua, perubahan lingkungan dan perilaku agen. Dalam kedua kasus, sinyal jarang yang terkait dengan penguatan positif menjadi jauh lebih jenuh dan informatif, memberikan pembelajaran yang dipercepat dan asimilasi model perilaku yang lebih kompleks. Perbaikan semacam itu hanya tersedia ketika bekerja dengan metode yang menggunakan sinyal gradien, tetapi tidak dengan metode yang beroperasi pada prinsip "kotak hitam", seperti, misalnya, ES.
Selain itu, pembelajaran langsung dan metode gradien jauh lebih efektif. Bahkan dalam kasus-kasus ketika dimungkinkan untuk mempelajari masalah tertentu menggunakan metode ES daripada menggunakan pelatihan penguatan, keuntungan itu dicapai karena fakta bahwa banyak kali lebih banyak data yang terlibat dalam strategi ES daripada dengan RL. Berpikir dalam kasus ini tentang prinsip-prinsip belajar pada hewan, kami mencatat bahwa hasil pelatihan tentang contoh alien memanifestasikan dirinya setelah beberapa generasi, sementara kadang-kadang satu peristiwa, yang dialami secara pribadi, cukup bagi hewan untuk mempelajari pelajaran selamanya. Meskipun
pelatihan tanpa contoh belum sepenuhnya cocok dengan metode gradien tradisional, itu jauh lebih dimengerti daripada ES. Ada, misalnya, pendekatan seperti
kontrol saraf episodik , di mana nilai-Q disimpan selama proses pelatihan, setelah itu program diperiksa dengan mereka sebelum melakukan tindakan. Ternyata metode gradien yang memungkinkan Anda mempelajari cara memecahkan masalah lebih cepat dari sebelumnya. Dalam artikel tentang kontrol saraf episodik, penulis menyebutkan hippocampus manusia, yang mampu menyimpan informasi tentang peristiwa tersebut bahkan setelah pengalaman yang pernah dialami dan, oleh karena itu, memainkan
peran penting dalam proses mengingat. Mekanisme semacam itu membutuhkan akses ke organisasi internal agen, yang juga menurut definisi mustahil dalam paradigma ES.
Jadi mengapa tidak menggabungkannya?
Mungkin sebagian besar artikel ini dapat meninggalkan kesan bahwa saya menganjurkan metode RL di dalamnya. Namun, pada kenyataannya, saya percaya bahwa dalam jangka panjang, solusi terbaik adalah kombinasi dari kedua metode, sehingga masing-masing digunakan dalam situasi di mana itu paling cocok. Jelas, dalam kasus banyak kebijakan reaktif atau dalam situasi dengan sinyal penguatan positif yang sangat jarang, ES menang, terutama jika Anda memiliki kekuatan komputasi di mana Anda dapat menjalankan pelatihan paralel-massa. Di sisi lain, metode gradien menggunakan pembelajaran yang diperkuat atau pelatihan guru akan berguna ketika umpan balik yang luas tersedia bagi kami, dan memecahkan masalah perlu dipelajari dengan cepat dan dengan lebih sedikit data.
Beralih ke alam, kita menemukan bahwa metode pertama, pada dasarnya, meletakkan dasar untuk yang kedua. Itulah sebabnya, selama evolusi, mamalia telah mengembangkan otak yang memungkinkan pembelajaran yang sangat efisien dari bahan sinyal kompleks yang berasal dari lingkungan. Jadi, pertanyaannya tetap terbuka. Mungkin strategi evolusioner akan membantu kita menemukan arsitektur pembelajaran yang efektif yang akan berguna untuk metode pembelajaran gradien. Lagi pula, solusi yang ditemukan oleh alam memang sangat sukses.