Tentang penulis. Richard Sutton adalah profesor ilmu komputer di University of Alberta. Ini dianggap sebagai salah satu pendiri metode pengajaran komputasi modern dengan penguatan.Menurut hasil 70 tahun penelitian di AI, pelajaran utama adalah bahwa metode komputasi umum pada akhirnya yang paling efektif. Dan dengan margin yang lebar. Tentu saja, alasannya adalah hukum Moore, atau lebih tepatnya, penurunan eksponensial dalam biaya komputasi.
Sebagian besar studi AI menyarankan bahwa agen memiliki akses ke sumber daya komputasi yang sedang berlangsung. Dalam hal ini, satu-satunya cara untuk meningkatkan produktivitas adalah dengan menggunakan pengetahuan manusia. Tetapi sebuah proyek penelitian tipikal berumur pendek, dan setelah beberapa tahun, kinerja komputer pasti meningkat.
Dalam upaya untuk meningkatkan dalam jangka pendek, para peneliti mencoba menerapkan pengetahuan manusia di bidang subjek, tetapi dalam jangka panjang hanya kekuatan masalah komputasi. Kedua tren ini seharusnya tidak saling bertentangan, tetapi dalam praktiknya keduanya saling bertentangan. Waktu yang dihabiskan dalam satu arah adalah waktu yang hilang untuk yang lain. Ada kewajiban psikologis untuk berinvestasi dalam satu pendekatan atau yang lain. Dan implementasi pengetahuan di bidang subjek cenderung mempersulit sistem sedemikian rupa sehingga kurang cocok untuk menggunakan metode komputasi umum. Ada banyak contoh di mana peneliti terlambat mempelajari pelajaran pahit ini, dan penting untuk mempertimbangkan beberapa yang paling terkenal.
Dalam catur komputer, sistem yang mengalahkan juara dunia Kasparov pada tahun 1997 didasarkan pada pencarian opsi yang mendalam. Pada saat itu, sebagian besar peneliti catur komputer melihat metode ini dengan alarm karena mereka menerapkan pemahaman manusia tentang bidang subjek - struktur khusus permainan catur. Ketika pendekatan berbasis pencarian yang lebih sederhana dengan perangkat keras dan perangkat lunak khusus ternyata jauh lebih efektif, para peneliti ini menolak mengakui kekalahan. Mereka mengatakan metode brute force mungkin berhasil sekali, tetapi bukan strategi umum. Bagaimanapun, orang
tidak bermain catur seperti itu. Para peneliti ini menginginkan metode kemenangan berdasarkan pada pemahaman manusia tentang permainan, tetapi mereka kecewa.
Situasi serupa terjadi dalam studi tentang permainan go, hanya dengan penundaan 20 tahun. Upaya awal yang sangat besar ditujukan untuk menghindari pencarian, dan menggunakan pengetahuan subjek manusia atau fitur permainan, tetapi semua upaya ini tidak berguna ketika pencarian mendalam untuk opsi dengan komputasi paralel masif diterapkan secara efektif. Ternyata belajar mandiri juga penting untuk menguasai fungsi nilai, seperti dalam banyak permainan lain dan bahkan dalam catur, meskipun fungsi ini tidak memainkan peran besar dalam program 1997, yang pertama kali memenangkan juara dunia. Belajar dalam permainan dengan diri sendiri dan belajar secara umum mirip dengan mencari dalam arti bahwa mereka memungkinkan penggunaan komputasi paralel masif. Pencarian dan pelatihan adalah aplikasi paling penting dari daya komputasi dalam penelitian AI. Seperti halnya dalam catur komputer, dalam pengembangan program untuk permainan go, para peneliti pertama-tama berkonsentrasi pada penerapan pemahaman manusiawi tentang bidang subjek (yang membutuhkan lebih sedikit pencarian), dan kemudian banyak kesuksesan besar ketika mereka menerapkan pencarian dan pelatihan.
Pada 1970-an, DARPA mengadakan kontes sistem pengenalan wicara. Pesaing mengusulkan banyak metode khusus yang menggunakan pengetahuan tentang bidang subjek - pengetahuan kata-kata, fonem, saluran suara manusia, dll. Di sisi lain, metode baru diperkenalkan yang lebih bersifat statistik. Mereka melakukan lebih banyak perhitungan berdasarkan pada model Markov tersembunyi (HMMs). Dan lagi, metode statistik menang atas metode berdasarkan pengetahuan domain. Ini telah menyebabkan perubahan signifikan dalam semua pemrosesan bahasa alami. Secara bertahap, selama bertahun-tahun, statistik dan perhitungan menjadi dominan di bidang ini. Peningkatan baru-baru ini dalam pembelajaran yang mendalam dalam pengenalan ucapan adalah langkah terakhir ke arah itu. Metode pembelajaran mendalam bahkan lebih sedikit mengandalkan pengetahuan manusia dan menggunakan lebih banyak komputasi bersamaan dengan belajar pada set data yang sangat besar. Ini telah sangat meningkatkan sistem pengenalan ucapan. Seperti dalam permainan, peneliti selalu mencoba untuk menciptakan sistem yang bekerja pada model pikiran mereka sendiri: mereka mencoba untuk mentransfer pengetahuan mereka tentang area subjek ke dalam sistem mereka. Tetapi pada akhirnya, itu menjadi kontraproduktif dan membuang-buang waktu ketika hukum Moore membuat perhitungan besar tersedia dan alat dikembangkan untuk penggunaannya yang efektif.
Dalam visi komputer, gambar serupa. Metode awal dianggap penglihatan sebagai pencarian untuk batas-batas objek, silinder umum, atau dalam hal tanda SIFT. Tapi hari ini semua ini dibuang. Jaringan pembelajaran modern neural hanya menggunakan konsep konvolusi dan beberapa invarian, sementara mereka bekerja jauh lebih baik.
Ini pelajaran yang bagus. Dalam industri secara keseluruhan, kami belum sepenuhnya memahaminya, karena kami terus melakukan kesalahan yang sama. Untuk mengatasi ini secara efektif, Anda perlu memahami apa yang membuat kesalahan ini menarik. Kita harus belajar pelajaran pahit: membangun model pikiran manusia tidak akan berhasil dalam jangka panjang. Pelajaran pahit didasarkan pada beberapa pengamatan sejarah:
- Para peneliti sering mencoba mengintegrasikan pengetahuan mereka ke dalam agen AI.
- Itu selalu membantu dalam jangka pendek dan secara pribadi memuaskan peneliti, tetapi
- Dalam jangka panjang, pendekatan ini bertumpu pada langit-langit dan bahkan memperlambat kemajuan lebih lanjut.
- Kemajuan terobosan akhirnya datang dari pendekatan yang berlawanan, berdasarkan perhitungan besar melalui pencarian dan pelatihan.
Keberhasilan utama diwarnai oleh kepahitan dan sering kali tidak sepenuhnya diterima, karena merupakan kemenangan atas pendekatan yang menarik dan berpusat pada orang.
Satu pelajaran harus dipelajari dari pengalaman pahit ini: seseorang harus mengenali kekuatan luar biasa dari metode-metode umum yang terus berkembang dengan kekuatan komputasi yang meningkat, bahkan ketika dibutuhkan perhitungan yang sangat besar. Pencarian dan pelatihan tampaknya scalable tanpa batas.
Poin umum kedua yang dapat ditarik dari pelajaran pahit adalah bahwa pemikiran manusia yang nyata sangat sulit, tidak dapat dibatalkan. Kita harus berhenti berusaha menemukan cara sederhana untuk menyajikan isi pikiran sebagai model ruang, benda, atau banyak agen sederhana. Semua ini adalah bagian dari dunia eksternal yang kompleks secara internal. Ini tidak dapat dimodelkan karena kompleksitasnya tidak terbatas. Alih-alih, meta-metode harus dikembangkan yang dapat menemukan dan menangkap kompleksitas arbitrer ini. Untuk metode ini, penting bahwa mereka dapat menemukan perkiraan yang baik, tetapi pencarian ini dilakukan oleh metode itu sendiri, dan bukan oleh kami. Kami membutuhkan agen AI yang dapat melakukan penelitian sendiri, dan tidak menggunakan pengetahuan yang kami temukan. Konstruksi sistem AI pada pengetahuan manusia hanya mempersulit pelatihannya.