Mengapa AI belajar mandiri memiliki masalah di dunia nyata?



Sistem kecerdasan buatan belajar mandiri terbaru dapat mempelajari permainan dari awal dari awal dan menjadi juara kelas dunia. Sampai baru-baru ini, mesin yang bisa mengalahkan juara memulai studi mereka dengan mempelajari pengalaman manusia. Untuk mengalahkan Garry Kasparov pada tahun 1997, para insinyur IBM mengunggah ke Deep Blue informasi yang terkumpul selama berabad-abad dari hasrat manusia akan catur. Pada tahun 2016, kecerdasan buatan AlphaGo yang dibuat di Google DeepMind melampaui juara Lee Sedola dalam permainan Go board kuno, setelah sebelumnya mempelajari jutaan posisi dari puluhan ribu game yang dimainkan oleh orang. Tapi sekarang, pengembang AI memikirkan kembali pendekatan untuk memasukkan pengetahuan manusia ke dalam otak elektronik. Tren saat ini: jangan repot-repot dengan ini.

Pada Oktober 2017, tim DeepMind menerbitkan informasi tentang sistem baru untuk bermain Go - AlphaGo Zero. Dia tidak mempelajari pesta yang dimainkan oleh orang sama sekali. Sebaliknya, dia belajar aturan dan mulai bermain dengan dirinya sendiri. Langkah pertama benar-benar acak. Setelah setiap pertandingan, sistem menganalisis apa yang menyebabkan kemenangan atau kekalahan. Setelah beberapa saat, AlphaGo Zero mulai bermain dengan pemenang yang dipompa Lee Sedola - AlphaGo. Dan dia mengalahkannya dengan skor 100: 0.


Lee Sedol, juara dunia 18 kali dalam permainan Go, selama pertandingan dengan AlphaGo pada 2016.

Kemudian para peneliti menciptakan sistem yang menjadi pemain terkuat di keluarga AlphaGo - AlphaZero. Dalam sebuah makalah yang diterbitkan pada bulan Desember, pengembang DeepMind melaporkan bahwa AlphaZero, yang juga mulai belajar dari awal, melampaui AlphaGo Zero - yaitu, mengalahkan bot yang mengalahkan bot yang mengalahkan pemain terbaik di Go di dunia. Dan ketika dia diberi makan aturan catur, serta versi Jepang dari permainan ini - shogi , AlphaZero dengan cepat belajar untuk mengalahkan algoritma yang paling kuat dalam permainan ini. Para ahli terkejut dengan gaya permainan yang agresif dan tidak biasa. Seperti yang dikatakan grandmaster Denmark Peter Heine Nielsen: “Saya selalu tertarik untuk mengetahui apa yang akan terjadi jika supernatural terbang ke Bumi dan menunjukkan kepada kita bagaimana mereka bisa bermain catur. Sekarang saya tahu. "

Tahun lalu, kami melihat kedatangan bot belajar mandiri di dunia lain yang beragam seperti poker tanpa batas dan Dota 2.

Jelas bahwa perusahaan yang berinvestasi dalam sistem ini dan yang serupa memiliki rencana yang jauh lebih ambisius daripada mendominasi kejuaraan game. Para peneliti berharap untuk menggunakan metode serupa untuk memecahkan masalah nyata, seperti membuat superkonduktor yang beroperasi pada suhu kamar, atau menggunakan prinsip origami untuk meletakkan protein dalam molekul obat kuat. Dan, tentu saja, banyak praktisi berharap untuk menciptakan AI tujuan umum - tujuannya tidak jelas, tetapi mengasyikkan, menyiratkan bahwa mesin tersebut akan dapat berpikir seperti seseorang dan menyelesaikan berbagai masalah.

Namun terlepas dari investasi besar-besaran pasukan dan sarana dalam sistem seperti itu, tidak jelas seberapa jauh mereka bisa lolos dari lingkup permainan.

Sasaran ideal untuk dunia yang tidak sempurna


Banyak permainan, termasuk catur dan Go, disatukan oleh fakta bahwa pemain selalu melihat seluruh tata letak di lapangan bermain. Setiap pemain pada waktu tertentu memiliki "informasi lengkap" tentang keadaan permainan. Tetapi semakin sulit permainan, semakin jauh Anda perlu berpikir ke depan dari saat ini. Pada kenyataannya, ini biasanya tidak terjadi. Bayangkan Anda meminta komputer untuk membuat diagnosis atau melakukan negosiasi bisnis. Noam Brown , mahasiswa pascasarjana di Departemen Ilmu Komputer di Universitas Carnegie Mellon: “Sebagian besar hubungan strategis nyata menggunakan informasi tersembunyi. Saya merasa bahwa banyak peserta dalam komunitas AI mengabaikan keadaan ini. ”

Brown berspesialisasi dalam mengembangkan algoritma permainan poker, dan ada kesulitan lain dalam game ini: Anda tidak melihat kartu lawan Anda. Tapi di sini, mesin yang belajar bermain secara mandiri sudah mencapai ketinggian setinggi langit. Pada Januari 2017, sebuah program bernama Libratus, yang dibuat oleh Brown dan Tuomas Sandholm , mengalahkan satu dari satu dari empat pemain profesional di Texas Hold'em yang tidak terbatas. Pada akhir turnamen 20 hari, bot itu memperoleh $ 1,7 juta lebih dari para pesaingnya.

Strategi multipemain StarCraft II adalah permainan yang bahkan lebih mengesankan, menyiratkan kepemilikan informasi yang tidak lengkap tentang situasi saat ini. Di sini, AI belum mencapai Olympus. Ini terhambat oleh sejumlah besar gerakan dalam permainan, sering diukur dalam ribuan, dan kecepatan tinggi eksekusi mereka. Setiap pemain - seseorang atau mesin - dengan setiap klik perlu memikirkan variasi perkembangan selanjutnya yang tidak terbatas.

Sejauh ini, AI tidak dapat bersaing dengan pemain terbaik dengan syarat yang sama. Tetapi pengembang berusaha untuk ini. Pada Agustus 2017, DeepMind meminta dukungan Blizzard Entertainment (yang menciptakan StarCraft II) dalam menciptakan alat yang seharusnya membantu para peneliti AI.

Terlepas dari kesulitan gameplay, esensi dari StarCraft II datang ke tugas sederhana: untuk menghancurkan musuh. Hal yang sama dapat dikatakan tentang catur, Go, poker, Dota 2 dan hampir semua game lainnya. Dan dalam gim Anda bisa menang.

Dari sudut pandang algoritma, tugas harus memiliki "fungsi target", yang harus ditemukan. Itu tidak terlalu sulit ketika AlphaZero bermain catur. Kehilangan dihitung sebagai -1, menggambar - 0, kemenangan - +1. Fungsi obyektif untuk AlphaZero adalah untuk mendapatkan poin maksimal. Fungsi obyektif untuk bot poker juga sederhana: menangkan banyak uang.


Algoritma mempelajari perilaku kompleks - berjalan di permukaan yang tidak dikenal.

Dalam hidup, semuanya tidak begitu jelas. Misalnya, kendaraan tak berawak membutuhkan fungsi objektif yang lebih spesifik. Sesuatu seperti pernyataan hati-hati dari keinginannya, yang menjelaskan jin. Misalnya: dengan cepat mengantarkan penumpang ke tujuan yang benar, mematuhi semua peraturan dan menilai kehidupan manusia dengan benar dalam situasi berbahaya dan tidak menentu. Pedro Domingos , Spesialis Ilmu Komputer, Universitas Washington: "Di antara yang lain, perbedaan antara peneliti pembelajaran mesin yang hebat dan biasa adalah bagaimana Anda merumuskan fungsi objektif."

Pikirkan tentang twitter twitter Tay yang diluncurkan oleh Microsoft pada 23 Maret 2016. Tujuannya adalah membuat orang terlibat, dan dia mencapainya. Tapi tiba-tiba menjadi jelas bahwa cara terbaik untuk memaksimalkan keterlibatan adalah mencurahkan segala macam penghinaan. Bot dimatikan kurang dari sehari kemudian.

Musuh terburuk pribadi Anda


Sesuatu tetap tidak berubah. Metode yang digunakan oleh bot permainan dominan modern bergantung pada strategi yang ditemukan beberapa dekade yang lalu. Sama seperti salam dari masa lalu, hanya didukung oleh kekuatan komputasi modern.

Strategi-strategi ini biasanya didasarkan pada pembelajaran yang diperkuat, sebuah metodologi tanpa campur tangan manusia. Alih-alih mengontrol algoritma dengan teliti menggunakan instruksi terperinci, insinyur mengijinkan mesin untuk menjelajahi lingkungan dan mencapai tujuan melalui coba-coba. Sebelum rilis AlphaGo dan turunannya, pada 2013, tim DeepMind mencapai hasil yang serius dan penting, menggunakan pelatihan penguatan dengan mengajarkan bot untuk memainkan tujuh game untuk Atari 2600, dan di tiga darinya - di tingkat ahli.

Tidak berhenti di situ, pada tanggal 5 Februari, tim DeepMind meluncurkan IMPALA , sistem AI yang dapat memainkan 57 game untuk Atari 2600, serta 30 level tiga dimensi lainnya yang dibuat di DeepMind. Pada level ini, pemain berjalan melalui berbagai tempat dan kamar, menyelesaikan masalah seperti membuka pintu dan mengambil jamur. Selain itu, IMPALA mentransfer akumulasi pengalaman antar tugas, yaitu setiap sesi yang dimainkan meningkatkan hasil sesi berikutnya.

Tetapi dalam kategori yang lebih luas dari pembelajaran yang diperkuat, permainan papan dan multi pemain memungkinkan pendekatan yang lebih terspesialisasi. Penelitian dapat mengambil bentuk permainan dengan sendirinya, ketika algoritma mendapatkan pengalaman, berjuang dengan salinannya sendiri.

Gagasan ini juga sudah bertahun-tahun. Pada 1950-an, insinyur IBM Arthur Samuel menciptakan program pemeriksa yang dipelajari sebagian dalam permainan yang dimainkan antara alfa dan beta. Dan pada 1990-an, Gerald Tesauro, juga dari IBM, menciptakan game backgammon yang mengatur algoritmenya sendiri. Bot mencapai tingkat ahli manusia, mengembangkan strategi non-standar, tetapi efektif.

Saat bermain dengan dirinya sendiri, algoritma di setiap game bertemu dengan pesaing yang setara. Oleh karena itu, perubahan dalam strategi mengarah ke hasil yang berbeda, mengingat respons langsung dari algoritma salin. Ilya Sutskever , direktur penelitian di OpenAI: "Setiap kali Anda mempelajari sesuatu yang baru, Anda menemukan informasi terkecil tentang permainan dan lingkungan, lawan Anda langsung menggunakannya untuk melawan Anda." Pada bulan Agustus 2017, OpenAI merilis bot untuk Dota 2 , yang mengendalikan karakter Shadow Fiend - sesuatu seperti iblis necromancer - dan mengalahkan pemain terbaik di dunia dalam pertarungan. Proyek lain dari perusahaan: dua algoritma mengendalikan pegulat sumo, belajar dari teknik gulat satu sama lain . Dan selama pelatihan seperti itu tidak mungkin mengalami stagnasi, Anda harus terus meningkat.


Bot yang dibuat di OpenAI untuk Dota 2 secara independen mempelajari beberapa strategi kompleks.

Tetapi gagasan lama untuk bermain dengan diri sendiri hanyalah salah satu unsur keunggulan modern bot, yang masih perlu entah bagaimana “memikirkan kembali” pengalaman bermain mereka. Dalam permainan catur, Go, dan video seperti Dota 2, ada banyak sekali kemungkinan kombinasi. Bahkan setelah menghabiskan banyak nyawa dalam pertempuran dengan bayangannya di arena virtual, mesin tidak akan dapat menghitung setiap skenario yang mungkin untuk menyusun tabel tindakan dan berkonsultasi dengannya ketika lagi menemukan dirinya dalam situasi yang sama.

Untuk tetap bertahan di lautan peluang, Anda perlu menggeneralisasi, memahami esensi. IBM Deep Blue berhasil berkat formula catur terintegrasi. Berbekal kemampuan untuk mengevaluasi kombinasi di papan yang belum pernah dia temui sebelumnya, komputer menyetel gerakan dan strategi untuk meningkatkan kemungkinan kemenangannya. Tetapi teknik baru yang telah muncul dalam beberapa tahun terakhir telah memungkinkan untuk meninggalkan formula.

Jaringan saraf yang dalam semakin populer. Mereka terdiri dari lapisan "neuron" buatan, seperti pancake dalam tumpukan. Ketika neuron dalam satu lapisan dipicu, mereka mengirim sinyal ke lapisan berikutnya, ia mengirim ke lapisan berikutnya, dan seterusnya. Dengan menyesuaikan koneksi antar lapisan, jaringan saraf tersebut mencapai hasil yang fantastis, mengubah data input menjadi semacam hasil yang saling berhubungan, bahkan jika koneksi tersebut tampak abstrak. Misalkan jaringan saraf dapat diberikan frasa dalam bahasa Inggris, dan itu akan menerjemahkannya ke dalam bahasa Turki. Atau Anda dapat memberikan fotonya dari tempat penampungan hewan, dan jaringan saraf akan menemukan gambar-gambar yang menggambarkan kucing. Atau Anda dapat menunjukkan aturan permainan papan ke jaringan saraf yang dalam, dan itu akan menghitung probabilitas kemenangannya. Tetapi pertama-tama, seperti yang Anda pahami, jaringan saraf harus belajar dari sampel data berlabel.

Jaringan saraf bermain dengan diri mereka sendiri dan jaringan saraf yang dalam saling melengkapi dengan baik. Bermain dengan jaringan sendiri menghasilkan aliran informasi tentang permainan, menyediakan bagi jaringan yang dalam suatu sumber data tanpa akhir untuk pelatihan. Pada gilirannya, jaringan yang dalam menawarkan cara untuk menyerap pengalaman dan pola yang diperoleh dengan bermain dengan jaringan sendiri.

Tapi ada satu trik. Untuk sistem yang bermain dengan diri mereka sendiri untuk menghasilkan data yang bermanfaat, mereka membutuhkan tempat yang realistis untuk bermain.

Semua permainan dimainkan, semua ketinggian dicapai dalam lingkungan di mana Anda dapat meniru dunia dengan berbagai tingkat kepercayaan. Dan di bidang lain tidak mudah mencapai hasil yang mengesankan.

Misalnya, kendaraan tak berawak sulit dikendarai dalam cuaca buruk, dan pengendara sepeda di jalan sangat mengganggu. Juga, drone dapat secara tidak benar mengevaluasi situasi non-standar, tetapi nyata, seperti burung yang terbang langsung ke kamera mobil. Atau gunakan AI yang kurang eksotis - manipulator lengan robot. Pertama, dia perlu diajari dasar-dasar tindakan fisik sehingga tangan setidaknya mengerti cara mempelajarinya. Tetapi pada saat yang sama, dia tidak tahu keanehan menyentuh berbagai permukaan dan benda, sehingga mesin perlu berlatih untuk menyelesaikan masalah seperti membuka tutup botol atau membuka prosedur bedah.

Yoshua Bengio , Spesialis Pembelajaran Jauh di Universitas Montreal: “Dalam situasi yang sulit disimulasikan, model pembelajaran“ bermain dengan diri sendiri ”tidak terlalu berguna. "Ada perbedaan besar antara model lingkungan yang benar-benar ideal dan model yang dipelajari," terganggu, "terutama jika lingkungannya kompleks."

Kehidupan setelah pertandingan


Sulit untuk mengatakan dengan tepat kapan keunggulan AI dalam game dimulai. Anda dapat memilih untuk kehilangan Kasparov atau mengalahkan Lee Sedola. Seringkali hitungan mundur dari 2011, dengan hilangnya Ken Jennings, juara dari permainan televisi Jeopardy! , dalam persaingan dua hari dengan IBM Watson. Mesin itu mampu memahami kata-kata dan permainan kata-kata. Para pengembang telah memberi Watson kemampuan untuk memproses teks yang melekat pada kami. Komputer dapat mengambil petunjuk frase bahasa Inggris untuk sebuah kata, dengan kecepatan tinggi melihat dokumen yang relevan, menyorot potongan informasi dan memilih jawaban terbaik.

Namun selama bertahun-tahun, tugas hidup "biasa" masih belum bisa menerima AI. Pada bulan September 2017, sebuah laporan diterbitkan yang menurutnya terdapat kesulitan besar dalam penelitian dan pengembangan metode pengobatan kanker pribadi sebagai bagian dari proyek Watson untuk Onkologi. Komputer jauh lebih mudah untuk memahami makna pertanyaan di Jeopardy! daripada memahami esensi artikel medis.

Namun, ada sejumlah tugas nyata yang sangat khusus seperti permainan. Rumor mengatakan bahwa tim DeepMind bekerja mengadaptasi AlphaZero untuk digunakan dalam penelitian pelipatan protein biomedis. Untuk ini, pengembang harus memahami bagaimana asam amino yang membentuk protein dapat dilipat menjadi struktur tiga dimensi kecil, yang fungsinya tergantung pada bentuknya. Ini sama sulitnya dengan permainan catur: ahli kimia tahu beberapa prinsip yang memungkinkan mereka untuk menghitung beberapa skenario, tetapi banyaknya kemungkinan konfigurasi tiga dimensi begitu besar sehingga sama sekali tidak realistis untuk mengeksplorasi semuanya. Tetapi bagaimana jika Anda mengubah protein menjadi permainan? Itu yang sudah mereka lakukan. Sejak 2008, ratusan ribu pemain telah mencoba tangan mereka di game online Foldit , di mana poin diberikan untuk stabilitas dan kelayakan struktur protein yang dibuat. Sebuah mesin dapat melatih dirinya sendiri dengan cara yang sama, misalnya, melalui pelatihan penguatan, mencoba untuk melampaui hasil terbaik dari pemain manusia.

Pembelajaran penguatan dan permainan mandiri juga dapat membantu melatih sistem interaktif. Kemudian robot akan dapat berbicara dengan orang, pertama-tama belajar berbicara kepada diri mereka sendiri. Dan mengingat peningkatan produktivitas dan ketersediaan peralatan khusus untuk AI, para insinyur akan menerima insentif untuk menerjemahkan lebih banyak tugas nyata ke dalam bentuk permainan. Sangat mungkin bahwa di masa depan pentingnya metodologi "bermain dengan diri sendiri" dan pendekatan lain yang membutuhkan daya komputasi sangat besar hanya akan meningkat.

Tetapi jika tujuan utama kami adalah menciptakan sebuah mesin yang dapat melakukan sebanyak mungkin orang, dan mesin belajar mandiri, maka para juara permainan papan seperti AlphaZero akan memiliki jalur pengembangan yang memungkinkan. Penting untuk menyadari kesenjangan antara aktivitas mental yang nyata, pemahaman ide yang kreatif dan apa yang kita lihat hari ini di bidang AI. Citra cerah kecerdasan buatan itu ada, sebagian besar, dalam pikiran para peneliti hebat.

Banyak ilmuwan yang menyadari tingkat sensasi menawarkan klasifikasi mereka sendiri. Tidak perlu melebih-lebihkan pentingnya bot bermain game untuk pengembangan AI secara umum. Orang, misalnya, tidak pandai bermain. Tetapi di sisi lain, alat yang sangat sederhana dan khusus dalam beberapa tugas dapat mencapai ketinggian yang luar biasa.

Source: https://habr.com/ru/post/id411761/


All Articles