Sistem AI terbaru memulai pelatihan tanpa mengetahui apa pun tentang permainan, dan tumbuh ke tingkat dunia dalam beberapa jam. Tetapi para peneliti berjuang dengan penggunaan sistem seperti itu di luar dunia game.

Sampai baru-baru ini, mesin yang mampu mempermalukan juara manusia setidaknya memiliki rasa hormat untuk menggunakan pengalaman manusia untuk mengajar permainan.
Untuk mengalahkan Garry Kasparov dalam catur pada tahun 1997, insinyur IBM menggunakan kebijaksanaan catur selama berabad-abad untuk membuat komputer Deep Blue mereka sendiri. Pada tahun 2016, program AlphaGo dari proyek Google DeepMind
mengalahkan juara Lee Sedola di game go board kuno, memproses jutaan posisi game yang dikumpulkan dari puluhan ribu game antara orang-orang.
Tapi sekarang, para peneliti AI memikirkan kembali bagaimana bot mereka harus menyerap pengetahuan manusia. Tren saat ini dapat digambarkan sebagai "ya, dan Tuhan memberkati dia."
Oktober lalu, tim DeepMind
menerbitkan rincian sistem go-game baru, AlphaGo Zero, yang tidak mempelajari game orang sama sekali. Dia mulai dengan aturan main dan bermain dengan dirinya sendiri. Langkah pertama benar-benar acak. Setelah setiap pertandingan, ia menerima pengetahuan baru tentang apa yang menyebabkan kemenangan dan apa yang tidak. Setelah pertandingan ini, AlphaGo Zero mengumpan versi AlphaGo yang sudah super yang mengalahkan Lee Sedol. Yang pertama memenangkan yang kedua dengan skor 100: 0.
Lee Sedol, juara dunia 18 kali beraksi, bertanding melawan AlphaGo pada 2016.Tim terus mengeksplorasi dan menciptakan pemain cemerlang berikutnya dalam keluarga AlphaGo, kali ini hanya disebut AlphaZero. Dalam sebuah
makalah yang diterbitkan di arxiv.org pada bulan Desember, para peneliti DeepMind mengungkapkan bagaimana, mulai dari awal lagi, AlphaZero melatih dan mengalahkan AlphaGo Zero - yaitu, mengalahkan bot yang mengalahkan bot yang mengalahkan pemain go terbaik di dunia. Dan ketika dia diberi aturan untuk catur
shogi Jepang, AlphaZero dengan cepat belajar dan berhasil mengalahkan yang terbaik dari algoritma khusus yang dibuat untuk game ini. Para ahli kagum dengan gaya permainan yang agresif dan asing. "Saya selalu bertanya-tanya bagaimana jadinya jika makhluk superior terbang ke Bumi dan menunjukkan kepada kita bagaimana mereka bermain catur," kata grandmaster Denmark Peter Heine Nielsen dalam
sebuah wawancara dengan Angkatan Udara. "Sekarang aku tahu."
Tahun lalu, kami melihat bot lain dari dunia lain yang terbukti berada di area berbeda seperti poker tanpa batas dan Dota 2 - game online populer di mana pahlawan fantasi bertarung untuk menguasai dunia lain.
Tentu saja, ambisi perusahaan yang menginvestasikan uang dalam sistem seperti itu melampaui dominasi kejuaraan game. Tim peneliti seperti DeepMind berharap untuk menerapkan metode serupa untuk tugas-tugas dunia nyata - menciptakan superkonduktor yang bekerja pada suhu kamar, atau memahami yang mana origami akan mengubah protein menjadi molekul yang ramah obat. Dan, tentu saja, banyak praktisi berharap untuk membangun kecerdasan buatan tujuan umum - tujuan yang didefinisikan dengan buruk, tetapi menawan untuk memberi mesin kesempatan untuk berpikir seperti orang dan fleksibel dalam menyelesaikan berbagai masalah.
Namun, terlepas dari semua investasi, belum jelas sejauh mana teknologi saat ini dapat melampaui batas papan permainan. "Saya tidak yakin ide di balik AlphaZero akan mudah diringkas,"
kata Pedro Domingos, seorang ilmuwan komputer di University of Washington. "Game adalah topik yang sangat, sangat tidak biasa."
Sasaran ideal untuk dunia yang tidak sempurna
Salah satu ciri umum dari banyak permainan, termasuk catur dan go - pemain terus melihat semua chip di kedua sisi papan. Setiap pemain memiliki apa yang disebut "informasi ideal" tentang keadaan permainan. Tidak masalah seberapa rumit gamenya, Anda hanya perlu memikirkan posisi Anda saat ini.
Banyak situasi dunia nyata tidak dapat dibandingkan dengan ini. Bayangkan kita meminta komputer untuk membuat diagnosis atau melakukan negosiasi bisnis. "Sebagian besar interaksi strategis di dunia nyata melibatkan informasi tersembunyi," kata
Noam Brown , seorang mahasiswa pascasarjana di bidang ilmu komputer di Carnegie Malon University. "Sepertinya bagi saya bahwa sebagian besar komunitas AI mengabaikan fakta ini."
Poker coklat menawarkan tantangan berbeda. Anda tidak melihat kartu lawan. Tapi di sini, mesin yang belajar melalui permainan dengan diri mereka sendiri, sudah mencapai ketinggian manusia super. Pada bulan Januari 2017, program Libratus, yang dibuat oleh Brown dan kuratornya
Thomas Sandholm ,
mengalahkan empat pemain tanpa batas
Texas Hold'em profesional dengan memenangkan $ 1,7 juta pada akhir kejuaraan 20 hari.
Gim yang lebih mengecewakan dengan informasi yang tidak sempurna adalah StarCraft II, gim multipemain daring lainnya dengan banyak penggemar. Pemain memilih tim, membangun pasukan, dan berperang di lanskap fiksi ilmiah. Tetapi bentang alam dikelilingi oleh kabut perang, karena para pemain hanya melihat bagian-bagian dari wilayah di mana pasukan atau bangunan mereka sendiri berada. Bahkan keputusan untuk menjelajahi wilayah lawan pun penuh ketidakpastian.
Ini adalah satu-satunya game yang AI belum bisa menangkan. Hambatan adalah sejumlah besar opsi untuk bergerak dalam permainan, yang biasanya melebihi seribu, dan kecepatan pengambilan keputusan. Setiap pemain - seseorang atau mesin - harus khawatir tentang kemungkinan besar skenario pengembangan dengan setiap klik mouse.
Sejauh ini, AI tidak dapat bersaing dengan persyaratan yang sama dengan orang-orang di bidang ini. Tapi ini tujuan pengembangan AI. Pada Agustus 2017, DeepMind
berkolaborasi dengan Blizzard Entertainment, perusahaan yang menciptakan StarCraft II, untuk membuat alat yang menurut mereka akan membuka game ini untuk para peneliti AI.
Terlepas dari semua kerumitannya, tujuan StarCraft II mudah dirumuskan: untuk menghancurkan musuh. Ini membuatnya mirip dengan catur, pergi, bermain poker, Dota 2 dan hampir semua permainan lainnya. Dalam gim Anda bisa menang.
Dari sudut pandang algoritma, tugas harus memiliki "fungsi target", tujuan yang harus kita perjuangkan. Ketika AlphaZero bermain catur, itu mudah. Kekalahan diperkirakan -1, imbang 0, kemenangan +1. Fungsi objektif AlphaZero adalah untuk memaksimalkan poin. Fungsi objektif bot poker sama mudahnya: untuk memenangkan banyak uang.
Pejalan komputer dapat melatih perilaku kompleks seperti berjalan di medan yang tidak dikenalSituasi dalam kehidupan nyata tidak sesederhana itu. Sebagai contoh, sebuah robomobile membutuhkan pembentukan fungsi objektif yang lebih baik - sesuatu yang mirip dengan pilihan kata yang rapi ketika menggambarkan keinginan Anda untuk jin. Misalnya: dengan cepat mengantarkan penumpang ke alamat yang benar, mematuhi semua undang-undang dan dengan tepat menimbang biaya hidup manusia dalam situasi berbahaya dan tidak pasti. Domingos mengatakan bahwa pembentukan fungsi objektif oleh para peneliti adalah "salah satu hal yang membedakan seorang peneliti hebat di bidang pembelajaran mesin dari rata-rata."
Pertimbangkan Tay, chatbot Twitter yang dirilis Microsoft pada 23 Maret 2016. Tujuannya adalah untuk melibatkan orang dalam percakapan, yang dia lakukan. "Apa yang sayangnya Tay temukan," kata Domingos, "adalah bahwa penghinaan rasis adalah cara terbaik untuk memaksimalkan keterlibatan orang." Itu
dimatikan hanya sehari setelah dimulainya pekerjaan.
Musuh utama Anda sendiri
Beberapa hal tidak berubah. Strategi yang digunakan hari ini oleh bot permainan yang ada diciptakan beberapa dekade yang lalu. "Ini adalah ledakan dari masa lalu - mereka hanya memberikan kekuatan komputasi yang lebih besar," kata
David Duveno , seorang spesialis IT di Universitas Tokyo.
Strategi seringkali didasarkan pada teknik pembelajaran yang diperkuat dengan kebebasan bertindak. Alih-alih terlibat dalam manajemen mikro, menyiapkan detail terkecil dari algoritma, insinyur memberikan mesin untuk mempelajari lingkungan untuk mempelajari cara mencapai tujuan sendiri, dengan coba-coba. Sebelum rilis AlphaGo dan ahli warisnya, tim DeepMind mencapai kesuksesan besar pertama di berita utama pada tahun 2013, ketika mereka menggunakan pelatihan penguatan untuk membuat bot yang
belajar bermain tujuh Atari 2600 game, dan di tiga dari mereka - di tingkat ahli.
Kemajuan ini terus berlanjut. Pada 5 Februari, DeepMind merilis
IMPALA , sebuah sistem AI yang mampu mempelajari 57 game dengan Atari 2600 dan 30 level lainnya yang dibuat oleh DeepMind dalam tiga dimensi. Pemain bertindak atas mereka di berbagai lingkungan dan mencapai tujuan seperti membuka pintu atau memetik jamur. IMPALA tampaknya mentransfer pengetahuan di antara tugas-tugas - waktu yang dihabiskan untuk satu pertandingan meningkatkan hasil sisanya.
Tetapi dalam kategori yang lebih luas dari pembelajaran yang diperkuat, permainan papan dan multipemain, pendekatan yang lebih spesifik dapat digunakan. Studi mereka bisa berupa permainan dengan dirinya sendiri, ketika algoritma mencapai keunggulan strategis, berulang kali bersaing dengan salinan itu sendiri.
Ide ini sudah berumur puluhan tahun. Pada 1950-an, insinyur IBM Arthur Samuel
menciptakan program draft yang sebagian dipelajari untuk bermain dengan bersaing dengan dirinya sendiri. Pada 1990-an, Gerald Thesaur dari IBM menciptakan program backgammon yang kontras dengan algoritma itu sendiri. Program ini mencapai level orang ahli, sekaligus menciptakan strategi permainan yang tidak biasa, tetapi efektif.
Dalam semakin banyak game, algoritma untuk bermain dengan diri sendiri disediakan dengan lawan yang sama. Ini berarti bahwa mengubah strategi permainan mengarah ke hasil yang berbeda, karena algoritma menerima umpan balik instan. "Setiap kali Anda menemukan sesuatu, ketika Anda menemukan sesuatu yang kecil, lawan Anda segera mulai menggunakannya untuk melawan Anda," kata
Ilya Sutskever , direktur penelitian di OpenAI, sebuah organisasi nirlaba yang ia dirikan dengan Ilon Mask, didedikasikan untuk pengembangan dan penyebaran teknologi AI dan arah pengembangan mereka ke arah yang aman. Pada bulan Agustus 2017, organisasi
merilis bot untuk Dota 2, yang mengendalikan salah satu karakter dalam permainan, Shadow Fiend - iblis necromancer - yang mengalahkan pemain terbaik di dunia dalam pertempuran satu lawan satu. Proyek OpenAI lain mendorong orang untuk mensimulasikan pertandingan
sumo , sebagai hasilnya mereka belajar gulat dan trik. Selama pertandingan dengan diri sendiri, "tidak ada waktu untuk beristirahat, Anda harus terus-menerus meningkat," kata Sutskever.
Openai
Namun gagasan lama bermain dengan diri sendiri hanyalah salah satu unsur dalam bot yang berlaku saat ini, mereka masih membutuhkan cara untuk mengubah pengalaman bermain game menjadi pemahaman yang lebih dalam tentang subjek. Dalam permainan catur, pergi, dan video seperti Dota 2, ada lebih banyak permutasi daripada atom di alam semesta. Bahkan jika kita menunggu beberapa nyawa manusia sementara AI melawan bayangannya di arena virtual, mesin tidak akan dapat menerapkan setiap skenario, menulisnya dalam tabel khusus dan merujuknya ketika situasi seperti itu terjadi lagi.
Untuk tetap bertahan di lautan peluang ini, "Anda perlu merangkum dan menyoroti esensi," kata
Peter Abbil , seorang spesialis IT di University of California di Berkeley. Deep Blue IBM melakukan ini dengan formula catur bawaan. Berbekal kemampuan untuk mengevaluasi kekuatan posisi bermain yang belum dilihatnya, program ini mampu menerapkan gerakan dan strategi yang meningkatkan peluangnya untuk menang. Dalam beberapa tahun terakhir, teknik baru memungkinkan untuk meninggalkan formula seperti itu sama sekali. "Sekarang, tiba-tiba, semua ini ditutupi oleh" jaringan yang dalam, "kata Abbil.
Jaringan saraf yang dalam, popularitasnya telah melonjak dalam beberapa tahun terakhir, dibangun dari lapisan "neuron" tiruan,
berlapis-lapis , seperti tumpukan pancake. Ketika neuron di salah satu lapisan diaktifkan, ia mengirimkan sinyal ke tingkat yang lebih tinggi, dan di sana mereka dikirim lebih tinggi lagi, dan seterusnya.
Dengan menyesuaikan koneksi antar lapisan, jaringan ini secara mengejutkan mengatasi dengan mengubah data input menjadi output yang terkait, bahkan jika koneksi di antara mereka tampak abstrak. Beri mereka frasa dalam bahasa Inggris, dan mereka dapat dilatih dengan menerjemahkannya ke dalam bahasa Turki. Beri mereka gambar tempat penampungan hewan dan mereka dapat menentukan yang mana untuk kucing. Tunjukkan pada mereka game poly, dan mereka akan dapat memahami kemungkinan menang. Tetapi biasanya, jaringan tersebut harus terlebih dahulu memberikan daftar contoh yang ditandai di mana mereka dapat berlatih.
Itulah mengapa bermain dengan diri sendiri dan jaringan saraf yang dalam bergabung dengan sangat baik satu sama lain. Permainan independen menghasilkan sejumlah besar skenario, dan jaringan yang dalam memiliki data yang hampir tak terbatas untuk pelatihan. Dan kemudian jaringan saraf menawarkan cara untuk mempelajari pengalaman dan pola yang ditemui selama pertandingan.
Tapi ada yang menangkap. Agar sistem seperti itu dapat memberikan data yang bermanfaat, mereka membutuhkan platform realistis untuk permainan.
"Semua permainan ini, semua hasil ini, dicapai dalam kondisi yang memungkinkan untuk mensimulasikan dunia dengan sempurna," kata
Chelsea Finn, seorang mahasiswa pascasarjana dari Berkeley yang menggunakan AI untuk mengendalikan lengan robot dan mengartikan data dari sensor. Daerah lain tidak begitu mudah disimulasikan.
Robomobiles, misalnya, mengalami kesulitan mengatasi cuaca buruk atau pengendara sepeda. Atau mereka mungkin tidak melihat kemungkinan yang tidak biasa dijumpai di dunia nyata - seperti burung yang terbang langsung ke kamera. Dalam kasus lengan robot, Finn mengatakan, simulasi awal memberikan fisika dasar yang memungkinkan lengan untuk belajar cara belajar. Tetapi mereka tidak dapat mengatasi detail menyentuh permukaan yang berbeda, sehingga tugas seperti memutar tutup botol - atau melakukan operasi bedah yang rumit - membutuhkan pengalaman yang didapat dalam kenyataan.
Dalam kasus masalah yang sulit untuk disimulasikan, bermain dengan diri sendiri tidak lagi berguna. “Ada perbedaan besar antara model lingkungan yang benar-benar sempurna dan model teladan yang terpelajar, terutama ketika kenyataannya benar-benar rumit,” tulis
Yoshua Benggio , pelopor pembelajaran mendalam dari Universitas Montreal. Tetapi peneliti AI masih memiliki cara untuk melanjutkan.
Kehidupan setelah pertandingan
Sulit untuk menentukan awal keunggulan AI dalam game. Anda dapat memilih kerugian Kasparov dalam catur, kekalahan Li Sedol di tangan virtual AlphaGo. Pilihan populer lainnya adalah hari 2011, ketika juara legendaris dari permainan
Jeopardy! Ken Jennings kalah dari IBM Watson. Watson mampu menangani petunjuk dan permainan kata-kata. "Saya menyambut munculnya tuan komputer baru kami," tulis Jennings di bawah jawaban terakhirnya.
Tampaknya Watson memiliki keterampilan kantor yang mirip dengan apa yang digunakan orang untuk menyelesaikan banyak masalah kehidupan nyata. Dia bisa merasakan input dalam bahasa Inggris, memproses dokumen yang terkait dengannya dalam sekejap mata, mengambil potongan informasi yang terhubung dan memilih satu jawaban terbaik. Namun tujuh tahun kemudian, kenyataan terus menimbulkan hambatan kompleks bagi AI.
Laporan kesehatan Stat September menunjukkan bahwa ahli waris Watson, seorang spesialis dalam penelitian kanker dan pedoman perawatan pribadi untuk Watson untuk Onkologi, mengalami masalah.
"Pertanyaan dalam game Jeopardy! Lebih mudah ditangani, karena tidak perlu akal sehat, ”tulis Bengio, yang bekerja dengan tim Watson, dalam menanggapi permintaan untuk membandingkan dua kasus dalam hal AI. “Memahami artikel medis jauh lebih sulit. Diperlukan sejumlah besar penelitian dasar. ”
Tetapi meskipun gim tersebut memiliki spesialisasi yang sempit, gim ini menyerupai beberapa tugas nyata. Para peneliti dari DeepMind tidak ingin menjawab pertanyaan wawancara, menunjukkan bahwa pekerjaan mereka pada AlphaZero saat ini sedang dipelajari oleh para ahli independen. Tetapi tim menyarankan bahwa teknologi tersebut dapat segera membantu peneliti biomedis yang ingin memahami pelipatan protein.
Untuk melakukan ini, mereka perlu memahami bagaimana berbagai asam amino yang membentuk protein
menekuk dan melipat menjadi mesin tiga dimensi kecil, yang fungsinya tergantung pada bentuknya. Kompleksitas ini mirip dengan kompleksitas catur: ahli kimia tahu hukum pada tingkat tertentu sehingga mereka dapat secara kasar menghitung skenario tertentu, tetapi ada begitu banyak konfigurasi yang memungkinkan Anda tidak akan dapat mencari semua opsi yang mungkin. Tetapi bagaimana jika protein lipat adalah permainan? Dan ini sudah dilakukan. Sejak 2008, ratusan ribu orang telah mencoba game online
Foldit , di mana pengguna diberikan poin untuk stabilitas dan realitas struktur protein yang telah mereka gulirkan. Sebuah mesin dapat berlatih dengan cara yang sama, mungkin mencoba melampaui pencapaian terbaik sebelumnya dengan pelatihan penguatan.
Memperkuat pembelajaran dan bermain dengan diri sendiri dapat membantu melatih sistem interaktif, saran Saskaver. Ini dapat memberikan robot yang perlu berbicara dengan orang-orang kesempatan untuk melatih ini saat berbicara dengan diri mereka sendiri. Mengingat bahwa peralatan khusus untuk AI menjadi lebih cepat dan lebih terjangkau, para insinyur mendapatkan lebih banyak insentif untuk merancang tugas dalam bentuk permainan. "Saya pikir di masa depan, pentingnya bermain dengan diri sendiri dan cara lain untuk mengonsumsi sejumlah besar daya komputasi akan meningkat," kata Satskever.
Tetapi jika tujuan akhir dari mesin adalah untuk mengatur pengulangan segala sesuatu yang seseorang mampu, maka bahkan juara umum dalam permainan papan seperti AlphaZero masih memiliki ruang untuk tumbuh. "Saya perlu memperhatikan, setidaknya untuk saya, pada kesenjangan besar antara pemikiran nyata, eksplorasi ide kreatif dan kemampuan AI saat ini," kata
John Tenenbaum , seorang ilmuwan kognitif di MTI.
"Kecerdasan seperti itu ada, tetapi sejauh ini hanya dalam pikiran para peneliti AI yang hebat."Banyak peneliti lain, merasakan hype di sekitar daerah mereka, menawarkan kriteria mereka sendiri. “Saya akan merekomendasikan untuk tidak melebih-lebihkan pentingnya game ini, untuk AI atau untuk tugas tujuan umum. Orang-orang tidak pandai memainkan permainan, ”kata Francois Cholet, seorang peneliti pembelajaran mendalam di Google. "Tetapi perlu diingat bahwa alat yang sangat sederhana dan khusus dapat mencapai banyak hal."