Satu langkah raksasa untuk mesin catur

Keberhasilan luar biasa dari AlphaZero, sebuah algoritma pembelajaran yang mendalam, mengantarkan pada era pemikiran baru yang mungkin terbukti berumur pendek bagi manusia.




Pada awal Desember, para peneliti di DeepMind, sebuah perusahaan intelijen buatan yang dimiliki oleh Alphabet Inc., sebuah perusahaan induk yang juga memiliki Google, berbicara tentang apa yang terjadi di garis depan catur.

Setahun sebelumnya, pada 5 Desember 2017, tim memasuki dunia catur dengan mengumumkan algoritma pembelajaran mesin AlphaZero (MO), yang berhasil menguasai tidak hanya catur biasa, tetapi juga catur shogi Jepang dan permainan go . Algoritme mulai bekerja tanpa konsep permainan apa pun, kecuali untuk aturan dasar. Kemudian dia mulai bermain dengan dirinya sendiri beberapa juta kali dan belajar dari kesalahannya. Hanya dalam beberapa jam, algoritma menjadi pemain terbaik, baik di antara orang-orang maupun komputer, dari semua yang dilihat dunia.

Rincian pencapaian AlphaZero dan struktur internalnya saat ini sedang menjalani tinjauan formal, setelah itu mereka akan diterbitkan dalam jurnal Science . Pekerjaan baru menanggapi kritik serius terhadap pernyataan asli. Sebagai contoh, sulit untuk mengatakan apakah AlphaZero benar-benar bermain jujur ​​dengan lawannya, monster Stockster yang komputasi. Tetapi semua keraguan ini dihilangkan. Selama 12 bulan terakhir, AlphaZero tidak menjadi lebih kuat, tetapi telah menjadi bukti yang lebih meyakinkan tentang keunggulannya. Dia jelas mewakili semacam pikiran yang belum pernah terjadi sebelumnya oleh orang-orang yang harus kita pikirkan sejak lama.

Selama 20 tahun terakhir, catur komputer telah banyak berkembang. Pada tahun 1997, program catur komputer IBM, Deep Blue, berhasil mengalahkan juara dunia pria, Garry Kasparov, dalam pertandingan enam pertandingan. Melihat ke belakang, kita dapat mengatakan bahwa tidak ada misteri dalam pencapaian ini. Deep Blue dapat memperkirakan 200 juta posisi per detik. Dia tidak pernah lelah, tidak pernah melakukan kesalahan dan tidak pernah melupakan apa yang dia pikirkan sesaat sebelumnya.

Dengan satu atau lain cara, dia bermain seperti mesin, secara brutal dan materialistis. Dia bisa berpikir lebih baik daripada Kasparov, tetapi tidak bisa berpikir lebih baik darinya. Dalam pertandingan pertama pertandingan mereka, Deep Blue diperkirakan menerima pertukaran benteng untuk uskup yang diusulkan oleh Kasparov, tetapi kehilangan 16 gerakan kemudian. Generasi sekarang dari program catur terkuat di dunia, misalnya, Stockfish dan Komodo, tidak bermain secara manusiawi. Mereka suka mengambil tokoh orang lain. Mereka sedang membangun perisai besi. Tetapi meskipun mereka bermain lebih kuat dari siapa pun, mesin catur ini tidak memiliki gagasan tentang permainan. Mereka perlu diajari prinsip-prinsip dasar catur.

Prinsip-prinsip ini, diasah oleh pengalaman grandmaster manusia selama puluhan tahun, diprogram ke dalam mesin dalam bentuk fungsi evaluasi yang kompleks, yang mencatat apa yang perlu dicapai dalam posisi dan apa yang harus dihindari: seberapa banyak Anda perlu menilai keselamatan raja, aktivitas bidak, penempatan pion, kendali atas pusat papan, dan sebagainya, dan bagaimana mengelola pertukaran antara hal-hal ini. Mesin catur saat ini, yang semua asasnya asing, berperilaku seperti binatang kasar: mereka sangat cepat dan kuat, tetapi mereka tidak punya otak.

Tetapi semua ini telah berubah sejak munculnya MO. Bermain sendiri, dan memperbarui jaringan saraf mereka sambil belajar dari pengalaman, AlphaZero sendiri menemukan prinsip-prinsip catur dan dengan cepat menjadi pemain terbaik. Tidak hanya dia bisa dengan mudah mengalahkan master di antara orang-orang, dia mengalahkan Stockfish, juara catur di komputer. Dalam pertandingan untuk seratus pertandingan melawan mesin yang mengesankan, AlphaZero menang 28 kali dan 72 kali memperkecil hasil imbang tanpa kehilangan satu pun.

Dan hal yang paling tidak menyenangkan adalah AlphaZero menunjukkan pemikiran. Dia bermain tidak seperti komputer mana pun, secara intuitif dan indah, dengan gaya menyerang yang romantis. Dia bermain taruhan dan mengambil risiko. Dalam beberapa permainan, dia melumpuhkan Stockfish dan bermain dengannya. Melakukan serangan di game ke - 10 , AlphaZero mundur ratu ke sudut papan, jauh dari Raja Stockfish, berperilaku dengan cara yang berbeda dari serangan terhadap raja.

Namun, retret aneh ini ternyata beracun. Tidak peduli bagaimana stockfish menjawab, dia dikutuk. Seolah-olah AlphaZero sedang menunggu Stockfish untuk mencari tahu bagaimana posisinya yang tidak ada harapan, setelah miliaran kombinasi percobaan, untuk bersantai dan menyerah dengan damai seperti banteng yang jatuh di depan matador. Grandmaster tidak pernah melihat yang seperti ini. AlphaZero bermain dengan keanggunan seorang virtuoso dan kekuatan mesin. Itu adalah perkenalan sepintas lalu dengan jenis kecerdasan baru yang menakjubkan.


Garry Kasparov, kiri, bermain melawan komputer IBM Deep Blue di game keenam dan terakhir pertandingan, yang diadakan di New York pada Mei 1997. Angka-angka di belakang komputer digerakkan oleh Joseph Joan, seorang insinyur IBM.

Ketika pencipta pertama kali memperkenalkan AlphaZero, beberapa pengamat mengeluh bahwa Stockfish telah kehilangan akses ke set debutnya. Kali ini, bahkan dengan peralatannya sendiri, dia dikalahkan. Dan bahkan ketika AlphaZero memberi Stockfish keunggulan awal dalam bentuk peningkatan sepuluh kali lipat dalam waktu penyelesaian, dia masih mengalahkannya.

Sangat mengesankan bahwa AlphaZero menang dengan berpikir tidak lebih cepat, tetapi lebih baik; dia belajar hanya 60 ribu posisi per detik, dan bukan 60 juta, seperti Stockfish. Dia lebih pintar, tahu apa yang harus dipikirkan dan diabaikan. Setelah secara independen menemukan prinsip-prinsip catur, AlphaZero mengembangkan gaya permainan yang "mencerminkan kebenaran" permainan, daripada "prioritas dan bias programmer," tulis Kasparov dalam komentar yang menyertai artikel di Science.

Sekarang pertanyaannya adalah apakah MO dapat membantu orang menemukan kebenaran yang sama tentang hal-hal yang benar-benar penting: masalah besar sains dan kedokteran, seperti obat kanker atau kesadaran; misteri sistem kekebalan tubuh, rahasia genom.

Tanda-tanda pertama sangat menginspirasi. Pada bulan Agustus, dua artikel dalam jurnal Nature Medicine meneliti masalah penerapan MO untuk diagnosis medis. Dalam satu, peneliti di DeepMind berkolaborasi dengan dokter di Rumah Sakit Mata Murfield di London untuk mengembangkan algoritma pembelajaran mendalam yang dapat mengklasifikasikan berbagai patologi retina serta ahli manusia. Dalam oftalmologi, ada kekurangan serius dari para ahli yang dapat menafsirkan jutaan gambar mata diagnostik yang diperoleh setiap tahun; Asisten AI akan sangat berharga.

Artikel lain meneliti algoritma MO yang mengakui adanya gambar tomografi terkomputasi dari pasien dengan ambulans, tanda-tanda stroke, perdarahan intrakranial, atau masalah neurologis lainnya. Setiap menit diperhitungkan untuk korban stroke; semakin lama pengobatan ditunda, semakin buruk hasilnya. Ahli saraf bahkan mengatakan: "Waktu adalah otak." Algoritme baru menandai ini dan peristiwa penting lainnya dengan akurasi yang sebanding dengan pakar manusia, tetapi bekerja 150 kali lebih cepat. Diagnostik berkecepatan tinggi akan memungkinkan Anda untuk menerjemahkan kasus yang paling mendesak di depan antrian, setelah itu mereka dapat dievaluasi oleh ahli radiologi manusia.

Mengganggu dalam MO adalah bahwa algoritma tidak dapat menjelaskan pemikiran mereka. Kami tidak tahu mengapa mereka bekerja, jadi kami tidak tahu apakah mereka bisa dipercaya. AlphaZero menunjukkan semua tanda-tanda penemuan prinsip-prinsip penting permainan catur, tetapi tidak dapat berbagi pemahaman ini dengan kami. Setidaknya belum. Orang membutuhkan lebih dari jawaban. Kami membutuhkan pemahaman. Mulai sekarang, masalah ini akan menjadi sumber ketegangan dalam interaksi kita dengan komputer.

Padahal, dalam matematika ini sudah lama terjadi. Pertimbangkan masalah matematika lama yang disebut teorema empat warna . Dia mengklaim bahwa di bawah batasan wajar tertentu, peta negara mana pun yang bersentuhan dapat dicat dengan empat warna sehingga setiap negara tetangga memiliki warna yang berbeda.

Meskipun teorema itu dibuktikan pada tahun 1977 menggunakan komputer, tidak seorang pun dapat memverifikasi semua langkah pembuktian. Sejak itu, buktinya telah dikonfirmasi dan disederhanakan, tetapi masih berisi bagian-bagian yang membutuhkan perhitungan dengan pencarian lengkap, seperti yang digunakan oleh para pendahulu AlphaZero bermain catur. Keadaan ini telah membuat marah banyak ahli matematika. Mereka tidak perlu diyakinkan tentang kebenaran teorema; mereka sudah mempercayainya. Mereka ingin memahami mengapa itu benar, dan bukti seperti itu tidak membantu.

Tapi bayangkan hari itu akan datang, mungkin segera, ketika AlphaZero akan berubah menjadi algoritma yang lebih umum; sebut saja AlphaInfinity. Seperti leluhurnya, ia akan memiliki pikiran yang superior: ia akan dapat menghasilkan bukti yang sangat baik, seanggun permainan yang dimainkan AlphaZero melawan Stockfish. Dan setiap bukti akan menunjukkan mengapa teorema itu benar; AlphaInfinity tidak akan memaksa Anda untuk menerima bukti buruk dan rumit.

Bagi matematikawan dan ilmuwan, hari seperti itu akan menandai awal era pemikiran baru. Tapi itu bisa berumur pendek. Mobil yang lebih cepat menjadi, menyalip orang-orang yang neuron-neuronnya beroperasi pada kecepatan kura-kura dalam skala milidetik, semakin cepat harinya akan datang ketika kita tidak akan mengikutinya. Fajar pemikiran manusia dapat dengan cepat berubah menjadi matahari terbenam.

Misalkan ada pola tertentu yang belum ditemukan - dalam pengaturan gen atau perkembangan kanker; dalam fungsi sistem kekebalan tubuh; dalam tarian partikel subatomik. Misalkan pola-pola ini hanya dapat diprediksi oleh intelek yang jauh lebih unggul dari kita. Jika AlphaInfinity dapat mendefinisikan dan memahaminya, akan terasa bagi kami ramalan.

Kami akan duduk di kakinya dan mendengarkan dengan seksama. Kami tidak akan mengerti mengapa ramalan itu selalu benar, tetapi kami bisa memeriksa perhitungan dan ramalannya dalam eksperimen dan pengamatan dan mengonfirmasi wahyu-wahyu itu. Dalam sains, pekerjaan simbolis orang, peran kita akan direduksi menjadi peran pengamat, melihat apa yang terjadi dengan takjub dan kebingungan.

Mungkin suatu hari kelangkaan pemikiran kita tidak lagi mengganggu kita. Bagaimanapun, AlphaInfinity dapat menyembuhkan semua penyakit, menyelesaikan semua masalah ilmiah dan membuat semua kereta cerdas lainnya berjalan sesuai jadwal. Kami melakukan pekerjaan dengan baik tanpa banyak berpikir 300.000 tahun pertama keberadaan kami sebagai Homo sapiens. Kita tidak akan memiliki masalah ingatan, kita akan bangga mengingat era emas dari pikiran manusia, selingan yang mulia ini berlangsung beberapa milenium, antara masa lalu yang tidak dapat dipahami dan masa depan yang tidak bisa dijelaskan.

Source: https://habr.com/ru/post/id436598/


All Articles