
Desember lalu, ada
gelombang berita tentang kekuatan luar biasa dari mesin catur baru menggunakan perusahaan intelijen buatan AlphaZero DeepMind. Hari ini mereka merilis hasil yang luar biasa untuk versi terbaru dari mesin ini.
Hasilnya sekali lagi meninggalkan keraguan bahwa AlphaZero adalah salah satu mesin catur terkuat di dunia.
Diperbarui AlphaZero mengalahkan Stockfish 8 dalam pertandingan baru dengan 1000 pertandingan dengan hasil: 155 kemenangan, 6 kerugian, 839 seri.
AlphaZero juga mengungguli Stockfish dalam serangkaian permainan dengan kontrol waktu yang tidak sama, mengalahkan mesin tradisional bahkan dengan handicap 10 kali.
Menurut DeepMind, dalam pertandingan tambahan, AlphaZero baru melampaui "versi pengembangan terbaru" dari Stockfish pada 13 Januari 2018, menunjukkan hasil yang hampir sama, seperti dalam pertandingan melawan Stockfish 8.
Menurut DeepMind, mesin pembelajaran mesin mereka juga memenangkan semua pertandingan melawan "varian Stockfish, yang menggunakan buku debut yang kuat." Menambahkan buku debut tampaknya membantu Stockfish, yang akhirnya memenangkan sejumlah besar permainan ketika AlphaZero bermain hitam, tetapi tidak cukup untuk memenangkan pertandingan.
Hasilnya diterbitkan
dalam sebuah artikel di jurnal Science dan disediakan oleh
media catur yang dipilih.
Pertandingan 1000 pertandingan diadakan pada awal 2018. Dalam pertandingan itu, AlphaZero dan Stockfish diberi waktu tiga jam dari setiap pertandingan ditambah keuntungan 15 detik per giliran. Kontrol waktu ini kemungkinan akan membuat usang salah satu argumen terbesar terhadap hasil pertandingan tahun lalu, yaitu bahwa pada 2017, kontrol waktu selama satu menit per giliran adalah keuntungan yang kuat bagi AlphaZero.
Dengan tiga jam plus peningkatan 15 detik, argumen seperti itu tidak masuk akal, karena ini adalah waktu bermain yang sangat besar untuk mesin catur mana pun. Dalam game dengan waktu yang tidak sama, AlphaZero mendominasi bahkan dengan rasio waktu 10 banding 1. Stockfish baru mulai menang dengan rasio 30 banding 1.
Hasil AlphaZero dalam permainan dengan waktu yang tidak sama menunjukkan bahwa itu tidak hanya lebih kuat dari mesin catur tradisional, tetapi juga menggunakan pencarian bergerak yang jauh lebih efisien. Menurut DeepMind, AlphaZero menggunakan pencarian pohon Monte Carlo dan mempelajari sekitar 60.000 posisi per detik, dibandingkan dengan 60 juta untuk Stockfish.
AlphaZero memindahkan ilustrasi algoritma pencarian. Gambar DeepMind dari sebuah artikel di Science.Menurut artikel itu, algoritma AlphaZero yang diperbarui identik dalam tiga game kompleks: catur, shogi, dan go. Versi AlphaZero ini mampu mengalahkan mesin komputer terbaik dari ketiga gim setelah berjam-jam berlatih mandiri, dimulai dengan aturan gim yang sederhana.
DeepMind telah merilis 210 game dari pertandingan, yang dapat Anda unduh di
sini .
Versi baru AlphaZero telah melatih diri untuk bermain catur, dimulai dengan aturan main, menggunakan metode pembelajaran mesin untuk terus memperbarui jaringan sarafnya. Menurut DeepMind, 5.000 TPU (prosesor tensor Google, sirkuit terintegrasi khusus untuk AI) digunakan untuk menghasilkan set game pertama untuk bermain independen, dan kemudian 16 TPU digunakan untuk melatih jaringan saraf.
Total waktu pelatihan dalam catur membutuhkan sembilan jam dari awal. Menurut DeepMind, AlphaZero baru hanya membutuhkan empat jam pelatihan untuk melampaui Stockfish; dalam sembilan jam, dia jauh di depan juara catur dunia.
Untuk permainannya sendiri, Stockfish menggunakan 44 prosesor, sementara AlphaZero menggunakan satu mesin dengan empat TPU dan 44 inti prosesor.
AlphaZero vs Stockfish menghasilkan debutnya yang paling populer. Di sebelah kiri, AlphaZero memainkan putih; di sebelah kanan - hitam.DeepMind sendiri mencatat gaya permainan yang unik dari program mereka di artikel:
"Dalam beberapa permainan, AlphaZero mengorbankan potongan demi keuntungan strategis jangka panjang, menunjukkan bahwa ia memiliki peringkat posisi yang lebih kontekstual daripada peringkat berdasarkan aturan yang digunakan dalam program catur sebelumnya," kata peneliti DeepMind.
AI juga menekankan pentingnya menggunakan versi AlphaZero yang sama dalam tiga game berbeda, menggembar-gemborkannya sebagai terobosan dalam kecerdasan game secara keseluruhan:
"Hasil ini membawa kita lebih dekat untuk memenuhi ambisi lama dari kecerdasan buatan: sistem permainan umum yang dapat belajar untuk menguasai permainan apa pun," kata peneliti DeepMind.