Program DeepStack Poker Mengalahkan Profesional Satu lawan Satu
Pohon keputusan DeepStack dalam permainan head-up (satu lawan satu) pra-gagal dan gagal tanpa batas hold'emPelopor teori permainan modern John von Neumann mengatakan: "Kehidupan nyata adalah tentang menggertak, tipu muslihat kecil penipuan, memikirkan tindakan apa yang diharapkan orang lain darimu. Inilah yang diwakili oleh game dalam teoriku β(kutipan dari seri ke-13 dari seri dokumenterβ The Exaltation of Humanity β).Dengan kata lain, John von Neumann meramalkan bahwa untuk menciptakan AI yang kuat, komputer harus belajar bermain game dengan informasi yang tidak lengkap yang paling cocok dengan perilaku manusia dalam kehidupan nyata. Game seperti poker.Permainan papan adalah bidang eksperimen tradisional di bidang kecerdasan buatan. Setiap tahun, AI mengalahkan seseorang dalam game yang berbeda. Pertama, catur menyerah, lalu catur, lalu video game Atari, game terakhir jatuh. Tapi semua ini adalah game dengan informasi lengkap, di mana semua pemain memiliki informasi lengkap tentang kondisi permainan. Poker adalah masalah yang sama sekali berbeda.Para ilmuwan telah lama berusaha mengembangkan sebuah program yang dapat mengalahkan seseorang di Texas Holdem tanpa batas. Tidak seperti aplikasi lain dari AI yang lemah, pengembangan yang sukses akan menghasilkan langsung di sini, karena miliaran dolar dapat dimenangkan di kamar poker online setiap hari.John von Neumann mengatakan bahwa poker menyenangkan dia, dan ini tidak mengejutkan, mengingat fitur unik dari game ini dengan informasi yang tidak lengkap. Setiap pemain hanya memiliki sebagian informasi tentang keadaan permainan - dan ia bertindak berdasarkan informasi parsial ini, serta mengevaluasi tindakan pemain lain.AI sebelumnya dicari sukses hanya ketika bermain Batas Hold'em, versi yang paling primitif dari permainan dengan langkah terbatas menaikkan suku. Dalam versi terbatas, pemain hanya memiliki 10 14 opsi pengembangan. Sebagai perbandingan, dalam hold'em tak terbatas sudah ada 10 160 opsi seperti itu . Ngomong-ngomong, ada 10.170 opsi pengembangan dalam gim , tetapi ada gim dengan informasi lengkap, yaitu tugas yang pada dasarnya lebih sederhana.Gim dengan informasi yang tidak lengkap membutuhkan tingkat pemikiran rekursif yang jauh lebih kompleks daripada gim dengan informasi yang lengkap. Di sini tindakan AI yang benar tergantung, antara lain, pada informasi yang diterima AI dari tindakan lawan. Tetapi informasi yang diberikan lawan, pada gilirannya, adalah fungsi turunan dari tindakan AI sebelumnya dan informasi yang diberikan AI kepada lawan dengan tindakannya. Ini adalah pemikiran rekursif yang berhubungan dengan DeepStack. Dan dia berhasil dengan sangat baik, dilihat dari hasil pertandingan dengan para profesional (lihat tabel).
Hasil utama dengan pemain profesionalArsitektur program DeepStack ditunjukkan dalam ilustrasi. Program mengevaluasi kembali tindakannya pada setiap tahap ketika sebuah keputusan diperlukan darinya. Untuk menghitung nilai setiap taruhan, pohon lookahead digunakan, nilai yang disorot dihitung menggunakan jaringan saraf yang sebelumnya dilatih dalam situasi permainan acak.
Struktur jaringan saraf menunjukkan bahwa ukuran pot, kartu terbuka, dan rentang pemain (kemungkinan kombinasi yang dengannya pemain dapat memasuki permainan dengan cara dia memasukkannya (panggilan, naikkan, 3 taruhan, dll.) Disajikan di pintu masuk, probabilitas setiap kombinasi). Jaringan saraf terdiri dari tujuh lapisan tersembunyi yang terhubung sepenuhnya. Nilai output kemudian diproses oleh jaringan saraf lain, yang memverifikasi bahwa tindakan memenuhi batas jumlah nol.
Fitur dari program ini adalah bahwa ia secara aktif menolak analisis strateginya oleh lawan. Dengan kata lain, program ini menggunakan kesetimbangan Nash , sebuah konsep kunci dalam teori permainan. Ekuilibrium Nash mengacu pada serangkaian strategi yang tidak ada peserta yang dapat meningkatkan kemenangan mereka dengan mengubah strategi mereka jika peserta lain dalam strategi mereka tidak berubah. Dari sudut pandang permainan poker antagonistik, tugas utama DeepStack adalah menemukan keseimbangan Nash, yaitu, meminimalkan kemungkinan mengeksploitasi strateginya oleh pemain lain untuk membuatnya untung. Benar-benar semua program poker yang dikembangkan sejauh ini mudah dieksploitasi setelah menguji strategi mereka menggunakan teknik LBR (respons lokal terbaik) - lihat terbaruGambaran dari bot poker terbaru .Jadi, DeepStack sama sekali tidak dieksploitasi menggunakan LBR. Bersama dengan hasil nyata yang ditunjukkan bot dalam permainan dengan profesional, hanya ada satu pertanyaan: mengapa pengembang mempublikasikan informasi tentang arsitektur ini dalam domain publik?Karya ilmiah ini diterbitkan pada 6 Januari 2017 di situs arXiv.org, di mana artikel diletakkan sebelum dipublikasikan dalam jurnal resmi.Tim pengembangan dipimpin oleh profesor ilmu komputer Michael Bowling dari University of Alberta (USA).
Tim Pengembangan DeepStackDepartemen Poker Bots di Universitas Alberta (Computer Poker Research Group) diciptakan kembali pada tahun 90-an, bot pertama yang dibuat di sini adalahLoki pada tahun 1997. Kemudian ada Poki (1999), PsOpti / Sparbot (2002), Vexbot (2003), Hyperborean (2006), Polaris (2007), Hyperborean No-Limit (2007), Hyperborean Ring (2009), Cepheus (2015), dan akhirnya , mahkota penciptaan - DeepStack.Dalam waktu dekat, program DeepStack akan diuji dalam game dengan profesional yang lebih berpengalaman, yang levelnya jauh lebih tinggi daripada orang-orang dari tabel di awal artikel. Mulai akhir pekan ini, program akan bermain di turnamen di Pittsburgh Casinodi mana beberapa profesional kelas dunia diharapkan tiba. Dalam 20 hari, DeepStack harus bermain sekitar 120.000 tangan. Ini cukup untuk menilai kualitas program dengan cukup akurat.Sampai saat ini, DeepStack telah memainkan 44.852 tangan melawan sukarelawan profesional yang dipilih oleh Federasi Poker Internasional. Para pemain menerima hadiah uang tunai untuk permainan yang bagus (hadiah pertama sebesar $ 5.000 CAD), sehingga orang-orang bermain dengan kekuatan penuh. Namun demikian, program ini dalam nilai tambah yang baik.
Source: https://habr.com/ru/post/id400709/
All Articles