Menang dan menang: AI memenangkan turnamen poker melawan empat pro



Kecerdasan buatan (bentuknya yang lemah), yang dikembangkan oleh perwakilan Sekolah Tinggi Informatika Universitas Carnegie Mellon, mengungguli empat pemain poker profesional. Ini adalah turnamen Texas Hold'em di Rivers Casino di Pittsburgh. Ini adalah salah satu jenis poker yang paling populer. Selama turnamen, sekitar 120 ribu tangan dimainkan. AI mengambil bank dengan $ 1,7 juta.

Para penulis program ini adalah Thomas Sandholm dan Noam Brown. Menurut pengembang, poker adalah permainan yang pesertanya tidak tahu kartu apa yang dimiliki orang lain. Untuk alasan ini, menghitung sesuatu sangat sulit. Jimmy Chu, salah satu peserta di turnamen, mengeluh bahwa ia dan rekan-rekannya meremehkan kemampuan Libratus: β€œBot bermain lebih baik setiap hari. Dia sepertinya versi kita yang lebih terampil. ”

Turnamen tersebut disebut " Otak vs. Kecerdasan Buatan: Mengangkat Ante ." Itu dimulai pada 11 Januari. Ada lima peserta. Salah satunya adalah bot Libratus. Empat lainnya adalah Jimmy Choo, Dong Kim, Jason Les, dan Daniel McAulay. Total durasi turnamen adalah 20 hari. Keempat orang ini dianggap sebagai pemain terbaik di poker jenis ini di dunia.

Menurut pengembang, memenangkan program poker mereka adalah salah satu pencapaian terbesar di bidang kecerdasan buatan.


Sayangnya, penulis sistem Libratus tidak mengungkapkan fitur-fitur kerjanya. Prinsip operasi algoritma hanya diketahui secara umum. Namun demikian, dalam waktu dekat, rincian teknis akan diungkapkan dalam publikasi dalam jurnal ilmiah yang ditinjau sejawat.

Pengembang mengklaim bahwa Libratus terdiri dari tiga bagian. Ini adalah inti utama, sistem yang melacak kesalahan yang dibuat oleh saingan dan bagian yang melacak kelemahan itu sendiri. Selama permainan, bagian ketiga membantu meningkatkan kemampuan program, serta meningkatkan kinerja dua bagian pertama. Libratus telah belajar untuk menggertak dan mengenali tebing dari lawan. Total waktu perhitungan adalah sekitar 15 juta jam inti.

Yang paling menarik adalah bahwa algoritma Libratus tidak "diasah" khusus untuk poker atau game lainnya. Program harus, dengan menggunakan sumber daya internal, mengembangkan gaya permainannya sendiri. Dan pekerjaan ini didasarkan pada informasi yang awalnya diberikan oleh pengembang - aturan poker.

Adapun uang hadiah, peserta turnamen akan mendapatkan $ 200.000 - jumlah ini akan dibagi antara semua pemain manusia sesuai dengan hasil yang mereka terima. Pengembang tidak akan membawa pulang uang. Semua ini disepakati sebelumnya, dan hal utama bagi para ilmuwan yang menciptakan sistem adalah bukti efektivitasnya. Menurut staf Carnegie Mellon , kapabilitas Libratus dapat digunakan untuk keamanan siber, dalam negosiasi, dan untuk tujuan militer.



Secara umum, setiap tahun kecerdasan buatan mengalahkan seseorang semua game baru yang sebelumnya dianggap tidak dapat diakses oleh komputer. Awalnya, ini adalah catur, lalu - catur, video game, pergi dan sekarang - poker. Selain itu, menarik bahwa dalam semua kasus sebelumnya semua peserta memiliki informasi lengkap tentang jalannya permainan - Anda dapat melihat lapangan permainan dan semua chip / angka. Dalam kasus terakhir, informasinya tidak lengkap, poker dalam hal ini berbeda.

AI sebelumnya bermain poker, tetapi mereka berhasil menang hanya dalam versi paling sederhana dari permainan - dalam batas hold'em dengan langkah terbatas menaikkan suku. Tetapi dalam poker tanpa batas, semuanya jauh lebih rumit. Di sini Anda perlu bertindak berdasarkan informasi tentang kartu Anda sendiri, dan data tentang tindakan lawan. Selain itu, lawan bisa menggertak, yang semakin memperumit tugas.

Dalam hold'em tanpa batas, platform perangkat lunak lain - DeepStack - juga menunjukkan hasil yang sangat baik. Ini dikembangkan di University of Alberta, dan karyawan universitas, kelompok riset khusus, telah menciptakan bot poker sejak tahun 90-an abad lalu. Bot pertama yang dibuat di sini adalah Loki pada tahun 1997. Kemudian ada Poki (1999), PsOpti / Sparbot (2002), Vexbot (2003), Hyperborean (2006), Polaris (2007), Hyperborean No-Limit (2007), Hyperborean Ring (2009), Cepheus (2015), dan akhirnya , mahkota penciptaan - DeepStack.

Cukup banyak yang diketahui tentang kemampuan teknis dari program ini, karena pengembang menerbitkan informasi tentang hal itu pada awal Januari tahun ini. DeepStack menggunakan kesetimbangan Nash. Ini adalah nama dari serangkaian strategi yang berbeda, di mana tidak ada pemain yang dapat meningkatkan kemenangan mereka jika terjadi perubahan strategi, jika peserta lain dalam permainan tidak mengubah strategi. Plus, DeepStack menangkal upaya untuk menggunakan strateginya sendiri oleh pemain lain.

Source: https://habr.com/ru/post/id401137/


All Articles