Das DeepStack Poker Programm schlägt Einzelprofis
DeepStack-Entscheidungsbaum im Heads-up-Spiel (Einzelspiel) vor dem Flop und Flop No-Limit Hold'emPionier der modernen Spieltheorie John von Neumann sagte: „Im wirklichen Leben dreht sich alles um Bluffen, kleine Tricks der Täuschung und das Überlegen, welche Aktionen zu erwarten sind eine andere Person von dir. Das ist es, was das Spiel in meiner Theorie darstellt “(Zitat aus der 13. Serie der Dokumentarserie„ Die Erhöhung der Menschheit “).Mit anderen Worten, John von Neumann sah voraus, dass ein Computer lernen muss, Spiele mit unvollständigen Informationen zu spielen, die dem menschlichen Verhalten im wirklichen Leben am ehesten entsprechen, um eine starke KI zu erzeugen. Spiele wie Poker.Brettspiele sind ein traditionelles Experimentierfeld auf dem Gebiet der künstlichen Intelligenz. Jedes Jahr besiegt die KI eine Person in verschiedenen Spielen. Zuerst ergaben sich die Kontrolleure, dann das Schachspiel, dann die Atari-Videospiele, das letzte Spiel fiel. Aber all dies sind Spiele mit vollständigen Informationen, in denen alle Spieler vollständige Informationen über den Status des Spiels haben. Poker ist eine ganz andere Sache.Wissenschaftler haben lange versucht, ein Programm zu entwickeln, das eine Person im unbegrenzten Texas Holdem schlagen könnte. Im Gegensatz zu anderen Anwendungen mit schwacher KI zahlt sich eine erfolgreiche Entwicklung hier sofort aus, da in Online-Pokerräumen jeden Tag Milliarden von Dollar gewonnen werden können.John von Neumann sagte, dass Poker ihn begeistert, und dies ist angesichts der einzigartigen Eigenschaften dieses Spiels mit unvollständigen Informationen nicht überraschend. Jeder Spieler hat nur einen Teil der Informationen über den Status des Spiels - und er handelt auf der Grundlage dieser Teilinformationen und bewertet die Aktionen anderer Spieler.Zuvor hatte AI nur dann Erfolg, wenn Limit Hold'em gespielt wurde, die primitivste Version des Spiels mit einem begrenzten Schritt beim Erhöhen von Wetten. In der limitierten Version hat der Player nur 10 14 Entwicklungsoptionen. Zum Vergleich: In Unlimited Hold'em gibt es bereits 10 160 solcher Optionen . Übrigens gibt es 10.170 Entwicklungsoptionen im Spiel , aber es gibt ein Spiel mit vollständigen Informationen, dh eine grundlegend einfachere Aufgabe.Spiele mit unvollständigen Informationen erfordern ein völlig komplexeres rekursives Denken als Spiele mit vollständigen Informationen. Hier hängt die korrekte Aktion der KI unter anderem von den Informationen ab, die die KI von den Aktionen des Gegners erhalten hat. Aber die Informationen, die der Gegner wiederum gab, sind eine abgeleitete Funktion der vorherigen KI-Aktionen und der Informationen, die die KI dem Gegner mit seinen Aktionen gegeben hat. Dies ist das rekursive Denken, mit dem sich DeepStack befasst. Und sie kommt sehr gut zurecht, gemessen an den Ergebnissen von Spielen mit Profis (siehe Tabelle).
Heads-up-Ergebnisse mit professionellen SpielernDie Architektur des DeepStack-Programms ist in der Abbildung dargestellt. Das Programm bewertet seine Maßnahmen in jeder Phase neu, wenn eine Entscheidung erforderlich ist. Um den Wert jeder Wette zu berechnen, wird ein Lookahead-Baum verwendet, dessen hervorgehobene Werte unter Verwendung eines neuronalen Netzwerks berechnet werden, das zuvor in zufälligen Spielsituationen trainiert wurde.
Die Struktur des neuronalen Netzwerks zeigt, dass die Größe des Pots, die offenen Karten und die Reichweite der Spieler (mögliche Kombinationen, mit denen der Spieler das Spiel so betreten kann, wie er es betreten hat (Call, Raise, 3-Bet usw.) am Eingang serviert werden. die Wahrscheinlichkeit jeder Kombination). Ein neuronales Netzwerk besteht aus sieben vollständig verbundenen verborgenen Schichten. Die Ausgabewerte werden dann von einem anderen neuronalen Netzwerk verarbeitet, das überprüft, ob die Aktionen die Nullsummengrenze erfüllen.
Ein Merkmal des Programms ist, dass es sich der Analyse seiner Strategie durch den Gegner aktiv widersetzt. Mit anderen Worten, das Programm verwendet das Nash-Gleichgewicht , ein Schlüsselkonzept in der Spieltheorie. Das Nash-Gleichgewicht bezieht sich auf eine Reihe von Strategien, bei denen kein Teilnehmer seinen Gewinn durch Änderung seiner Strategie erhöhen kann, wenn sich andere Teilnehmer an ihren Strategien nicht ändern. Aus der Sicht eines antagonistischen Pokerspiels besteht die Hauptaufgabe von DeepStack darin, das Nash-Gleichgewicht zu finden, dh die Möglichkeit zu minimieren, seine Strategie von einem anderen Spieler auszunutzen, um Gewinn zu erzielen. Absolut alle bisher entwickelten Pokerprogramme konnten nach dem Testen ihrer Strategie mit der LBR-Technik (Local Best-Response) problemlos genutzt werden - siehe kürzlichEine Übersicht über die neuesten Poker Bots .DeepStack wird also mit LBR nicht vollständig ausgenutzt. Zusammen mit den tatsächlichen Ergebnissen, die der Bot im Spiel mit Profis gezeigt hat, gibt es nur eine Frage: Warum haben die Entwickler Informationen über diese Architektur öffentlich veröffentlicht? Diewissenschaftliche Arbeit veröffentlicht 6. Januar 2017 bei arXiv.org, wo die Artikel vor der Veröffentlichung des Amtsblatts angelegt.Das Entwicklungsteam wird von Professor für Informatik Michael Bowling von der University of Alberta (USA) geleitet.
DeepStack-EntwicklungsteamDie Abteilung für Poker-Bots an der Universität von Alberta (Computer Poker Research Group) wurde bereits in den 90er Jahren gegründet. Der erste Bot, der hier erstellt wurde, warLoki im Jahr 1997. Dann gab es Poki (1999), PsOpti / Sparbot (2002), Vexbot (2003), Hyperborean (2006), Polaris (2007), Hyperborean No-Limit (2007), Hyperborean Ring (2009), Cepheus (2015) und schließlich , Krone der Schöpfung - DeepStack.In naher Zukunft wird das DeepStack-Programm in Spielen mit erfahreneren Profis getestet, die viel höher sind als die Jungs vom Tisch am Anfang des Artikels. Ab diesem Wochenende wird das Programm in einem Turnier im Pittsburgh Casino gespieltHier werden voraussichtlich mehrere Weltklasse-Profis eintreffen. In 20 Tagen sollte DeepStack ungefähr 120.000 Hände spielen. Dies reicht aus, um die Qualität des Programms ziemlich genau zu beurteilen.Bisher hat DeepStack 44.852 Hände gegen professionelle Freiwillige gespielt, die von der International Poker Federation ausgewählt wurden. Die Spieler erhielten Geldpreise für ein gutes Spiel (erster Preis von 5.000 CAD), sodass die Spieler mit voller Kraft spielten. Trotzdem ist das Programm ein gutes Plus.
Source: https://habr.com/ru/post/de400709/
All Articles