Stein-Papier-Schere und Spieltheorie

Bild

Das Spiel „Stein-Papier-Schere“ ist ideal, um zu entscheiden, wer den Müll rausbringen muss. Aber haben Sie bemerkt, was passiert, wenn anstelle von drei Schüssen das Spiel Runde für Runde fortgesetzt wird? Zuerst wählen Sie ein Prinzip, das Ihnen einen Vorteil verschafft, aber dann versteht der Gegner es schnell und wendet sich zu seinen Gunsten. Während Sie Ihre Strategie ändern, erreichen Sie allmählich einen Punkt, an dem sich keine Seite weiter verbessern kann. Warum passiert das?

In den 1950er Jahren hat der Mathematiker John Nash bewiesen, dass es in jeder Art von Spiel mit einer endlichen Anzahl von Spielern und einer endlichen Anzahl von Optionen (wie „Stein-Papier-Scheren“) immer eine Mischung von Strategien gibt, bei denen kein Spieler durch Ändern bessere Ergebnisse erzielen kann nur deine eigene Strategie. Die Theorie derart stabiler Strategien, die als " Nash-Gleichgewichte " bezeichnet werden, revolutionierte das Gebiet der Spieltheorie, veränderte die Richtung der wirtschaftlichen Entwicklung und die Art und Weise, alles von politischen Verträgen bis zum Netzwerkverkehr zu untersuchen und zu analysieren. Sie erlaubte Nash auch, 1994 den Nobelpreis zu erhalten .

Wie sieht Nash Balance in einem Stein-Papier-Scheren-Spiel aus? Simulieren wir eine Situation, in der Sie (Spieler A) und Ihr Gegner (Spieler B) das Spiel immer wieder spielen. In jeder Runde erhält der Gewinner einen Punkt, der Verlierer verliert einen Punkt und ein Unentschieden zählt als Nullpunkt.

Angenommen, Spieler B hat in jeder Papierrunde eine (dumme) Auswahlstrategie gewählt. Nach einigen Runden mit Siegen, Verlusten und Unentschieden werden Sie höchstwahrscheinlich sein System bemerken und eine gewinnbringende Gegenstrategie entwickeln, bei der Sie in jeder Runde eine Schere auswählen. Nennen wir diese Strategie (Schere, Papier). Wenn jede Runde zu einer Schere gegen Papier führt, ebnen Sie den Weg zu einem idealen Sieg.

Spieler B bemerkt jedoch bald die Voraussicht dieser Reihe von Strategien. Wenn er sieht, dass Sie sich für eine Schere entscheiden, wechselt er zu einer Strategie, bei der er ständig einen Stein auswählt. Diese Reihe von Strategien (Schere, Stein) beginnt für Spieler B zu gewinnen. Aber jetzt werden Sie natürlich auf Papier gehen. Während dieser Phasen des Spiels verwenden die Spieler A und B sogenannte „saubere“ Strategien - die einzigen Strategien, die ständig ausgewählt und umgesetzt werden.

Offensichtlich kann hier kein Gleichgewicht erreicht werden: Für jede reine Strategie, zum Beispiel „Immer einen Stein wählen“, können Sie eine Gegenstrategie entwickeln, zum Beispiel „Immer ein Papier wählen“, wodurch Sie die Strategie erneut ändern. Sie und Ihr Gegner werden sich im Kreis der Strategien ständig gegenseitig verfolgen.

Sie können aber auch eine „gemischte“ Strategie ausprobieren. Angenommen, anstatt eine Strategie auszuwählen, können Sie in jeder Runde zufällig eine der reinen Strategien auswählen. Anstatt „immer einen Stein wählen“, kann eine gemischte Strategie so aussehen: „Wählen Sie in der Hälfte einen Stein, in der anderen Hälfte wählen Sie eine Schere“. Nash hat bewiesen, dass es in jedem solchen Spiel mindestens einen Gleichgewichtspunkt geben sollte, wenn solche gemischten Strategien akzeptabel sind. Lass uns sie finden.

Was ist eine vernünftige gemischte Strategie für „Stein-Papier-Scheren“? Es erscheint intuitiv vernünftig, "mit gleicher Wahrscheinlichkeit einen Stein, ein Papier oder eine Schere zu wählen". Eine solche Strategie ist geschrieben als ( frac13, frac13, frac13). Dies bedeutet, dass Stein, Schere und Papier mit Wahrscheinlichkeit ausgewählt werden  frac13. Ist diese Strategie gut?

Angenommen, die Strategie Ihres Gegners lautet "Immer einen Stein auswählen". Dies ist eine reine Strategie, die als beschrieben werden kann (1,0,0). Was werden die Ergebnisse des Spiels bei der Rekrutierung von Strategien sein ( frac13, frac13, frac13)für Spieler A und (1,0,0)für Spieler B?

Um ein klareres Bild des Spiels zu erhalten, erstellen wir eine Tabelle, in der die Wahrscheinlichkeiten jedes der neun möglichen Ergebnisse jeder Runde angezeigt werden: ein Stein bei A, ein Stein bei B; Stein bei A, Papier bei B; usw. In der folgenden Tabelle gibt die obere Zeile die Auswahl von Spieler B und die linke Spalte die Auswahl von Spieler A an.

A | B.ZuB.N.
Zu frac1300
B. frac1300
N. frac1300

Jedes Element der Tabelle gibt die Wahrscheinlichkeit eines Paares ausgewählter Optionen für jede Runde an. Es ist einfach ein Produkt der Wahrscheinlichkeiten, dass jeder Spieler die richtige Wahl trifft. Zum Beispiel ist die Wahrscheinlichkeit, dass Spieler A Papier wählt, gleich  frac13und die Wahrscheinlichkeit, dass Spieler B einen Stein wählt, ist 1, dh die Wahrscheinlichkeit (ein Stein bei A, ein Stein bei B) ist  frac13 times1= frac13. Die Wahrscheinlichkeit (Papier bei A, Schere bei B) ist jedoch gleich  frac13 times0=0, da die Wahrscheinlichkeit, dass Spieler B eine Schere nimmt, Null ist.

Wie wird sich Spieler A in seinen Strategien beweisen? Spieler A gewinnt ein Drittel der Zeit (Papier, Stein), verliert ein Drittel der Zeit (Schere, Stein) und ein Drittel der Zeit ist ein Unentschieden (Stein, Stein). Wir können die Anzahl der Punkte berechnen, die Spieler A durchschnittlich in jeder Runde erhält, indem wir die Summe des Produkts jedes Ergebnisses mit der entsprechenden Wahrscheinlichkeit berechnen:

 frac13(1)+ frac13(0)+ frac13(1)=0


Somit erhält Spieler A im Durchschnitt 0 Punkte pro Runde. Sie werden mit gleicher Wahrscheinlichkeit gewinnen, verlieren und unentschieden spielen. Im Durchschnitt gleichen sich die Anzahl der Siege und Verluste aus, und tatsächlich werden beide Spieler unentschieden spielen.

Aber wie bereits gesagt, können Sie Ihre Ergebnisse verbessern, indem Sie Ihre Strategie ändern, vorausgesetzt, der Feind ändert seine Strategie nicht. Wenn Sie zur Strategie (0,1,0) wechseln („jedes Mal Papier auswählen“), sieht die Wahrscheinlichkeitstabelle folgendermaßen aus:
A | B.ZuB.N.
Zu010
B.000
N.000

In jeder Runde wickelst du den Stein eines Gegners in dein Papier und erhältst einen Punkt für jede Runde.

Das heißt, dieses Paar von Strategien - ( frac13, frac13, frac13)für A und (1,0,0)Für B ist es kein Nash-Gleichgewicht: Sie als Spieler A können Ihre Ergebnisse verbessern, indem Sie Ihre Strategie ändern.

Wie wir gesehen haben, scheinen reine Strategien nicht zum Gleichgewicht zu führen. Aber was ist, wenn Ihr Gegner zum Beispiel versucht, eine gemischte Strategie anzuwenden? ( frac12, frac14, frac14)? Dies ist die Strategie: „Wählen Sie in der Hälfte der Fälle einen Stein. Papier und Schere bekommen ein Viertel der Fälle. " So sieht die Wahrscheinlichkeitstabelle aus:
A | B.ZuB.N.
Zu frac16 frac112 frac112
B. frac16 frac112 frac112
N. frac16 frac112 frac112

Und hier ist eine Tabelle mit "Belohnungen" aus Sicht von Spieler A; Dies ist die Anzahl der Punkte, die Spieler A in jedem der Ergebnisse erhalten hat.
A | B.ZuB.N.
Zu0-11
B.10-1
N.-110

Mithilfe der Multiplikation kombinieren wir die beiden Tabellen, um die durchschnittliche Anzahl von Punkten zu berechnen, die Spieler A für jede Runde erhalten hat.

 frac16(0)+ frac112(1)+ frac112(1)+ frac16(1)+ frac112(0)+ frac112(1)+ frac16(1)+ frac112(1)+ frac112(0)=0


Im Durchschnitt erhält Spieler A erneut 0 Punkte pro Runde. Nach wie vor ist diese Reihe von Strategien, ( frac13, frac13, frac13)für A und ( frac12, frac14, frac14)für B, was zu einem Unentschieden führt.

Aber wie zuvor können Sie als Spieler A Ihre Ergebnisse verbessern, indem Sie die Strategie ändern: gegen die Strategie von Spieler B. ( frac12, frac14, frac14)Spieler A muss wählen ( frac14, frac12, frac14). Hier ist die Wahrscheinlichkeitstabelle:

A | B.ZuB.N.
Zu frac18 frac116 frac116
B. frac14 frac18 frac18
N. frac18 frac116 frac116

und hier ist das Endergebnis für A:

 frac18(0)+ frac116(1)+ frac116(1)+ frac14(1)+ frac18(0)+ frac18(1)+ frac18(1)+ frac116(1)+ frac116(0)= frac116


Das heißt, diese Reihe von Strategien - ( frac14, frac12, frac14)für A und ( frac12, frac14, frac14)für B - gibt den durchschnittlichen Spieler A durch  frac116Punkte pro Runde. Nach 100 Spielen liegt Spieler A mit 6,25 Punkten vorn. Spieler A hat einen großen Anreiz, die Strategie zu ändern. Das ist eine Reihe von Strategien ( frac13, frac13, frac13)für A und ( frac12, frac14, frac14)denn B ist auch kein Nash-Gleichgewicht.

Aber jetzt schauen wir uns ein paar Strategien an ( frac13, frac13, frac13)für A und ( frac13, frac13, frac13)für B. Hier ist die entsprechende Wahrscheinlichkeitstabelle:
A | B.ZuB.N.
Zu frac19 frac19 frac19
B. frac19 frac19 frac19
N. frac19 frac19 frac19

Dank der Symmetrie können wir das Gesamtergebnis schnell berechnen:

 frac19(0)+ frac19(1)+ frac19(1)+ frac19(1)+ frac19(0)+ frac19(1)+ frac19(1)+ frac19(1)+ frac19(0)=0


Und wieder kamen Sie und Ihr Gegner zu einem Unentschieden. Der Unterschied besteht jedoch darin, dass keiner der Spieler einen Anreiz hat, Strategien zu ändern! Wenn Spieler B zu einer unausgeglichenen Strategie übergehen würde, bei der eine Option - beispielsweise ein Stein - häufiger als andere gewählt würde, würde Spieler A einfach seine Strategie ändern und häufiger Papier wählen. Am Ende würde dies zu einem positiven Gesamtergebnis für Spieler A in jeder Runde führen. Genau das passiert, wenn Spieler A eine Strategie wählt ( frac14, frac12, frac14)gegen die Strategie von Spieler B. ( frac12, frac14, frac14).

Natürlich, wenn Spieler A abzieht ( frac13, frac13, frac13)Bei einer unausgeglichenen Strategie kann Spieler B ebenfalls davon profitieren. Daher kann keiner der Spieler seine Ergebnisse nur verbessern, indem er seine eigene Strategie ändert. Das Spiel erreichte Nashs Gleichgewicht.

Von Nash bewiesen, ist die Tatsache, dass solche Spiele ähnliche Gleichgewichte haben, aus mehreren Gründen sehr wichtig. Einer der Gründe ist, dass viele Situationen aus dem wirklichen Leben als Spiele modelliert werden können. Wenn eine Gruppe von Menschen gezwungen ist, zwischen persönlichen und kollektiven Vorteilen zu wählen - zum Beispiel in Verhandlungen oder im Wettbewerb um gemeinsame Ressourcen -, können Sie sehen, dass Strategien verwendet und Gewinne bewertet werden. Nashs Arbeit hat einen so großen Einfluss gehabt, auch dank der Allgegenwart dieses mathematischen Modells.

Ein weiterer Grund ist, dass das Nash-Gleichgewicht in gewissem Sinne ein positives Ergebnis für alle Spieler ist. Wenn dieses Gleichgewicht erreicht ist, kann keiner der Spieler seine Ergebnisse verbessern, indem er seine eigene Strategie ändert. Es kann kollektive Ergebnisse geben, die erzielt werden können, wenn alle Spieler perfekt zusammenarbeiten. Wenn Sie jedoch nur sich selbst kontrollieren können, ist das Nash-Gleichgewicht das beste Ergebnis, das Sie erzielen können.

Wir können daher hoffen, dass „Spiele“ wie wirtschaftliche Anreizpakete, Steuercodes, Vertragsbedingungen und Netzwerkdesigns zu Nash-Gleichgewichten führen, in denen Personen, die in ihrem eigenen Interesse handeln, ein Ergebnis erzielen, das für alle geeignet ist und die Systeme stabil werden. Aber wenn man solche Spiele spielt, ist es vernünftig anzunehmen, dass die Spieler natürlich zu Nashs Gleichgewicht kommen?

Es besteht die Versuchung, dies zu glauben. In unserem Spiel „Stein-Papier-Schere“ konnten wir sofort erraten, dass keiner der Spieler besser spielen konnte, außer durch Zufall. Dies geschieht jedoch teilweise, weil die Vorlieben aller Spieler allen anderen Spielern bekannt sind: Jeder weiß, wie viel jeder mit jedem der Ergebnisse gewinnt und verliert. Aber was ist, wenn Präferenzen versteckter und komplexer sind?

Stellen Sie sich ein neues Spiel vor, in dem Spieler B drei Punkte erhält, wenn er gegen die Schere gewinnt, und einen Punkt für jeden anderen Sieg. Dies ändert die gemischte Strategie: Spieler B wählt oft den Stein und hofft auf eine dreifache Belohnung, wenn Spieler A die Schere auswählt. Und obwohl der Unterschied in den Punkten die Belohnungen von Spieler A nicht direkt beeinflusst, führt die daraus resultierende Änderung der Strategie von Spieler B zu einer neuen Gegenstrategie A.

Und wenn jede der Belohnungen von Spieler B anders und verborgen wäre, würde Spieler A einige Zeit brauchen, um die Strategie von Spieler B herauszufinden. Es muss viele Runden geben, bevor Spieler A errät, sagen wir mal, wie oft Spieler B einen Stein auswählt, um ihn zu verstehen wie oft muss er Papier wählen.

Stellen Sie sich nun vor, 100 Menschen spielen Stein-Papier-Scheren und jeder von ihnen hat andere geheime Belohnungen, von denen jede davon abhängt, wie viele seiner 99 Gegner sie mit einem Stein, einer Schere oder Papier gewinnen. Wie viel Zeit wird es dauern, die richtige Frequenz für die Auswahl des Steins, der Schere oder des Papiers zu berechnen, die zum Erreichen des Gleichgewichtspunkts benötigt werden? Höchstwahrscheinlich viel. Vielleicht wird mehr als das Spiel selbst dauern. Vielleicht länger als die Lebensdauer des Universums selbst!

Zumindest ist es keineswegs offensichtlich, dass selbst absolut rationale und nachdenkliche Spieler, die gute Strategien wählen und in ihren eigenen Interessen handeln, dadurch zu einem Gleichgewicht im Spiel kommen. Diese Idee liegt einem Artikel zugrunde, der 2016 online veröffentlicht wurde . Es zeigt, dass es keine allgemeine Lösung gibt, die in allen Spielen zu mindestens einem ungefähren Nash-Gleichgewicht führen könnte. Dies bedeutet nicht, dass ideale Spieler niemals nach einem Gleichgewicht in Spielen streben - oft streben sie wirklich danach. Es bedeutet nur, dass es keinen Grund zu der Annahme gibt, dass ein Gleichgewicht erreicht wird, wenn perfekte Spieler das Spiel spielen.

Wenn wir ein Verkehrsnetz aufbauen, können wir hoffen, dass alle Spieler, dh Fahrer und Fußgänger, die jeweils den schnellsten Weg nach Hause suchen, gemeinsam ein Gleichgewicht erreichen, in dem durch die Wahl einer anderen Route nichts gewonnen werden kann. Wir können hoffen, dass die unsichtbare Hand von John Nash sie so lenken wird, dass ihre Wettbewerbs- und gemeinsamen Interessen - die Wahl der kürzestmöglichen Route unter Vermeidung von Staus - ein Gleichgewicht schaffen.

Unser Stein-Papier-Scheren-Spiel mit immer größerer Komplexität zeigt jedoch, dass solche Hoffnungen möglicherweise nicht in Erfüllung gehen. Eine unsichtbare Hand kann einige dieser Spiele kontrollieren, aber andere Spiele widersetzen sich ihr und führen die Spieler in einen endlosen Wettbewerb um einen Gewinn, der ständig unerreichbar ist.

Übungen


  1. Angenommen, Spieler B spielt mit einer gemischten Strategie ( frac12, frac12,0). Welche gemischte Strategie sollte A wählen, um die Höhe seiner Gewinne langfristig zu maximieren?
  2. Angenommen, Spieler B spielt mit einer gemischten Strategie ( frac16, frac26, frac36). Welche gemischte Strategie sollte A wählen, um die Höhe seiner Gewinne langfristig zu maximieren?
  3. Wie kann sich die Dynamik des Spiels ändern, wenn jeder Spieler einen Punkt für ein Unentschieden bekommt?

Source: https://habr.com/ru/post/de411523/


All Articles