Le jeu "rock-paper-ciseaux" est idéal pour décider qui devra sortir la poubelle. Mais avez-vous remarqué ce qui se passe quand, au lieu de trois coups, le jeu se poursuit tour après tour? D'abord, vous choisissez un principe qui vous donne un avantage, mais ensuite l'adversaire le comprend rapidement et se tourne en sa faveur. Dans le processus de changement de stratégie, vous atteignez progressivement un point où aucune des parties ne peut continuer à s'améliorer. Pourquoi cela se produit-il?
Dans les années 1950, le mathématicien John Nash a prouvé que dans tout type de jeu avec un nombre fini de joueurs et un nombre fini d'options (comme des «ciseaux à papier»), il existe toujours un mélange de stratégies dans lesquelles aucun joueur ne peut afficher de meilleurs résultats en changeant. seulement votre propre stratégie. La théorie de tels ensembles stables de stratégies, appelée «
équilibres de Nash », a révolutionné le domaine de la théorie des jeux, changé la direction du développement économique et les façons d'étudier et d'analyser tout, des contrats politiques au trafic réseau. Elle a également permis à Nash de recevoir
le prix Nobel de 1994 .
Alors, à quoi ressemble l'équilibre de Nash dans un jeu de ciseaux à papier? Simulons une situation dans laquelle vous (le joueur A) et votre adversaire (le joueur B) jouez le jeu encore et encore. À chaque tour, le gagnant gagne un point, le perdant perd un point et un match nul compte pour zéro point.
Supposons que le joueur B ait choisi une stratégie de sélection (stupide) à chaque tour de papier. Après quelques tours de victoires, de pertes et de nuls, vous remarquerez très probablement son système et développerez une contre-stratégie gagnante, en choisissant des ciseaux à chaque tour. Appelons cet ensemble de stratégies (ciseaux, papier). Si chaque tour aboutit à des ciseaux contre du papier, vous ouvrirez la voie à une victoire idéale.
Mais le joueur B remarque bientôt la prévoyance de cet ensemble de stratégies. Quand il voit que vous choisissez des ciseaux, il passe à une stratégie de choix constant d'une pierre. Cet ensemble de stratégies (ciseaux, pierre) commence à gagner pour le joueur B. Mais, bien sûr, vous allez maintenant passer au papier. Tout au long de ces étapes du jeu, les joueurs A et B utilisent des stratégies dites «propres» - les seules stratégies constamment sélectionnées et mises en œuvre.
Évidemment, l'équilibre ne peut pas être atteint ici: pour chaque stratégie pure, par exemple, «toujours choisir une pierre», vous pouvez développer une contre-stratégie, par exemple, «toujours choisir un papier», ce qui vous fera changer de stratégie à nouveau. Vous et votre adversaire vous poursuivrez constamment dans le cercle des stratégies.
Mais vous pouvez également essayer une stratégie «mixte». Supposons qu'au lieu de choisir une stratégie, vous pouvez sélectionner au hasard l'une des stratégies pures à chaque tour. Au lieu de «toujours choisir une pierre», une stratégie mixte peut ressembler à «dans la moitié des cas, choisissez une pierre, dans l'autre moitié, choisissez des ciseaux». Nash a prouvé que lorsque de telles stratégies mixtes sont acceptables, il devrait y avoir au moins un point d'équilibre dans chaque match. Trouvons-la.
Quelle est une stratégie mixte raisonnable pour les «ciseaux à papier»? Il semble intuitivement raisonnable de "choisir une pierre, du papier ou des ciseaux avec une probabilité égale". Une telle stratégie s'écrit
. Cela signifie que la pierre, les ciseaux et le papier sont sélectionnés avec probabilité
. Cette stratégie est-elle bonne?
Supposons que la stratégie de votre adversaire consiste à «toujours choisir une pierre». Il s'agit d'une pure stratégie, qui peut être décrite comme
. Quels seront les résultats du jeu lors du recrutement de stratégies
pour le joueur A et
pour le joueur B?
Pour obtenir une image plus claire du jeu, nous allons construire un tableau dans lequel les probabilités de chacun des neuf résultats possibles de chaque tour seront affichées: une pierre en A, une pierre en B; pierre en A, papier en B; et ainsi de suite. Dans le tableau ci-dessous, la ligne supérieure indique la sélection du joueur B et la colonne de gauche indique la sélection du joueur A.
A | B | À | B | N |
À | | 0 | 0 |
B | | 0 | 0 |
N | | 0 | 0 |
Chaque élément du tableau indique la probabilité d'une paire d'options sélectionnées pour chaque tour. C'est simplement un produit des probabilités que chaque joueur fasse le choix approprié. Par exemple, la probabilité que le joueur A choisisse du papier est égale à
, et la probabilité que le joueur B choisisse une pierre est 1, c'est-à-dire que la probabilité (une pierre en A, une pierre en B) est
. Mais la probabilité (papier en A, ciseaux en B) est égale
, car la probabilité que le joueur B choisisse des ciseaux est nulle.
Comment le joueur A fera-t-il ses preuves dans son ensemble de stratégies? Le joueur A gagnera un tiers du temps (papier, pierre), perdra un tiers du temps (ciseaux, pierre) et un tiers du temps sera un match nul (pierre, pierre). Nous pouvons calculer le nombre de points que le joueur A recevra en moyenne à chaque tour en calculant la somme du produit de chaque résultat par la probabilité correspondante:
Ainsi, en moyenne, le joueur A recevra 0 point par tour. Vous gagnerez, perdrez et tirerez avec une probabilité égale. En moyenne, le nombre de victoires et de défaites s'équilibrera et, en fait, les deux joueurs arriveront à égalité.
Mais comme nous l'avons déjà dit, vous pouvez améliorer vos résultats en modifiant votre stratégie, en supposant que l'ennemi ne changera pas sa stratégie. Si vous passez à la stratégie (0,1,0) («choisissez du papier à chaque fois»), le tableau de probabilité ressemblera à ceci:
À chaque tour, vous envelopperez la pierre d'un adversaire dans votre papier et obtiendrez un point pour chaque tour.
Autrement dit, cette paire de stratégies -
pour A et
pour B, ce n'est pas un équilibre de Nash: vous, en tant que joueur A, pouvez améliorer vos résultats en modifiant votre stratégie.
Comme nous l'avons vu, les stratégies pures ne semblent pas conduire à l'équilibre. Mais que se passe-t-il si votre adversaire essaie d'utiliser une stratégie mixte, par exemple
? Telle est la stratégie «dans la moitié des cas, choisissez une pierre; le papier et les ciseaux obtiennent un quart des cas. " Voici à quoi ressemblera la table de probabilité:
A | B | À | B | N |
À | | | |
B | | | |
N | | | |
Et voici un tableau des "récompenses" du point de vue du joueur A; c'est le nombre de points obtenus par le joueur A dans chacun des résultats.
En utilisant la multiplication, nous combinons les deux tableaux pour calculer le nombre moyen de points obtenus par le joueur A pour chaque tour.
En moyenne, le joueur A gagne à nouveau 0 point par tour. Comme précédemment, cet ensemble de stratégies,
pour A et
pour B, résultant en un match nul.
Mais comme auparavant, vous, en tant que joueur A, pouvez améliorer vos résultats en modifiant la stratégie: contre la stratégie du joueur B
Le joueur A doit choisir
. Voici le tableau des probabilités:
A | B | À | B | N |
À | | | |
B | | | |
N | | | |
et voici le résultat final pour A:
Autrement dit, cet ensemble de stratégies -
pour A et
pour B - donne le joueur moyen A par
points par tour. Après 100 matchs, le joueur A sera en avance de 6,25 points. Le joueur A est fortement incité à changer de stratégie. C'est un ensemble de stratégies
pour A et
car B n'est pas non plus un équilibre de Nash.
Mais maintenant, regardons quelques stratégies
pour A et
pour B. Voici le tableau de probabilité correspondant:
A | B | À | B | N |
À | | | |
B | | | |
N | | | |
Grâce à la symétrie, nous pouvons calculer rapidement le résultat global:
Et encore une fois, vous et votre adversaire êtes venus à égalité. Mais la différence ici, c'est qu'aucun des joueurs n'est incité à changer de stratégie! Si le joueur B passait à une stratégie déséquilibrée, où un choix - disons, une pierre - était choisi plus souvent que les autres, alors le joueur A changerait simplement sa stratégie et choisirait le papier plus souvent. Au final, cela conduirait à un résultat global positif pour le joueur A à chaque tour. C'est exactement ce qui se passe lorsque le joueur A choisit une stratégie
contre la stratégie du joueur B
.
Bien sûr, si le joueur A quitte
à une stratégie déséquilibrée, le joueur B pourra également en profiter. Par conséquent, aucun des joueurs ne peut améliorer ses résultats uniquement en modifiant sa propre stratégie. Le jeu a atteint l'équilibre de Nash.
Prouvé par Nash, le fait que de tels jeux aient des équilibres similaires est très important pour plusieurs raisons. L'une des raisons est que de nombreuses situations de la vie réelle peuvent être modélisées comme des jeux. Lorsqu'un groupe de personnes est obligé de choisir entre des avantages personnels et collectifs - par exemple, dans des négociations ou dans un processus de concurrence pour des ressources communes - vous pouvez voir que des stratégies sont utilisées et que les gains sont évalués. Le travail de Nash a eu un si grand impact, grâce en partie à la nature omniprésente de ce modèle mathématique.
Une autre raison est que l'équilibre de Nash, dans un sens, est un résultat positif pour tous les joueurs. Lorsque cet équilibre est atteint, aucun des joueurs ne peut améliorer ses résultats en modifiant sa propre stratégie. Il peut y avoir des résultats collectifs qui peuvent être obtenus lorsque tous les joueurs agissent en parfaite coopération, mais si vous ne pouvez vous contrôler que vous-même, l'équilibre de Nash sera le meilleur des résultats que vous pouvez obtenir.
Par conséquent, nous pouvons espérer que des «jeux» comme des packages d'incitations économiques, des codes fiscaux, des conditions contractuelles et des conceptions de réseaux conduiront à des équilibres Nash dans lesquels les individus agissant dans leur propre intérêt aboutiront à un résultat qui convient à tout le monde et les systèmes deviendront stables. Mais en jouant à de tels jeux, est-il raisonnable de supposer que les joueurs parviennent naturellement à l'équilibre de Nash?
Il y a une tentation de le penser. Dans notre jeu de "ciseaux à papier", nous pouvions immédiatement deviner qu'aucun des joueurs ne pouvait mieux jouer, sauf en jouant par hasard. Mais cela se produit en partie parce que les préférences de tous les joueurs sont connues de tous les autres joueurs: tout le monde sait combien chacun gagnera et perdra avec chacun des résultats. Mais que se passe-t-il si les préférences sont plus cachées et complexes?
Imaginez un nouveau jeu dans lequel le joueur B obtient trois points lorsqu'il gagne contre les ciseaux et un point pour toute autre victoire. Cela changera la stratégie mixte: le joueur B choisira souvent la pierre, espérant une triple récompense lorsque le joueur A sélectionne les ciseaux. Et bien que la différence de points n'affecte pas directement les récompenses du joueur A, le changement de stratégie du joueur B qui en résulte conduira à une nouvelle contre-stratégie A.
Et si chacune des récompenses du joueur B est différente et cachée, alors le joueur A aura besoin de temps pour comprendre la stratégie du joueur B.Il doit y avoir plusieurs tours avant que le joueur A devine, disons combien de fois le joueur B choisit une pierre à comprendre combien de fois il a besoin de choisir du papier.
Imaginez maintenant que 100 personnes jouent aux ciseaux à papier de roche, et chacun d'eux a un ensemble différent de récompenses secrètes, dont chacune dépend du nombre de leurs 99 adversaires qu'ils gagnent avec une pierre, des ciseaux ou du papier. Combien de temps faudra-t-il pour calculer la bonne fréquence pour choisir la pierre, les ciseaux ou le papier nécessaires pour atteindre le point d'équilibre? Très probablement, beaucoup. Peut-être plus que le jeu lui-même ne durera. Peut-être plus long que la durée de vie de l'univers lui-même!
À tout le moins, il n'est pas du tout évident que même des joueurs absolument rationnels et réfléchis qui choisissent de bonnes stratégies et agissent dans leur propre intérêt parviendront à un équilibre dans le jeu. Cette idée sous-tend un
article publié en ligne en 2016 . Cela prouve qu'il n'y a pas de solution générale qui dans tous les jeux pourrait conduire à au moins un équilibre Nash approximatif. Cela ne veut pas dire que les joueurs idéaux ne recherchent jamais l'équilibre dans les jeux - souvent, ils s'efforcent vraiment. Cela signifie simplement qu'il n'y a aucune raison de croire que si des joueurs parfaits jouent le jeu, l'équilibre sera atteint.
Lorsque nous développons un réseau de transport, nous pouvons espérer que tous les acteurs, c'est-à-dire les conducteurs et les piétons, chacun cherchant à trouver le chemin le plus rapide vers la maison, atteignent collectivement un équilibre dans lequel rien ne peut être gagné en choisissant un itinéraire différent. Nous pouvons espérer que la main invisible de John Nash les guidera de telle manière que leurs intérêts concurrentiels et communs - en choisissant l'itinéraire le plus court possible tout en évitant les embouteillages - créeront un équilibre.
Mais notre jeu de pierre-papier-ciseaux avec une complexité toujours croissante montre que de tels espoirs peuvent ne pas se réaliser. Une main invisible peut même contrôler certains de ces jeux, mais d'autres jeux lui résistent, attirant les joueurs dans le piège d'une compétition sans fin pour une victoire qui est constamment hors de portée.
Exercices
- Supposons que le joueur B joue avec une stratégie mixte . Quelle stratégie mixte A devrait-il choisir pour maximiser le montant de ses gains à long terme?
- Supposons que le joueur B joue avec une stratégie mixte . Quelle stratégie mixte A devrait-il choisir pour maximiser le montant de ses gains à long terme?
- Comment la dynamique du jeu peut-elle changer si chaque joueur obtient un point pour une égalité?