Piedra-papel-tijera y teoría de juegos

imagen

El juego "piedra-papel-tijera" es ideal para decidir quién tendrá que sacar la basura. Pero, ¿has notado lo que sucede cuando, en lugar de tres disparos, el juego continúa ronda tras ronda? Primero, eliges un principio que te da una ventaja, pero luego el adversario lo comprende rápidamente y se vuelve a su favor. En el proceso de cambiar las estrategias, gradualmente llega a un punto en que ninguna de las partes puede continuar mejorando. ¿Por qué está pasando esto?

En la década de 1950, el matemático John Nash demostró que en cualquier tipo de juego con un número finito de jugadores y un número finito de opciones (como "piedra, papel o tijera") siempre hay una mezcla de estrategias en las que ningún jugador puede mostrar mejores resultados cambiando solo tu propia estrategia. La teoría de tales conjuntos estables de estrategias, llamados " equilibrios de Nash " , revolucionó el campo de la teoría de juegos, cambió la dirección del desarrollo económico y las formas de estudiar y analizar todo, desde los contratos políticos hasta el tráfico de red. También permitió que Nash recibiera el Premio Nobel de 1994 .

Entonces, ¿cómo se ve el equilibrio de Nash en un juego de piedra, papel o tijera? Simulemos una situación en la que usted (Jugador A) y su oponente (Jugador B) están jugando una y otra vez. En cada ronda, el ganador gana un punto, el perdedor pierde un punto y un empate cuenta como cero puntos.

Supongamos que el jugador B ha elegido una estrategia de selección (estúpida) en cada ronda de papel. Después de algunas rondas de victorias, derrotas y empates, lo más probable es que notes su sistema y desarrolles una contra-estrategia ganadora, eligiendo tijeras en cada ronda. Llamemos a este conjunto de estrategias (tijeras, papel). Si cada ronda resulta en tijeras contra papel, entonces allanarás tu camino hacia una victoria ideal.

Pero el jugador B pronto se da cuenta de la previsión de este conjunto de estrategias. Cuando ve que estás eligiendo tijeras, cambia a una estrategia de elegir constantemente una piedra. Este conjunto de estrategias (tijeras, piedra) comienza a ganar para el jugador B. Pero, por supuesto, ahora pasarás al papel. A lo largo de estas etapas del juego, los jugadores A y B utilizan lo que se llama estrategias "limpias", las únicas estrategias que se seleccionan e implementan constantemente.

Obviamente, el equilibrio no se puede lograr aquí: para cada estrategia pura, por ejemplo, "siempre elige una piedra", puedes desarrollar una contraestrategia, por ejemplo, "siempre elige un papel", que te hará cambiar la estrategia nuevamente. Usted y su oponente se perseguirán constantemente en el círculo de estrategias.

Pero también puede probar una estrategia "mixta". Suponga que en lugar de elegir una estrategia, puede seleccionar aleatoriamente una de las estrategias puras en cada ronda. En lugar de "elegir siempre una piedra", una estrategia mixta puede verse como "en la mitad de los casos, elija una piedra, en la otra mitad elija las tijeras". Nash demostró que cuando tales estrategias mixtas son aceptables, debería haber al menos un punto de equilibrio en cada juego. Encontremosla.

¿Cuál es una estrategia mixta razonable para "piedra-papel-tijera"? Parece intuitivamente razonable que sea "elegir una piedra, papel o tijera con la misma probabilidad". Dicha estrategia se escribe como ( frac13, frac13, frac13). Esto significa que la piedra, las tijeras y el papel se seleccionan con probabilidad  frac13. ¿Es buena esta estrategia?

Suponga que la estrategia de su oponente es "siempre escoger una piedra". Esta es una estrategia pura, que se puede describir como (1,0,0). ¿Cuáles serán los resultados del juego al reclutar estrategias? ( frac13, frac13, frac13)para el jugador A y (1,0,0)para el jugador B?

Para tener una idea más clara del juego, construiremos una tabla en la que se mostrarán las probabilidades de cada uno de los nueve resultados posibles de cada ronda: una piedra en A, una piedra en B; piedra en A, papel en B; Y así sucesivamente. En la tabla a continuación, la fila superior indica la selección del jugador B y la columna izquierda indica la selección del jugador A.

A | BABN
A frac130 00 0
B frac130 00 0
N frac130 00 0

Cada elemento de la tabla indica la probabilidad de un par de opciones seleccionadas para cada ronda. Es simplemente un producto de las probabilidades de que cada jugador tome la decisión adecuada. Por ejemplo, la probabilidad de que el jugador A elija papel es igual a  frac13, y la probabilidad de que el jugador B elija una piedra es 1, es decir, la probabilidad (una piedra en A, una piedra en B) es  frac13 times1= frac13. Pero la probabilidad (papel en A, tijeras en B) es igual  frac13 veces0=0, ya que la probabilidad de que el jugador B recoja las tijeras es cero.

¿Cómo se demostrará el jugador A en su conjunto de estrategias? El jugador A ganará un tercio del tiempo (papel, piedra), perderá un tercio del tiempo (tijeras, piedra) y un tercio del tiempo será un empate (piedra, piedra). Podemos calcular el número de puntos que el jugador A recibirá en promedio en cada ronda calculando la suma del producto de cada resultado por la probabilidad correspondiente:

 frac13(1)+ frac13(0)+ frac13(1)=0


Por lo tanto, en promedio, el jugador A recibirá 0 puntos por ronda. Ganarás, perderás y empatarás con la misma probabilidad. En promedio, el número de victorias y derrotas se equilibrará entre sí, y de hecho, ambos jugadores llegarán a un empate.

Pero como ya dijimos, puede mejorar sus resultados cambiando su estrategia, suponiendo que el enemigo no cambie su estrategia. Si va a la estrategia (0,1,0) ("elija papel cada vez"), la tabla de probabilidad se verá así:
A | BABN
A0 010 0
B0 00 00 0
N0 00 00 0

En cada ronda, envolverás la piedra de un oponente en tu papel y obtendrás un punto por cada ronda.

Es decir, este par de estrategias: ( frac13, frac13, frac13)para A y (1,0,0)para B, no es un equilibrio de Nash: usted, como jugador A, puede mejorar sus resultados cambiando su estrategia.

Como hemos visto, las estrategias puras no parecen conducir al equilibrio. Pero, ¿qué pasa si tu oponente intenta usar una estrategia mixta, por ejemplo ( frac12, frac14, frac14)? Esta es la estrategia “en la mitad de los casos, elija una piedra; papel y tijeras obtienen una cuarta parte de los casos ". Así se verá la tabla de probabilidad:
A | BABN
A frac16 frac112 frac112
B frac16 frac112 frac112
N frac16 frac112 frac112

Y aquí hay una tabla de "recompensas" desde el punto de vista del jugador A; Este es el número de puntos obtenidos por el jugador A en cada uno de los resultados.
A | BABN
A0 0-11
B10 0-1
N-110 0

Usando la multiplicación, combinamos las dos tablas para calcular el número promedio de puntos obtenidos por el Jugador A para cada ronda.

 frac16(0)+ frac112(1)+ frac112(1)+ frac16(1)+ frac112(0)+ frac112(1)+ frac16(1)+ frac112(1)+ frac112(0)=0


En promedio, el jugador A nuevamente gana 0 puntos por ronda. Como antes, este conjunto de estrategias, ( frac13, frac13, frac13)para A y ( frac12, frac14, frac14)para B, lo que resulta en un empate.

Pero como antes, usted, como jugador A, puede mejorar sus resultados cambiando la estrategia: en contra de la estrategia del jugador B ( frac12, frac14, frac14)El jugador A debe elegir ( frac14, frac12, frac14). Aquí está la tabla de probabilidad:

A | BABN
A frac18 frac116 frac116
B frac14 frac18 frac18
N frac18 frac116 frac116

y aquí está el resultado final para A:

 frac18(0)+ frac116(1)+ frac116(1)+ frac14(1)+ frac18(0)+ frac18(1)+ frac18(1)+ frac116(1)+ frac116(0)= frac116


Es decir, este conjunto de estrategias: ( frac14, frac12, frac14)para A y ( frac12, frac14, frac14)para B: da el jugador promedio A por  frac116puntos por ronda. Después de 100 juegos, el jugador A estará adelante por 6.25 puntos. El jugador A tiene un gran incentivo para cambiar de estrategia. Ese es un conjunto de estrategias ( frac13, frac13, frac13)para A y ( frac12, frac14, frac14)para B tampoco es un equilibrio de Nash.

Pero ahora veamos un par de estrategias ( frac13, frac13, frac13)para A y ( frac13, frac13, frac13)para B. Aquí está la tabla de probabilidad correspondiente:
A | BABN
A frac19 frac19 frac19
B frac19 frac19 frac19
N frac19 frac19 frac19

Gracias a la simetría, podemos calcular rápidamente el resultado general:

 frac19(0)+ frac19(1)+ frac19(1)+ frac19(1)+ frac19(0)+ frac19(1)+ frac19(1)+ frac19(1)+ frac19(0)=0


Y de nuevo tú y tu oponente llegaron a un empate. ¡Pero la diferencia aquí es que ninguno de los jugadores tiene un incentivo para cambiar las estrategias! Si el jugador B pasara a una estrategia desequilibrada, donde una opción, por ejemplo, una piedra, se eligiera con más frecuencia que otras, entonces el jugador A simplemente cambiaría su estrategia y elegiría el papel con más frecuencia. Al final, esto llevaría a un resultado general positivo para el jugador A en cada ronda. Esto es exactamente lo que sucede cuando el jugador A elige una estrategia ( frac14, frac12, frac14)contra la estrategia del jugador B ( frac12, frac14, frac14).

Por supuesto, si el jugador A se mueve de ( frac13, frac13, frac13)con una estrategia desequilibrada, el jugador B también podrá aprovechar. Por lo tanto, ninguno de los jugadores puede mejorar sus resultados solo cambiando su propia estrategia. El juego alcanzó el equilibrio de Nash.

Probado por Nash, el hecho de que tales juegos tengan equilibrios similares es muy importante por varias razones. Una de las razones es que muchas situaciones de la vida real se pueden modelar como juegos. Cuando un grupo de personas se ve obligado a elegir entre beneficios personales y colectivos, por ejemplo, en negociaciones o en el proceso de competencia por recursos comunes, puede ver que se utilizan estrategias y se evalúan las ganancias. El trabajo de Nash ha tenido un gran impacto, gracias en parte a la naturaleza ubicua de este modelo matemático.

Otra razón es que el equilibrio de Nash, en cierto sentido, es un resultado positivo para todos los jugadores. Cuando se alcanza este equilibrio, ninguno de los jugadores puede mejorar sus resultados cambiando su propia estrategia. Puede haber resultados colectivos que se pueden lograr cuando todos los jugadores actúan en perfecta cooperación, pero si solo puedes controlarte a ti mismo, entonces el equilibrio de Nash será el mejor de los resultados que puedes lograr.

Por lo tanto, podemos esperar que los "juegos" como los paquetes de incentivos económicos, los códigos impositivos, los términos del contrato y los diseños de red conduzcan a equilibrios de Nash en los que las personas que actúen en sus propios intereses obtendrán un resultado que se adapte a todos y los sistemas se estabilicen. Pero cuando se juegan tales juegos, ¿es razonable suponer que los jugadores llegan naturalmente al equilibrio de Nash?

Existe la tentación de pensar que sí. En nuestro juego "piedra-papel-tijera" pudimos adivinar de inmediato que ninguno de los jugadores podría jugar mejor, excepto por casualidad. Pero en parte esto sucede porque las preferencias de todos los jugadores son conocidas por todos los demás jugadores: todos saben cuánto ganarán y perderán los demás con cada uno de los resultados. Pero ¿y si las preferencias son más ocultas y complejas?

Imagine un nuevo juego en el que el Jugador B obtiene tres puntos cuando gana contra las tijeras, y un punto por cualquier otra victoria. Esto cambiará la estrategia mixta: el jugador B a menudo elegirá la piedra, esperando una recompensa triple cuando el jugador A seleccione las tijeras. Y aunque la diferencia en puntos no afecta directamente las recompensas del Jugador A, el cambio resultante en la estrategia del Jugador B conducirá a una nueva contraestrategia A.

Y si cada una de las recompensas del jugador B sería diferente y oculta, entonces el jugador A necesitaría algo de tiempo para descubrir la estrategia del jugador B. Debe haber muchas rondas antes de que el jugador A adivine, digamos con qué frecuencia el jugador B elige una piedra para entender con qué frecuencia necesita elegir papel.

Ahora imagine que 100 personas juegan piedra-papel-tijera, y cada una de ellas tiene un conjunto diferente de recompensas secretas, cada una de las cuales depende de cuántos de sus 99 oponentes ganen con una piedra, tijeras o papel. ¿Cuánto tiempo llevará calcular la frecuencia correcta para elegir la piedra, las tijeras o el papel que se necesita para alcanzar el punto de equilibrio? Lo más probable, mucho. Quizás más de lo que durará el juego en sí. ¡Quizás más tiempo que la vida del universo mismo!

Como mínimo, no es nada obvio que incluso los jugadores absolutamente racionales y reflexivos que eligen buenas estrategias y actúen en sus propios intereses llegarán a un equilibrio en el juego como resultado. Esta idea subyace en un artículo publicado en línea en 2016 . Demuestra que no hay una solución general que en todos los juegos pueda conducir al menos a un equilibrio aproximado de Nash. Esto no quiere decir que los jugadores ideales nunca luchen por el equilibrio en los juegos, a menudo realmente se esfuerzan. Simplemente significa que no hay razón para creer que si los jugadores perfectos juegan el juego, se logrará el equilibrio.

Cuando desarrollamos una red de transporte, podemos esperar que todos los jugadores, es decir, conductores y peatones, cada uno de los cuales busca encontrar el camino más rápido a casa, logren colectivamente un equilibrio en el que no se pueda ganar nada eligiendo una ruta diferente. Podemos esperar que la mano invisible de John Nash los guíe de tal manera que sus intereses competitivos y conjuntos, eligiendo la ruta más corta posible y evitando atascos, creen equilibrio.

Pero nuestro juego piedra-papel-tijera con una complejidad cada vez mayor muestra que tales esperanzas pueden no hacerse realidad. Una mano invisible puede incluso controlar algunos de estos juegos, pero otros juegos lo resisten, atrayendo a los jugadores a la trampa de la competencia sin fin por una victoria que está constantemente fuera del alcance.

Ejercicios


  1. Digamos que el jugador B está jugando con una estrategia mixta ( frac12, frac12,0). ¿Qué estrategia mixta debería elegir A para maximizar la cantidad de sus ganancias a largo plazo?
  2. Digamos que el jugador B está jugando con una estrategia mixta ( frac16, frac26, frac36). ¿Qué estrategia mixta debería elegir A para maximizar la cantidad de sus ganancias a largo plazo?
  3. ¿Cómo puede cambiar la dinámica del juego si cada jugador obtiene un punto por un empate?

Source: https://habr.com/ru/post/es411523/


All Articles