O jogo “pedra-papel-tesoura” é ótimo para decidir quem terá que tirar o lixo. Mas você já reparou o que acontece quando, em vez de três tiros, o jogo continua rodada após rodada? Primeiro, você escolhe um princípio que lhe dê uma vantagem, mas depois o adversário o entende rapidamente e se vira a seu favor. No processo de mudança de estratégias, você chega gradualmente a um ponto em que nenhum dos lados pode continuar a melhorar. Por que isso está acontecendo?
Na década de 1950, o matemático John Nash provou que em qualquer tipo de jogo com um número finito de jogadores e um número finito de opções (como “pedra-papel-tesoura”) sempre há uma mistura de estratégias nas quais nenhum jogador pode mostrar melhores resultados mudando apenas sua própria estratégia. A teoria de tais conjuntos estáveis de estratégias, denominada "
equilíbrios de Nash "
, revolucionou o campo da teoria dos jogos, mudou a direção do desenvolvimento econômico e as maneiras de estudar e analisar tudo, de contratos políticos a tráfego de rede. Ela também permitiu que Nash recebesse
o Prêmio Nobel de 1994 .
Então, como é o equilíbrio de Nash em um jogo de pedra-papel-tesoura? Vamos simular uma situação em que você (Jogador A) e seu oponente (Jogador B) estão jogando o jogo repetidamente. Em cada rodada, o vencedor ganha um ponto, o perdedor perde um ponto e um empate conta como zero pontos.
Suponha que o Jogador B tenha escolhido uma estratégia de seleção (estúpida) em cada rodada de papel. Após algumas rodadas de vitórias, derrotas e empates, você provavelmente notará o sistema dele e desenvolverá uma contra-estratégia vencedora, escolhendo tesouras em cada rodada. Vamos chamar esse conjunto de estratégias (tesoura, papel). Se cada rodada resultar em tesoura contra papel, você abrirá o caminho para uma vitória ideal.
Mas o Jogador B logo percebe a previsão deste conjunto de estratégias. Quando ele vê que você está escolhendo uma tesoura, ele muda para uma estratégia de escolher constantemente uma pedra. Esse conjunto de estratégias (tesoura, pedra) começa a ganhar para o jogador B. Mas, é claro, agora você irá para o papel. Durante esses estágios do jogo, os jogadores A e B usam o que é chamado de estratégias "limpas" - as únicas estratégias que são constantemente selecionadas e implementadas.
Obviamente, o equilíbrio não pode ser alcançado aqui: para cada estratégia pura, por exemplo, “sempre escolha uma pedra”, você pode desenvolver uma contra-estratégia, por exemplo, “sempre escolha um papel”, o que fará com que você mude a estratégia novamente. Você e seu oponente se perseguirão constantemente no círculo de estratégias.
Mas você também pode tentar uma estratégia "mista". Suponha que, em vez de escolher uma estratégia, você possa selecionar aleatoriamente uma das estratégias puras em cada rodada. Em vez de “sempre escolher uma pedra”, uma estratégia mista pode parecer “na metade dos casos, escolha uma pedra, na outra metade escolha uma tesoura”. Nash provou que, quando tais estratégias mistas são aceitáveis, deve haver pelo menos um ponto de equilíbrio em cada jogo. Vamos encontrá-la.
O que é uma estratégia mista razoável para “pedra-papel-tesoura”? Parece intuitivamente razoável que seja "escolher uma pedra, papel ou tesoura com igual probabilidade". Essa estratégia é escrita como
. Isso significa que pedra, tesoura e papel são selecionados com probabilidade
. Essa estratégia é boa?
Suponha que a estratégia do seu oponente seja "sempre escolha uma pedra". Essa é uma estratégia pura, que pode ser descrita como
. Quais serão os resultados do jogo ao recrutar estratégias
para o jogador A e
para o jogador B?
Para obter uma imagem mais clara do jogo, construiremos uma tabela na qual as probabilidades de cada um dos nove resultados possíveis de cada rodada serão mostradas: uma pedra em A, uma pedra em B; pedra em A, papel em B; e assim por diante. Na tabela abaixo, a linha superior indica a seleção do Jogador B e a coluna esquerda indica a seleção do Jogador A.
A B | Para | B | N |
Para | | 0 0 | 0 0 |
B | | 0 0 | 0 0 |
N | | 0 0 | 0 0 |
Cada elemento da tabela indica a probabilidade de um par de opções selecionadas para cada rodada. É simplesmente um produto das probabilidades de que cada jogador faça a escolha apropriada. Por exemplo, a probabilidade de o jogador A escolher papel é igual a
, e a probabilidade de o jogador B escolher uma pedra é 1, ou seja, a probabilidade (uma pedra em A, uma pedra em B) é
. Mas a probabilidade (papel em A, tesoura em B) é igual
já que a probabilidade de o jogador B pegar tesoura é zero.
Como o Jogador A se provará em seu conjunto de estratégias? O jogador A ganhará um terço do tempo (papel, pedra), perderá um terço do tempo (tesoura, pedra) e um terço do tempo será empatado (pedra, pedra). Podemos calcular o número de pontos que o Jogador A receberá, em média, em cada rodada, calculando a soma do produto de cada resultado pela probabilidade correspondente:
Assim, em média, o jogador A receberá 0 pontos por rodada. Você vai ganhar, perder e empatar com igual probabilidade. Em média, o número de vitórias e derrotas se equilibrará e, de fato, os dois jogadores terão um empate.
Mas, como já dissemos, você pode melhorar seus resultados alterando sua estratégia, assumindo que o inimigo não mude sua estratégia. Se você for para a estratégia (0,1,0) ("escolha o papel sempre"), a tabela de probabilidades ficará assim:
A B | Para | B | N |
Para | 0 0 | 1 | 0 0 |
B | 0 0 | 0 0 | 0 0 |
N | 0 0 | 0 0 | 0 0 |
Em cada rodada, você enrolará a pedra de um oponente no seu papel e receberá um ponto por cada rodada.
Ou seja, esse par de estratégias -
para A e
para B, não é um equilíbrio de Nash: você, como jogador A, pode melhorar seus resultados alterando sua estratégia.
Como vimos, estratégias puras não parecem levar ao equilíbrio. Mas e se o seu oponente tentar usar uma estratégia mista, por exemplo
? Essa é a estratégia “na metade dos casos, escolha uma pedra; papel e tesoura recebem um quarto dos casos ". Aqui está a aparência da tabela de probabilidades:
A B | Para | B | N |
Para | | | |
B | | | |
N | | | |
E aqui está uma tabela de "recompensas" do ponto de vista do jogador A; este é o número de pontos obtidos pelo jogador A em cada um dos resultados.
A B | Para | B | N |
Para | 0 0 | -1 | 1 |
B | 1 | 0 0 | -1 |
N | -1 | 1 | 0 0 |
Usando a multiplicação, combinamos as duas tabelas para calcular o número médio de pontos obtidos pelo Jogador A para cada rodada.
Em média, o jogador A ganha novamente 0 pontos por rodada. Como antes, esse conjunto de estratégias,
para A e
para B, resultando em um empate.
Mas, como antes, você, como Jogador A, pode melhorar seus resultados alterando a estratégia: contra a estratégia do Jogador B
O jogador A deve escolher
. Aqui está a tabela de probabilidades:
A B | Para | B | N |
Para | | | |
B | | | |
N | | | |
e aqui está o resultado final para A:
Ou seja, esse conjunto de estratégias -
para A e
para B - dá ao jogador médio A um
pontos por rodada. Após 100 jogos, o Jogador A estará à frente em 6,25 pontos. O jogador A tem um grande incentivo para mudar de estratégia. Esse é um conjunto de estratégias
para A e
pois B também não é um equilíbrio de Nash.
Mas agora vamos analisar algumas estratégias
para A e
para B. Aqui está a tabela de probabilidades correspondente:
A B | Para | B | N |
Para | | | |
B | | | |
N | | | |
Graças à simetria, podemos calcular rapidamente o resultado geral:
E novamente você e seu oponente chegaram ao empate. Mas a diferença aqui é que nenhum dos jogadores tem incentivo para mudar de estratégia! Se o Jogador B passasse para qualquer estratégia desequilibrada, onde uma escolha - digamos, uma pedra - fosse escolhida com mais frequência do que outras, então o Jogador A mudaria sua estratégia e escolheria o papel com mais frequência. No final, isso levaria a um resultado geral positivo para o jogador A em cada rodada. É exatamente isso que acontece quando o jogador A escolhe uma estratégia
contra a estratégia do jogador B
.
Obviamente, se o Jogador A sair de
Para uma estratégia desequilibrada, o Jogador B também poderá tirar vantagem. Portanto, nenhum dos jogadores pode melhorar seus resultados apenas alterando sua própria estratégia. O jogo atingiu o equilíbrio de Nash.
Provado por Nash, o fato de tais jogos terem equilíbrios semelhantes é muito importante por várias razões. Uma das razões é que muitas situações da vida real podem ser modeladas como jogos. Quando um grupo de pessoas é forçado a escolher entre benefícios pessoais e coletivos - por exemplo, em negociações ou no processo de competição por recursos comuns - você pode ver que as estratégias são usadas e os ganhos são avaliados. O trabalho de Nash teve um impacto tão grande, em parte graças à natureza onipresente desse modelo matemático.
Outra razão é que o equilíbrio de Nash, em certo sentido, é um resultado positivo para todos os jogadores. Quando esse equilíbrio é alcançado, nenhum dos jogadores pode melhorar seus resultados alterando sua própria estratégia. Pode haver resultados coletivos que podem ser alcançados quando todos os jogadores agem em perfeita cooperação, mas se você puder se controlar, o equilíbrio de Nash será o melhor dos resultados que você pode alcançar.
Portanto, podemos esperar que "jogos", como pacotes de incentivos econômicos, códigos tributários, termos de contrato e projetos de rede, levem a equilíbrios de Nash nos quais indivíduos que agem em seus próprios interesses tenham um resultado adequado a todos e os sistemas se tornem estáveis. Mas, ao jogar esses jogos, é razoável supor que os jogadores naturalmente cheguem ao equilíbrio de Nash?
Há uma tentação de pensar assim. No nosso jogo “pedra-papel-tesoura”, podemos adivinhar imediatamente que nenhum dos jogadores poderia jogar melhor, exceto jogando por acaso. Mas, em parte, isso acontece porque as preferências de todos os jogadores são conhecidas por todos os outros jogadores: todos sabem quanto ganharão e perderão com cada um dos resultados. Mas e se as preferências forem mais ocultas e complexas?
Imagine um novo jogo no qual o jogador B ganhe três pontos quando vencer a tesoura e um ponto para qualquer outra vitória. Isso mudará a estratégia mista: o jogador B geralmente escolhe a pedra, esperando uma recompensa tripla quando o jogador A seleciona a tesoura. E embora a diferença de pontos não afete diretamente as recompensas do Jogador A, a mudança resultante na estratégia do Jogador B levará a uma nova contra-estratégia A.
E se cada uma das recompensas do Jogador B fosse diferente e oculta, o Jogador A precisaria de algum tempo para descobrir a estratégia do Jogador B. Deve haver muitas rodadas antes que o Jogador A adivinhe, digamos com que frequência o Jogador B escolhe uma pedra para entender com que frequência ele precisa escolher papel.
Agora imagine que 100 pessoas jogam pedra-papel-tesoura, e cada uma delas tem um conjunto diferente de recompensas secretas, cada uma das quais depende de quantos de seus 99 oponentes vencem com uma pedra, tesoura ou papel. Quanto tempo leva para calcular a frequência certa para escolher a pedra, tesoura ou papel necessário para atingir o ponto de equilíbrio? Muito provavelmente, muito. Talvez mais do que o próprio jogo dure. Talvez mais do que o tempo de vida do próprio universo!
No mínimo, não é de todo óbvio que mesmo jogadores absolutamente racionais e atenciosos que escolhem boas estratégias e agem em seus próprios interesses tenham um equilíbrio no jogo como resultado. Esta ideia é subjacente a um
artigo publicado online em 2016 . Isso prova que não há solução geral que em todos os jogos possa levar a pelo menos um equilíbrio aproximado de Nash. Isso não quer dizer que os jogadores ideais nunca lutem pelo equilíbrio nos jogos - geralmente eles realmente lutam. Significa apenas que não há razão para acreditar que, se jogadores perfeitos jogarem, o equilíbrio será alcançado.
Quando desenvolvemos uma rede de transporte, podemos esperar que todos os jogadores, ou seja, motoristas e pedestres, cada um dos quais procure o caminho mais rápido para casa, alcancem coletivamente um equilíbrio no qual nada pode ser conquistado escolhendo uma rota diferente. Podemos esperar que a mão invisível de John Nash os direcione de tal maneira que seus interesses competitivos e conjuntos - escolhendo a rota mais curta possível e evitando congestionamentos - criem equilíbrio.
Mas nosso jogo de pedra-papel-tesoura com complexidade cada vez maior mostra que essas esperanças podem não se tornar realidade. Uma mão invisível pode controlar alguns desses jogos, mas outros resistem, prendendo os jogadores a uma competição sem fim por uma vitória que está constantemente fora de alcance.
Exercícios
- Digamos que o jogador B esteja jogando com uma estratégia mista . Que estratégia mista A deve optar por maximizar a quantia de seus ganhos a longo prazo?
- Digamos que o jogador B esteja jogando com uma estratégia mista . Que estratégia mista A deve optar por maximizar a quantia de seus ganhos a longo prazo?
- Como a dinâmica do jogo muda se cada jogador ganha um ponto por empate?