O Dilema dos Prisioneiros

Dois prisioneiros foram presos. Eles devem trair ou cooperar?

\"\"

Dois prisioneiros foram presos. Eles devem trair ou cooperar?

O Dilema dos Prisioneiros é um dos jogos mais famosos no mundo da Teoria dos Jogos — apresenta a história de dois prisioneiros e o dilema entre trair e cooperar. Na prática, esse jogo representa várias situações da vida cotidiana ou corporativa em que, embora a colaboração entre os prisioneiros (jogadores, pessoas) proporcione resultados melhores, individualmente a melhor escolha é trair, prejudicando a todos.1 

Resumidamente, a história é a seguinte: dois suspeitos, A e B, são presos pela polícia. Como não existem provas suficientes para condená-los, eles são presos em celas diferentes e é oferecido a ambos o mesmo acordo:

  • Se um deles confessar o crime (ou seja, trair o comparsa) e o outro permanecer em silêncio, quem confessou sai livre enquanto o cúmplice silencioso cumpre dez anos.
  • Se ambos ficarem em silêncio (colaborarem um com ou outro), a polícia só pode condenar cada um dos suspeitos a um ano de prisão.
  • Se ambos confessarem (traírem o comparsa), cada um ficará cinco anos na cadeia.

Cada prisioneiro toma a decisão sem saber da escolha do outro — eles não podem conversar. Como os prisioneiros vão reagir? Existe alguma decisão racional a tomar? Qual seria a sua decisão?

Uma forma esquemática para mostrar uma interação humana, ou seja, um jogo, é usar uma matriz de resultados. Embora o enunciado do problema seja simples e intuitivo, a representação gráfica nos oferece grande ajuda para visualizar o cenário completo e entender as opções de cada jogador e suas respectivas implicações.2

\"\"
FIG 1 – MATRIZ DE RESULTADOS DO DILEMA DOS PRISIONEIROS

Nesta figura você visualiza as opções de cada prisioneiro e o resultado de cada combinação de ações. Para cada célula, os valores à direita referem-se ao Prisioneiro A e os da esquerda, ao Prisioneiro B. Estão descritas também as penas de cada um. Neste cenário, quanto menor o valor da pena, melhor para os prisioneiros.

Lembremos que eles não podem combinar o que fazer (estão em celas isoladas e sem comunicação) e devem escolher simultaneamente. Cada jogador quer ficar preso o menor tempo possível, ou seja, maximizar seu resultado individual. Qual é a melhor decisão?

Resolvendo o jogo

Considerando os incentivos do jogo (os valores das penas de prisão para cada combinação de decisões na matriz), existe uma única decisão racional a tomar, que parece ser contrária à intuição: Trair. A explicação é a seguinte: imagine que você é o Prisioneiro A. Assim, deve considerar duas hipóteses:

HIPÓTESE 1: Suponha que o Prisioneiro B escolha Colaborar. Então, se você escolher Colaborar, pega um ano de prisão. Se escolher Trair, você sai livre. Nesse caso, Trair é a melhor opção.

\"\"
FIG 2 – MELHOR OPÇÃO CASO PRISIONEIRO B COLABORE

HIPÓTESE 2: Suponha que o Prisioneiro B escolha Trair. Então, se você escolher Colaborar, leva dez anos de prisão. Se escolher Trair, fica com cinco anos. Nesse caso, Trair é a melhor opção.

\"\"
FIG 3 – MELHOR OPÇÃO CASO PRISIONEIRO B TRAIA

Perceba que Trair é a melhor opção em ambos os casos. Em outras palavras, Trair é a melhor opção, independentemente da decisão do outro.

Agora, imagine o que o Prisioneiro B está pensando. Se ele é racional como você, provavelmente pensa a mesma coisa.

  • Ele supõe que você vai escolher Colaborar. Então, se ele escolher Colaborar, leva 1 ano de prisão. Se escolher Trair, sai livre. Nesse caso, Trair é a melhor opção.
  • Ele supõe que você vai escolher Trair. Então, se ele escolher Colaborar, leva dez anos de prisão. Se escolher Trair, fica com cinco anos de prisão. Nesse caso, Trair é a melhor opção.

De novo, perceba que Trair é a melhor opção em ambas situações.

Em Teoria dos Jogos, chamamos a estratégia Trair de estratégia dominante, ou seja, aquela que apresenta o melhor resultado, independentemente da decisão do outro jogador. Quando, em certo jogo, devido ao esquema de incentivos (a matriz de resultados), você não precisa se preocupar com a decisão alheia porque existe uma opção melhor, independente do seu competidor, então você deve escolher a estratégia dominante.

Nesse exemplo dos prisioneiros, como ambos vão escolher Trair, devido à estratégia dominante, cada um ficará preso por cinco anos. Assim, dizemos que Trair-Trair é a solução de equilíbrio, equilíbrio do jogo ou Equilíbrio de Nash. O Equilíbrio de Nash é a solução (combinação de decisões) em que nenhum jogador pode melhorar seu resultado com uma ação unilateral. Ou seja, dado que Trair-Trair é a solução de equilíbrio (o resultado racional do jogo), se o Prisioneiro A mudar unilateralmente para Colaborar, ele sai perdendo (dez anos); o mesmo ocorre com o Prisioneiro B.3 

O dilema: a escolha individual não é o melhor para ambos

O grande problema no Dilema dos Prisioneiros é que o equilíbrio (Trair-Trair) não é o melhor resultado, pois existe um outro possível e bem melhor: se ambos escolherem Colaborar (ficar em silêncio), cada um ficaria apenas um ano na prisão. Por isso, dizemos que o Dilema dos Prisioneiros resulta em um equilíbrio ineficiente, pois o esquema de incentivos e a racionalidade induzem a um resultado pior.

Você poderia imaginar que esse equilíbrio só ocorre porque as pessoas não podem conversar e combinar as ações; se pudessem fazer um acordo prévio, tudo se resolveria. Isso não é necessariamente verdade. Você quer colaborar (ficar em silêncio), mas quem garante que o seu parceiro fará o mesmo? Quanto você confia no outro jogador?

Imagine que você é um bandido e combina previamente com seu comparsa que, se forem pegos, não vão trair um ao outro. Então você é preso, sua vida está em jogo e você quer manter sua palavra. Seu comparsa sabe isso. Então, o que garante que, no último instante, ele não vai te trair, justamente sabendo que você vai colaborar? Para ele é simples: ele sai livre e você pega dez anos de prisão… Mas então já é tarde.

Provavelmente o seu comparsa pensará da mesma forma a seu respeito. Ele pode realmente confiar em você? Por isso, o Dilema dos Prisioneiros se torna, na verdade, um dilema de confiança. Como resolver essa questão? Você verá mais adiante, mas antes vamos mostrar mais alguns exemplos desse dilema.

Mas não é só combinar o jogo?

Escuto essa pergunta frequentemente. Afinal, basta combinar a cooperação e pronto. Existe um jogo que faço em palestras para provar que não é simples assim. Geralmente eu chamo um voluntário que ainda desconhece a dinâmica do Dilema dos Prisioneiros e mostro o seguinte esquema de incentivos.

\"\"
FIG 4 – OUTRO FORMATO DE DILEMA DOS PRISIONEIROS

Explico que os números representam pontos, mas poderiam ser dinheiro ou balas. O objetivo é conseguir o maior valor possível, mas vamos jogar apenas uma vez. Forneço um tipo de cartão com as duas opções (Esquerda ou Direita) e peço que ambos (eu e o voluntário) mostremos os cartões para a plateia simultaneamente. Não podemos combinar, conversar nem ver a opção do outro previamente. Note que não existe a palavra “colaborar” ou “trair” no jogo, mas, com um olhar atento às pontuações, dá para entender qual é qual.

Não surpreendentemente, o voluntário geralmente escolhe Esquerda, pensando conquistar 3 pontos, pois parece ser razoável para todos. E eu, de propósito, escolho Direita, ganho 5 pontos e o voluntário, zero. Imediatamente aparece uma frustração no rosto dele. “Por que ele fez isso?”, ele se pergunta. Eu respondo que o jogo é claro: conquistar a maior pontuação. Eu consegui, não há nada de errado nisso. Arrisquei e ganhei.

Então lhe proponho uma nova jogada. O voluntário se anima, escolhe Esquerda de novo e eu o “traio” mais uma vez, jogando Direita. Daí o voluntário fica bravo. Eu faço a soma das duas rodadas e, ironicamente, esbanjo “inteligência”.

Finalmente eu digo: “Vamos combinar de escolher Esquerda/Esquerda?”. O voluntário parece confiar, eu retomo a credibilidade, e jogamos mais uma vez. Apresentamos os cartões de novo, e eu… Novamente escolho Direita (traio!). Ganho 5 pontos mais uma vez e ele, zero! Não cumpri minha palavra, certo? Ora, isso é um jogo, e o objetivo claro é ganhar mais pontos.

Proponho mais uma rodada. Sabe o que acontece? O voluntário começa a trair, e eu também, e ninguém mais ganha muitos pontos. Perdemos a confiança um no outro, mas ganhei vários pontos nas primeiras jogadas. Tudo isso foi de propósito para reforçar alguns insights.

Primeiro, o esquema de incentivos (as pontuações) induz mais à traição do que à cooperação, mesmo que a cooperação forneça melhores resultados para ambos desde o início. Segundo, a confiança é desacreditada após a primeira traição. Mesmo que se diga “Vamos combinar de colaborar”, é difícil acreditar, pois é tentador trair para ganhar mais. Não há garantias.

O Dilema dos Prisioneiros na prática: a guerra de preços

O conflito típico dos jogos da categoria Dilema dos Prisioneiros é aquele em que cada jogador escolhe sua estratégia dominante e o resultado do jogo é pior para o grupo como um todo — é o conflito entre o interesse individual e o coletivo. Na prática, esse jogo-modelo é uma das metáforas mais poderosas da ciência do comportamento humano, pois inúmeras interações sociais e econômicas têm a mesma estrutura de incentivos (a matriz de resultados).

Imagine uma cidade com apenas dois postos de gasolina. Você é dono de um deles, chamado GASOIL, que fica ao lado do posto do seu concorrente, o AUTOGAS. Devido à proximidade dos dois, quando uma pessoa precisa abastecer o carro, ela vai até eles, confere os preços e escolhe o menor. Embora existam outras características que diferenciam os postos, como a cordialidade e a velocidade dos frentistas, considere por um momento que o preço é o fator mais relevante.

Assim, se o critério é preço, alguns centavos a menos podem induzir parte dos clientes a preferir o posto que cobra o menor valor. Por exemplo, quem abaixar o preço em 5% ganha cerca de 30% dos clientes do concorrente. Esse aumento de volume de clientes compensa o preço reduzido, melhorando a rentabilidade, enquanto o outro perde faturamento. Por isso, você pensa: “Que tal abaixar o preço do litro de $3 para $2,90?”. Isso fará com que os habituais clientes do AUTOGAS (concorrente) passem a abastecer no GASOIL (o seu posto).

A vida empresarial seria mais fácil se as decisões fossem assim, isoladas. Entretanto, como o seu concorrente vai reagir? Ao notar que você abaixou o preço e ele perdeu clientes, ele também vai abaixar o preço para $2,90. Como resultado, os dois postos terão preço igual ($2,90 no lugar de $3) e o mesmo volume de clientes, como antes, mas ambas as empresas perdem faturamento e lucro. Essa é a essência da guerra de preços, que prejudica o negócio dos dois postos.

Suponha que vocês tomem a decisão simultaneamente. Se hoje é domingo, vocês vão decidir o preço da segunda-feira. Durante o dia não é possível alterar o preço, mas apenas de um dia para outro. Vocês não se conversam e não sabem qual preço o outro vai adotar. Você ficará sabendo apenas no dia seguinte, e qualquer arrependimento será tarde demais — você terá de esperar pelo menos um dia inteiro para tomar qualquer providência, isto é, até o dia seguinte.

Considerando essa dinâmica de mercado com clientes sensíveis ao preço, os dois postos têm incentivos para abaixar o preço e ganhar mais momentaneamente. Entretanto, se os dois o fizerem, ambos saem perdendo. Assim, preventivamente, você conversa com o dono do AUTOGAS, e vocês combinam de não abaixar os preços. Ele concorda, mas você vai dormir com a dúvida: será que posso confiar nele? Se ele abaixar o preço à noite, você perderá toda a clientela do dia seguinte. Você está num dilema — o dilema da confiança, ou Dilema dos Prisioneiros.

Embora seja intuitivo, podemos representar, a seguir, a matriz de resultados dos postos de gasolina. Em cada célula (combinação de escolhas), o valor da esquerda refere-se aos ganhos do GASOIL, e o valor da direita aos ganhos do AUTOGAS. O valor em si é meramente ilustrativo, mas a proporção entre eles é relevante para a decisão.

\"\"
FIG 5 – GUERRA DE PREÇO COMO DILEMA DOS PRISIONEIROS

Se ambos colaborarem (manterem o preço original), os dois ganham $50 por dia. Se um deles abaixar o preço, recebe $60, enquanto o que mantém recebe apenas $30. Já se ambos reduzirem o preço, o resultado para cada um será $40, pois significa abaixar o preço sem aumentar o volume de clientes. De acordo com a metodologia de análise no Dilema dos Prisioneiros, reduzir-reduzir é o ponto de equilíbrio ($40, $40), pois abaixar o preço é a estratégia dominante em cada um, resultando em valor pior se comparado àquele inicial.

Eles caíram na armadilha, e muitos chamam essas situações de dilema social — o interesse individual e a análise estritamente matemática e racional induzem a resultados piores do que opções que consideram o interesse coletivo. Como já foi mencionado, é difícil sair dessa armadilha — quem vai arriscar a colaborar (manter o preço), se há chance de o outro trair (reduzir o preço) e ganhar sozinho?

Como sair desse dilema?

Como resolver o Dilema dos Prisioneiros? Como conseguir a cooperação quando os incentivos induzem as pessoas ao egoísmo e ao individualismo, mesmo sabendo que no final todos perdem? Existem duas formas: a primeira é ter um Regulador Central, e a segunda é a estratégia do Olho por Olho, Dente por Dente em jogos repetitivos, quando retaliação induz a cooperação. Leia Como induzir a cooperação. Em seguida, leia A tragédia dos comuns e outros dilemas sociais.


NOTAS:
[ 1 ] O Dilema dos Prisioneiros foi inventado em 1950 por Merrill Flood e Melvin Dresher e foi adaptado e divulgado por A. W. Tucker.
[ 2 ] Em inglês, o termo usado é “payoff matrix”. Em português, existem algumas variantes: matriz de resultados, matriz de recompensas e matriz de pagamentos.
[ 3 ] O nome Equilíbrio de Nash é devido ao seu teórico, John Nash Jr., ganhador do prêmio Nobel em 1994, que foi retratado no filme Uma mente brilhante, em 2001.

\"\"