Dilema del prisionero iterado (DPI): la estrategia «tit for tat»
0 El dilema del prisionero es un problema de la teoría de juegos, una disciplina entre la economía y la matemática. Fue formalizado y analizado por primera vez por A. W. Tucker en 1950. La enunciación más común de este problema es la siguiente:
“La policía arresta a dos sospechosos. No hay pruebas suficientes para condenarles, y tras haberles separado, les visita a cada uno y les ofrece el mismo trato: «Si confiesas y tu cómplice continúa sin hablar, él será condenado a la pena total, 10 años, y tú serás liberado. Si él confiesa y tú callas, tú recibirás esa pena y será él el que salga libre. Si ambos permanecéis callados, todo lo que podremos hacer será encerraros 6 meses por un cargo menor. Si ambos confesáis, ambos seréis condenados a 6 años.»
En este problema cada uno de los presos se ven incentivados a confesar pero, irónicamente, si ambos colaborasen saldrían más beneficiados ambos. Si un prisionero se arriesgase a callar podría verse condenado a diez años de cárcel mientras su cómplice saldría libre, aparentemente no es racional correr ese riesgo.
Otra versión del problema más interesante es el dilema del prisionero iterado. En esta situación no se produce la decisión una vez sino que se repite en el tiempo. De esta manera uno puede tomar la decisión de si traicionar o callar teniendo en cuenta las respuestas anteriores de su contrincante en el juego. Veámoslo con un ejemplo:
“Dos jugadores compiten entre sí para obtener el mayor número posible de puntos. Entre ellos no hay comunicación alguna y el número de juegos es desconocido. Tienen dos decisiones posibles: cooperar o desertar. Si un jugador coopera y otro también ambos obtienen 3 puntos; si uno coopera y otro deserta el que deserta recibe 5 y el que coopera no obtiene ninguno; finalmente si ambos desertan ambos obtiene 1 punto. En cada jugada los participantes conocen la decisión de la jugada anterior de su contrincante. En los próximos párrafos veremos cual es la estrategia a seguir más exitosa”.
Ejemplos del dilema del prisionero en la vida real:
Estos ejemplos en concreto en los que intervienen prisioneros, intercambio de puntos y cosas parecidas pueden parecer rebuscados, pero existen, de hecho, muchos ejemplos de interacciones humanas y de interacciones naturales en las que se obtiene la misma matriz de pagos. El dilema del prisionero es por ello de interés para ciencias sociales como economía, política y sociología, además de ciencias biológicas como etología y biología evolutiva.
En ciencia política, por ejemplo, el escenario del dilema del prisionero se usa a menudo para ilustrar el problema de dos estados involucrados en una carrera armamentística. Ambos razonarán que tienen dos opciones: o incrementar el gasto militar, o llegar a un acuerdo para reducir su armamento. Ninguno de los dos estados puede estar seguro de que el otro acatará el acuerdo; de este modo, ambos se inclinarán hacia la expansión militar. La ironía está en que ambos estados parecen actuar racionalmente, pero el resultado es completamente irracional.
Otro interesante ejemplo tiene que ver con un concepto conocido de las carreras en ciclismo, por ejemplo el Tour de Francia. Considérense dos ciclistas a mitad de carrera, con el pelotón a gran distancia. Los dos ciclistas trabajan a menudo conjuntamente (cooperación mutua) compartiendo la pesada carga de la posición delantera, donde no se pueden refugiar del viento. Si ninguno de los ciclistas hace un esfuerzo para permanecer delante, el pelotón les alcanzará rápidamente (deserción mutua). Un ejemplo visto a menudo es que un sólo ciclista haga todo el trabajo (coopere), manteniendo a ambos lejos del pelotón. Al final, esto llevará probablemente a una victoria del segundo ciclista (desertor) que ha tenido una carrera fácil en la estela del primer corredor.
Por último, la conclusión teórica del dilema del prisionero es una razón por la cual, en muchos países, se prohíben los acuerdos judiciales. A menudo, se aplica precisamente el escenario del dilema del prisionero: está en el interés de ambos sospechosos el confesar y testificar contra el otro prisionero/sospechoso, incluso si ambos son inocentes del supuesto crimen. Se puede decir que, el peor caso se da cuando sólo uno de ellos es culpable: no es probable que el inocente confiese, mientras que el culpable tenderá a confesar y testificar contra el inocente.
Estrategias de juego en el Dilema del Prisionero Iterado (DPI):
Robert Axelrod estudió el dilema del prisionero iterado (DPI). Aquí, como dijimos, los participantes deben escoger una y otra vez su estrategia mutua, y tienen memoria de sus encuentros previos. Axelrod invitó a compañeros académicos a lo largo del mundo a idear estrategias automatizadas para competir en un torneo de DPI. Los programas que participaron variaban ampliamente en la complejidad del algoritmo: hostilidad inicial, capacidad de perdón y similares.
Axelrod descubrió que cuando se repiten estos encuentros durante un largo periodo de tiempo con muchos jugadores, cada uno con distintas estrategias, las estrategias «egoístas» tendían a ser peores a largo plazo, mientras que las estrategias «altruistas» eran mejores, juzgándolas únicamente con respecto al interés propio. Usó esto para mostrar un posible mecanismo que explicase lo que antes había sido un difícil punto en la teoría de la evolución: ¿cómo puede evolucionar un comportamiento altruista desde mecanismos puramente egoístas en la selección natural?
Se descubrió que la mejor estrategia determinista era «Tit for Tat” («Donde las dan, las toman»). Era el más simple de todos los programas presentados y fue la que ganó el concurso. La estrategia consiste simplemente en cooperar en la primera iteración del juego, y después de eso elegir lo que tu oponente eligió la ronda anterior. Una estrategia ligeramente mejor es «Tit for Tat con capacidad de perdón». Cuando tu oponente deserta, en la siguiente ronda cooperas a veces de todos modos con él con una pequeña probabilidad (del 1% al 5%). Esto permite la recuperación ocasional de quedarse encerrado en un círculo de deserciones.
“Tit for Tat” funcionaba, mantenía Axelrod, por dos motivos. El primero es que es «amable», esto es, comienza cooperando y sólo deserta como respuesta a la deserción de otro jugador, así que nunca es el responsable de iniciar un ciclo de deserciones mutuas. El segundo es que se le puede provocar, al responder siempre a lo que hace el otro jugador. Castiga inmediatamente a otro jugador si éste deserta, pero igualmente responde adecuadamente si cooperan de nuevo. Este comportamiento claro y directo significa que el otro jugador entiende fácilmente la lógica detrás de las acciones de Tit for Tat, y puede por ello encontrar una forma de trabajar con él productivamente. No es una coincidencia que la mayoría de las estrategias que funcionaron peor en el torneo de Axelrod fueron las que no estaban diseñadas para responder a las elecciones de otros jugadores. Contra ese tipo de jugador, la mejor estrategia es desertar siempre, ya que nunca puedes asegurarte de establecer una cooperación mutua fiable.
Para el DPI, no siempre es correcto decir que una cierta estrategia es la mejor. Por ejemplo, considérese una población donde todo el mundo deserta siempre, excepto por un único individuo que sigue la estrategia “Tit for Tat”. Este individuo tiene una pequeña desventaja porque pierde la primera ronda. En una población con un cierto porcentaje de individuos que siempre desertan y otros que siguen la estrategia “Tit for Tat”, la estrategia óptima para un individuo depende del porcentaje, y de la duración del juego.
El juego del dilema del prisionero es fundamental para entender ciertas teorías de cooperación y confianza humana. En la suposición de que las transacciones entre dos personas que requieran confianza pueden ser modelizadas por el dilema del prisionero, el comportamiento cooperativo en poblaciones puede ser modelado por una versión para varios jugadores e iterada del juego. Por ello ha fascinado a muchos estudiosos a lo largo de los años.
El gallina:
Otro importante juego de suma no nula se llama «gallina». En este caso, si tu oponente deserta, te beneficias más si cooperas, y éste es tu mejor resultado. La deserción mutua es el peor resultado posible (y por ello un equilibrio inestable), mientras que en el dilema del prisionero el peor resultado posible es la cooperación mientras el otro jugador deserta (así la deserción mutua es un equilibrio estable). En ambos juegos, la «cooperación mutua» es un equilibrio inestable.
Una matriz de pagos típica sería:
Si ambos jugadores cooperan, cada uno obtiene +5.
Si uno coopera y el otro deserta, el primero obtiene +1 y el otro +10.
Si ambos desertan, cada uno obtiene -20.
Se llama «gallina» por el juego de carreras de coches. Dos jugadores corren el uno hacia el otro hacia una aparente colisión frontal: el primero en desviarse de la trayectoria es el gallina. Ambos jugadores evitan el choque (cooperan) o continúan con la trayectoria (desertan). Otro ejemplo se encuentra cuando dos granjeros usan el mismo sistema de irrigación en sus campos. El sistema puede ser mantenido adecuadamente por una persona, pero ambos granjeros se benefician de ello. Si un granjero no contribuye a su mantenimiento, sigue estando dentro del interés del otro granjero hacerlo, porque se beneficiará haga lo que haga el otro. Así, si un granjero puede establecerse como el desertor dominante —esto es, si su hábito se vuelve tan enraizado que el otro hace todo el trabajo de mantenimiento— seguramente continuará con ese comportamiento.
Fuentes consultadas:
Poundstone, William (1995). El dilema del prisionero: John Von Neumann, la teoría de juegos y la bomba. Alianza Editorial.
Este ameno libro nos explica el dilema del prisionero y rudimentos muy interesantes sobre teoría de juegos. Entre las exposiciones técnicas desliza anécdotas biográficas del famoso científico húngaro John Von Neumann, padre de la “Teoría de Juegos” al tiempo que expone con rigor y sencillez el desarrollo del “proyecto Manhattan” y el clima de la Guerra Fría.
Dawkins, Richard. El gen egoísta. Salvat Ciencia.
Este libro trata el asunto del dilema del prisionero desde una perspectiva biológica. Intenta responder a la pregunta de cómo surge la cooperación en sistema de supervivencia eminentemente egoístas. Una perspectiva nueva acerca de la teoría de la evolución. Muy recomendable.
Artículo de la Wikipedia «Dilema del prisionero».
trabajo publicado originalmente en 2006.