Está en la página 1de 43

XVI.

Teoría de los juegos 428

XVI. TEORÍA DE LOS JUEGOS 1

Hasta ahora, la economía ha sido reducida a un caso simple: los agentes son una pequeña parte
del mercado y toman al comportamiento de los restantes agentes como dados; tampoco tienen
que preocuparse en cómo su propio comportamiento afectará al de los demás. Para ellos, el resto
del mundo consiste de un conjunto de precios a los que produce y puede comprar si así lo desea.

El monopolista que hemos analizado es lo suficientemente grande como para afectar a todo el
mercado, pero se maneja con una multitud de consumidores individuales, cada uno de los cuales
sabe que su conducta no va a afectar a la conducta del monopolista 2 . Por lo tanto, cada uno
reacciona en forma pasiva a las decisiones del monopolio. Compra la cantidad que maximiza el
bienestar propio al precio fijado por el monopolista. Desde el punto del monopolista, los
compradores ni siquiera son personas; son una curva de demanda.

El análisis ha eliminado un aspecto importante de la interacción humana y de los mercados: el


comportamiento estratégico. Que se manifiesta a través de negociaciones, amenazas, trampas.
Por este motivo a muchos alumnos la teoría de los precios les parece una abstracción sin sangre.
La economía es presentada en términos de individuos solitarios, a lo sumo de pequeños grupos
de productores, cada uno de los cuales maximiza contra un entorno esencialmente carente de
rasgos humanos, un conjunto de oportunidades más que una población de seres humanos con
deseos propios.

Por supuesto que hay un motivo para proceder así. El análisis del comportamiento estratégico es
un problema extraordinariamente difícil. John Von Neumann, una de las mentes más brillantes del
siglo XX (Nicholas Kaldor escribiría más tarde, "He was unquestionably the nearest thing to a
genius I have ever encountered."), tuvo que crear una nueva rama de las matemáticas cuando
fracasó al intentar resolverlo. Y la obra de los que le siguieron tampoco llegó a agregar demasiado
como para decir qué haría la gente en tal o cuál situación. Esto no significa que la teoría de los
precios sea inútil o irreal. Desde cierto punto de vista, es ciertamente irreal. Pero constituye uno
de los logros más impresionantes para explicar el funcionamiento económico de una sociedad, en
forma relativamente simple, evitando las situaciones de conducta estratégica.

Lo que inventaron Von Neumann, Nash y vamos analizar hoy, es la teoría de los juegos. En esta
primera sección veremos una introducción general, no técnica, al problema. Luego entraremos en
detalles más técnicos.

1. El Comportamiento Estratégico

1
Véase D. Friedman, Price Theory: An Intermediate Text, 1986, 1990; Roberto Serrano, The Nash Program,
May 2005 (The New Palgrave Dictionary of Economics, 2nd edition, McMillan, London); Martin Shubik,
Some Simple Games for Teaching and Research, 1 – Cooperative Games; Nick Baigent, Game theory,
Winter Semester 2006; Michael Intriligator, Optimización matemática y teoría económica; R. Aumann, “What
is Game Theory trying to Accomplish?”, in Frontiers of Economics, ed. K. Arrow and S. Honkapohja, Oxford,
1985; R. Aumann, “Game Theory” (The New Palgrave: A Dictionnary of Economics, Vol. 2, ed. J. Eatwell, M.
Milgate, and P. Newman, London, 1987); Andreu Mas-Colell, Michael Whinston and Jerry Green,
Microeconomic Theory, Oxford University Press, 1995; Eric Maskin, Evolution, Cooperation and Repeated
Games (based on work with D. Fudenberg), December 2007; Wikipedia; The History of Economic Thought
Website.
2
Pero el monopolista debe preocuparse de sus competidores potenciales en un mercado disputable.
XVI. Teoría de los juegos 429

El juego “Tijeras, Papel y Piedra” es jugado a veces por los niños. A la cuenta de tres, los dos
jugadores ponen en forma simultánea sus manos en alguna de tres posiciones: un puño apretado
como piedra, una mano abierta como papel ó dos dedos separados como tijeras. El ganador es
determinado mediante la regla simple siguiente: tijeras cortan papel, papel cubre la piedra, la
piedra rompe las tijeras.

Vamos a representar el juego mediante una matriz de pagos de 3x3. Las filas son las estrategias
del jugador 1, las columnas las estrategias del jugador 2. Cada celda es la intersección de una fila
y una columna, e indica lo que sucede si los jugadores eligen esas dos estrategias; el primer
número de la celda es el resultado (el nombre técnico es pago o recompensa) para el Jugador 1,
el segundo para el Jugador 2, por lo que la matriz es llamada matriz de pagos. Conviene pensar
en las recompensas como sumas de dinero, y que los jugadores tratarán de maximizar sus
recompensas esperadas – el monto esperado que ganarán.

Jugador Dos
Tijeras Papel Piedras
Jugador Uno Tijeras 0, 0 +1, -1 -1, +1
Papel -1, +1 0, 0 +1, -1
Piedras +1, -1 -1, +1 0, 0

Observen que cada jugador hace un solo movimiento y los movimientos se descubren
simultáneamente, lo que hace más fácil representarlo mediante una matriz como la anterior, en la
cual un jugador elige una fila, otro elige una columna, y el resultado queda determinado por su
intersección. Luego se verá que de esta forma puede ser representado todo juego bi-personal,
aún algunos complicados como el ajedrez.

También obsérvese que, aunque se trata de un juego sencillo, no está del todo clara cuál es la
solución. Ni siquiera qué significa hallar una solución. En este juego, no existe estrategia ganadora
para alguno de los jugadores, a diferencia de algunos juegos muy complicados. A pesar de que es
difícil establecer cuál es la estrategia correcta, se puede afirmar con alguna confianza que un
jugador que elija siempre “piedra” cometerá un error. Rápidamente descubrirá que su piedra
siempre queda cubierta. Una característica de una estrategia exitosa es su carácter impredecible.
Este punto de vista sugiere la posibilidad de armar estrategias deliberadamente impredecibles
(“randomizadas”).

Supóngase que elijo mi estrategia tirando un dado, cuidando que mi oponente no espíe. Si resulta
1 o 2, juego tijeras; 3 o 4, papel; 5 o 6, piedra. Cualquiera sea la estrategia que siga mi oponente
(más allá de espiar el dado o leer mi mente) yo ganaré en promedio una tercera parte de los
juegos, perderé una tercera parte de los juegos y empataré en los restantes. Cabe preguntarse:
hay alguna estrategia mejor? La respuesta es no si se enfrenta a un oponente inteligente. El juego
es simétrico; la estrategia randomizada está disponible tanto para él como para mí. En
consecuencia, lo que yo haga él, en promedio, lo empardará, y lo mismo haré yo.

Este es un juego con una importante característica: es un juego de suma cero. Lo que gana un
jugador es lo que pierde el otro.

Monopolio bilateral, extinción nuclear y puñaladas en el bar

Veamos ahora el monopolio bilateral. Las reglas son simples: usted y yo tenemos un peso para
dividirnos entre nosotros, siempre que lleguemos a un acuerdo sobre la división. Si no lo
hacemos, el peso se esfuma.
XVI. Teoría de los juegos 430

Este juego (monopolio bilateral porque corresponde a un mercado con un comprador y un


vendedor) se presta a otras alternativas. Yo tengo la única manzana y usted es la única persona
del mundo que no es alérgica a las manzanas. Para mí, la manzana no vale nada y un peso para
usted. Si yo se la vendo por un peso, yo quedo mejor por un peso y usted, como ha pagado
exactamente el valor de la manzana, queda tan bien como si no la hubiera comprado. Si yo se la
doy a usted, yo no gano nada y usted gana un peso. Cualquier precio entre cero y uno representa
alguna división de la ganancia monetaria entre nosotros. Si no nos podemos poner de acuerdo
sobre un precio yo retengo la manzana y el beneficio potencial del comercio se pierde.

El monopolio bilateral encapsula de forma simpática la combinación de intereses comunes y


conflicto de intereses, cooperación y competencia, que es típica de varias interacciones humanas.
Los jugadores tienen interés común en alcanzar un acuerdo, pero un conflicto sobre los términos
del acuerdo. Los Estados Unidos y la Unión Soviética tenían un interés común en preservar la paz
pero un conflicto sobre cuán favorables debían ser sus términos para cada lado. Marido y mujer
tienen un interés común en preservar un matrimonio feliz y armonioso pero innumerables
conflictos sobre cómo sus limitados recursos deben ser gastados en cosas que son valoradas por
cada uno. Los miembros de un cartel tienen un interés común en mantener la producción reducida
y los precios elevados pero surgen conflictos acerca de qué firma retira cuánto del beneficio
monopólico resultante.

El monopolio bilateral no es un juego suma cero. Si alcanzamos un acuerdo, nuestras ganancias


sumarán $1; si fracasamos en alcanzarlo, sumarán cero. Esta característica lo hace
fundamentalmente diferente al de Tijeras, Papel y Piedra, ya que permite amenazas,
negociaciones y mentiras.

Yo he decidido obtener 90 centavos de la ganancia monetaria. Le informo a usted que rechazaré


considerar términos menos favorables; a Ud sólo le queda elegir entre 10 centavos y nada. Si
usted me cree cederá. Si usted resiste mi oferta e insiste que sólo me entregará 40 centavos, yo,
a mi turno, si le creo, tengo la opción de 40 centavos o nada. Cada jugador trata de obtener un
mejor acuerdo para sí amenazando en forzar un resultado que es peor para ambos.

Una manera de ganar tales juegos es encontrar algún modo de comprometerse, de que sea
imposible echarse atrás. Un niño con buenos instintos estratégicos podría anunciar “Juro que no
tendrán más que 20 centavos, bajo juramento de muerte.” Si el segundo jugador cree que el
juramento es vinculante – que el primer jugador no retrocederá porque ninguna porción de un
peso es equivalente a la vergüenza de romper un juramento – la estrategia funcionará. El segundo
jugador vuelve a su casa con 20 centavos y resuelto a que la próxima vez realizará la promesa en
primer término.

La estrategia del compromiso no se limita a los niños. Hermann Kahn la puso en marcha en la
película Doctor Strangelove (“Dr. Strangelove or: How I Learned to Stop Worrying and Love the
Bomb”), dirigida por Stanley Kubrick, en la que participaba el actor Peter Sellers. Alguno dijo que
no hay suficientes palabras para describir la actuación de Peter Sellers en los tres papeles de un
oficial británico, de presidente de los Estados Unidos y como Dr. Strangelove. Es muy divertido
como oficial, con un acento especial, sombrío y neurótico como presidente y sencillamente loco
como el Dr. Strangelove.

Supongan que los Estados Unidos deciden terminar con todas las preocupaciones sobre las
agresiones soviéticas de una vez y para siempre. Fabrica cientos de bombas de cobalto, las
entierra en las Montañas Rocallosas (las Rocky Mountains), y les añade un contador geiger
XVI. Teoría de los juegos 431

extravagante. Si suenan las alarmas, las bombas de cobalto producen suficiente lluvia radioactiva
como para eliminar toda vida humana sobre la faz de la tierra. El contador geiger es el disparador
que hace explotar las bombas si se experimenta radiación proveniente de un ataque soviético.

Ahora es posible desmantelar todas las demás defensas contra ataques nucleares; ya que los
Estados Unidos tienen en su poder el elemento disuasivo final. En una versión mejorada
denominada por Kahn la Máquina del Día-Final-Adelantado, el mecanismo disparador estaría de
alguna manera equipada para detectar un amplio rango de actividades y responder en forma
apropiada; podría ser programada, por ejemplo, para hacer estallar el mundo si los soviéticos
invaden Berlín Oeste, o Alemania del Oeste, o a cualquiera – ahorrando a los Estados Unidos el
costo de una defensa tanto convencional como nuclear.

La Máquina del Día-Final-Adelantado no deja de tener problemas. En Doctor Strangelow fueron


los rusos los que la construyeron. Deciden postergar el anuncio hasta el cumpleaños del Primer
Ministro. Desafortunadamente, mientras esperan, un oficial lunático de la Fuerza Aérea Americana
lanza una guerra nuclear contra la Unión Soviética.

Esta Máquina no es completamente imaginaria. Consideren la situación inmediata después de que


los Estados Unidos detectan el comienzo de un ataque nuclear supremo por la Unión Soviética.
Supongan por caso que Estados Unidos carece de defensas, sólo la posibilidad de emprender
represalias. La amenaza de las represalias puede paralizar un ataque, pero si el ataque se
produce de cualquier manera, las represalias no protegerán a nadie. Inclusive, al incrementar la
lluvia radioactiva, los efectos climatológicos y otros similares, morirán algunos americanos – así
como millones de rusos y un número considerable de neutrales que tienen la desgracia de
soportar la lluvia. Las represalias en tales situaciones son irracionales. Empero tal vez ocurrirían.

Entre el “juro morir” y la aniquilación nuclear hay un amplio campo de situaciones donde las
amenazas y el compromiso desempeñan un rol. Aún antes de que se inventaran los misiles
nucleares, la guerra fue un juego de pérdidas para ambas partes.

A otra escala hay otros ejemplos dentro de la misma lógica. Una riña en un bar empieza con dos
parroquianos discutiendo sobre fútbol que termina con un muerto y el otro con una cuchilla en la
mano y una expresión de aturdimiento. Desde cierto punto de vista, éste es un ejemplo claro de
conducta irracional y no económica. El asesino inmediatamente se arrepiente de lo que hizo, y por
lo tanto no puede haber actuado para maximizar su propio bienestar. Desde otro punto de vista,
ha actuado dentro de un compromiso racional a la acción irracional – equivalente, a esta escala, a
la máquina del día final en funcionamiento.

Supongan que soy fuerte, furioso y que tengo mal genio con gente que no quiero. Me beneficio de
esa reputación; la gente es cuidadosa de no hacer cosas que puedan ofenderme. En realidad
golpear a alguien tiene sus costos, me pueden devolver el golpe y puedo terminar arrestado por
agresión. Pero si tengo suficientemente mala reputación, puede que no tenga que agredir a nadie.
A fin de mantener mi reputación, debo entrenarme como para ser de mal genio. Me digo a mí
mismo, y se lo digo a los demás, que soy tal cual, que ese tipo de gente no deja a otros que lo
presionen, etc. Gradualmente extiendo mi definición de “no presionarme” hasta que sea
equivalente a “no hagan lo que no quiero”.

Usualmente describimos a ésta como una personalidad agresiva, pero podría pensarse también
como una estrategia deliberada racionalmente adoptada. Una vez adoptada, ya no soy libre de
elegir la respuesta óptima a cada situación. He invertido demasiado en mi propia propia imagen
como para echarme atrás. De la misma manera, los Estados Unidos, que han construido un
XVI. Teoría de los juegos 432

sistema de represalias masivas para disuadir ataques, no están libres de cambiar de opinión
dentro de los diez minutos que pasan entre la detección de los misiles enemigos y el momento de
disparar los suyos.

El Dilema del Prisionero

Dos hombres son arrestados por atraco. De ser condenados, recibirán una sentencia de cárcel de
entre dos a cinco años; la duración dependerá de lo que recomiende el fiscal. Desgraciadamente
el Fiscal del Distrito no tiene suficiente evidencia como para recomendar una condena.

El FD pone a los criminales en celdas separadas. Primero habla con Joe. Le dice que si confiesa y
Mike no lo hace, el FD retirará la acusación de robo dejándolo sólo con un tirón de orejas – tres
meses por invadir propiedad privada. Si Mike también confiesa, el FD no puede retirar los cargos y
pedirá al juez indulgencia; Mike y Joe obtendrán una sentencia de dos años cada uno.

Si Joe se niega a confesar, el FD no será tan amigable. Si Mike confiesa, Joe será declarado
culpable y el FD pedirá la máxima sentencia posible. Si ninguno confiesa, el FD no puede
declararlos culpables del robo, pero presionará para obtener una sentencia de invasión de
propiedad privada, resistencia a la autoridad y vagancia.

Después de explicar todo esto a Joe, el FD va a la celda de Mike y mantiene la misma


conversación con nombres invertidos. La matriz de pagos que enfrentan Joe y Mike es la
siguiente, y Joe razona de la siguiente manera:

Mike
C (Confesar) D (No confesar)
Joe C (Confesar) 2 años, 2 años 3 meses, 5 años
D (No Confesar) 5 años, 3 meses 6 meses, 6 meses

“Si Mike confiesa y yo no, me darán cinco años; si yo también confieso, me aplicarán dos años. Si Mike va a
confesar, lo mejor que puedo hacer es también confesar.

Si ninguno de los dos confiesa, me aplicarán una pena de 6 meses. Es una mejora considerable con
respecto a la situación en que Mike se delata, pero puedo conseguir algo mejor: si Mike no habla y yo
confieso, a mí me aplicarán solamente tres meses. Luego, si Mike se queda callado, voy a estar mejor
confesando. En realidad, a mí me conviene confesar independientemente de lo que haga Mike.”

Ambos piden a la guardia que llamen al FD para dictar sus confesiones.

El juego tiene dos propiedades interesantes. 1) Introduce un nuevo concepto de solución. Cada
uno de los criminales confiesa porque calcula, correctamente, que la confesión es mejor que el
silencio sea lo que haga el otro criminal. Si una estrategia conduce a un mejor resultado sea lo
que haga el otro jugador, decimos que es una estrategia dominante. Si los dos jugadores tienen
estrategias dominantes, tenemos una solución del juego.

2) Ambos jugadores actuaron en forma racional y ambos terminan, como resultado, peor. Parece
extraño que la racionalidad, definida como tomar la decisión que maximiza los objetivos
individuales, resulte en que ambos terminen peor.

Para muchos, el resultado del Dilema de los Prisioneros parecerá contrario a la intuición. Pero la
racionalidad es un supuesto sobre los individuos y no sobre grupos.
XVI. Teoría de los juegos 433

El Dilema del Prisionero Repetido

Muchas situaciones del mundo real implican juegos repetidos. Mike y Joe saldrán de la prisión,
retomarán su “profesión” y serán apresados nuevamente. Cada uno sabe que si traiciona a su
compañero esta vez, puede esperar que su compañero lo trate en forma similar la próxima vez, y
luego deje de confesar.

El argumento es persuasivo pero no está claro que sea correcto. Dejemos a Joe y Mike y sean
dos personas que juegan un juego como el de la matriz de la página 432 cien veces. Para hacerlo
más plausible, reemplacemos las sentencias de encierro de esta matriz por pagos positivos. Si
ambos jugadores cooperan, obtienen $10 cada uno. Si cada uno traiciona al otro, no obtienen
nada. Si uno traiciona y el otro coopera, el traidor gana $15 y el otro saca $5.

Un jugador que traiciona a su compañero gana cinco pesos en el corto plazo, pero la ganancia
probablemente no valga ese precio. La víctima responderá traicionando en la próxima ronda, y tal
vez varias veces más. En balance, pareciera que ambos jugadores estarán mejor cooperando en
cada jugada.

Esta atractiva solución tiene un problema. Consideremos la última jugada del juego. Cada jugador
sabe que, haga lo que haga, el otro no tendrá otra oportunidad para castigarlo. La última jugada,
por lo tanto, es un dilema del prisionero común y corriente. La traición domina a la cooperación
para ambos jugadores, luego ambos se traicionan y obtienen cero.

Cada uno razonará: el otro me traicionará en la jugada centésima. Sabiendo esto, sé que no me
importa un castigo por lo que yo haga en la jugada 99ª, porque haga lo que hiciere, el otro jugador
me castigará en la próxima (y última) jugada. Luego yo lo traiciono en la jugada 99ª, y el otro, que
hizo el mismo cálculo, me traiciona.

Como sabemos que ambos nos vamos a traicionar en la jugada 99ª, no hay castigo por
traicionarnos en la jugada 98ª. Como sabemos que nos traicionaremos en la jugada 98ª, no hay
castigo por traicionarnos en la 97ª. Se despliega una cadena completa de jugadas; si somos
racionales nos traicionamos cada uno desde la primera jugada, terminando con nada. Si
hubiéramos sido irracionales y cooperado, habríamos terminado con miles de pesos 3 .

Voto Mayoritario de Tres Personas

Consideremos el simple juego de tres personas (Ana, Guillermo y Carlos) y $ 100. El dinero debe
ser dividido por el voto mayoritario; cualquier asignación que reciba dos votos es ganadora.

Pensemos en el juego como un largo período de negociación seguido por una votación. En la
negociación, los jugadores sugieren divisiones y tratan de convencer a los otros. Cada jugador
trata de maximizar su propio ingreso – su participación en los fondos.

Guillermo comienza proponiendo a Ana que se dividan el dinero entre ambos, $50 para cada uno.
A ella le parece una buena idea – hasta que Carlos propone una división de $60 para Ana y $40
para él. Carlos hace la oferta porque $40 es mejor que nada, y $60 es mejor que $50, de tal modo
que Ana está encantada en cambiar de lado.

3
El argumento depende del supuesto de que los jugadores conocen cuántas jugadas tendrá el juego. Si lo
jugamos por un número finito pero indefinido de movidas, la cooperación puede ser estable.
XVI. Teoría de los juegos 434

La negociación no ha terminado. Guillermo, que ahora está en el freezer, le sugiere a Carlos que
le gustaría renovar su anterior propuesta con un jugador diferente; Carlos obtendrá $50, que es
mejor que $40, y Guillermo tendrá $50, que es mejor que nada.

Las negociaciones potenciales no tienen término. Cualquier división que se sugiera es dominada
por alguna otra, y así sucesivamente. Veremos luego cómo se trata este problema en la teoría de
los juegos, y nuevos conceptos necesarios.

2. Teoría de los Juegos no Cooperativos

John Von Neumann y el economista Oskar Morgenstern se propusieron encontrar una solución
general a todos los juegos, fueran éstos el ajedrez, el bridge, o el oligopolio. Esto no significaba
aprender a jugarlos, sino a jugarlos en forma perfecta. Si se conoce cómo jugar un juego como un
problema matemático explícito, los detalles de la solución de cada juego particular pueden ser
dejados a otra persona.

Desde este punto de vista, el ajedrez es un juego trivial. Las reglas especifican que, si ningún
peón es movido y ninguna pieza es tomada luego de cuarenta jugadas, el juego termina
empatado. Lo que significa que el número total de jugadas, y por lo tanto el número total de
posibles juegos de ajedrez, es limitado – muy amplio pero finito. Para jugar ajedrez en forma
perfecta, bastaría hacer un listado de todas las partidas de ajedrez, anotar en cuáles se gana, y
luego jugarlas a partir de la última jugada, suponiendo en cada etapa que si un jugador hace una
jugada que lo conduce a ser un ganador eventual la hará efectivamente.

No es ésta una solución demasiado práctica. El número de jugadas posibles es mucho mayor que
el número de atomos del universo (¡hallar suficiente papel para anotarlas sería difícil!). Pero los
teóricos de los juegos no están interesados en este tipo de dificultades. Su objetivo es tener una
idea de cómo sería resuelto un juego, y están dispuestos a darse una extensión ilimitada de
tiempo para resolverlo.

2.1 Juegos Bi-Personales

Normalmente imaginamos un juego de ajedrez como una serie de decisiones separadas: yo


practico el 1er movimiento, usted responde, yo vuelvo a responder, y así sucesivamente. La
jugada consiste en la elección de una estrategia que describa lo que hará cada jugador ante cada
situación. La estrategia sería una descripción completa de cuál sería mi respuesta a cualquier
sucesión de jugadas de mi oponente (y, en algunos juegos, a cualquier sucesión de eventos
aleatorios, como la tirada de un mazo de cartas).

Dado que una estrategia determina lo que haré en cualquier situación, jugar el juego – cualquier
juego – consiste simplemente en que cada oponente elija una estrategia. Las decisiones son,
efectivamente, simultáneas: aunque el otro puede observar mis jugadas a medida que las hago,
no puede meterse dentro de mi cabeza y observar cómo he decidido jugar el juego. Una vez que
ambas estrategias han sido elegidas, todo queda determinado. Se puede imaginar a ambos
jugadores escribiendo sus estrategias y luego sentándose para observar cómo una máquina las
ejecuta. El jugador Blanco hace la primera jugada, Negro responde mediante su respuesta pre-
escogida, y así hasta que un jugador es declarado vencedor o el juego termina en un empate.
Visto en estos términos, cualquier juego bi-personal puede ser representado mediante una matriz
de pagos como la de la pág. 432, aunque puede requerir un enorme número de filas y de
columnas. Si el juego contiene elementos aleatorios, la célula de la intersección debe interpretarse
XVI. Teoría de los juegos 435

en términos de valor esperado a lo largo de varias jugadas del juego. En teoría de los juegos, esta
forma descriptiva es llamada forma reducida del juego.

Morgenstern y Von Neumann, en Sea Girt, New Jersey


XVI. Teoría de los juegos 436

Ésta no es una forma demasiado útil cuando se juega un juego como el ajedrez, ya que no vale la
pena invertir tiempo en enumerar por adelantado todas las cosas que el oponente podría hacer.
Pero puede ser una forma útil de imaginarse en qué sentido los juegos tienen soluciones y en
cómo encontrarlas.

Qué es una solución para un juego bi-personal? La respuesta de Von Neumann es que una
solución (para un juego bi-personal) es un par de estrategias y un valor del juego. La estrategia S1
le garantiza al jugador 1 que al menos ganará el valor V, la estrategia S2 le garantiza al jugador 2
que a lo sumo perderá V. V puede ser positivo, negativo o cero; la definición no hace supuestos
acerca de cuál de los jugadores está en una posición más fuerte. Dos cuestiones que surgen: es
ésta realmente una solución; es lo que haría un jugador inteligente? Si aceptamos la definición,
tienen soluciones todo los juegos bi-personales?

La solución de Von Neumann no abarca todo lo que un buen jugador trata de hacer. Ignora
explícitamente lo que los jugadores de bridge llaman stealing candy from babies (robarles
caramelos a los bebés) – seguir estrategias que funcionan mal contra buenos oponentes pero que
explotan los errores de los malos.

Que exista una solución para un juego depende de la estructura de su forma reducida.
Consideremos la siguiente forma reducida:
Bill
A B C
Ana I -4, +4 0, 0 -1, +1
II +2, -2 +1, -1 +2, -2
III +1, -1 0, 0 +4, -4

La celda central es la solución. Como Bill elige B, Ana hace lo correcto eligiendo II. Bill hace lo
correcto eligiendo B, ya que cualquier otra elección le hace perder 2 en lugar de 1. El valor del
juego es 0. Al elegir B, Bill se garantiza no perder más que 1; al elegir la estrategia II, Ana se
garantiza ganar al menos 1.

La estrategia es denominada minimax 4 , y la solución un punto de ensilladura. Lamentablemente,


no hay razón para esperar que todos los juegos tengan puntos de ensilladura. El juego Tijeras,
Papel y Piedra es un ejemplo.

Sin embargo, existe una solución de Von Neumann, como hemos visto. El truco consiste en
permitir a los jugadores elegir no sólo estrategias puras tales como A, B, C ó Tijeras, Papel,
Piedra, sino también estrategias mixtas. Una estrategia mixta es una mezcla de probabilidades de
estrategias puras (p.e. 10% de A, 40% de B y 50% de C). La solución de Tijeras, Papel, Piedra
como fue descripta es una especie de estrategia mixta (con igual probabilidad de que se siga
cualquiera de las tres estrategias puras). Un jugador que siga esa estrategia mixta perderá, en
promedio, cero, sea lo que haga su oponente. Un jugador cuyo oponente siga tal estrategia
ganará, en promedio, cero. Luego la solución de Von Neumann es que cada jugador adopte esta

4
Desde el punto de vista de Bill, está minimizando el máximo monto que puede perder; actúa como si
supusiera que haga lo que haga, Ana adoptará la estrategia correcta contra él. Si eligiera A, Ana podría
elegir II y él perdería 2, etc. Un razonamiento similar es válido para Ana.
XVI. Teoría de los juegos 437

estrategia. No solamente es una solución sino la única solución; desvíos de esta estrategia harán
que su oponente gane más frecuentemente que lo que que pierde.

Un juego de suma cero es un caso especial. Este es un caso interesante, porque los intereses de
los jugadores están directamente en conflicto. No sólo contribuyó en este campo. También
desarrolló una estructura sólida para la mecánica cuántica, estudió lo que hoy se conoce como
álgebras de Von Neumann, y fue uno de los pioneros de la ciencia de la computación. Fue
miembro de la Comisión Nacional de Energía Atómica, y asiduo visitante del Proyecto de Misiles
en el Centro de Los Alamos 5 .

2.2 Juegos n-Personales

Retomemos el hilo conductor. Para juegos con más de dos jugadores los resultados no son tan
claros. Vamos a recordar algunos conceptos básicos.

Sea un juego n-personal jugado en forma repetida, por un largo plazo. Usted va observando lo
que hacen los demás y altera sus jugadas de forma acorde. Actúa presuponiendo que lo que ud
hace no afecta lo que ellos hacen, tal vez porque el efecto de sus acciones en el juego completo
es despreciable. Usted va alterando sus acciones hasta que... no hay más cambios. Los demás
jugadores hacen lo mismo. Se alcanza el equilibrio. Esta solución se denomina equilibrio de Nash
y es una generalización del matemático Nash de una idea que inventó Antoine Augustin Cournot
en el siglo XIX (1801-1877). En 1830 Cournot 6 había estudiado el resultado probable cuando dos
empresas compiten en el mismo mercado. Muchos economistas habían tratado luego de analizar
el resultado en otros contextos específicos de interacción humana, pero con anterioridad a la
teoría de los juegos no había ninguna “caja de herramientas” que permitiera a los estudiosos el
acceso a métodos generales y rigurosos de analizar diversas formas de interacción estratégica.
Hoy en día la situación ha cambiado, y las revistas de economía abundan en análisis de distintas
formas de interacción gracias a la teoría de los juegos que condujo a John Nash al premio Nobel
de economía en 1994.

La teoría de los juegos no cooperativos trata de situaciones en las que las partes no pueden
suscribir acuerdos obligatorios para todos. Inclusive en juegos muy complicados, con muchos
jugadores que tienen muchas estrategias, es posible describir el resultado por medio de la
solución de Nash. John Nash demostró que hay por lo menos un resultado estable, resultado que
ningún jugador puede mejorar de por sí eligiendo una estrategia diferente cuando todos los

5
El Centro para Estudios No Lineales fue creado por el entonces Director del Laboratorio Don Kerr (1980)
en respuesta a la ciencia emergente no lineal de los solitons, sistemas dinámicos y teoría del caos y al rol
histórico importante desempeñado por los científicos de Los Alamos, en particular las simulaciones
numéricas de equirrepartición de la energía de Fermi-Pasta-Ulam realizadas en 1955. Otros adelantos
notables se obtuvieron a fines de los 70 por Mitchell Feigenbaum en base a trabajos anteriores de Stan
Ulam, John von Neumann, Mark Kac, Nick Metropolis, Paul Stein y Stephen Smale.
6
Se considera a Cournot como el matemático que comenzó la sistematización formal de la economía. Fue
el primero en utilizar funciones matemáticas para describir conceptos económicos como la demanda, la
oferta o el precio. Analizó los mercados monopolistas, estableciendo el punto de equilibrio del monopolio,
llamado el punto de Cournot. También estudió el duopolio y el oligopolio. Sus aportaciones tuvieron mucha
influencia sobre Jevons, Walras y Marshall, de los que puede ser considerado un precursor. Contribuyó
notablemente a la ciencia estadística. Entre sus obras cabe destacar "Investigaciones acerca de los
principios matemáticos de la teoría de las riquezas" (1838), "Exposition de la théorie des chances et des
probabilités" (1843), "Principios de la teoría de las riquezas" (1863) y "Revue sommaire des doctrines
économiques" (1877).
XVI. Teoría de los juegos 438

jugadores tienen expectativas correctas sobre las estrategias que seguirán los demás. Aunque
cada uno actúe racionalmente, el equilibrio de Nash demuestra que la interacción estratégica
puede conducir a menudo a la irracionalidad global: guerras comerciales o una excesiva emisión
de contaminantes que amenazan al contexto global, son ejemplos en la esfera internacional. El
equilibrio de Nash también ha sido importante en ecología evolutiva – que describe a la selección
natural como una interacción estratégica dentro y entre especies.

Consideren el juego de manejar un auto, donde elegir una estrategia consiste en decidir de qué
lado de la ruta voy a manejar. En Argentina estamos en un equilibrio de Nash. La situación es
estable, y llegaría a ser estable aunque no hubiera policía de tráfico para implementarla. En
Inglaterra todos conducen por la izquierda. Éste también es un equilibrio de Nash. Los turistas
extranjeros que manejan en Inglaterra suelen pasarse automáticamente al carril derecho y
descubren su error cuando encuentran un conductor inglés enfrente – y se produce el crash. Si
todos los conductores ingleses se pasaran a conducir por la derecha todos podrían estar mejor.
Pero cualquier inglés que lo quisiera hacer por iniciativa propia podría terminar mucho peor. Un
equilibrio de Nash es estable contra cualquier acción individual aún cuando conduzca a un
resultado indeseable.

En muchos juegos los jugadores carecen de información completa


sobre los objetivos de los demás. Si por ejemplo, el gobierno quiere
desregular a una firma pero ignora su situación de costos – que sí
tiene la firma – estamos en presencia de un juego con información
incompleta. John Harsanyi – otro de los ganadores del premio Nobel
de economía 1994 – demostró cómo podía ser superada esta
dificultad que se había vuelto intratable para los teóricos de los juegos.
De esta forma sentó las bases analíticas para tratar distintos
problemas vinculados con la economía de la información. Estos
problemas abarcan desde los contratos con los accionistas a la
administración de las empresas en países en desarrollo.

Un problema con el concepto de equilibrio de Nash es que puede


haber muchos equilibrios en los juegos no cooperativos. En tales
John F. Nash, Jr. (1928- )
casos puede ser difícil – tanto para los jugadores como para el analista
– predecir los resultados. Un tercer ganador del premio Nobel de 1994, Reinhard Selten sentó las
bases de un programa de investigación que excluyó a los equilibrios improbables o irrazonables,
mediante su concepto de “perfección”. Se da el caso de que algunos equilibrios de Nash son tales
que están basados en amenazas o promesas pensadas a fin de que otros jugadores elijan ciertas
estrategias. A veces son “vacías”, porque no resulta del interés del emisor llevarlas a cabo si se
diera la situación. Selten pudo excluir estas amenazas o promesas lo que permite hacer
predicciones más fuertes sobre el resultado (llamado equilibrio perfecto).

2.3 Juegos Bi-Personales de suma cero: el teorema Minimax

En 2.1 vimos que von Neumann demostró en 1928 la existencia general de soluciones minimax en
estrategias randomizadas para juegos bipersonales finitos (es decir, donde cada jugador dispone
de un número finito de estrategias) de suma cero, donde ∏ij1= −∏ij2. Aquí ∏ij representa el pago
que recibe el jugador fila si juega su estrategia i y el jugador columna su estrategia j. También
hemos visto que los juegos de suma constante son equivalentes a juegos de suma cero. Veremos
XVI. Teoría de los juegos 439

una demostración de este teorema mediante el teorema de dualidad de la programación lineal 7 ,


adelantándonos así a uno de los puntos del programa.

Un problema de programación lineal (LP) implica la optimización de una función objetivo lineal, sujeta a
igualdades lineales y a restricciones de desigualdad. Más formalmente, un problema de LP determina la
forma de alcanzar el mejor resultado posible (como por ejemplo el máximo beneficio, o el costo más bajo)
sujeto a los requerimientos representados por ecuaciones o inecuaciones lineales. En otros términos, dado
un polítopo 8 (por ejemplo un polígono o un poliedro) y una función real afín:

(la función objetivo), el fin es hallar el punto del polítopo en el que la función alcanza su menor (o mayor
valor). Tal punto podría no existir, pero si existe puede ser encontrado buscando en los vértices del polítopo.

Los problemas de LP son problemas que pueden ser expresados en forma típica:

Maximizar c’x
sujeto a Ax≤ b
donde x≥0.

x representa a un vector de n variables, c y b son


vectores de coeficientes (el primer vector tiene n
componentes y el segundo m) y A es una matriz de
coeficientes de m filas por n columnas. La función
objetivo, en este caso, es c’x y debe ser maximizada
9
. Las inecuaciones Ax≤ b son las restricciones
estructurales que definen el polítopo convexo sobre
el cual debe ser maximizada la función objetivo. En
adjunto podemos visualizar un polítopo bi-
dimensional definido por tres inecuaciones (la
“feasible region”). Geométricamente, las restricciones
lineales definen un poliedro convexo, denominado
región factible (o conjunto factible). Como la función
objetivo también es lineal, y por lo tanto convexa,
todos los óptimos locales son automáticamente
óptimos globales (por el teorema de KKT). El valor
de la función objetivo es igual al máximo alcanzado
por dicha función en un problema de máximo, e igual
al mínimo alcanzado por dicha función en un problema de mínimo. La linealidad de la función objetivo
10
también implica que el conjunto de soluciones óptimas es la cápsula convexa de un conjunto finito de
puntos, habitualmente de uno solo. Hay dos casos en que no se puede hallar una solución óptima. Primero,
si las restricciones se contradicen entre sí (por ejemplo, x≥2 y x≤1). En este caso, el conjunto factible es
vacío y se dice que el LP no es factible.

Segundo, el poliedro puede no estar acotado en la dirección de la función objetivo (por ejemplo: maximizar
x1+3x2 sujeto a x1≥0, x2≥ 0, x1+x2≥10), en cuyo caso no hay solución óptima dado que podrían construirse
“soluciones” con valores arbitrariamente elevados de la función objetivo. Pero exceptuando estas
condiciones patológicas, el óptimo será siempre alcanzado en un vértice del poliedro. Empero, el óptimo no
será necesariamente único: es posible que se obtenga todo un conjunto de soluciones óptimas que cubran

7
Véase M. Intriligator, Optimización matemática y teoría económica, Prentice-Hall Internacional, Capítulo 5
y 6.
8
En geometría politopo significa, en primer lugar, la generalización a cualquier dimensión de un polígono
bidimensional, y un poliedro tridimensional.
9
La notación c’ indica que estamos utilizando al vector traspuesto de c, luego c’x=∑j=1n cjxj.
10
La cápsula convexa de un conjunto de puntos X en un espacio vectorial real V es el mínimo conjunto
convexo de V que contiene a X.
XVI. Teoría de los juegos 440

un borde o una cara del poliedro, o aún a todo al poliedro (lo que sucedería si la función objetivo fuera
constante).

Para todo LP existe un problema, denominado su dual:

Minimizar y’b
sujeto a yA≥ c
y≥0

donde, como se observa, el vector y es usado en lugar del vector x. Obsérvese que ambos problemas, el
primal y su dual, tienen estructuras simétricas: el primal es de maximización, el dual de minimización. Los
signos de desigualdad de las restricciones estructurales del primal son de “menor o igual”, mientras que los
del problema dual son de “mayor o igual”. La matriz estructural A se halla post-multiplicada por x en el
primal. Si esta matriz tiene m filas y n columnas, al pre-multiplicarla por y en el dual ello hará que el número
de componentes de y tenga que ser igual a m. Finalmente, en ambos problemas, se mantienen las
11
condiciones de no-negatividad de las variables .

El primer teorema fundamental de la programación lineal establece que condición necesaria y suficiente
para la existencia de una solución en un LP, es que los conjuntos de oportunidad -tanto del problema primal
como de su dual- sean no vacíos (Teorema de existencia). Un programa lineal también puede no estar
acotado o carecer de factibilidad. La teoría de la dualidad nos dice entonces que si el primal no está acotado
el dual no será factible, en virtud del teorema débil de dualidad. Asimismo, si el dual no está acotado, el
primal no tendrá factibilidad. Pero también es posible que ambos problemas, el dual y el primal, carezcan de
factibilidad.

El segundo teorema fundamental es el teorema de dualidad: Condición necesaria y suficiente para que un
vector factible sea solución de un LP, es que exista un vector factible para el problema dual en el cual los
valores de las funciones objetivo de ambos problemas sean iguales. Hay dos ideas fundamentales en la
teoría de la dualidad. 1) El dual del dual de un problema de LP lo convierte en el problema original (o
primal). 2) Además, toda solución factible de un LP proporciona una cota al valor de la función objetivo de
su dual. La versión débil del teorema de dualidad establece que el valor de la función objetivo del dual de
cualquier solución factible siempre es mayor o igual que el valor de la función objetivo del primal en
cualquier solución factible. La versión fuerte del teorema de dualidad afirma que si el primal tiene una
solución óptima x* entonces el dual también la tendrá, y*, tal que c’x*=y*’Ax*=y*’b. Esta versión a veces es
denominada teorema de equilibrio de la LP.

Llegamos ahora a una tercera proposición importante, que establece que es posible obtener una solución
del dual si se conoce una solución óptima del primal, utilizando el teorema de holgura complementaria:
supóngase que x=(x1,...,xn) es factible en el primal e y=(y1,...,ym) es factible en el dual. Sean (w1,...,wm) las
variables slack 12 correspondientes al primal, y (z1,....,zn) las variables slack correspondientes al dual. Luego
x e y son óptimas en sus problemas respectivos si y sólo si xjzj=0 (j=1, ..., n), wiyi=0 (i=1, ...,m).

Por lo tanto, si la i-ésima variable slack del primal no es cero, la i-ésima variable del dual es igual a cero.
También, si la j-ésima variable slack del dual no es cero, entonces la j-ésima variable del primal es igual a
cero.

Esto es todo lo que necesitamos por ahora. Volvamos al problema estratégico. Recordemos que
habíamos denotado como p1 (p2) al vector de probabilidades aplicado por el jugador 1 (2) sobre
sus estrategias puras de fila (columna). El jugador 1 buscará el más alto pago esperado

11
Hay una segunda forma de trabajar con un problema de LP, que es a través de la forma canónica, en la
cual todas las desigualdades son transformadas en igualdades. Dejaremos este punto para más adelante.
12
Slack se traduce como holgura: las correspondientes restricciones se cumplen como igualdades si y sólo
si la variable slack pertinente es igual a 0.
XVI. Teoría de los juegos 441

garantizado, para lo cual elegirá estas probabilidades a fin de maximizar el pago mínimo
esperado. Este pago mínimo puede ser escrito por medio de desigualdades lineales:

p1∏e’j= ∑i=1mpi1∏ij ≥∏1(p1), j=1, ...,n 13

o lo que es lo mismo:

p1∏ − ∏1(p1)1≥0

(1 es un vector fila de unos). Luego, el problema del jugador 1 puede expresarse como un
problema de LP:

maxp1 ∏1(p1)

bajo las restricciones:

p1∏ − ∏1(p1)1≥0
p11’= 1
p1≥0.

Para el jugador 2, que minimiza el máximo, se tendrá:

minp2 ∏2 (p2)

∏p2− 1’∏2 (p2)≥0


1p2=1
p2≥0.

Estos dos problemas son duales el uno del otro (v. cuadro siguiente).

p12 p22 ...... pn2 −∏2(p2)


1
p1 ∏11 ∏12 ...... ∏1n 1 ≤0
p21 ∏21 ∏22 ...... ∏2n 1 ≤0
....... ....... ....... ...... ....... ........ ........
pm1 ∏m1 ∏m2 ...... ∏mn 1 ≤0
2 2
−∏1(p1) 1 1 ...... 1 1 =1-∏ (p )→máx;
2 2
e.d. mín ∏ (p )
1 1
≥0 ≥0 ...... ≥0 =1-∏ (p )→mín;
1 1
e.d. max ∏ (p )

Para que la suma de probabilidades sea la unidad, se define:

pm1= 1 −∑i=1m-1pi1
pn2= 1 −∑j=1n-1pj2.

Dado que existen vectores factibles en ambos conjuntos de oportunidades, es decir, los vectores
unitarios, según el teorema de existencia de la programación lineal existen soluciones p1*, p2* de
ambos problemas. El mismo teorema de dualidad conduce a que:

13
Como antes, e’j es el vector j de la matriz unidad (es decir, una matriz cuadrada cuyos elementos de la
diagonal principal son unos y todos los demás ceros) escrito como fila, Por convención hacemos
e’1=(1,0,....,0), etc.
XVI. Teoría de los juegos 442

∏1(p1*) = maxp1 ∏1(p1)= V = minp2 ∏2(p2) = ∏2(p2*)

donde V es el valor del juego. Hemos arribado así a la conclusión de que el teorema de dualidad
de la programación lineal implica el teorema minimax de la teoría de los juegos. Pero hay otra
implicación adicional. El teorema de holgura complementaria implica que:

O bien se tiene ∑i=1mpi1*∏ij= V o pj2*=0, j=1,2,...,n.


O bien, ∑j=1n ∏ij pj2*= V o pi1*=0, i=1,2,..., m.

A estos resultados se los conoce habitualmente como teorema fuerte del minimax. Por ejemplo, si
el pago esperado por 1 es mayor que el valor del juego para una determinada estrategia pura del
jugador 2, entonces 1 juega esta estrategia con probabilidad cero.

En un juego estrictamente determinado, en el cual el juego presenta un punto de ensilladura


(como se vio en página 83), las estrategias óptimas mixtas asignan probabilidad igual a uno a las
estrategias puras en el punto de ensilladura, es decir que los vectores de estrategia mixta óptima
son vectores unitarios. En realidad, el número de elementos no nulos en los vectores de estrategia
mixta óptima no superará al mínimo de los números de estrategias puras de que disponen los
jugadores.

Cuando los jugadores emplean sus estrategias óptimas no revelan a sus oponentes la estrategia
real que van a emplear sea cual fuere la forma de jugar el juego. La estrategia es seleccionada
mediante un mecanismo de probabilidades empleando las probabilidades óptimas (por ejemplo,
mediante una moneda, arrojando dados, una tabla de números aleatorios, etc.) lo que hace
imposible al rival conocer la estrategia real que será usada en la partida. Si pudiese hacerlo,
podría explotar este conocimiento en beneficio propio. Sin embargo, el oponente nunca podrá
emplear información alguna partiendo de las probabilidad óptimas empleadas en un juego bien
jugado.

Hay una solución mucho más simple, que se puede obtener en forma gráfica, cuando un jugador
(por ejemplo el 1) dispone sólo de dos estrategias. Tomemos como ejemplo el siguiente juego que
no es estrictamente determinado:

Jugador 2 Mínimo de fila


Jugador 6 -2 3 -2
1 -4 5 4 -4
Máx de columna 6 5 4

En la figura siguiente, el eje horizontal mide p21, probabilidad de que el jugador elija su segunda
estrategia, a saber la segunda fila de la matriz. Como p11= 1 – p21, los puntos 0 y 1 corresponden a
las dos estrategias puras de elegir la primera y la segunda fila, respectivamente. Verticalmente
medimos el pago al jugador 1, y cada una de las líneas en color rojo se obtiene suponiendo que el
oponente (2) seleccionará una de sus estrategias puras. Así, si 2 elige la primera columna, el pago
del jugador 1 es igual a 6 si elige la primera fila, (p21=0) y –4 si elige la segunda fila (p21=1),
representados como 6 de la ordenada al origen del lado izquierdo del gráfico y el –4 de la
ordenada al origen del lado derecho. La recta que une ambos puntos representa lo que implican
los pagos de todas las estrategias mixtas. Como el jugador 1 se pone en el peor de los mundos
posibles, el único lugar geométrico que le queda a 1 es la línea roja de trazo grueso con forma de
V invertida. Los puntos de este lugar geométrico representan el menor pago esperado de 1 a
medida que cambia su probabilidad de elegir la fila 2. Maximizar el pago esperado requiere que
XVI. Teoría de los juegos 443

p21*=8/17. De esta manera su primera estrategia será elegida con probabilidad 9/17. El Valor del
juego será V=-2(9/17)+5(8/17) = 6(9/17) – 4(8/17) = 22/17.

Pago del jugador 1

6 5

0 El jugador 1 elige su estrategia 2


El jugador 1 p21*=8/17 1 p21
elige su estrategia 1

-2

- -4

Antecedentes La primera aplicación conocida en Teoría de los Juegos se debe a Zermelo 14 (1913)
que demostró que el ajedrez es un juego estrictamente determinado. Lo interesante del caso es
que no construyó una prueba explícita de las estrategias “correctas”; en realidad, hasta el día de
hoy ignoramos si el resultado correcto del ajedrez es que ganen las blancas, las negras, o un
empate. La condición sine qua non de la demostración de Zermelo es que se trate de un juego bi-
personal de suma cero con información perfecta.

Posteriormente, en 1953, H. W. Kuhn reemplazaría la noción de jugadas “correctas”, racionales


desde el punto de vista individual, por la de equilibrio. Demostrará que todo juego de n personas
con información perfecta tiene equilibrio en estrategias puras.

2.4 Juegos Bi-Personales de suma no cero

Cuando no es cierto que el pago a un jugador es el opuesto del pago al otro, existe la posibilidad
de ganancias o pérdidas mutuas. Al no hallarse en una situación que involucre un conflicto total,
existe una oportunidad para las amenazas, los engaños, la comunicación de intenciones, junto
con fenómenos de aprender y enseñar. En un juego de suma cero es absurdo revelar la propia
estrategia por adelantado, pero en un juego de suma no cero puede resultar a veces deseable
hacerlo para lograr la coordinación con el otro jugador o influir sobre él para lograr un resultado
deseable.

14
Zermelo, E. 1913, Über eine Anwendung der Mengenlehre auf die theorie des Schachspiels, Proceedings
of the Fifth International Congress of Mathematicians 2, 501-4. V. R. Aumann, Game Theory, The New
Palgrave: A Dictionary of Economics, Vol. 2, edited by J. Eatwell, M. Milgate, and P. Newman, Macmillan,
London, 1987.
XVI. Teoría de los juegos 444

La Batalla de los Sexos es un ejemplo muy simple de un típico juego de suma no cero. En este
caso el marido y su esposa desean salir por la noche, y han decidido ir ya sea a un ballet o a una
partida de boxeo. Ambos prefieren estar juntos que ir por separado (son un matrimonio bien
avenido). El marido preferiría ir a la partida de boxeo, pero si tiene que ir solo prefiere acompañar
a su esposa al ballet (¡lo que se dice un buen esposo!). A la esposa le gustaría ir al ballet, pero,
bueno, haría un sacrificio para acompañar a su marido a presenciar la partida de boxeo en lugar
de ir sola al Teatro Colón. La matriz de pagos es la siguiente:

Marido
Partida de boxeo Ballet
Esposa Partida de Boxeo 2, 3 1, 1
Ballet 1, 1 3, 2

Los pagos de la esposa están representados por el primer elemento de cada par ordenado de
esta matriz de pagos, mientras que los del esposo están representados por el segundo elemento.

En esta matriz se observa que la situación representada no corresponde a un conflicto


estrictamente competitivo. Ambos tienen interés común en estar juntos antes que ir a los
espectáculos en forma separada. Pero existe un interés opuesto, en la medida que la esposa
prefiere ir al Teatro Colón en tanto que el esposo prefiere hacerlo al Luna Park.

Ya hemos visto en Introducción a la Optimización y a la


teoría de los juegos cómo Melvin Dresher y Merrill Flood
realizaron en 1960 un experimento basado en el Dilema de
los Prisioneros, que se ha convertido en un ejemplo
canónico de la teoría de los juegos de suma no cero no
cooperativos. Hay muchísimas situaciones importantes en
la esfera social, económica y política en las cuales se
presentan las paradojas de ese dilema. Un ejemplo
económico es la elección entre libre comercio y
proteccionismo. Todos los países salen ganando con el
libre comercio; sin embargo, un único país, en la situación
de libre comercio, puede mejorar su propia situación
económica mediante la imposición de tarifas. Douglas
Richard Hofstadter (nacido en 1945) es un científico,
filósofo y académico estadounidense 15 . Es probablemente
mejor conocido por su libro Gödel, Escher, Bach: un Eterno
y Grácil Bucle (Gödel, Escher, Bach: an Eternal Golden Douglas Hofstadter (1945- )

15
Hofstadter es políglota; pasó algunos años en Suecia a mediados de los años 1960 en donde aprendió
sueco. Además de inglés, su lengua materna, habla italiano, francés y alemán; su conocimiento de estos
idiomas se puede atribuir en parte al haber pasado un año de su juventud en Ginebra. También habla un
poco de ruso: tradujo partes de GEB al ruso, y publicó una traducción en verso de Eugene Onegin de
Alexander Pushkin. En Le Ton beau de Marot (escrito en memoria de su última esposa Carol) se auto-
describe como un "pilingüe" (entendido en 3,14159... idiomas) y "oligoglot" (hablante de pocos idiomas).
Entre sus intereses están la música, los temas de la mente, la creatividad, la conciencia, la autorreferencia,
la traducción, y los juegos matemáticos. En 1979 publicó GEB, un voluminoso libro que se convirtió en un
sorprendente éxito de ventas donde se anudan la lógica matemática, la biología, la psicología y la lingüística
en torno al fenómeno de la autorreferencialidad. Publicó, en colaboración con Daniel Dennett, The Mind I:
Fantasies and Reflections on Self and Soul (1981) y Metamagical Themas en 1985. Ley de Hofstadter:
"Hacer algo te va a llevar más tiempo de lo que piensas, incluso si tienes en cuenta la ley de Hofstadter."
XVI. Teoría de los juegos 445

Braid, denotado como GEB) que fue publicado en 1979, y ganó el Premio Pulitzer en 1980 por no-
ficción general. Este libro ha inspirado a miles de estudiantes a comenzar sus carreras en
computación e inteligencia artificial. Entre los trabajos publicados en la web les recomiendo su
columna escrita en Scientific American, cuando asumió el puesto dejado vacante por Martin
Gardner que escribía allí su columna "Mathematical Games" pasando en 1981-1983 a escribir una
columna titulada Metamagical Themas (un anagrama de "Mathematical Games"). Una de las ideas
que allí introdujo fue el concepto de “Reseñas de Este Libro”, que no es otra cosa que un libro que
sólo tiene reseñas cruzadas de sí mismo e implementado on-line. Otra de las columnas de
Hofstadter se refería a los efectos dañinos causados por el lenguaje sexista.

A Hofstadter se debe una frase que tiene una conexión directa con este dilema: not devoting any
time or energy to pressing global issues such as the arms race, famine, pollution, diminishing
resources, and so on, saying ‘Oh, of course I’m very concerned—but there’s nothing one person
can do.’ (Metamagical Temas). Y el hecho es que los problemas más acuciantes que se presentan
a la humanidad se derivan de la falta de conciencia de los problemas que traen aparejados
fenómenos como el cambio climático, la pobreza y la contaminación, en los cuales este tipo de
conducta es muy frecuente: cuando se decide lo mejor por hacer en una situación estratégica,
normalmente es importante predecir lo que harán los demás. Éste no es el caso presente. Para
facilitar la lectura, escribiremos nuevamenta la matriz de pagos de un dilema del prisionero:

C (cooperar) D (defeccionar)
C (cooperar) 3, 3 0, 4
D (defeccionar) 4, 0 1, 1

Si se supiera que el otro prisionero no hablará, su mejor movida es la de traicionarlo en lugar de


recibir una sentencia menor. Si usted sabe que el otro lo traicionará, su mejor movida es
traicionarlo, porque recibe una sentencia inferior que si se mantiene en silencio. La traición es la
estrategia dominante. Como todos razonan de la misma manera, todos recibirán un menor pago
que si se mantuvieran en silencio. La racionalidad juega un rol peor que si el otro se hubiera
mantenido en silencio. En lenguaje técnico, esto demuestra que en un juego que no es de suma
cero un equilibrio de Nash no constituye necesariamente un óptimo de Pareto. La necesidad de
comunicación y coordinación es evidente, puesto que en estos ejemplos el comportamiento
individualmente racional puede conducir a resultados inferiores para todos los individuos.

Ha existido una suerte de fascinación universal con el dilema de los prisioneros, lo cual se debe a
que representa en forma cruda y transparente el hecho amargo de que cuando los individuos
persiguen su propio interés, el resultado puede ser un desastre para todos. El principio tiene
docenas y docenas de aplicaciones, grandes y pequeñas, en la vida cotidiana. La gente que no
coopera y actúa en pos de su propio beneficio mutuo no es necesariamente estúpida o irracional;
pueden estar actuando de modo perfectamente racional.

Cuanto antes aceptemos esto, más rápido llegaremos a diseñar un esquema de compromiso
social para favorecer la cooperación. Un paso en tal sentido que podría ser de amplia aplicación,
es disponer de un mecanismo para la aplicación de acuerdos voluntarios. ‘Recen por el bienestar
de los gobiernos, sin cuya autoridad los hombres se tragarían a todos los hombres con vida’ (Ética
de los Padres, III:2, cit. por R. Aumann). Sería suficiente que el mecanismo estuviera disponible;
una vez disponible, los jugadores estarían motivados naturalmente a utilizarlo. Si pueden lograr un
acuerdo ejecutable para forzar la cooperación (C,C), sería estúpido terminar en (D,D). Éste ha
sido el motivo que motivó la definición de un juego cooperativo.

2.5 El Teorema de Nash de 1950


XVI. Teoría de los juegos 446

Puntos de Equilibrio en juegos n-personales Por John F. Nash, Jr.* Princeton University,
Comunicación de S. Lefschetz, Noviembre 16, 1949 (traducción propia).

“Podemos definir el concepto de un juego de n-personas en el que cada jugador dispone de un conjunto
finito de estrategias puras y en el cual un conjunto definido de pagos a los n jugadores corresponde a cada
n-upla de estrategias puras, cada una de las cuales es adoptada por cada jugador. Para las estrategias
mixtas, que constituyen distribuciones de probabilidad sobre las estrategias puras, las funciones de pago
son las expectativas de los jugadores, que se transforman en formas multilineales en las probabilidades con
las cuales los distintos jugadores juegan sus diferentes estrategias puras.

Toda n-upla de estrategias, una por cada jugador, puede ser considerada como un punto del espacio
producto obtenido multiplicando los n espacios estratégicos de los jugadores. Una n-upla de estrategias tal
contrarresta a otra si la estrategia de cada jugador en la n-upla contrarrestante da lugar a la mayor
expectativa del jugador en contra de las n-1 estrategias de los demás jugadores en la n-upla contrarrestada.
Una n-upla que se contrarresta a sí misma es denominada un punto de equilibrio.

La correspondencia de cada n-upla con el conjunto de n-uplas contrarrestantes da lugar a un mapa de uno-
a-varios del espacio producto en sí mismo. A partir de la definición de contrarrestar vemos que el conjunto
de puntos contrarrestantes de un punto es convexo. Por continuidad de las funciones de pago sabemos que
el grafo del mapa es cerrado. Esto significa lo siguiente: Si P1, P2, ..., y Q1,Q2, ..., Qn, ... son sucesiones de
puntos en el espacio producto, si Qn→Q, Pn→P y Qn contrarresta a Pn, entonces Q contrarresta a P. Como
el grafo es cerrado y la imagen de cada punto dada por el mapa es convexa, inferimos por el teorema de
Kakutani1 que el mapa tiene un punto fijo (es decir, un punto contenido en su imagen). Luego existe un
punto de equilibrio.

En el caso de juegos bi-personales de suma cero el “teorema principal” y la existencia de un punto de


equilibrio son equivalentes. En ese caso, dos puntos de equilibrio cualesquiera conducen a las mismas
expectativas para los agentes, pero éste no es necesariamente el caso general.

* El autor agradece al Dr. David Gale por su sugerencia de usar el teorema de Kakutani a efectos de
simplificar la demostración y a A.E.C. por su apoyo financiero.
1
Kakutani, S., Duke Math. J., 8, 457-459 (1941).”

Ésta es la famosa comunicación de Nash, incluida en los Proceedings de la National Academy of


Sciences USA (vol. 36, 1950). Este paper le valdría luego ganar el premio Nobel de Economía
1994. Para su demostración, como hemos visto, apela al teorema de punto fijo de Kakutani, que
es aplicable en el caso de mapas punto a conjunto. Suministra condiciones suficentes para que el
mapa, definido sobre un subconjunto convexo y compacto del espacio euclídeo, tenga un punto
fijo, es decir un punto mapeado a un conjunto que lo contiene. El teorema de punto fijo de
Kakutani es una generalización del teorema de punto fijo de Brouwer. Este último teorema de
punto fijo es un resultado fundamental de la topología que demuestra la existencia de puntos fijos
de funciones continuas definidas sobre subconjuntos compactos y convexos del espacio euclídeo.
El teorema de Kakutani extiende este resultado a mapas punto a conjunto. El teorema fue
demostrado por Shizuo Kakutani en 1941 16 tal como es mencionado por John Nash, y aplicado
por él mismo en el teorema de 1950. Luego tuvo extensas aplicaciones en teoría de los juegos y
en economía 17 .

16
Kakutani, Shizuo (1941). "A generalization of Brouwer’s fixed point theorem". Duke Mathematical Journal
8 (3): 457–459.
17
V. Border, Kim C. (1989). Fixed Point Theorems with Applications to Economics and Game Theory.
Cambridge University Press.
XVI. Teoría de los juegos 447

Los años 50 fueron un período excitante en teoría de los juegos. La disciplina había salido del
cascarón y empezó a ser testeada. En Princeton, Nash asentaba los fundamentos de una teoría
general no cooperativa; como veremos luego, también lo hizo para los juegos cooperativos. Lloyd
Shapley definió el valor de los juegos de coaliciones, dio inicio a la teoría de los juegos
estocásticos, inventó en forma conjunta con D.B. Gillies el núcleo, y, con John Milnor, desarrolló
los primeros modelos de juegos con jugadores distribuídos en forma continua; también hubo
descubrimientos de Harold Kuhn y Al Tucker (que descubrió el dilema del prisionero) 18 .

El teorema de Kakutani afirma lo siguiente: “Sea S un subconjunto no vacío, compacto y convexo


de algún espacio euclídeo Rn. Sea φ: S → 2S (conjunto potencia de S) un mapa de S con un grafo
cerrado y la propiedad de que φ(x) es no vacío y convexo para todo x ∈S. Luego φ tiene un
punto fijo.” 19

Algunas definiciones básicas: un mapa φ del conjunto X al conjunto Y es una regla que asocia a
uno o más puntos de Y con cada punto de X. Formalmente puede ser visto como una función
desde X al conjunto de subconjuntos de Y, lo que se escribe como φ: X→2Y. Grafo cerrado: una
función de punto a conjunto ó mapa φ: X→2Y tiene un grafo cerrado si el conjunto {(x,y)| y ∈φ(x)}
es un subconjunto cerrado X×Y en la topología producto. Punto fijo: Sea φ: X→2X una función de
punto a conjunto. Luego a ∈ X es un punto fijo de φ si a ∈ φ(a). A estos mapas se los denomina
con frecuencia correspondencias.

Ejemplo Sea f(x) una función punto a conjunto definida


en el intervalo cerrado [0, 1] que mapea un punto x en
el intervalo cerrado [1−x/2, 1−x/4]. Luego como
satisface todos los supuestos requeridos por el teorema
debe tener puntos fijos. En el diagrama, todo punto en
la bisectriz del plano que cruza al grafo de la función
(grisado) es un punto fijo, luego de hecho en este caso
particular hay una infinidad de puntos fijos. Por ejemplo,
x = 0.72 es un punto fijo ya que 0.72 ∈ [1−0.72/2,
1−0.72/4].

Teoría del equilibrio general En GE el teorema de


Kakutani ha sido usado para demostrar la existencia de
un conjunto de precios que en forma simultánea igualan
a la oferta con la demanda en todos los mercados 20 . En
18
Para todo estos detalles, v. R. Aumann, ob.cit.
19
A partir de un conjunto de 3 elementos, se pueden armar 23 conjuntos con esos tres elementos. En forma
similar, vemos que hay 2n subconjuntos a partir de un conjunto de n elementos. Imaginemos por ejemplo
que dos dados son arrojados en forma simultánea, o que un dado es arrojado dos veces. ¿Cuántos
resultados de dos componentes (por ejemplo, 3, 5) se podrán obtener? Pues 236. Si arrojamos un dado 3
veces, obtenemos un espacio muestral tridimensional y 63 puntos posibles. V. T. Tamane, Mathematics for
Economists, Prentice-Hall, 1965. El conjunto potencia de S es el conjunto de todos los subconjuntos de S.
Este conjunto potencia incluye a los subconjuntos formados por los miembros de S, a S mismo y al conjunto
vacío. El conjunto potencia siempre es escrito como 2S. Por ejemplo, el conjunto potencia 2{1,2,3} de {1, 2, 3}
es igual al conjunto {{1, 2, 3}, {1, 2}, {1, 3}, {2, 3}, {1}, {2}, {3}, Ø}. El conjunto original tiene un cardinal igual
a 3, y resulta que la cardinalidad del conjunto potencia es 23=8. Esta notación ejemplifica una convención
general para denotar a los conjuntos basándose en su cardinalidad.
20
Starr, Ross M. (1997). General Equilibrium Theory, Cambridge University Press.
XVI. Teoría de los juegos 448

este caso S es el conjunto de n-uplas de precios de los bienes. φ(x) es elegida como una función
cuyo resultado es diferente a su argumento en tanto que la precio-upla x no iguale a la oferta con
la demanda en todos los mercados. Aquí el desafío consiste en construir φ de tal manera que
tenga esta propiedad además de satisfacer las restantes condiciones del teorema de Kakutani.
Esto se puede lograr si φ tiene un punto fijo de acuerdo con el teorema. Por la forma en que ha
sido construido, este punto fijo debe corresponder a una n-upla de precios que iguala a la oferta
con la demanda en todos los mercados.

Hubo aplicaciones a comienzos de la década a problemas militares tácticos, como la defensa anti-
misilística, el coronel Blotto, duelos, etc. Luego el énfasis se desplazó hacia la disuasión y a la
guerra fría, con contribuciones como las de Kahn, Kissinger y Schelling. En 1954 Shapley y
Shubik publicaron un documento fundamental sobre el valor de un juego de votación como un
índice de poder. Y en 1959 tuvo lugar el redescubrimiento espectacular de Martin Shubik del
núcleo de un mercado en los escritos de Edgeworth (1881).

Desde entonces, la mayor aplicación de la teoría de los juegos ha sido a temas económicos. Otras
modelizaciones de juegos que han tenido notoriedad son los juegos estocásticos y dinámicos,
repetidos, con o sin información completa, los juegos supervivencia (Milnor y Shapley, 1957; Luce
y Raiffa, 1957; Shubik, 1959), los juegos de ruina (Rosenthal y Rubinstein, 1984), los recursivos
(Everett, 1957) y otros modelos similares. Dos modelos han sido particularmente exitosos: 1) los
juegos estocásticos que atienden a la cuestión de que las acciones actuales afectan las futuras
oportunidades. Shapley (1953) demostró que los juegos estocásticos en un entorno estrictamente
competitivo, con los pagos futuros descontados a una tasa fija, son determinados; es decir tienen
estrategias óptimas estacionarias (dependen solamente del juego que es jugado, no de la historia
ni tampoco de la fecha). 2) los juegos repetidos que modelizan el costado psicológico o
informativo de relaciones que continúan a través del tiempo. La teoría permite predecir fenómenos
como la cooperación, el altruismo, la confianza, el castigo y la venganza.

El Principio de Equivalencia Un aspecto interesante que conecta a la teoría de los juegos con la
economía es la relación entre los precios de equilibrio de una economía competitiva de mercado, y
todas las soluciones importantes del juego correspondiente. Por economía de mercado se
entiende una economía de intercambio puro, o una economía de producción con rendimientos
constantes a escala. Decimos que una economía es competitiva si tiene muchos agentes, cada
uno de los cuales tiene una incidencia demasiado pequeña sobre la dotación como para ser tenido
en cuenta. Esto condujo a tres enfoques. En el enfoque asintótico, los agentes tienden a infinito, y
se observa que el concepto de solución aplicable – núcleo 21 , valor, conjunto de negociación 22 ,
equilibrio estratégico – tiende hacia el conjunto de asignaciones competitivas. Pero estos son
temas que abordaremos en el punto 3.

2.6 Juegos en forma estratégica

21
En el contexto de juegos coalicionales (juegos cooperativos) surge la idea del núcleo de una economía,
una noción fácil de entender en una economía simple en la que sólo hay un conjunto de agentes
individuales, cada uno de ellos dotado con una cantidad determinada de cada uno de los bienes existentes.
En esta economía de intercambio puro, el núcleo es un concepto de solución muy general. Una asignación
del total de los bienes existentes entre los jugadores estará "bloqueada" si hay una coalición de individuos
que, con sus propias dotaciones iniciales de bienes (que pueden repartírselas sin problemas debido a su
capacidad de comprometerse firmemente), puede mejorar a todos sus componentes en relación a la
asignación que estamos considerando. Pues bien, el núcleo de esa economía está formado por todas las
asignaciones que no están "bloqueadas" por ninguna coalición, incluyendo la formada por todos ellos.
22
Un conjunto de negociación está formado por las posibles propuestas que los agentes pueden realizar.
XVI. Teoría de los juegos 449

Vamos a desarrollar algo más profundamente la teoría de los juegos no-cooperativos que son
jugados sólo una vez, con un número finito de jugadores y en los cuales cada jugador dispone de
un número finito de estrategias 23 . Trabajaremos sobre la forma estratégica (o normal) del juego.
El paradigma que desarrollaremos es el de los juegos bi-personales con una matriz de pagos de
movimientos simultáneos, aunque este esquema puede ser generalizado con facilidad. La forma
estratégica (o normal) de un juego es una descripción natural y adecuada de un juego con
movimientos simultáneos. También constituye una plataforma de análisis de juegos más
complicados en sentido temporal o de información. Se define a la forma estratégica en términos
de sus partes constitutivas: jugadores, acciones y preferencias. Las estrategias mixtas son
randomizaciones sobre las acciones. La primera etapa es la más simple, consistente en el
problema de ver qué decisión tomaría un jugador dadas sus creencias sobre las decisiones de sus
oponentes. No trataremos la parte más difícil de las teoría de los juegos: qué creencias racionales
tendrán los jugadores sobre las decisiones de sus adversarios.

Estrategias individuales

Disponemos de un conjunto finito no vacío de jugadores I de n∈N≡{1, 2, ...} jugadores


(I={1,...,n}). El i-ésimo jugador (i∈I) tiene un especio no vacío de estrategias Si. Este espacio Si es
finito. Éstas constituyen las estrategias puras que serán distinguidas de las mixtas,
randomizaciones sobre las estrategias puras 24 .

Perfiles estratégicos

Supondremos que todos los jugadores aplican sus estrategias al mismo tiempo: el jugador 1 aplica
s1∈S1, el jugador 2 s2∈S2, etc. Al conjunto de estrategias elegidas por los n jugadores (una n-
upla) lo denotamos como: s=(s1,…,sn).

Este vector de n dimensiones de estrategias individuales es denominado un perfil estratégico.


Cada combinación distinta de estrategias individuales da lugar a un perfil estratégico distinto. El
conjunto de todos los perfiles estratégicos es llamado el espacio de perfiles S. Éste es
simplemente el producto cartesiano de los espacios estratégicos Si de cada jugador. El jugador i a
veces está interesado en las estrategias que podrían elegir los restantes n-1. Esta (n-1)-upla de
estrategias, denominada perfil estratégico reducido, viene dada por s-i=(s1,s2,…,si-1,si+1, …sn). A
cada jugador I le corresponde un espacio de todas las estrategias reducidas de la forma anterior

S-i=S1X...XSi-1XSi+1X…XSn =╳j∈I∖{i}Sj.

Pagos

Cuando todos los jugadores juegan en forma simultánea sus estrategias individuales, sus
elecciones resultan en un perfil de estrategias s∈S, que es denominado el resultado del juego.

23
Ustedes puede consultar como referencia Jim Ratliff, A Graduate Course in Game Theory.
24
Una estrategia no es necesariamente una sola acción, simple y elemental; en un juego con estructura
temporal puede ser una secuencia muy compleja de acciones que dependen de acciones simples
individuales adoptadas por todos los demás jugadores. Esto se aprecia cuando se transforma una
descripción en forma extensiva de un juego en su forma estratégica. El término “forma estratégica” se deriva
precisamente de que el formalismo presente ignora toda la complejidad potencial y considera a las
estrategias como los términos primitivos de la teoría.
XVI. Teoría de los juegos 450

Cada jugador tiene preferencias sobre estos resultados. Supondremos que las preferencias de
loterías sobre S pueden ser representadas por una función de utilidad de von Neumann-
Morgenstern ui: S→R.

Loterías

Sea x un "resultado" y X un conjunto de resultados. Sea p una medida simple de probabilidad en X, luego p
= (p(x1), p(x2), ..., p(xn)) donde p(xi) son las probabilidades de que ocurra el resultado xi∈X, i.e. p(xi) ≥ 0 para
todos los i = 1, ..., n y ∑i=1np(xi) = 1. Observen que en el caso de medidas simples de probabilidad, existen
elementos finitos x∈X para los cuales p(x)>0 (p tiene "soporte finito”).Definimos ∆(X) como el conjunto de
medidas de probabilidad simples en X. Una lotería particular es un punto en ∆(X).

Una de las primeras cuestiones a responder es ¿cómo evaluaría un agente una lotería compuesta, es decir
una lotería que da “tickets” para otra lotería, en lugar de proporcionar un premio? Podemos reducir las
loterías compuestas a loterías simples combinando las probabilidades de las loterías de manera de obtener
como resultado final una única distribución de probabilidad sobre los resultados. Para verlo, supóngase una
lotería r con dos resultados posibles: con 50% de probabilidad, da un ticket para participar en otra lotería p,
mientras que el 50% restante da un ticket para participar en otra lotería diferente q. Por lo tanto, r = 0.5p +
0.5q. En la figura 1b se ilustra cómo se reduce r a una lotería compuesta.

En la Figura 1a, la lotería simple p tiene pagos (x1,x2,x3)=(0,2,1) con probabilidades respectivas
(p1,p2,p3)=(0.5,0.2,0.3). La lotería simple q tiene pagos (y1,y2)=(2,3) con probabilidades (q1,q2)=(0.6,0.4). Por
lo tanto, combinando el conjunto de resultados de la derecha de la Fig. 1b la lotería compuesta r tendrá
pagos (z1,z2,z3,z4)=(0,1,2,3). Las probabilidades de estos resultados de r se obtienen tomando la
combinación lineal de las probabilidades de las loterías originales: si el resultado 2 tenía probabilidad 0.2 en
la lotería p y 0.6 en la lotería q, tendrá probabilidad 0.5(0.2)+0.5(0.6)=0.4 en la lotería compuesta r.
También, si el resultado 1 tiene probabilidad 0.3 en p y 0 en q, tendrá probabilidad 0.5(0.3)+0.5(0)=0.15 en
la lotería r. En resumen, la lotería compuesta tendrá resultados (z1,z2,z3,z4)=(0,1,2,3) con probabilidades
respectivas (r1,r2,r3,r4)=(0.25,0.15,0.4,0.2).

Fig. 1a – Dos loterías simples Fig. 1b – Lotería compuesta

En general, una lotería compuesta es un conjunto de K loterías simples {pk}k=1K conectadas por
probabilidades {αk}k=1K con ∑k=1K αk=1 de tal manera que se tiene una lotería pk con probabilidad αk. Por lo
tanto, una lotería compuesta tiene la forma q =α1p1+α2p2... +αKpK. La lotería compuesta puede ser reducida
a una lotería “simple” dado que q(xi)= α1p1(xi)+ α2p2(xi) + ...+ αKpK(xi) puede ser interpretada como la
probabilidad de que ocurra xi∈X. Esto se logra reconociendo que ∑k=1K αk=1 y ∑i=1n pi(xi)=1. Definiendo q(xi)
=∑k αk pk(xi) se tiene ∑i=1n q(xi) =∑k αk ( pk(xi)) =∑k αk=1. Por lo tanto, q=(α1p1, ..., αkpk) es en sí una lotería
XVI. Teoría de los juegos 451

simple. Como resultado, el conjunto de loterías simples en X, ∆(X), es un conjunto convexo: para toda p,
q∈∆(X), αp+(1-α)q∈∆(X), para todo α∈(0,1).

En la hipótesis de von Neumann-Morgenstern, las probabilidades son “objetivas” o exógenamente dadas


por la “Naturaleza”, no pudiendo ser influidas por el agente. Empero, el problema de una persona bajo
incertidumbre es que debe elegir entre probabilidades, hallando la “mejor” lotería en ∆(X). Una de las
contribuciones más importantes de von Neumann y Morgenstern a la economía fue demostrar que si un
agente tiene preferencias definidas sobre loterías, existirá una función de utilidad U: ∆(X)→R que asigna
utilidad a cada lotería p∈∆(X) que representa esas preferencias (Cap. IX).

¡Pero si las loterías son meras distribuciones no parece tener ningún sentido que una persona prefiera una
distribución particular a otra! Siguiendo la historia de la teoría de la utilidad desde Bernoulli, ¡parece claro
que la gente deriva bienestar de las consecuencias, x∈X! Al fin de cuentas, no comemos probabilidades
sino manzanas. Empero, von Neumann y Morgenstern sugieren precisamente lo contrario: ¡la gente deriva
su bienestar de loterías y no de manzanas! En otros términos, las preferencias de la gente están definidas
sobre las loterías y a partir de las mismas, en combinación con probabilidades objetivas, podemos deducir lo
que tienen que ser las preferencias subyacentes. En la teoría de von Neumann-Morgenstern, y a contrario
sensu de la teoría usual, las preferencias por las loterías anteceden lógicamente a las preferencias sobre los
resultados. Pero el motivo es muy simple, si uno lo piensa un poco. Sea una situación con dos resultados
posibles, o bien $10 o $0. Obviamente, la gente prefiere $10 a $0. Ahora consideremos dos loterías: en A,
ustedes reciben $10 con 90% de probabilidad y $0 con 10% de probabilidad; en B, ustedes reciben $10 con
40% de probabilidad y $0 con 60% de probabilidad, Obviamente, la primera lotería A es mejor que la B, y
podemos afirmar sobre el rango de resultados X=($10,0), la distribución p=(90%,10%) es preferida a la
distribución (40%,60%). ¿Y si las loterías no se distribuyen exactamente sobre los mismos resultados? En
ese caso podemos lograrlo asignando probabilidad 0 a los resultados no listados en esa lotería. Por
ejemplo, en la Figura 1a, las loterías p y q tienen diferentes resultados. Haciendo que el conjunto de
resultados completo sea (0,1,2,3), luego la distribución implícita en la lotería p es (0.5,0.3,0.2,0) mientras
que la distribución implícita por la lotería q es (0,0,0.6,0.4). Por consiguiente, preferencias entre loterías con
distintos resultados pueden ser replanteadas como preferencias entre distribuciones de probabilidad sobre
el mismo conjunto de resultados reajustando de manera acorde el conjunto de resultados. El gran insight de
von Neumann y Morgenstern fue evitar la definición de preferencias sobre resultados, captando todo lo
demás en términos de preferencias sobre loterías.

Concluído el juego, cada jugador i∈I recibe un pago ui(s)=ui(<si,s-i>). Los pagos individuales para
los n jugadores y un perfil particular de estrategias s definen un vector de pagos correspondiente a
dicho perfil estratégico u(s)=(u1(s), u2(s), ...,un(s)), es decir u: S→Rn. Nuestro juego puede ser
descripto plenamente por un triple (I,S,u), es decir por un conjunto de jugadores I, un espacio de
perfiles S, y un vector u de funciones de utilidad de von Neumann-Morgenstern definido sobre S.

La mejor respuesta a estrategias puras

Asumimos habitualmente que todos los jugadores son racionales, lo que significa que cada
jugador maximizará su utilidad esperada dadas sus creencias sobre las acciones que elegirán los
demás. Nos concentraremos por ahora en lo que podríamos llamar la “parte fácil” de la teoría de
los Juegos, que consiste en formarse una idea sobre lo que harán los demás dadas sus creencias.
Nos preguntamos: si el jugador i sabe (léase “cree con certidumbre”) la estrategia que jugarán los
demás, ¿cuál es la estrategia que más le conviene? Obviamente, la mejor respuesta a la jugada
de sus adversarios.

Decimos que una estrategia si*∈Si para el jugador i es una mejor respuesta al perfil estratégico
reducido s-i∈S-i si y sólo si (∀si∈Si) ui(si*, s-i)≥ui(〈si*,s-i〉i) o, en forma equivalente,

si*∈arg max si∈Si ui(〈si*,s-i〉i).


XVI. Teoría de los juegos 452

Observen que esta definición es débil, en el siguiente sentido: la mejor respuesta puede que no le
dé a i estrictamente más que cualquier otra elección estratégica. Pero al menos le proporciona
una respuesta óptima. En otras palabras, no siempre se tendrá una función de mejor respuesta
que indique la mejor respuesta única de i a algún perfil estratégico reducido s--i ∈ S-i, pero
tendremos una correspondencia de mejor respuesta de i.

Estrategias mixtas

Hasta ahora nos hemos concentrado en las estrategias puras, que si son jugadas implican que los
pagos a todos los actores son determinísticos. Si las elecciones son aleatorias debemos incluir
elecciones randomizadas. Estipulamos que la randomización realizada por cada jugador es
independiente de las de los demás. Cuando un jugador i∈ I elige una estrategia randomizada,
todo otro jugador j∈ I╲{i} debe estar en la incertidumbre sobre qué estrategia pura si∈ Si está
eligiendo el jugador i-ésimo. Si abandonamos este concepto, ello nos conduce a la noción de
estrategias correlacionadas 25 .

Una estrategia mixta especifica un valor dentro del rango [0,1] para cada si∈Si. Cada jugador
elige una y sólo una estrategia pura si∈Si en cada jugada del juego. Luego cualquier estrategia
mixta σi∈∆(Si) debe ser tal que la suma de las probabilidades con que son jugadas las estrategias
puras sea uno, es decir ∑si∈Si σi(Si)=1. Esta propiedad se satisface si σi(Si) es una distribución de
probabilidad sobre Si. Ésta es la justificación de utilizar una distribución de probabilidad para
representar a una estrategia mixta.

Siguiendo una idea equivalente a como se definió un perfil de estrategias puras se puede definir
un perfil de estrategias mixtas σ; el espacio de estrategias mixtas Σ; y al espacio soporte de la
estrategia mixta sop(σi) como el conjunto de estrategias puras a las que se asigna una
probabilidad positiva.

Puntos de equilibrio en estrategias mixtas

En el cuadro siguiente, supóngase que el jugador 1 selecciona la estrategia si∈Si1 y el jugador 2


selecciona la estrategia sj∈Sj2, y por consiguiente el rendimiento de 1 es uij1≡∏ij1 y análogamente
el rendimiento de 2 es uij2≡∏ij2. Suponiendo que pi1 es la probabilidad del jugador 1 de seleccionar
la estrategia pura si, si∈Si1 la estrategia mixta para el jugador 1 será expresada como:

p1=(p11,p21, ...,pm1) con p11’=1, p1≥0.

En forma análoga, si pj2 es la probabilidad del jugador 2 de seleccionar la estrategia pura sj, sj∈Sj2
la estrategia mixta para el jugador 2 viene dada por

p2=(p12,p22, ...,pn2) con p21’=1, p2≥0.

Un punto de equilibrio en estrategias mixtas es entonces el par de vectores p1* y p2* cada uno de
los cuales es una estrategia óptima, en el sentido de maximizar el rendimiento esperado,
suponiendo que el otro jugador emplea su estrategia mixta (óptima). Se tiene por lo tanto:
25
Aumann, Robert J. [1987] “Correlated Equilibrium as an Expression of Bayesian Rationality,”
Econometrica 55 1 (January).
XVI. Teoría de los juegos 453

p1Π1p2*≤p1*Π1p2* para toda p1


p1*Π2p2≤p1*Π2p2* para toda p2 para toda p2.

Para todo juego finito bi-personal existe un par de vectores de estrategias mixtas como las
anteriores, que definen un equilibrio, pero este par no tiene por qué ser único, ni tampoco tiene por
qué dar pagos únicos (esperados). En términos generales, existe un equilibrio de estrategias
mixtas para todo juego de n personas con un número finito de estrategias. El equilibrio es un
conjunto de estrategias mixtas para los jugadores tal que ninguno de los jugadores puede mejorar
su situación mediante un cambio unilateral de sus estrategias mixtas.

Jugador 2 sigue la estrategia


S12 S22 Sj2 Sn2
1
S1 (Π111,Π112) 1 2
(Π12 ,Π12 ) ... ... (Π1n1,Π1n2)
Jugador 1 S21 (Π211,Π212) 1 2
(Π22 ,Π22 ) ... ...
sigue la ... ... ... (Πij1,Πij2) ...
estrategia Si1

Sm1 (Πm11,Πm12) (Πm21,Πm22) (Πmn1,Πmn2)

2.7 Racionalidad limitada

Hasta aquí siempre hemos supuesto que los jugadores disponen de una ilimitada capacidad para
jugar el juego – aún hasta el punto de que consideran cada juego de ajedrez posible antes de
hacer su primer movimiento. El motivo de este supuesto no es que sea un supuesto realista. La
razón es que resulta relativamente simple describir un desarrollo perfecto del juego – cualquiera
sea el juego, la estrategia perfecta es la que produce el mejor resultado.

Es mucho más difícil desarrollar una teoría sobre cuán imperfectas son las decisiones de un
jugador más realista, con capacidades limitadas. Ha habido numerosos intentos de economistas y
teóricos de los juegos de sortear este problema, incorporando de alguna manera la idea de que
los jugadores tienen un monto limitado de memoria, inteligencia y tiempo para resolver el juego.

Uno de los intentos más interesantes implicó combinar la teoría de los juegos con otro conjunto de
ideas elaboradas también por John Von Neumann – la teoría de las computadoras. No podemos
definir claramente qué tipo de error puede cometer un ser humano, pero podemos establecer
claramente qué tipos de estrategias puede seguir una computadora. Si reemplazamos al ser
humano por la computadora, podemos asignar un significado preciso a la idea de racionalidad
limitada. Al hacerlo así, podemos resolver esas dificultades de la teoría de los juegos creadas por
el “supuesto simplificador” de racionalidad ilimitada.

2.8 Teoría Experimental de los Juegos

Hasta ahora, hemos discutido teoría. Los juegos también pueden ser analizados mediante el
experimento de observar a la gente jugando y ver lo que pasa. Este tipo de estudios es común
entre los economistas y los psicólogos.

Recientemente apareció una técnica experimental nueva diferente. Hace unos pocos años, el
científico político Robert Axelrod llevó a cabo un torneo del dilema del prisionero. Invitó a todas las
XVI. Teoría de los juegos 454

personas a proponer estrategias para el dilema repetido; cada estrategia debía tener la forma de
un programa de cómputo. Cargó todas las estrategias en una computadora y corrió el torneo, en el
cual cada programa jugó 200 veces contra cada otro programa. Cuando el torneo terminó sumó
las ganancias del programa e informó el score resultante. Dieciséis programas fueron propuestos,
algunos muy complejos. Entre los 14 participantes, Anatol Rapoport presentó un programa que
consistía en 4 líneas en BASIC, y al que llamó Tit for Tat (“ojo por ojo”). Sólo tenía dos reglas:

Comenzar colaborando
Hacer lo que tu oponente hizo la ronda anterior

Era la más sencilla de todas las estrategias presentadas, y fue la que obtuvo la puntuación más
alta. Después de la publicación de los resultados, se organizó un segundo torneo, en el que el
número de rondas a jugar por partida sería aleatorio (para no crear una ronda especial, la final, en
la que se favorece la deserción). A esta competición se presentaron 62 participantes, entre ellos el
mismo Tit for Tat. De nuevo, obtuvo la mayor puntuación.

Robert Axelrod relacionó el éxito de esta estrategia en el dilema del prisionero con sus
características de "amabilidad", "provocabilidad" y "capacidad de perdón". Una estrategia "amable"
es aquella en la que nunca se es el primero en desertar. Una estrategia "provocable" es aquella
en la que se responde inmediatamente a la deserción de un oponente. Una estrategia con
"capacidad de perdón" vuelve rápidamente a la cooperación si su oponente lo hace. Estas
características hacen que el funcionamiento de esta estrategia sea fácil de comprender por el
oponente, y se pueda así encontrar una forma de trabajar con él. Entre las variantes propuestas,
cabe mencionar:

Tit for Two Tats Es similar a Tit for Tat, pero sólo se venga si el oponente ha desertado las dos
veces anteriores. Esta generosidad hace que esté en desventaja frente a Tit for Tat, ya que se
puede ganar si sólo se deserta contra él en turnos alternos.

Tit for Tat desconfiado Similar a Tit for Tat, pero el primer turno deserta.

Sonda ingenua Comienza cooperando y siempre se venga de una deserción, pero de vez en
cuando deserta espontáneamente (por lo tanto, no es tan altruista como Tit for Tat). Está en
desventaja con otras estrategias recíprocas como Tit for Tat misma, porque puede iniciar una
cadena de recriminaciones.

Sonda con remordimientos Similar a sonda ingenua, pero nunca se venga de la venganza de una
de sus deserciones. Así, elimina las recriminaciones mutuas.

Explorador Deserta en la primera jugada, y si su oponente responde vengándose (con lo que es


una estrategia recíproca), juega Tit for Tat en adelante. Si su oponente no responde, alterna
deserción con cooperación.

Vengativo Comienza colaborando, pero una vez que su oponente deserta, deserta siempre.

Si bien estos ensayos no son una demostración matemática de la superioridad de esa estrategia,
constituyen una evidencia del éxito del ojo-por-ojo.

A esta altura uno se percata de que el término “teoría de los juegos” es un poco engañoso, porque
sus aplicaciones son vastas: economía ciencia política, relaciones internacionales, relaciones
XVI. Teoría de los juegos 455

interpersonales, sociología, etc. Sólo en economía hay una enorme cantidad de aplicaciones que
van creciendo con el tiempo.

3. Juegos Cooperativos: Preliminares 26

El enfoque no cooperativo de la teoría de los juegos facilita un lenguaje rico y desarrolla útiles instrumentos
para analizar muchas situaciones estratégicas. Una ventaja del enfoque es que puede tratar hasta en sus
mínimos detalles a una situación para analizar el impacto final. Empero, tiene la limitación de que sus
predicciones pueden ser altamente sensibles a estos detalles. Por tal motivo, conviene analizar
aproximaciones más abstractas que permitan obtener conclusiones independientes de esos detalles. El
enfoque de los juegos cooperativos es una de esas aproximaciones.

Los aspectos básicos de la teoría de los juegos cooperativos son los siguientes. Sea N={1, ..., n} un
conjunto finito de jugadores. Para cada S⊂N (que denominaremos la coalición S) especificamos un
conjunto V(S) que contiene a │S│, que son los vectores de pago dimensionales factibles para la coalición S.
Así, se adopta una forma reducida porque no tenemos necesidad de explicar qué elecciones estratégicas
están por detrás de los vectores de pago en V(S). Esta formulación, denominada de función característica,
implícitamente supone que las acciones tomadas por la coalición complementaria (los jugadores que no
están en S) son incapaces de impedir los vectores de pago contenidos en V(S). Dada la colección de
conjuntos V(S), la teoría formula sus predicciones sobre la base de conceptos de solución.

Una solución es un mapa que asigna un conjunto de pagos en V(N) a cada función característica (V(S))S⊆N.
Luego, una solución prescribe un conjunto, aunque puede asignar un único punto (cuando asigna un único
vector de pagos como función de los aspectos fundamentales del problema). El concepto de solución
cooperativa cuyo valor es un conjunto que tiene el rol destacado es el núcleo (core), en tanto que los
conceptos más utilizados a valor único son las soluciones cooperativas de Nash y el valor de Shapley. Una
distribución de los pagos logrados por agentes que cooperan entre sí es denominada una imputación.
Intuitivamente, el núcleo es el conjunto de imputaciones contra las cuales ninguna coalición puede proponer
una alternativa que preferirían y que podrían obtener aún actuando solos.

Hay varios criterios para establecer cuándo es razonable una solución cooperativa. Uno es defendiéndola
mediante la definición. Con el núcleo esto es relevante: en un contexto en el que los jugadores pueden
formar grupos libremente, la predicción debería ser vectores de pago que no pueden ser mejorados por
ninguna coalición. Pero las coaliciones son formadas por jugadores individuales. Por ello, la solución
cooperativa debe entenderse como el resultado de una serie de problemas estratégicos enfrentados por los
jugadores individuales. Segundo, nuevas conexiones y diferencias entre las soluciones pueden ser
descubiertas a partir de los distintos procesos de negociación que conducen a cada una de ellas. Luego, el
resultado del programa de Nash, referido como “fundamentación no-cooperativa” o “implementación no-
cooperativa” de una solución cooperativa realza su significado al ser vista desde una nueva perspectiva. De
esta manera podríamos abrir la “caja negra” de cómo llegó a formarse una coalición.

3.1 La solución de negociación de Nash

Un caso particular de una función característica es un problema de negociación de dos jugadores. N={1,2}
es el conjunto de jugadores. El conjunto V({1,2}) es un conjunto compacto y convexo de R2 y constituye el
conjunto de pagos factibles si ambos jugadores llegan a un acuerdo. La compacidad es consecuencia de
una torta de tamaño dado que las partes se dividen entre sí, y la convexidad es consecuencia de la utilidad
esperada y del uso potencial de loterías. Los conjuntos (V{i})i∈N son subconjuntos de R, y sea du=max V({i})
el pago de desacuerdo del jugador i 27 . Se supone que V({1,2}) contiene vectores de pago que dominan en

26
Existe una tendencia a dar prioridad a los juegos no cooperativos en desmedro de los cooperativos (v.
p.ej. Mas-Colell, Whinston & Green, ob. cit.). La teoría de los juegos cooperativos ha jugado un rol
importante en la teoría del equilibrio general, por cuyo motivo es conveniente hacer aquí una breve visita.
27
Esto es, el pago que recibirá i si las partes fracasan en alcanzar un acuerdo.
XVI. Teoría de los juegos 456

sentido de Pareto 28 a los pagos de desacuerdo. Una solución asigna un par de pagos factibles a cada
problema de negociación.

Éste es el esquema que introdujo Nash en 1950 cuando propuso cuatro axiomas que debería tener una
solución. 1º) La utilidad esperada implica que, si las funciones de pago están sujetas a una transformación
afín 29 , lo mismo debe suceder con la solución (invariancia con respecto a la escala). 2º) La solución debe
ser eficiente en sentido de Pareto. 3º) Si el conjunto V({1,2}) es simétrico con respecto a la bisectriz de 45º y
d1=d2, la solución debe yacer en la bisectriz (simetría). 4º y último) La solución debe ser independiente de
alternativas “irrelevantes”, es decir debe seleccionar el mismo punto si sigue siendo factible una vez que se
han eliminado otros puntos del conjunto factible. Por el supuesto 1º), no perdemos generalidad en
normalizar el punto de pagos de desacuerdo en 0. Al problema resultante lo llamamos problema
normalizado. Nash demostró que existe una única solución que satisface los cuatro axiomas, y es la que
asigna a cada problema normalizado el punto (u1,u2) que maximiza el producto v1v2 sobre todos los (v1,v2)∈
V({1,2}). Ésta es la que hoy llamamos la solución de Nash. Esta solución abunda en aplicaciones, y es
considerada, en vista de los axiomas, como una solución normativa condicional.

Luego (en 1953 30 ) Nash facilitó un enfoque no cooperativo de la solución a que había llegado
normativamente. Lo hizo mediante un ejemplo simple de demanda. A los dos jugadores se les requiere que
demanden en forma simultánea un pago: el jugador 1 demanda v1 y el jugador 2 demanda v2. Si el pago es
factible, es decir (v1,v2)∈ V({1,2}), tiene lugar el acuerdo correspondiente y la división de la torta a fin de
implementar estos pagos. Si no, hay desacuerdo y los pagos son 0. Para ejemplificar, pensemos que existe
una torta física de tamaño 1 que se crea si el acuerdo es alcanzado, en tanto que no se crea nada si no.
Luego, la demanda vi del jugador i corresponde a una participación xi en la torta, 0≤xi≤1, tal que la utilidad o
pago de i de recibir xi es ui. El modelo de juego de demanda de Nash admite un continuo de equilibrios de
Nash. En efecto, todo punto de la frontera de Pareto de V({1,2}) es un resultado de equilibrio de Nash, como
también lo es el punto de pagos de desacuerdo si cada jugador demanda un pago que corresponde a toda
la torta. Empero, Nash introduce incertidumbre con respecto al tamaño de la torta. Entonces los jugadores,
al formular sus demandas, deben tener en cuenta que con cierta probabilidad el par de demandas puede
conducir al desacuerdo, aunque sumen menos que 1. Entonces se puede mostrar que la elección óptima de
demandas en un equilibrio de Nash del juego de demanda con una torta incierta converge a la solución de
pagos de Nash a medida que la incertidumbre se reduce. Luego, la solución de Nash surge como una regla
que iguala la ganancia marginal (via aumento de la participación de uno en la demanda) con la pérdida
marginal (via aumento de la probabilidad de desacuerdo) para cada jugador cuando el problema es
sometido a cierto ruido y las demandas son comprometidas en forma simultánea.
31
Rubinstein (en 1982 ) propuso un procedimiento no cooperativo distinto, en el cual la preferencia temporal-
impaciencia y credibilidad de las amenazas son las fuerzas principales que arrastran el equilibrio. El juego
es una sucesión de ofertas alternativas potencialmente infinitas. En el período 0, el jugador 1 comienza
haciendo una primera propuesta. Si el jugador 2 la acepta, el juego termina; si no, pasa otro período y el
que rechazó la propuesta hará una contrapropuesta en ese período, y así sucesivamente. Si δ∈[0,1] es el
factor de descuento común por período, con vi(.) la utilidad del jugador i sobre porciones de la torta, cóncava

28
Es decir, se trata del concepto de eficiencia de Pareto (también llamado óptimo de Pareto, Pareto-
optimalidad u óptimo paretiano) es aquella situación en la cual se cumple que no es posible beneficiar a
más elementos de un sistema sin perjudicar a otros. Se basa en criterios de utilidad: si algo genera o
produce provecho, comodidad, fruto o interés sin perjudicar a otro, provocará un proceso natural de
optimización hasta alcanzar el punto óptimo.
29
Una transformación afín mantiene la colinealidad (es decir, todos los puntos iniciales de una recta aún
están ubicados en una recta luego de la transformación) y la relación de distancia (es decir, el punto medio
inicial de una recta sigue siendo el punto medio luego de la transformación). En tal sentido, la afinidad se
refiere a una clase especial de transformaciones proyectivas que no trasladan ningún objeto desde el
espacio afín al plano en el infinito o recíprocamente.
30
Nash, John F. (1953), Two person cooperative games, Econometrica 21.
31
Rubinstein, A. (1982), Perfect equilibrium in a bargaining model, Econometrica 50.
XVI. Teoría de los juegos 457

y estrictamente monótona, el jugador i recibe una participación xi en el acuerdo alcanzado en el período t,


con un pago igual a δt-1vi(xi). El desacuerdo perpetuo conduce a un pago de 0.

Rubinstein demuestra que existe una única predicción de este juego, usando el concepto de equilibrio
perfecto del subjuego como concepto de solución – que es la herramienta habitual para descartar amenazas
no creíbles en juegos dinámicos de información completa 32 . Específicamente, el único equilibrio perfecto
del subjuego recomienda un acuerdo inmediato sobre la división (x,1-x) ofrecida por el jugador 1, e (y,1-y)
ofrecida por el jugador 2, con arreglo a:

v1(y)=δv1(x)
v2(1-x)=δv2(1-y).

Posteriormente, Binmore, Rubinstein y Wolinsky (en 1986) demostraron que independientemente de quién
haga la primera propuesta, los únicos pagos de equilibrio del juego de Rubinstein convergen a los pagos de
la solución de Nash a medida que δ→1 (x→y). Por lo tanto, las amenazas creíbles en negociaciones con
jugadores igualmente (y completamente pacientes) también conducen a la solución de Nash.

3.2 El valor de Shapley

Ahora veamos un juego de n jugadores con coaliciones con pagos transferibles entre los mismos 33 . Esto
significa que V(S), el conjunto factible de la coalición S, es el conjunto de pagos (Πi)i∈S que satisfacen ∑i∈S
Πi≤v(S) para algún número real v(S). Debe hacerse una distinción importante en los juegos cooperativos,
que es la que existe entre aquellos con pagos laterales, en los cuales los rendimientos son transferibles, y
aquellos sin pagos laterales, en los cuales los rendimientos no lo son. A los primeros los llamaremos de
utilidad transferible o juegos TU en su forma de función característica. El número v(S) es denominado el
valor de S, y expresa la posición inicial de S (es decir, la utilidad total máxima que el grupo de agentes

32
Un equilibrio perfecto del subjuego es un refinamiento del equilibrio de Nash utilizado en juegos
dinámicos. Un perfil estratégico es un equilibrio perfecto del subjuego si representa un equilibrio de Nash de
cualquier subjuego del juego original. De modo más informal, esto significa que (1) los jugadores juegan
sólo una parte del juego más amplio y (2) su conducta es un equilibrio de Nash de ese juego más pequeño.
Se dice entonces que su conducta es un equilibrio perfecto del juego más amplio. Una forma habitual de
determinar los equilibrios perfectos de subjuegos es mediante inducción hacia atrás. En primer término
consideramos las últimas acciones del juego y determinamos qué acciones debería adoptar el último actor a
fin de maximizar su utilidad. Suponemos que las adopta, y a continuación consideramos las acciones
anteriores a las últimas, eligiendo nuevamente aquellas que maximizan su utilidad. El proceso continúa
hasta que se llega a la primera movida del juego. Las estrategias subsistentes constituyen los equilibrios
perfectos del subjuego. No siempre podemos aplicar la inducción hacia atrás, por ejemplo en juegos de
información imperfecta o incompleta, ni tampoco en juegos de duración infinita.

Un subconjunto importante de los juegos secuenciales es el conjunto de los juegos de información perfecta.
Un juego es de información perfecta si todos los jugadores conocen los movimientos que han efectuado
previamente todos los otros jugadores; así que sólo los juegos secuenciales pueden ser juegos de
información perfecta, pues en los juegos simultáneos no todos los jugadores (a menudo ninguno) conocen
las acciones de los restantes. La información perfecta se confunde a menudo con la información completa,
que es un concepto similar. La información completa requiere que cada jugador conozca las estrategias y
recompensas del resto pero no necesariamente las acciones. Fue Reinhard Selten quien demostró que
todos los juegos que pueden ser descompuestos en sub-juegos que contienen al conjunto de todas las
elecciones disponibles en el juego principal tendrán estrategias de Equilibrio de Nash perfectas en el
subjuego. El procedimiento de inducción hacia atrás elimina ramas del juego que requerirían que el jugador
practicase movimientos no creíbles a partir de ese nodo (porque no son óptimas). Lo interesante de la
palabra “creíble” es que, tomadas en su conjunto, existen estrategias superiores a las estrategias perfectas
del subjuego, pero que no resultan creíbles en el sentido de que si amenazamos con tomarlas nos hacemos
daño con esas estrategias e impedimos alcanzar esa combinación de estrategias. Aquí pueden encontrar un
ejemplo de un Equilibrio de Nash perfecto del subjuego.
33
Esto puede justificarse porque la utilidad de los jugadores está representada por dinero.
XVI. Teoría de los juegos 458

puede alcanzar en una economía de intercambio mediante la redistribución de sus tenencias cuando la
utilidad es cuasi-lineal). Sin pérdida de generalidad, podemos describir a un juego TU como una colección
de números reales (v(S))S⊆ N. Luego, una solución es un mapa que asigna a cada juego TU un conjunto de
pagos en el conjunto V(N), es decir, vectores (Π1,...Πn) tales que ∑i∈N Πi≤v(N). En estas dos secciones
requerimos que la solución proporcione un único valor.

Shapley (en 1953 34 ) se interesó en resolver de manera equitativa el problema de distribución de un


excedente entre jugadores, teniendo en cuenta el valor de cada coalición. Impuso los siguientes axiomas: 1)
Los pagos deben sumar v(N) (eficiencia). 2) Si dos jugadores son sustitutos porque contribuyen con el
mismo grado a cada coalición, la solución debe tratarlos de modo igualitario (simetría). 3) La solución de la
suma de dos juegos TU debe ser igual a la suma de lo que corresponde a cada uno de los juegos
(aditividad). 4) Si un jugador no contribuye nada a ninguna coalición, en la solución no se le debe pagar
nada (dummy). Shapley obtuvo que bajo estos axiomas existe una única solución de los juegos TU, que hoy
es llamada la solución de Shapley, y que asigna a cada jugador i el rendimiento

Πi= ∑∀S⊂N γn(S)[v(S∪{i})-v(S)]

donde γn(S) es un factor de ponderación:

γn(S)=[s! (n-s-1)!] / n!

y s es el número de jugadores de S. Este factor de ponderación se basa en los siguientes hechos: la


coalición de n jugadores puede formarse de n! maneras diferentes; los s jugadores de la coalición S antes
de que se incorpore el jugador i pueden disponerse de S! maneras diferentes; y los n-s-1 jugadores que no
están en la coalición ampliada pueden asimismo disponerse de (n-s-1)! maneras diferentes. De este modo,
γn(S) es simplemente la probabilidad de que un jugador se una a la coalición S, suponiendo que las n
maneras de formar una coalición de n jugadores son todas igualmente probables. En la figura siguiente
tenemos el ejemplo de un juego de tres personas en forma de función característica:

v({∅})=0
v({1})=0 v({2})=0 v({3})=0
v({1,2})=0,1 v({1,3})=0,2 v({2,3})=0,2
v({1,2,3})=v(n)=1

Para el jugador 1, los casos son:

v({1})- v(∅)=0
v({1,2})-v({2})=0,1
v({1,3})-v({3})=0,2
v({1,2,3})-v({2,3})=0,8

y las ponderaciones aplicadas son 2/6, 1/6, 1/6 y 2/6 respectivamente. Luego, el pago del jugador 1 será:

Π1= (2/6) 0 + (1/6) (0,1) + (1/6) (0,2) + (2/6) (0,8) = 19/60.

Análogamente, el pago de 2 será 19/60 y el del jugador 3 es 22/60. Luego, la imputación del valor de Shapley
es (19/60,19/60,22/60). Éste tiende a dar una idea sobre el poder de cada uno de los jugadores según se ve
reflejado en el pago adicional resultante de la incorporación de este jugador a las coaliciones que no lo
incluían. Así, en este juego el tercer jugador tiene más poder que los otros jugadores y debería obtener más
que ellos, dado que las dos coaliciones de dos jugadores con el jugador 3 obtienen 0,2, mientras que

34
Shapley, L. S. (1953), A value for n-person games. In Contributions to the Theory of Games II, A.W.
Tucker and R.D. Luce (eds.), Princeton University Press.
XVI. Teoría de los juegos 459

aquella en la que no participa obtiene 0,1. La fórmula supone que cada jugador recibe el promedio de su
contribución a todas las coaliciones de las cuales es un miembro potencial.

3.3 El núcleo

El primero que introdujo en la teoría económica la idea de acuerdos inmunes a desvíos de las coaliciones
fue Edgeworth en 1881, que definió al conjunto de asignaciones estables desde el punto de vista de las
coaliciones formadas como “acuerdos finales”. Consideró que este concepto era una alternativa al equilibrio
walrasiano y también fue el primero en investigar las conexiones entre ambos conceptos. El concepto de
Edgeworth fue redescubierto por Gillies 35 y rebautizado como núcleo.

Continuamos suponiendo un juego TU. En este contexto, el núcleo es el conjunto de vectores de pago
Π=(Π1,...,Πn) factibles, es decir que satisfacen ∑i∈S Πi≤v(N), tales que no existe ninguna coalición S⊆N para
la cual se verifique ∑i∈S Πi< v(S). Si existiera tal coalición S, diremos que bloquea a Π, y Π es reputado
como inestable. Usualmente, el núcleo describe un conjunto de pagos, en lugar de uno solo, y también
pueden existir juegos con núcleo vacío.

Una imputación es un vector en un espacio euclídeo de dimensión n que representa los pagos que obtiene
cada uno de los jugadores en el juego: Π= (Π1,Π2, ..., Πn), donde Πi es el pago del jugador i, i=1, ..., n.
Tomando como ejemplo la tabla anterior, una imputación posible sería (0,3;0,2;0,5) donde el jugador 1
recibe 0,3, el jugador 2 recibe 0,2 y el jugador 3 recibe 0,5. Suponiendo que se tiene en cuenta a todos los
jugadores y pagos, los pagos totales que reciben todos los jugadores son iguales al pago que recibe la
coalición de todos los jugadores:

v(N)=∑i∊N Πi = ∑i=1nΠi

supuesto denominado como racionalidad del grupo. También es razonable suponer que ningún jugador va a
entrar a una coalición si no recibe al menos lo que recibiría actuando en forma independiente:

Πi≥ v({i}), para todo i∈ N.

Este supuesto es el de racionalidad individual. Estos dos supuestos limitan el número de imputaciones
posibles, pero aún así las imputaciones restantes forman un conjunto extremadamente grande, de modo
que el paso siguiente es sugerir algún criterio de dominancia entre imputaciones que permita limitar el
número de imputaciones consideradas. Un criterio débil de dominancia entre imputaciones fue propuesto
por von Neumann y Morgenstern. Dice que un conjunto de jugadores es efectivo para una imputación si
pueden, formando una coalición, obtener por sí mismos al menos lo que recibirían conjuntamente en la
imputación. Decimos que la coalición S es efectiva para la imputación Π= (Π1,Π2, ..., Πn), si:

v(S)≥ ∑i∈S Πi.

Por ejemplo, en el caso de un juego de tres personas en forma de función característica como el anterior, el
conjunto de jugadores {2,3} es efectivo para la imputación (0,95, 0, 0,05) dado que si ellos formasen su
propia coalición, recibirían conjuntamente 0,2, que es más de lo que recibirían en la imputación. Decimos
que la imputación Π1= (Π11,Π21, ..., Πn1) domina a la imputación Π2= (Π12,Π22, ..., Πn2), si existe una coalición
de jugadores efectiva para Π1 tal que cada jugador de la coalición recibe más en Π1 que en Π2; es decir, si
existe una coalición de jugadores S que es efectiva para Π1:

v(S) ≥ ∑i∈S Πi1

y cada miembro de la cual recibe más en Π1 que en Π2, a saber:

35
Gillies, D.B. (1959), Solutions to General non-zero-sum games, in A. W. Tucker and R. D. Luce (eds.),
Contributions to the Theory of Games IV, Princeton University Press.
XVI. Teoría de los juegos 460

Π1i>Π2i para todo i∈S.

A guisa de ejemplo, en la tabla anterior la imputación Π1 = (0,1;0,8;0,1) domina a Π2 = (0,05;0,9;0,05) dado


que la coalición {1,3} es efectiva para Π1 donde ambos jugadores 1 y 3 reciben más en Π1 que en Π2. Al
amenazar con la acción independiente, la coalición {1,3} puede asegurarse que la imputación
(0,05;0,9;0,05) jamás llegará a realizarse. Decimos que un conjunto de imputaciones es una solución de von
Neumann-Morgenstern si una imputación del conjunto no domina a ninguna otra imputación del conjunto, y
ninguna imputación no perteneciente al conjunto es dominada por alguna imputación del conjunto. Este
concepto de dominancia débil no permite en general obtener una imputación única, aunque permite reducir
la elección de imputaciones.

El núcleo es un criterio de dominancia entre las imputaciones, que es un


subconjunto de cada solución de von Neumann-Morgenstern, si es que
existe dicha solución. El número de imputaciones que debe
considerarse queda reducido en el núcleo al exigir que cada coalición
ejerza el mismo grado de racionalidad que un jugador individual, de
modo que la imputación distribuye a cada coalición al menos tanto como
ésta obtendría mediante la acción independiente. El núcleo es entonces
el conjunto de imputaciones que satisfacen la “racionalidad de la
coalición”, incluyendo la “racionalidad individual” cuando los
subconjuntos consten de jugadores individuales; la “racionalidad del
grupo”, caso en que el subconjunto sea la gran coalición de todos los
jugadores; y la racionalidad de todas las coaliciones de tamaño
intermedio. Por ejemplo, el núcleo del juego de tres personas descripto
más arriba exige en primer término identificar la frontera del simplex de
R3 que es el conjunto de imputaciones (Π1,Π2,Π3) tales que son no
negativas y su suma es la unidad, como se representa en la figura
adjunta.
Simplex bidimensional en 3
dimensiones
Los vértices del simplex son las imputaciones del simplex para las Vértices (1,0,0);(0,1,0);(0,0,1)
cuales un jugador se lleva todo. El núcleo es obtenido agregando sobre
la faceta del simplex las restricciones de racionalidad individual, de racionalidad del grupo y la racionalidad
de todas las coaliciones intermedias, lo que conduce a recortar partes de esta faceta 36 . Si existe el núcleo,
luego la imputación elegida debería pertenecer al núcleo, dado que en tal caso se toman en cuenta todas
las coaliciones. Empero, el núcleo es vacío en muchos juegos: ninguna imputación satisface las condiciones
de racionalidad de la coalición para todas las coaliciones. Por ejemplo, si en el juego anterior de 3 personas
todas las coaliciones de dos jugadores reciben 0,8 entonces el núcleo será vacío.

3.4 Principio de equivalencia

Una de las aplicaciones más famosas del núcleo es el llamado principio de equivalencia del núcleo, que
establece que el núcleo coincide con el conjunto de resultados competitivos (walrasianos) en mercados
competitivos con muchos comerciantes, cada uno de los cuales tiene una participación insignificante. Debe
mencionarse que en cualquier mercado – aún en aquellos con un pequeño número de participantes – todo
resultado competitivo está en el núcleo. Es la proposición recíproca la que requiere de un amplio número de
participantes, cada uno no significativo.

Conclusión sobre el núcleo La mayoría de las aplicaciones del núcleo han sido realizadas en contextos
económicos, específicamente a mercados de uno u otro tipo. La aplicación más importante es el principio de
equivalencia, que vincula al núcleo de un mercado perfectamente competitivo con sus equilibrios
competitivos. El núcleo expresa la idea de competencia desenfrenada; su carácter no vacío expresa la idea
de que la competencia puede conducir a la estabilidad, de que existe un resultado consistente con la
estabilidad. En la práctica esto sucede en contextos económicos como los descriptos hasta ahora. Los

36
Ver gráfico en M. Intriligator, ob.cit., Cap. 6.4.
XVI. Teoría de los juegos 461

contextos políticos son inherentemente menos estables, y a menudo tienen núcleos vacíos. Constituye un
punto de partida para otros conceptos más sofisticados como el conjunto estable de N-M, el nucleolo, y
otros. Por ello, el núcleo ocupa una posición central en la teoría de los juegos cooperativos.

4. Juegos repetidos

La teoría de los juegos repetidos ha pasado a ser un instrumento importante de análisis de las
ciencias del comportamiento (como la economía) y las biológicas. De hecho, facilita un modelo
central explicativo de cómo agentes egoistas pueden actuar cooperativa y eficientemente en una
relación de largo plazo. Ofrece una respuesta muy simple a la pregunta de por qué deberían
cooperar agentes egoistas: lo deben hacer para asegurarse la cooperación continuada en el
futuro. Para ilustrar este punto repasemos la tensión entre interés propio y cooperación del Dilema
del Prisionero, alterando un poco los valores de la matriz de pág. 432:

Cooperar (C) Desertar (D)


Cooperar (C) 2, 2 -1, 3
Desertar (D) 3, -1 0, 0

Ya sabemos que si el juego es jugado una sola vez, sea lo que haga el otro jugador, una
estrategia dominante de cada jugador es jugar la deserción. El resultado predicho es que al jugar
D, ambos obtienen un peor resultado que si hubieran jugado C.

Ahora imaginemos que el juego es repetido muchas veces – formalmente, infinitas veces – y que
a cada jugador le interesan sus pagos en el largo plazo más que en una jugada particular. A
diferencia de antes, ahora jugar en forma cooperativa puede ser de interés de cada jugador. De
hecho, la estrategia consistente en que cada jugador juega (i) C en la primera iteración, (ii)
continúa jugando C siempre que los demás jugadores hayan actuado cooperativamente en el
pasado, y (iii) juega D en cualquier otro caso (llamemos a esta estrategia CC ó cooperación
condicional) da lugar a un equilibrio en el siguiente sentido: si ambos agentes la adoptan, ninguno
tendrá incentivos a desviarse en forma unilateral. Para apreciar este resultado, observen que
cuando ambos jugadores siguen CC, sigue una corriente infinita de resultados cooperativos, que
otorga a cada jugador un pago promedio de 2 por período. Sin embargo, si un jugador se desvía
en forma unilateral hacia la otra estrategia, entonces sucede que: (a) en algún momento jugará D
– y en tal caso su adversario jugará D a partir de entonces, y por consiguiente el desertor obtuvo a
lo sumo un pago igual a cero, o también (b) a pesar del desvío, continúa jugando C en cada
iteración – y en tal caso, todavía obtiene un pago promedio de 2, y no gana nada con su desvío.
Luego, la repetición hace que la cooperación sea un resultado más plausible.

Lamentablemente, cooperar no es el único resultado plausible. Por ejemplo, la estrategia de jugar


siempre desertar (AD) también genera un equilibrio si ambos la adoptan. Y estos dos extremos –
CC, que conduce a cooperar en cada iteración, y AD, que no conduce a cooperación alguna – ¡no
son las únicas posibilidades! Un teorema popular de teoría de los juegos afirma que toda
posibilidad intermedia entre la cooperación plena y la completa deserción también puede ocurrir
en equilibrio. Así, la teoría no logra realizar predicciones claras sobre el comportamiento de
ninguna naturaleza. Prácticamente no da lugar a hipótesis no falsables.

Es de esperar que la evolución (biológica o cultural) ayude a despejar esta lobreguez predictiva.
Las fuerzas evolutivas fomentan a menudo la eficiencia, de manera que podría esperarse que la
conducta no cooperativa sea desterrada y en su lugar la presión selectiva promueva el
XVI. Teoría de los juegos 462

comportamiento cooperativo. Esta idea ha sido planteada con mucha fuerza por Axelrod 37 . Idea
central: supóngase que comenzamos con una población en la cual todos los jugadores juegan la
estrategia AD. Ahora, aparece un pequeño grupo de “mutantes” que usan la estrategia CC.
Observen que CC gana lo mismo (o sea, cero) que AD contra ellos mismos. Y CC gana un pago
de 2 contra ellos mismos, mientras que AD gana solamente 0 en promedio contra CC. Por lo
tanto, en términos esperados (suponiendo que pares de estrategias son tomadas al azar de toda
la población), CC se comporta mejor estrictamente que AD. Luego, con arreglo a la dinámica
evolutiva estándar, CC se reproducirá más rápidamente que AD y eventualmente se apoderará de
toda la población. Es decir que el comportamiento no cooperativo de AD será raleado.

Mas entre las estrategias no cooperativas, AD es poco representativa y fácil de ser expulsada. En
su lugar, consideren ALT, una estrategia que alterna entre C y D hasta que alguien rompe el
patrón alternante, a partir de cuyo punto juega siempre D. A diferencia de AD, una población de
ALTs no puede ser invadida por una estrategia mutante. Para apreciarlo, noten que un mutante
tendría que conformarse al patrón alternante, si no terminaría actuando peor (con un pago medio
de 0) que ALT que lo que haría ALT contra sí mismo (con un pago promedio de 1), y por lo tanto
no podría crecer con respecto a ALT. Pero un mutante que actuara conforme al patrón alternante
también fracasaría en términos esperados con respecto a ALT. Luego, ALT es evolutivamente
estable (EE) pese a ser bastante ineficiente y no cooperativo 38,39 .

Pero en cierto sentido ALT es demasiado inflexible. Después de todo, descansa en la alternación
perfecta: cualquier desvío del patrón C, D, C, D, C... es “castigado” por una sucesión infinita de
Ds. Ello sugiere que podría no irle demasiado bien en un contexto donde hay estrategias que no
siempre son exactamente ejecutadas, es decir cuando hay alguna probabilidad de que estas
estrategias cometan algún error. En tal entorno, ALT deja de ser EE. Consideremos
específicamente una estrategia mutante s’ idéntica a ALT excepto cuando se ha roto el patrón
alternante. En la iteración previa a la ruptura, s’ juega C (a diferencia de ALT que siempre juega D)
por un período – para dar una señal de su disposición a cooperar. Si el otro jugador también juega
C en esa iteración, entonces s’ juega C a partir de allí. Pero si el otro jugador juega D, s’ (como
también ALT) jugará D a partir de entonces.

Lema Si s’ está construida de esa manera, terminará invadiendo exitosamente a una población de
ALTs si las estrategias están sujetas a una pequeña probabilidad de ejecución errónea (o sea que
se rompe, con probabilidad positiva, el patrón alternante). Dem.) Observen que (i) s’ es idéntica a
ALT antes de la ruptura del patrón alternante; (ii) s’ y ALT reciben un pago de 0 por período contra
ALT una vez roto el patrón; (iii) s’ recibe un pago de casi 2 pero ALT recibe sólo 0 contra s’ luego
de la ruptura del patrón. Luego, en términos de expectativa, s’ se comporta mejor que ALT y
realizará una invasión exitosa.

37
Axelrod, R. (1984), The Evolution of Cooperation, Basic Books.
38
Dicho en forma aproximada, una estrategia s es EE si no existe una estrategia mutante s’ que tenga un
mejor rendimiento que s en términos esperados contra una población consistente mayormente de s pero
con una pequeña proporción de s’.
39
De hecho la situación es aún peor. Sea una estrategia que sigue en forma repetida el patrón C seguido
por dos Ds hasta que se rompe el patrón, en cuyo momento juega a partir de entonces D. Por el mismo
motivo que ALT, esta estrategia más elaborada es EE, aunque alcanza un rendimiento medio de ⅔. Si
seguimos agregando Ds al patrón repetido, podemos obtener una estrategia EE arbitrariamente próxima en
términos de pago a la estrategia plenamente no cooperativa AD.
XVI. Teoría de los juegos 463

Han sido caracterizados los pagos correspondientes a estrategias EE en juegos repetidos de dos
jugadores simétricos 40 cuando (i) existe una probabilidad positiva p en cada iteración de cometer
un error, y (ii) los jugadores descuentan los pagos futuros con una tasa de interés positiva r, de tal
manera que los jugadores, en lugar de maximizar los pagos promedio en el largo plazo,
maximizan el pago promedio descontado (r/1+r) ∑t=1∞(1/1+r)t-1 πt , donde πt es su pago en la
iteración t. Definamos a un par de pagos (vF, vC) donde vF (vC) es el pago al jugador fila (columna)
en un juego simétrico g como fuertemente eficiente si (a) (vF, vC) son pagos factibles de g y (b)
(vF+vC) maximizan la suma de pagos de los jugadores entre todos los pagos factibles de g. En el
Dilema del Prisionero de más arriba, los únicos pagos fuertemente eficientes son (2, 2). Pero en la
Batalla de los Sexos siguiente:

Ballet Boxeo
Boxeo 0, 0 1, 2
Ballet 2, 1 0, 0

cualquier combinación convexa de (1, 2) y (2, 1) es fuertemente eficiente (suponiendo que los
jugadores puedan jugar estrategias mixtas). Si llamamos vm al pago mínimo consistente con la
eficiencia fuerte, o sea:

vm=min{vF І (vF, vC) es fuertemente eficiente}

tenemos que vm=2 en el Dilema del Prisionero, y vm=1 en la Batalla de los Sexos.

Teorema 1

Dado ε>0, si p>0 y r>0 son suficientemente pequeñas, los pagos generados cuando ambos
jugadores utilizan una estrategia s EE no pueden ser menores que vm-ε. Este teorema afirma que
si la probabilidad de error y la tasa de descuento son pequeñas (pero positivas) los pagos
resultantes de una estrategia EE no pueden ser demasiado inferiores a vm.

Teorema 2

Sean (v, v) los pagos factibles y v≥vm. Para todo ε>0, existen r y p suficientemente pequeñas tales
que existe una estrategia EE s para la cual, si ambos jugadores la utilizan, los pagos
correspondientes están en un entorno ε de (v, v).

Para el Dilema del Prisionero, este Teorema 2 afirma que existe alguna estrategia EE que logra
(aproximadamente) la cooperación plena. ¿Qué forma tendría esta estrategia? Como sucede con
ALT, CC es demasiado inflexible cuando p es positiva: un error lleva a D para siempre. La
estrategia Tit-for-tat o de represalias equivalentes (jugar C en la primera iteración y a partir de
entonces jugar lo que jugó el otro jugador en la iteración previa), enfatizada por Axelrod y
Hamilton 41 también puede estar sujeta a desencaminarse como consecuencia de errores. Por
ejemplo, si el jugador fila (por error) juega D en la primera iteración, Tit-for-tat tendrá un jugador
columna que lo seguirá con D en la segunda iteración, lo que inducirá al jugador fila a jugar
nuevamente D en la tercera iteración, etc. Es decir, se producirá una seguidilla de Ds que se
interrumpirá sólo cuando alguien cometa otro error. Una estrategia más robusta es la siguiente:

40
Fudenberg, D. and E. Maskin (1990), “Evolution and Cooperation in Noisy Repeated Games”, American
Economic Review, 80. Un juego bi-personal es simétrico si ambos jugadores disponen del mismo conjunto
de acciones y si intercambiando a los jugadores los pagos correspondientes resultan intercambiados.
41
Axelrod, Robert and Hamilton, William D. (1981). "The Evolution of Cooperation." Science, 211.
XVI. Teoría de los juegos 464

jugar C en la primera movida, y a partir de allí jugar C si ambos jugadores jugaron C en la movida
previa o si ninguno lo hizo. Esta estrategia es EE para los pagos dados por el Dilema del
Prisionero.

A fin de apreciar cómo estrategias EE pueden dar lugar a pagos que no llegan a la cooperación
plena en juegos como el de la Batalla de los Sexos, vean el siguiente juego:

a b c d
a 0, 0 4, 1 0, 0 0, 0
b 1, 4 0, 0 0, 0 0, 0
c 0, 0 0, 0 0, 0 0, 0
d 0, 0 0, 0 0, 0 2, 2

Sea una estrategia s donde (i) se juega d siempre que en cada jugada pasada ya sea ambos
jugadores jugaron d, o ninguno lo hizo; (ii) se juega a para siempre si el otro jugador fue el primero
en desviarse de d; y (iii) se juega b para siempre si uno mismo fue el primero en desviarse de d.
Puede mostrarse que s es EE para r y p suficientemente pequeñas. Empero, la combinación (d,d)
genera pagos que no son fuertemente eficientes (en este ejemplo los pagos fuertemente eficientes
suman 5). Hay un motivo debido al cual a pesar de esta ineficiencia, s es invulnerable a la
invasión de mutantes: el “castigo” por desviarse de d es por sí mismo fuertemente eficiente – es
decir, el juego genera pagos hasta (1, 4) o (4, 1) – y por tanto no hay forma de que un mutante
pueda obtener un punto de apoyo contra s.

5. Algunos juegos simples 42

El juego del ultimatum

El juego del Ultimatum es un juego experimental de economía en el cual dos partes interactúan de
manera anónima y sólo una vez, por lo que la reciprocidad no es un problema. El primer jugador
propone cómo dividir una determinada suma de dinero con el segundo. Si éste último rechaza la
oferta, nadie obtiene nada. En cambio, si la acepta, el primer jugador obtiene lo que propuso y, el
segundo, el resto.

La complejidad de la experiencia radica en el mejor resultado a obtener, es decir, ninguno de los


dos jugadores preferiría irse con las manos vacías, pero el jugador 1 sabe que si no propone una
repartición que beneficie a ambos de igual manera las posibilidades de que el jugador 2 acepte
son menores. En contrapartida, el jugador 2 sabe que si acepta el beneficio será para ambos, (en
mayor, igual o menor medida dependiendo de la primera elección) por lo que debe elegir si
obtiene beneficio o no; a veces es mejor obtener 1 peso antes que nada, aunque el otro jugador
obtenga 99 pesos. Por lo antedicho, el Juego del Ultimatum muestra cómo a veces, aún a costo
de una pérdida existe la cooperación, aunque siempre en pos del mayor beneficio propio. Ambos
jugadores deben suponer y manejar las probables respuestas del otro, lo que es complejo.

Juego del dictador

El juego del dictador es un juego muy simple de economía experimental, similar al juego del
ultimatum. El primer jugador, el que propone, determina la asignación entre los dos jugadores de
alguna dotación (como un premio en metálico). El que responde en este caso simplemente recibe

42
Estos juegos están extraídos de Wikipedia.
XVI. Teoría de los juegos 465

la cantidad de la dotación que no se ha asignado a sí mismo el que propone. El papel del que
responde es totalmente pasivo (no toma decisiones en el juego).

El juego se ha usado para probar el modelo de conducta individual del homo œconomicus: si los
individuos se preocuparan sólo de su propia economía, los que proponen se quedarían con todos
los bienes y no darían nada al que responde. Sin embargo, Heinrich et al 43 descubrieron en un
amplio estudio cultural que los que proponen asignan una parte no nula de la dotación al que
responde. (Este estudio de 2004 es una extensión de desarrollos anteriores en el juego del
dictador y en el de la impunidad). Este resultado demuestra que los que proponen fallan al
maximizar su propia utlidad esperada, o bien que la función de utilidad de los que proponen
incluye los beneficios reducidos para otros 44 . Sin embargo, se han propuesto otras explicaciones,
como la hipótesis del anonimato que dice que el experimento no está correctamente diseñado
para probar la conducta "altruista", ya que la presencia del experimentador impulsa al que propone
a evitar la aparición de la "codicia".

Juego del gallina

El juego del gallina (game of chicken) es aquel en el que cada uno de los dos jugadores conduce
un vehículo en dirección al del contrario y el primero que se desvía de la trayectoria de choque
pierde y es humillado por comportarse como un gallina. En la práctica, sólo algunos adolescentes
o jóvenes excesivamente impulsivos juegan al juego del gallina. El juego se basa en la idea de
crear presión hasta que uno de los participantes se eche atrás.

La expresión "juego del gallina" se aplica como metáfora a una situación en la que dos bandos se
enzarzan en una escalada en la que no tienen nada que ganar y en la que sólo el orgullo evita que
se echen atrás. Bertrand Russell comparó la carrera armamentística y la escalada nuclear al juego
del gallina. Uno de los primeros ejemplos de juego del gallina se da en la película Rebelde sin
causa, aunque en aquella versión los jugadores conducen sus autos hacia un precipicio, y el
primero en saltar es el gallina. La versión en que los conductores kamikazes se dirigen hacia el
contrario se considera la normal. Es más frecuente que el juego aparezca en el argumento del
cine o la literatura antes que en la vida real.

La versión moderna del juego ha sido objeto de investigación en la teoría de juegos, en la que
está asociado a los juegos que no son de suma cero. El principio subyacente es un importante
método de negociación. Se puede decir que es una estrategia en la que cada una de las partes
retrasa hacer concesiones hasta que el final del período de negociación es inminente. La presión
psicológica puede obligar a un negociador a ceder para evitar un resultado negativo. Puede
tratarse de una táctica muy peligrosa, ya que si ninguna de las partes cede se producirá una
colisión.

Como la "pérdida" que supone girar es trivial en comparación a la colisión que se producirá si
ninguno gira, la estrategia más razonable sería girar antes de que el choque pueda producirse.
Aún así, si uno cree que su oponente es razonable, uno puede también decidir no girar, en la
creencia de que el rival será razonable y decidirá girar, convirtiendo al otro en ganador. Esta

43
Henrich, Joseph, Robert Boyd, Samuel Bowles, Colin Camerer, Ernst Fehr, y Herbert Gintis (2004)
Foundations of Human Sociality: Economic Experiments and Ethnographic Evidence from Fifteen Small-
Scale Societies. Oxford University Press.
44
Por ejemplo, el modelo de "Aversión equitativa" propuesto por Ernst Fehr del estudio de arriba de Henrich
et al.
XVI. Teoría de los juegos 466

estrategia inestable se puede enunciar de modo formal diciendo que existe más de un equilibrio
de Nash para este juego, si llamamos equilibrio al par de estrategias en la que ninguno de los
jugadores gana cambiando su estrategia mientras que la del otro sigue siendo la misma. (En este
caso, los equilibrios son las dos situaciones en las que un jugador gira y el otro no.)

Una táctica para este juego es anunciar las propias intenciones de modo convincente antes de
que el juego comience. Por ejemplo, si uno de los bandos bloquea de modo ostentoso el volante
de su vehículo antes del comienzo del duelo, será más probable que el otro gire. Esto ilustra
cómo, en algunas circunstancias, reducir las propias opciones puede ser una buena estrategia. Un
ejemplo de esto en el mundo real sería el manifestante que se encadena a un objeto para que
ninguna amenaza lo obligue a moverse, ya que no puede. Otro ejemplo similar lo hemos visto
cuando un niño con buenos instintos estratégicos fuerza un resultado favorable bajo la amenaza
de suicidio.

La matriz de pagos para el juego del gallina es la que se ve a continuación, en la que cooperación
es girar y no cooperación seguir conduciendo:

Cooperar No Cooperar
Cooperar 0, 0 -1, +1
No Cooperar +1, -1 -20, -20

Este modelo da por supuesto que uno escoge una estrategia


antes de empezar a jugar y se mantiene en la misma lo cual no
es realista, ya que si un jugador ve que el otro gira pronto, puede
seguir en línea recta, sin importar cuáles fueran sus planes
iniciales.

En este modelo, en contraste con el dilema del prisionero, en el


que una acción es siempre la mejor, uno siempre debe hacer lo
contrario de lo que el otro jugador vaya a hacer.

Caza del ciervo

La caza del ciervo es un juego que describe un conflicto entre


seguridad y cooperación social. Otros nombres para este juego Jean-Jacques Rousseau (1712-1778)
o sus variantes son "juego de la seguridad", "juego de
coordinación" y "dilema de la credibilidad". Jean-Jacques Rousseau describió una situación en la
que dos individuos van a cazar. Cada uno elige cazar un ciervo o una liebre. Cada jugador debe
elegir una acción sin conocer la del otro. Si un individuo caza un ciervo, debe cooperar con su
compañero para tener éxito. Un jugador individual puede cazar una liebre por sí mismo, pero una
liebre vale menos que un ciervo. Esta situación se considera una analogía importante con la
cooperación social.

Un ejemplo de la matriz de pagos para la caza del ciervo sería el siguiente:

Ciervo Liebre
Ciervo 4, 4 0, 3
Liebre 3, 0 3, 3
XVI. Teoría de los juegos 467

Aunque muchos autores destacan el Dilema del prisionero como el juego que mejor representa el
problema de la cooperación social, algunos creen que la caza del ciervo representa un contexto
tan (o más) interesante en el que cabe estudiar la cooperación y sus problemas 45 .

Hay una relación sustancial entre la caza del ciervo y el dilema del prisionero. En biología muchas
circunstancias que se han asociado con el dilema del prisionero también se pueden interpretar
como caza del ciervo, dependiendo de la manera como sea premiada la adaptación al medio. Es
también el caso de algunas interacciones humanas que parecen ser dilemas del prisionero pero
podrían ser de hecho cazas del ciervo. Por ejemplo, supóngase que hay planteado un dilema del
prisionero como el mostrado a continuación:

Cooperar Traicionar
Cooperar 4, 4 0, 5
Traicionar 5, 0 3, 3

Pero en ocasiones los jugadores que traicionan a los que cooperan son castigados por su traición.
Por ejemplo, suponga que el castigo esperado es -2, entonces la imposición de este castigo
convierte el dilema del prisionero en una caza del ciervo. Además del ejemplo sugerido por
Rousseau, David Hume proporciona un conjunto de ejemplos que son cazas del ciervo. Uno de
ellos consiste en dos individuos que deben remar en un bote. Si los dos eligen remar entonces
pueden mover el bote. Sin embargo, si uno de ellos no rema, el otro gasta sus energías. En el
segundo ejemplo de Hume dos vecinos quieren drenar un prado. Si los dos trabajan en el drenaje
tienen éxito, pero si uno no hace su parte el prado no se drena.

Hay muchas conductas animales que representan cazas del ciervo. Por ejemplo, la coordinación
del moho del cieno. En momentos de tensión, estas bacterias se agregarán para formar un cuerpo
mayor. Si todas actúan juntas se podrán reproducir, sin embargo, el éxito depende de la
cooperación de muchas bacterias. Además, las prácticas de caza de la orca son un ejemplo de
caza del ciervo. Las orcas cooperan acorralando grandes bancos de peces hasta la superficie y
les aturden golpeándoles con sus colas. Dado que esta estrategia requiere que los peces no
tengan forma de escapar, hace falta la cooperación de muchas orcas.

La paradoja de Newcomb

La paradoja de Newcomb es el estudio de un juego entre dos jugadores, uno de los cuales puede
predecir el futuro. La paradoja de Newcomb se considera una paradoja porque lleva a una auto-
contradicción. La causalidad inversa está definida en el problema, por lo que no puede haber libre
albedrío. Al mismo tiempo, el libre albedrío está definido en el problema, de otro modo, el jugador
no estaría realizando una verdadera elección.

Esta paradoja fue formulada por William Newcomb, del laboratorio "Lawrence Livermore" en la
Universidad de California. Robert Nozick la dio a conocer a la comunidad filosófica en 1969, y
apareció en la columna de Martin Gardner en Scientific American en 1974.

En este juego hay dos participantes: un oráculo capaz de predecir el futuro y un jugador normal. Al
jugador se le presentan dos cajas: una abierta que contiene $1000 y una cerrada que contiene, o
$1.000.000 o $0. El jugador debe decidir si quiere recibir el contenido de ambas cajas o sólo el de
la caja cerrada.

45
Skyrms, Brian. (2007) La caza del ciervo y la evolución de la estructura social. Editorial Melusina.
XVI. Teoría de los juegos 468

La complicación consiste en que anteriormente, el oráculo ha vaticinado lo que va a escoger el


jugador. Si vaticina que el jugador se llevará sólo la caja cerrada, pondrá $1.000.000 dentro de
esa caja. Si vaticina que el jugador se llevará las dos cajas, dejará vacía la caja cerrada. El
jugador conoce el mecanismo del juego, pero no la predicción, que ya ha sido realizada.

¿Debería el jugador llevarse ambas cajas o sólo la cerrada? La matriz de pagos del juego es la
siguiente:

El oráculo vaticina que el El oráculo vaticina que el


jugador escogerá la caja jugador escogerá ambas cajas
cerrada
El jugador escoge la caja $1.000.000 $0
cerrada
El jugador escoge $1.001.000 $1.000
ambas cajas

Si el oráculo acierta el 100% de las veces, si el jugador se lleva sólo la caja cerrada, obtendrá
$1.000.000. Si el jugador se lleva ambas cajas, la caja cerrada estará vacía, por lo que sólo se
llevará $1.000. Según este razonamiento, el jugador deberá escoger siempre la caja cerrada.

Pero en el momento en el que el jugador se acerca a las cajas para hacer su elección, su
contenido ya está definido. La caja cerrada o tiene algo o no lo tiene, pero es demasiado tarde
para cambiar su contenido. El jugador debe llevarse el contenido de ambas cajas, ya que tenga lo
que tenga la caja cerrada obtendrá $1000 más, porque de todos modos se llevará la cerrada.
Según este razonamiento, el jugador debe escoger siempre llevarse las dos cajas.

En su artículo de 1969, Nozick comenta que "Casi todo el mundo tiene claro lo que debe hacer. El
problema consiste en que la gente se divide casi a la mitad sobre cuál es la solución al problema,
con un gran porcentaje que cree que la otra mitad está equivocada." 46

Los filósofos han propuesto muchas soluciones a esta paradoja. Algunos han sugerido que una
persona racional escogerá ambas cajas, y una irracional sólo la cerrada, de modo que las
personas irracionales tienen ventaja en el juego. Otros han afirmado que una persona racional
escogerá ambas cajas, mientras que una irracional sólo la cerrada, de modo que las personas
racionales tienen ventaja en el juego (ya que un oráculo perfecto no puede existir). Y otros dicen
que en un mundo con oráculos perfectos (o máquinas del tiempo, ya que una máquina del tiempo
puede usarse como mecanismo para hacer los vaticinios) la causalidad puede invertirse. Si una
persona conoce realmente el futuro, y este conocimiento afecta a sus acciones, entonces los
eventos en el futuro causarán efectos en el pasado. La elección del jugador habrá causado la
acción del oráculo. Algunos han concluido que si las máquinas del tiempo o los oráculos perfectos
existiesen, entonces no puede haber libre albedrío y el jugador escogerá lo que está destinado a
escoger. Otros afirman que la paradoja muestra que es imposible conocer el futuro.

Algunos filósofos encuentran equivalente esta paradoja a la paradoja del viaje en el tiempo. En
ella, una persona viaja atrás en el tiempo, lo que produce una cadena de eventos que evitan que
eso suceda. Un análisis desde la perspectiva de la mecánica cuántica elude la incompatibilidad
del libre albedrío y la causalidad inversa poniendo a la caja cerrada, como al gato de Schrödinger,

46
Nozick, Robert (1969), "Newcomb's Problem and Two principles of Choice," in Essays in Honor of Carl G.
Hempl, ed. Nicholas Rescher, Synthese Library (Dordrecht, Holland: D. Reidel).
XVI. Teoría de los juegos 469

en un estado de superposición hasta el momento en el cual se realiza la elección. La caja está al


mismo tiempo llena y vacía.

Un cosmólogo que cree en múltiples mundos, concluiría que la acción del oráculo da como
resultado dos flujos temporales paralelos: uno en el que ha puesto algo en la caja y otro donde la
ha dejado vacía. La teoría de los mundos paralelos lleva generalmente a la conclusión de que
tanto el libre albedrío como la causalidad son ilusiones creadas por la correspondencia entre la
consciencia y una memoria específica del flujo temporal.

La urna de cristal Hay una extensión de la paradoja de Newcomb, en la cual se pregunta cómo
cambiaría el resultado si la caja cerrada fuese una urna de cristal. ¿Qué debería escoger el
jugador?

Si ve $1.000.000 en la urna, entonces debería tomar ambas cajas, y llevarse tanto los $1.000.000
como los $1.000. Si ve la urna vacía, puede enfadarse cuando se ve privado de una posibilidad de
llevarse el premio gordo, y escoger sólo la urna para demostrar que el juego es un fraude. En
ambos casos, sus acciones pueden ser opuestas a lo que había sido vaticinado, lo que contradice
la premisa de que la predicción es siempre correcta.

Algunos filósofos dicen que la versión con la urna de cristal de la paradoja de Newcomb es prueba
de que:

Es imposible conocer el futuro


El conocimiento del futuro sólo es posible en casos en los que dicho conocimento no
impida que ese futuro tenga lugar
El universo conspirará para prevenir los bucles causales autocontradictorios (a través de,
por ejemplo, el principio de autoconsistencia de Novikov 47 ).
El jugador puede, accidentalmente, hacer la elección equivocada, o puede malinterpretar
las reglas, o la máquina del tiempo/vaticinio puede fallar.

Supóngase que el oráculo no tiene un conocimiento especial del futuro, y el jugador lo sabe. Se
puede aplicar entonces un análisis mediante teoría de juegos para el caso de múltiples rondas con
memoria.

Si el jugador quiere maximizar su beneficio y el oráculo quiere maximizar el acierto de sus


vaticinios, el jugador debe escoger siempre la caja cerrada. Sin embargo, si el jugador deserta de
esa estrategia y escoge ambas cajas, se beneficiará esa ronda, pero el oráculo se equivocará y
probablemente se vengará. El equilibrio de Nash (donde cada deserción de las estrategias
escogidas no da beneficios) surge cuando el jugador escoge siempre llevarse las dos cajas y el
oráculo predice siempre que escogerá las dos cajas (esto da un beneficio de $1000 y una
predicción perfecta cada vez) o cuando ambos escogen siempre la caja cerrada (lo que da un
beneficio de $1.000.000 y una predicción perfecta siempre). Un jugador inteligente tratará de
moverse del primer equilibrio al segundo.

47
El Principio de consistencia de Novikov, también conocido como la Conjetura de consistencia de Novikov,
es un principio desarrollado por el Doctor Igor Novikov a mediados de los 80 para resolver los problemas de
las paradojas en los viajes a través del tiempo. Simplemente, el principio de consistencia de Novikov afirma
que si un evento existe y provoca una paradoja, o cualquier cambio al pasado que la provoque, entonces la
probabilidad de ese evento es cero.
XVI. Teoría de los juegos 470

Ahora consideremos un caso distinto: el oráculo no tiene un conocimiento especial del futuro, pero
el jugador cree que lo tiene. Los lectores de un artículo en Scientific American respondieron, en
una proporción de 5 a 2, a favor de escoger sólo la caja cerrada. Un oráculo que trabaje con esos
datos (y suponiendo que el jugador sea un lector de Scientific American) puede decidir que puede
alcanzar una tasa de aciertos del 71% vaticinando que el jugador escogerá la caja cerrada.

En este caso, el problema se convierte rápidamente en un análisis de preferencias estadísticas en


términos de tolerancia hacia el riesgo. Esto puede verse más fácilmente si se cambia el valor de
los premios. Por ejemplo, si el contenido de la caja abierta se reduce a $1, casi todos los
jugadores escogerían la caja cerrada (el valor reducido, aunque seguro, del dólar no justifica el
riesgo). Casi todos los jugadores escogerían ambas cajas si el contenido de la caja abierta fuese
de $900.000 48 .

48
V.Gardner, Martin (1974), "Mathematical Games," Scientific American, March 1974, p. 102; reimpreso con
addendum y bibliografía anotada en su libro The Colossal Book of Mathematics.

También podría gustarte