Está en la página 1de 11

58 / JUEGOS DINMICOS CON INFORMACIN

jugador 1 prev que si el juego llega a la segunda etapa el jugador 2 elegir


1', lo que le proporcionar una ganancia de 1. La eleccin del jugador 1
en la primera etapa es, por tanto, entre una ganancia de 2 por medio de I
o una ganancia de 1 a travs de D, de forma que I es ptimo.

Juegos

COMPLETA (e. 2)

::~::

dil1tmicos

COI1 il1formacill

completa

y perfecta

/ 59

.
dor 2 lo sea: si 1piensa que 2 podra no ser racionill,
ro no que el Juga
1"
O'
pe
.
ger D en la primera etapa confiando en que 2 e 19wril, en
1 podna esCO
'.
'
I"
1 tercera
se nda, dando con ello la oportunida~.a 1 de Jug~r.
~n.8
la ; Otra osibilidad es quesea informaClon del dommlO ~ubhco q.ue el
~taPd' 2 Pracional pero no que el jugador 1 sea racional: sIl es raClonal
Juga or. es.que 2 cree que 1 podra no ser racional, 1 podna. escoger /) en
pero pIensa
.
l
.
' tapa confiando en que 2 pensara que 1 no es raClona, y, por
la pnmera e
"1
t
El
.
DI con la esperanza de que 1jugara D en a tercera e ilpa._"
tanto, Jugara
1 '. d D
r 'parte
USO de la induccin.hacia
atrs presupone que la e eCClOn e po.
eda
explicarse siguiendo este razonamiento. Para algunos Juegos,
,d e l pu
.
l'
. D arque 1
sin embargo, podra ser ms razonable suponer que J~go
~.'
.
.
.'
1
En
tales
J'uegosel
uso
de
la
mducClon
hacla
es, efectivamente, lrraClOna .
, . .
..
atrs pierd~ mucho de su atractivo como predlCclOn del J~ego,. tal como
le a'sa al equilibrio de Nash en juegos en los que la teona de Juegos no
p
.'
una solucin nica y no cabe esperar acuerdo alguno enbe
proporclOna
los jugadores.
2.1.B El mod~lo de duopolio de Stackelberg

,.'0

Este argumento establece que el resultado por induccin hacia atrs


es que el jugador 1 escoge I en la primera etapa y sacaba el'juegb: Aun
cuando el uso de la induccin hacia atrs establece que el juego s acaba
en la primera etapa, UIlaparte importante del'afgUiriento fthl d 10 que
ocurrira si el juego no se acabase en esta primera etapa. En la segunda
etapa, por ejemplo, cuando el jugador 2 prev que si el juego llega a la
terc;era etapa el jugador 1 elegir I" 2 est suponiendo que 1es racional.
Este supuesto puede parecer inconsistente coil el hecho de qu 2 tiene
la oportunidad de decidir en la segunda etapa slo si 1 se desVa del
resultado obtenido por induccin hacia atrs. Es decir, puede parecer que
si 1juega D en la primera etapa, 2 no puede suponer en la segunda etapa
que 1 sea racional, pero 'esto no es, as: si 1 juega D, en la primera etapa
est claro que no puede ser informacin del dominio pblico que los dos
jugadores sean racionales; pero existen razones para que 1escogietaD
que no contradicen el supuesto de2 de que 1esracionaL3 Una posibilidad
es que sea informacin del dominio pblico que el jugador 1 es racional
3 Recordemos deI a discusin sobre l~elimiracin
dominadas (eIlla seccin 1.1.,B),que es lormacin
son racionales si todos los jugadores son rciomiis,
los jugadore,s son racionales y si todoS los jugadores
lodos los jugadores son racionales, etc; adinjiiltum.

itera tiva de las,."~tr~tegiasest:ric~~~ente


del domirti9pblic que Io~ jug-adores
y si todos los jugadfes S5~ft'qUe'tdos
saben que,todoslos jugadores slJe que
,
. ':!
",'

Stackelberg (1934) pr!Jpuso un modelo dinmico de duopolio en el cu~l


unae'mpresa dominante (o lder) decide primero y una empresa subordInada (o seguidora) decide en segundo lugar. En al~nosmome~os
de
la historia de la industria automovilstica estadourudense: por ~Jel1lplo,
General Motors parece haber jugado este papel de lder. Es mmedlat.o ampliar esta des~ripcin al caso en que haya ms de una empresa segUidora,
como Ford~ Chrysler y otras. Siguiendo a Stackelberg, de~arrollarelJlos el
modelo bajo el supuesto de que las empresas escogen cantidades, como en
el modelo de Coumot (donde las empresas deciden simultneamente en
.
ente como aqUlO. DeJ'amos
como ejercicio el desarrollo
veZ d e suceSlvam
,
de un modelo de tomas de decisiones sucesivas en el que las empresas
. s tal como
en el modelo ele
escogen 1os preclO
" lo hacen (simultneamente)
' ' .
Bertrartd.
El desarrollo

,
temporal del juego es el sig'uiente: (1) La empresa 1
escoge una can t'd
1 a d ql >
_ O., (2) la empresa 2 observa ,11 .y escoge entonces
.
una cantidad q2 ? O; (3) las ganancias de la empresa ~Vlenen dadas pOI la
funcin de beneficio
'7ri(q;,qj)

donde P(Q)

= qi[P(Q)

el,

a - Q es el precio de equilibrio

de mercado cuando la

60 / JUEGOS DINMICOS CON INFORMACIN COMPLETA (e. 2)

Juegos dinmicos con informacin completa y perfecta I 61

cantidad agregada es Q ==qI + q2, j e es el coste marginal constante de


produccin (siendo cero los costes fijos).
Para hallar el resultado por induccin hacia atrs de este juego, calculamos en primer lugar la reaccin de la empresa 2 a una cantidad arbitrariamente fijada por la empresa 1. R2(ql) es una solucin de
maX7r2(ql,q2)==maxq2[a
Q22:0

ql -

qz 2:0

q2 -

el,

lo que resulta en
R2(ql) =="

a-ql-e

'

siempre, queql < a-e .. La misma' ecuacin pr_aR2(ql) apareCi en


nuestro aniilisisdl' juego de Coumot con' qecisiones sinlultneas en la
seccin D.A. La diferencia' es que aqu R2(iJ.~)e~~eal~e~:lte la reaccin
por parte de la~mpresa 2: la cailtidadobservad~ que fijala empresa i,
mientras que en el anlisis de Coumot R2(qI) es la mejor respuestacle h:i
empresa 2 a una cantidad hipottica que'ser sil!lultneamenteescogida
por la empresa 1.
'."
Dado q:r,e}a empresa l. p~ede resolver el p~?b~~made la. empresa
2 tantoc0fi.lo,.l.a,propia e~p'~~a 2, I~, e0pres 1
debera prever q~e ia
eleccin:'del~antidad ql coinCidir co"nla reacinR2(ql)' Por tanto, el
problema d~ laen:,.pr~sa 1 en la primera etapa del juego se concreta en
"maX7fl (ql,R2(ql)
'_Q2:0,

,.'

,.'

==maxqIfa - ql - R2(qi)
Ql2:0 .

. '.

-:- el
.

.. a- ql.""'"C
==maxql
'2
. ,.
Q2:0

lo que resulta' en
a-c

qi == -. -2-

a-c

R2(qi) ==-4-

que es el resultado por induccin hacia atrs del juego del duopolio de
Stackelberg.4
'..
'.
4 De la misma forma que el "equilibrio de Cournot" y el "equilibrio de Bertrand" se
refieren tpicamente al equilibrio de Nash de los juegos de Cournot y Bertrand, la mencin
del "equilibrio de Stackelberg" significa a menudo que el juego es de decisiones sucesivas en
vez de ~u:nultneas. Sin embargo, como se ha constatado en la secci'nanterior, los juegos
con deaslones sucesivas poseen a menudo mltiples equilibrios de Nash, de los cuales slo
uno est asociado can el resultado obtenido por induccin hacia atrs del juego, Por tanto, el
"equi1ib~o de Stackelherg" puede referirse tanto a la naturaleza secuencial del juego como al
uso de unrnterio de solucin ms poderoso que el mero equilibrio de Nash.

Recordemos que en el equilibrio de Nash del juego de Cournot del


captulo 1, cada empresa produce (a-"'e)/3. Por tanto, la cantidad agregada
obtenida por induccin hacia atrs en el juego de Stackelberg, 3(a - e)/4,
es mayor que la cantidad agregada en el equilibrio de Nash del juego de
Cournot, 2(a - c)/3, de forma que, el precio de equilibrio de me;cado es
inferior en el juego de Stackelberg. Sin embargo, en el juego de Stackelberg
la empresa 1 poda haber escogido la cantidad correspondiente al juego
de Coumot, (a - e)/3, en cuyo caso la empresa 2 habra respondido con su
cantidad de Coumot. Por tanto, en el juego de Stackelberg, la empresa 1
podra haber alcanzado el nivel de beneficios de Coumot, pero escogi no
hacerlo, por lo que los beneficios de la empre~a 1 en el juego de Stackelberg
deben'ser mayores que sus beneficios en el juego de Cournot. Pero el
precio de equilibrio es inferior e:';lel juego de Stackelberg, de forma que ros
beneficios agregados son menores. Por tanto, el hecho de que la empresa
1 est mejor implica que la empresa 2 est peor en el juego de Stackelberg
queen el jueg() de Coumot.
La observacin de que la empresa 2 se encuentra en peor situacin en
el juego de Stackelberg que en el juego de Coumot ilustra una diferencia
importante que existe entre los. problemas de decisin uni cimultiperL
sonale~:. En la teora de la decisin con un nico agente, eltenerms .
informacin nunca puede hacer que el agente decisor est peor. En teora
de juegos, sin embargo, tener ms informacin (o ms precisamente, que
otros jugadores sepan que uno tiene ms informacin) puede hacer que un
jugador est peor. '
Eil el juego de Stackelberg, la informacin en cuestin es la cantidad
de la empresa 1: la empresa 2 conoce ql y (tan importante como' estb)
la empresa 1 sabe que la empresa 2 conoce l' Para ver el efecto que'
esta informacin tiene, consideremos un,juego de decisin suc~siva algo
distinto, en el que la empresa 1 escoge qr, despus de lo cual la empresa
2 escoge q2, pero lo hace sin haber observado. 111. Si la empresa 2 cree
que la empresa 1 ha escogido su cantidad de Stackelberg qi ==(a - e)/2, la
mejor respuesta para la empresa 2 es de nuevo R2(qi) ==,(a-e)/4. Pero si la
empresa 1 prev que la empresa 2 creer que ello vaya a ser as y, por tanto,
escoja esta cantidad, la empresa 1 prefiere escoger su mejor respuesta a
(a - e)/4 (es decir, 3(a - c)/8) en lugar de su cantidad de Stackelberg
(a - c)/2. Por todo ello, la empresa 2 no debe confiar en que la empresa 1
escoja su cantidad de Stackelberg. Ms bien, el nico equilibrio de Nash de
este juego secuencial es que ambas empresas escojan la cantidad (a - e)/3,
precisamente el equilibrio de Nash del juego de Cournot, en el que las dos

..

'

".

,"

Juegos dinmicos con infonlwcin completa y perfecta /

62 I JUEGOS DINMICOS CON INFORMACIN COMPLETA (e. 2)

empresas deciden simu1tneamente.5 Por lo tanto, que la empresa 1 sepa


que la empresa 2 conoce q va en contra' de la empresa 2.

1\3

cuya condicin de primer orden es


R'(L) - w

= O.

2.1.C Salarios y nivel de empleo en una empresa con fuerte


implantacin sindical

Supongamos que el desarrollo telT\pora1del juego es: (1) el sindicato


efecta una demanda salarial, w; (2) la empresa observ.a (y acepta) lJ) yescoge entonces el nivel de empleo, L;.(3) las ganancias son U(w,L) Y7r(w,L).
Podemos decir bastantes cosas sobre el resultado por induccin hacia atrs
de este juego, aun sin haber supuesto ninguna forma funcional concreta
de U(w,L) y R(L), pero no podemos calcular el resultado explcitamente.
. En primer lugar caracterizamos la mejor respuesta de la empresa en la
etapa (2), L*(w), a una demanda salarial arbitraria por parte del sindicato
en la etapa (1), w. Dado w, la empresa escoge el nivel L*(w) que soluciona

=maxR(L)
L2:0

- wL,

Esto es un ejemplo de la afirmacin hecha en la seccin 1.1.A:en';,n Juego en forma normal


los jugadores escogen sus estrategias simultneamente, pero ello no implica necesariamente'
que acten simultneamente; es suficiente con que cada uno tome su decisin sin conocer las
decisiones de los dems. Vase la seccin 2.4.A para ms discusin sobre esta cuestin.
5

En el modelo de Leontief, (1946) de relacin entre una empresa y un


nico sindicato (es decir, un sindicato que tiene el poder de monopolio de
ofrecer la fuerza de trabajo a la empresa), el sindicato tiene poder exclusi vo
sobre los salarios, pero la empresa tiene el nrrolexclusivo del nivel de
empleo. (Conclusiones cualitativamente similares emergen en un modelo
ms realista en el cual la empresa y el sindicato negocian los salarios,
pero la empresa retiene el poder exclusivo sobre el nivel de empleo.) La
funcin de utilidad del sindicato es U(7JJ,L), donde w es el salario que el
sindicato pide a la empresa y L es el nivel de empleo. Supongamos que
U(w,L) es creciente en los dos argumentos w y L. La funcin de beneficios
de la empresa eS7r(w,L) = R(L) :- wL, donde R(L) son los ingresos que
la empresa obtiene si emplea L trabajadores (y toma de forma ptima las
correspondientes decisiones de produccin y de estrategia de mercado).
Supongamos que R(L) es creciente y cncava;

max7r(w,L)
L2:0

Pendiente =

R(L)

L * (w)

Figura 2.1.1
Para garantizar que la condicin de primer orden R'(L) -w =. O ~enga
solucin, suponemos que R'(O) = 00 y que R'(oo) = O,tal como tndlCa la
figura 2.1.1.
La figura 2.1.2 representa L * (w) en funcin de tu (pero ~tiliza l~s e!es
de forma que faciliten la comparacin con grficos postenores) e lnchca
que L*(w) corta cada una de las curvas de isobeneficio de la e~1presa
en su punto mximo.6 Manteniendo L constante, ~a empr~s~ ~sta t.anto
mejor cuanto menor sea w, de forma que las curvas :sobenefIClo Dfenores
representan niveles de beneficio ms altos. La fi.gura 2.1.3 representa
las curvas de indiferencia del sindicato. Mantemendo L constante, el
sindicato est tanto mejor cuanto ms alto sea w, de forma que las curvas
de indiferencia ms altas corresponden a niveles de utilidad mayores del
sindicato.
6 Esta
dado 'UJ.
concreta
beneficio

ltima propiedad es simplemente otra manera~e decir que L *('UJ) maximiza 7f( ["w)
Si el sindicato pide 'UJ', por ejemplo, la elecoon de L por larte d~ l~ empresa se
en la eleccin de un punto en la recta hOrizontal w = 'UJ. El maxnno nivel de
posible se alcanza escogiendo L de forma que la curva de isobeneficio que posa por

(L,u/) sea tangente a la restriccin

'UJ

1J)'.

80 / JUEGOS DlNAMICOS CON INFORMACIN COMPLETA (c. 2)

1
1
-w,
2 ,~ + 2-wB

- g(e*)

>- Ua.

Juegos repetidos / 81

(2.2.7)

ganancias del juego completo son simplemente la suma de las ganancias


de cada etapa (es decir, no hay descuento).
(

Suponiendo que Ua sea lo suficientemente pequea corno para que el


capataz quiera inducir a los trabajadores a participar en el torneo, ste
escoger los salarios que maximicen el beneficio esperado, 2e* -"illA - WB,
sujeto a (2.2.7). En el ptimo, (2.2.7) se satisface con igualdad:

Jugador 2
Iz
Jugador 1

WB

= 2Ua

+ 2g(e*) -

WA.

(WA -

WB)

f(j)2dj

1,

Y (2.2.8)determina entonces

WA Y"illB.

2.3Juegos repetidos
En esta seccin analizarnos si las amenazas y promesas sobre el comportamiento futuro pueden influir en el comportamiento presente en situaciones que se repiten en el tiempo. Buena parte de lo que hay que entender
en estas situaciones se ha visto ya en el caso de dos periodos; pocas ideas
nuevas se requieren para entender los juegos con un horizonte infinito.
Hemos definido tambin el equilibrio de Nash perfecto en subjuegos. Esta
defircin tiene una expresin ms sencilla para el caso especial de los juegos repetidos que en el general de los juegos dinmicos con informcin
completa que considerarnos en la seccin 2.4.B. La introducirnos aqu para
tacilitar la exposicin posterior.
. '.
2.3.A Teora: Juegos repetidos en dos etapas
Consideremos el dilema de los presos dado en forma normal de la figura
2.3.1. Supongamos que hay dos participantes en este juego que deciden
simultneamente en dos ocasiones, habiendo observado el resultad"ode li,'l
primera decisin antes de decidir por segunda vez, y supongamos que las

D2

1,1 5,0
0,5 4,4

(2.2.8)

El beneficio esperado es entonces 2e* - 2Ua - 2g(e*), de forma que el


capataz quiere escoger unos salarios tales que el esfuerzo inducido, e*,
maximice e* - g(e*). El esfuerzo inducido ptimo, por tanto, satisface
la condicin de primer orden l(e') = 1. Sustituyendo esto en (2.2.6) se
obtiene que el premio ptimo, WA - WB, es una solucin de

('.
Figura 2.3.1
Jugador 2
Iz

D2

2,2 6,1
Jugador 1
1,6 5,5
Figura 2.3.2
Llamaremos a este juego repetido el dilema de los presos en:dos etapas.
Este juego pertenece a la clase de los juegos analizada en la seccin 2.2.A.
Aqu los jugadores 3 y 4 son idnticos a los jugadores 1 y 2, los espaCios
de acciones A3 y A4 son idnticos a Al y AZ Y las ganancias ui(al,a2,a3,a1l
son simplemente la suma de las ganancias en la'pnmera etapa (i.;a2)
y en la segunda etapa (a3,a4)' Adems, el dilema de los presos en d.s
etapas satisface el supuesto que hicimos en la seccin 2.2.A: para cada
resultado factible de la primera etapa del juego, (al,a21, el juego restant.e
en la segunda etapa entre los jugadores 3 y 4 tiene un nico equilibrio
de Nash, que denotamos por (a3(al,a21,a,i(al,a2'
De hecho, el dilema
de los presos en dos etapas satisface este supuesto de forma clara, como
seguidamente indicamos. En la seccin 2.2.A peTInitini.osla posibilidad de
que el equilibrio de Nash del juego restante en la segunda etapa dependa
del resultado de la primera etapa -de aqu la notacin (a; (al ,a2) ,a (al ,a2
en vez de simplemente (aj,a). (En el juego de los aranceles, por ejemplo;
las cantidades de equilibrio escogidas por las empresas en la segunda
etapa dependan de los aranceles escogidos por los gobiernos en la primera
etapa.) Sin embargo, en el dilema de los presos en dos tapas, el nico

~'.

[IleSOS

82 / JuEGOS DINMICOS CON INFORMACIN COMPLETA (c. 2)

equilibrio del juego de la segunda etapa es (I,h), independientemente


del resultado de la primera etapa.
Siguiendo el procedimiento descrito en la seccin 2.2.A para calcular el
resultado perfecto en subjuegos de tal juego, analizamos la primera etapa
del dilema de los presos en dos etapas teniendo en cuenta que el resultado
del juego restante en la segunda etapa ser el equilibrio de Nash de ese
juego, es decir, (IIJ con ganancias de (1,1). Por tanto, la interaccin en
la primera etapa entre los jugadores en el dilema de los p~esos en dos
etapas se concreta en el juego de una jugada de la figura 2.3.2, en el que
las ganancias 0,1) de la segunda etapa se han sumado ' cada par de
ganancias de la primera etapa. El juego de la figura 23.2 tiene tambin un
nico equilibrio de Nash: (IIJZ). Por tanto, el nico resultado perfecto en
subjuegos del dilema de los presos en dos etapas es (Jz) en la primera
etapa, seguidC? de (IJz) en la segunda etapa. No se puede conseguir
cooperacin, es decir, (DI,Dz) en ninguna etapa del resultado perfecto en
subjuegos.
Este argumento contina siendo vlido en situaciones ms generales.
(Aqu nos apartamos momentneamente del caso de dos periodos para
permitir cualquier nmero finito de repeticiones, T.) Denotemos con
G = {A, ... , An; Ul; ... ,un} un juego esttico con informacin completa
en el que los jugadores 1 a n escogen simultneamente las acciones a a an
de los espacios de acciones A a An respeftivamente, siendo las ganancias
U(al;', . ,an) a un(a, ... ,an). Llamaremos al juego G, juego deetapadel
juego repetido.

...

}:

Definicin. Dado un juego de etapa G, G(T) denota el juego r.epetido finitamente en el que G se juega T veces, habiendo los jugadores observado los
resultados de todas las jugadas anteriores antes de que empiece la siguiente. Las
ganancias de G(T) son simplemente la suma de las ganancias de los T juegos de .
etapa.
Proposicin. Si el juego de etapa G .tiene un nicQequilibrio de Nash, entonces,
para cualquier T finito, el juego repetido G(T) tiene un ~ico resultado perfecto
en subjuegos: en cada etapa se juega el equilibrio de Nash de G.i3
13 Se ~btienen resUltados anlogos si el juego de etapa G es un jego dinmic con informadn completa. Supongamos que G es un juego dinmico con inJonndn completa y
perfecta de la clase definida en la secdn 21.A. Si G tiene un rjco resultado por inducdn
hada atrs, G(T) tiene un nico resultado perfecto en subjuegos: en cada etapa se juega el
resultado por inducdn hacia atrs de G. Sinillarmente, supongamos que G es un juego en

repef idos / 83

lora al caso de dos periodos, pero consideramos la posi.. vodlvdemqo:::1 J'uego de etapa G tenga mltiples equilibrios :le ..NilSh,
blhda
e
. d
. d
[y C ll1utan 1
3 3 1~as estrateglils enOillma as ./. d /
en l a fi gura 2 ..,
. 1
como
enOJ1Unal
.
de los presos d e l a fi gura 23.. I , pero las estrategias
. 'b .ilS
dIlem; sido aadidas al juego de forma que ahora existen dos eqUlh nos
Di ha
'.
(1 J) como en el dilema de los presos, y
,2
.
"1'
I
N h en estrategIas puras.
de as d
1
' (D D) Natura men te, es artl' f)' cial aadir un eqUllt mo a
a~ora a de~as pr~~os2de esta manera, pero nuestro inters en este juego
dIlema, e os 't'vo que sustan h' va. En la prxima seccin veremos que
es mas exposll
, 'h d
uilibrios
.
tidos infinitamente comparten este espm I e eq ..
los Juegos ~epe
'1'
d etapa que se repiten infinitamente tienen
. "
u'Iti les mc1uso SI os Juegos e
m . ~ 'uilibrio de Nash, como en el dilema de los presos. Por tal~to, en
un UNCOeq.
.
de etapa artificial en el contexto Sl1nple
. , n analIZamos un Juego
est~::cC1:riodos, y nos preparamos con ello para el anlisis poster~or de
de
p
..'
'co en un contexto con honzonte
un juego de etapa con mteres economl ,
infinito.

1,1 5,0 0,0


0,5 4,4 0,0
0,0 0,0 3,3
Figura 2.3.3

Supongamos que el juego de etapa de la figura 2.3.3 s.ejuega dos veces,


h b' do los J'ugadores observa d o e1 resu lt a d o de la .pnmera etapa antes
a len
.
l
d Demostraremos que existe. un nico resultado
de que empIece a segun a.
. (c c)
erfecto en subjuegos de este juego, en el que el par de estrategIas
1, 2
P
.
l'
etapa
14 Corno en la seccin 2.2.A, supongamos que
se Juega en a pnmera
.
. .
.. 22 A Si G tiene un nico resultado perfecto en
dos etapas de la clase defin~da en Ia.s~cClon ~lt~d'o perfecto en subjuegos: en cada etapa se
subjuegos, entonces G(T) hene un unlCOres
juega .el resultado perfecto en subjuegOdsfide.~. la nodn de resultado perfecto en subjuegos
14E '-' tamente hablando hemos e ni o
S'HC
' '. 'd
l
.. 22 A El dilema de los presos en dos etapas
l
1 1 se de juegos defim a en a seccJOn . . .
.
s o para a e a
da resultado factible del juego de la primera eta pa eXlste
pertenece a esta clase, porque para ca
d
l
gunda etapa Sin embarg0. el
Tb'
d N sh en el juego que que a en a se
.
un nico eqU11 no e ~
. n el . e o de e~apa de la figura 2.3.3 no pertenece a
juego en dos etapas Tepehdo, basadh.oe u'~pfes equilibrios de Nash. No vamos a extender
tIque
el U.ego de etapa ene m.
. 11
es a c ase, por
b'
os de forma que sea apiJea ) e a
formalmente la definicin del resultado perfecto en su Jueg

84 / JUEGOS DlN,vllCOS CON INFORfvIACN COMPLETA (e. 2)

en la primera etapa los jugadores prevn que el resultado de la segunda


etapa ser un equilibrio de Nash del juego de etapa. Puesto que este
Juego de etapa tiene ms de un equi.librio de Nash, ahora es posible que
los Jugadores prevean que a resultados diferentes en la primera etapa
les sIguen equilibrios diferentes del juego de etapa en la segunda etapa.
Supongamos, por ejemplo, que los jugadores prevn que (Dl,Dz) ser el
resultado de la segunda etapa si el de la primera etapa es (Cl,CZ), pero
que (II,1z) ser el resultado de la segunda etapa si el resultado de la
primera etapa es cualquiera de los ocho restantes. La interaccin entre
los jugadores en la primera etapa se concreta entonces en el juego de una
etapa de la figura 2.3.4, donde (3,3) se ha sumado a la casilla (C],Cz) y 0,1)
se ha sumado a las otras ocho casillas.

2,2 g,1 1,1

1-:'"

--

1,6

]1 1,1

1,1 1,1

~''!.

Figura 2.3.4
Existen tres equilibrios de Nash con estrategias puras en el juego
de la figura 2.3.4: (1],1z), (Cl,CZ) y (D],Dz). Como i'l1 la figura 2.3.2,
los equilibrios de Nash de este juego de una etapa corresponden a los
resultados perfectos en subjuegos del juego repetido original. Denotemos
con w,x),(y,z)
un resultado del juego repetido: (w,x) en la primera etapa
y (!J,z) en la segunda. El equilibrio de Nash (1],1z) de la figura 2.3.4
corresponde al resultado perfecto en subjuegos (1],[Z),(1],[2 del juego
repetlLio,puesto que el resultado previsto en la segunda etapa es (11,!z)
como consecuencia de cualquier resultado en la primera etapa excepto de
(C'],C'2). De la misma forma, el equilibrio de Nash (D],Dz) de la figura
~.3.4 corresponde al resultado perfecto en subjuegos Dl,Dz),(11'!Z
del
Juego repetido. Estos dos resultados perfectos en subjuegos del juego
repehdo simplemente enlazan los resultados de los equilibrios de Nash
de los juegos de etapa, pero el tercer equilibrio de Nash de la figura
2.3.4 genera un resultado cualitativamente diferente: (Cl,Cz) de la figura
todo.juego en dos etapas repetido, en primer lugar porque el cambio el) las definidones es
nunuscnlo y, en segundo lugar, porque en las secciones Z.3.B y 2.4.B aparecen definidones
mduso mas generales.

Juegos rq;elidos / 85
2.3.4 corresponde al resultado perfecto en subjuegos Cl,Cz),(D],D2)
del
juego repetido, puesto que el resultado previsto en la segunda etapa es
(Dl,Dz) como consecuencia de (Cl,C2). Por lo tanto, como hemos afirmado'
anteriormente, se puede alcanzar la cooperacin en la primera etapa de
un resultado perfecto en subjuegos del juego repetido. Esto es un ejemplo
de un resultado ms general: si G = {Al,'"
,An; uI- ... ,un} es un juego
esttico con informacin completa que tiene mltiples equilibrios, pueden
existir resultados perfectos en subjuegos del juego repetido G(T) en los
que, para cualquier t < T, el resultado de la etapa t no es un equilibrio
de Nash de G. Volveremos sobre esta idea en el anlisis de un juego con
horizonte infinito en la prxima seccin.

La conclusin principal que debemos sacar de este ejemplo es que


las amenazas o las promesas crebles sobre el comportamiento futuro
pueden influir en el c~mportamiento presente. Sin emba'rgo, desde otra
perspectiva, puede que quizs el concepto de perfeccin en subjuegos
no utilice una definicin de credibilidad lo suficientemente fuerte. Al
derivar el resultado perfecto en subjuegos C],CZ),(D1,Dz, por ejemplo,
hemos supuesto que Jos'jugadores prevn q~e (DI,Dz) s~r el resultacl,
de la segunda ronda si el resitltado en la primera etapa es (C],Cz), y q~~
(I'!z) ser el resultado en la segunda etapa si eIde la primera ronda es
cualquiera de los ()chorestantes. Pero jugar (11,!2)enli.se~da etapa, con
unas ganancias de 0, 1), puede parecer poco atractivo~a:hdo (DI,Dz),
con una ganancia de (3, 3), est tambin dispnible cci~oe'luilibrio de
Nash del juego de etapa que queda. Dicho en trminos poco preciSos.
parecera natural que los jugadores renegocii-an:15.SiJC1,cz) no es'~i
resultado de la primera etap~ del-juego, e~d~'~{~e~u'p'~~equ~~~'j~g~
(I'!z) en la segu~cl,~~ta,pa, cada jugadorp_~t;4-;;"p~TIs~que_lo p~sadQ;
pasado est, y que se debe jugar el eqilibriodel juegbdeetapa (Dl,D~)
unnimemente preferido. Pero si (DI,Dz)va
a serelr~sltado de la
segunda etapa independientemente de cul sea el rescltadoenla primera
ronda, el incentivo para jugar (Cl,Cz) en ia prir~~et~p.a_desaparece: la
interaccin entre los dos jugadores en la p'riill~;a~tapa' s~~~~.duce
al juego
de una etapa en el que la gnancia (3, 3Yse'ha~st1adacada casilla del
juego de etapa de la figura 2.3.3; d'e'fo~a que Ji e~ la mejor respuesta a
Cj del jugador i.
' '. . ."._..
'.
','

15 Decimos que es impreciso p~rq~~"renegociar" sugiere que hay comunicadn (o incluso


negodadn) entre la primera y la"Segunda e,tapa. Si esto fuera posible, debera aadirse a
la descripdn y anlisis del jue;m.'Aqu spimemos que no es as, de forma que lo que
entendemos por "renegodar" no-esotra cosa que un ejerddo de introspeccin.

Juegos repetidos / 87

86 / JUEGOS DINMICOS CON INFORMACIN COMPLETA (e 2)

JI 1,1 5,0 0,0 0,0 0,0

Cl 0,5 4,4 0,0 0,0 0,0


DI 0,0 0,0 3,3 0,0 0,0
/:;~

PI 0,0 0,0 0,0 4,! 0,0


Ql

0,0 0,0 0,0 0,0 !,4


Figura 2.3.5

Para acercamos a la solucin de este problema de renegociacin,-con~


sideremos el juego de la figura 2.3.5, que es an ms artificial qu l j\.tego
de la figura 2.3.3. Una vez ms, huestro inters en este juego' ~s ms
expositivo que econmico. Las lciJ~squstamosdesarrollnd pi~-tTa:
tar l tema de la renegociacin en est juego artificial se pueden aplicar
tambin a la renegociacin en juegos infinitamente repetidos; vase Fairell
y Maskin (1989),por ejemplo.
"
Eneste juego de etapa se aaden las estrategi~s Pi y Qia1juego de
etapa de la figUra 2.:5.3.Existen cuatro equilibrios de Nash con estrategias
purasdeljuego de etapa: (IJ,h)' (Dr,1J2) Y ahora tambin (Pl,P2) y (Ql,Q2)'
Como antes, los)ugadores prefieren unnimemente\D1,D2) a (h,h). Ms
importante an, no hay ningn equilibrio de Nash (x,y) en llfigUra 2.3.5
t~l que los jugadores prefieran unnimemente (x,y) a (Pl,P2); (Q1;Q2) o
(Dl;D2). Decimos entonces que (Dl,D2) domina en el sentidO de Peto' a
(IJ,h), y que (P1,P2),(Ql,Q2) y (Dl,D2) estn en a fronterade Paretode las
ganancias de los equilibrios de Nash del juego de etapa de la figtira2.3.5.
Supongamos que el juego de etapa de la figura 2.3.5 se'juega dos
veces, habiendo los jugadores observado el resultado de la prirnfa\511da
antes de
empiece la segunda. Supongamos adicion~J~erit~gue los
jugadores prevn' que el resultado de la segundatapa ser el sigUi~nte:
(DJ,D2) si el resultado dela primera etapa es (Cl,C2); (PI ,P2) sieiis'U1tad
de la primera etpa es (Cj,w), donde 1JJ puede ser cualquierco~amE:los
C2; (Ql,Q2) si el resultado de la primera etapa eS (x,C2), donde x puede ser
cualquier cosa menos Cl y (DJ,D2) si el resultado de la primera etapa es
(y,z), donde y puede ser cualquier cosa menos
y zpuedes~;, ctialquier
cosa menos C2. Entonces Cl,C2),(Dl,D2 es un result<l:dpeasto'en
subjuegosdeljuego repetido porque cada jugador obtiene 4+3l jugare;

que

el

seguido de Di peros~lo 5 +1/~ a.ljugar Ji en :a primera ~tapa (e i.ncluso


menos con otras deCISIOnes).Mas Importante aun, el problema del eJemplo
, terior no aparece aqu. En el juego repetido en dos etapas basado en la
an
figura 2.3.3, la nica forma de castigar a un jugador por desviarse en la
, primera etapa era jugar ~n equilibrio .~ominado en :1 sentido de Par,eto
en la segunda etapa, cashgandotamblen con ello al Jugador que casllga,
Aqu, en cambio, existen tres equilibrios en la frontera de Pareto -uno
para recompensar el buen comportamiento de ambos jugadores en la
primera etapa y los otros dos para ser utilizados no slo para castigar al
~Ti;;~):Jugador que se desva en la primera etapa, sino tambin para recom pensar
'."'2E::.aiillgdor que castiga. Por tanto, si se requiere una penalizacin en la
Y';~">Segunda ronda, no existe otro equilibrio del juego de etapa preferido por
!-F ' ., .eljugador que castiga, de forma que no se puede persuadir al jugador que
castiga de que renegocie la penalizacin.
2.3.B Teora:Juegos

repetidos

infinitamente

Pasamos ahora a los juegos repetidos' infinitamente. Como en el caso


de un horizonte finito, el tema principal es el de que las amenazas o las
promesas, crebles sobre el comportamiento futuro pueden influir en el
comportamieritopresente\ En el caso de un horizonte finito vimos que si
existen equilibrios de Nash mltiples del juego de etapa G, pueden existir
resultados perfedos en subjuegos del juego repetido G(T) en los que, para
,rualquier t < T, el resultado de la etapa t no es un equilibrio de Nash de G.
~ Untesultado ms poderoso se da en los juegos repetidos infinitamente:
intruso si el juego de etapa tiene un nico equilibrio de Nash, pueden
','e3dstir muchos resultados perfectos en subjuegos en los que ning'uno de
los resultados en cada etapa sea un equilibrio de Nash de G,
_ Empezamos con el estudio del dilem de los presos repetido in rinitamente. Consideramos a continuacin la clase de juegos repetidos infini, tamente anloga a la clase de juegos repetidos finita mente definida en la
o" :,'sccin anterior:' un juego esttico con informacin completa, G, se repi te
t:r;~LIfullutamente, habiendo los jugadores observado 10s'resultados de todas
,
las rondas anteriores antes de que empiece la etapa siguiente. Para esta
. "cIase de juegos repetidos finita e infinitamente, definimos los conceptos
de estrategia de un jugador, de subjuego y de equilibrio d Nash perfecto
el).,"sbjuegos.(En la seccin 2.4.B definimos estos conceptos para juegos
, dinmicos con informacin completa en general, no slo para esta clase
de juegos repetidos.) Utilizamos despus estas definiciones para enuncia r
.;

''-.-

(,

~
..

1'.

~,

~8 / JUEGOS DINMICOS CON INFORMACIN

]egos repetidos /89

COMPLETA (c. 2)

y demostrar el teorema de Friedman (1971) (tambin llamado teorema de

tradicin oral o teorema folk).I6

Jugador 2

D2

1,1 5,0
Jugador 1
0,5 4,4

Figura 2.3.6
Supongamos que el dilema de los presos de la figura 2.3.6 se repite
infinitamente y que, para cada t, los resultados de las t - 1 jugadas anteriores del juego de etapa se han observado antes de que la t-sima etapa
empiece. Sumar simplemente las ganancias de esta sucesin infinita de
juegos de etapa no proporciona una medida til de la ganancia de un
jugador en el juego repetido infinitamente. Recibir una ganancia de 4 en
cada periodo es mejor que recibir una ganancia de 1 en cada periodo, por
ejemplo, pero la suma de ganancias es infinita en ambos casos. , Recordemos (en el modelo de negociacin de Rubinstein <;lela seccin 2.1.D)
que el factor de descuento 5 = l/O + 1') es el valor actual de lila peseta
que se vaya a recibir en el periodo siguiente, donde l' es el tipo de inters
por periodo. Dados un factor de descuento y las ganancias de un jugador
obtenidos de una sucesin infinita de juegos de etapa, podemos calcular

16 El teorema de tradicin oral original se referia a las ganancias en todos los equilibrios
de Nash de un,juego repetido infinitamente. A este resultado se le llam teorema de tradicin
oral por ser ampliamente conocido entre los tericos de juegos de os "aos cincuenia, aun
sin que nadie lo hubiera publicado. El teorema de Friedman (1971) se refiere a lasgnancias
en ciertos equilibrios de Nash perfectos en subjuegos de un juego repebdo infinitamente y,
por tanto, refuerza el teorema de tradicin oral original al utilizar un criterio de solucin ms
fuerte, el equilibrio de Nash perfecto en subjuegos en vez del equilibrio de Nash. Sin embargo,
el antiguo nombre ha prevalecido: al teore;na de Friedman (y a otros resultados posteriores)
se les llama a veces teoremas ele tradicin oral, aun cuando' no hayan sido ampliamente
conocidos entre los tericos de juegos antes de ser publicados.

.'

el valor presente de las ganancias, es decir, la ganancia total que podra


ingresarse en un banco ahora de forma que produjera el mismo saldo al
final de la sucesin.
Definicin. Dado un factor de descuento 5, el valor presente
infinita de pagos 7f,7f2,7f3,'
.. es

L 5 l7f

de la sucesin

00

7fi+ 57f2+ 527f3+ ...

t.

t=I

Tambin podemos utilizar 5 para reinterpretar lo que l~amamos un


juego repetido infinitamente como un juego repetido que se acaba despus
de un nmero aleatorio de repeticiones. Supongamos que al finalizar cada
etapa se lanza una moneda (trucada) para determinar si el juego se acaba
~ no. Si la probabilidad de que el juego se acabe inmediatamente es p y,
por tanto, 1 - p es la probabilidad de que el juego continue al menos una
etapa ms, una ganancia de,7f a recibir en la siguiente etapa (si se juega)
tiene un valor de slo O-p)7f /0 +1')antes de efectuar el lanzamiento del~
moneda correspondiente a esta etapa. Del mismo modo, una gan~cia de
7fa recibir dentro en dos etapas (si ambas etapas se juegan) tiene un:valor
de slo 0- p)27f/0 + 1')2antes de efectuar el lanzamiento de la moneda
correspondiente a esta etapa. Sea 5 = O - p)/O + 1'). Entonces el valor
presente 7f1+ 57f2+ 527f3+ ... refleja tanto el valor temporal del dinero como
la posibilidad de que el juego se acabe.
Consideremos el dilema de los presos repetido infinitalIlente en elque
el factor de descuento de cada jugador es 5"y la ganancia de cq9,aj:ugador
en el juego repetido es el valor presente de las ganan.ciasdel jugad()f,ep
los juegos de etapa. Demostraremos que la cooperacin, es decir,(D1,D2),
puede ocurrir en cada etapa de un resultado perfecto en subjuegos del
juego repetido infinitamente, aun cuando el nico equilibrio de Nash
del juego de etapa es la no cooperacin, es decir, (1},h) El argumerlto
es del mismo estilo que nuestro anlisis del juego repetido en dos etapas
basado en la figura 2.3.3 (el juego de etapa en el que aadimos un segundo
equilibrio de Nash al dilem,! de los presos): si los jugadores cooperan
hoy entonces juegan un equilibrio con ganancias altas maana; en caso
contrario juegan un equilibrio Con ganancias bajas maana. La diferencia
entre el juego repetido en dos etapas y el juego repetido infinitamente es
que aqu el equilibrio con ganancils ltasquepodra jugarse maana no
se ha aadido artificialmente, sirlOque representa continuar cooperando
a partir de maana y en lo Sucesivo.

c..
';-',

"'~'-

,,",

'.'

Juegos repetidos ! 91

90 I JUEGOS D'\JMICOS CON INFORMACIN COMPLETA (c. 2)

Supongamos que el jugadori empieza el juego repetido infinitamente


cooperando y sigue cooperando en cada juego de etapa siguiente si y slo
si ambos jugadores han cooperado en cada ronda previa. Formalmente,
.Ia estrategia, del jugador i es:

etapa. Si jugar Ij es ptimo entonces


.

5 + 0.1 +

.0

.1 + ... = 5 + -"-.

1-0

Alternativamente, jugarD j proporcionara una gananCiade 4 enit'etapa


y conducira a exactamente lafuis~a eleccirtentre Ijy Dj en lasigtiiente
etapa. Llamemos V al val,or ptesert!e de la sucesin infinIta degahnia's
.

.::

..,'

_.

. _

'.

"'.~

~,.~-

V =5+ 1_

Estaes~~~t~i?aesun, ei,:fi,lplod:l~/~t.rategiadel
disparador(trigger strategy);.
'llamadaas p'orque el jugad~i coopera hastaquealguieridefa de Cooperar,
lo qu~Aesencadena' la;dcisln'de. rtovivi '~'.'cooperair.Utlcaffis: Si
ambos jugadores adoptnla, estrat~gia derdlsparador, el resUltado d~l"
juegorepeti~o inffuitamertte ser (Dl,D~)enCdaetapa.' Yerembs pnmeio
que si o est' lo suficientemente Cerca de uno, el hecho de que los dos
jugadores adopten esta estr~tegia cortstituyeun equilibrio de Nash del
juegorepetid infinitamente. Veremos a contiriu~cin que este equilibrio
de Nash es'perfecto en subjuegos, en un sentido que se precisar ms
adelante.
Para demostrar que la adopcin de la estrategia del disparador por
parte de los dos jUi?adores es un equilibrio de Nash del juego repetido
infinitamente, supondremos que el jugador i ha adoptado la estrategia
del disparador ydemostraremos a'continuacin, siempre que o est lo
suficientemente cerca de uno, que adoptar esta estrategia es tambin la
mejor respuesta del jugador j. Dado que el jugador i jugar I para
siempreeuand el resultado de alguna ronda difiera de (Dl~D2), lafuejor
respuesta del jugador j es efectivamente jugar Ij para siempre ruando el
resultado de alguna etapa difiera de (Dl,D2)' Queda: por determinar la
mejor respuesta del jugador ien la primera etapa yen cualquier etapa tal
que los resultados anteriores hayan sido (Dl,D2). Jugar Ij proporcionara
una ganancia de 5 en esta etapa, pero desencadenara la riocooperacin
del jugador"i (y, por tanto, tambin del jugador j) enio sucesivo, de forma
que la ganancia en cada etapa futUra sera 1: Comd'1++2+:. /=1/(1-0),
el valor presente de esta:sucesin de ganancias es
.

V=4+l/,

o V = 4/(1- ), ya que jugar Dj conduce a la misma decisin en la sig"uiente

Jugar Di en la primera etapa. En la t-sima etapa, si


el resultado de todas las t - 1 etapas anteriores ha sido
(Dl,D2) entonces jugar Di; en caso contrario, jugar h

ue el jugador j recibe por realizar esta eleccin de forma ptima (ahora


q cada vez que aparezca). Si jugar Dj es ptimo entonces
y
,

;.0

<

o'

coma obtuvimos antes. Por tanto, jugar Dj es ptimo si y slo si


4
1_ o

5 + 1 _ '

(2.3.1)

o ~ 1/4. Por tanto, en la primera etapa, y en cualquier ronda tal que


todos los resultados anteriores hayan sidoCDl,D2), la decisin ptima del
jugador j (dado que el jugador i ha adoptado lestrategia del disparador)
es Dj si y slo si ~ 1/4. Combinando esta observacin con el hecho
de que la m~jor respuesta de j es jugar siempre Ij cuando el resultado
de alguna etapa difiera de (Dl,D2), tenemos que el que los dos jugadores
jueguen la estrategia del disparador es un equilibrio de Nash si y slo si
1/4.
Vamos a ver ahora que este equilibrio de Nash es perfecto en sub.juegos. Para hacerlo, definimos el concepto de estrategia en un juego
repetido, de subjuego en un juego repetido y de equilibrio de Nash perfecto en subjuegos en un juego repetido. Para ilustrar estos conceptos
con ejemplos sencillos de las secciones anteriores, los definiremos para
juegos repetidos tanto finita como infinitamente. En la seccin anterior
definimos el juego repetido finitamente G(T) basado en un juego de etapa
G = {Al,'"
,An; 'ul,' .. ,un), un juego esttico con informain completa
en el que los jugadores 1 a n eligen simultneamente las acciones al a (1."
de los espacios de acciones Al a An respectivamente, y las ganancias son
Ul (al, ... ,an) a Un (al, ... ,O'n)' Definimos ahora el juego anlogo repetido
infinitamente.17
~

Definicin. Dado un juego de etapa G, denominamos G(co,o) al juego repetido


.infinitamente en el que G se repite por siempre y los jugadores tienen el mismo
17 Naturalmente se puede definir tambin un juego repetido basado en un juego de etapa
dihInico, En esta seccin limitamos nuestra atencin a juegos de etapa estticos para poder
presentar las ideas principales de. forma sencilla. Las aplicaciones en las secciones 2.3.0 y
2.3.E son juegos repetidos basados en juegos de etapa dinmicos.

,"

92 I JUEGOS DfNMICOS CON INFORMACiN COMPLETA (e. 2)

Juegos repetidos I 93

clor de desCllento 6. Para cada t, los resultados de las t - 1 jugadas anteriores del
jllego de etapa son conocidos antes de que empiece la t-sima etapa. La ganancia
de cada jugador en G(co,o) es el valor presente de las ganancias que el jugador
outiene en la sucesin infinita de juegos de etapa.
En cualquier juego (repetido o no), la estrategia de un jugador es un
plan completo de accin, es decir, especifica una accin factible del jugador
en cada contingencia en la que le pudiera corresponder actuar. Dicho de
forma algo ms frvola, si un j~ga_dordejara una estrateg!a a su abogado
anles de que el juego empezase, el abogado podra sustituir al jugador
en el juego, sin necesitar en ningn caso de instrucciones adicionales
sobre cmo jugar. En un juego esttico con informacin completa, por
ejemplo, una estrategia es simplemente una accin. (Por esto describimos
lal juego como G = {S,,,,,Sn;'U,
... ,un} en el capitulo t pero aqu
pu:de describirse tambin como G = {A], ... ,An; U, '" ,un}: en un juego
estallco con informacin 120mpletael ~spacio de estrategias del jugador i,
Si, es simplemente el espacio de acciones Ai.) Sin embargo, en un juego
dinmico, una estrategia es ms complicada.
Consideremos el dilema de los presos en dos etapas analizado en la
seccin anterior. Cada jugador acruados veces, de forma que podra
pensarse que una estrategia es simplemente un par d irIstrucciones (b,c),
donde b es la decisin en la primera etapa y e es la decisin en la segunda
elapa. Pero existen cuatro resultados posibles de la pr11leraetapa, (1,1z),
U,Dz),(D1,1 y (D,D, que representan cuatro contingencias diferentes
en las que al jugador l~ podra corresponder actuar. Por tanto, la estrategia
de cada jugador consta de cinco instrucciones, que indicamos mediante
(VW,x,y,z), donde v es la decisin en la primera etapa y w,x,y y zson''!as
decisiones en la segunda etapa correspondientes a (11,h), (11,Dz), (DJz) y
(D,Dz) respectivamente. Usando esta notacin, las instrucciones "jugar b
en la primera etapa y jugar e en la segunda pase lo que pase enla primera"
se describen como (b,c,c,c,c), pero esta notacin tambin puede expresar
estrategias en las que la decisin de la segunda etapa es contingente del
resultado de la primera etapa, tal como (b,c,c,c,b), que significa "jugar b en
la pnmera etapa y jugar e en la segunda ronda a menos que el resultado
de la primera sea (D1,D:J, en cuyo caso jugar b". Del mismo modo, en
el juego. repetido en dos etapas basado en la figura 2.3.3, la estrategia
de cada Jugador consta de diez instrucciones, una decisin en la primera
etapa y nueve decisiones contingentes en la segunda etapa, una para cada
resultado posible de la primera etapa. Recordemos que al analizar el

juego repetido en dos etapas consideramos una estrategia en la que la


decisin del jugador . en la segunda etapa era contingente del resultado
de la primera etapa: jugar Ci en la primera etapa y jugar li en la segunda
a menos que el resultado de la primera sea (C,Cz), en cuyo caso jugar Di
en la segunda etapa.
En el juego repetido finitamente G(T) o en el repetido infinitamente
G(co/i), la historia de! juego hasta la etapa t es el registro de las decisiones
de los jugadores desde la etapa 1 hasta la t. Los jugadores podran haber escogido (un, ... ,un) en la etapa 1, (un, ... ,unz) en la etapa 2,. .. , y
(Uu ... /lnt) en la etapa t por ejemplo, donde para cada jugador i y etapa
s la accin Uis pertenece al espacio de acciones Ai.
Definicin. En e! juego repetido finitamente G(T) o en el juego' repetido infinitamente G(co,8), la estrategia de un jugador determina la accin que el jugador
realizar en cada etapa para cada posible historia de/juego hasta la etapa anterior.
Pasemos ahora a los subjuegos. Un subjuego es una parte de un juego,
la parte que queda por jugar empezando en cualquier momento en el que
la historia completa del juego hasta entonces sea informacin deI'doIro
pblico entre los jugadores. (Ms adelante en esta seccin damos una
definicin precisa en el caso de los juegos repetidos G(T) y G(co,8);en l(i
seccin 2.4.B damos una definicin precisa para juegos dinmicos con informacin completa en general.) En el dilema de los presos en dos etapas,
por ejemplo, hay cuatro subjuegos que corresponden a los juegos de la
segunda etapa que siguen a los cuatro resultados posibles de la primera
etapa. Del mismo modo, en el juego repetido en dos etapas basado en
la figura 2.3.3, hay nueve subjuegos que corresponden a los nueve resultados posibles en el juego de la primera etapa. En el juego repetido
finita mente G(T) yen el juego repetido infinitamente G(co,8)la definicin
de estrategia est ntimamente ligada a la definicin de subjuego: la estrategia de un jugador determina las acciones que el jugador realizar en
la primera etapa del juego repetido y enla primera etapa de cada uno de
sus subjuegos.
Definicin. En e/juego repetido finitamente G(T), un sllbjllego que empieza en
la etapa t + 1 es e! juego repetido en e! que G se juega T - t veces y que designamos
por G(T - t). Exist~ muchos subjuegos que empiezan en la etapa t + 1, uno para
cada una de las posibles historias de! juego hasta la etapa t. En e! juego repetido
infinitamente G(co,8), cada subjuegoque
empieza en la etapa t + 1 es idntico

liegos "e'e/idos

94 / JUEGOS DINMICOS CON INFOI~MAClN COMPLETA (e. 2)

al juego original G(oo,o). Como en el caso con horizonte finito, existen tantos
subjuegos que empiezan en la etapa t + 1 de G(oo,o) como posibles historias del
juego hasta la etapa t.
Obsrvese que la t-sima etapa de un juego repetido no es por s misma
un subjuego del juego repetido (suponiendo que t < T en el caso finito).
Un subjuego es una parte del juego original que no slo empieza en un
momento en que la historia del juego hasta entonces es informacin del
domino pblico entre todos los jugadores, sino que tambin incluye todas
las decisiones posteriores a ese rnome~toen el juego original. Analizar la
t-sima etapa aisladamente sera equivaierit~a considerar la t-sima etapa
corno la etapa final del juego repetido .. Tal anlisis podra llevarse a cabo
pero no sera relevante para el juego repetido original.
Estamos ahora preparados para la definicin de equilibrio de Nash
perfecto en subjuegos, la cual depende a su vez de la definicin de equilibrio de Nash. Esta ltima no 11acambiado desde el captulo 1, pero ahora
apreciamos la complejidad potencial de la estrategia de un jugador en
un juego dinmico: en cualquier juego, un equilibrio de Nash es una coleccin de estrategias, una para cada jugador, tal que la estrategia de cada
jugador es la mejor respuesta a las estrategias de los dems jugadores.
Definicin. ,(Selten 1965): Un equilibrio de Nash es perfecto en subjuegos
si las estrategias de los jugadores constituyen un equilibrio de Nash en cada
subjuego.
'
,
,

qs

Si el jugador adopta la estrategi~ del disparador p~ra el juego


entonces (i) las estrategias del Jugador en un subluego de la
comp leto ,
1
. era clase son de nuevo la estrategia del disparador, que ya 1e11l0S
nm
Pd strado que es un equilibrio de Nash del juego completo, y (H) la,s
emo
.
1
t
estrategias del jugador en un juego de la segunda clase son slmp eme:1.e
repetir en lo sucesivo el equilibrio del juego de etapa (1,1z), que e: ~a,~blen
un equilibrio de Nash del juego completo. Por tanto, un eqmhbllo. de
Nash en las estrategias del disparador del dilema de los presos repetido
(Dl,Dz).

infinitamente es perfecto en subjuegos.


Ganancia al jugador 2

(0,5)

(5,0)

Ganancia al
jugador 1

Figura 2.3.7

'

El equilibrio de Nash perfecto en subjuegos es un refinamiento del


equilibrio deNash. Es decir, para ser perfecto en subjuegos, las estrategias
de los jugadores deben ser primero un equilibrio de Nash y pasar luego
una prueba adicionaL
Para demostrar que el equilibrio de Nash en las estrategias del disparador deLdilema de los presos repetido infinitamente es perfecto en
subjuegos, debernos demostra'r que las estrategias del disparador constituyen un equilibrio de Nash en cada subjuego de este juego repetido
infinitamente. Recordemos que cada subjuego de un juego repetido infinitamente es idntico al juego completo. En el equilibrio de Nash en las
estrategias del disparador del dilema de los presos repetido infinitamente,
estos subjuegos pueden agruparse en dos clases: (i) subjuegos en los que
todos los resultados de las etapas anteriores han sido (D,D2), y (ii) subjuegos en los que el resultado de al menos una etapa anterior difiere de

Aplicamos seguidamente argumentos anlogos al juego repet.do infi'nitamente G(oo,o). Estos argumentos conducen al teorema. de Fnedman
(1971) para juegos repetidos infinitamente. Para enunciar' el teorema, necesitarnos dos ltimas definiciones. Primero, llamamos factIbles a las ga. (Xl,"" x n ) en ell'uego de etapa G si son una combinacin
convexa
nanCIas
.
(es decir, una media ponderada donde las ponderaciones son no-negativas
y suman uno) de las ganancias a las estrategias puras de. G. El conju.llto
de ganancias factibles en el dilema de los pres~s de la figura 2..3.6 es la
regin sombreada de la figura 2.3.7. Las gananCIas alas .estra~eglas puras
(1, 1), (0,5), (4, 4) Y (5, O) son factibles. Otros pagos factIbles mcluyen los
, ) para 1 < x., < 4 que resultan de las medias ponderadas de (1,
pares (X,X
1) Y (4, 4), Y los pares (y,z) para y + z = 5 Y O < Y < 5, que resl1.ltan.de
las medias ponderadas de (O, 5) Y (5, O). Los otro~ pares en (el mtenor
de) la regin sombreada de la figura 2.3.7 son medIas ponderadas de las

También podría gustarte