Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Minicurso Onesimo PDF
Minicurso Onesimo PDF
CIMAT, Guanajuato
Agosto 112, 2005
Resumen: Estas son notas para un minicurso (de 7.5 horas, aproximadamente)
introductorio sobre algunos aspectos de los juegos dinamicos, incluyendo juegos
determinsticos y estocasticos, a tiempo discreto y tiempo continuo. Se presenta
a problemas de control optimo
2
CONTENIDO
1. Introduccion
2. Definicion
Procesos de Markov
Procesos de control markovianos
10
23
dinamica
4. Programacion
32
41
45
7. Equilibrios de compromiso
51
de Nash
8. El problema de negociacion
55
59
65
70
Referencias
73
3
Observaciones sobre la bibliografa
La literatura sobre juegos estaticos es extenssima, pero para juegos dinami
cos esta limitada a artculos sobre casos especiales y a un punado
de libros, como
los siguientes.
Para juegos diferenciales (determinsticos) una buena referencia es el libro de
Dockner et al. (2000). Algunos libros clasicos en este tema son los de Isaacs
trata juegos de suma cero.
(1965) y Leitmann (1974), aunque el primero solo
considera equilibrios nocooperativos,
El libro de Basar y Olsder (1999) solo
pero tiene la ventaja de que estudia algunos tipos de juegos diferenciales tanto
determinsticos como estocasticos y, ademas, juegos a tiempo discreto. La desven son un tanto arcaicos, porque el libro
taja es que el material y su presentacion
en
se escribio originalmente en 1982 y entre esa fecha y la de la segunda edicion,
1999, han habido muchos nuevos desarrollos.
El libro de Filar y Vrieze (1997) estudia juegos estocasticos a tiempo discreto,
con espacio de estados finito.
Por supuesto, algunos textos de teora de juegos incluyen algo sobre juegos
dinamicos, por ejemplo, Fudenberg y Tirole (1991), Gibbons (1992), Petrosjan y
Zenkevich (1996).
Advertencia
Un concepto fundamental en teora de juegos es el de equilibrio de Nash,
tambien conocido como equilibrio nocooperativo, introducido por John Nash
(1950). Para juegos dinamicos, la existencia de tales equilibrios se conoce en
una variedad de casos especiales, pero para juegos con espacio de estados no
numerable sigue siendo un problema abierto. Lamentablemente, hay publicaciones que aseguran la existencia de equilibrios de Nash pero cuyas demostraciones son incorrectas. Ejemplos de estas publicaciones, para juegos a tiempo
discreto, son los artculos:
Lai, H.C. Tanaka, K. (1984). On an Nperson noncooperative Markov
game with a metric state space. J. Math. Anal. Appl. 101, pp. 7896.
4
Sobel, M.J. (1973). Continuous stochastic games. J. Appl. Prob. 10, pp.
597604.
Para juegos a tiempo continuo:
Borkar, V.S., Ghosh, M.K. (1992). Stochastic differential games: an occupation measure based approach. J. Optim. Theory Appl. 73, pp. 359385;
correction: ibid, 88 (1996), pp. 251252.
5
Indice de notacion
Introduccion
se presentan algunos ejemplos que serviran para motivar e ilusEn esta seccion
trar algunos de los conceptos que se introduciran en secciones posteriores.
Ejemplo 1.1: Oligopolios
Oligopolio: Mercado con pocos vendedores (tambien llamados productores o
firmas) y muchos compradores.
Ejemplos de oligopolios:
Servicios de transporte (autobuses, aerolneas, ...)
2
Ejemplo 1.2. Un oligopolio a tiempo discreto, N firmas, [Kirman, Sobel (1974)].
En cada tiempo t = 0, 1, . . . tenemos:
Estado del juego: xt = (x1t , . . . , xN
t ), donde
xit := nivel de inventario de la firma i (i = 1, . . . , N ) al inicio del periodo t.
de control de la firma i : ait = (zti , it ) donde
Accion
zti := cantidad que decide producir en el periodo t,
it := precio que anuncia.
1. INTRODUCCION
Demanda dit del producto de la firma i. La demanda puede ser determinstica, estocastica o incierta.
Modelo dinamico del juego: el estado xt = (x1t , . . . , xN
t ) satisface
xt+1 = xt + zt dt
t = 0, 1, . . . .
(1.1)
Ganancia neta de la firma i : rti (xit , ait , dit ). Por ejemplo, si yti := xit + zti ,
entonces
rti ( ) = it dit hi (yti dit )+ bi (dit yti )+ ci zti ,
(1.2)
donde hi , bi , ci son constantes dadas que representan, respectivamente, cos (por no satisfacer la detos unitarios de almacenamiento, de penalizacion
Informacion
Acciones ait
x0
t=0
x0
i t
t=0
(1.4)
8
En principio, cada jugador o firma desea maximizar su ganancia neta.
Sin embargo, la regla es que no existen multiestrategias que satisfagan tal condi
cion.
Por tal motivo, en teora de juegos se habla de equilibrios en lugar de
multiestrategias optimas.
En el caso estocastico, el oligopolio anterior es un caso especial de ciertos juegos a tiempo discreto conocidos como juegos estocasticos o juegos
markovianos, introducidos por Shapley (1953). 2
Ejemplo 1.3. Un duopolio a tiempo continuo con sticky prices [Dockner et
al. (2000)]
N = 2 firmas; el producto es homogeneo.
de la firma i.
Para i = 1, 2, ai (t) 0 es la tasa de produccion
de
El precio de mercado (del producto) vara de acuerdo con la funcion
demanda [a1 (t) + a2 (t)], donde > 0 es una constante.
El precio es pegajoso, lo cual significa que el precio de mercado no se ajusta
de demanda; de hecho,
instantaneamente al precio indicado por la funcion
la tasa de cambio del precio p(t) es
p(t)
= s{ [a1 (t) + a2 (t)] p(t)} para t > 0, p(0) = p0 ,
(1.5)
1. INTRODUCCION
Ejemplo 1.4: Juegos LQ. El juego (1.5)(1.6) es un ejemplo de juego LQ, del
ingles: Linear system, Quadratic cost. Este tipo de juegos es muy importante
para
t = 0, 1, . . .
(1.7)
10
Definicion
del problema de control optimo
1. como
evoluciona el sistema de interes; es decir, se debe especificar el modelo
dinamico del sistema;
2. como
se va a controlar el sistema; es decir, se debe especificar el conjunto de
estrategias admisibles, tambien llamadas polticas de control o simplemente
polticas o estrategias;
3. restricciones adicionales (por ejemplo, en el estado del sistema o en las estrategias), si es necesario hacerlas;
4. como
se va a medir la respuesta del sistema a cada una de las distintas estrategias admisibles; es decir, se debe especificar la funcion objetivo, tambien
llamada ndice de funcionamiento.
Dadas estas cuatro componentes, el PCO se puede resumir como sigue: optimizar
la funcion objetivo sujeta a las restricciones en 1, 2 y 3.
describiremos las componentes 1 a 4 de un PCO.
En esta seccion
Definicion
2.1: El modelo dinamico. Los modelos mas comunes (aunque no los
unicos)
son los siguientes.
Sistemas a tiempo discreto:
xt+1 = F (xt , at , t ) para t = 0, 1, . . . , T,
(2.1)
con condicion
inicial x0 = x, donde T es el horizonte del problema, y las
t son perturbaciones. Dependiendo de las t , se dice que (2.1) representa un
sistema estocastico si las t son variables aleatorias;
2. DEFINICION
11
de constantes con
sistema determinstico si las t forman una sucesion
valores conocidos;
sistema incierto si se sabe que las t son constantes con valores en algun
conjunto dado, pero no se conoce el valor particular de cada t .
En todo caso (incluyendo los modelos a tiempo continuo que veremos a con
tinuacion),
el conjunto en donde toman sus valores las variables xt se llama el
espacio de estados del PCO y lo denotaremos por X. Para fijar ideas supon entero d 1. (Mas
dremos que X es un subconjunto cerrado de IRd para algun
generalmente, basta suponer que X es un espacio de Borel, es decir, un subconjunto de Borel de un espacio metrico separable y completo.)
Sistemas a tiempo continuo:
Caso determinstico:
x t = F (t, xt , at ) para
0 t T,
(2.2)
inicial dada x0 = x.
con T y condicion
Caso estocastico: este caso admite una gran diversidad de modelos. El
mas estudiado es el de una ecuacion
diferencial estocastica
dxt = F (t, xt , at )dt + (t, xt , at )dWt , 0 t T, x0 = x,
(2.3)
(2.4)
12
donde A(x) es el conjunto de acciones factibles cuando el estado es x.
Con respecto a (b), un caso muy general es el de una estrategia noanticipante, tambien conocida como estrategia con memoria (memory strategy), en la
at depende de toda la historia del proceso
que, en cada tiempo t, la accion
hasta el tiempo t. Por ejemplo, en un PCO a tiempo discreto tenemos
at = g(t, x0 , . . . , xt , a0 , . . . , at1 ),
dada. El otro extremo es cuando g depende de t unica
donde g es una funcion
mente,
a
x
-
sistema
controlador
t
-
at
controlador
es decir,
at = g(t) t,
(2.5)
en cuyo caso se dice que es una estrategia de lazo abierto (open loop). Si g
de t y xt , es decir,
depende solo
at = g(t, xt ) t,
(2.6)
2. DEFINICION
13
(2.8)
14
problemas financieros en los que el estado es un capital. En otras situaciones se
puede requerir que el estado terminal xT pertenezca a un cierto conjunto K, i.e.
xT K.
es cuando se desea optimizar una cierta funcion
objeOtro caso muy comun
tivo, digamos V0 (), sobre todas las estrategias para las que
Vi () bi
i = 1, . . . , n,
(2.10)
donde las Vi () son funciones dadas y las bi son constantes. Por ejemplo, en un
tpicamente se desea maximizar la gananproblema de control de produccion,
cia neta V0 () sujeta a que ciertos costos Vi () (e.g. costos de manufactura, de
etc.) estan acotados por arriba, como en (2.10).
almacenamiento, de distribucion,
Definicion
2.4. La funcion
objetivo o ndice de funcionamiento. Para un PCO
objetivo son: para
determinstico a tiempo discreto, ejemplos tpicos de funcion
cada estrategia = {at } y cada estado inicial x0 = x,
costo total con horizonte finito T :
V (, x) :=
T 1
X
c(xt , at ) + CT (xT ),
(2.11)
t=0
t c(xt , at ),
(2.12)
t=0
"T 1
X
t=0
#
c(xt , at ) + CT (xT ) .
(2.13)
2. DEFINICION
15
V (, x) = E
(2.15)
(2.16)
se le llama la funcion
de valor del PCO. En el caso de costos, como en (2.11)
(2.15), a V (x) tambien se le llama funcion
de costo mnimo. Si en lugar de
costos tenemos ganancias o utilidades que se desean maximizar, entonces
de valor es
en lugar de (2.16) la funcion
V (x) := sup V (, x)
(2.17)
(2.18)
16
plantear a tiempo discreto o a tiempo continuo.
Tiempo discreto. Considerese un mercado financiero con dos tipos de activos:
tipo de bonos o CETES = Certificados
un activo libre de riesgos (e.g. algun
de la Tesorera) con una tasa fija de interes r > 0, y
tipo de acciones) con una tasa aleatoria de
un activo con riesgo (e.g. algun
interes t 0. Obviamente, pedimos que E(t ) > r.
La variable de estado es el capital xt de un cierto inversionista, que en cada
tiempo t (t = 0, 1, . . . , T ) debe decidir cuanto consumir y cuanto invertir.
Entonces las acciones de control son
at = (ct , pt ) [0, xt ] [0, 1],
(2.19)
donde
ct := cantidad que el inversionista decide consumir,
de xt ct que decide invertir en el activo con riesgo, de modo
pt := fraccion
de xt ct que invertira en el activo sin riesgo.
que 1 pt es la fraccion
El conjunto A(x) := [0, x] [0, 1] en (2.19) es el conjunto de acciones factibles,
como en (2.4).
El modelo dinamico del sistema es
xt+1 = [(1 pt )(1 + r) + pt t ](xt ct ) t = 0, 1, . . .
(2.20)
de
donde T , (0, 1) es el factor de descuento, y U (c) es una funcion
en (2.21) sobre todas las esutilidad. El PCO consiste en maximizar la funcion
(2.20).
trategias = {at } con at como en (2.19), bajo la restriccion
Tiempo continuo. En este caso el precio b(t) del activo sin riesgo (el bono,
diferencial ordinaria
digamos) vara de acuerdo a una ecuacion
db(t) = rb(t)dt.
2. DEFINICION
17
con r > 0, mientras que el precio s(t) del activo con riesgo (el stock) esta dado
diferencial estocastica
por una ecuacion
ds(t) = s(t)[mdt + dw(t)],
donde m > r y > 0 son constantes, y w() es un proceso de Wiener estandar.
que en
Las acciones de control a(t) = (c(t), p(t)) tienen la misma interpretacion
(2.22)
con x(0) = x > 0. Los tres terminos en el lado derecho de (2.22) corresponden,
respectivamente, a la ganancia por el capital invertido en el bono, la ganancia
en el stock, y la disminucion
del capital debida al consumo.
por la inversion
Ex
Z
T
t
U (c(t))dt ,
(2.23)
Notese
que en (2.20) necesariamente se tiene xt 0 para todo t, si x0 = x > 0,
de nonegatividad no es evidente (por las
mientras que en (2.22) la condicion
propiedades del proceso w()); se debe imponer la condicional adicional x(t) 0.
de nonegatividad consiste en sustituir el
Otra forma de asegurar la condicion
tiempo terminal T en (2.23) por el tiempo aleatorio
:= min{T, 0 },
donde 0 := inf{t 0 | x(t) = 0} es el primer tiempo en el que el proceso x()
llega a cero.
18
material estandar; ver e.g. Fleming y Rishel (1975), Fleming y Soner (1992), Sethi
y Thompson (2000), Karatzas y Shreve (1998), Zariphopoulou (2002).
Procesos de Markov
de proceso de Markov, considerese la ecuacion
= F (x(t)) t 0,
con x(0) = x0 .
(2.24)
(La funcion
sobre F , esta
tiene una solucion
unica
ecuacion
Z s
F (x(r))dr s 0.
x(s) = x0 +
0
F (x(r))dr.
(2.25)
(2.26)
con (2.25) vemos que el sistema deterEn particular, comparando esta expresion
minstico x() es un proceso de Markov. Los procesos de Markov incluyen las
soluciones de ecuaciones diferenciales estocasticas
dxt = F (xt )dt + (xt )dWt ,
(2.27)
2. DEFINICION
19
(2.28)
en un
para todo t = 0, 1, . . . y B X. Esta es una probabilidad de transicion
en
paso, de t a t + 1, pero se puede demostrar que es equivalente a una condicion
k pasos, de t a t + k, para k = 1, 2, . . .
Un proceso de Markov a tiempo discreto tambien se conoce como cadena de
Markov.
En muchsimas aplicaciones, una cadena de Markov x = {xt , t = 0, 1, . . .} se
de diferencias
define mediante una ecuacion
xt+1 = F (xt , t ) t = 0, 1, . . . ; x0
dado,
(2.29)
(2.30)
tambien conocido como proceso con ruido aditivo. Un caso especial son los
sistemas lineales
xt+1 = xt + t
con X = S = IRn y una matriz cuadrada de orden n.
Procesos de control markovianos: tiempo discreto
Sea x = {xt , t = 0, 1, . . .} un proceso controlado con valores es un espacio
X. Por analoga con la propiedad de Markov (2.28), se dice que x es un proceso
de control markoviano (PCM) si para cualquier estrategia = {at , t = 0, 1, . . .}
20
de x en el tiempo t + 1, dada toda la
y cualquier t = 0, 1, . . . , la distribucion
del estado y la accion
en el
historia del proceso hasta el tiempo t depende solo
tiempo t, es decir
Prob(xt+1 B | x0 , a0 , . . . , xt , at ) = Prob(xt+1 B | xt , at )
=: Q(B|xt , at )
(2.31)
Q en (2.31), i.e.
para todo B X. La funcion
Q(B|x, a) := Prob(xt+1 B | xt = x, at = a)
(2.32)
dado,
(2.33)
comun
tambien que si es una estrategia markoviana (por
ejemplo como en (2.6) o (2.7)), entonces x es una cadena de Markov. En efecto, si
at = g(xt ) para todo t = 0, 1, . . ., entonces (2.33) resulta
xt+1 = G(xt , g(xt ), t ) t = 0, 1, . . . ,
(2.34)
(2.35)
2. DEFINICION
21
es necesario anadir
componentes al modelo de control. Por ejemplo, si consideramos un costo terminal CT (x) como es (2.13), quizas convendra reescribir (2.35)
como
M C = (X, A, Q, c, CT ).
Si ademas hay restricciones en los controles como en (2.4), entonces escribiramos
M C = (X, A, {A(x)|x X}, Q, c, CT ).
En fin, el modelo de control markoviano se puede adaptar a cada problema particular que se este analizando.
Procesos de control markovianos: tiempo continuo
Sea x = {xt , 0 t T } un proceso controlado, el cual depende por supuesto
de la estrategia particular = {at , 0 t T } que se este usando. Decimos que
x es un proceso de control markoviano (PCM) a tiempo continuo si cuando
es una estrategia markoviana, el proceso x resulta ser proceso de Markov. (Esta
es una extension
de la idea que usamos en (2.3.4).)
definicion
Un PCM a tiempo continuo tambien se puede representar mediante un modelo de control (MC) markoviano, pero el asunto es un poco mas complicado
Q en (2.35), debeque a tiempo discreto porque, en lugar de la ley de transicion
a
mos especificar el generador infinitesimal L (a A) del PCM, es decir, en
lugar de (2.35) ahora tenemos
M C = (X, A, La , c),
(2.36)
(2.37)
22
definido para cierta subfamilia de funciones v(x) de clase C 1 .
diferencial estocastica (2.3) tambien define un
Analogamente, la ecuacion
3. EL PRINCIPIO DEL MAXIMO
23
Hay varias tecnicas generales para estudiar PCOs como son el analisis convexo
lineal (usualmente en espacios vectoriales de dimension
iny la programacion
finita). Sin embargo, por razones computacionales, en la mayora de las aplicaciones las tecnicas mas usadas son el principio del maximo (que algunos autores
siguiente seccion.
solo
consideraremos problemas determinstiPara simplificar la exposicion
cos con horizonte finito, a tiempo discreto y a tiempo continuo. Al final de la
se mencionan algunas referencias sobre problemas estocasticos.
seccion
Problemas a tiempo discreto.
Considerese el PCO determinstico con espacio de estados X = IRn , espacio
de acciones A = IRm , y modelo dinamico
xt+1 = F (t, xt , at ) t = 0, 1, . . . , T 1
(3.1)
T 1
X
t=0
(3.3)
24
donde p = {p0 , . . . , pT }. Por lo tanto, sustituyendo (3.2) en (3.3) y usando el
hamiltoniano, definido para cada t = 0, 1, . . . , T 1 como
H(t, xt , at , pt+1 ) := pt+1 F (t, xt , at ) L(t, xt , at ),
(3.4)
T 1
X
t=0
no
Finalmente, bajo la siguiente hipotesis
y usando resultados de optimizacion
se puede ver en Halkin
lineal se obtiene el Teorema 3.2 (cuya demostracion
(1966), Tabak y Kuo (1971) o Sethi y Thompson (2000)).
Hipotesis
3.1.
(a) Para cada t = 0, 1, . . . , T 1, las funciones de costo L(t, x, a) y C(x) son de
clase C 1 en x y a;
F (t, x, a) es de clase C 1 en x;
(b) Para cada t = 0, 1, . . . , T 1 y a A, la funcion
(c) Para cada t = 0, 1, . . . , T 1 y x IRn , el conjunto {F (t, x, a) : a A} es
convexo.
Teorema 3.2. (El principio del maximo caso determinstico, tiempo discreto).
estrategia optima
a = {at , t = 0, . . . , T 1} para el PCO (3.1)(3.2), y sea
(3.5)
i.e.
pt = Fx (t, xt , at )0 pt+1 Lx (t, xt , at ),
con la condicion terminal
pT = Cx (xT ),
(3.6)
3. EL PRINCIPIO DEL MAXIMO
25
(3.7)
para t = 0, . . . , T 1.
El nombre principio del maximo para el Teorema 3.2 viene precisamente
(3.7).
de la condicion
Nota 3.3. El Teorema 3.2 da condiciones necesarias de optimalidad, a saber, la exis p de vectores adjuntos que satisfacen (3.5), (3.6) y (3.7).
tencia de la sucesion
Bajo hipotesis
adecuadas estas condiciones tambien son suficientes. De hecho, si
t = 0, 1, . . . , T 1; x0 = x.
(3.9)
26
acciones son X = A = IR. (Exactamente el mismo analisis que presentamos a
se puede extender a un problema vectorial con X = IRn y A = IRm ,
continuacion
en cuyo caso los coeficientes en (3.8) y (3.9) son matrices de dimensiones adecuadas. Ademas, dichos coeficientes pueden variar con el parametro de tiempo:
Qt , Rt , ST , t , t .)
Comparando (3.8)(3.9) con (3.1)(3.2) vemos que el hamiltoniano en (3.4)
resulta
1
H(t, xt , at , pt+1 ) = (xt + at ) pt+1 (Qx2t + Ra2t ).
2
Luego, como
Hx = pt+1 Qxt y Ha = pt+1 Rat ,
el problema con valores de frontera mencionado en la Nota 3.3 resulta:
(a) Ecuaciones canonicas: para t = 0, . . . , T 1,
xt+1 = xt + at ,
pt = pt+1 Qxt .
(3.10)
t = 0, . . . , T 1.
(3.11)
t = 0, . . . , T,
(3.13)
de frontera pT = SxT
donde K0 , . . . , kT son constantes. En efecto, la condicion
en (3.12) tenemos
implica que KT = S. Asimismo, de la segunda ecuacion
pT 1 = pT QxT 1
3. EL PRINCIPIO DEL MAXIMO
27
(3.14)
con condicion
de que S 6= R/ 2 . La ecuacion
(3.14) es un caso especial de la llamada ecuacion de Riccati y se resuelve hacia
atras: empezando con KT = S, se calculan KT 1 , KT 2 , . . . , K0 .
Conociendo el valor de los vectores adjuntos pt podemos determinar los con
de costo mnimo. Por
troles optimos
y la correspondiente trayectoria y la funcion
ejemplo, sustituyendo (3.13) en (3.11) obtenemos
at = R1 Kt+1 xt+1
= R1 Kt+1 (xt + at )
[por (3.9)]
t = 0, . . . , T 1,
2
(3.15)
28
sobre todas las estrategias a() A[0, T ], sujetas a que
x(t)
(3.16)
Por supuesto, para que (3.8) y (3.9) esten bien definidas se requieren hipotesis
adecuadas de medibilidad, de Lipschitz, etc., que se pueden ver en, por ejemplo,
los libros de Fleming y Rishel (1975) o de Yong y Zhou (1999). Un tratamiento
un tanto informal del principio del maximo, pero con un buen numero
de apli enunciaremos el
caciones, se puede ver en Sethi y Thompson (2000). Aqu solo
y terminologa.
resultado principal, que requiere la siguiente notacion
en A[0, T ] y x() es la correspondiente solucion
de (3.9)
Si a() es una funcion
(3.17)
tinuo). Supongase
que existe un par optimo
para el PCO (3.8)(3.9). Entonces,
(3.18)
(3.19)
(3.20)
3. EL PRINCIPIO DEL MAXIMO
29
t 0,
x(0) = x0 .
(3.21)
Ha = p(t) c (a(t) a
),
30
= a(t) s(t),
p(t)
= h (x(t) x);
(3.23)
(3.24)
(3.25)
= p(t)/c + a
s(t),
x(0) = x0 .
(3.26)
Para resolver las ecuaciones (3.24) y (3.26), primero derivamos (3.26) y as obte con p,
nemos una ecuacion
es decir,
x(t) = p(t)/c
s(t).
para obtener
Ahora sustituimos (3.24) en esta ultima
ecuacion
p
x(t) = 2 (x(t) x) s(t),
con := h/c;
equivalentemente,
x 2 x(t) = 2 x s(t).
(3.27)
x(0) = x0 ,
(3.28)
(3.29)
terminal p(T ) = 0. Las ecuaciones (3.28) y (3.29), con sus respeccon condicion
tivas condiciones de frontera, dan un sistema de dos ecuaciones algebraicas que
3. EL PRINCIPIO DEL MAXIMO
31
32
Programacion
dinamica
con x(0) = x0 ,
(4.1)
objetivo
con funcion
V (, x) :=
T 1
X
(4.2)
t=0
estrategia optima
para el problema (4.1)(4.2), y sea x () = {x (0), . . . , x (T )} la
trayectoria correspondiente; en particular, x (0) = x0 . Entonces para cualquier
DINAMICA
4. PROGRAMACION
33
estrategia optima
que lleva el sistema (4.1) del punto x (s) al punto x (T ).
Para ver como se usa el Lema 4.1, consideremos el PCO (4.1)(4.2) pero solo
del tiempo s en adelante (con 0 s T 1), con estado inicial x(s) = x, es
decir, sea
T 1
X
V (, s, x) :=
L(t, x(t), a(t)) + C(x(T ))
(4.3)
t=s
(4.4)
(4.6)
(4.7)
(4.8)
34
y que el mnimo en el lado derecho de (4.8) se alcanza en a (s), como en (4.6).
(4.8) con la condicion
terminal (4.5) se llama la ecuacion
La ecuacion
de
programacion
dinamica (EPD), o ecuacion
de Bellman, y es la base del algo dinamica (4.9)(4.10) en el siguiente teorema
ritmo de programacion
Teorema 4.2. (El teorema de programacion
dinamica) Sean J0 , J1 , . . . , JT las
funciones sobre X definidas hacia atras (de s = T a s = 0) como
JT (x) := C(x),
(4.9)
(4.10)
y para s = T 1, T 2, . . . , 0,
a
as : X A
Suponga que para cada s = 0, 1, . . . , T 1, existe una funcion
que alcanza el mnimo en el lado derecho de (4.10) para todo x X. Entonces
de valor
la estrategia markoviana = {a0 , . . . , aT 1 } es optima
y la funcion
coincide con J0 , i.e.
inf V (, x) = V ( , x) = J0 (x) x X.
(4.11)
en (4.4)(4.5), i.e.
De hecho, para cada s = 0, . . . , T, Js coincide con la funcion
v(s, x) = Js (x) 0 s T, x X.
(4.12)
(4.13)
(4.14)
t=0
DINAMICA
4. PROGRAMACION
35
(1996), Seccion
de ejemplos
y aplicaciones, aparecen en Arkin y Evstigneev (1987), Bertsekas (1987), Le Van
y Dana (2003), LuqueVasquez et al. (1996), Stokey y Lucas (1989), ... 2
dinamica, a continuacion
verePara ilustrar el algoritmo de programacion
estocastica del sistema LQ en el Ejemplo 3.4.
mos una version
Ejemplo 4.4: Sistema LQ estocastico a tiempo discreto. Considere el sistema
lineal
xt+1 = xt + at + t
t = 0, 1, . . . ; x0 dado,
2 := E(t2 ) <
t = 0, . . . , T 1.
(4.15)
donde r > 0 y q, qT 0.
de programacion
dinamica (4.9)(4.10) resulta
En este caso, la ecuacion
JT (x) := qT x2
(4.16)
36
y para s = T 1, T 2, . . . , 0:
Js (x) := min[qx2 + ra2 + EJs+1 (x + a + s )].
(4.17)
se minimiza en
El lado derecho de esta ecuacion
aT 1 (x) = GT 1 x,
con GT 1 := (r + qT 2 )1 qT
y el mnimo es
JT 1 (x) = KT 1 x2 + qT 2 ,
con
KT 1 := (r + qT 2 )1 qT r 2 + q.
T
X
Kn
para s = 0, . . . , T 1.
(4.19)
n=s+1
DINAMICA
4. PROGRAMACION
37
con x0 = x,
(4.20)
objetivo
con funcion
"
V (, x) := E
#
t c(xt , at , t )
(4.21)
t=0
(4.22)
aA(x)
aA(x)
(4.23)
38
de valor v satisface la ecuacion
de programacion
dinamica
(a) la funcion
Z
v(x) = inf
[c(x, a, s) + v(F (x, a, s))](ds) x X.
(4.24)
aA(x)
que es optima
para el PCO (4.20)(4.22).
(c) Cuando n , vn (x) v(x) para todo x X. (Las funciones vn , definidas
en (4.23), se llaman funciones de iteracion de valores.)
v(x) o para
La parte (c) del Teorema 4.5 se usa para aproximar la funcion
deducir propiedades de ella.
Problemas a tiempo continuo
Consideremos el PCO (4.1)(4.2) pero en tiempo continuo, es decir
x(t)
(4.25)
y
v(s, x) := inf V (, s, x) para
DINAMICA
4. PROGRAMACION
39
dinamica
de programacion
vs + inf [F (s, x, a) vx + L(s, x, a)] = 0 (s, x) [0, T ) IRn ,
aA
(4.26)
(4.27)
40
De hecho, expresada de esta manera usando el generador infinitesimal del
(4.27) resulta ser la ecuacion
de programacion
dinamica
PCM la ecuacion
para cualquier PCM a tiempo continuo, con horizonte finito T . Por ejemplo, si
diferencial
en lugar del sistema determinstico (4.25) consideramos la ecuacion
a
estocastica (2.3), entonces el generador L en (4.27) sera el operador en (2.38).
Asimismo, si el PCM es un proceso markoviano de saltos con espacio de estados
41
(5.1)
Si es una estrategia del controlador que minimiza V # (, x), i.e., para todo
x X:
V # ( , x) = inf V # (, x),
o equivalentemente
V # ( , x) = inf sup V (, , x),
(5.2)
42
raleza que de alguna manera, en cada tiempo t, selecciona el valor del parametro. Estos problemas se conocen como juegos contra la naturaleza.
t = 0, 1, . . . ,
con x0 = x,
(5.3)
X
t c(xt , at , t ).
(5.4)
V (, x) :=
t=0
Consideremos primero el caso 2. Entonces, por el Teorema 4.5 (a), (b), sabe de valor v(x) satisface la ecuacion
de
mos que si se conoce , entonces la funcion
dinamica (4.24), y una funcion
g : X A que alcanza el mnimo
programacion
(a) la funcion
Z
v (x) = inf sup
[c(x, a, ) + v (F (x, a, s))](ds).
(5.5)
aA(x) M (S)
43
(5.7)
0 t T, s S.
Bernhard (2005) propone tecnicas de control robusto para estudiar algunos problemas en finanzas.
9 veremos que un problema de control minimax es un caso
En la seccion
particular de ciertos juegos dinamicos conocidos como juegos de suma cero.
44
6. EQUILIBRIOS DE PARETO
45
Equilibrios de Pareto
En un juego cooperativo los jugadores desean cooperar para alcanzar un resul sentido, sea benefico para todos ellos. (Por el contrario, en un
tado que, en algun
juego nocooperativo los jugadores no hacen acuerdos para cooperar; mas bien,
les preocupa alcanzar sus objetivos individactuan independientemente y solo
uales.)
alPara juegos cooperativos estaticos existen varios conceptos de solucion,
gunos de los cuales se remontan al trabajo pionero de von Neumann y Morgenstern (1944). Sin embargo, cuando se intenta extrapolar estos conceptos a juegos
cooperativos dinamicos muchos de ellos resultan ser inconsistentes en el tiempo
o dinamicamente inestables. (Vea la Nota 6.3(a) o, por ejemplo, Filar y Petrosjan
de las inconsisten(2000), Haurie (2001), Petrosjan (2005) para una discusion
cias que pueden ocurrir). Por tal motivo, para juegos dinamicos cooperativos
y mas estudiado, a saber, los equilibrios de
nos restringiremos al caso mas comun
Pareto.
Observacion.
Recuerdese que para vectores x = (x1 , . . . , xN ) y y = (y1 , . . . , yN )
se dice que
x y ssi xi yi i = 1, . . . , N.
Asimismo, x < y ssi x y y x 6= y ; y x << y ssi xi < yi i.
Observacion.
Definicion
6.1. Considerese un juego con N jugadores. Sea V i () la funcion
objetivo del jugador i, dado que los jugadores siguen la multiestrategia =
( 1 , . . . , N ). Sea i el conjunto de estrategias admisibles para el jugador i, y sea
:= 1 N . Ademas, sea
:= {V () | } IRN ,
(6.1)
46
equilibrio de Pareto si no existe tal que
V () < V ( ).
(6.2)
1 + + N = 1}.
escalar
Para cada SN 1 considerese la funcion
V () := V () =
N
X
i V i ().
(6.3)
i=1
vector
Teorema 6.2. Bajo ciertas hipotesis,
se obtiene lo siguiente. Si para algun
escalar (6.3),
SN 1 existe una multiestrategia que minimiza la funcion
i.e.
V ( ) V () ,
(6.4)
entonces es un equilibrio de Pareto.
de este teorema es trivial. En efecto, si satisface (6.4)
La demostracion
6.1) existe una
pero no es un equilibrio de Pareto, entonces (por la Definicion
0
multiestrategia tal que
V ( 0 ) < V ( ).
Multiplicando ambos lados de esta desigualdad por el vector se obtiene que
V ( 0 ) < V ( ), lo cual contradice (6.4); es decir, necesariamente es un equilibrio de Pareto.
del recproco del Teorema 6.2 requiere un
Por el contrario, la demostracion
poco mas de trabajo; vease, por ejemplo, HernandezLerma y Romera (2004).
6. EQUILIBRIOS DE PARETO
47
(de dimension
(c) Los artculos de Tolwinski et al. (1986) y de Gaidov (1986) dan condiciones
para la existencia de estrategias de Pareto en juegos diferenciales determinsticos
y estocasticos, respectivamente. La primera de estas referencias incluye estrategias con amenazas (threats) cuyo papel es inducir a los jugadores a que respeten
lo convenido entre ellos, una vez que se ha llegado a un equilibrio. Alternativamente, para que los jugadores respeten los acuerdos entre ellos, se puede suponer
que tales acuerdos son vinculantes (binding agreements). En estas notas haremos
tal suposicion.
Los juegos cooperativos estan muy desarrollados pero principalmente para
juegos diferenciales (determinsticos); vea, por ejemplo, Haurie (2001), Petrosjan
y Zenkevich (1996), Vaisbord y Zhukovskii (1988), Zhukovskiy y Salukvadze
(1994).
de
Ejemplo 6.4. Considerese el juego diferencial LQ que consiste de la ecuacion
estado
x = x + B1 a1 + B2 a2
t 0, x(0) = x0 ,
(6.5)
48
con
1
hi (t, x, a1 , a2 ) := et (q1 x2 + ri a2i + rij a2j ), j 6= i,
2
donde > 0 es un factor de descuento. Dado un vector = (1 , 2 ) en S1 el
costo escalarizado (6.3) resulta
V (a1 , a2 ) = 1 V1 (a1 , a2 ) + 2 V2 (a1 , a2 )
Z
h (t, x, a1 , a2 )dt,
=
(6.7)
Ri = i ri + j rji
para i = 1, 2; j 6= i.
(6.8)
dinamica.
Para minimizar el costo (6.7) sujeto a (6.5) usaremos programacion
Sea a = (a1 , a2 ) y s 0. Dado el estado inicial x(s) = x, sea
v(s, x) := inf V (a, s, x),
a
donde
V (a, s, x) :=
h (t, x, a)dt,
x(s) = x.
de programacion
dinamica es
Luego, de (4.26) (o (4.27)) la ecuacion
vs + inf [(x + B1 a1 + B2 a2 ) vx + h (t, x, a1 , a2 )] = 0.
a
x X,
con Ki := Ri1 Bi M0 ,
(6.9)
positiva de la ecuacion
donde M0 es la solucion
(B12 /R1 + B22 /R2 )M02 (2 )M0 Q = 0,
con Q y Ri en (6.8) Es decir, a = (a1 , a2 ) es el equilibrio de Pareto para el vector
dado = (1 , 2 ) y, ademas, sustituyendo (6.9) en (6.6) se obtiene que el costo
optimo
para cada jugador i = 1, 2 es
1
Vi (x0 ) = Pi x20 ,
2
(6.10)
6. EQUILIBRIOS DE PARETO
49
(positiva) de la ecuacion
donde Pi es la solucion
1
i = 0
2(c )Pi + Q
2
con
c := B1 K1 B2 K2 ,
(6.11)
(6.12)
de estado
El caso estocastico. Supongase
que, en lugar de (6.5), la ecuacion
es
dx = (x + B1 a1 + B2 a2 )dt + G dW, x(0) = x0 , t 0,
donde G es una constante y W es un proceso de Wiener estandar, en cuyo caso
las funciones de costo en (6.6) y (6.7) se deben sustituir por sus valores esperados
inicial x(0) = x0 . Por ejemplo, en lugar de (6.6) ahora tenemos
dada la condicion
Z
Vi (a1 , a2 ) :=
E[hi (t, x, a1 , a2 )|x(0) = x0 ]dt.
0
con Pi y Q
1
2(c )Si + G2 = 0.
2
Los resultados (6.9), (6.10) y (6.13) para sistemas LQ son bien conocidos. Para
mayores detalles se puede consultar practicamente cualquier texto sobre con
trol optimo
(o juegos dinamicos) que incluya modelos a tiempo continuo, por
ejemplo, Basar y Olsder (1999), Fleming y Rishel (1975), Fleming y Soner (1992),
HernandezLerma (1994), Klompstra (1992), Sethi y Thompson (2000), Yong y
Zhou (1999). 2
observese que un equilibrio de Pareto es, en
Nota 6.5. Para concluir esta seccion,
50
incrementar el costo de los otros. Mas explcitamente, si usamos el metodo de
para encontrar equilibrios de Pareto, vemos de (6.3)(6.4) que al
escalarizacion
variar el vector , vara el correspondiente equilibrio de Pareto y, por lo tanto,
tambien vara el vector de costos V (, x) a lo largo del frente de Pareto. Esto hace
7. EQUILIBRIOS DE COMPROMISO
51
Equilibrios de compromiso
Con respecto a la Nota 6.5, para encontrar un equilibrio justo algunos autores
han propuesto el siguiente procedimiento. Para cada i = 1, . . . , N , sea
Vi := inf V i ().
El vector
V := (V1 , . . . , VN )
(7.1)
(7.2)
para
1iN
Nota 7.2. Las condiciones para que existan equilibrios de compromiso son las
multiobjetivos; vea,
mismas que para problemas de control o de optimizacion
52
por ejemplo, HernandezLerma y Romera (2004a), Yu y Leitmann (1974). Esta
ultima
referencia interpreta el termino V i () Vi como la pena o pesar (regret)
del jugador i cuando se usa la multiestrategia . Por lo tanto, se sigue de (7.2)
que un equilibrio de compromiso minimiza la pena del grupo de jugadores
porque V ( ) es el punto mas cercano al mnimo virtual, con respecto a la norma
k k.
El proposito
del siguiente ejemplo es ilustrar el calculo de un equilibrio de
no consideramos
compromiso. Sin embargo, para simplificar la presentacion,
un problema de juegos sino mas bien un problema de control multiobjetivos, es
decir, un controlador que desea minimizar en el sentido de Pareto un vector
de costos, digamos
V () = (V1 (), . . . , VN ()).
(7.3)
Ejemplo 7.3: Control multiobjetivossistema LQ estocastico a tiempo dis
creto. Sean y numeros
reales distintos de cero y considerese el sistema lineal,
escalar,
xt+1 = xt + at + t para t = 0, 1, . . . ,
(7.4)
con espacio de estados y de acciones X = A = IR. Las perturbaciones t son
variables aleatorias i.i.d., que son independientes del estado inicial x0 , y tales
que
E(0 ) = 0 y E(02 ) =: 2 < .
(7.5)
inicial. Los costos Vi (, 0 ) Vi () en (7.3) son de la forma
Sea 0 la distribucion
"
#
X
Vi () := (1 )E0
t ci (xt , at )
i = 1, . . . , N,
(7.6)
t=0
(7.7)
V () := V () =
N
X
i=1
i Vi ().
7. EQUILIBRIOS DE COMPROMISO
53
(7.8)
t=0
con
c (x, a) :=
N
X
i=1
x X,
(7.9)
positiva de la ecuacion
de Riccati
donde z() es la unica
solucion
2 z 2 + (
r r2 s 2 )z sr = 0,
(7.10)
de costo optimo
es
V (f , x) = z()[(1 )x2 + 2 ]
x X,
con 2 como en (7.5). Por lo tanto, suponiendo que la distribucion inicial 0 tiene
segundo momento finito, i.e.
Z
0 := x2 0 (dx) < ,
(7.11)
(7.12)
IR
con k(0 ) := (1 )
0 + 2 .
Observese que el resultado (7.9)(7.12) es valido para cualquier vector = (1 ,
. . . , N ) > 0. En particular, si tomamos = e(i), donde e(i) es el vector con
coordenadas
1 si j = 1,
e(i)j =
0 si j 6= i,
54
y despues variamos i = 1, . . . , N, entonces obtenemos el mnimo virtual V =
(V1 , . . . , VN ) en (7.1). Mas explicitamente, si en (7.12) sustituimos por e(i)
obtenemos el costo mnimo
Vi = inf V i () = V i (fe(i) ) = zi k(0 )
positiva de la ecuacion
de Riccati (7.10) con r = ri
donde zi es la unica
solucion
y s = si .
Finalmente, para encontrar una estrategia de compromiso se debe seleccionar una norma en IRN y calcular que minimiza k V () V k, como en
(7.2). Estas operaciones se pueden realizar al menos en principio usando
de soporte, como en el Ejemplo 5.7 de HernandezLerma y
una cierta funcion
Romera (2004b).
DE NASH
8. EL PROBLEMA DE NEGOCIACION
55
El problema de negociacion
de Nash
Otra forma de ver cual es el equilibrio mas justo entre todos los equilibrios
de Nash del problema de negociacion
de Pareto consiste en encontrar la solucion
(bargaining problem). Nash (1950b, 1953) introdujo este problema para juegos
V 2 ( 1 , 2 ).
max
V02 := min
1
2
A la pareja V 0 se le llama el status quo. (En general, el status quo no necesariamente son los valores minimax; es decir, las componentes de V 0 se pueden
seleccionar de otras maneras.) A las multiestrategias en el conjunto
ir := { | V 1 () V01 , V 2 () V02 }
se les llama multiestrategias individualmente racionales. Si = ( 1 , 2 ) es una
multiestrategia individualmente racional, entonces la diferencia
V0i V i () 0 para i = 1, 2
(8.1)
se interpreta como el beneficio por cooperar del jugador i cuando se usa la multiestrategia . (Compare (8.1) con la pena o pesar V i () Vi del jugador i en
la Nota 7.2.)
Definicion
8.1. Si ir es una multiestrategia que maximiza la funcion
b() := [V01 V 1 ()] [V02 V 2 ()],
ir ,
56
se dice que es la solucion
de Nash al problema de negociacion.
anterior, entonces
Un calculo directo muestra que si satisface la definicion
es un equilibrio de Pareto.
i = 1, . . . , N }.
de una solucion
de Nash
En el siguiente teorema se da una caracterizacion
basada en la desigualdad
(al problema de negociacion)
1/N
(y1 yN )
N
X
yi
yi > 0, i = 1, . . . , N.
(8.2)
i=1
entre la media P
geometrica (y1 yN )1/N de N numeros
yi 0 y la media
1
aritmetica N
i yi .
b( )
,
V0i V i ( )
N
Y
(8.3)
[V0j V j ( )]
j=1
j 6= i
Si ademas es tal que
V ( ) V () ,
(8.4)
DE NASH
8. EL PROBLEMA DE NEGOCIACION
57
(8.5)
Demostracion.
(8.6)
N
X
i [V0i V i ()]/b( )
i=1
n
X
yi
i=1
N (y1 yN )1/N
= N [b()/b( )]1/N .
[por (8.2)]
(8.7)
58
de modo que es un equilibrio de Pareto (por el Teorema 6.2). Con esta no el algoritmo es como sigue.
tacion
Paso 1. Para cada SN 1 encuentre que satisface (8.7).
Paso 2. Encuentre SN 1 tal que, para todo i = 1, . . . , N, V i ( ) < V0i y,
ademas (como en (8.3)),
b( )
i = i
.
V0 V i ( )
de Nash
Del Teorema 8.2 se sigue de manera evidente que es una solucion
Sin embargo, aunque el algoritmo es conceptualal problema de negociacion.
por la dificultad de realizar los pasos 1 y 2.
mente simple, es poco util
Para juegos estaticos hay soluciones distintas de la de Nash al problema de
ver, por ejemplo, Kalai y Smorodinsky (1975), Petrosjan y Zenkenegociacion
vich (1996), Roth (1979, 1985).
asociado a un juego
Kaitala et al. (1985) estudian el problema de negociacion
diferencial que representa dos cooperativas pesqueras que explotan una misma
mas general se analiza en el artculo de Ehtamo et al.
pesquera. Una situacion
(1988).
9. EQUILIBRIOS DE NASH
59
Equilibrios de Nash
(9.1)
(9.2)
2 RO2 (1 ).
y
V 2 (1 , 2 ) = inf2 V 2 (1 , 2 ).
60
imposible dar condiciones generales para la existencia de equilibrios de Nash.
Trataremos de explicar porque.
Considerese la multifuncion
que a cada multiestrategia ( 1 , 2 ) 1 2
le asocia el conjunto RO1 ( 2 ) RO2 ( 1 ), i.e.
( 1 , 2 ) := RO1 ( 2 ) RO2 ( 1 ).
Se puede ver facilmente que (1 , 2 ) es un equilibrio de Nash si y solo
si (1 , 2 )
es un punto fijo de , es decir,
(1 , 2 ) (1 , 2 ).
(9.3)
El problema con (9.3) es que los teoremas de punto fijo de multifunciones requieren
de continuidad de ,
hipotesis
muy restrictivas, por ejemplo, alguna condicion
1
2
y que los conjuntos ( , ) sean compactos, convexos, etc. Esto requiere, de
entrada, introducir una topologa adecuada sobre 1 2 con respecto a la cual
topologicos
no es facil en muchos casos. 2
Caso general (N 2). Sea := 1 N . Para cada multiestrategia
= ( 1 , . . . , N ) en y i , sea
[ i |] := ( 1 , . . . , i1 , , i+1 , . . . , N )
la multiestrategia con respecto a la cual cada jugador k usa la estrategia k si
k 6= i, mientras que el jugador i usa .
Se dice que una multiestrategia = (1 , . . . , N ) es un equilibrio de Nash
(9.5)
9. EQUILIBRIOS DE NASH
61
como en
markoviana, es decir, cada i es markoviana (o de retroalimentacion),
(2.6). Se dice que es un equilibrio de Nash perfecto si, para cada i = 1, . . . , N
inicial (t, x), se cumple que
y cualquier condicion
Vi (t, x, ) = inf Vi (t, x, [i |]),
donde el infimo se calcula sobre todas las estrategias markovianas del jugador
i.
En otras palabras, un equilibrio de Nash perfecto es una multiestrategia mar inikoviana que es un equilibrio de Nash para cualquiera que sea la condicion
cial del juego. En este caso, algunos autores dicen que el equilibrio de Nash es
perfecto en los subjuegos (subgame perfect).
Notese
que resolver (9.4) o (9.5) esencialmente equivale a resolver un PCO
para cada i. Esto sugiere que, en principio, podemos usar tecnicas como el prin dinamica para encontrar equilibrios de Nash.
cipio del maximo o programacion
El principio del maximo.
Considerese un juego diferencial con N 2 jugadores, espacio de estados
X = IRn y conjuntos de acciones Ai IRmi para i = 1, . . . , N . El modelo dinamico
es (comparese con (3.16))
x(t)
x(0) = x0 .
(9.6)
Los controles admisibles son de lazo abierto, a() = (a1 (), . . . , aN ()), donde ai ()
medible de [0, T ] a Ai . Los jugadores desean maximizar las
es una funcion
62
funciones objetivo
T
J (a()) :=
0
Sea p(t) = [pij (t)] la matriz N n de variables adjuntas cuya iesima fila es
pi (t) = (pi1 (t), . . . , pin (t)) para i = 1, . . . , N.
Definimos el hamiltoniano
H i (t, x, a, p) := Li (t, x, a) + pi (t) F (t, x, a).
(9.7)
Supongase
que a () es un equilibrio de Nash y sea x () la trayectoria corre de (9.6)). En este caso (bajo ciertas hipotesis
spondiente (solucion
sobre F, Li , C i ,
etc.) se cumplen las siguientes condiciones necesarias para cada i = 1, . . . , N :
las ecuaciones adjuntas
pi (t) = Hxi (t, x (t), a (t), p(t))
(9.8)
(9.9)
la condicion
terminal
y la maximizacion
del hamiltoniano
H i (t, x (t), a (t), pi (t)) H i (t, x (t), ai , pi (t)) ai Ai .
(9.10)
9. EQUILIBRIOS DE NASH
63
Programacion
dinamica.
Para cada a = (a1 , . . . , aN ), sea [ai |a0 ] el vector con componentes ak si k 6= i,
y ai = a0 , es decir,
[ai |a0 ] = (a1 , . . . , ai1 , a0 , ai+1 , . . . , aN ).
Supongase
que para cada i = 1, . . . , N existen funciones v i (s, x) de clase C 1,1
de programacion
dinamica (cf. (4.26)):
que satisfacen la ecuacion
vti + max
{F (t, x, [ai |a0 ]) vxi + Li (t, x, [ai |a0 ])} = 0
0
i
a A
(9.11)
de frontera
para todo (t, x) en [0, T ] IRn , con condicion
v i (T, x) = C i (T, x) x IRn .
(9.12)
1 +a2
1), 0 t T, x(0) = x0 ,
64
donde k es la capacidad portadora del ecosistema, r y b son constantes, y a1 , a2 son
las acciones de los jugadores. Jorgensen y Yeung (1996) analizan una version
estocastica del juego anterior, con N 2 jugadores. En estos dos artculos se
consideran funciones objetivo con horizonte finito y tambien horizonte infinito.
Para juegos a tiempo discreto tambien hay muchas publicaciones en las que
se calculan (o se demuestra la existencia de) equilibrios de Nash, en particu
lar, en juegos relacionados a economa. Amir (2003) trae un buen numero
de
de capital (o de extraccion
de recurreferencias. Los juegos de acumulacion
en anos
recientes; ver, por ejemplo, Balbus y
sos) han recibido mucha atencion
Nowak (2004), Nowak (2003b), Nowak y Szajowski (2003), Wiecek (2003, 2005).
Otra lnea interesante son los juegos sobre capitalismo, iniciados por Lancaster
(1973) y que se han desarrollado a tiempo contnuo, como en Basar et al. (1985),
Pohjola (1983) y Shimomura (1991), y a tiempo discreto, como en Krawczyk y
abierto y que, por lo tanto, no son perfectos. Por otra parte, RinconZapatero
(2004) y RinconZapatero
et al. (1998) proponen un enfoque distinto de la programacion dinamica para caracterizar equilibrios de Nash perfectos en ciertos juegos
diferenciales.
(b) En general, un equilibrio (nocooperativo) de Nash no es equilibrio (cooperativo) de Paretoalgunos casos especficos se pueden ver en Krawczyk y
10. JUEGOS SIMETRICOS
Y DE SUMA CERO
10
65
(10.1)
por N >
penultima
de estas referencias se estudia el problema de la explotacion,
La evolucion
del
1 agentes, de un recurso no renovable de propiedad comun.
dferencial
nivel del recurso sigue la ecuacion
x = (a1 + + aN ),
(10.2)
personapor
persona. Observese que si
es el mnimo global de V , i.e.
V (
) V () ,
66
entonces
es mejor que en el sentido de que V (
) V ( ). Sin embargo,
ser un optimo
(10.3)
(10.4)
se llaman el valor inferior y el valor superior del juego, respectivamente. Siempre se cumple la desigualdad
L(s, x) U (s, x) (s, x).
(10.5)
10. JUEGOS SIMETRICOS
Y DE SUMA CERO
67
Definicion
10.2. Si se cumple la igualdad en (10.5) para todo (s, x), se dice que
el juego de suma cero tiene el valor V(s, x) := L(s, x) = U (s, x).
Un resultado que da condiciones para la existencia del valor V se conoce
como un teorema minimax. El siguiente teorema minimax nos dice, en pocas
palabras, que la existencia del valor V es en cierto modo equivalente a la existencia de un punto silla.
Teorema 10.3. (a) Si un juego de suma cero tiene un punto silla (1 , 2 ), entonces
tiene el valor
V(s, x) = V (s, x, 1 , 2 ) (s, x).
(10.6)
(b) Si existe una multiestrategia = (1 , 2 ) tal que para todo (s, x):
V (s, x, 1 , 2 ) = inf1 V (s, x, 1 , 2 )
= sup2 V (s, x, 1 , 2 ),
(10.7)
ejemplo de como
se aplica dicho teorema.
de moviConsidere un juego determinstico a tiempo continuo con ecuacion
miento
x = F (t, x, a1 , a2 ) para 0 t T.
inicial x(s) = x en el tiempo s [0, T ], la funcion
objetivo esta
Dada la condicion
dada como
Z T
1
2
V (s, x, , ) :=
L(t, x, a1 , a2 )dt + C(T, x(T )).
s
de programacion
dinamica (9.11)(9.12) con
Entonces combinando la ecuacion
el Teorema 4.6 obtenemos el siguiente teorema minimax.
68
tales que, para todo (s, x) en [0, T ] X, se tiene
0 = F (s, x, a1 , a2 ) vx + L(s, x, a1 , a2 )
= inf
[F (s, x, a1 , a2 ) vx + L(s, x, a1 , a2 )]
1
a
(10.8)
de frontera
con la condicion
v(T, x) = C(T, x) x X.
(10.9)
v(s, x) = V (s, x, 1 , 2 )
(10.10)
Entonces
es el valor del juego y (1 , 2 ) es un punto silla.
de frontera
En efecto, de la primera igualdad en (10.8), junto con la condicion
(10.9), se obtiene (10.10). Por otra parte, comparando (10.7) con las ultimas
dos
de punto silla:
igualdades en (10.8) se obtiene la condicion
V (s, x, 1 , 2 ) V (s, x, 1 , 2 ) V (s, x, 1 , 2 ).
Usando el generador infinitesimal La mencionado en (2.36)(2.38) se puede
ver que el Teorema 10.4 es un caso particular de un resultado valido para cualquier tipo de juego markoviano a tiempo continuo; vea JassoFuentes (2004).
Otros casos particulares de juegos markovianos a tiempo continuo, de suma
cero, son los juegos diferenciales estocasticos (como en Basar y Olsder (1999),
Browne (2000), Kushner (2002, 2004), etc.) y cadenas de Markov (como en Guo y
HernandezLerma (2003b, 2005), PrietoRumeau y HernandezLerma (2005c)).
de programacion
dinamica (10.8)(10.9)
Para este tipo de juegos, a la ecuacion
algunos autores le llaman la ecuacion de HamiltonJacobiBellmanIsaacs.
Nota 10.5. El Teorema 10.4 da condiciones suficientes para la existencia de un
punto silla (1 .2 ), donde i es una estrategia markoviana. Pero, por supuesto,
no todos los juegos satisfacen dichas condiciones y, de hecho, hay juegos de
suma cero que no tienen un punto silla. Tambien existen juegos de suma cero
que no admiten puntos silla en una cierta familia de estrategias (e.g., estrategias
markovianas), pero s en una familia mas grande (e.g., estrategias aleatorizadas);
vea, por ejemplo, Schmitendorf (1976).
10. JUEGOS SIMETRICOS
Y DE SUMA CERO
69
Para juegos semimarkovianos o markovianos a tiempo discreto se tienen resultados semejantes al Teorema 10.4 (ver, por ejemplo, Filar y Vrieze (1997),
HernandezLerma y Lasserre (2001), LuqueVasquez (2002), Nowak (2003),
VegaAmaya (2003), ...). En el caso a tiempo discreto, a la correspondiente
de programacion
dinamica se le llama ecuacion de Shapley.
ecuacion
5 se
Nota 10.6 Los problemas de control minimax que estudiamos en la Seccion
pueden ver como cierto tipo de juegos de suma cero. En efecto, si comparamos
las ecuaciones (10.4) y (5.2) vemos que una estrategia minimax 1 alcanzara el
valor superior del juego, i.e.
U (s, x) = sup V (s, x, 1 , 2 ) = inf1 sup V (s, x, 1 , 2 )
2
70
11
Juegos de Stackelberg
V2 ( 1 , 2 ).
(Se pueden considerar juegos de Stackelberg con mas de dos jugadores y con
varios niveles de jerarqua; ver Basar y Olsder (1999), por ejemplo.)
Dada una estrategia 1 1 del lder, recuerdese que RO2 ( 1 ) denota el
(11.1)
y
2 RO2 (1 ).
similar al control minimax o conObservese que (11.1) tenemos una situacion
5. En efecto, el lder toma una actitud
trol del peor caso que vimos en la seccion
de minimizar el peor caso, porque trata de cubrir sus perdidas contra la peor
del jugador 2 en el conjunto RO2 ( 1 ).
seleccion
Ejemplo 11.2. En este ejemplo, introducido por Basar (1991), el lder (= jugador
1) es el gobierno o la autoridad monetaria en Mexico, el Banco de Mexico
y el seguidor (= jugador 2) es el sector privado. El objetivo principal del
as que el estado xt IR del juego es el parametro
lder es controlar la inflacion,
71
punto T ( 1 ), o
1
2
sea T ( ) A es el unico
valor para el que
V2 ( 1 , T ( 1 )) V2 ( 1 , 2 ) 1 , 2 .
72
11.1 se sigue que una multiestrategia
Combinando este hecho con la Definicion
1
2
(
,
) es un equilibrio de Stackelberg si
V1 (
1,
2 ) V1 ( 1 , T ( 1 )) 1 1
y, ademas,
2 = T (
1 ).
a
2t = E(
a1t | ms , s < t) = 0,
(11.2)
Bajo hipotesis
adecuadas, se demuestra que el equilibrio de Nash es
a1
t = b xt + c
a2
t ,
t = x
(11.3)
73
Referencias
Altman, E. (2005). Applications of dynamic games in queues. In Nowak y
Szajowski (2005), pp. 309342.
Altman, E., Hordijk, A. (1995). Zerosum Markov games and worstcase optimal control of queueing systems. Queueing Syst. Theory Appl. 21, pp.
415447.
AlvarezMena, J., HernandezLerma, O. (2005). Existence of Nash equilibria
for constrained stochastic games. Math. Meth. Oper Res. 62, to appear.
Amir, R. (2003). Stochastic games in economics and related fields: an overview.
In Neyman and Sorin (2003), Chapter 30.
Arkin, V.I., Evstigneev, I.V. (1987). Stochastic Models of Control and Economic
Dynamics. Academic Press, London.
Balbus, L., Nowak, A.S. (2004). Construction of Nash equilibria in symmetric
stochastic games of capital accumulation. Math. Meth. Oper. Res. 60, pp.
267277.
Basar, T., editor (1986). Dynamic Games and Applications in Economics. Lecture Notes in Economics and Mathematical Systems 265, SpringerVerlag,
Berlin.
Basar, T. (1991). A continuoustime model of monetary policy and inflation: a
stochastic differential game. In Ricci (1991), pp. 317.
Basar, T., Haurie, A., Ricci, G. (1985). On the dominance of capitalists leadership in a feedbackStackelberg solution of differential game model of
capitalism. J. Econ. Dyn. Control 9, pp. 101125.
Basar, T., Olsder, G.J. (1999). Dynamic Noncooperative Game Theory, Second Edition. SIAM, Philadelphia. (The first edition was published by Academic
Press, in 1982.)
Basar, T., Salmon, M. (1990). Credibility and the value of information transmission in a model of monetary policy and inflation. J. Economic Dynamics and
Control 14, pp. 97116.
74
Bellman, R. (1956). Dynamic Programming. Princeton University Press, Princeton, N.J.
Bernhard, P. (2005). Robust control approach to option pricing, including transaction costs. In Nowak and Szajowski (2005), pp. 391416.
Bertsekas, D.P. (1987). Dynamic Programming: Deterministic and Stochastic Models. PrenticeHall, Englewood Cliffs, N.J.
Bertsekas, D.P. (2000). Dynamic Programming and Optimal Control, Volume I, Second Edition. Athena Scientific, Belmont, MA.
Browne, S. (2000). Stochastic differential portfolio games. J. Appl. Prob. 37, pp.
126147.
BourdacheSiguerdidjane, H., Fliess, M. (1987). Optimal feedback control of
nonlinear systems. Automatica 23, pp. 365372.
Case, J. (1974). A class of games having Pareto optimal Nash equilibria. J.
Optim. Theory Appl. 13, pp. 379386.
Clemhout, S., Wan, H.Y. (1974). A class of trilinear differential games. J. Optim.
Theory Appl. 14, pp. 419424.
Dockner, E., Feichtinger, G., Jorgensen, S. (1985). Tractable classes of nonzero
sum openloop Nash differential games: theory and examples. J. Optim.
Theory Appl. 45, pp. 179197.
Dockner, E.J., Jorgensen, S., Long, N.V., Sorger, G. (2000). Differential Games
in Economics and Management Science. Cambridge University Press, Cambridge, U.K.
Ehtamo, H., Ruusunen, J., Kaitala, V., Hamalainen, R.P. (1988). Solution for a
dynamic bargaining problem with an application to resource management.
J. Optim. Theory Appl. 59, pp. 391405.
Feichtinger, G., editor (1985). Optimal Control Theory and Economic Analysis 2.
NorthHolland, Amsterdam.
Feichtinger, G., Jorgensen, S. (1983). Differential game models in management.
Euro. J. Oper. Res. 14, pp. 137155.
75
Fershtman, C., Mullar, E. (1986). Turnpike properties of capital accumulation
games. J. Econ. Th. 38, pp. 167177.
Filar, J.A., Petrosjan, L.A. (2000). Dynamic cooperative games. Internatl. Game
Theory Rev. 2, pp. 4765.
Filar, J., Vrieze, K. (1997). Competitive Markov Decision Processes. Springer
Verlag, New York.
Fleming, W.H., Rishel, R.W. (1975). Deterministic and Stochastic Optimal Control.
SpringerVerlag, New York.
Fleming, W.H., Soner, H.M. (1992). Controlled Markov Processes and Viscosity
Solutions. SpringerVerlag, New York.
Fudenberg, D., Tirole, J. (1991). Game Theory. MIT Press, Cambridge, MA.
Gaidov, S.D. (1986). Paretooptimality in stochastic differential games. Problems of Control and Information Theory 15, 439450.
Gaidov, S.D. (1990). On the Nashbargaining solution in stochastic differential
games. Serdica 16, pp. 120125.
Gibbons, R. (1992). Game Theory for Applied Economists. Princeton University
Press, Princeton, NJ.
GonzalezTrejo, J.I., HernandezLerma, O., HoyosReyes, L.F. (2003). Minimax control of discretetime stochastic systems. SIAM J. Control Optim. 41,
pp. 16261659.
Guo, X.P., HernandezLerma, O. (2003a). Continuoustime controlled Markov
chains with discounted rewards. Acta Appl. Math. 79, pp. 195216.
Guo, X.P., HernandezLerma, O. (2003b). Zerosum games for continuous
time Markov chains with unbounded transition and average payoff rates.
J. Appl. Prob. 40, pp. 327345.
Guo, X.P., HernandezLerma, O. (2005). Nonzerosum games for continuous
time Markov chains with unbounded discounted payoff. J. Appl. Probab.
42, to appear.
76
Halkin, H. (1966). A maximum principle of the Pontryagin type for systems
described by nonlinear difference equations. SIAM J. Control 4, pp. 90111.
Haurie, A. (1976). A note on nonzerosum differential games with bargaining
solution. J. Optim. Theory Appl. 18, pp. 3139.
Haurie, A. (1982). Acceptable equilibria in dynamic bargaining games. Lecture
Notes in Control and Information Sciences 38, pp. 715725.
Haurie, A. (2001). A historical perspective on cooperative differential games.
In Advances in Dynamic Games and Applications, ed by E. Altman and O.
Pourtallier, Birkhauser, Boston, pp. 1929.
HernandezLerma, O. (1994). Lectures on ContinuousTime Markov Control Processes. Sociedad Matematica Mexicana, Mexico.
HernandezLerma, O., Lasserre, J.B. (1996). DiscreteTime Markov Control Processes: Basic Optimality Criteria. SpringerVerlag, New York.
HernandezLerma, O., Lasserre, J.B. (1999). Further Topics on DiscreteTime
Markov Control Processes. SpringerVerlag, New York.
HernandezLerma, O., Lasserre, J.B. (2001). Zerosum stochastic games in
Borel spaces: average payoff criteria. SIAM J. Control Optim. 39, pp. 1520
1539.
HernandezLerma, O., Romera, R. (2004a). The scalarization approach to multiobjective Markov control problems: why does it work? Appl. Math. Optim. 50, pp. 279293.
HernandezLerma, O., Romera, R. (2004b). Multiobjective Markov control processes: a linear programming approach. Morfismos 8, to appear. (This paper is an extended, more detailed, version of the paper by the same authors
(20004a).)
Isaacs, R. (1965). Differential Games. Wiley, New York.
JassoFuentes, H. (2004). Noncooperative ContinuousTime Markov Games. M.Sc.
thesis, Departamento de Matematicas, CINVESTAVIPN.
Jorgensen, S., Sorger, G. (1990). Feedback Nash equilibria in a problem of optimal fishery management. J. Optim. Theory Appl. 64, pp. 293310.
77
Jorgensen, S., Yeung, D.W.K. (1996). Stochastic differential game model of a
common property fishery. J. Optim. Theory Appl. 90 pp. 381403.
78
Leitmann, G. (1974). Cooperative and Noncooperative Many Players Differential
Games. SpringerVerlag, New York.
Le Van, C., Dana, R.A. (2003). Dynamic Programming in Economics. Kluwer,
Boston.
LuqueVasquez, F. (2002). Zerosum semiMarkov games in Borel spaces: discounted and average payoff. Bol Soc. Mat. Mexicana 8, pp. 227241.
LuqueVasquez, F., MinjarezSosa, J.A., VegaAmaya, O. (1996). Introduccion a
de
la Teora de Control Estocastico. Departamento de Matematicas, Division
Ciencias Exactas y Naturales, Universidad de Sonora.
Merton, R.C. (1969). Lifetime portfolio selection under uncertainty: the continuoustime case. Rev. Economics and Statistics 51, pp. 247257.
Nash, J. (1950a). Equilibrium points in N person games. Proc. Natl. Acad. Sci.
36, pp. 4849.
Nash, J. (1950b). The bargaining problem. Econometrica 18, pp. 155162.
Nash, J. (1951). Noncooperative games. Ann. Math. 54, pp. 286295.
Nash, J. (1953). Twoperson cooperative games. Econometrica 21, pp. 128140.
Neck, R. (1982). Dynamic systems with several decision makers. In Operations
Research in Progress, ed. by G. Feichtinger and P. Kall, Reidel, New York,
pp. 261284.
Neck, R. (1985). A differential game model of fiscal and monetary policies:
conflict and cooperation. In Feichtinger (1985), pp. 607632.
Neck, R. (1991). Noncooperative equilibrium solution for a stochastic dynamic game of economic stabilization policies. Lecture Notes in Control and
Information Sciences 157, SpringerVerlag, Berlin, pp. 221230.
Neyman, A., Sorin, S., editors (2003). Stochastic Games and Applications. Kluwer,
Dordrecht.
Nowak, A.S. (2003a). Zerosum stochastic games with Borel state spaces. In
Neyman and Sorin (2003), pp. 7791.
79
Nowak, A.S. (2003b). On a new class of nonzerosum discounted stochastic
games having stationary Nash equilibrium points. Int. J. Game Theory 32,
pp. 121132.
Nowak, A.S., Szajowski, P. (2003). On Nash equilibria in stochastic games of
capital accumulation. In Stochastic Games and Applications, Volume 9, edited
by L.A. Petrosjan and V.V. Mazalov, Nova Science, pp. 118129.
Nowak, A.S., Szajowski, K., editors (2005). Advances in Dynamic Games. (Annals
of the International Society of Dynamic Games, vol. 7) Birkhauser, Boston.
Petrosyan, L.A. (2003). Bargaining in dynamic games. In Petrosyan and Yeung
(2003), pp. 139143.
Petrosjan, L.A. (2005). Cooperative differential games. In Nowak and Szajowski (2005), pp. 183200.
Petrosjan, L.A. Zenkevich, N.A. (1996). Game Theory. World Scientific, Singapore.
Petrosyan, L.A. Yeung, D.W.K., editors (2003). ICM Millennium Lectures on
Games. SpringerVerlag, Berlin.
Pohjola, M. (1983). Nash and Stackelberg solutions in a differential game model
of capitalism. J. Economic Dynamics and Control 6, pp. 173186.
Poznyak, A.S. (2002a). Robust stochastic maximum principle: complete proof
and discussions. Math. Problems in Engineering 8, pp. 389411.
Poznyak, A.S. (2002b). Robust stochastic maximum principle: a measure space
as uncertainty set. In Lecture Notes in Control and Information Sciences 280,
pp. 385394.
PrietoRumeau, T., HernandezLerma, O. (2005a). The Laurent series, sensitive discount and Blackwell optimality for continuoustime controlled
Markov chains. Math. Methods Oper. Res. 61, pp. 123145.
PrietoRumeau, T., HernandezLerma, O. (2005b). A unified approach to continuoustime discounted Markov control processes. (Reporte Interno No.
356, CINVESTAV.) Submitted.
80
PrietoRumeau, T., HernandezLerma, O. (2005c). Bias and overtaking equilibria for zerosum continuoustime Markov games. Math. Meth. Oper.
Res., to appear.
Ramachandran, K.M. (2002). Stochastic differential games and applications. In
Kannan and Lakshmikantam (2002), Chapter 8.
Ricci, G., editor (1991). Decision Processes in Economics. Lecture Notes in Economics and Mathematical Systems 353, SpringerVerlag, Berlin.
RinconZapatero,
J.P. (2004). Characterization of Markovian equilibria in a
class of differential games. J. Econ. Dyn. Control 28, pp. 12431266.
RinconZapatero,
J.P., Martnez, J., MartnHerran, G. (1998). New method
to characterize subgame perfect Nash equilibria in differential games. J.
Optim. Theory Appl. 96, pp. 377395.
RinconZapatero,
J.P., MartnHerran, G., Martnez, J. (2000). Identification of
efficient subgame-perfect Nash equilibria in a class of differential games.
J. Optim. Theory Appl. 104, pp. 235242.
Roth, A.E. (1979). Axiomatic Models of Bargaining. SpringerVerlag, Berlin.
Roth, A.E. (1985). GameTheoretic Models of Bargaining. Cambridge University
Press, Cambridge, U.K.
Samuelson, P.A. (1969). Lifetime portfolio selection by dynamic stochastic programming. Rev. Economics and Statistics 51, pp. 239246.
Schmitendorf, W.E. (1976). Differential games without pure strategy saddle
point solutions. J. Optim. Theory Appl. 18, pp. 8192.
Sethi, S.P., Thompson, G.L. (2000). Optimal Control Theory: Applications to Management Science and Economics, 2nd Edition. Kluwer, Boston.
Shapley, L. (1953). Stochastic games. Proc. Natl. Acad. Sci. 39, pp. 10951100.
(This paper is reproduced in Neyman and Sorin (2003), pp. 17.)
Shimomura, K. (1991). The feedback equilibria of a differential game of capitalism. J. Econ. Dyn. Control 15, pp. 317338.
81
Stalford, H., Leitmann, G. (1973). Sufficiency conditions for Nash equilibrium
in Nperson differential games. In Topics in Differential Games, edited by A.
Blaqui`ere, NorthHolland, New York.
Stokey, N.L., Lucas, R.E. (1989). Recursive Methods in Economic Dynamics. Harvard University Press, Cambridge, MA.
Sundaram, R.K. (1989). Perfect equilibria in a class of symmetric dynamic
games. J. Econ. Theory 47, pp. 153177.
Tabak, D., Kuo, B.C. (1971). Optimal Control by Mathematical Programming. Prentice Hall, Englewood Cliffs, N.J.
Tolwinski, B., Haurie, A., Leitmann, G. (1986). Cooperative equilibria in differential games. J. Math. Anal. Appl. 119, pp. 182202.
Toussaint, S. (1985). The transversality condition at infinity applied to a problem of optimal resource depletion. In Feichtinger (1985), pp. 429440.
Vaisbord, E.M., Zhukovskii, V.I. (1988). Introduction to MultiPlayer Differential
Games and Their Applications. Gordon and Breach, New York.
VegaAmaya, O. (2003). Zerosum average semiMarkov games: fixedpoint
solutions of the Shapley equation. SIAM J. Control Optim. 42, pp. 1876
1894.
von Neumann, J., Morgenstern, O. (1944). The Theory of Games and Economic
Behavior. Princeton University Press, Princeton, N.J.
Wiecek, P. (2003). Convex stochastic games of capital accumulation with nondivisible money unit. Scientia Mathematicae Japonica 57 (2003), pp. 397411.
Wiecek, P. (2005). Continuous convex stochastic games of capital accumulation.
In Nowak and Szajowski (2005), pp. 111125.
Yong, J., Zhou, X.Y. (1999). Stochastic Controls: Hamiltonian Systems and HJB
Equations. SpringerVerlag, New York.
Yu, P.L., Leitmann, G. (1974). Compromise solutions, domination structures
and Salukvadzes solution. J. Optim. Theory Appl. 3, pp. 362378.
82
Zariphopoulou, T. (2002). Stochastic control methods in asset pricing. In Kannan and Lakshmikantam (2002), Chapter 12.
Zhukovskiy. V.I., Salukvadze, M.E. (1994). The VectorValued Maximin. Academic Press, Boston.