Minicurso Onesimo PDF

EMALCA
CIMAT, Guanajuato
Agosto 112, 2005
CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

Onesimo HernandezLerma
Departamento de Matematicas
CINVESTAVIPN
Mexico, D.F.
Resumen: Estas son notas para un minicurso (de 7.5 horas, aproximadamente)
introductorio sobre algunos aspectos de los juegos dinamicos, incluyendo juegos
determinsticos y estocasticos, a tiempo discreto y tiempo continuo. Se presenta
a problemas de control optimo
una breve introduccion

y despues se ven los
principales tipos de equilibrios cooperativos y equilibrios nocooperativos. El
curso esta dirigido a estudiantes avanzados de licenciatura o principiantes de
requisito en
posgrado. No es necesario que los estudiantes satisfagan ningun
que no se asusten si oyen frases como ecuacion
diferencial,
particular, solo
variable aleatoria, etc.
2
CONTENIDO
1. Introduccion
Parte 1: Problemas de control optimo
(juegos con un jugador)

del problema de control optimo
2. Definicion
Procesos de Markov
Procesos de control markovianos
10
3. El principio del maximo
23
dinamica
4. Programacion
32
5. Control minimax (juegos contra la naturaleza)
41
Parte 2: Juegos cooperativos

6. Equilibrios de Pareto
45
7. Equilibrios de compromiso
51
de Nash
8. El problema de negociacion
55
Parte 3: Juegos nocooperativos

9. Equilibrios de Nash
59
10. Juegos simetricos y de suma cero
65
11. Juegos de Stackelberg
70
Referencias
73
3
Observaciones sobre la bibliografa
La literatura sobre juegos estaticos es extenssima, pero para juegos dinami
cos esta limitada a artculos sobre casos especiales y a un punado
de libros, como
los siguientes.
Para juegos diferenciales (determinsticos) una buena referencia es el libro de
Dockner et al. (2000). Algunos libros clasicos en este tema son los de Isaacs
trata juegos de suma cero.
(1965) y Leitmann (1974), aunque el primero solo
considera equilibrios nocooperativos,
El libro de Basar y Olsder (1999) solo
pero tiene la ventaja de que estudia algunos tipos de juegos diferenciales tanto
determinsticos como estocasticos y, ademas, juegos a tiempo discreto. La desven son un tanto arcaicos, porque el libro
taja es que el material y su presentacion
en
se escribio originalmente en 1982 y entre esa fecha y la de la segunda edicion,
1999, han habido muchos nuevos desarrollos.
El libro de Filar y Vrieze (1997) estudia juegos estocasticos a tiempo discreto,
con espacio de estados finito.
Por supuesto, algunos textos de teora de juegos incluyen algo sobre juegos
dinamicos, por ejemplo, Fudenberg y Tirole (1991), Gibbons (1992), Petrosjan y
Zenkevich (1996).
Advertencia
Un concepto fundamental en teora de juegos es el de equilibrio de Nash,
tambien conocido como equilibrio nocooperativo, introducido por John Nash
(1950). Para juegos dinamicos, la existencia de tales equilibrios se conoce en
una variedad de casos especiales, pero para juegos con espacio de estados no
numerable sigue siendo un problema abierto. Lamentablemente, hay publicaciones que aseguran la existencia de equilibrios de Nash pero cuyas demostraciones son incorrectas. Ejemplos de estas publicaciones, para juegos a tiempo
discreto, son los artculos:
Lai, H.C. Tanaka, K. (1984). On an Nperson noncooperative Markov
game with a metric state space. J. Math. Anal. Appl. 101, pp. 7896.
4
Sobel, M.J. (1973). Continuous stochastic games. J. Appl. Prob. 10, pp.
597604.
Para juegos a tiempo continuo:
Borkar, V.S., Ghosh, M.K. (1992). Stochastic differential games: an occupation measure based approach. J. Optim. Theory Appl. 73, pp. 359385;
correction: ibid, 88 (1996), pp. 251252.
Por desgracia el resultado (erroneo)

en este ultimo
artculo se ha reproducido en
trabajos posteriores, por ejemplo:
Ramachandran, K.M. (2002). Stochastic differential games and applications. Chapter 8 in Handbook of Stochastic Analysis and Applications, ed. by
D. Kannan and V. Lakshmikantan, Marcel Dekker, New York.
Los equilibrios de Nash estan entre los muchsimos conceptos que son triviales de analizar para juegos estaticos o juegos repetidos, pero que para juegos
dinamicos (con espacio de estados nonumerable) han permanecido casi intocables hasta la fecha.
5
Indice de notacion
Si A es una matriz, A0 = transpuesta de A.

Los vectores se escribiran como matrices columna:
x = (x1 , . . . , xn )0 .
Si x, y son vectores, x y significa que
xi yi para todo i.
El producto escalar de vectores x, y se escribe x y o x0 y.
real f : IRn IR y un vector
Dada una funcion
x = (x1 , . . . , xn )0 , las derivadas parciales se denotaran con subndices:
fxi = f /xi .
fx (vector fila) denota el gradiente de f , y fxx la matriz de segundas derivadas parciales (la matriz Hessiana), es decir,
fx = (fx1 , . . . , fxn ),
fxx = (fxi xj ).
vectorial, fx = (fi /xj ) denota la matriz
Si f : IRn IRk es una funcion
Jacobiana.
Introduccion
se presentan algunos ejemplos que serviran para motivar e ilusEn esta seccion
trar algunos de los conceptos que se introduciran en secciones posteriores.
Ejemplo 1.1: Oligopolios
Oligopolio: Mercado con pocos vendedores (tambien llamados productores o
firmas) y muchos compradores.
Ejemplos de oligopolios:
Servicios de transporte (autobuses, aerolneas, ...)
Mercados de energeticos (gas, petroleo,

electricidad, ...)
Bebidas (refrescos, cerveza, ...), etc.
El hecho de que haya pocos vendedores implica que las acciones de cualesquiera de ellos afecta el precio del producto y, por lo tanto, tiene un impacto
medible sobre los competidores.
Casos especiales:
de
Duopolio: El duopolio de Cournot (1838) fue la primera aplicacion
teora de juegos a economa.
Monopolio (una unica

firma): en este caso el juego se reduce a un pro
blema de control optimo
que se estudia en el contexto de sistemas de produccion.
2
Ejemplo 1.2. Un oligopolio a tiempo discreto, N firmas, [Kirman, Sobel (1974)].
En cada tiempo t = 0, 1, . . . tenemos:
Estado del juego: xt = (x1t , . . . , xN
t ), donde
xit := nivel de inventario de la firma i (i = 1, . . . , N ) al inicio del periodo t.
de control de la firma i : ait = (zti , it ) donde
Accion
zti := cantidad que decide producir en el periodo t,
it := precio que anuncia.

1. INTRODUCCION
Demanda dit del producto de la firma i. La demanda puede ser determinstica, estocastica o incierta.
Modelo dinamico del juego: el estado xt = (x1t , . . . , xN
t ) satisface
xt+1 = xt + zt dt
t = 0, 1, . . . .
(1.1)
Ganancia neta de la firma i : rti (xit , ait , dit ). Por ejemplo, si yti := xit + zti ,
entonces
rti ( ) = it dit hi (yti dit )+ bi (dit yti )+ ci zti ,
(1.2)
donde hi , bi , ci son constantes dadas que representan, respectivamente, cos (por no satisfacer la detos unitarios de almacenamiento, de penalizacion
manda total) y de produccion.

Una estrategia del jugador i es una regla, digamos i = {ti , t = 0, 1, . . .},
tomar, digamos, ait = (zti , it ).
que en cada tiempo t le dice al jugador que accion
ti
Informacion
Acciones ait
Una multiestrategia es un vector = ( 1 , . . . , N ) donde i es una estrategia

del jugador i.
Sea Vi (, x0 ) la ganancia neta total del jugador i, dado que las firmas usan la
multiestrategia = ( 1 , . . . , N ) y los inventarios iniciales son x0 = (x10 , . . . , xN
0 ).
Por ejemplo, en un juego con horizonte finito T ,
"T 1
#
X
V (, x ) := E
ri (xi , ai , di ) + ri (xi ) .
(1.3)
i
x0
t=0
En un juego con horizonte infinito se tendra (e.g.)

"
#
X
t ri (xi , ai , di )
V (, x ) := E
i
x0
i t
t=0
donde 0 < i < 1 es un factor de descuento.
(1.4)
8
En principio, cada jugador o firma desea maximizar su ganancia neta.
Sin embargo, la regla es que no existen multiestrategias que satisfagan tal condi
cion.
Por tal motivo, en teora de juegos se habla de equilibrios en lugar de
multiestrategias optimas.
En el caso estocastico, el oligopolio anterior es un caso especial de ciertos juegos a tiempo discreto conocidos como juegos estocasticos o juegos
markovianos, introducidos por Shapley (1953). 2
Ejemplo 1.3. Un duopolio a tiempo continuo con sticky prices [Dockner et
al. (2000)]
N = 2 firmas; el producto es homogeneo.
de la firma i.
Para i = 1, 2, ai (t) 0 es la tasa de produccion
de
El precio de mercado (del producto) vara de acuerdo con la funcion
demanda [a1 (t) + a2 (t)], donde > 0 es una constante.
El precio es pegajoso, lo cual significa que el precio de mercado no se ajusta
de demanda; de hecho,
instantaneamente al precio indicado por la funcion
la tasa de cambio del precio p(t) es
p(t)
= s{ [a1 (t) + a2 (t)] p(t)} para t > 0, p(0) = p0 ,
(1.5)
donde s > 0 es el parametro de rapidez de ajuste del precio.

de costo de produccion
es la misma para ambas firmas:
La funcion
1
C(ai ) := c ai + a2i , con 0 < c < constante.
2
objetivo de la firma
Dada una multiestrategia = (a1 (), a2 ()) la funcion
i (i = 1, 2) es
Z
1
Vi () :=
ert [p(t)ai (t) c ai (t) a2i (t)]dt,
(1.6)
2
0
donde r > 0 es el factor de descuento. Cada firma desea maximizar su
objetivo (1.6) sujeta a (1.5) y ai () 0. 2
funcion

1. INTRODUCCION
Ejemplo 1.4: Juegos LQ. El juego (1.5)(1.6) es un ejemplo de juego LQ, del
ingles: Linear system, Quadratic cost. Este tipo de juegos es muy importante
debido a sus multiples

aplicaciones y, sobre todo, porque en muchos casos se
pueden resolver explcitamente.
En general, en un juego LQ a tiempo discreto el estado evoluciona de acuerdo
de la forma
a una ecuacion
xt+1 = At xt + Bt at + t
para
t = 0, 1, . . .
(1.7)
donde xt y at son vectores que representan, respectivamente, el estado del juego

y el vector de acciones de los jugadores, y los coeficientes At y Bt son matrices
de dimensiones adecuadas. El vector t en (1.7) representa perturbaciones, ya
rti en
sean determinsticas o estocasticas. Asimismo, en el caso LQ la funcion
(1.3) o (1.4) resulta ser cuadratica en el estado xt y cuadratica en el vector at de
acciones de control, digamos (escribiendo y 0 por la transpuesta de una matriz o
vector y),
cit (xt , at ) = x0t Qit xt + a0t Rti at
(1.8)
donde Qit es una matriz simetrica y definida nonegativa, y Rti es simetrica y
terminal rTi en (1.3) tambien es cuadratica, didefinida positiva. La funcion
gamos rTi (xT ) = x0T STi xT , con STi matriz simetrica definida nonegativa.
10
Parte 1. Problemas de control optimo
Definicion
del problema de control optimo
Un problema de control optimo

(PCO) es un juego dinamico con un jugador. En
particular, los Ejemplos 1.2 y 1.3 con N = 1 se reducen a PCOs.
En un PCO debemos especificar:
1. como
evoluciona el sistema de interes; es decir, se debe especificar el modelo
dinamico del sistema;
2. como
se va a controlar el sistema; es decir, se debe especificar el conjunto de
estrategias admisibles, tambien llamadas polticas de control o simplemente
polticas o estrategias;
3. restricciones adicionales (por ejemplo, en el estado del sistema o en las estrategias), si es necesario hacerlas;
4. como
se va a medir la respuesta del sistema a cada una de las distintas estrategias admisibles; es decir, se debe especificar la funcion objetivo, tambien
llamada ndice de funcionamiento.
Dadas estas cuatro componentes, el PCO se puede resumir como sigue: optimizar
la funcion objetivo sujeta a las restricciones en 1, 2 y 3.
describiremos las componentes 1 a 4 de un PCO.
En esta seccion
Definicion
2.1: El modelo dinamico. Los modelos mas comunes (aunque no los
unicos)
son los siguientes.
Sistemas a tiempo discreto:
xt+1 = F (xt , at , t ) para t = 0, 1, . . . , T,
(2.1)
con condicion
inicial x0 = x, donde T es el horizonte del problema, y las
t son perturbaciones. Dependiendo de las t , se dice que (2.1) representa un
sistema estocastico si las t son variables aleatorias;
DEL PROBLEMA DE CONTROL OPTIMO
2. DEFINICION
11
de constantes con
sistema determinstico si las t forman una sucesion
valores conocidos;
sistema incierto si se sabe que las t son constantes con valores en algun
conjunto dado, pero no se conoce el valor particular de cada t .
En todo caso (incluyendo los modelos a tiempo continuo que veremos a con
tinuacion),
el conjunto en donde toman sus valores las variables xt se llama el
espacio de estados del PCO y lo denotaremos por X. Para fijar ideas supon entero d 1. (Mas
dremos que X es un subconjunto cerrado de IRd para algun
generalmente, basta suponer que X es un espacio de Borel, es decir, un subconjunto de Borel de un espacio metrico separable y completo.)
Sistemas a tiempo continuo:
Caso determinstico:
x t = F (t, xt , at ) para
0 t T,
(2.2)
inicial dada x0 = x.
con T y condicion
Caso estocastico: este caso admite una gran diversidad de modelos. El
mas estudiado es el de una ecuacion
diferencial estocastica
dxt = F (t, xt , at )dt + (t, xt , at )dWt , 0 t T, x0 = x,
(2.3)
con T , y Wt es un proceso de Wiener. El estado inicial x0 puede ser

determinstico o estocastico. Otros modelos estocasticos a tiempo continuo
son las cadenas de Markov, los procesos de Levy, los procesos hbridos (e.g., el
sistema (2.3) pero, ademas, con una componente de saltos),...
Definicion
2.2: Estrategias admisibles. Una estrategia de control, digamos =
{at }, generalmente se especifica imponiendo restricciones
(a) en las acciones de control at directamente, y/o
que puede o debe usar el controlador en cada tiempo t.
(b) en la informacion
es pedir
Por ejemplo, en (a), un caso muy comun
at A(xt ) t,
(2.4)
12
donde A(x) es el conjunto de acciones factibles cuando el estado es x.
Con respecto a (b), un caso muy general es el de una estrategia noanticipante, tambien conocida como estrategia con memoria (memory strategy), en la
at depende de toda la historia del proceso
que, en cada tiempo t, la accion
hasta el tiempo t. Por ejemplo, en un PCO a tiempo discreto tenemos
at = g(t, x0 , . . . , xt , a0 , . . . , at1 ),
dada. El otro extremo es cuando g depende de t unica
donde g es una funcion
mente,
a
x
-
sistema
controlador
Figura 2.1. Un esquema de retroalimentacion.
t
-
at
controlador
Figura 2.2. Una estrategia de lazo abierto.
es decir,
at = g(t) t,
(2.5)
en cuyo caso se dice que es una estrategia de lazo abierto (open loop). Si g
de t y xt , es decir,
depende solo
at = g(t, xt ) t,
(2.6)
2. DEFINICION
13
decimos que es una estrategia de retroalimentacion

(feedback), tambien llamada estrategia de lazo cerrado (closed loop) o estrategia markoviana. Si ademas g no depende de t, i.e.
at = g(xt ) t,
(2.7)
entonces es una estrategia markoviana estacionaria.
Las estrategias mencionadas se dice que son determinsticas, y generalmente
son suficientes para estudiar problemas de control. Sin embargo, en algunos
problemas de control con restricciones o en problemas de juegos es indispensable usar estrategias aleatorizadas, tambien conocidas como estrategias mixtas
de control at es
o controles relajados (relaxed controls), en las que cada accion
de probabilidad t concentrada en
una variable aleatoria con una distribucion
el conjunto A(xt ) en (2.4), lo cual denotamos como
at t ().
(2.8)
Mas explcitamente, t (B) := Prob (at B) para B A(xt ). En algunos casos,

t depende no solo
del tiempo t sino tambien del estado xt . En
la distribucion
este caso escribimos
at t (|xt ) t.
(2.9)
aleatorizada (o relajada) de las
Las estrategias en (2.8) y (2.9) son la version
estrategias de lazo abierto y de lazo cerrado en (2.5) y (2.6), respectivamente.
Para cada estado x X, el conjunto de acciones factibles A(x) en (2.4) es un
subconjunto cerrado de un espacio A que se llama el espacio de acciones. A
menos que se especifique lo contrario, supondremos que A es un subconjunto
m 1. (Mas generalmente, basta suponer que A es
cerrado de IRm para algun
un espacio de Borel.)
Definicion
2.3. Restricciones adicionales. Estas restricciones pueden depender
de la naturaleza del PCO. Por ejemplo, en un problema de control de pobla
ciones (e.g. pesqueras, epidemias, etc.) el estado xt del sistema es el tamano
al tiempo t, y obviamente se debe pedir una condicion
de no
de la poblacion
negatividad,
xt 0 t.
se debe cumplir en problemas de control de recursos reEsta misma restriccion
novables (e.g. agua, bosques) o norenovables (e.g. petroleo,

minerales), o en
14
problemas financieros en los que el estado es un capital. En otras situaciones se
puede requerir que el estado terminal xT pertenezca a un cierto conjunto K, i.e.
xT K.
es cuando se desea optimizar una cierta funcion
objeOtro caso muy comun
tivo, digamos V0 (), sobre todas las estrategias para las que
Vi () bi
i = 1, . . . , n,
(2.10)
donde las Vi () son funciones dadas y las bi son constantes. Por ejemplo, en un
tpicamente se desea maximizar la gananproblema de control de produccion,
cia neta V0 () sujeta a que ciertos costos Vi () (e.g. costos de manufactura, de
etc.) estan acotados por arriba, como en (2.10).
almacenamiento, de distribucion,
Definicion
2.4. La funcion
objetivo o ndice de funcionamiento. Para un PCO
objetivo son: para
determinstico a tiempo discreto, ejemplos tpicos de funcion
cada estrategia = {at } y cada estado inicial x0 = x,
costo total con horizonte finito T :
V (, x) :=
T 1
X
c(xt , at ) + CT (xT ),
(2.11)
t=0
donde c(x, a) es el costo por etapa, y CT (x) es el costo terminal

costo total descontado con horizonte infinito:
V (, x) :=
t c(xt , at ),
(2.12)
t=0
donde 0 < < 1 es el factor de descuento.

En un PCO estocastico a tiempo discreto se debe tomar la esperanza en el
lado derecho de (2.11) y (2.12); por ejemplo, en lugar de (2.11) tendramos
V (, x) := E
"T 1
X
t=0
#
c(xt , at ) + CT (xT ) .
(2.13)
2. DEFINICION
15
En un PCO a tiempo continuo las sumatorias en (2.11) y (2.12) se reemplazan

por integrales. Por ejemplo, en el caso de horizonte finito
Z T
c(xt , at )dt + CT (xT ).
(2.14)
V (, x) :=
0
Si ademas el PCO es estocastico, se debe tomar la esperanza en el lado derecho,

i.e.
Z

T
V (, x) = E
c(xt , at )dt + CT (xT ) .
(2.15)
objetivo tambien se le llama funcion

En teora de juegos, a una funcion
de
pago (payoff function).
en un PCO
Finalmente, como ya mencionamos al principio de esta seccion,
objetivo V (, x) (alguna de las funciones (2.11) a (2.15))
se especifican la funcion
y el conjunto, digamos , de estrategias admisibles y entonces el PCO consiste
en optimizar (ya sea minimizar o maximizar) V (, x) sobre todas las estrategias
para las que el proceso de estados {xt } sigue el modelo dinamico correspondiente (e.g. (2.1) a (2.3)) y satisface las restricciones adicionales (e.g. (2.10)),
si las hay. A la funcion

V (x) := inf V (, x) x X,
(2.16)
se le llama la funcion
de valor del PCO. En el caso de costos, como en (2.11)
(2.15), a V (x) tambien se le llama funcion
de costo mnimo. Si en lugar de
costos tenemos ganancias o utilidades que se desean maximizar, entonces
de valor es
en lugar de (2.16) la funcion
V (x) := sup V (, x)
(2.17)
y se le llama tambien la funcion

de ganancia (o de utilidad) maxima.
En todo caso, si existe una estrategia tal que
V (x) = V ( , x) x X,
(2.18)
se dice que es una estrategia optima.
Ejemplo 3.5. El siguiente PCO se conoce como problema de seleccion

de porta o como problema de inversion
folio (de inversion)
y consumo, y se puede
16
plantear a tiempo discreto o a tiempo continuo.
Tiempo discreto. Considerese un mercado financiero con dos tipos de activos:
tipo de bonos o CETES = Certificados
un activo libre de riesgos (e.g. algun
de la Tesorera) con una tasa fija de interes r > 0, y
tipo de acciones) con una tasa aleatoria de
un activo con riesgo (e.g. algun
interes t 0. Obviamente, pedimos que E(t ) > r.
La variable de estado es el capital xt de un cierto inversionista, que en cada
tiempo t (t = 0, 1, . . . , T ) debe decidir cuanto consumir y cuanto invertir.
Entonces las acciones de control son
at = (ct , pt ) [0, xt ] [0, 1],
(2.19)
donde
ct := cantidad que el inversionista decide consumir,
de xt ct que decide invertir en el activo con riesgo, de modo
pt := fraccion
de xt ct que invertira en el activo sin riesgo.
que 1 pt es la fraccion
El conjunto A(x) := [0, x] [0, 1] en (2.19) es el conjunto de acciones factibles,
como en (2.4).
El modelo dinamico del sistema es
xt+1 = [(1 pt )(1 + r) + pt t ](xt ct ) t = 0, 1, . . .
(2.20)
inicial x0 = x > 0. Una funcion

objetivo tpica es una utilidad de
con condicion
consumo
" T
#
X
V (, x) := Ex
t U (ct )
(2.21)
t=0
de
donde T , (0, 1) es el factor de descuento, y U (c) es una funcion
en (2.21) sobre todas las esutilidad. El PCO consiste en maximizar la funcion
(2.20).
trategias = {at } con at como en (2.19), bajo la restriccion
Tiempo continuo. En este caso el precio b(t) del activo sin riesgo (el bono,
diferencial ordinaria
digamos) vara de acuerdo a una ecuacion
db(t) = rb(t)dt.
2. DEFINICION
17
con r > 0, mientras que el precio s(t) del activo con riesgo (el stock) esta dado
por una ecuacion
ds(t) = s(t)[mdt + dw(t)],
donde m > r y > 0 son constantes, y w() es un proceso de Wiener estandar.
que en
Las acciones de control a(t) = (c(t), p(t)) tienen la misma interpretacion
(2.19). El modelo de sistema, en lugar de (2.20), ahora resulta ser la ecuacion

diferencial estocastica.
dx(t) = (1 p(t))x(t)r dt + p(t)x(t)[m dt + dw(t)] c(t)dt,
(2.22)
con x(0) = x > 0. Los tres terminos en el lado derecho de (2.22) corresponden,
respectivamente, a la ganancia por el capital invertido en el bono, la ganancia
en el stock, y la disminucion
del capital debida al consumo.
por la inversion
objetivo que se desea optimizar es de nuevo como en

Por ultimo,
la funcion
(2.21), pero en tiempo continuo, i.e.
V (, x) :=
Ex
Z
T
t

U (c(t))dt ,
(2.23)
donde > 0 es el factor de descuento.
Notese
que en (2.20) necesariamente se tiene xt 0 para todo t, si x0 = x > 0,
de nonegatividad no es evidente (por las
mientras que en (2.22) la condicion
propiedades del proceso w()); se debe imponer la condicional adicional x(t) 0.
de nonegatividad consiste en sustituir el
Otra forma de asegurar la condicion
tiempo terminal T en (2.23) por el tiempo aleatorio
:= min{T, 0 },
donde 0 := inf{t 0 | x(t) = 0} es el primer tiempo en el que el proceso x()
llega a cero.
Las aplicaciones del control optimo

a problemas de finanzas se iniciaron con
los trabajos de Samuelson (1969) y Merton (1969) para problemas a tiempo discreto y tiempo continuo, respectivamente. Actualmente, dichas aplicaciones son
18
material estandar; ver e.g. Fleming y Rishel (1975), Fleming y Soner (1992), Sethi
y Thompson (2000), Karatzas y Shreve (1998), Zariphopoulou (2002).
Procesos de Markov
de proceso de Markov, considerese la ecuacion
Para motivar la definicion

n
diferencial ordinaria, en IR ,
x(t)
= F (x(t)) t 0,
con x(0) = x0 .
(2.24)
F podra depender del tiempo t.) Bajo ciertas hipotesis
(La funcion
sobre F , esta
tiene una solucion
unica
ecuacion
Z s
F (x(r))dr s 0.
x(s) = x0 +
0
Ademas, para t > s 0 tenemos

Z
x(t) = x(s) +
F (x(r))dr.
(2.25)
Interpretando a s como el tiempo presente y a t > s como el tiempo futuro,

(2.25) dice que el estado presente x(s) determina el futuro x(t); o bien,
la ecuacion
que dado el estado presente x(s), el futuro x(t) es independiente del pasado x(r), para
r < s. Por este motivo se dice que (2.25) es una condicion
de causalidad (el
presente determina el futuro); tambien se dice que el sistema determinstico x()
no tiene memoria o que satisface la condicion
de Markov (tambien llamada
propiedad de Markov).
de Markov se expresa de manera siPara procesos estocasticos la condicion
milar a (2.25). Por ejemplo, si x = {xt , t 0} es un proceso estocastico a tiempo
espacio de estados X, se dice que x satisface la
continuo, con valores en algun
de Markov o que x es un proceso de Markov si para todo conjunto
condicion
B X y tiempos t s 0 se tiene
P(xt B | xr 0 r s) = P(xt B | xs ).
(2.26)
con (2.25) vemos que el sistema deterEn particular, comparando esta expresion
minstico x() es un proceso de Markov. Los procesos de Markov incluyen las
soluciones de ecuaciones diferenciales estocasticas
dxt = F (xt )dt + (xt )dWt ,
(2.27)
2. DEFINICION
19
bajo ciertas hipotesis

sobre los coeficientes F y , los cuales pueden depender
del estado xt (vea (2.3)). Otros ejemplos son las
tambien del tiempo t, no solo
cadenas de Markov (cuyo espacio de estados es un conjunto numerable), los
procesos de Levy, ...
Para un proceso estocastico a tiempo discreto, x = {xt , t = 0, 1, . . .} con
espacio de estados X, la propiedad de Markov se puede escribir como:
P(xt+1 B | x0 , . . . , xt ) = P(xt+1 B | xt )
(2.28)
en un
para todo t = 0, 1, . . . y B X. Esta es una probabilidad de transicion
en
paso, de t a t + 1, pero se puede demostrar que es equivalente a una condicion
k pasos, de t a t + k, para k = 1, 2, . . .
Un proceso de Markov a tiempo discreto tambien se conoce como cadena de
Markov.
En muchsimas aplicaciones, una cadena de Markov x = {xt , t = 0, 1, . . .} se
de diferencias
define mediante una ecuacion
xt+1 = F (xt , t ) t = 0, 1, . . . ; x0
dado,
(2.29)
de variables aleatorias independientes, con valores

donde {t } es una sucesion
conjunto S, e independientes del estado inicial x0 , y F : X S X
en algun
dada. Por ejemplo, un proceso muy comun
es el proceso autorees una funcion
gresivo de primer orden definido por
xt+1 = G(xt ) + t ,
(2.30)
tambien conocido como proceso con ruido aditivo. Un caso especial son los
sistemas lineales
xt+1 = xt + t
con X = S = IRn y una matriz cuadrada de orden n.
Procesos de control markovianos: tiempo discreto
Sea x = {xt , t = 0, 1, . . .} un proceso controlado con valores es un espacio
X. Por analoga con la propiedad de Markov (2.28), se dice que x es un proceso
de control markoviano (PCM) si para cualquier estrategia = {at , t = 0, 1, . . .}
20
de x en el tiempo t + 1, dada toda la
y cualquier t = 0, 1, . . . , la distribucion
del estado y la accion
en el
historia del proceso hasta el tiempo t depende solo
tiempo t, es decir
Prob(xt+1 B | x0 , a0 , . . . , xt , at ) = Prob(xt+1 B | xt , at )
=: Q(B|xt , at )
(2.31)
Q en (2.31), i.e.
para todo B X. La funcion
Q(B|x, a) := Prob(xt+1 B | xt = x, at = a)
(2.32)
se llama la ley de transicion

del PCM.
Por ejemplo, supongase

que tenemos variables aleatorias i.i.d. t como en
(2.29), e independientes de x0 . Para cualquier estrategia dada = {at }, definimos el proceso x = {xt } como
xt+1 = G(xt , at , t ) t = 0, 1, . . . ; x0
dado,
(2.33)
dada (compare con (2.29)). Entonces x

donde G : X A S X es una funcion
Q se puede calcular mediante la distribucion
es un PCM y su ley de transicion

de las vv.aa. t . Notese
comun
tambien que si es una estrategia markoviana (por
ejemplo como en (2.6) o (2.7)), entonces x es una cadena de Markov. En efecto, si
at = g(xt ) para todo t = 0, 1, . . ., entonces (2.33) resulta
xt+1 = G(xt , g(xt ), t ) t = 0, 1, . . . ,
(2.34)
de modo que x es precisamente de la forma (2.29).

y consumo (2.20)
Observe que el sistema lineal (1.7) y el modelo de inversion
son ambos PCMs, porque son de la forma (2.33).
Un hecho muy importante es que un PCM se puede describir de manera
concisa mediante un modelo de control (MC) markoviano
M C := (X, A, Q, c),
(2.35)
donde X es el espacio de estados del PCM, A es el conjunto de acciones, Q es la ley de

de costo por etapa que se usa
transicion (en (2.32)), y c : X A IR es la funcion
objetivo de interes, como en (2.11)(2.13). Algunas veces
para definir la funcion
2. DEFINICION
21
es necesario anadir
componentes al modelo de control. Por ejemplo, si consideramos un costo terminal CT (x) como es (2.13), quizas convendra reescribir (2.35)
como
M C = (X, A, Q, c, CT ).
Si ademas hay restricciones en los controles como en (2.4), entonces escribiramos
M C = (X, A, {A(x)|x X}, Q, c, CT ).
En fin, el modelo de control markoviano se puede adaptar a cada problema particular que se este analizando.
Procesos de control markovianos: tiempo continuo
Sea x = {xt , 0 t T } un proceso controlado, el cual depende por supuesto
de la estrategia particular = {at , 0 t T } que se este usando. Decimos que
x es un proceso de control markoviano (PCM) a tiempo continuo si cuando
es una estrategia markoviana, el proceso x resulta ser proceso de Markov. (Esta
es una extension
de la idea que usamos en (2.3.4).)
definicion
Un PCM a tiempo continuo tambien se puede representar mediante un modelo de control (MC) markoviano, pero el asunto es un poco mas complicado
Q en (2.35), debeque a tiempo discreto porque, en lugar de la ley de transicion
a
mos especificar el generador infinitesimal L (a A) del PCM, es decir, en
lugar de (2.35) ahora tenemos
M C = (X, A, La , c),
(2.36)
conjunto adecuado de funciones.

donde La es un operador definido sobre algun
Por ejemplo, el sistema determinstico (2.2) es un PCM porque si = {at } es
una estrategia markoviana, digamos at = g(t, xt ), entonces (2.2) se reduce a una
diferencial ordinaria
ecuacion
x t = F (t, xt , g(t, xt )) G(t, xt ).
En este caso el generador infinitesimal asociado a (2.2) es el operador
La v(x) := F (t, x, a) vx
(2.37)
22
definido para cierta subfamilia de funciones v(x) de clase C 1 .
diferencial estocastica (2.3) tambien define un
Analogamente, la ecuacion
PCM bajo hipotesis

adecuadas sobre F (t, x, a), (t, x, a) y at y el generador La resulta ser
1
(2.38)
La v(x) := F (t, x, a) vx + T r[D(t, x, a)vxx ],
2
P
donde D := 0 , vxx es la matriz hessiana de v, y T r(B) := i bii es la traza de
una matriz B = (bij ). Explcitamente,
!
X X
T r(Dvxx ) =
ik kj vxi xj
(2.39)
i,j
cuando el coeficiente en (2.3) es una matriz, digamos = (ij ). Por supuesto,

en el caso escalar (2.39) se reduce a 2 2 v/x2 .
Nota bibliografica. Para problemas de control a tiempo discreto el lector puede
consultar (por ejemplo): Arkin y Evstigneev (1987), Bertsekas (1987, 2000),
HernandezLerma y Lasserre (1996, 1999), Stokey y Lucas (1989). Para problemas a tiempo continuo: Fleming y Rishel (1975), Fleming y Soner (1992),
HernandezLerma (1994), Sethi y Thompson (2000), Yong y Zhou (1999).

3. EL PRINCIPIO DEL MAXIMO
23
El principio del maximo
Hay varias tecnicas generales para estudiar PCOs como son el analisis convexo
lineal (usualmente en espacios vectoriales de dimension
iny la programacion
finita). Sin embargo, por razones computacionales, en la mayora de las aplicaciones las tecnicas mas usadas son el principio del maximo (que algunos autores
llaman el principio de Pontryagin) y la programacion dinamica. En esta seccion

veremos brevemente la primera de estas tecnicas; la segunda se estudia en la
siguiente seccion.
solo
consideraremos problemas determinstiPara simplificar la exposicion
cos con horizonte finito, a tiempo discreto y a tiempo continuo. Al final de la
se mencionan algunas referencias sobre problemas estocasticos.
seccion
Problemas a tiempo discreto.
Considerese el PCO determinstico con espacio de estados X = IRn , espacio
de acciones A = IRm , y modelo dinamico
xt+1 = F (t, xt , at ) t = 0, 1, . . . , T 1
(3.1)
objetivo que se desea minimizar es el costo

con estado inicial x0 = x. La funcion
total
T 1
X
L(t, xt , at ) + C(xT ),
(3.2)
V (, x) :=
t=0
sobre el conjunto de estrategias = {at }.

A grandes rasgos, la idea del principio del maximo consiste en usar el me
todo de multiplicadores de Lagrange para minimizar (3.2) sujeto a la restriccion
(3.1). Para este fin, primero expresamos (3.1) en la forma
xt+1 F (t, xt , at ) = 0 t = 0, 1, . . . , T 1.
Despues introducimos multiplicadores de Lagrange p0 , p1 , . . . , pT en IRn , a los
que llamaremos vectores adjuntos (tambien llamados vectores de coestado), y
definimos el lagrangiano
V (, x, p ) := V (, x) +
T 1
X
t=0
pt+1 [xt+1 F (t, xt , at )],
(3.3)
24
donde p = {p0 , . . . , pT }. Por lo tanto, sustituyendo (3.2) en (3.3) y usando el
hamiltoniano, definido para cada t = 0, 1, . . . , T 1 como
H(t, xt , at , pt+1 ) := pt+1 F (t, xt , at ) L(t, xt , at ),
(3.4)
un poco de a lgebra elemental nos permite reescribir (3.3) como

V (, x, p ) =
T 1
X
[pt xt H(t, xt , at , pt+1 )] + C(xT ) + pT xT p0 x0 .
t=0
no
Finalmente, bajo la siguiente hipotesis
y usando resultados de optimizacion
se puede ver en Halkin
lineal se obtiene el Teorema 3.2 (cuya demostracion
(1966), Tabak y Kuo (1971) o Sethi y Thompson (2000)).
Hipotesis
3.1.
(a) Para cada t = 0, 1, . . . , T 1, las funciones de costo L(t, x, a) y C(x) son de
clase C 1 en x y a;
F (t, x, a) es de clase C 1 en x;
(b) Para cada t = 0, 1, . . . , T 1 y a A, la funcion
(c) Para cada t = 0, 1, . . . , T 1 y x IRn , el conjunto {F (t, x, a) : a A} es
convexo.
Teorema 3.2. (El principio del maximo caso determinstico, tiempo discreto).
Suponga que se cumple la Hipotesis

3.1. Supongase
tambien que existe una
estrategia optima
a = {at , t = 0, . . . , T 1} para el PCO (3.1)(3.2), y sea
x = {xt , t = 0, . . . , T } la trayectoria correspondiente que se obtiene de (3.1)

con estado inicial x0 = x0 . Entonces existe un conjunto p = {p0 , . . . , pT } de
vectores adjuntos que satisfacen la ecuacion adjunta
pt = Hx (t, xt , at , pt+1 ) t = 0, . . . , T 1,
(3.5)
i.e.
pt = Fx (t, xt , at )0 pt+1 Lx (t, xt , at ),
con la condicion terminal
pT = Cx (xT ),
(3.6)

25
y la maximizacion del hamiltoniano:

H(t, xt , at , pt+1 ) = max H(t, xt , a, pt+1 )
aA
(3.7)
para t = 0, . . . , T 1.
El nombre principio del maximo para el Teorema 3.2 viene precisamente
(3.7).
de la condicion
Nota 3.3. El Teorema 3.2 da condiciones necesarias de optimalidad, a saber, la exis p de vectores adjuntos que satisfacen (3.5), (3.6) y (3.7).
tencia de la sucesion
Bajo hipotesis
adecuadas estas condiciones tambien son suficientes. De hecho, si
tales condiciones se satisfacen, entonces la busqueda

de un par optimo
(a , x )
se reduce a resolver un problema con valores de frontera que consiste de
(a) las ecuaciones (3.1) y (3.5), que tambien se conocen como las ecuaciones canonicas del PCO;
(b) las condiciones de frontera (3.6) y x0 = x0 ; y
del hamiltoniano, es decir, encontrar a tal que
(c) la maximizacion
H(t, xt , at , pt+1 ) = max H(t, xt , a, pt+1 ).
aA
asegura, en general, la existencia de estrategias optimas
Este procedimiento solo

dinamica
de lazo abierto (ver (2.5)). En contraste, el metodo de programacion
necesariamente da estrategias markovianas
que veremos en la siguiente seccion
(como en (2.6)).
Ejemplo 3.4: Sistema LQ determinstico a tiempo discreto. Considerese el
de
problema de encontrar una estrategia de control que minimize la funcion
costo
T 1
1X
1
(Qx2t + Ra2t ) + Sx2T ,
(3.8)
V (, x) =
2 t=0
2
con = {at }, sujeta a
xt+1 = xt + at
t = 0, 1, . . . , T 1; x0 = x.
(3.9)
Las constantes Q y S en (3.8) son nonegativas y R es positiva, mientras que los

coeficientes y en (3.9) son distintos de cero. El espacio de estados y el de
26
acciones son X = A = IR. (Exactamente el mismo analisis que presentamos a
se puede extender a un problema vectorial con X = IRn y A = IRm ,
continuacion
en cuyo caso los coeficientes en (3.8) y (3.9) son matrices de dimensiones adecuadas. Ademas, dichos coeficientes pueden variar con el parametro de tiempo:
Qt , Rt , ST , t , t .)
Comparando (3.8)(3.9) con (3.1)(3.2) vemos que el hamiltoniano en (3.4)
resulta
1
H(t, xt , at , pt+1 ) = (xt + at ) pt+1 (Qx2t + Ra2t ).
2
Luego, como
Hx = pt+1 Qxt y Ha = pt+1 Rat ,
el problema con valores de frontera mencionado en la Nota 3.3 resulta:
(a) Ecuaciones canonicas: para t = 0, . . . , T 1,
xt+1 = xt + at ,
pt = pt+1 Qxt .
(3.10)
(b) Condiciones de frontera: x0 = x, pT = SxT .

(c) Maximizacion del hamiltoniano: de la igualdad Ha = 0 obtenemos.
at = R1 pt+1
t = 0, . . . , T 1.
(3.11)
Como la segunda derivada parcial Haa = R es negativa, se puede de

mostrar que los controles en (3.11) dan una estrategia optima,
aunque por su falta calcular los vectores adjuntos pt . Con este fin, sustituimos (3.11)
puesto aun
en (3.10):
xt+1 = xt + R1 2 pt+1 , pt = pt+1 Qxt
(3.12)
y combinando estas ecuaciones vemos que necesariamente pt es de la forma
p t = Kt x t
t = 0, . . . , T,
(3.13)
de frontera pT = SxT
donde K0 , . . . , kT son constantes. En efecto, la condicion
en (3.12) tenemos
implica que KT = S. Asimismo, de la segunda ecuacion
pT 1 = pT QxT 1

27
en (3.12) podemos escribir pT en funcion

de xT 1 .
y usando la primera ecuacion
En general, para obtener Kt procedemos como sigue.
Sustituyendo (3.13) en (3.12) obtenemos
xt+1 = xt + R1 2 Kt+1 xt+1 ,
pt = Kt+1 xt+1 Qxt .
De la primera de estas ecuaciones despejamos xt+1 y sustituimos su valor en la
As se obtiene que
segunda ecuacion.
pt = [2 RKt+1 /(R 2 Kt+1 ) Q]xt
y comparando con (3.13) vemos que las constantes Kt satisfacen que
Kt = 2 RKt+1 /(R 2 Kt+1 ) Q t = 0, 1, . . . , T 1,
(3.14)
terminal KT = S, bajo la hipotesis
con condicion
de que S 6= R/ 2 . La ecuacion
(3.14) es un caso especial de la llamada ecuacion de Riccati y se resuelve hacia
atras: empezando con KT = S, se calculan KT 1 , KT 2 , . . . , K0 .
Conociendo el valor de los vectores adjuntos pt podemos determinar los con
de costo mnimo. Por
troles optimos
y la correspondiente trayectoria y la funcion
ejemplo, sustituyendo (3.13) en (3.11) obtenemos
at = R1 Kt+1 xt+1
= R1 Kt+1 (xt + at )
[por (3.9)]
y despejando at obtenemos los controles optimos:

at = Gt xt
con Gt := Kt+1 /(R 2 Kt+1 ).
t = 0, . . . , T 1,
2
Problemas a tiempo continuo.

Sea A[0, T ] el conjunto de todas las funciones medibles a() : [0, T ] A.
El conjunto A[0, T ] es esencialmente la familia de las estrategias de lazo abierto
definidas sobre el intervalo [0, T ].
Ahora consideraremos el PCO que consiste en minimizar el costo
Z T
J(a()) :=
L(t, x(t), a(t))dt + C(x(T ))
0
(3.15)
28
sobre todas las estrategias a() A[0, T ], sujetas a que
x(t)
= F (t, x(t), a(t)) 0 t T, x(0) = x0 .
(3.16)
Supondremos que el espacio de estados y el conjunto de acciones son X = IRn y

A = IRm .
Por supuesto, para que (3.8) y (3.9) esten bien definidas se requieren hipotesis
adecuadas de medibilidad, de Lipschitz, etc., que se pueden ver en, por ejemplo,
los libros de Fleming y Rishel (1975) o de Yong y Zhou (1999). Un tratamiento
un tanto informal del principio del maximo, pero con un buen numero
de apli enunciaremos el
caciones, se puede ver en Sethi y Thompson (2000). Aqu solo
y terminologa.
resultado principal, que requiere la siguiente notacion
en A[0, T ] y x() es la correspondiente solucion
de (3.9)
Si a() es una funcion
se dice que (x(), a()) es un par admisible. Ademas, si a () es una estrategia
de (3.9), decimos que (x (), a ()) es un par o ptimo.

optima
y x () es la solucion
p() : [0, T ] IRn , que llamareDado un par admisible (x(), a()) y una funcion
o) variable adjunta, definimos el hamiltoniano
mos una (funcion
H(t, x(t), a(t), p(t)) := p(t) F (t, x(t), a(t)) L(t, x(t), a(t)).
(3.17)
con (3.4).) Con esta notacion,

el analogo de las condi(Compare esta definicion
ciones necesarias (3.5)(3.7) resulta como sigue.
Teorema 3.5. (El principio del maximo caso determinstico, tiempo con
tinuo). Supongase
que existe un par optimo
para el PCO (3.8)(3.9). Entonces,
bajo ciertas hipotesis

sobre las funciones F (t, x, a), L(t, x, a) y C(x), existe una
variable adjunta p() : [0, T ] IRn que satisface la ecuacion adjunta
p(t)
= Hx (t, x (t), a (t), p(t))

= Fx (t, x (t), a (t))0 p(t) + Lx (t, a (t), x (t))
(3.18)
con condicion terminal

p(T ) = Cx (x (T )),
(3.19)
y la maximizacion del hamiltoniano:

H(t, x (t), a (t), p(t)) = max H(t, x (t), a, p(t)).
aA
(3.20)

29
Las ecuaciones (3.11) y (3.12) se cumplen para casi todo t [0, T ].

La Nota 3.3 (para problemas a tiempo discreto) tambien es valida en el caso
continuo, con algunos cambios obvios de notacion.

Ejemplo 3.6: un problema de control de inventarioproduccion.
Considerese
un problema de control cuyos componentes son, en cada tiempo 0 t T :
la variable de estado x(t) := el nivel de inventario
la variable de control a(t) := la tasa de produccion

la variable exogena s(t) := la tasa de ventas.
Ademas, hay dos valores de referencia, un nivel de inventario de seguridad x y un
a
nivel eficiente de produccion
.
diferencial
El nivel de inventario vara de acuerdo a la ecuacion
x(t)
= a(t) s(t) para
t 0,
x(0) = x0 .
(3.21)
Las estrategias de control son funciones medibles a(t), nonegativas. El PCO

objetivo.
consiste en encontrar una estrategia que minimiza la funcion
Z T
1
[h (x x)2 + c (a a
)2 ]dt,
(3.22)
J(a()) :=
0 2
donde x = x(t) y a = a(t); h > 0 es el costo de mantenimiento y c > 0 el costo
La interpretacion
de (3.22) es que el controlador desea mantener
de produccion.
a() lo mas cerca posible de
el nivel de inventario x() y la tasa de produccion
los valores de referencia x y a
, respectivamente. (A problemas de este tipo se
les llama problemas de seguimiento o de rastreo, porque el estado y los controles
deben seguir o rastrear lo mas cerca posible a los valores x, a
.)
Comparando (3.21)(3.22) con (3.15)(3.16) vemos que el hamiltoniano (en
(3.17)) resulta ser
1
)2 ].
H(t, x(t), a(t), p(t)) = p(t) (a(t) s(t)) [h (x(t) x)2 + c (a(t) a
2
Luego, como
Hx = h (x(t) x) y
Ha = p(t) c (a(t) a
),
obtenemos el siguiente problema con valores de frontera:
30
(a) Las ecuaciones canonicas

x(t)
= a(t) s(t),
p(t)
= h (x(t) x);
(3.23)
(3.24)
(b) las condiciones de frontera: x(0) = x0 , p(T ) = 0;

del hamiltoniano; haciendo Ha = 0 vemos que
(c) maximizacion
a(t) = p(t)/c + a
.
(3.25)
a() en (3.23) es en efecto la estrategia optima
Como Haa = c < 0, la funcion

falta calcular la variable adjunta p(). Con
del problema (3.21)(3.22), pero aun
esto en mente, sustituimos (3.25) en (3.23) para obtener
x(t)
= p(t)/c + a
s(t),
x(0) = x0 .
(3.26)
Para resolver las ecuaciones (3.24) y (3.26), primero derivamos (3.26) y as obte con p,
nemos una ecuacion
es decir,
x(t) = p(t)/c
s(t).
para obtener
Ahora sustituimos (3.24) en esta ultima
ecuacion
p
x(t) = 2 (x(t) x) s(t),
con := h/c;
equivalentemente,
x 2 x(t) = 2 x s(t).
(3.27)
general de esta ecuacion

es de la forma
La solucion
x(t) = a1 et + a2 et + Q(t),
x(0) = x0 ,
(3.28)
particular de (3.27). (La funcion

Q se puede
donde Q(t) es cualquier solucion
determinar si se conoce la forma explcita de s(t).) Como en (3.28) hay solo

inicial, para determinar las constantes a1 , a2 , sustituimos (3.28) en
una condicion
(3.26) y esto da que la variable adjunta p(t) satisface:
p(t) = c(a1 et + a2 et + Q(t)

s(t) a
),
(3.29)
terminal p(T ) = 0. Las ecuaciones (3.28) y (3.29), con sus respeccon condicion
tivas condiciones de frontera, dan un sistema de dos ecuaciones algebraicas que

31
permiten determinar los valores de a1 y a2 . Habiendo determinado estos valores
se obtiene la forma explcita del control optimo

en (3.25). (Notese
que no impusi a(t) 0; si la tasa de produccion
a(t) es negativa, significa que
mos la condicion
debemos eliminar o desechar inventario.) 2
El caso estocastico.
Para sistemas estocasticos a tiempo continuo, y salvo contadas excepciones,
el principio del maximo se ha desarrollado principalmente para ecuaciones diferenciales estocasticas, como en (2.3). Una buena referencia para este caso, con
del
una extensa bibliografa, es el libro de Yong y Zhou (1999). Una extension
principio del maximo ha permitido a JosaFombellida y RinconZapatero

(2005)
proponer un nuevo enfoque para problemas de control estocastico. Un enfoque
similar ha sido estudiado por BourdacheSiguerdidjane y Fliess (1987) para pro
blemas determinsticos y por RinconZapatero

(2004) y RinconZapatero
et al.
(1998) para juegos diferenciales.
Curiosamente, para sistemas estocasticos a tiempo discreto hay poqusimas
referencias, entre las que cabe mencionar el libro de Arkin y Evstigneev (1983).
32
Programacion
dinamica
Como se menciono en la Nota 3.3, para encontrar una estrategia optima

el principio del maximo se reduce esencialmente a resolver un problema con valores
de frontera. Esto requiere determinar una estrategia optima

simultaneamente con
las otras variables (la trayectoria y los vectores adjuntos) en el problema. Un
enfoque alternativo consiste en descomponer el PCO en etapas, cada una correspondiente a un subproblema con una sola variable, de modo que el PCO se
resuelve en forma secuencial, por etapas. Esta es la idea del metodo de progra Primero consideraremos PCOs a
macion dinamica que veremos en esta seccion.
tiempo discreto y despues a tiempo continuo.
dinamica fue introducida por Richard Bellman en la decada
La programacion
1950 vea el libro de Bellman (1956), por ejemplo.
de los anos
Problemas a tiempo discreto.
Consideraremos de nuevo el PCO determinstico en (3.1)(3.2) pero por conveniencia notacional escribiremos las variables xt y at como x(t) y a(t), respectivamente. As pues, tenemos el modelo dinamico
x(t + 1) = F (t, x(t), a(t)) t = 0, . . . , T 1,
con x(0) = x0 ,
(4.1)
objetivo
con funcion
V (, x) :=
T 1
X
L(t, x(t), a(t)) + C(x(T )),
(4.2)
t=0
donde = {a(t)}. El espacio de estados es X = IRn y el de acciones de control es

un conjunto cerrado A IRm .
dinamica se basa en el siguiente principio de optimaliLa programacion
es evidente.
dad que introdujo Bellman, y cuya demostracion
Lema 4.1. (El principio de optimalidad) Sea a () = {a (0), . . . , a (T 1)} una
estrategia optima
para el problema (4.1)(4.2), y sea x () = {x (0), . . . , x (T )} la
trayectoria correspondiente; en particular, x (0) = x0 . Entonces para cualquier
DINAMICA
4. PROGRAMACION
33
tiempo s {0, . . . , T 1}, la estrategia truncada a (t) para s t T 1, es la
estrategia optima
que lleva el sistema (4.1) del punto x (s) al punto x (T ).
Para ver como se usa el Lema 4.1, consideremos el PCO (4.1)(4.2) pero solo
del tiempo s en adelante (con 0 s T 1), con estado inicial x(s) = x, es
decir, sea
T 1
X
V (, s, x) :=
L(t, x(t), a(t)) + C(x(T ))
(4.3)
t=s
y sea v(s, x) el correspondiente costo mnimo, i.e.

v(s, x) := inf V (, s, x).
(4.4)
Ademas, como en el tiempo terminal T no se aplican acciones de control, definimos

v(T, x) := C(x).
(4.5)
Luego, si en el Lema 4.1 interpretamos s y x (s) = x como el tiempo y el estado
iniciales, se sigue de (4.3) y (4.4) que
v(s, x) = V (a (), s, x)
T 1
X
L(t, x (t), a (t)) + C(x (T ))
=
t=s
= L(s, x, a (s)) + V (a (), s + 1, x (s + 1))

= L(s, x, a (s)) + v(s + 1, x (s + 1)).
Por lo tanto, como x (s + 1) = F (s, x (s), a (s)) = F (s, x, a (s)), obtenemos
v(s, x) = L(s, x, a (s)) + v(s + 1, F (s, x, a (s))).
(4.6)
(4.4), v(s, x) es el costo mnimo de operar el sistema del

Pero, por la definicion
tiempo s al tiempo T , de modo que
v(s, x) L(s, x, a) + v(s + 1, F (s, x, a)) a A.
(4.7)
Finalmente, combinando (4.6) y (4.7) vemos que

v(s, x) = min[L(s, x, a) + v(s + 1, F (s, x, a))] s = 0, . . . , T 1.
aA
(4.8)
34
y que el mnimo en el lado derecho de (4.8) se alcanza en a (s), como en (4.6).
(4.8) con la condicion
terminal (4.5) se llama la ecuacion
La ecuacion
de
programacion
dinamica (EPD), o ecuacion
de Bellman, y es la base del algo dinamica (4.9)(4.10) en el siguiente teorema
ritmo de programacion
Teorema 4.2. (El teorema de programacion
dinamica) Sean J0 , J1 , . . . , JT las
funciones sobre X definidas hacia atras (de s = T a s = 0) como
JT (x) := C(x),
(4.9)
Js (x) := min[L(s, x, a) + Js+1 (F (s, x, a))].
(4.10)
y para s = T 1, T 2, . . . , 0,
a
as : X A
Suponga que para cada s = 0, 1, . . . , T 1, existe una funcion
que alcanza el mnimo en el lado derecho de (4.10) para todo x X. Entonces
de valor
la estrategia markoviana = {a0 , . . . , aT 1 } es optima
y la funcion
coincide con J0 , i.e.
inf V (, x) = V ( , x) = J0 (x) x X.
(4.11)
en (4.4)(4.5), i.e.
De hecho, para cada s = 0, . . . , T, Js coincide con la funcion
v(s, x) = Js (x) 0 s T, x X.
(4.12)
Es importante observar que (4.12) significa que algoritmo (4.9)(4.10) da el

costo o ptimo (o costo mnimo) del PCO (4.1)(4.2) con tiempo y estado inicial
0 s T 1 y x(s) = x, respectivamente.
Consideremos ahora el sistema estocastico en el que (4.1) y (4.2) se sustituyen por
x(t + 1) = F (t, x(t), a(t), (t)) t = 0, . . . , T 1, con x(0) = x,
"T 1
#
X
V (, x) := E
L(t, x(t), a(t)) + C(x(T )) ,
(4.13)
(4.14)
t=0
con = {a(t)}, y las perturbaciones (0), . . . , (T 1) en (4.13) son variables

aleatorias independientes e identicamente distribuidas (i.i.d.) con valores en
DINAMICA
4. PROGRAMACION
35
espacio S. Resulta entonces que, con algunos cambios adecuados, pracalgun

ticamente todo lo que aparece en los parrafos anteriores sigue siendo valido.
F [a saber,
Mas precisamente, en las expresiones en las que aparece la funcion
(4.6)(4.8) y (4.10)] debemos escribir F (s, x, a, (s)) en lugar de F (s, x, a); ademas, se debe tomar la esperanza en las expresiones donde aparezcan terminos
estocasticos, o sea, en el lado derecho de (4.3), (4.6)(4.8), y (4.10). Para mas
detalles, vea el Ejemplo 4.4.
detallada del teorema de programacion
dinamica
Nota 4.3. Una demostracion
en el caso estocastico a tiempo discreto aparece en HernandezLerma y Lasserre
3.2. Otras demostraciones, as como un buen numero
(1996), Seccion
de ejemplos
y aplicaciones, aparecen en Arkin y Evstigneev (1987), Bertsekas (1987), Le Van
y Dana (2003), LuqueVasquez et al. (1996), Stokey y Lucas (1989), ... 2
dinamica, a continuacion
verePara ilustrar el algoritmo de programacion
estocastica del sistema LQ en el Ejemplo 3.4.
mos una version
Ejemplo 4.4: Sistema LQ estocastico a tiempo discreto. Considere el sistema
lineal
xt+1 = xt + at + t
t = 0, 1, . . . ; x0 dado,
con coeficientes , distintos de cero. Las perturbaciones t son variables

aleatorias i.i.d., independientes de x0 , y con media 0 y varianza 2 finita, i.e.
E(t ) = 0,
2 := E(t2 ) <
t = 0, . . . , T 1.
(4.15)
Los espacios de estados y de acciones son X = A = IR. Se desea minimizar la

de costo
funcion
"T 1
#
X
V (, x) := Ex
(qx2t + ra2t ) + qT x2T
x0 = x,
t=0
donde r > 0 y q, qT 0.
de programacion
dinamica (4.9)(4.10) resulta
En este caso, la ecuacion
JT (x) := qT x2
(4.16)
36
y para s = T 1, T 2, . . . , 0:
Js (x) := min[qx2 + ra2 + EJs+1 (x + a + s )].
(4.17)
se resuelve hacia atras: sustituyendo (4.16) en (4.17) obtenemos

Esta ecuacion
JT 1 (x) = min[qx2 + ra2 + qT E(x + a + T 1 )2 ]
a
donde, usando (4.15),

E(x + a + T 1 )2 = (x + a)2 + 2 .
Luego,
JT 1 (x) = min[(q + qT 2 )x2 + (r + qT 2 )a2 + 2qT xa + qT 2 ].
a
se minimiza en
El lado derecho de esta ecuacion
aT 1 (x) = GT 1 x,
con GT 1 := (r + qT 2 )1 qT
y el mnimo es
JT 1 (x) = KT 1 x2 + qT 2 ,
con
KT 1 := (r + qT 2 )1 qT r 2 + q.
En general, es facil ver que la estrategia optima

= {a0 , . . . , aT 1 } esta dada
por
as (x) = Gs x, con Gs := (r + Ks+1 2 )1 Ks+1 ,
(4.18)
con ganancias Ks dadas recursivamente por KT := qT y para s = T 1, . . . , 0:
Ks = (r + Ks+1 2 )1 Ks+1 r 2 + q.
Asimismo, el costo optimo

del tiempo s en adelante, en (4.12), resulta
Js (x) = Ks x2 + 2
T
X
Kn
para s = 0, . . . , T 1.
(4.19)
n=s+1
En particular, con s = 0 se obtiene el costo mnimo en (4.11).
Nota. Es interesante comparar el problema LQ estocastico en el ejemplo anterior

con el problema LQ determinstico en el Ejemplo 3.4: se puede ver que en ambos
DINAMICA
4. PROGRAMACION
37
casos la estrategia optima

esta dada por (4.18). Sin embargo, difieren en el costo
mnimo; la diferencia esta en que, en el caso determinstico, la varianza 2 que
aparece en (4.19) es cero.
veremos brevemente el caso de costo
Para referencia futura, a continuacion
descontado con horizonte infinito. Considerese el PCO que consiste del sistema
estocastico.
xt+1 = F (xt , at , t ) t = 0, 1, . . . ;
con x0 = x,
(4.20)
objetivo
con funcion
"
V (, x) := E
#
t c(xt , at , t )
(4.21)
t=0
de costo por etapa, y (0, 1) es el factor

en donde c(x, a, ) es la funcion
de descuento. Como siempre, X y A representan el espacio de estados y de
acciones, respectivamente. Asimismo, denotaremos por A(x) el conjunto de acciones factibles en el estado x; vease (2.4). El PCO (4.15)(4.16) es estacionario
en el sentido de que las funciones F (x, a, ) y c(x, a, ) no dependen del tiempo t
de probabily, ademas, 0 , 1 , . . . son variables aleatorias i.i.d. cuya distribucion
idad la denotaremos por , es decir
(B) := Prob[0 B] B S,
(4.22)
donde S es el espacio de perturbaciones, o sea el conjunto en el que toman

de valor
valores las variables t . Considerese la funcion
v(x) := inf V (, x)
de funciones vn definidas iterativamente como

y la sucesion
vn (x) :=
=
inf E[c(x, a, 0 ) + vn1 (F (x, a, 0 ))]

Z
inf
[c(x, a, s) + vn1 (F (x, a, s))](ds),
aA(x)
aA(x)
(4.23)
se tiene el siguiente resultado

para n = 1, 2, . . . , con v0 (x) 0. Con esta notacion,
bajo una variedad de hipotesis

(veanse las referencias en la Nota 4.3, o la seccion
8.3 en HernandezLerma y Lasserre (1999)).
Teorema 4.5. Bajo hipotesis

adecuadas:
38
de valor v satisface la ecuacion
de programacion
dinamica
(a) la funcion
Z
v(x) = inf
[c(x, a, s) + v(F (x, a, s))](ds) x X.
(4.24)
aA(x)
g : X A tal que g(x) A(x) y g(x)

(b) Supongase
que existe una funcion
minimiza el lado derecho de (4.24) para todo x X, i.e.
Z
v(x) = [c(x, g(x), s) + v(F (x, g(x), s))](ds).
S
Entonces g define una estrategia markoviana estacionaria (recuerdese (2.7))
que es optima
para el PCO (4.20)(4.22).
(c) Cuando n , vn (x) v(x) para todo x X. (Las funciones vn , definidas
en (4.23), se llaman funciones de iteracion de valores.)
v(x) o para
La parte (c) del Teorema 4.5 se usa para aproximar la funcion
deducir propiedades de ella.
Problemas a tiempo continuo
Consideremos el PCO (4.1)(4.2) pero en tiempo continuo, es decir
x(t)
= F (t, x(t), a(t)) t [0, T ], x(0) = x,

Z T
L(t, x(t), a(t))dt + C(x(T )),
V (, x) :=
(4.25)
con = {a()}. Asimismo, como en (4.3)(4.5), para cada estado s [0, T ] y

estado inicial x(s) = x, definimos
Z T
V (, s, x) :=
L(t, x(t), a(t))dt + C(x(T ))
s
y
v(s, x) := inf V (, s, x) para
0 s < T, v(T, x) := C(x).
En este caso, el principio de optimalidad es completamente analogo al caso de

dinamica es como
tiempo discreto (Lema 4.1), y el teorema de programacion
sigue.
Teorema 4.6 Bajo ciertas hipotesis

sobre las funciones F, L, C y el conjunto A, y
de la ecuacion
suponiendo que v(s, x) es de clase C 1,1 ([0, T ] IRn ), v es solucion
DINAMICA
4. PROGRAMACION
39
dinamica
de programacion
vs + inf [F (s, x, a) vx + L(s, x, a)] = 0 (s, x) [0, T ) IRn ,
aA
(4.26)
de frontera v(T, x) = C(x). Si ademas g(s, x) es una funcion

que
con condicion
alcanza el mnimo en (4.21), entonces
a (s) := g(s, x(s)) s [0, T ]
es una estrategia optima,

i.e. v(s, x) = V (a (), s, x).
Para PCOs a tiempo continuo (determinsticos o estocasticos) la ecuacion
de programacion dinamica, como (4.26), tambien se conoce como ecuacion

de
HamiltonJacobiBellman.
Usando el hamiltoniano H(s, x, a, p) en (3.10) podemos expresar (4.26) como
vs sup H(s, x, a, vx ) = 0.
aA
dinamica y el principio del

Esto establece un vnculo entre la programacion
maximo.
del Teorema 4.6 se puede ver en, por ejemplo, Fleming y
La demostracion
Rishel (1975), Fleming y Soner (1992), Yong y Zhou (1999). Estos libros estudian
el control de ecuaciones diferenciales ordinarias (como en (4.25)) y estocasticas
(como en (2.3)). Otros sistemas estocasticos a tiempo continuo incluyen las
cadenas de Markov ver, por ejemplo, Guo y HernandezLerma (2003a) o
PrietoRumeau y HernandezLerma (2005a). Aunque es costumbre estudiar
cada uno de estos sistemas por separado, es posible hacer estudios unificados
que incluyen practicamente cualquier tipo de proceso de control markoviano
(PCM) a tiempo continuo, como en (2.36)(2.38); ver HernandezLerma (1994),
PrietoRumeau y HernandezLerma (2005b) y sus referencias, donde en particular podemos ver lo siguiente.
Nota 4.7. Usando el generador infinitesimal (2.37) podemos expresar la ecuacion

dinamica (4.26) como
de programacion
vs + inf [La v(s, x) + L(s, x, a)] = 0 (s, x) [0, T ) IRn .
aA
(4.27)
40
De hecho, expresada de esta manera usando el generador infinitesimal del
(4.27) resulta ser la ecuacion
de programacion
dinamica
PCM la ecuacion
para cualquier PCM a tiempo continuo, con horizonte finito T . Por ejemplo, si
diferencial
en lugar del sistema determinstico (4.25) consideramos la ecuacion
a
estocastica (2.3), entonces el generador L en (4.27) sera el operador en (2.38).
Asimismo, si el PCM es un proceso markoviano de saltos con espacio de estados
numerable y tasas de transicion

qxy (a), entonces tomando s = 0 en (4.27) el
a
generador L resulta
X
La v(x) :=
qxy (a)v(y).
yX
Para mas detalles, vea las referencias mencionadas en el parrafo anterior.
5. CONTROL MINIMAX (JUEGOS CONTRA LA NATURALEZA)
41
Control minimax (juegos contra la naturaleza)
Considerese un problema de control en el que de hecho hay dos decisores (en

uno), el controlador y un oponente. El sistema puede evolulugar de solo
cionar en tiempo continuo o tiempo discreto. Para fijar ideas, consideremos el
sistema estocastico
xt+1 = F (xt , at , bt , t ) t = 0, 1, . . . ,
(5.1)
que depende de las estrategias = {at } del controlador y = {bt }

objetivo del PCO depende de las
del oponente. Por lo tanto, tambien la funcion
estrategias de ambos decisores, i.e. tenemos V (, , x), donde x0 = x es el estado
inicial. Considerese la funcion

V # (, x) := sup V (, , x).
Si es una estrategia del controlador que minimiza V # (, x), i.e., para todo
x X:
V # ( , x) = inf V # (, x),
o equivalentemente
V # ( , x) = inf sup V (, , x),
(5.2)
se dice entonces que es una estrategia minimax.

de (5.2) es que es la mejor estrategia del controlador en la
La interpretacion
peor de las circunstancias, porque minimiza lo maximo (= lo peor) que puede
hacer el oponente, cuando dicho maximo se calcula sobre todas las estrategias
del oponente. Por esta caracterstica, a un problema de control minimax tambien
se le llama problema de control del peor caso (worstcase control). Las tecnicas
del
que se usan para estudiar estos problemas son, principalmente, extension
dinamica o del principio del maximo; ver Gonzalez
metodo de programacion
Trejo et al. (2003) o Poznyak (2002a, 2002b).
Juegos contra la naturaleza
tpica del control minimax es a problemas de control que deUna aplicacion
penden de parametros desconocidos. En este caso, el oponente es la natu-
42
raleza que de alguna manera, en cada tiempo t, selecciona el valor del parametro. Estos problemas se conocen como juegos contra la naturaleza.
Por ejemplo, en lugar de (5.1) considerese un problema de control (un unico

jugador) con modelo dinamico
xt+1 = F (xt , at , t ),
t = 0, 1, . . . ,
con x0 = x,
(5.3)
donde las t son perturbaciones. Consideraremos dos casos:

Caso 1: El sistema es incierto, es decir, se sabe que las t son constantes con
conjunto dado S, pero no se conoce el valor particular de t .
valores en algun
Caso 2: El sistema es estocastico, es decir, las t son variables aleatorias i.i.d.
comun
(ver (4.22)), pero no se
con valores en un conjunto S y distribucion
conoce . Sin embargo, s sabemos que debe pertenecer a un conjunto M (S)
de distribuciones admisibles.
En el caso estocastico el PCO consiste en minimizar el costo esperado (4.21),
mientras que en el caso incierto el costo es determinstico, as que eliminamos la
objetivo resulta
esperanza en (4.21) y la funcion
X
t c(xt , at , t ).
(5.4)
V (, x) :=
t=0
Consideremos primero el caso 2. Entonces, por el Teorema 4.5 (a), (b), sabe de valor v(x) satisface la ecuacion
de
mos que si se conoce , entonces la funcion
dinamica (4.24), y una funcion
g : X A que alcanza el mnimo
programacion
en el lado derecho de (4.24) define una estrategia optima.

Resulta que el Teorema 4.5 sigue siendo valido con algunos cambios adecuados, que dan como
resultado lo siguiente.
Teorema 5.1. (Teorema de control minimax) Considerese el PCO estocastico que
consiste en minimizar el costo esperado (4.21), sujeto a (5.3). Se desconoce la
de las perturbaciones t pero se sabe que pertenece a un conjunto
distribucion
M (S) de distribuciones sobre el espacio S. Entonces, bajo ciertas hipotesis:

de valor v (x) := inf supM (S) V (, x) satisface la ecuacion
(a) la funcion
Z
v (x) = inf sup
[c(x, a, ) + v (F (x, a, s))](ds).
(5.5)
aA(x) M (S)
5. CONTROL MINIMAX (JUEGOS CONTRA LA NATURALEZA)
43
f : X A tal que f (x) A(x) alcanza el mnimo en

(b) Si existe una funcion
(5.5), i.e.
Z
v (x) = sup [c(x, f (x), s) + v (F (x, f (x), s))](ds),

(5.6)
entonces f define una estrategia minimax, o sea at := f (xt ) para todo t =

0, 1, . . ..
v en (5.5) se puede aproximar por una
Es importante observar que la funcion
de funciones de iteracion
de valores, como en el Teorema 4.5(c). Para
sucesion
mayores detalles, vea GonzalezTrejo et al. (2003). En esta misma referencia se
pueden ver ejemplos concretos de control minimax para problemas con horizonte finito, horizonte infinito, y tambien con costo promedio (tambien lla
mado costo ergodico).
En el caso 1, cuando las variables t son inciertas, el teorema anterior es
(5.5) por la siguiente:

valido (bajo hipotesis
adecuadas) sustituyendo la ecuacion
v (x) = inf sup[c(x, a, s) + v (F (x, a, s))].
aA(x) sS
(5.7)
El cambio en (5.6) es similar.

Los problemas de control minimax de sistemas inciertos tambien se conocen
como problemas de control robusto. El nombre se debe a que resultados como
(5.7) son robustos en el sentido de que valen para todo valor s S. Como
diferencial esejemplo, Poznyak (2002a, 2002b) estudia PCOs con una ecuacion
tocastica de la forma (2.3), pero cuyos coeficientes dependen de un parametro
conjunto S. Entonces en lugar de (2.3) se tiene
incierto s en algun
dxt = F s (t, xt , at )dt + s (t, xt , at )dWt
0 t T, s S.
Bernhard (2005) propone tecnicas de control robusto para estudiar algunos problemas en finanzas.
9 veremos que un problema de control minimax es un caso
En la seccion
particular de ciertos juegos dinamicos conocidos como juegos de suma cero.
44
Parte 2. Juegos cooperativos

En lo que resta de estas notas consideraremos juegos dinamicos con N ju 2
gadores, N 2, de modo que todos los conceptos introducidos en la Seccion
(para N = 1) se deben reinterpretar de manera adecuada. Por ejemplo, en un
at del controlador
modelo dinamico, como en (2.1)(2.3), en lugar de la accion
ahora tenemos un vector de acciones
at = (a1t , . . . , aN
t ),
del jugador i al tiempo t. Asimismo, en lugar del conen donde ait es la accion
junto A(x) de acciones factibles en (2.4), para un juego A(x) es el producto cartesiano
A(x) = A1 (x) AN (x),
donde Ai (x) representa el conjunto de acciones factibles para el jugador i cuando
objetivo (la funcion
el estado del juego es x. Por ultimo,

en lugar de una funcion
objetivo del controlador), como en (2.11)(2.15), ahora tenemos un vector
V (, x) = (V 1 (, x), . . . , V N (, x))
objetivo del jugador i, dado que el estado inicial
en donde V i (, x) es la funcion
del juego es x, y que los jugadores siguen la multiestrategia
= ( 1 , . . . , N )
donde i es la estrategia del jugador i. De aqu se sigue que expresiones como
(2.16) o (2.17) en las que se desea minimizar o maximizar V (, x), para juegos dejan de tener un significado obvio. En esta segunda parte del curso vere vectorial se entiende en el sentido
mos el caso en el que optimizar una funcion
de Pareto.
Para fijar ideas, supondremos que las funciones objetivo V i (, x) son costos
que se desea minimizar.
6. EQUILIBRIOS DE PARETO
45
Equilibrios de Pareto
En un juego cooperativo los jugadores desean cooperar para alcanzar un resul sentido, sea benefico para todos ellos. (Por el contrario, en un
tado que, en algun
juego nocooperativo los jugadores no hacen acuerdos para cooperar; mas bien,
les preocupa alcanzar sus objetivos individactuan independientemente y solo
uales.)
alPara juegos cooperativos estaticos existen varios conceptos de solucion,
gunos de los cuales se remontan al trabajo pionero de von Neumann y Morgenstern (1944). Sin embargo, cuando se intenta extrapolar estos conceptos a juegos
cooperativos dinamicos muchos de ellos resultan ser inconsistentes en el tiempo
o dinamicamente inestables. (Vea la Nota 6.3(a) o, por ejemplo, Filar y Petrosjan
de las inconsisten(2000), Haurie (2001), Petrosjan (2005) para una discusion
cias que pueden ocurrir). Por tal motivo, para juegos dinamicos cooperativos
y mas estudiado, a saber, los equilibrios de
nos restringiremos al caso mas comun
Pareto.
Observacion.
Recuerdese que para vectores x = (x1 , . . . , xN ) y y = (y1 , . . . , yN )
se dice que
x y ssi xi yi i = 1, . . . , N.
Asimismo, x < y ssi x y y x 6= y ; y x << y ssi xi < yi i.
Observacion.
En las secciones 6, 7 y 8 supondremos que el estado inicial x0
esta fijo; en el caso de juegos estocasticos, lo anterior significa que la distribucion

de probabilidad de x0 , digamos 0 (B) := P(x0 B), esta fija. En todo caso,
escribimos simplemente V i () en lugar de V i (, x0 ) o
para simplicar
la notacion
R
V i (, 0 ) := V i (, x)0 (dx).
Definicion
6.1. Considerese un juego con N jugadores. Sea V i () la funcion
objetivo del jugador i, dado que los jugadores siguen la multiestrategia =
( 1 , . . . , N ). Sea i el conjunto de estrategias admisibles para el jugador i, y sea
:= 1 N . Ademas, sea
:= {V () | } IRN ,
(6.1)
donde V () := (V 1 (), . . . , V N ()) IRN . (A se le llama el conjunto objetivo

o conjunto alcanzable del juego.) Se dice que una multiestrategia es un
46
equilibrio de Pareto si no existe tal que
V () < V ( ).
(6.2)
Sea el conjunto de equilibrios de Pareto (suponiendo que el conjunto no es

vaco). Entonces el conjunto de vectores
{V () | }
se llama el frente de Pareto del juego.
El metodo mas usual para estudiar la existencia de equilibrios de Pareto es el
metodo de escalarizacion
definido como sigue. Sea
SN 1 := { IRN | >> 0 y
1 + + N = 1}.
escalar
Para cada SN 1 considerese la funcion
V () := V () =
N
X
i V i ().
(6.3)
i=1
vector
Teorema 6.2. Bajo ciertas hipotesis,
se obtiene lo siguiente. Si para algun
escalar (6.3),
SN 1 existe una multiestrategia que minimiza la funcion
i.e.
V ( ) V () ,
(6.4)
entonces es un equilibrio de Pareto.
de este teorema es trivial. En efecto, si satisface (6.4)
La demostracion
6.1) existe una
pero no es un equilibrio de Pareto, entonces (por la Definicion
0
multiestrategia tal que
V ( 0 ) < V ( ).
Multiplicando ambos lados de esta desigualdad por el vector se obtiene que
V ( 0 ) < V ( ), lo cual contradice (6.4); es decir, necesariamente es un equilibrio de Pareto.
del recproco del Teorema 6.2 requiere un
Por el contrario, la demostracion
poco mas de trabajo; vease, por ejemplo, HernandezLerma y Romera (2004).
47
De hecho, esta referencia estudia problemas de control multiobjetivos (es decir, un

para juegos
controlador con N objetivos V 1 (), . . . , V N ()), pero la demostracion
es basicamente la misma.
Nota 6.3. (a) Si se admite que algunas de las componentes del vector en (6.4)
se podra garantizar que es
sean cero (pero con suma total = 1), entonces solo
un equilibrio de Pareto debil. (Se dice que es un equilibrio de Pareto debil si
no existe tal que V () << V ( ).)
(b) En HernandezLerma y Romera (2004a) se demuestra que el metodo de
es equivalente a resolver el problema dual de un programa lineal
escalarizacion
infinita) con objetivos multiples.
(de dimension
(c) Los artculos de Tolwinski et al. (1986) y de Gaidov (1986) dan condiciones
para la existencia de estrategias de Pareto en juegos diferenciales determinsticos
y estocasticos, respectivamente. La primera de estas referencias incluye estrategias con amenazas (threats) cuyo papel es inducir a los jugadores a que respeten
lo convenido entre ellos, una vez que se ha llegado a un equilibrio. Alternativamente, para que los jugadores respeten los acuerdos entre ellos, se puede suponer
que tales acuerdos son vinculantes (binding agreements). En estas notas haremos
tal suposicion.
Los juegos cooperativos estan muy desarrollados pero principalmente para
juegos diferenciales (determinsticos); vea, por ejemplo, Haurie (2001), Petrosjan
y Zenkevich (1996), Vaisbord y Zhukovskii (1988), Zhukovskiy y Salukvadze
(1994).
de
Ejemplo 6.4. Considerese el juego diferencial LQ que consiste de la ecuacion
estado
x = x + B1 a1 + B2 a2
t 0, x(0) = x0 ,
(6.5)
hemos omitido la variable de tiempo t.

en donde, para simplicar la notacion,
El espacio de estados X y los espacios de acciones Ai (i = 1, 2) son X = Ai = IR,
y los coeficientes , B1 , B2 son constantes. Para cada jugador i = 1, 2 la funcion

de costo es
Z
Vi (a1 , a2 ) :=
hi (t, x, a1 , a2 )dt
(6.6)
0
48
con
1
hi (t, x, a1 , a2 ) := et (q1 x2 + ri a2i + rij a2j ), j 6= i,
2
donde > 0 es un factor de descuento. Dado un vector = (1 , 2 ) en S1 el
costo escalarizado (6.3) resulta
V (a1 , a2 ) = 1 V1 (a1 , a2 ) + 2 V2 (a1 , a2 )
Z
h (t, x, a1 , a2 )dt,
=
(6.7)
donde (por (6.6))

1
h (t, x, a1 , a2 ) = et (Qx2 + R1 a21 + R2 a22 )
2
con
Q := 1 q1 + 2 q2
Ri = i ri + j rji
para i = 1, 2; j 6= i.
(6.8)
dinamica.
Para minimizar el costo (6.7) sujeto a (6.5) usaremos programacion
Sea a = (a1 , a2 ) y s 0. Dado el estado inicial x(s) = x, sea
v(s, x) := inf V (a, s, x),
a
donde
V (a, s, x) :=
h (t, x, a)dt,
x(s) = x.
de programacion
dinamica es
Luego, de (4.26) (o (4.27)) la ecuacion
vs + inf [(x + B1 a1 + B2 a2 ) vx + h (t, x, a1 , a2 )] = 0.
a
Se puede verificar que las estrategias optimas

son, para i = 1, 2,
ai = Ki x
x X,
con Ki := Ri1 Bi M0 ,
(6.9)
positiva de la ecuacion
donde M0 es la solucion
(B12 /R1 + B22 /R2 )M02 (2 )M0 Q = 0,
con Q y Ri en (6.8) Es decir, a = (a1 , a2 ) es el equilibrio de Pareto para el vector
dado = (1 , 2 ) y, ademas, sustituyendo (6.9) en (6.6) se obtiene que el costo
optimo
para cada jugador i = 1, 2 es
1
Vi (x0 ) = Pi x20 ,
2
(6.10)
49
(positiva) de la ecuacion
donde Pi es la solucion
1
i = 0
2(c )Pi + Q
2
con
c := B1 K1 B2 K2 ,
i := qi + ri Ki2 + rij Kj2 , j 6= i.

Q
(6.11)
(6.12)
de estado
El caso estocastico. Supongase
que, en lugar de (6.5), la ecuacion
es
dx = (x + B1 a1 + B2 a2 )dt + G dW, x(0) = x0 , t 0,
donde G es una constante y W es un proceso de Wiener estandar, en cuyo caso
las funciones de costo en (6.6) y (6.7) se deben sustituir por sus valores esperados
inicial x(0) = x0 . Por ejemplo, en lugar de (6.6) ahora tenemos
dada la condicion
Z
Vi (a1 , a2 ) :=
E[hi (t, x, a1 , a2 )|x(0) = x0 ]dt.
0
dinamica se puede ver

y similarmente en (6.7). Usando de nuevo programacion
que las estrategias optimas

son como en (6.9), es decir, las mismas que en el caso
determinstico. Sin embargo, los costos optimos

(6.10) s deben modificarse y
resultan
1
1
(6.13)
Vie (x0 ) = Pi x20 + Q
i Si ,
2
2
i como en (6.11) y (6.12), mientras que Si es la solucion
de la ecuacion
con Pi y Q
1
2(c )Si + G2 = 0.
2
Los resultados (6.9), (6.10) y (6.13) para sistemas LQ son bien conocidos. Para
mayores detalles se puede consultar practicamente cualquier texto sobre con
trol optimo
(o juegos dinamicos) que incluya modelos a tiempo continuo, por
ejemplo, Basar y Olsder (1999), Fleming y Rishel (1975), Fleming y Soner (1992),
HernandezLerma (1994), Klompstra (1992), Sethi y Thompson (2000), Yong y
Zhou (1999). 2
observese que un equilibrio de Pareto es, en
Nota 6.5. Para concluir esta seccion,
efecto, un equilibrio cooperativo en el sentido de que ninguna otra decision

conjunta de los jugadores puede disminuir el costo de al menos uno de ellos sin
50
incrementar el costo de los otros. Mas explcitamente, si usamos el metodo de
para encontrar equilibrios de Pareto, vemos de (6.3)(6.4) que al
escalarizacion
variar el vector , vara el correspondiente equilibrio de Pareto y, por lo tanto,
tambien vara el vector de costos V (, x) a lo largo del frente de Pareto. Esto hace
que algunos jugadores resulten beneficiados (al disminuir su costo o funcion

objetivo), mientras que otros salen perjudicados (al incrementar su costo). Esta
lleva a una pregunta natural: de entre todos los equilibrios de Pareto,
situacion
cual es el mas justo para todos los jugadores? Esta pregunta se puede responder de varias maneras. En las siguientes dos secciones veremos algunas de las
posibles respuestas.
7. EQUILIBRIOS DE COMPROMISO
51
Equilibrios de compromiso
Con respecto a la Nota 6.5, para encontrar un equilibrio justo algunos autores
han propuesto el siguiente procedimiento. Para cada i = 1, . . . , N , sea
Vi := inf V i ().
El vector
V := (V1 , . . . , VN )
(7.1)
se llama el mnimo virtual del juego. (Tambien se le conoce como mnimo

utopico,
mnimo ideal o mnimo sombra.)

Definicion
7.1. Dada una norma k k sobre IRN , se dice que una multiestrategia
es un equilibrio de compromiso con respecto a dicha norma si
k V ( ) V k= inf k V () V k .
(7.2)
Observe que la funcion

() :=k V () V k
para
es una funcion de utilidad para el juego, en el sentido de que si y 0 son tales

que V () < V ( 0 ), entonces () < ( 0 ). De aqu se sigue que un equilibrio de
compromiso necesariamente es un equilibrio de Pareto.
Generalmente, en (7.2) se usa una norma Lp , definida como
!1/p
N
X
k u kp :=
|ui |p
1 p < .
i=1
Para p = 2, un equilibrio de compromiso se dice que es una solucion

de
Salukvadze al juego cooperativo. Si p = +, entonces se llama un equilibrio
minimax porque satisface que
k V ( ) V k = min max |V i () Vi |.
1iN
Nota 7.2. Las condiciones para que existan equilibrios de compromiso son las
multiobjetivos; vea,
mismas que para problemas de control o de optimizacion
52
por ejemplo, HernandezLerma y Romera (2004a), Yu y Leitmann (1974). Esta
ultima
referencia interpreta el termino V i () Vi como la pena o pesar (regret)
del jugador i cuando se usa la multiestrategia . Por lo tanto, se sigue de (7.2)
que un equilibrio de compromiso minimiza la pena del grupo de jugadores
porque V ( ) es el punto mas cercano al mnimo virtual, con respecto a la norma
k k.
El proposito
del siguiente ejemplo es ilustrar el calculo de un equilibrio de
no consideramos
compromiso. Sin embargo, para simplificar la presentacion,
un problema de juegos sino mas bien un problema de control multiobjetivos, es
decir, un controlador que desea minimizar en el sentido de Pareto un vector
de costos, digamos
V () = (V1 (), . . . , VN ()).
(7.3)
Ejemplo 7.3: Control multiobjetivossistema LQ estocastico a tiempo dis
creto. Sean y numeros
reales distintos de cero y considerese el sistema lineal,
escalar,
xt+1 = xt + at + t para t = 0, 1, . . . ,
(7.4)
con espacio de estados y de acciones X = A = IR. Las perturbaciones t son
variables aleatorias i.i.d., que son independientes del estado inicial x0 , y tales
que
E(0 ) = 0 y E(02 ) =: 2 < .
(7.5)
inicial. Los costos Vi (, 0 ) Vi () en (7.3) son de la forma
Sea 0 la distribucion
"
#
X
Vi () := (1 )E0
t ci (xt , at )
i = 1, . . . , N,
(7.6)
t=0
donde ci es un costo cuadratico,

ci (x, a) := si x2 + ri a2
(7.7)
con coeficientes positivos si , ri . Siguiendo el metodo de escalarizacion,

tomamos un Nvector > 0 arbitrario y formamos el producto
V () := V () =
N
X
i=1
i Vi ().
7. EQUILIBRIOS DE COMPROMISO
53
Por (7.6) y (7.7), podemos expresar V () como

"
#
X
V () = (1 )E0
t c (xt , at )
(7.8)
t=0
con
c (x, a) :=
N
X
i ci (x, a) = ( s)x2 + ( r)a2 ,
i=1
donde s := (s1 , . . . , sN ) y r := (r1 , . . . , rN ). El problema LQ de encontrar una

estrategia que minimiza (7.8) sujeta a (7.4) es muy bien conocido. Por ejemplo,
en la pag. 72 de HernandezLerma y Lasserre (1996) se puede ver que la estrate
gia optima
es la estrategia (markoviana estacionaria)
f (x) = [( r) + 2 z()]1 z()x
x X,
(7.9)
de Riccati
donde z() es la unica
solucion
2 z 2 + (
r r2 s 2 )z sr = 0,
(7.10)
con r = r y s = s. Asimismo, para cualquier estado inicial x0 = x, la funcion
de costo optimo
es
V (f , x) = z()[(1 )x2 + 2 ]
x X,
con 2 como en (7.5). Por lo tanto, suponiendo que la distribucion inicial 0 tiene
segundo momento finito, i.e.
Z
0 := x2 0 (dx) < ,
(7.11)
entonces el correspondiente costo optimo

resulta ser
Z
V (f ) =
V (f , x)0 (dx) = z()k(0 )
(7.12)
IR
con k(0 ) := (1 )
0 + 2 .
Observese que el resultado (7.9)(7.12) es valido para cualquier vector = (1 ,
. . . , N ) > 0. En particular, si tomamos = e(i), donde e(i) es el vector con
coordenadas

1 si j = 1,
e(i)j =
0 si j 6= i,
54
y despues variamos i = 1, . . . , N, entonces obtenemos el mnimo virtual V =
(V1 , . . . , VN ) en (7.1). Mas explicitamente, si en (7.12) sustituimos por e(i)
obtenemos el costo mnimo
Vi = inf V i () = V i (fe(i) ) = zi k(0 )
de Riccati (7.10) con r = ri
donde zi es la unica
solucion
y s = si .
Finalmente, para encontrar una estrategia de compromiso se debe seleccionar una norma en IRN y calcular que minimiza k V () V k, como en
(7.2). Estas operaciones se pueden realizar al menos en principio usando
de soporte, como en el Ejemplo 5.7 de HernandezLerma y
una cierta funcion
Romera (2004b).
DE NASH
8. EL PROBLEMA DE NEGOCIACION
55
El problema de negociacion
de Nash
Otra forma de ver cual es el equilibrio mas justo entre todos los equilibrios
de Nash del problema de negociacion
de Pareto consiste en encontrar la solucion
(bargaining problem). Nash (1950b, 1953) introdujo este problema para juegos
estaticos con un numero

finito de acciones y de jugadores y posteriormente se
ha estudiado para varios tipos de juegos dinamicos, por ejemplo, juegos diferenciales, como en Haurie (1976, 1982), Petrosyan (2003),..., y juegos diferen es
ciales estocasticos, como en Gaidov (1990). En cualquier caso, la formulacion
aqu solo
consideraremos
esencialmente la misma. Para facilitar la exposicion
juegos con N = 2 jugadores.
objetivo del jugador i, con = ( 1 , 2 ), y
Para i = 1, 2, sea V i () la funcion
sea V0 := (V01 , V02 ) el vector cuyas coordinadas son los valores minimax
V 1 ( 1 , 2 ),
max
V01 := min
2
1
V 2 ( 1 , 2 ).
max
V02 := min
1
2
A la pareja V 0 se le llama el status quo. (En general, el status quo no necesariamente son los valores minimax; es decir, las componentes de V 0 se pueden
seleccionar de otras maneras.) A las multiestrategias en el conjunto
ir := { | V 1 () V01 , V 2 () V02 }
se les llama multiestrategias individualmente racionales. Si = ( 1 , 2 ) es una
multiestrategia individualmente racional, entonces la diferencia
V0i V i () 0 para i = 1, 2
(8.1)
se interpreta como el beneficio por cooperar del jugador i cuando se usa la multiestrategia . (Compare (8.1) con la pena o pesar V i () Vi del jugador i en
la Nota 7.2.)
Definicion
8.1. Si ir es una multiestrategia que maximiza la funcion
b() := [V01 V 1 ()] [V02 V 2 ()],
ir ,
56
se dice que es la solucion
de Nash al problema de negociacion.
anterior, entonces
Un calculo directo muestra que si satisface la definicion
es un equilibrio de Pareto.
Para cualquier numero

N 2 de jugadores los conceptos anteriores siguen
b() en la Defisiendo validos, con los cambios obvios. Por ejemplo, la funcion
8.1 ahora resulta ser
nicion
b() := [V01 V 1 ()] [V0N V N ()]
y el conjunto de multiestrategias individualmente racionales es
ir := { | V i () V0i
i = 1, . . . , N }.
de una solucion
de Nash
En el siguiente teorema se da una caracterizacion
basada en la desigualdad
(al problema de negociacion)
1/N
(y1 yN )
N
X
yi
yi > 0, i = 1, . . . , N.
(8.2)
i=1
entre la media P
geometrica (y1 yN )1/N de N numeros
yi 0 y la media
1
aritmetica N
i yi .
Teorema 8.2. (Ehtamo et al., 1988) Supongase

que ir es tal que, para todo
i = 1, . . . , N ,
V i ( ) < V0i ,
y sea
i :=
es decir
i
b( )
,
V0i V i ( )
N
Y
(8.3)
[V0j V j ( )]
j=1
j 6= i
Si ademas es tal que
V ( ) V () ,
(8.4)
DE NASH
8. EL PROBLEMA DE NEGOCIACION
57
de Nash al problema de negociacion,

i.e.
entonces es una solucion
b( ) b() ir .
(8.5)
Demostracion.
Fjese una estrategia arbitraria ir . Observe que (8.4) es

equivalente a
(V0 V ()) (V0 V ( ))
X
=
i [V0i V i ( )],
i
i.e., por (8.3),

(V0 V ()) N b( ).
(8.6)
Equivalentemente, usando de nuevo (8.3) y definiendo

i
i
V0i V i ()
V0 V ()
= i
,
yi := i
V0 V i ( )
b( )
podemos expresar (8.6) como

N
N
X
i [V0i V i ()]/b( )
i=1
n
X
yi
i=1
N (y1 yN )1/N
= N [b()/b( )]1/N .
[por (8.2)]
anterior por 1/N se obtiene b( ) b().

Finalmente, multiplicando la expresion
Luego, como ir es arbitraria, se sigue (8.5). 2
El Teorema 8.2 sugiere el siguiente algoritmo, introducido por Ehtamo et
de Nash. Supongase
al. (1988), para encontrar una solucion

que para cada vector
en
SN 1 := { IRN | >> 0, 1 + + N = 1}
existe una multiestrategia = (1 , . . . , N ) tal que
V ( ) V () ,
(8.7)
58
de modo que es un equilibrio de Pareto (por el Teorema 6.2). Con esta no el algoritmo es como sigue.
tacion
Paso 1. Para cada SN 1 encuentre que satisface (8.7).
Paso 2. Encuentre SN 1 tal que, para todo i = 1, . . . , N, V i ( ) < V0i y,
ademas (como en (8.3)),
b( )
i = i
.
V0 V i ( )
de Nash
Del Teorema 8.2 se sigue de manera evidente que es una solucion
Sin embargo, aunque el algoritmo es conceptualal problema de negociacion.
por la dificultad de realizar los pasos 1 y 2.
mente simple, es poco util
Para juegos estaticos hay soluciones distintas de la de Nash al problema de
ver, por ejemplo, Kalai y Smorodinsky (1975), Petrosjan y Zenkenegociacion
vich (1996), Roth (1979, 1985).
asociado a un juego
Kaitala et al. (1985) estudian el problema de negociacion
diferencial que representa dos cooperativas pesqueras que explotan una misma
mas general se analiza en el artculo de Ehtamo et al.
pesquera. Una situacion
(1988).
9. EQUILIBRIOS DE NASH
59
Parte 3. Juegos nocooperativos

En un juego nocooperativo los jugadores actuan independientemente y cada uno desea alcanzar su propio objetivo individual.
Equilibrios de Nash
Primero consideraremos el caso de N = 2 jugadores.

Definicion
9.1. Sea 2 2 una estrategia (fija) del jugador 2. Definimos el
conjunto de las respuestas optimas
del jugador 1 a la estrategia 2 como

RO1 ( 2 ) := {1 1 | V 1 (1 , 2 ) = inf1 V 1 ( 1 , 2 )}.
(9.1)
Analogamente, el conjunto de las respuestas optimas
del jugador 2 a una es1

trategia 1 del jugador 1 se define como
RO2 ( 1 ) := {2 2 | V 2 ( 1 , 2 ) = inf2 V 2 ( 1 , 2 )}.
(9.2)
Se dice que la multiestrategia (1 , 2 ) 1 2 es un equilibrio de Nash si

1 RO1 (2 ) y
2 RO2 (1 ).
Equivalentemente, (1 , 2 ) es un equilibrio de Nash si

V 1 (1 , 2 ) = inf1 V 1 ( 1 , 2 )
y
V 2 (1 , 2 ) = inf2 V 2 (1 , 2 ).
En palabras, en un equilibrio de Nash, un jugador no puede mejorar su

si altera su estrategia unilateralmente.
situacion
Nota 9.2. Para algunos tipos de juegos (por ejemplo, juegos markovianos a
tiempo discreto con espacio de estados nonumerable) hasta la fecha ha sido
60
imposible dar condiciones generales para la existencia de equilibrios de Nash.
Trataremos de explicar porque.
Considerese la multifuncion
que a cada multiestrategia ( 1 , 2 ) 1 2
le asocia el conjunto RO1 ( 2 ) RO2 ( 1 ), i.e.
( 1 , 2 ) := RO1 ( 2 ) RO2 ( 1 ).
Se puede ver facilmente que (1 , 2 ) es un equilibrio de Nash si y solo
si (1 , 2 )
es un punto fijo de , es decir,
(1 , 2 ) (1 , 2 ).
(9.3)
El problema con (9.3) es que los teoremas de punto fijo de multifunciones requieren
de continuidad de ,
hipotesis
muy restrictivas, por ejemplo, alguna condicion
1
2
y que los conjuntos ( , ) sean compactos, convexos, etc. Esto requiere, de
entrada, introducir una topologa adecuada sobre 1 2 con respecto a la cual
se satisfacen las hipotesis

de los teoremas de punto fijo. Salvar estos obstaculos
topologicos
no es facil en muchos casos. 2
Caso general (N 2). Sea := 1 N . Para cada multiestrategia
= ( 1 , . . . , N ) en y i , sea
[ i |] := ( 1 , . . . , i1 , , i+1 , . . . , N )
la multiestrategia con respecto a la cual cada jugador k usa la estrategia k si
k 6= i, mientras que el jugador i usa .
Se dice que una multiestrategia = (1 , . . . , N ) es un equilibrio de Nash
si para cada i la estrategia i i es una respuesta optima

del jugador i contra
, es decir,
Vi ( ) = inf Vi ([i |]).
(9.4)
i
Esto tambien se puede expresar equivalentemente como

i arg min Vi ([i |]) i = 1, . . . , N.
(9.5)
anterior de equilibrio de Nash es adecuada para

En realidad, la definicion
juegos estaticos pero no para juegos dinamicos. El problema es que en un juego
61
instante del juego, algunos de los

dinamico puede darse el caso de que, en algun
de equilibrio y, por
jugadores decidan unilateralmente desviarse de la posicion
lo tanto, la multiestrategia correspondiente deja de ser un equilibrio. Para evi se puede suponer que los acuerdos entre los jugadores
tar este tipo de situacion
son vinculantes; recuerde la Nota 6.3(c). Otra manera de evitar desviaciones uni de equilibrio consiste en demostrar que un equilibrio de
laterales de la posicion
Nash es perfecto en el sentido de la siguiente definicion.

Definicion 9.3. Considerese un juego dinamico con N jugadores y sea Vi (t, x, )
objectivo del jugador i(i = 1, . . . , N ) dado que la condicion
inicial del
la funcion
juego es x(t) = x en el tiempo t 0. Sea = (1 , . . . , N ) una multiestrategia
como en
markoviana, es decir, cada i es markoviana (o de retroalimentacion),
(2.6). Se dice que es un equilibrio de Nash perfecto si, para cada i = 1, . . . , N
inicial (t, x), se cumple que
y cualquier condicion
Vi (t, x, ) = inf Vi (t, x, [i |]),
donde el infimo se calcula sobre todas las estrategias markovianas del jugador
i.
En otras palabras, un equilibrio de Nash perfecto es una multiestrategia mar inikoviana que es un equilibrio de Nash para cualquiera que sea la condicion
cial del juego. En este caso, algunos autores dicen que el equilibrio de Nash es
perfecto en los subjuegos (subgame perfect).
Notese
que resolver (9.4) o (9.5) esencialmente equivale a resolver un PCO
para cada i. Esto sugiere que, en principio, podemos usar tecnicas como el prin dinamica para encontrar equilibrios de Nash.
cipio del maximo o programacion
El principio del maximo.
Considerese un juego diferencial con N 2 jugadores, espacio de estados
X = IRn y conjuntos de acciones Ai IRmi para i = 1, . . . , N . El modelo dinamico
es (comparese con (3.16))
x(t)
= F (t, x(t), a(t)) 0 t T,
x(0) = x0 .
(9.6)
Los controles admisibles son de lazo abierto, a() = (a1 (), . . . , aN ()), donde ai ()
medible de [0, T ] a Ai . Los jugadores desean maximizar las
es una funcion
62
funciones objetivo
T
Li (t, x(t), a(t))dt + C i (T, x(T )).
J (a()) :=
0
Sea p(t) = [pij (t)] la matriz N n de variables adjuntas cuya iesima fila es
pi (t) = (pi1 (t), . . . , pin (t)) para i = 1, . . . , N.
Definimos el hamiltoniano
H i (t, x, a, p) := Li (t, x, a) + pi (t) F (t, x, a).
(9.7)
Supongase
que a () es un equilibrio de Nash y sea x () la trayectoria corre de (9.6)). En este caso (bajo ciertas hipotesis
spondiente (solucion
sobre F, Li , C i ,
etc.) se cumplen las siguientes condiciones necesarias para cada i = 1, . . . , N :
las ecuaciones adjuntas
pi (t) = Hxi (t, x (t), a (t), p(t))
(9.8)
pi (T ) = Cxi (T, x (T )),
(9.9)
la condicion
terminal
y la maximizacion
del hamiltoniano
H i (t, x (t), a (t), pi (t)) H i (t, x (t), ai , pi (t)) ai Ai .
(9.10)
(Compare (9.8)(9.10) con (3.18)(3.20).)

Las ecuaciones (9.6) y (9.8)(9.10) definen un problema con dos condiciones
de frontera que en algunos casos se puede resolver explcitamente. Por ejemplo, Clemhout y Wan (1974) consideran juegos trilineales, llamados as porque el
hamiltoniano es lineal en el estado, en los controles, y en la variable adjunta.
Asimismo, Dockner et al. (1985) identifican varios tipos de juegos diferenciales
que son solubles, en el sentido de que se pueden determinar equilibrios de Nash
de lazo abierto, ya sea explcitamente o cualitativamente. Esto ultimo

significa que se puede obtener un equilibrio de Nash resolviendo un sistema de
ecuaciones diferenciales de la forma
a i = i (t, a) para i = 1, . . . , N.
63
Programacion
dinamica.
Para cada a = (a1 , . . . , aN ), sea [ai |a0 ] el vector con componentes ak si k 6= i,
y ai = a0 , es decir,
[ai |a0 ] = (a1 , . . . , ai1 , a0 , ai+1 , . . . , aN ).
Supongase
que para cada i = 1, . . . , N existen funciones v i (s, x) de clase C 1,1
de programacion
dinamica (cf. (4.26)):
que satisfacen la ecuacion
vti + max
{F (t, x, [ai |a0 ]) vxi + Li (t, x, [ai |a0 ])} = 0
0
i
a A
(9.11)
de frontera
para todo (t, x) en [0, T ] IRn , con condicion
v i (T, x) = C i (T, x) x IRn .
(9.12)
Ademas, sea a (t, x) A1 AN la multiestrategia cuyas componentes ai (t, x)

alcanzan el maximo en (9.11). Entonces a (t, x) es un equilibrio de Nash perfecto
y
v i (t, x) = J i (t, x, a (t, x)),
(9.13)
donde
i
J (t, x, a (t, x)) =
Li (s, x , a )ds + C i (T, x (T ))
de (9.6) para t s T con condicion

inicial x (t) = x.
y x (s) es la solucion
El resultado (9.11)(9.13) para juegos diferenciales se debe a Stalford y Leitmann (1973) y se puede extender a otros juegos markovianos a tiempo continuo;
ver JassoFuentes (2004).
explcita de
En muchos casos interesantes se puede obtener una solucion
(9.11)(9.13). Por ejemplo, Jorgensen y Sorger (1990) hacen un analisis muy
detallado, explcito, de un juego diferencial que representa dos jugadores explotando una misma pesquera. El modelo dinamico es
x = rx(1 x/k) bx(ea
1 +a2
1), 0 t T, x(0) = x0 ,
64
donde k es la capacidad portadora del ecosistema, r y b son constantes, y a1 , a2 son
las acciones de los jugadores. Jorgensen y Yeung (1996) analizan una version
estocastica del juego anterior, con N 2 jugadores. En estos dos artculos se
consideran funciones objetivo con horizonte finito y tambien horizonte infinito.
Para juegos a tiempo discreto tambien hay muchas publicaciones en las que
se calculan (o se demuestra la existencia de) equilibrios de Nash, en particu
lar, en juegos relacionados a economa. Amir (2003) trae un buen numero
de
de capital (o de extraccion
de recurreferencias. Los juegos de acumulacion
en anos
recientes; ver, por ejemplo, Balbus y
sos) han recibido mucha atencion
Nowak (2004), Nowak (2003b), Nowak y Szajowski (2003), Wiecek (2003, 2005).
Otra lnea interesante son los juegos sobre capitalismo, iniciados por Lancaster
(1973) y que se han desarrollado a tiempo contnuo, como en Basar et al. (1985),
Pohjola (1983) y Shimomura (1991), y a tiempo discreto, como en Krawczyk y
Shimomura (2003). En esta ultima

referencia se hace un analsis muy completo
de varios tipos de equilibrios para un cierto modelo de crecimiento economico.

dinaObservaciones 9.4. (a) De (9.11)(9.13) se puede ver que la programacion
mica da en forma natural equilibrios de Nash perfectos, a diferencia del principio del maximo (9.8)(9.10) que, en general, da equilibrios de Nash de lazo
abierto y que, por lo tanto, no son perfectos. Por otra parte, RinconZapatero
(2004) y RinconZapatero
et al. (1998) proponen un enfoque distinto de la programacion dinamica para caracterizar equilibrios de Nash perfectos en ciertos juegos
diferenciales.
(b) En general, un equilibrio (nocooperativo) de Nash no es equilibrio (cooperativo) de Paretoalgunos casos especficos se pueden ver en Krawczyk y
Shimomura (2003), Neck (1985) y RinconZapatero

(2004). Sin embargo, Rincon
Zapatero et al. (2000) han identificado una clase de juegos diferenciales cuyos
equilibrios de Nash s son equilibrios de Pareto. (De hecho, ya existan trabajos similares, como el de Case (1974), pero para juegos mas bien academicos,
es decir, juegos un poco artificiales que no tienen nada que ver con juegos que
surgen de aplicaciones.)

10. JUEGOS SIMETRICOS
Y DE SUMA CERO
10
65
Juegos simetricos y de suma cero
Hay varios casos particulares, pero muy importantes, de juegos nocooperativos

entre los que destacan los juegos simetricos y los juegos de suma cero.
Juegos simetricos
Un juego simetrico es un juego nocooperativo en el que los jugadores tienen
objetivo, digamos
la misma funcion
V i () V () i = 1, . . . , N, ,
(10.1)
y los mismos conjuntos de acciones admisibles y, ademas, la ley de movimiento

del estado del juego es simetrica con respecto a las acciones de los jugadores. Un
juego simetrico tambien es conocido como un problema de equipo porque es como
si todos y cada uno de los jugadores trataran de optimizar la misma funcion,

V () en nuestro caso.
Ejemplos de juegos simetricos aparecen en Balbus y Nowak (2004), Dockner
et al. (2000), RinconZapatero

(2004) y Sundaram (1989). En particular, en la
por N >
penultima
de estas referencias se estudia el problema de la explotacion,
La evolucion
del
1 agentes, de un recurso no renovable de propiedad comun.
dferencial
nivel del recurso sigue la ecuacion
x = (a1 + + aN ),
con x(0) = x0 > 0,
del iesimo jugador. Asimismo, para cada

donde ai 0 es la tasa de explotacion
de pago como en (10.1) que permite dejugador se define una cierta funcion
mostrar la existencia de un equilibrio de Nash simetrico, es decir, un equilibrio
de Nash ( 1 , . . . , N ) con i = j para todo i, j = 1, . . . , N . (Nota: En general, un
juego simetrico no necesariamente tiene equilibrios de Nash simetricos.)
De (9.4) y (10.1) se puede ver que una multiestrategia = (1 , . . . , N ) es un
si
equilibrio de Nash para un juego simetrico si y solo
V ( ) = inf V ([i |]) i = 1, . . . , N.
i
(10.2)
Por este motivo se dice que es una multiestrategia optima
personapor
persona. Observese que si
es el mnimo global de V , i.e.
V (
) V () ,
66
entonces
es mejor que en el sentido de que V (
) V ( ). Sin embargo,
ser un optimo
no satisface en general la condicion

personapor-persona, como
en (10.2).
Nota 10.1. En un juego simetrico o problema de equipo se supone que todos
los jugadores tienen la misma informacion en todo el tiempo que dura el juego. Esto
significa que el juego se puede interpretar como un problema de control centralizado en el que varios controladores estan coordinados por una misma central.
Por el contrario, en problemas de control decentralizado los controladores no com y se presentan dificultades para coordinarlos. Para
parten la misma informacion
mas detalles y referencias, ver Neck (1982), por ejemplo.
Juegos de suma cero
Un juego nocooperativo con N = 2 jugadores es un juego de suma cero si
V 1 () + V 2 () = 0 ,
es decir V 1 () = V 2 (). Definiendo V := V 1 = V 2 , es evidente que =
si es un
(1 , 2 ) es un equilibrio de Nash para un juego de suma cero si y solo
punto silla, i.e.
V (1 , 2 ) V (1 , 2 ) V ( 1 , 2 ) ( 1 , 2 ) 1 2 .
(10.3)
Considerese un juego de suma cero con estado inicial x(s) = x X en el

tiempo s 0. Las funciones
L(s, x) := sup inf1 V (s, x, 1 , 2 ),
2
U (s, x) := inf1 sup V (s, x, 1 , 2 )
(10.4)
se llaman el valor inferior y el valor superior del juego, respectivamente. Siempre se cumple la desigualdad
L(s, x) U (s, x) (s, x).
(10.5)

Y DE SUMA CERO
67
Definicion
10.2. Si se cumple la igualdad en (10.5) para todo (s, x), se dice que
el juego de suma cero tiene el valor V(s, x) := L(s, x) = U (s, x).
Un resultado que da condiciones para la existencia del valor V se conoce
como un teorema minimax. El siguiente teorema minimax nos dice, en pocas
palabras, que la existencia del valor V es en cierto modo equivalente a la existencia de un punto silla.
Teorema 10.3. (a) Si un juego de suma cero tiene un punto silla (1 , 2 ), entonces
tiene el valor
V(s, x) = V (s, x, 1 , 2 ) (s, x).
(10.6)
(b) Si existe una multiestrategia = (1 , 2 ) tal que para todo (s, x):
V (s, x, 1 , 2 ) = inf1 V (s, x, 1 , 2 )
= sup2 V (s, x, 1 , 2 ),
(10.7)
entonces es un punto silla.

del Teorema 10.3 es trivial, es importante obserAunque la demostracion
var que es valido para cualquier juego de suma cero, ya sea determinstico o
daremos un
estocastico, a tiempo discreto o tiempo continuo. A continuacion
ejemplo de como
se aplica dicho teorema.
de moviConsidere un juego determinstico a tiempo continuo con ecuacion
miento
x = F (t, x, a1 , a2 ) para 0 t T.
inicial x(s) = x en el tiempo s [0, T ], la funcion
objetivo esta
Dada la condicion
dada como
Z T
1
2
V (s, x, , ) :=
L(t, x, a1 , a2 )dt + C(T, x(T )).
s
de programacion
dinamica (9.11)(9.12) con
Entonces combinando la ecuacion
el Teorema 4.6 obtenemos el siguiente teorema minimax.
suave v(s, x) y estrategias 1 , 2

Teorema 10.4. Supongase
que existe una funcion
68
tales que, para todo (s, x) en [0, T ] X, se tiene
0 = F (s, x, a1 , a2 ) vx + L(s, x, a1 , a2 )
= inf
[F (s, x, a1 , a2 ) vx + L(s, x, a1 , a2 )]
1
a
(10.8)
= sup[F (s, x, a1 , a2 ) vx + L(s, x, a1 , a2 )]

a2
de frontera
con la condicion
v(T, x) = C(T, x) x X.
(10.9)
v(s, x) = V (s, x, 1 , 2 )
(10.10)
Entonces
es el valor del juego y (1 , 2 ) es un punto silla.
de frontera
En efecto, de la primera igualdad en (10.8), junto con la condicion
(10.9), se obtiene (10.10). Por otra parte, comparando (10.7) con las ultimas
dos
de punto silla:
igualdades en (10.8) se obtiene la condicion
V (s, x, 1 , 2 ) V (s, x, 1 , 2 ) V (s, x, 1 , 2 ).
Usando el generador infinitesimal La mencionado en (2.36)(2.38) se puede
ver que el Teorema 10.4 es un caso particular de un resultado valido para cualquier tipo de juego markoviano a tiempo continuo; vea JassoFuentes (2004).
Otros casos particulares de juegos markovianos a tiempo continuo, de suma
cero, son los juegos diferenciales estocasticos (como en Basar y Olsder (1999),
Browne (2000), Kushner (2002, 2004), etc.) y cadenas de Markov (como en Guo y
HernandezLerma (2003b, 2005), PrietoRumeau y HernandezLerma (2005c)).
de programacion
dinamica (10.8)(10.9)
Para este tipo de juegos, a la ecuacion
algunos autores le llaman la ecuacion de HamiltonJacobiBellmanIsaacs.
Nota 10.5. El Teorema 10.4 da condiciones suficientes para la existencia de un
punto silla (1 .2 ), donde i es una estrategia markoviana. Pero, por supuesto,
no todos los juegos satisfacen dichas condiciones y, de hecho, hay juegos de
suma cero que no tienen un punto silla. Tambien existen juegos de suma cero
que no admiten puntos silla en una cierta familia de estrategias (e.g., estrategias
markovianas), pero s en una familia mas grande (e.g., estrategias aleatorizadas);
vea, por ejemplo, Schmitendorf (1976).

Y DE SUMA CERO
69
Para juegos semimarkovianos o markovianos a tiempo discreto se tienen resultados semejantes al Teorema 10.4 (ver, por ejemplo, Filar y Vrieze (1997),
HernandezLerma y Lasserre (2001), LuqueVasquez (2002), Nowak (2003),
VegaAmaya (2003), ...). En el caso a tiempo discreto, a la correspondiente
de programacion
dinamica se le llama ecuacion de Shapley.
ecuacion
5 se
Nota 10.6 Los problemas de control minimax que estudiamos en la Seccion
pueden ver como cierto tipo de juegos de suma cero. En efecto, si comparamos
las ecuaciones (10.4) y (5.2) vemos que una estrategia minimax 1 alcanzara el
valor superior del juego, i.e.
U (s, x) = sup V (s, x, 1 , 2 ) = inf1 sup V (s, x, 1 , 2 )
2
inicial (s, x). Los problemas de control minimax vistos

para cualquier condicion
como juegos contra la naturaleza son muy populares en algunas aplicaciones,
por ejemplo, en control de colasver Altman (2005), Altman y Hordijk (1995).
70
11
Juegos de Stackelberg
Los juegos de Stackelberg fueron introducidos por el economista austriaco H.

von Stackelberg en 1934. Estos juegos se caracterizan porque uno de los jugadores, al que se le llama el lder, fija las reglas del juego, tira primero por as
decirlo, y el resto de los jugadores, a quienes se les llama los seguidores, deben
buscar su respuesta optima

a las reglas del lder.
consideraremos el caso de dos jugadores, en los que el jugador 1
Aqu solo
es el lder y el jugador 2 es el seguidor. Las respectivas funciones objetivo son
V1 ( 1 , 2 ),
V2 ( 1 , 2 ).
(Se pueden considerar juegos de Stackelberg con mas de dos jugadores y con
varios niveles de jerarqua; ver Basar y Olsder (1999), por ejemplo.)
Dada una estrategia 1 1 del lder, recuerdese que RO2 ( 1 ) denota el
conjunto de las respuestas optimas

del jugador 2 a la estrategia 1 ; vea (9.2).
Definicion
11.1. Sea
V1 ( 1 ) := sup{V1 ( 1 , 2 ) | 2 RO2 ( 1 )}.
Una multiestrategia (1 , 2 ) es un equilibrio de Stackelberg si
V1 (1 ) = inf1 V1 ( 1 ) = inf1 sup2 RO2 (1 ) V1 ( 1 , 2 )
(11.1)
y
2 RO2 (1 ).
similar al control minimax o conObservese que (11.1) tenemos una situacion
5. En efecto, el lder toma una actitud
trol del peor caso que vimos en la seccion
de minimizar el peor caso, porque trata de cubrir sus perdidas contra la peor
del jugador 2 en el conjunto RO2 ( 1 ).
seleccion
Ejemplo 11.2. En este ejemplo, introducido por Basar (1991), el lder (= jugador
1) es el gobierno o la autoridad monetaria en Mexico, el Banco de Mexico
y el seguidor (= jugador 2) es el sector privado. El objetivo principal del
as que el estado xt IR del juego es el parametro
lder es controlar la inflacion,
11. JUEGOS DE STACKELBERG
71
de preferencia (en Mexico, el IPC = ndice de precios al consumidor) del lder y

satisface la ecuacion
dxt = (1 )xt dt + (1 )dt + dvt , t 0, x(0) = x0 ,
donde (0, 1) y > 0 son constantes, y vt es un proceso de Wiener. (En
el artculo de Basar y Salmon (1990) se estudia un juego similar pero a tiempo
discreto.)
La variable de control a1t del lder es la tasa planeada de crecimiento monetario,
de modo que el crecimiento monetario acumulado real, que se denota por mt , es
Z t
mt :=
a1s ds + wt
0
donde wt es un proceso de Wiener independiente de vt . La variable de control a2t

{ms , s <
del seguidor es el pronostico que hace de a1t basandose en la informacion
t}.
Basar (1991) considera funciones objetivo con horizonte finito y tambien hor consideraremos el segundo caso, en el que el seguidor
izonte infinito. Aqu solo
desea minimizar
Z

1
1
2
2 2 t
(at at ) e dt ,
V2 ( , ) := E
0
donde > 0 es un factor de descuento, mientras que el lder desea maximizar

Z
1 1 2 t
1
2
1
2
V1 ( , ) := E
[xt (at at ) (at ) ]e dt ,
2
0
V1 representa un baldonde > 0 es otro factor de descuento. Esta funcion
ance entre maximizar el primer termino (llamado la sorpresa monetaria) y
minimizar (a1t )2 (que equivale a un bajo nivel de inflacion),

con el parametro de
preferencia xt determinando el grado y nivel de este balance.
Se puede demostrar que el conjunto RO2 ( 1 ) tiene un unico
punto T ( 1 ), o
1
2
sea T ( ) A es el unico
valor para el que
V2 ( 1 , T ( 1 )) V2 ( 1 , 2 ) 1 , 2 .
72
11.1 se sigue que una multiestrategia
Combinando este hecho con la Definicion
1
2
(
,
) es un equilibrio de Stackelberg si
V1 (
1,
2 ) V1 ( 1 , T ( 1 )) 1 1
y, ademas,
2 = T (
1 ).
De hecho, bajo ciertas hipotesis,

este equilibrio resulta ser
a
1t := M (xt xt ) y
a
2t = E(
a1t | ms , s < t) = 0,
(11.2)
donde M > 0 es una constante y xt := E(xt | ms , s < t). (Como E(

a1t ) = 0 se dice
que el sesgo inflacionario es cero.)
Por otra parte, (1 , 2 ) es un equilibrio de Nash si
V1 (1 , 2 ) V1 ( 1 , 2 ) 1
y
V2 (1 , 2 ) V2 (1 , 2 ) 2 .
Bajo hipotesis
adecuadas, se demuestra que el equilibrio de Nash es
a1
t = b xt + c
a2
t ,
t = x
(11.3)
con xt como en (11.2), y b, c constantes. (El estimador xt se calcula usando filtros

del equilibrio de Stackelberg (11.2)
de Kalman.) Basar hace una comparacion
con el equilibrio de Nash (11.3). 2
Ademas de los artculos de Basar (1991) y Basar y Salmon (1990) mencionados en el ejemplo anterior, Basar et al. (1985), Neck (1991) y Pohjola (1983) estudian equilibrios de Nash y de Stackelberg para un mismo juego.
73
Referencias
Altman, E. (2005). Applications of dynamic games in queues. In Nowak y
Szajowski (2005), pp. 309342.
Altman, E., Hordijk, A. (1995). Zerosum Markov games and worstcase optimal control of queueing systems. Queueing Syst. Theory Appl. 21, pp.
415447.
AlvarezMena, J., HernandezLerma, O. (2005). Existence of Nash equilibria
for constrained stochastic games. Math. Meth. Oper Res. 62, to appear.
Amir, R. (2003). Stochastic games in economics and related fields: an overview.
In Neyman and Sorin (2003), Chapter 30.
Arkin, V.I., Evstigneev, I.V. (1987). Stochastic Models of Control and Economic
Dynamics. Academic Press, London.
Balbus, L., Nowak, A.S. (2004). Construction of Nash equilibria in symmetric
stochastic games of capital accumulation. Math. Meth. Oper. Res. 60, pp.
267277.
Basar, T., editor (1986). Dynamic Games and Applications in Economics. Lecture Notes in Economics and Mathematical Systems 265, SpringerVerlag,
Berlin.
Basar, T. (1991). A continuoustime model of monetary policy and inflation: a
stochastic differential game. In Ricci (1991), pp. 317.
Basar, T., Haurie, A., Ricci, G. (1985). On the dominance of capitalists leadership in a feedbackStackelberg solution of differential game model of
capitalism. J. Econ. Dyn. Control 9, pp. 101125.
Basar, T., Olsder, G.J. (1999). Dynamic Noncooperative Game Theory, Second Edition. SIAM, Philadelphia. (The first edition was published by Academic
Press, in 1982.)
Basar, T., Salmon, M. (1990). Credibility and the value of information transmission in a model of monetary policy and inflation. J. Economic Dynamics and
Control 14, pp. 97116.
74
Bellman, R. (1956). Dynamic Programming. Princeton University Press, Princeton, N.J.
Bernhard, P. (2005). Robust control approach to option pricing, including transaction costs. In Nowak and Szajowski (2005), pp. 391416.
Bertsekas, D.P. (1987). Dynamic Programming: Deterministic and Stochastic Models. PrenticeHall, Englewood Cliffs, N.J.
Bertsekas, D.P. (2000). Dynamic Programming and Optimal Control, Volume I, Second Edition. Athena Scientific, Belmont, MA.
Browne, S. (2000). Stochastic differential portfolio games. J. Appl. Prob. 37, pp.
126147.
BourdacheSiguerdidjane, H., Fliess, M. (1987). Optimal feedback control of
nonlinear systems. Automatica 23, pp. 365372.
Case, J. (1974). A class of games having Pareto optimal Nash equilibria. J.
Optim. Theory Appl. 13, pp. 379386.
Clemhout, S., Wan, H.Y. (1974). A class of trilinear differential games. J. Optim.
Theory Appl. 14, pp. 419424.
Dockner, E., Feichtinger, G., Jorgensen, S. (1985). Tractable classes of nonzero
sum openloop Nash differential games: theory and examples. J. Optim.
Theory Appl. 45, pp. 179197.
Dockner, E.J., Jorgensen, S., Long, N.V., Sorger, G. (2000). Differential Games
in Economics and Management Science. Cambridge University Press, Cambridge, U.K.
Ehtamo, H., Ruusunen, J., Kaitala, V., Hamalainen, R.P. (1988). Solution for a
dynamic bargaining problem with an application to resource management.
J. Optim. Theory Appl. 59, pp. 391405.
Feichtinger, G., editor (1985). Optimal Control Theory and Economic Analysis 2.
NorthHolland, Amsterdam.
Feichtinger, G., Jorgensen, S. (1983). Differential game models in management.
Euro. J. Oper. Res. 14, pp. 137155.
75
Fershtman, C., Mullar, E. (1986). Turnpike properties of capital accumulation
games. J. Econ. Th. 38, pp. 167177.
Filar, J.A., Petrosjan, L.A. (2000). Dynamic cooperative games. Internatl. Game
Theory Rev. 2, pp. 4765.
Filar, J., Vrieze, K. (1997). Competitive Markov Decision Processes. Springer
Verlag, New York.
Fleming, W.H., Rishel, R.W. (1975). Deterministic and Stochastic Optimal Control.
SpringerVerlag, New York.
Fleming, W.H., Soner, H.M. (1992). Controlled Markov Processes and Viscosity
Solutions. SpringerVerlag, New York.
Fudenberg, D., Tirole, J. (1991). Game Theory. MIT Press, Cambridge, MA.
Gaidov, S.D. (1986). Paretooptimality in stochastic differential games. Problems of Control and Information Theory 15, 439450.
Gaidov, S.D. (1990). On the Nashbargaining solution in stochastic differential
games. Serdica 16, pp. 120125.
Gibbons, R. (1992). Game Theory for Applied Economists. Princeton University
Press, Princeton, NJ.
GonzalezTrejo, J.I., HernandezLerma, O., HoyosReyes, L.F. (2003). Minimax control of discretetime stochastic systems. SIAM J. Control Optim. 41,
pp. 16261659.
Guo, X.P., HernandezLerma, O. (2003a). Continuoustime controlled Markov
chains with discounted rewards. Acta Appl. Math. 79, pp. 195216.
Guo, X.P., HernandezLerma, O. (2003b). Zerosum games for continuous
time Markov chains with unbounded transition and average payoff rates.
J. Appl. Prob. 40, pp. 327345.
Guo, X.P., HernandezLerma, O. (2005). Nonzerosum games for continuous
time Markov chains with unbounded discounted payoff. J. Appl. Probab.
42, to appear.
76
Halkin, H. (1966). A maximum principle of the Pontryagin type for systems
described by nonlinear difference equations. SIAM J. Control 4, pp. 90111.
Haurie, A. (1976). A note on nonzerosum differential games with bargaining
solution. J. Optim. Theory Appl. 18, pp. 3139.
Haurie, A. (1982). Acceptable equilibria in dynamic bargaining games. Lecture
Notes in Control and Information Sciences 38, pp. 715725.
Haurie, A. (2001). A historical perspective on cooperative differential games.
In Advances in Dynamic Games and Applications, ed by E. Altman and O.
Pourtallier, Birkhauser, Boston, pp. 1929.
HernandezLerma, O. (1994). Lectures on ContinuousTime Markov Control Processes. Sociedad Matematica Mexicana, Mexico.
HernandezLerma, O., Lasserre, J.B. (1996). DiscreteTime Markov Control Processes: Basic Optimality Criteria. SpringerVerlag, New York.
HernandezLerma, O., Lasserre, J.B. (1999). Further Topics on DiscreteTime
Markov Control Processes. SpringerVerlag, New York.
HernandezLerma, O., Lasserre, J.B. (2001). Zerosum stochastic games in
Borel spaces: average payoff criteria. SIAM J. Control Optim. 39, pp. 1520
1539.
HernandezLerma, O., Romera, R. (2004a). The scalarization approach to multiobjective Markov control problems: why does it work? Appl. Math. Optim. 50, pp. 279293.
HernandezLerma, O., Romera, R. (2004b). Multiobjective Markov control processes: a linear programming approach. Morfismos 8, to appear. (This paper is an extended, more detailed, version of the paper by the same authors
(20004a).)
Isaacs, R. (1965). Differential Games. Wiley, New York.
JassoFuentes, H. (2004). Noncooperative ContinuousTime Markov Games. M.Sc.
thesis, Departamento de Matematicas, CINVESTAVIPN.
Jorgensen, S., Sorger, G. (1990). Feedback Nash equilibria in a problem of optimal fishery management. J. Optim. Theory Appl. 64, pp. 293310.
77
Jorgensen, S., Yeung, D.W.K. (1996). Stochastic differential game model of a
common property fishery. J. Optim. Theory Appl. 90 pp. 381403.
JosaFombellida, R., RinconZapatero,

J.P. (2005). A new approach to stochastic control problems and applications to economics. Submitted to J. Optim.
Theory Appl.
Kaitala, V., Hamalainen, R.P., Ruusunen, J. (1985). On the analysis of equilibria
and bargaining in a fishery game. In Feichtinger (1985), pp. 593606.
Kalai, E., Smorodinsky, M. (1975). Other solutions to Nashs bargaining problem. Econometrica 43, pp. 513518.
Kannan, D., Lakshmikantham, V., editors (2002). Handbook of Stochastic Analysis
and Applications. Dekker, New York.
Karatzas, I., Shreve, S.E. (1998). Methods of Mathematical Finance. Springer
Verlag, New York.
Kirman, A.P., Sobel, M.J. (1974). Dynamic oligopoly with inventories. Econometrica 42, pp. 279287.
Klompstra, M. (1992). Time Aspects in Games and in Optimal Control. Ph.D. Thesis, Delft University of Technology.
Krawczyk, J.B., Shimomura, K. (2003). Why countries with the same fundamentals can have different growth rates. J. Econ. Dyn. Control 27, pp.
189919916.
G.P., editors (1971). Differential Games and Related Topics.
Kuhn, H.W. Szego,
NorthHolland, Amsterdam.
Kushner, H.J. (2002). Numerical approximations for stochastic differential
games. SIAM J. Control Optim. 41, pp. 457486.
Kushner, H.J. (2004). Numerical approximations for stochastic differential
games: the ergodic case. SIAM J. Control Optim. 42, pp. 19111933.
Lancaster, K. (1973). The dynamic inefficiency of capitalism. J. Political Economy
87, pp. 10921109.
78
Leitmann, G. (1974). Cooperative and Noncooperative Many Players Differential
Games. SpringerVerlag, New York.
Le Van, C., Dana, R.A. (2003). Dynamic Programming in Economics. Kluwer,
Boston.
LuqueVasquez, F. (2002). Zerosum semiMarkov games in Borel spaces: discounted and average payoff. Bol Soc. Mat. Mexicana 8, pp. 227241.
LuqueVasquez, F., MinjarezSosa, J.A., VegaAmaya, O. (1996). Introduccion a
de
la Teora de Control Estocastico. Departamento de Matematicas, Division
Ciencias Exactas y Naturales, Universidad de Sonora.
Merton, R.C. (1969). Lifetime portfolio selection under uncertainty: the continuoustime case. Rev. Economics and Statistics 51, pp. 247257.
Nash, J. (1950a). Equilibrium points in N person games. Proc. Natl. Acad. Sci.
36, pp. 4849.
Nash, J. (1950b). The bargaining problem. Econometrica 18, pp. 155162.
Nash, J. (1951). Noncooperative games. Ann. Math. 54, pp. 286295.
Nash, J. (1953). Twoperson cooperative games. Econometrica 21, pp. 128140.
Neck, R. (1982). Dynamic systems with several decision makers. In Operations
Research in Progress, ed. by G. Feichtinger and P. Kall, Reidel, New York,
pp. 261284.
Neck, R. (1985). A differential game model of fiscal and monetary policies:
conflict and cooperation. In Feichtinger (1985), pp. 607632.
Neck, R. (1991). Noncooperative equilibrium solution for a stochastic dynamic game of economic stabilization policies. Lecture Notes in Control and
Information Sciences 157, SpringerVerlag, Berlin, pp. 221230.
Neyman, A., Sorin, S., editors (2003). Stochastic Games and Applications. Kluwer,
Dordrecht.
Nowak, A.S. (2003a). Zerosum stochastic games with Borel state spaces. In
Neyman and Sorin (2003), pp. 7791.
79
Nowak, A.S. (2003b). On a new class of nonzerosum discounted stochastic
games having stationary Nash equilibrium points. Int. J. Game Theory 32,
pp. 121132.
Nowak, A.S., Szajowski, P. (2003). On Nash equilibria in stochastic games of
capital accumulation. In Stochastic Games and Applications, Volume 9, edited
by L.A. Petrosjan and V.V. Mazalov, Nova Science, pp. 118129.
Nowak, A.S., Szajowski, K., editors (2005). Advances in Dynamic Games. (Annals
of the International Society of Dynamic Games, vol. 7) Birkhauser, Boston.
Petrosyan, L.A. (2003). Bargaining in dynamic games. In Petrosyan and Yeung
(2003), pp. 139143.
Petrosjan, L.A. (2005). Cooperative differential games. In Nowak and Szajowski (2005), pp. 183200.
Petrosjan, L.A. Zenkevich, N.A. (1996). Game Theory. World Scientific, Singapore.
Petrosyan, L.A. Yeung, D.W.K., editors (2003). ICM Millennium Lectures on
Games. SpringerVerlag, Berlin.
Pohjola, M. (1983). Nash and Stackelberg solutions in a differential game model
of capitalism. J. Economic Dynamics and Control 6, pp. 173186.
Poznyak, A.S. (2002a). Robust stochastic maximum principle: complete proof
and discussions. Math. Problems in Engineering 8, pp. 389411.
Poznyak, A.S. (2002b). Robust stochastic maximum principle: a measure space
as uncertainty set. In Lecture Notes in Control and Information Sciences 280,
pp. 385394.
PrietoRumeau, T., HernandezLerma, O. (2005a). The Laurent series, sensitive discount and Blackwell optimality for continuoustime controlled
Markov chains. Math. Methods Oper. Res. 61, pp. 123145.
PrietoRumeau, T., HernandezLerma, O. (2005b). A unified approach to continuoustime discounted Markov control processes. (Reporte Interno No.
356, CINVESTAV.) Submitted.
80
PrietoRumeau, T., HernandezLerma, O. (2005c). Bias and overtaking equilibria for zerosum continuoustime Markov games. Math. Meth. Oper.
Res., to appear.
Ramachandran, K.M. (2002). Stochastic differential games and applications. In
Kannan and Lakshmikantam (2002), Chapter 8.
Ricci, G., editor (1991). Decision Processes in Economics. Lecture Notes in Economics and Mathematical Systems 353, SpringerVerlag, Berlin.
RinconZapatero,
J.P. (2004). Characterization of Markovian equilibria in a
class of differential games. J. Econ. Dyn. Control 28, pp. 12431266.
RinconZapatero,
J.P., Martnez, J., MartnHerran, G. (1998). New method
to characterize subgame perfect Nash equilibria in differential games. J.
Optim. Theory Appl. 96, pp. 377395.
RinconZapatero,
J.P., MartnHerran, G., Martnez, J. (2000). Identification of
efficient subgame-perfect Nash equilibria in a class of differential games.
J. Optim. Theory Appl. 104, pp. 235242.
Roth, A.E. (1979). Axiomatic Models of Bargaining. SpringerVerlag, Berlin.
Roth, A.E. (1985). GameTheoretic Models of Bargaining. Cambridge University
Press, Cambridge, U.K.
Samuelson, P.A. (1969). Lifetime portfolio selection by dynamic stochastic programming. Rev. Economics and Statistics 51, pp. 239246.
Schmitendorf, W.E. (1976). Differential games without pure strategy saddle
point solutions. J. Optim. Theory Appl. 18, pp. 8192.
Sethi, S.P., Thompson, G.L. (2000). Optimal Control Theory: Applications to Management Science and Economics, 2nd Edition. Kluwer, Boston.
Shapley, L. (1953). Stochastic games. Proc. Natl. Acad. Sci. 39, pp. 10951100.
(This paper is reproduced in Neyman and Sorin (2003), pp. 17.)
Shimomura, K. (1991). The feedback equilibria of a differential game of capitalism. J. Econ. Dyn. Control 15, pp. 317338.
81
Stalford, H., Leitmann, G. (1973). Sufficiency conditions for Nash equilibrium
in Nperson differential games. In Topics in Differential Games, edited by A.
Blaqui`ere, NorthHolland, New York.
Stokey, N.L., Lucas, R.E. (1989). Recursive Methods in Economic Dynamics. Harvard University Press, Cambridge, MA.
Sundaram, R.K. (1989). Perfect equilibria in a class of symmetric dynamic
games. J. Econ. Theory 47, pp. 153177.
Tabak, D., Kuo, B.C. (1971). Optimal Control by Mathematical Programming. Prentice Hall, Englewood Cliffs, N.J.
Tolwinski, B., Haurie, A., Leitmann, G. (1986). Cooperative equilibria in differential games. J. Math. Anal. Appl. 119, pp. 182202.
Toussaint, S. (1985). The transversality condition at infinity applied to a problem of optimal resource depletion. In Feichtinger (1985), pp. 429440.
Vaisbord, E.M., Zhukovskii, V.I. (1988). Introduction to MultiPlayer Differential
Games and Their Applications. Gordon and Breach, New York.
VegaAmaya, O. (2003). Zerosum average semiMarkov games: fixedpoint
solutions of the Shapley equation. SIAM J. Control Optim. 42, pp. 1876
1894.
von Neumann, J., Morgenstern, O. (1944). The Theory of Games and Economic
Behavior. Princeton University Press, Princeton, N.J.
Wiecek, P. (2003). Convex stochastic games of capital accumulation with nondivisible money unit. Scientia Mathematicae Japonica 57 (2003), pp. 397411.
Wiecek, P. (2005). Continuous convex stochastic games of capital accumulation.
In Nowak and Szajowski (2005), pp. 111125.
Yong, J., Zhou, X.Y. (1999). Stochastic Controls: Hamiltonian Systems and HJB
Equations. SpringerVerlag, New York.
Yu, P.L., Leitmann, G. (1974). Compromise solutions, domination structures
and Salukvadzes solution. J. Optim. Theory Appl. 3, pp. 362378.
82
Zariphopoulou, T. (2002). Stochastic control methods in asset pricing. In Kannan and Lakshmikantam (2002), Chapter 12.
Zhukovskiy. V.I., Salukvadze, M.E. (1994). The VectorValued Maximin. Academic Press, Boston.

Minicurso Onesimo PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Minicurso Onesimo PDF

Cargado por

Copyright:

Formatos disponibles

EMALCA

CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

una breve introduccion

Parte 1: Problemas de control optimo

(juegos con un jugador)

3. El principio del maximo

5. Control minimax (juegos contra la naturaleza)

Parte 2: Juegos cooperativos

Parte 3: Juegos nocooperativos

10. Juegos simetricos y de suma cero

11. Juegos de Stackelberg

Por desgracia el resultado (erroneo)

Si A es una matriz, A0 = transpuesta de A.

Mercados de energeticos (gas, petroleo,

Monopolio (una unica

manda total) y de produccion.

Una multiestrategia es un vector = ( 1 , . . . , N ) donde i es una estrategia

En un juego con horizonte infinito se tendra (e.g.)

donde 0 < i < 1 es un factor de descuento.

donde s > 0 es el parametro de rapidez de ajuste del precio.

debido a sus multiples

donde xt y at son vectores que representan, respectivamente, el estado del juego

Parte 1. Problemas de control optimo

Un problema de control optimo

DEL PROBLEMA DE CONTROL OPTIMO

con T , y Wt es un proceso de Wiener. El estado inicial x0 puede ser

Figura 2.1. Un esquema de retroalimentacion.

Figura 2.2. Una estrategia de lazo abierto.

DEL PROBLEMA DE CONTROL OPTIMO

decimos que es una estrategia de retroalimentacion

Mas explcitamente, t (B) := Prob (at B) para B A(xt ). En algunos casos,

novables (e.g. agua, bosques) o norenovables (e.g. petroleo,

donde c(x, a) es el costo por etapa, y CT (x) es el costo terminal

donde 0 < < 1 es el factor de descuento.

DEL PROBLEMA DE CONTROL OPTIMO

En un PCO a tiempo continuo las sumatorias en (2.11) y (2.12) se reemplazan

Si ademas el PCO es estocastico, se debe tomar la esperanza en el lado derecho,

c(xt , at )dt + CT (xT ) .

objetivo tambien se le llama funcion

si las hay. A la funcion

y se le llama tambien la funcion

se dice que es una estrategia optima.

Ejemplo 3.5. El siguiente PCO se conoce como problema de seleccion

inicial x0 = x > 0. Una funcion

DEL PROBLEMA DE CONTROL OPTIMO

(2.19). El modelo de sistema, en lugar de (2.20), ahora resulta ser la ecuacion

objetivo que se desea optimizar es de nuevo como en

donde > 0 es el factor de descuento.

Las aplicaciones del control optimo

Para motivar la definicion

F podra depender del tiempo t.) Bajo ciertas hipotesis

Ademas, para t > s 0 tenemos

Interpretando a s como el tiempo presente y a t > s como el tiempo futuro,

DEL PROBLEMA DE CONTROL OPTIMO

bajo ciertas hipotesis

de variables aleatorias independientes, con valores

se llama la ley de transicion

Por ejemplo, supongase

dada (compare con (2.29)). Entonces x

es un PCM y su ley de transicion

de modo que x es precisamente de la forma (2.29).

donde X es el espacio de estados del PCM, A es el conjunto de acciones, Q es la ley de

DEL PROBLEMA DE CONTROL OPTIMO