Minicurso Dinámica PDF

EMALCA
CIMAT, Guanajuato
Agosto 1–12, 2005
CONTROL OPTIMO Y JUEGOS ESTOCASTICOS
Onésimo Hernández–Lerma
Departamento de Matemáticas
CINVESTAV–IPN
México, D.F.
Resumen: Estas son notas para un mini–curso (de 7.5 horas, aproximadamente)
introductorio sobre algunos aspectos de los juegos dinámicos, incluyendo juegos
determinı́sticos y estocásticos, a tiempo discreto y tiempo continuo. Se presenta
una breve introducción a problemas de control óptimo y después se ven los
principales tipos de equilibrios cooperativos y equilibrios no–cooperativos. El
curso está dirigido a estudiantes avanzados de licenciatura o principiantes de
posgrado. No es necesario que los estudiantes satisfagan ningún requisito en
particular, sólo que no se asusten si oyen frases como “ecuación diferencial”,
“variable aleatoria”, etc.
2
CONTENIDO
1. Introducción 6
Parte 1: Problemas de control óptimo (juegos con un jugador)
2. Definición del problema de control óptimo 10

Procesos de Markov
Procesos de control markovianos
3. El principio del máximo 23
4. Programación dinámica 32
5. Control minimax (juegos contra la naturaleza) 41
Parte 2: Juegos cooperativos
6. Equilibrios de Pareto 45
7. Equilibrios de compromiso 51
8. El problema de negociación de Nash 55
Parte 3: Juegos no–cooperativos
9. Equilibrios de Nash 59
10. Juegos simétricos y de suma cero 65
11. Juegos de Stackelberg 70
Referencias 73
3
Observaciones sobre la bibliografı́a
La literatura sobre juegos estáticos es extensı́sima, pero para juegos dinámi-

cos está limitada a artı́culos sobre casos especiales y a un puñado de libros, como
los siguientes.
• Para juegos diferenciales (determinı́sticos) una buena referencia es el libro de

Dockner et al. (2000). Algunos libros clásicos en este tema son los de Isaacs
(1965) y Leitmann (1974), aunque el primero sólo trata juegos de suma cero.
• El libro de Basar y Olsder (1999) sólo considera equilibrios no–cooperativos,

pero tiene la “ventaja” de que estudia algunos tipos de juegos diferenciales tanto
determinı́sticos como estocásticos y, además, juegos a tiempo discreto. La “desven-
taja” es que el material y su presentación son un tanto arcaicos, porque el libro
se escribió originalmente en 1982 y entre esa fecha y la de la segunda edición, en
1999, han habido muchos nuevos desarrollos.
• El libro de Filar y Vrieze (1997) estudia juegos estocásticos a tiempo discreto,

con espacio de estados finito.
Por supuesto, algunos textos de teorı́a de juegos incluyen “algo” sobre juegos
dinámicos, por ejemplo, Fudenberg y Tirole (1991), Gibbons (1992), Petrosjan y
Zenkevich (1996).
Advertencia
Un concepto fundamental en teorı́a de juegos es el de equilibrio de Nash,

también conocido como equilibrio no–cooperativo, introducido por John Nash
(1950). Para juegos dinámicos, la existencia de tales equilibrios se conoce en
una variedad de casos especiales, pero para juegos con espacio de estados no–
numerable sigue siendo un problema abierto. Lamentablemente, hay publica-
ciones que aseguran la existencia de equilibrios de Nash pero cuyas demostra-
ciones son incorrectas. Ejemplos de estas publicaciones, para juegos a tiempo
discreto, son los artı́culos:
• Lai, H.–C. Tanaka, K. (1984). On an N–person noncooperative Markov

game with a metric state space. J. Math. Anal. Appl. 101, pp. 78–96.
4
• Sobel, M.J. (1973). Continuous stochastic games. J. Appl. Prob. 10, pp.
597–604.
Para juegos a tiempo continuo:
• Borkar, V.S., Ghosh, M.K. (1992). Stochastic differential games: an occu-

pation measure based approach. J. Optim. Theory Appl. 73, pp. 359–385;
correction: ibid, 88 (1996), pp. 251–252.
Por desgracia el resultado (erróneo) en este último artı́culo se ha reproducido en

trabajos posteriores, por ejemplo:
• Ramachandran, K.M. (2002). Stochastic differential games and applica-

tions. Chapter 8 in Handbook of Stochastic Analysis and Applications, ed. by
D. Kannan and V. Lakshmikantan, Marcel Dekker, New York.
Los equilibrios de Nash están entre los muchı́simos conceptos que son tri-
viales de analizar para juegos estáticos o juegos repetidos, pero que para juegos
dinámicos (con espacio de estados no–numerable) han permanecido casi “into-
cables” hasta la fecha.
5
Indice de notación
– Si A es una matriz, A0 = transpuesta de A.
– Los vectores se escribirán como matrices columna:

x = (x1 , . . . , xn )0 .
– Si x, y son vectores, x ≤ y significa que

xi ≤ yi para todo i.
– El producto escalar de vectores x, y se escribe x · y ó x0 y.
– Dada una función real f : IRn → IR y un vector

x = (x1 , . . . , xn )0 , las derivadas parciales se denotarán con subı́ndices:
fxi = ∂f /∂xi .
fx (vector fila) denota el gradiente de f , y fxx la matriz de segundas deri-

vadas parciales (la matriz Hessiana), es decir,
fx = (fx1 , . . . , fxn ),
fxx = (fxi xj ).
Si f : IRn → IRk es una función vectorial, fx = (∂fi /∂xj ) denota la matriz

Jacobiana.
6
1 Introducción
En esta sección se presentan algunos ejemplos que servirán para motivar e ilus-
trar algunos de los conceptos que se introducirán en secciones posteriores.
Ejemplo 1.1: Oligopolios
Oligopolio: Mercado con pocos vendedores (también llamados productores o

firmas) y muchos compradores.
Ejemplos de oligopolios:
• Servicios de transporte (autobuses, aerolı́neas, ...)
• Mercados de energéticos (gas, petróleo, electricidad, ...)
• Bebidas (refrescos, cerveza, ...), etc.
El hecho de que haya pocos vendedores implica que las acciones de cua-
lesquiera de ellos afecta el precio del producto y, por lo tanto, tiene un impacto
medible sobre los competidores.
Casos especiales:
• Duopolio: El duopolio de Cournot (1838) fue la primera aplicación de
teorı́a de juegos a economı́a.
• Monopolio (una única firma): en este caso el “juego” se reduce a un pro-
blema de control óptimo que se estudia en el contexto de sistemas de pro-
ducción. 2
Ejemplo 1.2. Un oligopolio a tiempo discreto, N firmas, [Kirman, Sobel (1974)].

En cada tiempo t = 0, 1, . . . tenemos:
• Estado del juego: xt = (x1t , . . . , xN
t ), donde
xit := nivel de inventario de la firma i (i = 1, . . . , N ) al inicio del periodo t.

• Acción de control de la firma i : ait = (zti , ρit ) donde
zti := cantidad que decide producir en el periodo t,
ρit := precio que anuncia.

1. INTRODUCCIÓN 7
• Demanda dit del producto de la firma i. La demanda puede ser deter-

minı́stica, estocástica o incierta.
• Modelo dinámico del juego: el estado xt = (x1t , . . . , xN

t ) satisface
xt+1 = xt + zt − dt ∀ t = 0, 1, . . . . (1.1)
• Ganancia neta de la firma i : rti (xit , ait , dit ). Por ejemplo, si yti := xit + zti ,
entonces
rti (· · · ) = ρit dit − hi · (yti − dit )+ − bi · (dit − yti )+ − ci zti , (1.2)
donde hi , bi , ci son constantes dadas que representan, respectivamente, cos-

tos unitarios de almacenamiento, de penalización (por no satisfacer la de-
manda total) y de producción.
Una estrategia del jugador i es una regla, digamos π i = {πti , t = 0, 1, . . .},

que en cada tiempo t le dice al jugador que acción tomar, digamos, ait = (zti , ρit ).
πti
Información −→ Acciones ait
Una multiestrategia es un vector π = (π 1 , . . . , π N ) donde π i es una estrategia

del jugador i.
Sea Vi (π, x0 ) la ganancia neta total del jugador i, dado que las firmas usan la
multiestrategia π = (π 1 , . . . , π N ) y los inventarios iniciales son x0 = (x10 , . . . , xN0 ).
Por ejemplo, en un juego con horizonte finito T ,
"T −1 #
V (π, x ) := E π
X
i 0 x0 ri (xi , ai , di ) + ri (xi ) .
t t t t T T (1.3)
t=0
En un juego con horizonte infinito se tendrı́a (e.g.)

"∞ #
V (π, x ) := E π
X
i 0αt ri (xi , ai , di )
x0 i t t t t (1.4)
t=0
donde 0 < αi < 1 es un “factor de descuento”.

8
• En principio, cada jugador o firma desea “maximizar” su ganancia neta.
Sin embargo, la regla es que no existen multiestrategias que satisfagan tal condi-
ción. Por tal motivo, en teorı́a de juegos se habla de equilibrios en lugar de
multiestrategias “óptimas”.
• En el caso estocástico, el oligopolio anterior es un caso especial de cier-
tos juegos a tiempo discreto conocidos como juegos estocásticos o juegos
markovianos, introducidos por Shapley (1953). 2
Ejemplo 1.3. Un duopolio a tiempo continuo con “sticky prices” [Dockner et

al. (2000)]
• N = 2 firmas; el producto es homogéneo.
• Para i = 1, 2, ai (t) ≥ 0 es la tasa de producción de la firma i.
• El precio de mercado (del producto) varı́a de acuerdo con la función de

demanda α − [a1 (t) + a2 (t)], donde α > 0 es una constante.
• El precio es pegajoso, lo cual significa que el precio de mercado no se ajusta

instantaneamente al precio indicado por la función de demanda; de hecho,
la tasa de cambio del precio p(t) es
ṗ(t) = s{α − [a1 (t) + a2 (t)] − p(t)} para t > 0, p(0) = p0 , (1.5)
donde s > 0 es el parámetro de rapidez de ajuste del precio.
• La función de costo de producción es la misma para ambas firmas:

1
C(ai ) := c ai + a2i , con 0 < c < α constante.
2
• Dada una multiestrategia π = (a1 (·), a2 (·)) la función objetivo de la firma

i (i = 1, 2) es
Z ∞
1
Vi (π) := e−rt [p(t)ai (t) − c ai (t) − a2i (t)]dt, (1.6)
0 2
donde r > 0 es el factor de descuento. Cada firma desea maximizar su
función objetivo (1.6) sujeta a (1.5) y ai (·) ≥ 0. 2
1. INTRODUCCIÓN 9
Ejemplo 1.4: Juegos LQ. El juego (1.5)–(1.6) es un ejemplo de juego LQ, del
inglés: Linear system, Quadratic cost. Este tipo de juegos es muy importante
debido a sus múltiples aplicaciones y, sobre todo, porque en muchos casos se
pueden resolver explı́citamente.
En general, en un juego LQ a tiempo discreto el estado evoluciona de acuerdo

a una ecuación de la forma
xt+1 = At xt + Bt at + ξt para t = 0, 1, . . . (1.7)
donde xt y at son vectores que representan, respectivamente, el estado del juego

y el vector de acciones de los jugadores, y los coeficientes At y Bt son matrices
de dimensiones adecuadas. El vector ξt en (1.7) representa “perturbaciones”, ya
sean determinı́sticas o estocásticas. Asimismo, en el caso LQ la función rti en
(1.3) ó (1.4) resulta ser cuadrática en el estado xt y cuadrática en el vector at de
acciones de control, digamos (escribiendo y 0 por la transpuesta de una matriz o
vector y),
cit (xt , at ) = x0t Qit xt + a0t Rti at (1.8)
donde Qit es una matriz simétrica y definida no–negativa, y Rti es simétrica y
definida positiva. La función “terminal” rTi en (1.3) también es cuadrática, di-
gamos rTi (xT ) = x0T STi xT , con STi matriz simétrica definida no–negativa.
10
Parte 1. Problemas de control óptimo
2 Definición del problema de control óptimo

Un problema de control óptimo (PCO) es un juego dinámico con un jugador. En
particular, los Ejemplos 1.2 y 1.3 con N = 1 se reducen a PCOs.
En un PCO debemos especificar:
1. cómo evoluciona el sistema de interés; es decir, se debe especificar el modelo

dinámico del sistema;
2. cómo se va a controlar el sistema; es decir, se debe especificar el conjunto de

estrategias admisibles, también llamadas polı́ticas de control o simplemente
polı́ticas o estrategias;
3. restricciones adicionales (por ejemplo, en el estado del sistema o en las estrate-

gias), si es necesario hacerlas;
4. cómo se va a “medir” la respuesta del sistema a cada una de las distintas es-
trategias admisibles; es decir, se debe especificar la función objetivo, también
llamada ı́ndice de funcionamiento.
Dadas estas cuatro componentes, el PCO se puede resumir como sigue: optimizar
la función objetivo sujeta a las restricciones en 1, 2 y 3.
En esta sección describiremos las componentes 1 a 4 de un PCO.
Definición 2.1: El modelo dinámico. Los modelos más comunes (aunque no los
únicos) son los siguientes.
Sistemas a tiempo discreto:
xt+1 = F (xt , at , ξt ) para t = 0, 1, . . . , T, (2.1)
con condición inicial x0 = x, donde T ≤ ∞ es el horizonte del problema, y las

ξt son “perturbaciones”. Dependiendo de las ξt , se dice que (2.1) representa un
• sistema estocástico si las ξt son variables aleatorias;

2. DEFINICIÓN DEL PROBLEMA DE CONTROL ÓPTIMO 11
• sistema determinı́stico si las ξt forman una sucesión de constantes con

valores conocidos;
• sistema incierto si se sabe que las ξt son constantes con valores en algún
conjunto dado, pero no se conoce el valor particular de cada ξt .
En todo caso (incluyendo los modelos a tiempo continuo que veremos a con-
tinuación), el conjunto en donde toman sus valores las variables xt se llama el
espacio de estados del PCO y lo denotaremos por X. Para fijar ideas supon-
dremos que X es un subconjunto cerrado de IRd para algún entero d ≥ 1. (Más
generalmente, basta suponer que X es un espacio de Borel, es decir, un subcon-
junto de Borel de un espacio métrico separable y completo.)
Sistemas a tiempo continuo:

• Caso determinı́stico:
ẋt = F (t, xt , at ) para 0 ≤ t ≤ T, (2.2)
con T ≤ ∞ y condición inicial dada x0 = x.
• Caso estocástico: este caso admite una gran diversidad de modelos. El

más estudiado es el de una ecuación diferencial estocástica
dxt = F (t, xt , at )dt + σ(t, xt , at )dWt , 0 ≤ t ≤ T, x0 = x, (2.3)
con T ≤ ∞, y Wt es un proceso de Wiener. El estado inicial x0 puede ser

determinı́stico o estocástico. Otros modelos estocásticos a tiempo continuo
son las cadenas de Markov, los procesos de Lévy, los procesos hı́bridos (e.g., el
sistema (2.3) pero, además, con una componente de saltos),...
Definición 2.2: Estrategias admisibles. Una estrategia de control, digamos π =

{at }, generalmente se especifica imponiendo restricciones
(a) en las acciones de control at directamente, y/o
(b) en la información que puede o debe usar el controlador en cada tiempo t.

Por ejemplo, en (a), un caso muy común es pedir
at ∈ A(xt ) ∀ t, (2.4)
12
donde A(x) es el conjunto de acciones factibles cuando el estado es x.
Con respecto a (b), un caso muy general es el de una estrategia no–anticipan-

te, también conocida como estrategia con memoria (memory strategy), en la
que, en cada tiempo t, la acción at depende de “toda la historia del proceso
hasta el tiempo t”. Por ejemplo, en un PCO a tiempo discreto tenemos
at = g(t, x0 , . . . , xt , a0 , . . . , at−1 ),
donde g es una función dada. El otro extremo es cuando g depende de t única-
mente,
a x
- sistema -
controlador
Figura 2.1. Un esquema de retroalimentación.
t at
- controlador -
Figura 2.2. Una estrategia de lazo abierto.
es decir,
at = g(t) ∀ t, (2.5)
en cuyo caso se dice que π es una estrategia de lazo abierto (open loop). Si g
depende sólo de t y xt , es decir,
at = g(t, xt ) ∀ t, (2.6)
decimos que π es una estrategia de retroalimentación (feedback), también lla-

mada estrategia de lazo cerrado (closed loop) o estrategia markoviana. Si ade-
más g no depende de t, i.e.
at = g(xt ) ∀ t, (2.7)
entonces π es una estrategia markoviana estacionaria.
Las estrategias mencionadas se dice que son determinı́sticas, y generalmente

son “suficientes” para estudiar problemas de control. Sin embargo, en algunos
problemas de control con restricciones o en problemas de juegos es indispensa-
ble usar estrategias aleatorizadas, también conocidas como estrategias mixtas
o controles relajados (relaxed controls), en las que cada acción de control at es
una variable aleatoria con una distribución de probabilidad φt concentrada en
el conjunto A(xt ) en (2.4), lo cual denotamos como
at ∼ φt (·). (2.8)
Más explı́citamente, φt (B) := Prob (at ∈ B) para B ⊂ A(xt ). En algunos casos,

la distribución φt depende no sólo del tiempo t sino también del estado xt . En
este caso escribimos
at ∼ φt (·|xt ) ∀ t. (2.9)
Las estrategias en (2.8) y (2.9) son la versión aleatorizada (o “relajada”) de las
estrategias de lazo abierto y de lazo cerrado en (2.5) y (2.6), respectivamente.
Para cada estado x ∈ X, el conjunto de acciones factibles A(x) en (2.4) es un

subconjunto cerrado de un espacio A que se llama el espacio de acciones. A
menos que se especifique lo contrario, supondremos que A es un subconjunto
cerrado de IRm para algún m ≥ 1. (Más generalmente, basta suponer que A es
un espacio de Borel.)
Definición 2.3. Restricciones adicionales. Estas restricciones pueden depender

de la naturaleza del PCO. Por ejemplo, en un problema de control de pobla-
ciones (e.g. pesquerı́as, epidemias, etc.) el estado xt del sistema es el tamaño
de la población al tiempo t, y obviamente se debe pedir una condición de no–
negatividad,
xt ≥ 0 ∀ t.
Esta misma restricción se debe cumplir en problemas de control de recursos re-
novables (e.g. agua, bosques) o no–renovables (e.g. petróleo, minerales), o en
14
problemas financieros en los que el estado es un capital. En otras situaciones se

puede requerir que el estado terminal xT pertenezca a un cierto conjunto K, i.e.
xT ∈ K.
Otro caso muy común es cuando se desea optimizar una cierta función obje-
tivo, digamos V0 (π), sobre todas las estrategias π para las que
Vi (π) ≤ bi ∀ i = 1, . . . , n, (2.10)
donde las Vi (·) son funciones dadas y las bi son constantes. Por ejemplo, en un
problema de control de producción, tı́picamente se desea maximizar la ganan-
cia neta V0 (π) sujeta a que ciertos costos Vi (π) (e.g. costos de manufactura, de
almacenamiento, de distribución, etc.) están acotados por arriba, como en (2.10).
Definición 2.4. La función objetivo o ı́ndice de funcionamiento. Para un PCO

determinı́stico a tiempo discreto, ejemplos tı́picos de función objetivo son: para
cada estrategia π = {at } y cada estado inicial x0 = x,
• costo total con horizonte finito T :

T −1
X
V (π, x) := c(xt , at ) + CT (xT ), (2.11)
t=0
donde c(x, a) es el costo por etapa, y CT (x) es el costo terminal
• costo total descontado con horizonte infinito:

∞
X
V (π, x) := αt c(xt , at ), (2.12)
t=0
donde 0 < α < 1 es el factor de descuento.
En un PCO estocástico a tiempo discreto se debe tomar la esperanza en el

lado derecho de (2.11) y (2.12); por ejemplo, en lugar de (2.11) tendrı́amos
"T −1 #
X
V (π, x) := E c(xt , at ) + CT (xT ) . (2.13)
t=0
En un PCO a tiempo continuo las sumatorias en (2.11) y (2.12) se reemplazan

por integrales. Por ejemplo, en el caso de horizonte finito
Z T
V (π, x) := c(xt , at )dt + CT (xT ). (2.14)
0
Si además el PCO es estocástico, se debe tomar la esperanza en el lado derecho,

i.e. Z T
V (π, x) = E c(xt , at )dt + CT (xT ) . (2.15)
0
En teorı́a de juegos, a una función objetivo también se le llama función de
pago (payoff function).
Finalmente, como ya mencionamos al principio de esta sección, en un PCO

se especifican la función objetivo V (π, x) (alguna de las funciones (2.11) a (2.15))
y el conjunto, digamos Π, de estrategias admisibles y entonces el PCO consiste
en optimizar (ya sea minimizar o maximizar) V (π, x) sobre todas las estrategias
π ∈ Π para las que el proceso de estados {xt } sigue el modelo dinámico corres-
pondiente (e.g. (2.1) a (2.3)) y satisface las restricciones adicionales (e.g. (2.10)),
si las hay. A la función
V ∗ (x) := inf V (π, x) ∀ x ∈ X, (2.16)
π∈Π
se le llama la función de valor del PCO. En el caso de “costos”, como en (2.11)–

(2.15), a V ∗ (x) también se le llama función de costo mı́nimo. Si en lugar de
costos tenemos “ganancias” o “utilidades” que se desean maximizar, entonces
en lugar de (2.16) la función de valor es
V ∗ (x) := sup V (π, x) (2.17)
π∈Π
y se le llama también la función de ganancia (o de utilidad) máxima.
En todo caso, si existe una estrategia π ∗ ∈ Π tal que

V ∗ (x) = V (π ∗ , x) ∀ x ∈ X, (2.18)
se dice que π ∗ es una estrategia óptima.
Ejemplo 3.5. El siguiente PCO se conoce como problema de selección de porta-

folio (de inversión) o como problema de inversión y consumo, y se puede
16
plantear a tiempo discreto o a tiempo continuo.
Tiempo discreto. Considérese un mercado financiero con dos tipos de ac-

tivos:
• un activo libre de riesgos (e.g. algún tipo de bonos o CETES = Certificados
de la Tesorerı́a) con una tasa fija de interés r > 0, y
• un activo con riesgo (e.g. algún tipo de acciones) con una tasa aleatoria de
interés ξt ≥ 0. Obviamente, pedimos que E(ξt ) > r.
La variable de estado es el capital xt de un cierto inversionista, que en cada
tiempo t (t = 0, 1, . . . , T ≤ ∞) debe decidir cuanto consumir y cuanto invertir.
Entonces las acciones de control son
at = (ct , pt ) ∈ [0, xt ] × [0, 1], (2.19)
donde
• ct := cantidad que el inversionista decide consumir,
• pt := fracción de xt − ct que decide invertir en el activo con riesgo, de modo
que 1 − pt es la fracción de xt − ct que invertirá en el activo sin riesgo.
El conjunto A(x) := [0, x] × [0, 1] en (2.19) es el conjunto de “acciones factibles”,
como en (2.4).
El modelo dinámico del sistema es

xt+1 = [(1 − pt )(1 + r) + pt ξt ](xt − ct ) ∀ t = 0, 1, . . . (2.20)
con condición inicial x0 = x > 0. Una función objetivo tı́pica es una “utilidad de
consumo” " T #
X
V (π, x) := Exπ αt U (ct ) (2.21)
t=0
donde T ≤ ∞, α ∈ (0, 1) es el factor de descuento, y U (c) es una función de
utilidad. El PCO consiste en maximizar la función en (2.21) sobre todas las es-
trategias π = {at } con at como en (2.19), bajo la “restricción” (2.20).
Tiempo continuo. En este caso el precio b(t) del activo sin riesgo (el bono,
digamos) varı́a de acuerdo a una ecuación diferencial ordinaria
db(t) = rb(t)dt.
con r > 0, mientras que el precio s(t) del activo con riesgo (el “stock”) está dado
por una ecuación diferencial estocástica
ds(t) = s(t)[mdt + σdw(t)],
donde m > r y σ > 0 son constantes, y w(·) es un proceso de Wiener estándar.

Las acciones de control a(t) = (c(t), p(t)) tienen la misma interpretación que en
(2.19). El modelo de sistema, en lugar de (2.20), ahora resulta ser la ecuación
diferencial estocástica.
dx(t) = (1 − p(t))x(t)r dt + p(t)x(t)[m dt + σdw(t)] − c(t)dt, (2.22)
con x(0) = x > 0. Los tres términos en el lado derecho de (2.22) corresponden,
respectivamente, a la ganancia por el capital invertido en el bono, la ganancia
por la inversión en el stock, y la disminución del capital debida al consumo.
Por último, la función objetivo que se desea optimizar es de nuevo como en

(2.21), pero en “tiempo continuo”, i.e.
Z T
−ρt
V (π, x) := Exπ e U (c(t))dt , (2.23)
0
donde ρ > 0 es el factor de descuento.
Nótese que en (2.20) necesariamente se tiene xt ≥ 0 para todo t, si x0 = x > 0,

mientras que en (2.22) la condición de no–negatividad no es evidente (por las
propiedades del proceso w(·)); se debe imponer la condicional adicional x(t) ≥ 0.
Otra forma de asegurar la condición de no–negatividad consiste en sustituir el
tiempo terminal T en (2.23) por el tiempo aleatorio
τ := min{T, τ0 },
donde τ0 := inf{t ≥ 0 | x(t) = 0} es el primer tiempo en el que el proceso x(·)

llega a cero.
Las aplicaciones del control óptimo a problemas de finanzas se iniciaron con

los trabajos de Samuelson (1969) y Merton (1969) para problemas a tiempo dis-
creto y tiempo continuo, respectivamente. Actualmente, dichas aplicaciones son
18
material estándar; ver e.g. Fleming y Rishel (1975), Fleming y Soner (1992), Sethi
y Thompson (2000), Karatzas y Shreve (1998), Zariphopoulou (2002).
Procesos de Markov
Para motivar la definición de “proceso de Markov”, considérese la ecuación

diferencial ordinaria, en IRn ,
ẋ(t) = F (x(t)) ∀ t ≥ 0, con x(0) = x0 . (2.24)
(La función F podrı́a depender del tiempo t.) Bajo ciertas hipótesis sobre F , esta
ecuación tiene una solución única
Z s
x(s) = x0 + F (x(r))dr ∀ s ≥ 0.
0
Además, para t > s ≥ 0 tenemos

Z t
x(t) = x(s) + F (x(r))dr. (2.25)
s
Interpretando a s como el “tiempo presente” y a t > s como el “tiempo futuro”,

la ecuación (2.25) dice que el estado presente x(s) determina el futuro x(t); o bien,
que dado el estado presente x(s), el futuro x(t) es independiente del pasado x(r), para
r < s. Por este motivo se dice que (2.25) es una condición de causalidad (el
presente determina el futuro); también se dice que el sistema determinı́stico x(·)
no tiene memoria o que satisface la condición de Markov (también llamada
propiedad de Markov).
Para procesos estocásticos la condición de Markov se expresa de manera si-

milar a (2.25). Por ejemplo, si x• = {xt , t ≥ 0} es un proceso estocástico a tiempo
continuo, con valores en algún espacio de estados X, se dice que x• satisface la
condición de Markov o que x• es un proceso de Markov si para todo conjunto
B ⊂ X y tiempos t ≥ s ≥ 0 se tiene
P(xt ∈ B | xr ∀ 0 ≤ r ≤ s) = P(xt ∈ B | xs ). (2.26)
En particular, comparando esta expresión con (2.25) vemos que el sistema deter-
minı́stico x(·) es un proceso de Markov. Los procesos de Markov incluyen las
soluciones de ecuaciones diferenciales estocásticas
dxt = F (xt )dt + σ(xt )dWt , (2.27)
bajo ciertas hipótesis sobre los coeficientes F y σ, los cuales pueden depender
también del tiempo t, no sólo del estado xt (vea (2.3)). Otros ejemplos son las
cadenas de Markov (cuyo espacio de estados es un conjunto numerable), los
procesos de Lévy, ...
Para un proceso estocástico a tiempo discreto, x• = {xt , t = 0, 1, . . .} con

espacio de estados X, la propiedad de Markov se puede escribir como:
P(xt+1 ∈ B | x0 , . . . , xt ) = P(xt+1 ∈ B | xt ) (2.28)
para todo t = 0, 1, . . . y B ⊂ X. Esta es una probabilidad de transición en un

paso, de t a t + 1, pero se puede demostrar que es equivalente a una condición en
k pasos, de t a t + k, para k = 1, 2, . . .
Un proceso de Markov a tiempo discreto también se conoce como cadena de

Markov.
En muchı́simas aplicaciones, una cadena de Markov x• = {xt , t = 0, 1, . . .} se

define mediante una ecuación de diferencias
xt+1 = F (xt , ξt ) ∀ t = 0, 1, . . . ; x0 dado, (2.29)
donde {ξt } es una sucesión de variables aleatorias independientes, con valores

en algún conjunto S, e independientes del estado inicial x0 , y F : X × S → X
es una función dada. Por ejemplo, un proceso muy común es el proceso autore-
gresivo de primer orden definido por
xt+1 = G(xt ) + ξt , (2.30)
también conocido como proceso con “ruido aditivo”. Un caso especial son los
sistemas lineales
xt+1 = Γxt + ξt
con X = S = IRn y Γ una matriz cuadrada de orden n.
Procesos de control markovianos: tiempo discreto
Sea x• = {xt , t = 0, 1, . . .} un proceso controlado con valores es un espacio

X. Por analogı́a con la propiedad de Markov (2.28), se dice que x• es un proceso
de control markoviano (PCM) si para cualquier estrategia π = {at , t = 0, 1, . . .}
20
y cualquier t = 0, 1, . . . , la distribución de x• en el tiempo t + 1, dada toda la

“historia del proceso hasta el tiempo t” depende sólo del estado y la acción en el
tiempo t, es decir
Prob(xt+1 ∈ B | x0 , a0 , . . . , xt , at ) = Prob(xt+1 ∈ B | xt , at )
=: Q(B|xt , at ) (2.31)
para todo B ⊂ X. La función Q en (2.31), i.e.
Q(B|x, a) := Prob(xt+1 ∈ B | xt = x, at = a) (2.32)
se llama la ley de transición del PCM.
Por ejemplo, supóngase que tenemos variables aleatorias i.i.d. ξt como en

(2.29), e independientes de x0 . Para cualquier estrategia dada π = {at }, defini-
mos el proceso xπ• = {xt } como
xt+1 = G(xt , at , ξt ) ∀ t = 0, 1, . . . ; x0 dado, (2.33)
donde G : X × A × S → X es una función dada (compare con (2.29)). Entonces x•

es un PCM y su ley de transición Q se puede calcular mediante la distribución
común de las vv.aa. ξt . Nótese también que si π es una estrategia markoviana (por
ejemplo como en (2.6) ó (2.7)), entonces x• es una cadena de Markov. En efecto, si
at = g(xt ) para todo t = 0, 1, . . ., entonces (2.33) resulta
xt+1 = G(xt , g(xt ), ξt ) ∀ t = 0, 1, . . . , (2.34)
de modo que x• es precisamente de la forma (2.29).
Observe que el sistema lineal (1.7) y el modelo de inversión y consumo (2.20)

son ambos PCMs, porque son de la forma (2.33).
Un hecho muy importante es que un PCM se puede describir de manera

concisa mediante un modelo de control (MC) markoviano
M C := (X, A, Q, c), (2.35)
donde X es el espacio de estados del PCM, A es el conjunto de acciones, Q es la ley de

transición (en (2.32)), y c : X × A → IR es la función de costo por etapa que se usa
para definir la función objetivo de interés, como en (2.11)–(2.13). Algunas veces
es necesario añadir componentes al modelo de control. Por ejemplo, si conside-

ramos un costo terminal CT (x) como es (2.13), quizás convendrı́a reescribir (2.35)
como
M C = (X, A, Q, c, CT ).
Si además hay restricciones en los controles como en (2.4), entonces escribirı́a-
mos
M C = (X, A, {A(x)|x ∈ X}, Q, c, CT ).
En fin, el modelo de control markoviano se puede adaptar a cada problema par-
ticular que se esté analizando.
Procesos de control markovianos: tiempo continuo
Sea x• = {xt , 0 ≤ t ≤ T } un proceso controlado, el cual depende por supuesto

de la estrategia particular π = {at , 0 ≤ t ≤ T } que se esté usando. Decimos que
x• es un proceso de control markoviano (PCM) a tiempo continuo si cuando π
es una estrategia markoviana, el proceso x• resulta ser proceso de Markov. (Esta
definición es una extensión de la idea que usamos en (2.3.4).)
Un PCM a tiempo continuo también se puede representar mediante un mo-

delo de control (MC) markoviano, pero el asunto es un poco más complicado
que a tiempo discreto porque, en lugar de la ley de transición Q en (2.35), debe-
mos especificar el generador infinitesimal La (a ∈ A) del PCM, es decir, en
lugar de (2.35) ahora tenemos
M C = (X, A, La , c), (2.36)
donde La es un operador definido sobre algún conjunto adecuado de funciones.
Por ejemplo, el sistema determinı́stico (2.2) es un PCM porque si π = {at } es

una estrategia markoviana, digamos at = g(t, xt ), entonces (2.2) se reduce a una
ecuación diferencial ordinaria
ẋt = F (t, xt , g(t, xt )) ≡ G(t, xt ).
En este caso el generador infinitesimal asociado a (2.2) es el operador
La v(x) := F (t, x, a) · vx (2.37)

22
definido para cierta subfamilia de funciones v(x) de clase C 1 .
Análogamente, la ecuación diferencial estocástica (2.3) también define un

PCM — bajo hipótesis adecuadas sobre F (t, x, a), σ(t, x, a) y at — y el gene-
rador La resulta ser
1
La v(x) := F (t, x, a) · vx + T r[D(t, x, a)vxx ], (2.38)
2
donde D := σσ 0 , vxx es la matriz hessiana de v, y T r(B) := i bii es la traza de
P
una matriz B = (bij ). Explı́citamente,
!
X X
T r(Dvxx ) = σik σkj vxi xj (2.39)
i,j k
cuando el coeficiente σ en (2.3) es una matriz, digamos σ = (σij ). Por supuesto,

en el caso escalar (2.39) se reduce a σ 2 · ∂ 2 v/∂x2 .
Nota bibliográfica. Para problemas de control a tiempo discreto el lector puede

consultar (por ejemplo): Arkin y Evstigneev (1987), Bertsekas (1987, 2000),
Hernández–Lerma y Lasserre (1996, 1999), Stokey y Lucas (1989). Para proble-
mas a tiempo continuo: Fleming y Rishel (1975), Fleming y Soner (1992),
Hernández–Lerma (1994), Sethi y Thompson (2000), Yong y Zhou (1999).
3. EL PRINCIPIO DEL MÁXIMO 23
3 El principio del máximo

Hay varias técnicas generales para estudiar PCOs como son el análisis convexo
y la programación lineal (usualmente en espacios vectoriales de dimensión in-
finita). Sin embargo, por razones computacionales, en la mayorı́a de las aplica-
ciones las técnicas más usadas son el principio del máximo (que algunos autores
llaman el principio de Pontryagin) y la programación dinámica. En esta sección
veremos brevemente la primera de estas técnicas; la segunda se estudia en la
siguiente sección.
Para simplificar la exposición sólo consideraremos problemas determinı́sti-

cos con horizonte finito, a tiempo discreto y a tiempo continuo. Al final de la
sección se mencionan algunas referencias sobre problemas estocásticos.
Problemas a tiempo discreto.
Considérese el PCO determinı́stico con espacio de estados X = IRn , espacio

de acciones A = IRm , y modelo dinámico
xt+1 = F (t, xt , at ) ∀ t = 0, 1, . . . , T − 1 (3.1)
con estado inicial x0 = x. La función objetivo que se desea minimizar es el costo
total
T −1
X
V (π, x) := L(t, xt , at ) + C(xT ), (3.2)
t=0
sobre el conjunto de estrategias π = {at }.
A grandes rasgos, la idea del principio del máximo consiste en usar el mé-
todo de multiplicadores de Lagrange para minimizar (3.2) sujeto a la “restricción”
(3.1). Para este fin, primero expresamos (3.1) en la forma
xt+1 − F (t, xt , at ) = 0 ∀ t = 0, 1, . . . , T − 1.
Después introducimos “multiplicadores de Lagrange” p0 , p1 , . . . , pT en IRn , a los
que llamaremos vectores adjuntos (también llamados vectores de co–estado), y
definimos el “lagrangiano”
T −1
X
Ṽ (π, x, p• ) := V (π, x) + pt+1 · [xt+1 − F (t, xt , at )], (3.3)
t=0
24
donde p• = {p0 , . . . , pT }. Por lo tanto, sustituyendo (3.2) en (3.3) y usando el

hamiltoniano, definido para cada t = 0, 1, . . . , T − 1 como
H(t, xt , at , pt+1 ) := pt+1 · F (t, xt , at ) − L(t, xt , at ), (3.4)
un poco de álgebra elemental nos permite reescribir (3.3) como
T −1
X
Ṽ (π, x, p• ) = [pt · xt − H(t, xt , at , pt+1 )] + C(xT ) + pT · xT − p0 · x0 .
t=0
Finalmente, bajo la siguiente hipótesis y usando resultados de optimización no–

lineal se obtiene el Teorema 3.2 (cuya demostración se puede ver en Halkin
(1966), Tabak y Kuo (1971) o Sethi y Thompson (2000)).
Hipótesis 3.1.
(a) Para cada t = 0, 1, . . . , T − 1, las funciones de costo L(t, x, a) y C(x) son de

clase C 1 en x y a;
(b) Para cada t = 0, 1, . . . , T − 1 y a ∈ A, la función F (t, x, a) es de clase C 1 en x;
(c) Para cada t = 0, 1, . . . , T − 1 y x ∈ IRn , el conjunto {F (t, x, a) : a ∈ A} es

convexo.
Teorema 3.2. (El principio del máximo — caso determinı́stico, tiempo discreto).
Suponga que se cumple la Hipótesis 3.1. Supóngase también que existe una
estrategia óptima a∗• = {a∗t , t = 0, . . . , T − 1} para el PCO (3.1)–(3.2), y sea
x∗• = {x∗t , t = 0, . . . , T } la trayectoria correspondiente que se obtiene de (3.1)
con estado inicial x∗0 = x0 . Entonces existe un conjunto p• = {p0 , . . . , pT } de
vectores adjuntos que satisfacen la ecuación adjunta
pt = Hx (t, x∗t , a∗t , pt+1 ) ∀ t = 0, . . . , T − 1, (3.5)
i.e.
pt = Fx (t, x∗t , a∗t )0 pt+1 − Lx (t, x∗t , a∗t ),
con la condición terminal
pT = Cx (x∗T ), (3.6)
y la maximización del hamiltoniano:
H(t, x∗t , a∗t , pt+1 ) = max H(t, x∗t , a, pt+1 ) (3.7)

a∈A
para t = 0, . . . , T − 1.
El nombre “principio del máximo” para el Teorema 3.2 viene precisamente

de la condición (3.7).
Nota 3.3. El Teorema 3.2 da condiciones necesarias de optimalidad, a saber, la exis-

tencia de la sucesión p• de vectores adjuntos que satisfacen (3.5), (3.6) y (3.7).
Bajo hipótesis adecuadas estas condiciones también son suficientes. De hecho, si
tales condiciones se satisfacen, entonces la búsqueda de un “par óptimo” (a∗• , x∗• )
se reduce a resolver un problema con valores de frontera que consiste de
(a) las ecuaciones (3.1) y (3.5), que también se conocen como las ecuaciones canó-
nicas del PCO;
(b) las condiciones de frontera (3.6) y x∗0 = x0 ; y
(c) la maximización del hamiltoniano, es decir, encontrar a∗• tal que
H(t, x∗t , a∗t , pt+1 ) = max H(t, x∗t , a, pt+1 ).
a∈A
Este procedimiento sólo asegura, en general, la existencia de estrategias óptimas

de lazo abierto (ver (2.5)). En contraste, el método de programación dinámica
que veremos en la siguiente sección necesariamente da estrategias markovianas
(como en (2.6)).
Ejemplo 3.4: Sistema LQ determinı́stico a tiempo discreto. Considérese el

problema de encontrar una estrategia de control que minimize la función de
costo
T −1
1X 1
V (π, x) = (Qx2t + Ra2t ) + Sx2T , (3.8)
2 t=0 2
con π = {at }, sujeta a
xt+1 = αxt + βat ∀ t = 0, 1, . . . , T − 1; x0 = x. (3.9)
Las constantes Q y S en (3.8) son no–negativas y R es positiva, mientras que los

coeficientes α y β en (3.9) son distintos de cero. El espacio de estados y el de
26
acciones son X = A = IR. (Exactamente el mismo análisis que presentamos a

continuación se puede extender a un problema vectorial con X = IRn y A = IRm ,
en cuyo caso los coeficientes en (3.8) y (3.9) son matrices de dimensiones ade-
cuadas. Además, dichos coeficientes pueden variar con el parámetro de tiempo:
Qt , Rt , ST , αt , βt .)
Comparando (3.8)–(3.9) con (3.1)–(3.2) vemos que el hamiltoniano en (3.4)

resulta
1
H(t, xt , at , pt+1 ) = (αxt + βat ) · pt+1 − (Qx2t + Ra2t ).
2
Luego, como
Hx = αpt+1 − Qxt y Ha = βpt+1 − Rat ,
el problema con valores de frontera mencionado en la Nota 3.3 resulta:
(a) Ecuaciones canónicas: para t = 0, . . . , T − 1,
xt+1 = αxt + βat , pt = αpt+1 − Qxt . (3.10)
(b) Condiciones de frontera: x0 = x, pT = SxT .
(c) Maximización del hamiltoniano: de la igualdad Ha = 0 obtenemos.
at = R−1 βpt+1 ∀ t = 0, . . . , T − 1. (3.11)
Como la segunda derivada parcial Haa = −R es negativa, se puede de-

mostrar que los controles en (3.11) dan una estrategia óptima, aunque por su-
puesto aún falta calcular los vectores adjuntos pt . Con este fin, sustituimos (3.11)
en (3.10):
xt+1 = αxt + R−1 β 2 pt+1 , pt = αpt+1 − Qxt (3.12)
y combinando estas ecuaciones vemos que necesariamente pt es de la forma
p t = Kt x t ∀ t = 0, . . . , T, (3.13)
donde K0 , . . . , kT son constantes. En efecto, la condición de frontera pT = SxT

implica que KT = S. Asimismo, de la segunda ecuación en (3.12) tenemos
pT −1 = αpT − QxT −1
y usando la primera ecuación en (3.12) podemos escribir pT en función de xT −1 .

En general, para obtener Kt procedemos como sigue.
Sustituyendo (3.13) en (3.12) obtenemos

xt+1 = αxt + R−1 β 2 Kt+1 xt+1 ,
pt = αKt+1 xt+1 − Qxt .
De la primera de estas ecuaciones despejamos xt+1 y sustituimos su valor en la
segunda ecuación. Ası́ se obtiene que
pt = [α2 RKt+1 /(R − β 2 Kt+1 ) − Q]xt
y comparando con (3.13) vemos que las constantes Kt satisfacen que
Kt = α2 RKt+1 /(R − β 2 Kt+1 ) − Q ∀ t = 0, 1, . . . , T − 1, (3.14)
con condición terminal KT = S, bajo la hipótesis de que S 6= R/β 2 . La ecuación
(3.14) es un caso especial de la llamada ecuación de Riccati y se resuelve “hacia
atrás”: empezando con KT = S, se calculan KT −1 , KT −2 , . . . , K0 .
Conociendo el valor de los vectores adjuntos pt podemos determinar los con-

troles óptimos y la correspondiente trayectoria y la función de costo mı́nimo. Por
ejemplo, sustituyendo (3.13) en (3.11) obtenemos
at = R−1 βKt+1 xt+1
= R−1 βKt+1 (αxt + βat ) [por (3.9)]
y despejando at obtenemos los controles óptimos:
a∗t = Gt xt ∀ t = 0, . . . , T − 1,
con Gt := αβKt+1 /(R − β 2 Kt+1 ). 2
Problemas a tiempo continuo.
Sea A[0, T ] el conjunto de todas las funciones medibles a(·) : [0, T ] → A.

El conjunto A[0, T ] es esencialmente la familia de las estrategias de lazo abierto
definidas sobre el intervalo [0, T ].
Ahora consideraremos el PCO que consiste en minimizar el costo

Z T
J(a(·)) := L(t, x(t), a(t))dt + C(x(T )) (3.15)
0
28
sobre todas las estrategias a(·) ∈ A[0, T ], sujetas a que
ẋ(t) = F (t, x(t), a(t)) ∀ 0 ≤ t ≤ T, x(0) = x0 . (3.16)
Supondremos que el espacio de estados y el conjunto de acciones son X = IRn y

A = IRm .
Por supuesto, para que (3.8) y (3.9) estén bien definidas se requieren hipótesis
adecuadas de medibilidad, de Lipschitz, etc., que se pueden ver en, por ejemplo,
los libros de Fleming y Rishel (1975) o de Yong y Zhou (1999). Un tratamiento
un tanto informal del principio del máximo, pero con un buen número de apli-
caciones, se puede ver en Sethi y Thompson (2000). Aquı́ sólo enunciaremos el
resultado principal, que requiere la siguiente notación y terminologı́a.
Si a(·) es una función en A[0, T ] y x(·) es la correspondiente solución de (3.9)

se dice que (x(·), a(·)) es un par admisible. Además, si a∗ (·) es una estrategia
óptima y x∗ (·) es la solución de (3.9), decimos que (x∗ (·), a∗ (·)) es un par óptimo.
Dado un par admisible (x(·), a(·)) y una función p(·) : [0, T ] → IRn , que llamare-
mos una (función o) variable adjunta, definimos el hamiltoniano
H(t, x(t), a(t), p(t)) := p(t) · F (t, x(t), a(t)) − L(t, x(t), a(t)). (3.17)
(Compare esta definición con (3.4).) Con esta notación, el análogo de las condi-
ciones necesarias (3.5)–(3.7) resulta como sigue.
Teorema 3.5. (El principio del máximo — caso determinı́stico, tiempo con-
tinuo). Supóngase que existe un par óptimo para el PCO (3.8)–(3.9). Entonces,
bajo ciertas hipótesis sobre las funciones F (t, x, a), L(t, x, a) y C(x), existe una
variable adjunta p(·) : [0, T ] → IRn que satisface la ecuación adjunta
ṗ(t) = −Hx (t, x∗ (t), a∗ (t), p(t)) (3.18)

= −Fx (t, x∗ (t), a∗ (t))0 p(t) + Lx (t, a∗ (t), x∗ (t))
con condición terminal

p(T ) = −Cx (x∗ (T )), (3.19)
y la maximización del hamiltoniano:
H(t, x∗ (t), a∗ (t), p(t)) = max H(t, x∗ (t), a, p(t)). (3.20)

a∈A
Las ecuaciones (3.11) y (3.12) se cumplen “para casi todo” t ∈ [0, T ].
La Nota 3.3 (para problemas a tiempo discreto) también es válida en el caso

continuo, con algunos cambios obvios de notación.
Ejemplo 3.6: un problema de control de inventario–producción. Considérese

un problema de control cuyos componentes son, en cada tiempo 0 ≤ t ≤ T :
• la variable de estado x(t) := el nivel de inventario
• la variable de control a(t) := la tasa de producción
• la variable exógena s(t) := la tasa de ventas.
Además, hay dos valores de referencia, un nivel de inventario de seguridad x̂ y un
nivel eficiente de producción â.
El nivel de inventario varı́a de acuerdo a la ecuación diferencial

ẋ(t) = a(t) − s(t) para t ≥ 0, x(0) = x0 . (3.21)
Las estrategias de control son funciones medibles a(t), no–negativas. El PCO
consiste en encontrar una estrategia que minimiza la función objetivo.
Z T
1
J(a(·)) := [h · (x − x̂)2 + c · (a − â)2 ]dt, (3.22)
0 2
donde x = x(t) y a = a(t); h > 0 es el costo de mantenimiento y c > 0 el costo

de producción. La interpretación de (3.22) es que el controlador desea mantener
el nivel de inventario x(·) y la tasa de producción a(·) lo más cerca posible de
los valores de referencia x̂ y â, respectivamente. (A problemas de este tipo se
les llama problemas de seguimiento o de rastreo, porque el estado y los controles
deben seguir — o rastrear — lo más cerca posible a los valores x̂, â.)
Comparando (3.21)–(3.22) con (3.15)–(3.16) vemos que el hamiltoniano (en

(3.17)) resulta ser
1
H(t, x(t), a(t), p(t)) = p(t) · (a(t) − s(t)) − [h · (x(t) − x̂)2 + c · (a(t) − â)2 ].
2
Luego, como
Hx = −h · (x(t) − x̂) y Ha = p(t) − c · (a(t) − â),
obtenemos el siguiente problema con valores de frontera:
30
(a) Las ecuaciones canónicas
ẋ(t) = a(t) − s(t), (3.23)

ṗ(t) = h · (x(t) − x̂); (3.24)
(b) las condiciones de frontera: x(0) = x0 , p(T ) = 0;
(c) maximización del hamiltoniano; haciendo Ha = 0 vemos que
a(t) = p(t)/c + â. (3.25)
Como Haa = −c < 0, la función a(·) en (3.23) es en efecto la estrategia óptima

del problema (3.21)–(3.22), pero aún falta calcular la variable adjunta p(·). Con
esto en mente, sustituimos (3.25) en (3.23) para obtener
ẋ(t) = p(t)/c + â − s(t), x(0) = x0 . (3.26)
Para resolver las ecuaciones (3.24) y (3.26), primero derivamos (3.26) y ası́ obte-
nemos una ecuación con ṗ, es decir,
ẍ(t) = ṗ(t)/c − ṡ(t).
Ahora sustituimos (3.24) en esta última ecuación para obtener

p
ẍ(t) = α2 (x(t) − x̂) − ṡ(t), con α := h/c;
equivalentemente,
ẍ − α2 x(t) = −α2 x̂ − ṡ(t). (3.27)
La solución general de esta ecuación es de la forma
x(t) = a1 e−αt + a2 eαt + Q(t), x(0) = x0 , (3.28)
donde Q(t) es cualquier solución particular de (3.27). (La función Q se puede

determinar si se conoce la forma explı́cita de s(t).) Como en (3.28) hay sólo
una condición inicial, para determinar las constantes a1 , a2 , sustituimos (3.28) en
(3.26) y esto da que la variable adjunta p(t) satisface:
p(t) = c(−αa1 e−αt + αa2 eαt + Q̇(t) − s(t) − â), (3.29)
con condición terminal p(T ) = 0. Las ecuaciones (3.28) y (3.29), con sus respec-
tivas condiciones de frontera, dan un sistema de dos ecuaciones algebraicas que
permiten determinar los valores de a1 y a2 . Habiendo determinado estos valores

se obtiene la forma explı́cita del control óptimo en (3.25). (Nótese que no impusi-
mos la condición a(t) ≥ 0; si la tasa de producción a(t) es negativa, significa que
debemos eliminar o desechar inventario.) 2
El caso estocástico.
Para sistemas estocásticos a tiempo continuo, y salvo contadas excepciones,
el principio del máximo se ha desarrollado principalmente para ecuaciones dife-
renciales estocásticas, como en (2.3). Una buena referencia para este caso, con
una extensa bibliografı́a, es el libro de Yong y Zhou (1999). Una extensión del
principio del máximo ha permitido a Josa–Fombellida y Rincón–Zapatero (2005)
proponer un nuevo enfoque para problemas de control estocástico. Un enfoque
similar ha sido estudiado por Bourdache–Siguerdidjane y Fliess (1987) para pro-
blemas determinı́sticos y por Rincón–Zapatero (2004) y Rincón–Zapatero et al.
(1998) para juegos diferenciales.
Curiosamente, para sistemas estocásticos a tiempo discreto hay poquı́simas

referencias, entre las que cabe mencionar el libro de Arkin y Evstigneev (1983).
32
4 Programación dinámica
Como se mencionó en la Nota 3.3, para encontrar una estrategia óptima el prin-
cipio del máximo se reduce esencialmente a resolver un problema con valores
de frontera. Esto requiere determinar una estrategia óptima simultáneamente con
las otras variables (la trayectoria y los vectores adjuntos) en el problema. Un
enfoque alternativo consiste en descomponer el PCO en “etapas”, cada una cor-
respondiente a un subproblema con una sola variable, de modo que el PCO se
resuelve en forma secuencial, por etapas. Esta es la idea del método de progra-
mación dinámica que veremos en esta sección. Primero consideraremos PCOs a
tiempo discreto y después a tiempo continuo.
La programación dinámica fue introducida por Richard Bellman en la década

de los años 1950 — vea el libro de Bellman (1956), por ejemplo.
Problemas a tiempo discreto.
Consideraremos de nuevo el PCO determinı́stico en (3.1)—(3.2) pero por con-

veniencia notacional escribiremos las variables xt y at como x(t) y a(t), respecti-
vamente. Ası́ pues, tenemos el modelo dinámico
x(t + 1) = F (t, x(t), a(t)) ∀ t = 0, . . . , T − 1, con x(0) = x0 , (4.1)
con función objetivo
T −1
X
V (π, x) := L(t, x(t), a(t)) + C(x(T )), (4.2)
t=0
donde π = {a(t)}. El espacio de estados es X = IRn y el de acciones de control es

un conjunto cerrado A ⊂ IRm .
La programación dinámica se basa en el siguiente “principio de optimali-

dad” que introdujo Bellman, y cuya demostración es evidente.
Lema 4.1. (El principio de optimalidad) Sea a∗ (·) = {a∗ (0), . . . , a∗ (T − 1)} una
estrategia óptima para el problema (4.1)–(4.2), y sea x∗ (·) = {x∗ (0), . . . , x∗ (T )} la
trayectoria correspondiente; en particular, x∗ (0) = x0 . Entonces para cualquier
4. PROGRAMACIÓN DINÁMICA 33
tiempo s ∈ {0, . . . , T − 1}, la estrategia “truncada” a∗ (t) para s ≤ t ≤ T − 1, es la

estrategia óptima que lleva el sistema (4.1) del punto x∗ (s) al punto x∗ (T ).
Para ver como se usa el Lema 4.1, consideremos el PCO (4.1)–(4.2) pero sólo
del tiempo s en adelante (con 0 ≤ s ≤ T − 1), con estado “inicial” x(s) = x, es
decir, sea
T −1
X
V (π, s, x) := L(t, x(t), a(t)) + C(x(T )) (4.3)
t=s
y sea v(s, x) el correspondiente costo mı́nimo, i.e.
v(s, x) := inf V (π, s, x). (4.4)

π
Además, como en el tiempo terminal T no se aplican acciones de control, defin-

imos
v(T, x) := C(x). (4.5)
Luego, si en el Lema 4.1 interpretamos s y x∗ (s) = x como el tiempo y el estado
iniciales, se sigue de (4.3) y (4.4) que
v(s, x) = V (a∗ (·), s, x)

T −1
X
= L(t, x∗ (t), a∗ (t)) + C(x∗ (T ))
t=s
= L(s, x, a∗ (s)) + V (a∗ (·), s + 1, x∗ (s + 1))
= L(s, x, a∗ (s)) + v(s + 1, x∗ (s + 1)).
Por lo tanto, como x∗ (s + 1) = F (s, x∗ (s), a∗ (s)) = F (s, x, a∗ (s)), obtenemos
v(s, x) = L(s, x, a∗ (s)) + v(s + 1, F (s, x, a∗ (s))). (4.6)
Pero, por la definición (4.4), v(s, x) es el costo mı́nimo de operar el sistema del
tiempo s al tiempo T , de modo que
v(s, x) ≤ L(s, x, a) + v(s + 1, F (s, x, a)) ∀ a ∈ A. (4.7)
Finalmente, combinando (4.6) y (4.7) vemos que
v(s, x) = min[L(s, x, a) + v(s + 1, F (s, x, a))] ∀ s = 0, . . . , T − 1. (4.8)

a∈A
34
y que el mı́nimo en el lado derecho de (4.8) se alcanza en a∗ (s), como en (4.6).
La ecuación (4.8) con la “condición terminal” (4.5) se llama la ecuación de

programación dinámica (EPD), o ecuación de Bellman, y es la base del “algo-
ritmo de programación dinámica” (4.9)–(4.10) en el siguiente teorema
Teorema 4.2. (El teorema de programación dinámica) Sean J0 , J1 , . . . , JT las

funciones sobre X definidas “hacia atrás” (de s = T a s = 0) como
JT (x) := C(x), (4.9)
y para s = T − 1, T − 2, . . . , 0,
Js (x) := min[L(s, x, a) + Js+1 (F (s, x, a))]. (4.10)

a
Suponga que para cada s = 0, 1, . . . , T − 1, existe una función a∗s : X → A

que alcanza el mı́nimo en el lado derecho de (4.10) para todo x ∈ X. Entonces
la estrategia markoviana π ∗ = {a∗0 , . . . , a∗T −1 } es óptima y la función de valor
coincide con J0 , i.e.
inf V (π, x) = V (π ∗ , x) = J0 (x) ∀ x ∈ X. (4.11)

π
De hecho, para cada s = 0, . . . , T, Js coincide con la función en (4.4)–(4.5), i.e.
v(s, x) = Js (x) ∀ 0 ≤ s ≤ T, x ∈ X. (4.12)
Es importante observar que (4.12) significa que algoritmo (4.9)–(4.10) da el

costo óptimo (o costo mı́nimo) del PCO (4.1)–(4.2) con tiempo y estado inicial
0 ≤ s ≤ T − 1 y x(s) = x, respectivamente.
Consideremos ahora el sistema estocástico en el que (4.1) y (4.2) se susti-

tuyen por
x(t + 1) = F (t, x(t), a(t), ξ(t)) ∀ t = 0, . . . , T − 1, con x(0) = x, (4.13)

"T −1 #
X
V (π, x) := E L(t, x(t), a(t)) + C(x(T )) , (4.14)
t=0
con π = {a(t)}, y las “perturbaciones” ξ(0), . . . , ξ(T − 1) en (4.13) son variables

aleatorias independientes e identicamente distribuidas (i.i.d.) con valores en
algún espacio S. Resulta entonces que, con algunos cambios adecuados, prác-
ticamente todo lo que aparece en los párrafos anteriores sigue siendo válido.
Más precisamente, en las expresiones en las que aparece la función F [a saber,
(4.6)–(4.8) y (4.10)] debemos escribir F (s, x, a, ξ(s)) en lugar de F (s, x, a); ade-
más, se debe tomar la esperanza en las expresiones donde aparezcan términos
estocásticos, o sea, en el lado derecho de (4.3), (4.6)–(4.8), y (4.10). Para más
detalles, vea el Ejemplo 4.4.
Nota 4.3. Una demostración detallada del teorema de programación dinámica

en el caso estocástico a tiempo discreto aparece en Hernández–Lerma y Lasserre
(1996), Sección 3.2. Otras demostraciones, ası́ como un buen número de ejemplos
y aplicaciones, aparecen en Arkin y Evstigneev (1987), Bertsekas (1987), Le Van
y Dana (2003), Luque–Vásquez et al. (1996), Stokey y Lucas (1989), ... 2
Para ilustrar el algoritmo de programación dinámica, a continuación vere-

mos una versión estocástica del sistema LQ en el Ejemplo 3.4.
Ejemplo 4.4: Sistema LQ estocástico a tiempo discreto. Considere el sistema

lineal
xt+1 = αxt + βat + ξt ∀ t = 0, 1, . . . ; x0 dado,

con coeficientes α, β distintos de cero. Las perturbaciones ξt son variables
aleatorias i.i.d., independientes de x0 , y con media 0 y varianza σ 2 finita, i.e.
E(ξt ) = 0, σ 2 := E(ξt2 ) < ∞ ∀ t = 0, . . . , T − 1. (4.15)

Los espacios de estados y de acciones son X = A = IR. Se desea minimizar la
función de costo
"T −1 #
X
V (π, x) := Exπ (qx2t + ra2t ) + qT x2T ∀ x0 = x,
t=0
donde r > 0 y q, qT ≥ 0.
En este caso, la ecuación de programación dinámica (4.9)–(4.10) resulta
JT (x) := qT x2 (4.16)
36
y para s = T − 1, T − 2, . . . , 0:
Js (x) := min[qx2 + ra2 + EJs+1 (αx + βa + ξs )]. (4.17)

a
Esta ecuación se resuelve “hacia atrás”: sustituyendo (4.16) en (4.17) obtenemos
JT −1 (x) = min[qx2 + ra2 + qT E(αx + βa + ξT −1 )2 ]

a
donde, usando (4.15),
E(αx + βa + ξT −1 )2 = (αx + βa)2 + σ 2 .
Luego,
JT −1 (x) = min[(q + qT α2 )x2 + (r + qT β 2 )a2 + 2qT αβxa + qT σ 2 ].

a
El lado derecho de esta ecuación se minimiza en
a∗T −1 (x) = GT −1 x, con GT −1 := −(r + qT β 2 )−1 qT αβ
y el mı́nimo es
JT −1 (x) = KT −1 x2 + qT σ 2 , con KT −1 := (r + qT β 2 )−1 qT rσ 2 + q.
En general, es fácil ver que la estrategia óptima π ∗ = {a∗0 , . . . , a∗T −1 } está dada
por
a∗s (x) = Gs x, con Gs := −(r + Ks+1 β 2 )−1 Ks+1 αβ, (4.18)
con “ganancias” Ks dadas recursivamente por KT := qT y para s = T − 1, . . . , 0:
Ks = (r + Ks+1 β 2 )−1 Ks+1 rσ 2 + q.
Asimismo, el costo óptimo del tiempo s en adelante, en (4.12), resulta

T
X
Js (x) = Ks x2 + σ 2 Kn para s = 0, . . . , T − 1. (4.19)
n=s+1
En particular, con s = 0 se obtiene el costo mı́nimo en (4.11). 2
Nota. Es interesante comparar el problema LQ estocástico en el ejemplo anterior

con el problema LQ determinı́stico en el Ejemplo 3.4: se puede ver que en ambos
casos la estrategia óptima está dada por (4.18). Sin embargo, difieren en el costo
mı́nimo; la diferencia está en que, en el caso determinı́stico, la varianza σ 2 que
aparece en (4.19) es cero.
Para referencia futura, a continuación veremos brevemente el caso de costo

descontado con horizonte infinito. Considérese el PCO que consiste del sistema
estocástico.
xt+1 = F (xt , at , ξt ) ∀ t = 0, 1, . . . ; con x0 = x, (4.20)
con función objetivo
" ∞
#
X
V (π, x) := E αt c(xt , at , ξt ) (4.21)
t=0
en donde c(x, a, ξ) es la función de costo por etapa, y α ∈ (0, 1) es el factor

de descuento. Como siempre, X y A representan el espacio de estados y de
acciones, respectivamente. Asimismo, denotaremos por A(x) el conjunto de ac-
ciones factibles en el estado x; véase (2.4). El PCO (4.15)–(4.16) es estacionario
en el sentido de que las funciones F (x, a, ξ) y c(x, a, ξ) no dependen del tiempo t
y, además, ξ0 , ξ1 , . . . son variables aleatorias i.i.d. cuya distribución de probabil-
idad la denotaremos por µ, es decir
µ(B) := Prob[ξ0 ∈ B] ∀ B ∈ S, (4.22)
donde S es el “espacio de perturbaciones”, o sea el conjunto en el que toman
valores las variables ξt . Considérese la función de valor
v(x) := inf V (π, x)
π
y la sucesión de funciones vn definidas iterativamente como

vn (x) := inf E[c(x, a, ξ0 ) + αvn−1 (F (x, a, ξ0 ))]
a∈A(x)
Z
= inf [c(x, a, s) + αvn−1 (F (x, a, s))]µ(ds), (4.23)
a∈A(x) S
para n = 1, 2, . . . , con v0 (x) ≡ 0. Con esta notación, se tiene el siguiente resultado

bajo una variedad de hipótesis (véanse las referencias en la Nota 4.3, o la sección
8.3 en Hernández–Lerma y Lasserre (1999)).
Teorema 4.5. Bajo hipótesis adecuadas:

38
(a) la función de valor v satisface la ecuación de programación dinámica

Z
v(x) = inf [c(x, a, s) + αv(F (x, a, s))]µ(ds) ∀ x ∈ X. (4.24)
a∈A(x) S
(b) Supóngase que existe una función g : X → A tal que g(x) ∈ A(x) y g(x)
minimiza el lado derecho de (4.24) para todo x ∈ X, i.e.
Z
v(x) = [c(x, g(x), s) + αv(F (x, g(x), s))]µ(ds).
S
Entonces g define una estrategia markoviana estacionaria (recuérdese (2.7))

que es óptima para el PCO (4.20)–(4.22).
(c) Cuando n → ∞, vn (x) → v(x) para todo x ∈ X. (Las funciones vn , definidas
en (4.23), se llaman funciones de iteración de valores.)
La parte (c) del Teorema 4.5 se usa para aproximar la función v(x) o para
deducir propiedades de ella.
Problemas a tiempo continuo

Consideremos el PCO (4.1)–(4.2) pero en tiempo continuo, es decir
ẋ(t) = F (t, x(t), a(t)) ∀ t ∈ [0, T ], x(0) = x, (4.25)
Z T
V (π, x) := L(t, x(t), a(t))dt + C(x(T )),
0
con π = {a(·)}. Asimismo, como en (4.3)–(4.5), para cada estado s ∈ [0, T ] y
“estado inicial” x(s) = x, definimos
Z T
V (π, s, x) := L(t, x(t), a(t))dt + C(x(T ))
s
y
v(s, x) := inf V (π, s, x) para 0 ≤ s < T, v(T, x) := C(x).
π
En este caso, el principio de optimalidad es completamente análogo al caso de
tiempo discreto (Lema 4.1), y el teorema de programación dinámica es como
sigue.
Teorema 4.6 Bajo ciertas hipótesis sobre las funciones F, L, C y el conjunto A, y

suponiendo que v(s, x) es de clase C 1,1 ([0, T ] × IRn ), v es solución de la ecuación
de programación dinámica
vs + inf [F (s, x, a) · vx + L(s, x, a)] = 0 ∀ (s, x) ∈ [0, T ) × IRn , (4.26)

a∈A
con condición de frontera v(T, x) = C(x). Si además g(s, x) es una función que
alcanza el mı́nimo en (4.21), entonces
a∗ (s) := g(s, x(s)) ∀ s ∈ [0, T ]
es una estrategia óptima, i.e. v(s, x) = V (a∗ (·), s, x).
Para PCOs a tiempo continuo (determinı́sticos o estocásticos) la ecuación

de programación dinámica, como (4.26), también se conoce como ecuación de
Hamilton–Jacobi–Bellman.
Usando el hamiltoniano H(s, x, a, p) en (3.10) podemos expresar (4.26) como
vs − sup H(s, x, a, −vx ) = 0.

a∈A
Esto establece un vı́nculo entre la programación dinámica y el principio del

máximo.
La demostración del Teorema 4.6 se puede ver en, por ejemplo, Fleming y
Rishel (1975), Fleming y Soner (1992), Yong y Zhou (1999). Estos libros estudian
el control de ecuaciones diferenciales ordinarias (como en (4.25)) y estocásticas
(como en (2.3)). Otros sistemas estocásticos a tiempo continuo incluyen las
cadenas de Markov — ver, por ejemplo, Guo y Hernández–Lerma (2003a) o
Prieto–Rumeau y Hernández–Lerma (2005a). Aunque es costumbre estudiar
cada uno de estos sistemas por separado, es posible hacer estudios unificados
que incluyen prácticamente cualquier tipo de proceso de control markoviano
(PCM) a tiempo continuo, como en (2.36)–(2.38); ver Hernández–Lerma (1994),
Prieto–Rumeau y Hernández–Lerma (2005b) y sus referencias, donde en parti-
cular podemos ver lo siguiente.
Nota 4.7. Usando el generador infinitesimal (2.37) podemos expresar la ecuación

de programación dinámica (4.26) como
vs + inf [La v(s, x) + L(s, x, a)] = 0 ∀ (s, x) ∈ [0, T ) × IRn . (4.27)

a∈A
40
De hecho, expresada de esta manera — usando el generador infinitesimal del

PCM — la ecuación (4.27) resulta ser la ecuación de programación dinámica
para cualquier PCM a tiempo continuo, con horizonte finito T . Por ejemplo, si
en lugar del sistema determinı́stico (4.25) consideramos la ecuación diferencial
estocástica (2.3), entonces el generador La en (4.27) serı́a el operador en (2.38).
Asimismo, si el PCM es un proceso markoviano de saltos con espacio de estados
numerable y “tasas de transición” qxy (a), entonces tomando s = 0 en (4.27) el
generador La resulta X
La v(x) := qxy (a)v(y).
y∈X
Para más detalles, vea las referencias mencionadas en el párrafo anterior.

5. CONTROL MINIMAX (JUEGOS CONTRA LA NATURALEZA) 41
5 Control minimax (juegos contra la naturaleza)

Considérese un problema de control en el que de hecho hay dos decisores (en
lugar de sólo uno), el controlador y un “oponente”. El sistema puede evolu-
cionar en tiempo continuo o tiempo discreto. Para fijar ideas, consideremos el
sistema estocástico
xt+1 = F (xt , at , bt , ξt ) ∀ t = 0, 1, . . . , (5.1)
que depende de las estrategias π = {at } ∈ Π del controlador y γ = {bt } ∈ Γ

del oponente. Por lo tanto, también la función objetivo del PCO depende de las
estrategias de ambos decisores, i.e. tenemos V (π, γ, x), donde x0 = x es el estado
inicial. Considérese la función
V # (π, x) := sup V (π, γ, x).

γ∈Γ
Si π ∗ ∈ Π es una estrategia del controlador que minimiza V # (π, x), i.e., para todo
x ∈ X:
V # (π ∗ , x) = inf V # (π, x),
π
o equivalentemente
V # (π ∗ , x) = inf sup V (π, γ, x), (5.2)
π γ
se dice entonces que π ∗ es una estrategia minimax.
La interpretación de (5.2) es que π ∗ es la mejor estrategia del controlador en la

peor de las circunstancias, porque π ∗ minimiza lo máximo (= lo peor) que puede
hacer el oponente, cuando dicho máximo se calcula sobre todas las estrategias γ
del oponente. Por esta caracterı́stica, a un problema de control minimax también
se le llama problema de control del peor caso (worst–case control). Las técnicas
que se usan para estudiar estos problemas son, principalmente, extensión del
método de programación dinámica o del principio del máximo; ver González–
Trejo et al. (2003) o Poznyak (2002a, 2002b).
Juegos contra la naturaleza
Una aplicación tı́pica del control minimax es a problemas de control que de-
penden de “parámetros” desconocidos. En este caso, el oponente es la “natu-
42
raleza” que de alguna manera, en cada tiempo t, selecciona el valor del paráme-
tro. Estos problemas se conocen como juegos contra la naturaleza.
Por ejemplo, en lugar de (5.1) considérese un problema de control (un único

jugador) con modelo dinámico
xt+1 = F (xt , at , ξt ), ∀ t = 0, 1, . . . , con x0 = x, (5.3)
donde las ξt son “perturbaciones”. Consideraremos dos casos:
Caso 1: El sistema es incierto, es decir, se sabe que las ξt son constantes con
valores en algún conjunto dado S, pero no se conoce el valor particular de ξt .
Caso 2: El sistema es estocástico, es decir, las ξt son variables aleatorias i.i.d.

con valores en un conjunto S y distribución común µ (ver (4.22)), pero no se
conoce µ. Sin embargo, sı́ sabemos que µ debe pertenecer a un conjunto M (S)
de distribuciones “admisibles”.
En el caso estocástico el PCO consiste en minimizar el costo esperado (4.21),

mientras que en el caso incierto el costo es determinı́stico, ası́ que eliminamos la
esperanza en (4.21) y la función objetivo resulta
∞
X
V (π, x) := αt c(xt , at , ξt ). (5.4)
t=0
Consideremos primero el caso 2. Entonces, por el Teorema 4.5 (a), (b), sabe-
mos que si se conoce µ, entonces la función de valor v(x) satisface la ecuación de
programación dinámica (4.24), y una función g : X → A que alcanza el mı́nimo
en el lado derecho de (4.24) define una estrategia óptima. Resulta que el Teo-
rema 4.5 sigue siendo válido con algunos cambios adecuados, que dan como
resultado lo siguiente.
Teorema 5.1. (Teorema de control minimax) Considérese el PCO estocástico que

consiste en minimizar el costo esperado (4.21), sujeto a (5.3). Se desconoce la
distribución µ de las perturbaciones ξt pero se sabe que pertenece a un conjunto
M (S) de distribuciones sobre el espacio S. Entonces, bajo ciertas hipótesis:
(a) la función de valor v ∗ (x) := inf π supµ∈M (S) Vµ (π, x) satisface la ecuación
Z
∗
v (x) = inf sup [c(x, a, ξ) + αv ∗ (F (x, a, s))]µ(ds). (5.5)
a∈A(x) µ∈M (S) S
5. CONTROL MINIMAX (JUEGOS CONTRA LA NATURALEZA) 43
(b) Si existe una función f : X → A tal que f (x) ∈ A(x) alcanza el mı́nimo en
(5.5), i.e.
Z
v (x) = sup [c(x, f (x), s) + αv ∗ (F (x, f (x), s))]µ(ds),
∗
(5.6)
µ S
entonces f define una estrategia minimax, o sea at := f (xt ) para todo t =

0, 1, . . ..
Es importante observar que la función v ∗ en (5.5) se puede aproximar por una

sucesión de funciones de “iteración de valores”, como en el Teorema 4.5(c). Para
mayores detalles, vea González–Trejo et al. (2003). En esta misma referencia se
pueden ver ejemplos concretos de control minimax para problemas con hori-
zonte finito, horizonte infinito, y también con “costo promedio” (también lla-
mado “costo ergódico”).
En el caso 1, cuando las variables ξt son “inciertas”, el teorema anterior es

válido (bajo hipótesis adecuadas) sustituyendo la ecuación (5.5) por la siguiente:
v ∗ (x) = inf sup[c(x, a, s) + αv ∗ (F (x, a, s))]. (5.7)

a∈A(x) s∈S
El cambio en (5.6) es similar.
Los problemas de control minimax de sistemas inciertos también se conocen

como problemas de control robusto. El nombre se debe a que resultados como
(5.7) son “robustos” en el sentido de que valen para todo valor s ∈ S. Como
ejemplo, Poznyak (2002a, 2002b) estudia PCOs con una ecuación diferencial es-
tocástica de la forma (2.3), pero cuyos coeficientes dependen de un parámetro
incierto s en algún conjunto S. Entonces en lugar de (2.3) se tiene
dxt = F s (t, xt , at )dt + σ s (t, xt , at )dWt ∀ 0 ≤ t ≤ T, s ∈ S.
Bernhard (2005) propone técnicas de control robusto para estudiar algunos pro-
blemas en finanzas.
En la sección 9 veremos que un problema de control minimax es un caso

particular de ciertos juegos dinámicos conocidos como juegos de suma cero.
44
Parte 2. Juegos cooperativos
En lo que resta de estas notas consideraremos juegos dinámicos con N ju-

gadores, N ≥ 2, de modo que todos los conceptos introducidos en la Sección 2
(para N = 1) se deben reinterpretar de manera adecuada. Por ejemplo, en un
modelo dinámico, como en (2.1)–(2.3), en lugar de la acción at del controlador
ahora tenemos un vector de acciones
at = (a1t , . . . , aN
t ),
en donde ait es la acción del jugador i al tiempo t. Asimismo, en lugar del con-
junto A(x) de acciones factibles en (2.4), para un juego A(x) es el producto carte-
siano
A(x) = A1 (x) × · · · × AN (x),
donde Ai (x) representa el conjunto de acciones factibles para el jugador i cuando
el estado del juego es x. Por último, en lugar de una función objetivo (la función
objetivo del controlador), como en (2.11)–(2.15), ahora tenemos un vector
V (π, x) = (V 1 (π, x), . . . , V N (π, x))
en donde V i (π, x) es la función objetivo del jugador i, dado que el estado inicial
del juego es x, y que los jugadores siguen la multiestrategia
π = (π 1 , . . . , π N )
donde π i es la estrategia del jugador i. De aquı́ se sigue que expresiones como

(2.16) ó (2.17) en las que se desea “minimizar” o “maximizar” V (π, x), para jue-
gos dejan de tener un significado obvio. En esta segunda parte del curso vere-
mos el caso en el que “optimizar” una función vectorial se entiende en el sentido
de Pareto.
Para fijar ideas, supondremos que las funciones objetivo V i (π, x) son costos
que se desea minimizar.
6. EQUILIBRIOS DE PARETO 45
6 Equilibrios de Pareto
En un juego cooperativo los jugadores desean cooperar para alcanzar un resul-
tado que, en algún sentido, sea benéfico para todos ellos. (Por el contrario, en un
juego no–cooperativo los jugadores no hacen acuerdos para cooperar; más bien,
actuan independientemente y sólo les preocupa alcanzar sus objetivos individ-
uales.)
Para juegos cooperativos estáticos existen varios conceptos de solución, al-

gunos de los cuales se remontan al trabajo pionero de von Neumann y Morgen-
stern (1944). Sin embargo, cuando se intenta extrapolar estos conceptos a juegos
cooperativos dinámicos muchos de ellos resultan ser inconsistentes en el tiempo
o dinámicamente inestables. (Vea la Nota 6.3(a) o, por ejemplo, Filar y Petrosjan
(2000), Haurie (2001), Petrosjan (2005) para una discusión de las “inconsisten-
cias” que pueden ocurrir). Por tal motivo, para juegos dinámicos cooperativos
nos restringiremos al caso más común y más estudiado, a saber, los equilibrios de
Pareto.
Observación. Recuérdese que para vectores x = (x1 , . . . , xN ) y y = (y1 , . . . , yN )

se dice que
x ≤ y ssi xi ≤ yi ∀ i = 1, . . . , N.
Asimismo, x < y ssi x ≤ y y x 6= y ; y x << y ssi xi < yi ∀ i.
Observación. En las secciones 6, 7 y 8 supondremos que el estado inicial x0

está fijo; en el caso de juegos estocásticos, lo anterior significa que la distribución
de probabilidad de x0 , digamos ν0 (B) := P(x0 ∈ B), está fija. En todo caso,
para simplicar R la notación escribimos simplemente V i (π) en lugar de V i (π, x0 ) ó
V i (π, ν0 ) := V i (π, x)ν0 (dx).
Definición 6.1. Considérese un juego con N jugadores. Sea V i (π) la función

objetivo del jugador i, dado que los jugadores siguen la multiestrategia π =
(π 1 , . . . , π N ). Sea Πi el conjunto de estrategias admisibles para el jugador i, y sea
Π := Π1 × · · · × ΠN . Además, sea
Γ := {V (π) | π ∈ Π} ⊂ IRN , (6.1)
donde V (π) := (V 1 (π), . . . , V N (π)) ∈ IRN . (A Γ se le llama el conjunto objetivo
o conjunto alcanzable del juego.) Se dice que una multiestrategia π ∗ ∈ Π es un
46
equilibrio de Pareto si no existe π ∈ Π tal que
V (π) < V (π ∗ ). (6.2)
Sea Π∗ el conjunto de equilibrios de Pareto (suponiendo que el conjunto no es

vacı́o). Entonces el conjunto de vectores
{V (π) | π ∈ Π∗ } ⊂ Γ
se llama el frente de Pareto del juego.
El método más usual para estudiar la existencia de equilibrios de Pareto es el

método de escalarización definido como sigue. Sea
SN −1 := {λ ∈ IRN | λ >> 0 y λ1 + · · · + λN = 1}.
Para cada λ ∈ SN −1 considerese la función “escalar”

N
X
λ
V (π) := λ · V (π) = λi V i (π). (6.3)
i=1
Teorema 6.2. Bajo ciertas hipótesis, se obtiene lo siguiente. Si para algún vector
λ ∈ SN −1 existe una multiestrategia π ∗ ∈ Π que minimiza la función escalar (6.3),
i.e.
V λ (π ∗ ) ≤ V λ (π) ∀ π ∈ Π, (6.4)
entonces π ∗ es un equilibrio de Pareto.
La demostración de este teorema es trivial. En efecto, si π ∗ satisface (6.4)

pero no es un equilibrio de Pareto, entonces (por la Definición 6.1) existe una
multiestrategia π 0 ∈ Π tal que
V (π 0 ) < V (π ∗ ).
Multiplicando ambos lados de esta desigualdad por el vector λ se obtiene que

V λ (π 0 ) < V λ (π ∗ ), lo cual contradice (6.4); es decir, necesariamente π ∗ es un equi-
librio de Pareto.
Por el contrario, la demostración del recı́proco del Teorema 6.2 requiere un

poco más de trabajo; véase, por ejemplo, Hernández–Lerma y Romera (2004).
De hecho, esta referencia estudia problemas de control multiobjetivos (es decir, un

controlador con N objetivos V 1 (·), . . . , V N (·)), pero la demostración para juegos
es básicamente la misma.
Nota 6.3. (a) Si se admite que algunas de las componentes del vector λ en (6.4)
sean cero (pero con suma total = 1), entonces sólo se podrı́a garantizar que π ∗ es
un equilibrio de Pareto débil. (Se dice que π ∗ es un equilibrio de Pareto débil si
no existe π ∈ Π tal que V (π) << V (π ∗ ).)
(b) En Hernández–Lerma y Romera (2004a) se demuestra que el método de

escalarización es equivalente a resolver el problema dual de un programa lineal
(de dimensión infinita) con objetivos múltiples.
(c) Los artı́culos de Tolwinski et al. (1986) y de Gaidov (1986) dan condiciones
para la existencia de estrategias de Pareto en juegos diferenciales determinı́sticos
y estocásticos, respectivamente. La primera de estas referencias incluye estrate-
gias con amenazas (threats) cuyo papel es inducir a los jugadores a que respeten
lo convenido entre ellos, una vez que se ha llegado a un equilibrio. Alternativa-
mente, para que los jugadores respeten los acuerdos entre ellos, se puede suponer
que tales acuerdos son vinculantes (binding agreements). En estas notas haremos
tal suposición.
Los juegos cooperativos están muy desarrollados pero principalmente para

juegos diferenciales (determinı́sticos); vea, por ejemplo, Haurie (2001), Petrosjan
y Zenkevich (1996), Vaisbord y Zhukovskii (1988), Zhukovskiy y Salukvadze
(1994).
Ejemplo 6.4. Considérese el juego diferencial LQ que consiste de la ecuación de

estado
ẋ = αx + B1 a1 + B2 a2 ∀ t ≥ 0, x(0) = x0 , (6.5)
en donde, para simplicar la notación, hemos omitido la variable de tiempo “t”.

El espacio de estados X y los espacios de acciones Ai (i = 1, 2) son X = Ai = IR,
y los coeficientes α, B1 , B2 son constantes. Para cada jugador i = 1, 2 la función
de costo es
Z ∞
Vi (a1 , a2 ) := hi (t, x, a1 , a2 )dt (6.6)
0
48
con
1
hi (t, x, a1 , a2 ) := e−βt (q1 x2 + ri a2i + rij a2j ), j 6= i,
2
donde β > 0 es un factor de descuento. Dado un vector λ = (λ1 , λ2 ) en S1 el
costo “escalarizado” (6.3) resulta
V λ (a1 , a2 ) = λ1 V1 (a1 , a2 ) + λ2 V2 (a1 , a2 ) (6.7)
Z ∞
= hλ (t, x, a1 , a2 )dt,
0
donde (por (6.6))

1
hλ (t, x, a1 , a2 ) = e−βt (Qx2 + R1 a21 + R2 a22 )
2
con
Q := λ1 q1 + λ2 q2 y Ri = λi ri + λj rji para i = 1, 2; j 6= i. (6.8)
Para minimizar el costo (6.7) sujeto a (6.5) usaremos programación dinámica.
Sea a = (a1 , a2 ) y s ≥ 0. Dado el “estado inicial” x(s) = x, sea

v(s, x) := inf V λ (a, s, x),
a
donde Z ∞
λ
V (a, s, x) := hλ (t, x, a)dt, x(s) = x.
s
Luego, de (4.26) (ó (4.27)) la ecuación de programación dinámica es
vs + inf [(αx + B1 a1 + B2 a2 ) · vx + hλ (t, x, a1 , a2 )] = 0.
a
Se puede verificar que las estrategias óptimas son, para i = 1, 2,

a∗i = −Ki x ∀ x ∈ X, con Ki := Ri−1 Bi M0 , (6.9)
donde M0 es la solución positiva de la ecuación
(B12 /R1 + B22 /R2 )M02 − (2α − ρ)M0 − Q = 0,
con Q y Ri en (6.8) Es decir, a∗ = (a∗1 , a∗2 ) es el equilibrio de Pareto para el vector
dado λ = (λ1 , λ2 ) y, además, sustituyendo (6.9) en (6.6) se obtiene que el costo
óptimo para cada jugador i = 1, 2 es
1
Vi∗ (x0 ) = Pi x20 , (6.10)
2
donde Pi es la solución (positiva) de la ecuación

1
2(αc − ρ)Pi + Q̃i = 0 (6.11)
2
con
αc := α − B1 K1 − B2 K2 , Q̃i := qi + ri Ki2 + rij Kj2 , j 6= i. (6.12)
El caso estocástico. Supóngase que, en lugar de (6.5), la ecuación de estado

es
dx = (αx + B1 a1 + B2 a2 )dt + G dW, x(0) = x0 , t ≥ 0,
donde G es una constante y W es un proceso de Wiener estándar, en cuyo caso
las funciones de costo en (6.6) y (6.7) se deben sustituir por sus valores esperados
dada la condición inicial x(0) = x0 . Por ejemplo, en lugar de (6.6) ahora tenemos
Z ∞
Vi (a1 , a2 ) := E[hi (t, x, a1 , a2 )|x(0) = x0 ]dt.
0
y similarmente en (6.7). Usando de nuevo programación dinámica se puede ver

que las estrategias óptimas son como en (6.9), es decir, las mismas que en el caso
determinı́stico. Sin embargo, los costos óptimos (6.10) sı́ deben modificarse y
resultan
1 1
Vie (x0 ) = Pi x20 + Q̃i Si , (6.13)
2 2ρ
con Pi y Q̃i como en (6.11) y (6.12), mientras que Si es la solución de la ecuación
1
2(αc − ρ)Si + G2 = 0.
2
Los resultados (6.9), (6.10) y (6.13) para sistemas LQ son bien conocidos. Para
mayores detalles se puede consultar prácticamente cualquier texto sobre con-
trol óptimo (o juegos dinámicos) que incluya modelos a tiempo continuo, por
ejemplo, Basar y Olsder (1999), Fleming y Rishel (1975), Fleming y Soner (1992),
Hernández–Lerma (1994), Klompstra (1992), Sethi y Thompson (2000), Yong y
Zhou (1999). 2
Nota 6.5. Para concluir esta sección, obsérvese que un equilibrio de Pareto es, en
efecto, un equilibrio “cooperativo” en el sentido de que ninguna otra decisión
conjunta de los jugadores puede disminuir el costo de al menos uno de ellos sin
50
incrementar el costo de los otros. Más explı́citamente, si usamos el método de

escalarización para encontrar equilibrios de Pareto, vemos de (6.3)–(6.4) que al
variar el vector λ, varı́a el correspondiente equilibrio de Pareto y, por lo tanto,
también varı́a el vector de costos V (π, x) a lo largo del frente de Pareto. Esto hace
que algunos jugadores resulten beneficiados (al disminuir su costo o función
objetivo), mientras que otros salen perjudicados (al incrementar su costo). Esta
situación lleva a una pregunta natural: de entre todos los equilibrios de Pareto,
¿cuál es el más “justo” para todos los jugadores? Esta pregunta se puede respon-
der de varias maneras. En las siguientes dos secciones veremos algunas de las
posibles respuestas.
7. EQUILIBRIOS DE COMPROMISO 51
7 Equilibrios de compromiso
Con respecto a la Nota 6.5, para encontrar un equilibrio “justo” algunos autores
han propuesto el siguiente procedimiento. Para cada i = 1, . . . , N , sea
V∗i := inf V i (π).
π
El vector
V∗ := (V∗1 , . . . , V∗N ) (7.1)
se llama el mı́nimo virtual del juego. (También se le conoce como mı́nimo
utópico, mı́nimo ideal o mı́nimo sombra.)
Definición 7.1. Dada una norma k · k sobre IRN , se dice que una multiestrategia
π ∗ ∈ Π es un equilibrio de compromiso con respecto a dicha norma si
k V (π ∗ ) − V∗ k= inf k V (π) − V∗ k . (7.2)
π
Observe que la función

ρ(π) :=k V (π) − V∗ k para π∈Π
es una función de utilidad para el juego, en el sentido de que si π y π 0 son tales
que V (π) < V (π 0 ), entonces ρ(π) < ρ(π 0 ). De aquı́ se sigue que un equilibrio de
compromiso necesariamente es un equilibrio de Pareto.
Generalmente, en (7.2) se usa una “norma Lp ”, definida como

N
!1/p
X
k u kp := |ui |p 1 ≤ p < ∞.
i=1
Para p = 2, un equilibrio de compromiso π ∗ se dice que es una solución de

Salukvadze al juego cooperativo. Si p = +∞, entonces π ∗ se llama un equilibrio
minimax porque satisface que
k V (π ∗ ) − V∗ k∞ = min max |V i (π) − V∗i |.
π 1≤i≤N
Nota 7.2. Las condiciones para que existan equilibrios de compromiso son las
mismas que para problemas de control o de optimización multiobjetivos; vea,
52
por ejemplo, Hernández–Lerma y Romera (2004a), Yu y Leitmann (1974). Esta

última referencia interpreta el término V i (π) − V∗i como la pena o pesar (regret)
del jugador i cuando se usa la multiestrategia π. Por lo tanto, se sigue de (7.2)
que un equilibrio de compromiso π ∗ minimiza “la pena” del grupo de jugadores
porque V (π ∗ ) es el punto más cercano al mı́nimo virtual, con respecto a la norma
k · k.
El propósito del siguiente ejemplo es ilustrar el cálculo de un equilibrio de

compromiso. Sin embargo, para simplificar la presentación, no consideramos
un problema de “juegos” sino más bien un problema de control multiobjetivos, es
decir, un controlador que desea “minimizar” en el sentido de Pareto un vector
de costos, digamos
V (π) = (V1 (π), . . . , VN (π)). (7.3)
Ejemplo 7.3: Control multiobjetivos—sistema LQ estocástico a tiempo dis-

creto. Sean α y β números reales distintos de cero y considérese el sistema lineal,
escalar,
xt+1 = αxt + βat + ξt para t = 0, 1, . . . , (7.4)
con espacio de estados y de acciones X = A = IR. Las perturbaciones ξt son
variables aleatorias i.i.d., que son independientes del estado inicial x0 , y tales
que
E(ξ0 ) = 0 y E(ξ02 ) =: σ 2 < ∞. (7.5)
Sea ν0 la distribución inicial. Los costos Vi (π, ν0 ) ≡ Vi (π) en (7.3) son de la forma
"∞ #
X
Vi (π) := (1 − δ)Eνπ0 δ t ci (xt , at ) ∀ i = 1, . . . , N, (7.6)
t=0
donde ci es un costo cuadrático,
ci (x, a) := si x2 + ri a2 (7.7)
con coeficientes positivos si , ri . Siguiendo el “método de escalarización”, toma-

mos un N–vector λ > 0 arbitrario y formamos el producto
N
X
λ
V (π) := λ · V (π) = λi Vi (π).
i=1
7. EQUILIBRIOS DE COMPROMISO 53
Por (7.6) y (7.7), podemos expresar V λ (π) como

"∞ #
X
V λ (π) = (1 − δ)Eνπ0 δ t cλ (xt , at ) (7.8)
t=0
con
N
X
cλ (x, a) := λi ci (x, a) = (λ · s)x2 + (λ · r)a2 ,
i=1
donde s := (s1 , . . . , sN ) y r := (r1 , . . . , rN ). El problema “LQ” de encontrar una

estrategia que minimiza (7.8) sujeta a (7.4) es muy bien conocido. Por ejemplo,
en la pág. 72 de Hernández–Lerma y Lasserre (1996) se puede ver que la estrate-
gia óptima es la estrategia (markoviana estacionaria)
fλ (x) = −[(λ · r) + δβ 2 z(λ)]−1 αβδz(λ)x ∀ x ∈ X, (7.9)
donde z(λ) es la única solución positiva de la ecuación de Riccati
δβ 2 z 2 + (r̂ − r̂α2 δ − ŝβ 2 δ)z − ŝr̂ = 0, (7.10)
con r̂ = λ·r y ŝ = λ·s. Asimismo, para cualquier estado inicial x0 = x, la función
de costo óptimo es
V λ (fλ , x) = z(λ)[(1 − δ)x2 + δσ 2 ] ∀ x ∈ X,
con σ 2 como en (7.5). Por lo tanto, suponiendo que la distribución inicial ν0 tiene
segundo momento finito, i.e.
Z
ν̄0 := x2 ν0 (dx) < ∞, (7.11)
entonces el correspondiente costo óptimo resulta ser

Z
λ
V (fλ ) = V λ (fλ , x)ν0 (dx) = z(λ)k(ν0 ) (7.12)
IR
con k(ν0 ) := (1 − δ)ν̄0 + δσ 2 .
Obsérvese que el resultado (7.9)–(7.12) es válido para cualquier vector λ = (λ1 ,

. . . , λN ) > 0. En particular, si tomamos λ = e(i), donde e(i) es el vector con
coordenadas
1 si j = 1,
e(i)j =
0 si j 6= i,
54
y después variamos i = 1, . . . , N, entonces obtenemos el mı́nimo virtual V∗ =

(V∗1 , . . . , V∗N ) en (7.1). Más explicitamente, si en (7.12) sustituimos λ por e(i)
obtenemos el costo mı́nimo
V∗i = inf V i (π) = V i (fe(i) ) = zi k(ν0 )

π
donde zi es la única solución positiva de la ecuación de Riccati (7.10) con r̂ = ri

y ŝ = si .
Finalmente, para encontrar una “estrategia de compromiso” π ∗ se debe se-

leccionar una norma en IRN y calcular π ∗ que minimiza k V (π) − V∗ k, como en
(7.2). Estas operaciones se pueden realizar — al menos en principio — usando
una cierta “función de soporte”, como en el Ejemplo 5.7 de Hernández–Lerma y
Romera (2004b).
8. EL PROBLEMA DE NEGOCIACIÓN DE NASH 55
8 El problema de negociación de Nash

Otra forma de ver cuál es el equilibrio más “justo” entre todos los equilibrios
de Pareto consiste en encontrar la solución de Nash del problema de negociación
(bargaining problem). Nash (1950b, 1953) introdujo este problema para juegos
estáticos con un número finito de acciones y de jugadores y posteriormente se
ha estudiado para varios tipos de juegos dinámicos, por ejemplo, juegos dife-
renciales, como en Haurie (1976, 1982), Petrosyan (2003),..., y juegos diferen-
ciales estocásticos, como en Gaidov (1990). En cualquier caso, la formulación es
esencialmente la misma. Para facilitar la exposición aquı́ sólo consideraremos
juegos con N = 2 jugadores.
Para i = 1, 2, sea V i (π) la función objetivo del jugador i, con π = (π 1 , π 2 ), y

sea V0 := (V01 , V02 ) el vector cuyas coordinadas son los valores minimax
V01 := min
1
max
2
V 1 (π 1 , π 2 ),
π π
V02 := min
2
max
1
V 2 (π 1 , π 2 ).
π π
A la pareja V 0 se le llama el “status quo”. (En general, el status quo no nece-

sariamente son los valores minimax; es decir, las componentes de V 0 se pueden
seleccionar de otras maneras.) A las multiestrategias π en el conjunto
Πir := {π ∈ Π | V 1 (π) ≤ V01 , V 2 (π) ≤ V02 }
se les llama multiestrategias individualmente racionales. Si π = (π 1 , π 2 ) es una

multiestrategia individualmente racional, entonces la diferencia
V0i − V i (π) ≥ 0 para i = 1, 2 (8.1)
se interpreta como el beneficio por cooperar del jugador i cuando se usa la multi-
estrategia π. (Compare (8.1) con la “pena” o “pesar” V i (π) − V∗i del jugador i en
la Nota 7.2.)
Definición 8.1. Si π∗ ∈ Πir es una multiestrategia que maximiza la función
b(π) := [V01 − V 1 (π)] · [V02 − V 2 (π)], π ∈ Πir ,

56
se dice que π∗ es la solución de Nash al problema de negociación.
Un cálculo directo muestra que si π∗ satisface la definición anterior, entonces

π∗ es un equilibrio de Pareto.
Para cualquier número N ≥ 2 de jugadores los conceptos anteriores siguen

siendo válidos, con los cambios obvios. Por ejemplo, la función b(π) en la Defi-
nición 8.1 ahora resulta ser
b(π) := [V01 − V 1 (π)] · · · [V0N − V N (π)]
y el conjunto de multiestrategias individualmente racionales es
Πir := {π | V i (π) ≤ V0i ∀ i = 1, . . . , N }.
En el siguiente teorema se da una caracterización de una solución de Nash

(al problema de negociación) basada en la desigualdad
N
X
1/N −1
(y1 · · · yN ) ≤N yi ∀ yi > 0, i = 1, . . . , N. (8.2)
i=1
entre la “media Pgeométrica” (y1 · · · yN )1/N de N números yi ≥ 0 y la “media

aritmética” N −1 i yi .
Teorema 8.2. (Ehtamo et al., 1988) Supóngase que π ∗ ∈ Πir es tal que, para todo
i = 1, . . . , N ,
V i (π ∗ ) < V0i ,
y sea
b(π ∗ )
λ∗i := , (8.3)
V0i − V i (π ∗ )
es decir
N
Y
λ∗i = [V0j − V j (π ∗ )]
j=1
j 6= i
Si además π ∗ es tal que
λ∗ · V (π ∗ ) ≤ λ∗ · V (π) ∀ π ∈ Π, (8.4)
8. EL PROBLEMA DE NEGOCIACIÓN DE NASH 57
entonces π ∗ es una solución de Nash al problema de negociación, i.e.
b(π ∗ ) ≥ b(π) ∀ π ∈ Πir . (8.5)
Demostración. Fı́jese una estrategia arbitraria π ∈ Πir . Observe que (8.4) es

equivalente a
λ∗ · (V0 − V (π)) ≤ λ∗ · (V0 − V (π ∗ ))

X
= λ∗i [V0i − V i (π ∗ )],
i
i.e., por (8.3),

λ∗ · (V0 − V (π)) ≤ N b(π ∗ ). (8.6)
Equivalentemente, usando de nuevo (8.3) y definiendo
V0i − V i (π) i
∗ V0 − V (π)
i
yi := i = λi · ,
V0 − V i (π ∗ ) b(π ∗ )
podemos expresar (8.6) como
N
X
N ≥ λ∗i [V0i − V i (π)]/b(π ∗ )
i=1
n
X
= yi
i=1
≥ N · (y1 · · · yN )1/N [por (8.2)]

= N [b(π)/b(π ∗ )]1/N .
Finalmente, multiplicando la expresión anterior por 1/N se obtiene b(π ∗ ) ≥ b(π).

Luego, como π ∈ Πir es arbitraria, se sigue (8.5). 2
El Teorema 8.2 sugiere el siguiente “algoritmo”, introducido por Ehtamo et

al. (1988), para encontrar una solución de Nash. Supóngase que para cada vector
λ en
SN −1 := {λ ∈ IRN | λ >> 0, λ1 + · · · + λN = 1}
existe una multiestrategia πλ = (πλ1 , . . . , πλN ) ∈ Π tal que
λ · V (πλ ) ≤ λ · V (π) ∀ π ∈ Π, (8.7)

58
de modo que πλ es un equilibrio de Pareto (por el Teorema 6.2). Con esta no-
tación el “algoritmo” es como sigue.
Paso 1. Para cada λ ∈ SN −1 encuentre πλ que satisface (8.7).
Paso 2. Encuentre λ∗ ∈ SN −1 tal que, para todo i = 1, . . . , N, V i (πλ∗ ) < V0i y,

además (como en (8.3)),
b(πλ∗ )
λ∗i = i .
V0 − V i (πλ∗ )
Del Teorema 8.2 se sigue de manera evidente que πλ∗ es una solución de Nash
al problema de negociación. Sin embargo, aunque el algoritmo es conceptual-
mente simple, es poco útil por la dificultad de realizar los pasos 1 y 2.
Para juegos estáticos hay soluciones distintas de la de Nash al problema de

negociación — ver, por ejemplo, Kalai y Smorodinsky (1975), Petrosjan y Zenke-
vich (1996), Roth (1979, 1985).
Kaitala et al. (1985) estudian el problema de negociación asociado a un juego

diferencial que representa dos cooperativas pesqueras que explotan una misma
pesquerı́a. Una situación más general se analiza en el artı́culo de Ehtamo et al.
(1988).
9. EQUILIBRIOS DE NASH 59
Parte 3. Juegos no–cooperativos
En un juego no–cooperativo los jugadores actuan independientemente y ca-

da uno desea alcanzar su propio objetivo individual.
9 Equilibrios de Nash
Primero consideraremos el caso de N = 2 jugadores.
Definición 9.1. Sea π 2 ∈ Π2 una estrategia (fija) del jugador 2. Definimos el

conjunto de las respuestas óptimas del jugador 1 a la estrategia π 2 como
RO1 (π 2 ) := {π∗1 ∈ Π1 | V 1 (π∗1 , π 2 ) = inf1 V 1 (π 1 , π 2 )}. (9.1)

π
Análogamente, el conjunto de las respuestas óptimas del jugador 2 a una es-

trategia π 1 ∈ Π1 del jugador 1 se define como
RO2 (π 1 ) := {π∗2 ∈ Π2 | V 2 (π 1 , π∗2 ) = inf2 V 2 (π 1 , π 2 )}. (9.2)

π
Se dice que la multiestrategia (π∗1 , π∗2 ) ∈ Π1 × Π2 es un equilibrio de Nash si
π∗1 ∈ RO1 (π∗2 ) y π∗2 ∈ RO2 (π∗1 ).
Equivalentemente, (π∗1 , π∗2 ) es un equilibrio de Nash si
V 1 (π∗1 , π∗2 ) = inf1 V 1 (π 1 , π∗2 )

π
y
V 2 (π∗1 , π∗2 ) = inf2 V 2 (π∗1 , π 2 ).
π
En palabras, en un equilibrio de Nash, un jugador no puede mejorar su

situación si altera su estrategia unilateralmente.
Nota 9.2. Para algunos tipos de juegos (por ejemplo, juegos markovianos a
tiempo discreto con espacio de estados no–numerable) hasta la fecha ha sido
60
imposible dar condiciones generales para la existencia de equilibrios de Nash.

Trataremos de explicar porqué.
Considérese la multifunción Γ que a cada multiestrategia (π 1 , π 2 ) ∈ Π1 × Π2

le asocia el conjunto RO1 (π 2 ) × RO2 (π 1 ), i.e.
Γ(π 1 , π 2 ) := RO1 (π 2 ) × RO2 (π 1 ).
Se puede ver fácilmente que (π∗1 , π∗2 ) es un equilibrio de Nash si y sólo si (π∗1 , π∗2 )
es un punto fijo de Γ, es decir,
(π∗1 , π∗2 ) ∈ Γ(π∗1 , π∗2 ). (9.3)
El problema con (9.3) es que los teoremas de punto fijo de multifunciones requieren
hipótesis muy restrictivas, por ejemplo, alguna condición de continuidad de Γ,
y que los conjuntos Γ(π 1 , π 2 ) sean compactos, convexos, etc. Esto requiere, de
entrada, introducir una topologı́a adecuada sobre Π1 × Π2 con respecto a la cual
se satisfacen las hipótesis de los teoremas de punto fijo. Salvar estos obstáculos
topológicos no es fácil en muchos casos. 2
Caso general (N ≥ 2). Sea Π := Π1 × · · · × ΠN . Para cada multiestrategia

π = (π 1 , . . . , π N ) en Π y γ ∈ Πi , sea
[π −i |γ] := (π 1 , . . . , π i−1 , γ, π i+1 , . . . , π N )
la multiestrategia con respecto a la cual cada jugador k usa la estrategia π k si

k 6= i, mientras que el jugador i usa γ.
Se dice que una multiestrategia π∗ = (π∗1 , . . . , π∗N ) es un equilibrio de Nash

si para cada i la estrategia π∗i ∈ Πi es una respuesta óptima del jugador i contra
π∗ , es decir,
Vi (π∗ ) = inf Vi ([π∗−i |γ]). (9.4)
γ∈Πi
Esto también se puede expresar equivalentemente como
π∗i ∈ arg min Vi ([π∗−i |γ]) ∀ i = 1, . . . , N. (9.5)

γ∈Πi
En realidad, la definición anterior de equilibrio de Nash es adecuada para

juegos estáticos pero no para juegos dinámicos. El problema es que en un juego
dinámico puede darse el caso de que, en algún instante del juego, algunos de los
jugadores decidan unilateralmente desviarse de la posición de equilibrio y, por
lo tanto, la multiestrategia correspondiente deja de ser un ”equilibrio”. Para evi-
tar este tipo de situación se puede suponer que los acuerdos entre los jugadores
son vinculantes; recuerde la Nota 6.3(c). Otra manera de evitar desviaciones uni-
laterales de la posición de equilibrio consiste en demostrar que un equilibrio de
Nash es perfecto en el sentido de la siguiente definición.
Definicion 9.3. Considerese un juego dinámico con N jugadores y sea Vi (t, x, π)

la función objectivo del jugador i(i = 1, . . . , N ) dado que la condición inicial del
juego es x(t) = x en el tiempo t ≥ 0. Sea π∗ = (π∗1 , . . . , π∗N ) una multiestrategia
markoviana, es decir, cada π∗i es markoviana (o de retroalimentación), como en
(2.6). Se dice que π∗ es un equilibrio de Nash perfecto si, para cada i = 1, . . . , N
y cualquier condición inicial (t, x), se cumple que
Vi (t, x, π∗ ) = inf Vi (t, x, [π∗−i |γ]),
γ
donde el infimo se calcula sobre todas las estrategias markovianas γ del jugador
i.
En otras palabras, un equilibrio de Nash perfecto es una multiestrategia mar-

koviana que es un equilibrio de Nash para cualquiera que sea la condición ini-
cial del juego. En este caso, algunos autores dicen que el equilibrio de Nash es
perfecto en los subjuegos (subgame perfect).
Nótese que resolver (9.4) ó (9.5) esencialmente equivale a resolver un PCO

para cada i. Esto sugiere que, en principio, podemos usar técnicas como el prin-
cipio del máximo o programación dinámica para encontrar equilibrios de Nash.
El principio del máximo.
Considérese un juego diferencial con N ≥ 2 jugadores, espacio de estados

X = IRn y conjuntos de acciones Ai ⊂ IRmi para i = 1, . . . , N . El modelo dinámico
es (compárese con (3.16))
ẋ(t) = F (t, x(t), a(t)) ∀ 0 ≤ t ≤ T, x(0) = x0 . (9.6)
Los controles admisibles son de lazo abierto, a(·) = (a1 (·), . . . , aN (·)), donde ai (·)
es una función medible de [0, T ] a Ai . Los jugadores desean “maximizar” las
62
funciones objetivo
Z T
i
J (a(·)) := Li (t, x(t), a(t))dt + C i (T, x(T )).
0
Sea p(t) = [pij (t)] la matriz N × n de variables adjuntas cuya i–ésima fila es
pi (t) = (pi1 (t), . . . , pin (t)) para i = 1, . . . , N.
Definimos el hamiltoniano
H i (t, x, a, p) := Li (t, x, a) + pi (t) · F (t, x, a). (9.7)
Supóngase que a∗ (·) es un equilibrio de Nash y sea x∗ (·) la trayectoria corre-

spondiente (solución de (9.6)). En este caso (bajo ciertas hipótesis sobre F, Li , C i ,
etc.) se cumplen las siguientes condiciones necesarias para cada i = 1, . . . , N :
las ecuaciones adjuntas
ṗi (t) = −Hxi (t, x∗ (t), a∗ (t), p(t)) (9.8)
la condición terminal
pi (T ) = Cxi (T, x∗ (T )), (9.9)
y la maximización del hamiltoniano
H i (t, x∗ (t), a∗ (t), pi (t)) ≥ H i (t, x∗ (t), ai , pi (t)) ∀ ai ∈ Ai . (9.10)
(Compare (9.8)–(9.10) con (3.18)–(3.20).)
Las ecuaciones (9.6) y (9.8)–(9.10) definen un problema con dos condiciones

de frontera que en algunos casos se puede resolver explı́citamente. Por ejem-
plo, Clemhout y Wan (1974) consideran juegos trilineales, llamados ası́ porque el
hamiltoniano es lineal en el estado, en los controles, y en la variable adjunta.
Asimismo, Dockner et al. (1985) identifican varios tipos de juegos diferenciales
que son solubles, en el sentido de que se pueden determinar equilibrios de Nash
de lazo abierto, ya sea explı́citamente o “cualitativamente”. Esto último sig-
nifica que se puede obtener un equilibrio de Nash resolviendo un sistema de
ecuaciones diferenciales de la forma
ȧi = φi (t, a) para i = 1, . . . , N.

Programación dinámica.
Para cada a = (a1 , . . . , aN ), sea [a−i |a0 ] el vector con componentes ak si k 6= i,

y ai = a0 , es decir,
[a−i |a0 ] = (a1 , . . . , ai−1 , a0 , ai+1 , . . . , aN ).
Supóngase que para cada i = 1, . . . , N existen funciones v i (s, x) de clase C 1,1

que satisfacen la ecuación de programación dinámica (cf. (4.26)):
vti + max
0 i
{F (t, x, [a−i |a0 ]) · vxi + Li (t, x, [a−i |a0 ])} = 0 (9.11)
a ∈A
para todo (t, x) en [0, T ] × IRn , con condición de frontera
v i (T, x) = C i (T, x) ∀ x ∈ IRn . (9.12)
Además, sea a∗ (t, x) ∈ A1 ×· · ·×AN la multiestrategia cuyas componentes ai∗ (t, x)

alcanzan el máximo en (9.11). Entonces a∗ (t, x) es un equilibrio de Nash perfecto
y
v i (t, x) = J i (t, x, a∗ (t, x)), (9.13)
donde Z T
i
J (t, x, a∗ (t, x)) = Li (s, x∗ , a∗ )ds + C i (T, x∗ (T ))
t
y x∗ (s) es la solución de (9.6) para t ≤ s ≤ T con condición inicial x∗ (t) = x.
El resultado (9.11)–(9.13) para juegos diferenciales se debe a Stalford y Leit-

mann (1973) y se puede extender a otros juegos markovianos a tiempo continuo;
ver Jasso–Fuentes (2004).
En muchos casos interesantes se puede obtener una solución explı́cita de

(9.11)–(9.13). Por ejemplo, Jorgensen y Sorger (1990) hacen un análisis muy
detallado, explı́cito, de un juego diferencial que representa dos jugadores ex-
plotando una misma pesquerı́a. El modelo dinámico es
1 +a2
ẋ = rx(1 − x/k) − bx(ea − 1), 0 ≤ t ≤ T, x(0) = x0 ,
64
donde k es la capacidad portadora del ecosistema, r y b son constantes, y a1 , a2 son

las acciones de los jugadores. Jorgensen y Yeung (1996) analizan una versión
estocástica del juego anterior, con N ≥ 2 jugadores. En estos dos artı́culos se
consideran funciones objetivo con horizonte finito y también horizonte infinito.
Para juegos a tiempo discreto también hay muchas publicaciones en las que
se calculan (o se demuestra la existencia de) equilibrios de Nash, en particu-
lar, en juegos relacionados a economı́a. Amir (2003) trae un buen número de
referencias. Los juegos de acumulación de capital (o de extracción de recur-
sos) han recibido mucha atención en años recientes; ver, por ejemplo, Balbus y
Nowak (2004), Nowak (2003b), Nowak y Szajowski (2003), Wiecek (2003, 2005).
Otra lı́nea interesante son los juegos sobre ”capitalismo”, iniciados por Lancaster
(1973) y que se han desarrollado a tiempo contı́nuo, como en Basar et al. (1985),
Pohjola (1983) y Shimomura (1991), y a tiempo discreto, como en Krawczyk y
Shimomura (2003). En esta última referencia se hace un análsis muy completo
de varios tipos de equilibrios para un cierto modelo de crecimiento económico.
Observaciones 9.4. (a) De (9.11)–(9.13) se puede ver que la programación diná-

mica da en forma natural equilibrios de Nash perfectos, a diferencia del prin-
cipio del máximo (9.8)–(9.10) que, en general, da equilibrios de Nash de lazo
abierto y que, por lo tanto, no son perfectos. Por otra parte, Rincón–Zapatero
(2004) y Rincón–Zapatero et al. (1998) proponen un enfoque distinto de la progra-
mación dinámica para caracterizar equilibrios de Nash perfectos en ciertos juegos
diferenciales.
(b) En general, un equilibrio (no–cooperativo) de Nash no es equilibrio (co-

operativo) de Pareto—algunos casos especı́ficos se pueden ver en Krawczyk y
Shimomura (2003), Neck (1985) y Rincón–Zapatero (2004). Sin embargo, Rincón
–Zapatero et al. (2000) han identificado una clase de juegos diferenciales cuyos
equilibrios de Nash sı́ son equilibrios de Pareto. (De hecho, ya existı́an traba-
jos similares, como el de Case (1974), pero para juegos más bien ”académicos”,
es decir, juegos un poco artificiales que no tienen nada que ver con juegos que
surgen de aplicaciones.)
10. JUEGOS SIMÉTRICOS Y DE SUMA CERO 65
10 Juegos simétricos y de suma cero

Hay varios casos particulares, pero muy importantes, de juegos no–cooperativos
entre los que destacan los juegos simétricos y los juegos de suma cero.
Juegos simétricos
Un juego simétrico es un juego no–cooperativo en el que los jugadores tienen

la misma función objetivo, digamos
V i (π) ≡ V (π) ∀ i = 1, . . . , N, π ∈ Π, (10.1)
y los mismos conjuntos de acciones admisibles y, además, la ley de movimiento
del estado del juego es simétrica con respecto a las acciones de los jugadores. Un
juego simétrico también es conocido como un problema de equipo porque es como
si todos y cada uno de los jugadores trataran de optimizar la misma función,
V (π) en nuestro caso.
Ejemplos de juegos simétricos aparecen en Balbus y Nowak (2004), Dockner

et al. (2000), Rincón–Zapatero (2004) y Sundaram (1989). En particular, en la
penúltima de estas referencias se estudia el problema de la explotación, por N >
1 agentes, de un recurso no renovable de propiedad común. La evolución del
nivel del recurso sigue la ecuación dferencial
ẋ = −(a1 + · · · + aN ), con x(0) = x0 > 0,
donde ai ≥ 0 es la tasa de explotación del i–ésimo jugador. Asimismo, para cada
jugador se define una cierta función de pago como en (10.1) que permite de-
mostrar la existencia de un equilibrio de Nash simétrico, es decir, un equilibrio
de Nash (π 1 , . . . , π N ) con π i = π j para todo i, j = 1, . . . , N . (Nota: En general, un
juego simétrico no necesariamente tiene equilibrios de Nash simétricos.)
De (9.4) y (10.1) se puede ver que una multiestrategia π∗ = (π∗1 , . . . , π∗N ) es un

equilibrio de Nash para un juego simétrico si y sólo si
V (π∗ ) = inf V ([π∗−i |γ]) ∀ i = 1, . . . , N. (10.2)
γ∈Πi
Por este motivo se dice que π∗ es una multiestrategia óptima persona–por–

persona. Obsérvese que si π̂ es el mı́nimo global de V , i.e.
V (π̂) ≤ V (π) ∀ π ∈ Π,
66
entonces π̂ es “mejor” que π∗ en el sentido de que V (π̂) ≤ V (π∗ ). Sin embargo, π̂

no satisface en general la condición ser un óptimo persona–por-persona, como
en (10.2).
Nota 10.1. En un juego simétrico o problema de equipo se supone que todos

los jugadores tienen la misma información en todo el tiempo que dura el juego. Esto
significa que el juego se puede interpretar como un problema de control central-
izado en el que varios controladores están coordinados por una misma “central”.
Por el contrario, en problemas de control decentralizado los controladores no com-
parten la misma información y se presentan dificultades para coordinarlos. Para
más detalles y referencias, ver Neck (1982), por ejemplo.
Juegos de suma cero
Un juego no–cooperativo con N = 2 jugadores es un juego de suma cero si
V 1 (π) + V 2 (π) = 0 ∀ π ∈ Π,
es decir V 1 (π) = −V 2 (π). Definiendo V := V 1 = −V 2 , es evidente que π∗ =

(π∗1 , π∗2 ) es un equilibrio de Nash para un juego de suma cero si y sólo si es un
punto silla, i.e.
V (π∗1 , π 2 ) ≤ V (π∗1 , π∗2 ) ≤ V (π 1 , π∗2 ) ∀ (π 1 , π 2 ) ∈ Π1 × Π2 . (10.3)
Considérese un juego de suma cero con estado inicial x(s) = x ∈ X en el

tiempo s ≥ 0. Las funciones
L(s, x) := sup inf1 V (s, x, π 1 , π 2 ),

π2 π
U (s, x) := inf1 sup V (s, x, π 1 , π 2 ) (10.4)

π π2
se llaman el valor inferior y el valor superior del juego, respectivamente. Siem-

pre se cumple la desigualdad
L(s, x) ≤ U (s, x) ∀ (s, x). (10.5)

Definición 10.2. Si se cumple la igualdad en (10.5) para todo (s, x), se dice que
el juego de suma cero tiene el valor V(s, x) := L(s, x) = U (s, x).
Un resultado que da condiciones para la existencia del valor V se conoce

como un teorema minimax. El siguiente teorema minimax nos dice, en pocas
palabras, que la existencia del valor V es en cierto modo equivalente a la exis-
tencia de un punto silla.
Teorema 10.3. (a) Si un juego de suma cero tiene un punto silla (π∗1 , π∗2 ), entonces
tiene el valor
V(s, x) = V (s, x, π∗1 , π∗2 ) ∀ (s, x). (10.6)
(b) Si existe una multiestrategia π∗ = (π∗1 , π∗2 ) tal que para todo (s, x):
V (s, x, π∗1 , π∗2 ) = infπ1 V (s, x, π 1 , π∗2 ) (10.7)
= supπ2 V (s, x, π∗1 , π 2 ),
entonces π∗ es un punto silla.
Aunque la demostración del Teorema 10.3 es trivial, es importante obser-

var que es válido para cualquier juego de suma cero, ya sea determinı́stico o
estocástico, a tiempo discreto o tiempo continuo. A continuación daremos un
ejemplo de cómo se aplica dicho teorema.
Considere un juego determinı́stico a tiempo continuo con ecuación de movi-

miento
ẋ = F (t, x, a1 , a2 ) para 0 ≤ t ≤ T.
Dada la condición inicial x(s) = x en el tiempo s ∈ [0, T ], la función objetivo está
dada como
Z T
1 2
V (s, x, π , π ) := L(t, x, a1 , a2 )dt + C(T, x(T )).
s
Entonces combinando la ecuación de programación dinámica (9.11)–(9.12) con

el Teorema 4.6 obtenemos el siguiente teorema minimax.
Teorema 10.4. Supóngase que existe una función suave v(s, x) y estrategias π∗1 , π∗2
68
tales que, para todo (s, x) en [0, T ] × X, se tiene
0 = F (s, x, a1∗ , a2∗ ) · vx + L(s, x, a1∗ , a2∗ )

= inf
1
[F (s, x, a1 , a2∗ ) · vx + L(s, x, a1 , a2∗ )] (10.8)
a
= sup[F (s, x, a1∗ , a2 ) · vx + L(s, x, a1∗ , a2 )]
a2
con la condición de frontera
v(T, x) = C(T, x) ∀ x ∈ X. (10.9)
Entonces
v(s, x) = V (s, x, π∗1 , π∗2 ) (10.10)
es el valor del juego y (π∗1 , π∗2 ) es un punto silla.
En efecto, de la primera igualdad en (10.8), junto con la condición de frontera

(10.9), se obtiene (10.10). Por otra parte, comparando (10.7) con las últimas dos
igualdades en (10.8) se obtiene la condición de punto silla:
V (s, x, π∗1 , π 2 ) ≤ V (s, x, π∗1 , π∗2 ) ≤ V (s, x, π 1 , π∗2 ).
Usando el generador infinitesimal La mencionado en (2.36)–(2.38) se puede

ver que el Teorema 10.4 es un caso particular de un resultado válido para cual-
quier tipo de juego markoviano a tiempo continuo; vea Jasso–Fuentes (2004).
Otros casos particulares de juegos markovianos a tiempo continuo, de suma
cero, son los juegos diferenciales estocásticos (como en Basar y Olsder (1999),
Browne (2000), Kushner (2002, 2004), etc.) y cadenas de Markov (como en Guo y
Hernández–Lerma (2003b, 2005), Prieto–Rumeau y Hernández–Lerma (2005c)).
Para este tipo de juegos, a la ecuación de programación dinámica (10.8)–(10.9)
algunos autores le llaman la ecuación de Hamilton–Jacobi–Bellman–Isaacs.
Nota 10.5. El Teorema 10.4 da condiciones suficientes para la existencia de un

punto silla (π∗1 .π∗2 ), donde π∗i es una estrategia markoviana. Pero, por supuesto,
no todos los juegos satisfacen dichas condiciones y, de hecho, hay juegos de
suma cero que no tienen un punto silla. También existen juegos de suma cero
que no admiten puntos silla en una cierta familia de estrategias (e.g., estrategias
markovianas), pero sı́ en una familia más grande (e.g., estrategias aleatorizadas);
vea, por ejemplo, Schmitendorf (1976).
Para juegos semi–markovianos o markovianos a tiempo discreto se tienen re-

sultados semejantes al Teorema 10.4 (ver, por ejemplo, Filar y Vrieze (1997),
Hernández–Lerma y Lasserre (2001), Luque–Vásquez (2002), Nowak (2003),
Vega–Amaya (2003), ...). En el caso a tiempo discreto, a la correspondiente
ecuación de programación dinámica se le llama ecuación de Shapley.
Nota 10.6 Los problemas de control minimax que estudiamos en la Sección 5 se

pueden ver como cierto tipo de juegos de suma cero. En efecto, si comparamos
las ecuaciones (10.4) y (5.2) vemos que una estrategia minimax π∗1 alcanzarı́a el
valor superior del juego, i.e.
U (s, x) = sup V (s, x, π∗1 , π 2 ) = inf1 sup V (s, x, π 1 , π 2 )

π2 π π2
para cualquier condición inicial (s, x). Los problemas de control minimax vistos
como “juegos contra la naturaleza” son muy populares en algunas aplicaciones,
por ejemplo, en control de colas—ver Altman (2005), Altman y Hordijk (1995).
70
11 Juegos de Stackelberg
Los juegos de Stackelberg fueron introducidos por el economista austriaco H.
von Stackelberg en 1934. Estos juegos se caracterizan porque uno de los ju-
gadores, al que se le llama el lı́der, fija las reglas del juego, “tira primero” por ası́
decirlo, y el resto de los jugadores, a quienes se les llama los seguidores, deben
buscar su respuesta óptima a las reglas del lı́der.
Aquı́ sólo consideraremos el caso de dos jugadores, en los que el jugador 1

es el lı́der y el jugador 2 es el seguidor. Las respectivas funciones objetivo son
V1 (π 1 , π 2 ), V2 (π 1 , π 2 ).
(Se pueden considerar juegos de Stackelberg con más de dos jugadores y con
varios niveles de jerarquı́a; ver Basar y Olsder (1999), por ejemplo.)
Dada una estrategia π 1 ∈ Π1 del lı́der, recuérdese que RO2 (π 1 ) denota el

conjunto de las respuestas óptimas del jugador 2 a la estrategia π 1 ; vea (9.2).
Definición 11.1. Sea
Ṽ1 (π 1 ) := sup{V1 (π 1 , π 2 ) | π 2 ∈ RO2 (π 1 )}.
Una multiestrategia (π∗1 , π∗2 ) es un equilibrio de Stackelberg si
Ṽ1 (π∗1 ) = infπ1 Ṽ1 (π 1 ) = infπ1 supπ2 ∈RO2 (π1 ) V1 (π 1 , π 2 ) (11.1)
y
π∗2 ∈ RO2 (π∗1 ).
Obsérvese que (11.1) tenemos una situación similar al control minimax o con-
trol del peor caso que vimos en la sección 5. En efecto, el lı́der toma una actitud
de minimizar el peor caso, porque trata de cubrir sus pérdidas contra la peor
selección del jugador 2 en el conjunto RO2 (π 1 ).
Ejemplo 11.2. En este ejemplo, introducido por Basar (1991), el lı́der (= jugador
1) es el gobierno o la “autoridad monetaria” — en México, el Banco de México
— y el seguidor (= jugador 2) es el sector privado. El objetivo principal del
lı́der es controlar la inflación, ası́ que el estado xt ∈ IR del juego es el parámetro
11. JUEGOS DE STACKELBERG 71
de preferencia (en México, el IPC = ı́ndice de precios al consumidor) del lı́der y

satisface la ecuación diferencial estocástica
dxt = −(1 − ρ)xt dt + θ(1 − ρ)dt + dvt , t ≥ 0, x(0) = x0 ,
donde ρ ∈ (0, 1) y θ > 0 son constantes, y vt es un proceso de Wiener. (En

el artı́culo de Basar y Salmon (1990) se estudia un juego similar pero a tiempo
discreto.)
La variable de control a1t del lı́der es la tasa planeada de crecimiento monetario,

de modo que el crecimiento monetario acumulado real, que se denota por mt , es
Z t
mt := a1s ds + wt
0
donde wt es un proceso de Wiener independiente de vt . La variable de control a2t

del seguidor es el pronóstico que hace de a1t basándose en la información {ms , s <
t}.
Basar (1991) considera funciones objetivo con horizonte finito y también hor-
izonte infinito. Aquı́ sólo consideraremos el segundo caso, en el que el seguidor
desea minimizar
Z ∞
1 2 1 2 2 −αt
V2 (π , π ) := E (at − at ) e dt ,
0
donde α > 0 es un factor de descuento, mientras que el lı́der desea maximizar

Z ∞
1 2 1 2 1 1 2 −βt
V1 (π , π ) := E [xt (at − at ) − (at ) ]e dt ,
0 2
donde β > 0 es otro factor de descuento. Esta función V1 representa un bal-

ance entre maximizar el primer término (llamado la “sorpresa monetaria”) y
minimizar (a1t )2 (que equivale a un bajo nivel de inflación), con el parámetro de
preferencia xt determinando el grado y nivel de este balance.
Se puede demostrar que el conjunto RO2 (π 1 ) tiene un único punto T (π 1 ), o

sea T (π 1 ) ∈ A2 es el único valor para el que
V2 (π 1 , T (π 1 )) ≤ V2 (π 1 , π 2 ) ∀ π 1 , π 2 .
72
Combinando este hecho con la Definición 11.1 se sigue que una multiestrategia
(π̂ 1 , π̂ 2 ) es un equilibrio de Stackelberg si
V1 (π̂ 1 , π̂ 2 ) ≥ V1 (π 1 , T (π 1 )) ∀ π 1 ∈ Π1
y, además,
π̂ 2 = T (π̂ 1 ).
De hecho, bajo ciertas hipótesis, este equilibrio resulta ser
â1t := M (xt − x̂t ) y â2t = E(â1t | ms , s < t) = 0, (11.2)
donde M > 0 es una constante y x̂t := E(xt | ms , s < t). (Como E(â1t ) = 0 se dice
que el “sesgo inflacionario” es cero.)
Por otra parte, (π∗1 , π∗2 ) es un equilibrio de Nash si
V1 (π∗1 , π∗2 ) ≥ V1 (π 1 , π∗2 ) ∀ π 1
y
V2 (π∗1 , π∗2 ) ≤ V2 (π∗1 , π 2 ) ∀ π 2 .
Bajo hipótesis adecuadas, se demuestra que el equilibrio de Nash es
a∗1
t = b xt + c y a∗2
t = x̂t , (11.3)
con x̂t como en (11.2), y b, c constantes. (El estimador x̂t se calcula usando filtros
de Kalman.) Basar hace una comparación del equilibrio de Stackelberg (11.2)
con el equilibrio de Nash (11.3). 2
Además de los artı́culos de Basar (1991) y Basar y Salmon (1990) menciona-

dos en el ejemplo anterior, Basar et al. (1985), Neck (1991) y Pohjola (1983) estu-
dian equilibrios de Nash y de Stackelberg para un mismo juego.
73
Referencias
Altman, E. (2005). Applications of dynamic games in queues. In Nowak y
Szajowski (2005), pp. 309–342.
Altman, E., Hordijk, A. (1995). Zero–sum Markov games and worst–case op-
timal control of queueing systems. Queueing Syst. Theory Appl. 21, pp.
415–447.
Alvarez–Mena, J., Hernández–Lerma, O. (2005). Existence of Nash equilibria

for constrained stochastic games. Math. Meth. Oper Res. 62, to appear.
Amir, R. (2003). Stochastic games in economics and related fields: an overview.

In Neyman and Sorin (2003), Chapter 30.
Arkin, V.I., Evstigneev, I.V. (1987). Stochastic Models of Control and Economic
Dynamics. Academic Press, London.
Balbus, L., Nowak, A.S. (2004). Construction of Nash equilibria in symmetric

stochastic games of capital accumulation. Math. Meth. Oper. Res. 60, pp.
267–277.
Basar, T., editor (1986). Dynamic Games and Applications in Economics. Lec-
ture Notes in Economics and Mathematical Systems 265, Springer–Verlag,
Berlin.
Basar, T. (1991). A continuous–time model of monetary policy and inflation: a

stochastic differential game. In Ricci (1991), pp. 3–17.
Basar, T., Haurie, A., Ricci, G. (1985). On the dominance of capitalists lead-
ership in a feedback–Stackelberg solution of differential game model of
capitalism”. J. Econ. Dyn. Control 9, pp. 101–125.
Basar, T., Olsder, G.J. (1999). Dynamic Noncooperative Game Theory, Second Edi-
tion. SIAM, Philadelphia. (The first edition was published by Academic
Press, in 1982.)
Basar, T., Salmon, M. (1990). Credibility and the value of information transmis-
sion in a model of monetary policy and inflation. J. Economic Dynamics and
Control 14, pp. 97–116.
74
Bellman, R. (1956). Dynamic Programming. Princeton University Press, Prince-

ton, N.J.
Bernhard, P. (2005). Robust control approach to option pricing, including trans-

action costs. In Nowak and Szajowski (2005), pp. 391–416.
Bertsekas, D.P. (1987). Dynamic Programming: Deterministic and Stochastic Mod-

els. Prentice–Hall, Englewood Cliffs, N.J.
Bertsekas, D.P. (2000). Dynamic Programming and Optimal Control, Volume I, Sec-
ond Edition. Athena Scientific, Belmont, MA.
Browne, S. (2000). Stochastic differential portfolio games. J. Appl. Prob. 37, pp.
126–147.
Bourdache–Siguerdidjane, H., Fliess, M. (1987). Optimal feedback control of

nonlinear systems. Automatica 23, pp. 365–372.
Case, J. (1974). A class of games having Pareto optimal Nash equilibria. J.

Optim. Theory Appl. 13, pp. 379–386.
Clemhout, S., Wan, H.Y. (1974). A class of trilinear differential games. J. Optim.
Theory Appl. 14, pp. 419–424.
Dockner, E., Feichtinger, G., Jorgensen, S. (1985). Tractable classes of nonzero–

sum open–loop Nash differential games: theory and examples. J. Optim.
Theory Appl. 45, pp. 179–197.
Dockner, E.J., Jorgensen, S., Long, N.V., Sorger, G. (2000). Differential Games
in Economics and Management Science. Cambridge University Press, Cam-
bridge, U.K.
Ehtamo, H., Ruusunen, J., Kaitala, V., Hamalainen, R.P. (1988). Solution for a
dynamic bargaining problem with an application to resource management.
J. Optim. Theory Appl. 59, pp. 391–405.
Feichtinger, G., editor (1985). Optimal Control Theory and Economic Analysis 2.
North–Holland, Amsterdam.
Feichtinger, G., Jorgensen, S. (1983). Differential game models in management.

Euro. J. Oper. Res. 14, pp. 137–155.
75
Fershtman, C., Mullar, E. (1986). Turnpike properties of capital accumulation

games. J. Econ. Th. 38, pp. 167–177.
Filar, J.A., Petrosjan, L.A. (2000). Dynamic cooperative games. Internatl. Game
Theory Rev. 2, pp. 47–65.
Filar, J., Vrieze, K. (1997). Competitive Markov Decision Processes. Springer–

Verlag, New York.
Fleming, W.H., Rishel, R.W. (1975). Deterministic and Stochastic Optimal Control.
Springer–Verlag, New York.
Fleming, W.H., Soner, H.M. (1992). Controlled Markov Processes and Viscosity
Solutions. Springer–Verlag, New York.
Fudenberg, D., Tirole, J. (1991). Game Theory. MIT Press, Cambridge, MA.
Gaidov, S.D. (1986). Pareto–optimality in stochastic differential games. Prob-

lems of Control and Information Theory 15, 439–450.
Gaidov, S.D. (1990). On the Nash–bargaining solution in stochastic differential

games. Serdica 16, pp. 120–125.
Gibbons, R. (1992). Game Theory for Applied Economists. Princeton University

Press, Princeton, NJ.
González–Trejo, J.I., Hernández–Lerma, O., Hoyos–Reyes, L.F. (2003). Mini-

max control of discrete–time stochastic systems. SIAM J. Control Optim. 41,
pp. 1626–1659.
Guo, X.P., Hernández–Lerma, O. (2003a). Continuous–time controlled Markov

chains with discounted rewards. Acta Appl. Math. 79, pp. 195–216.
Guo, X.P., Hernández–Lerma, O. (2003b). Zero–sum games for continuous–

time Markov chains with unbounded transition and average payoff rates.
J. Appl. Prob. 40, pp. 327–345.
Guo, X.P., Hernández–Lerma, O. (2005). Nonzero–sum games for continuous–

time Markov chains with unbounded discounted payoff. J. Appl. Probab.
42, to appear.
76
Halkin, H. (1966). A maximum principle of the Pontryagin type for systems

described by nonlinear difference equations. SIAM J. Control 4, pp. 90–111.
Haurie, A. (1976). A note on nonzero–sum differential games with bargaining

solution. J. Optim. Theory Appl. 18, pp. 31–39.
Haurie, A. (1982). Acceptable equilibria in dynamic bargaining games. Lecture

Notes in Control and Information Sciences 38, pp. 715–725.
Haurie, A. (2001). A historical perspective on cooperative differential games.

In Advances in Dynamic Games and Applications, ed by E. Altman and O.
Pourtallier, Birkhauser, Boston, pp. 19–29.
Hernández–Lerma, O. (1994). Lectures on Continuous–Time Markov Control Pro-

cesses. Sociedad Matemática Mexicana, México.
Hernández–Lerma, O., Lasserre, J.B. (1996). Discrete–Time Markov Control Pro-

cesses: Basic Optimality Criteria. Springer–Verlag, New York.
Hernández–Lerma, O., Lasserre, J.B. (1999). Further Topics on Discrete–Time

Markov Control Processes. Springer–Verlag, New York.
Hernández–Lerma, O., Lasserre, J.B. (2001). Zero–sum stochastic games in

Borel spaces: average payoff criteria. SIAM J. Control Optim. 39, pp. 1520–
1539.
Hernández–Lerma, O., Romera, R. (2004a). The scalarization approach to mul-

tiobjective Markov control problems: why does it work? Appl. Math. Op-
tim. 50, pp. 279–293.
Hernández–Lerma, O., Romera, R. (2004b). Multiobjective Markov control pro-

cesses: a linear programming approach. Morfismos 8, to appear. (This pa-
per is an extended, more detailed, version of the paper by the same authors
(20004a).)
Isaacs, R. (1965). Differential Games. Wiley, New York.
Jasso–Fuentes, H. (2004). Noncooperative Continuous–Time Markov Games. M.Sc.

thesis, Departamento de Matemáticas, CINVESTAV–IPN.
Jorgensen, S., Sorger, G. (1990). Feedback Nash equilibria in a problem of opti-

mal fishery management. J. Optim. Theory Appl. 64, pp. 293–310.
77
Jorgensen, S., Yeung, D.W.K. (1996). Stochastic differential game model of a

common property fishery. J. Optim. Theory Appl. 90 pp. 381–403.
Josa–Fombellida, R., Rincón–Zapatero, J.P. (2005). A new approach to stochas-

tic control problems and applications to economics. Submitted to J. Optim.
Theory Appl.
Kaitala, V., Hamalainen, R.P., Ruusunen, J. (1985). On the analysis of equilibria

and bargaining in a fishery game. In Feichtinger (1985), pp. 593–606.
Kalai, E., Smorodinsky, M. (1975). Other solutions to Nash’s bargaining prob-

lem. Econometrica 43, pp. 513–518.
Kannan, D., Lakshmikantham, V., editors (2002). Handbook of Stochastic Analysis

and Applications. Dekker, New York.
Karatzas, I., Shreve, S.E. (1998). Methods of Mathematical Finance. Springer–

Verlag, New York.
Kirman, A.P., Sobel, M.J. (1974). Dynamic oligopoly with inventories. Eco-
nometrica 42, pp. 279–287.
Klompstra, M. (1992). Time Aspects in Games and in Optimal Control. Ph.D. The-
sis, Delft University of Technology.
Krawczyk, J.B., Shimomura, K. (2003). Why countries with the same funda-
mentals can have different growth rates. J. Econ. Dyn. Control 27, pp.
1899–19916.
Kuhn, H.W. Szegö, G.P., editors (1971). Differential Games and Related Topics.
North–Holland, Amsterdam.
Kushner, H.J. (2002). Numerical approximations for stochastic differential

games. SIAM J. Control Optim. 41, pp. 457–486.
Kushner, H.J. (2004). Numerical approximations for stochastic differential

games: the ergodic case. SIAM J. Control Optim. 42, pp. 1911–1933.
Lancaster, K. (1973). The dynamic inefficiency of capitalism. J. Political Economy

87, pp. 1092–1109.
78
Leitmann, G. (1974). Cooperative and Non–cooperative Many Players Differential

Games. Springer–Verlag, New York.
Le Van, C., Dana, R.–A. (2003). Dynamic Programming in Economics. Kluwer,

Boston.
Luque–Vásquez, F. (2002). Zero–sum semi–Markov games in Borel spaces: dis-

counted and average payoff. Bol Soc. Mat. Mexicana 8, pp. 227–241.
Luque–Vásquez, F., Minjárez–Sosa, J.A., Vega–Amaya, O. (1996). Introducción a

la Teorı́a de Control Estocástico. Departamento de Matemáticas, División de
Ciencias Exactas y Naturales, Universidad de Sonora.
Merton, R.C. (1969). Lifetime portfolio selection under uncertainty: the contin-
uous–time case. Rev. Economics and Statistics 51, pp. 247–257.
Nash, J. (1950a). Equilibrium points in N –person games. Proc. Natl. Acad. Sci.
36, pp. 48–49.
Nash, J. (1950b). The bargaining problem. Econometrica 18, pp. 155–162.
Nash, J. (1951). Noncooperative games. Ann. Math. 54, pp. 286–295.
Nash, J. (1953). Two–person cooperative games. Econometrica 21, pp. 128–140.
Neck, R. (1982). Dynamic systems with several decision makers. In Operations

Research in Progress, ed. by G. Feichtinger and P. Kall, Reidel, New York,
pp. 261–284.
Neck, R. (1985). A differential game model of fiscal and monetary policies:

conflict and cooperation. In Feichtinger (1985), pp. 607–632.
Neck, R. (1991). Non–cooperative equilibrium solution for a stochastic dy-

namic game of economic stabilization policies. Lecture Notes in Control and
Information Sciences 157, Springer–Verlag, Berlin, pp. 221–230.
Neyman, A., Sorin, S., editors (2003). Stochastic Games and Applications. Kluwer,
Dordrecht.
Nowak, A.S. (2003a). Zero–sum stochastic games with Borel state spaces. In
Neyman and Sorin (2003), pp. 77–91.
79
Nowak, A.S. (2003b). On a new class of nonzero–sum discounted stochastic

games having stationary Nash equilibrium points. Int. J. Game Theory 32,
pp. 121–132.
Nowak, A.S., Szajowski, P. (2003). On Nash equilibria in stochastic games of

capital accumulation. In Stochastic Games and Applications, Volume 9, edited
by L.A. Petrosjan and V.V. Mazalov, Nova Science, pp. 118–129.
Nowak, A.S., Szajowski, K., editors (2005). Advances in Dynamic Games. (Annals
of the International Society of Dynamic Games, vol. 7) Birkhauser, Boston.
Petrosyan, L.A. (2003). Bargaining in dynamic games. In Petrosyan and Yeung

(2003), pp. 139–143.
Petrosjan, L.A. (2005). Cooperative differential games. In Nowak and Sza-

jowski (2005), pp. 183–200.
Petrosjan, L.A. Zenkevich, N.A. (1996). Game Theory. World Scientific, Singa-
pore.
Petrosyan, L.A. Yeung, D.W.K., editors (2003). ICM Millennium Lectures on

Games. Springer–Verlag, Berlin.
Pohjola, M. (1983). Nash and Stackelberg solutions in a differential game model

of capitalism. J. Economic Dynamics and Control 6, pp. 173–186.
Poznyak, A.S. (2002a). Robust stochastic maximum principle: complete proof

and discussions. Math. Problems in Engineering 8, pp. 389–411.
Poznyak, A.S. (2002b). Robust stochastic maximum principle: a measure space

as uncertainty set. In Lecture Notes in Control and Information Sciences 280,
pp. 385–394.
Prieto–Rumeau, T., Hernández–Lerma, O. (2005a). The Laurent series, sen-

sitive discount and Blackwell optimality for continuous–time controlled
Markov chains. Math. Methods Oper. Res. 61, pp. 123–145.
Prieto–Rumeau, T., Hernández–Lerma, O. (2005b). A unified approach to con-

tinuous–time discounted Markov control processes. (Reporte Interno No.
356, CINVESTAV.) Submitted.
80
Prieto–Rumeau, T., Hernández–Lerma, O. (2005c). Bias and overtaking equi-

libria for zero–sum continuous–time Markov games. Math. Meth. Oper.
Res., to appear.
Ramachandran, K.M. (2002). Stochastic differential games and applications. In

Kannan and Lakshmikantam (2002), Chapter 8.
Ricci, G., editor (1991). Decision Processes in Economics. Lecture Notes in Eco-
nomics and Mathematical Systems 353, Springer–Verlag, Berlin.
Rincón–Zapatero, J.P. (2004). Characterization of Markovian equilibria in a

class of differential games. J. Econ. Dyn. Control 28, pp. 1243–1266.
Rincón–Zapatero, J.P., Martı́nez, J., Martı́n–Herrán, G. (1998). New method

to characterize subgame perfect Nash equilibria in differential games. J.
Optim. Theory Appl. 96, pp. 377–395.
Rincón–Zapatero, J.P., Martı́n–Herrán, G., Martı́nez, J. (2000). Identification of

efficient subgame-perfect Nash equilibria in a class of differential games.
J. Optim. Theory Appl. 104, pp. 235–242.
Roth, A.E. (1979). Axiomatic Models of Bargaining. Springer–Verlag, Berlin.
Roth, A.E. (1985). Game–Theoretic Models of Bargaining. Cambridge University

Press, Cambridge, U.K.
Samuelson, P.A. (1969). Lifetime portfolio selection by dynamic stochastic pro-

gramming. Rev. Economics and Statistics 51, pp. 239–246.
Schmitendorf, W.E. (1976). Differential games without pure strategy saddle–

point solutions. J. Optim. Theory Appl. 18, pp. 81–92.
Sethi, S.P., Thompson, G.L. (2000). Optimal Control Theory: Applications to Man-
agement Science and Economics, 2nd Edition. Kluwer, Boston.
Shapley, L. (1953). Stochastic games. Proc. Natl. Acad. Sci. 39, pp. 1095–1100.
(This paper is reproduced in Neyman and Sorin (2003), pp. 1–7.)
Shimomura, K. (1991). The feedback equilibria of a differential game of capi-

talism. J. Econ. Dyn. Control 15, pp. 317–338.
81
Stalford, H., Leitmann, G. (1973). Sufficiency conditions for Nash equilibrium

in N–person differential games. In Topics in Differential Games, edited by A.
Blaquière, North–Holland, New York.
Stokey, N.L., Lucas, R.E. (1989). Recursive Methods in Economic Dynamics. Har-
vard University Press, Cambridge, MA.
Sundaram, R.K. (1989). Perfect equilibria in a class of symmetric dynamic

games. J. Econ. Theory 47, pp. 153–177.
Tabak, D., Kuo, B.C. (1971). Optimal Control by Mathematical Programming. Pren-
tice Hall, Englewood Cliffs, N.J.
Tolwinski, B., Haurie, A., Leitmann, G. (1986). Cooperative equilibria in differ-

ential games. J. Math. Anal. Appl. 119, pp. 182–202.
Toussaint, S. (1985). The transversality condition at infinity applied to a prob-

lem of optimal resource depletion. In Feichtinger (1985), pp. 429–440.
Vaisbord, E.M., Zhukovskii, V.I. (1988). Introduction to Multi–Player Differential

Games and Their Applications. Gordon and Breach, New York.
Vega–Amaya, O. (2003). Zero–sum average semi–Markov games: fixed–point

solutions of the Shapley equation. SIAM J. Control Optim. 42, pp. 1876–
1894.
von Neumann, J., Morgenstern, O. (1944). The Theory of Games and Economic
Behavior. Princeton University Press, Princeton, N.J.
Wiecek, P. (2003). Convex stochastic games of capital accumulation with non-

divisible money unit. Scientia Mathematicae Japonica 57 (2003), pp. 397–411.
Wiecek, P. (2005). Continuous convex stochastic games of capital accumulation.

In Nowak and Szajowski (2005), pp. 111–125.
Yong, J., Zhou, X.Y. (1999). Stochastic Controls: Hamiltonian Systems and HJB
Equations. Springer–Verlag, New York.
Yu, P.L., Leitmann, G. (1974). Compromise solutions, domination structures

and Salukvadze’s solution. J. Optim. Theory Appl. 3, pp. 362–378.
82
Zariphopoulou, T. (2002). Stochastic control methods in asset pricing. In Kan-

nan and Lakshmikantam (2002), Chapter 12.
Zhukovskiy. V.I., Salukvadze, M.E. (1994). The Vector–Valued Maximin. Aca-

demic Press, Boston.

Minicurso Dinámica PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Minicurso Dinámica PDF

Cargado por

Copyright:

Formatos disponibles

EMALCA

CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

Parte 1: Problemas de control óptimo (juegos con un jugador)

2. Definición del problema de control óptimo 10

3. El principio del máximo 23

5. Control minimax (juegos contra la naturaleza) 41

Parte 2: Juegos cooperativos

8. El problema de negociación de Nash 55

Parte 3: Juegos no–cooperativos

10. Juegos simétricos y de suma cero 65

11. Juegos de Stackelberg 70

Observaciones sobre la bibliografı́a

La literatura sobre juegos estáticos es extensı́sima, pero para juegos dinámi-

• Para juegos diferenciales (determinı́sticos) una buena referencia es el libro de

• El libro de Basar y Olsder (1999) sólo considera equilibrios no–cooperativos,

• El libro de Filar y Vrieze (1997) estudia juegos estocásticos a tiempo discreto,

Un concepto fundamental en teorı́a de juegos es el de equilibrio de Nash,

• Lai, H.–C. Tanaka, K. (1984). On an N–person noncooperative Markov

Para juegos a tiempo continuo:

• Borkar, V.S., Ghosh, M.K. (1992). Stochastic differential games: an occu-

Por desgracia el resultado (erróneo) en este último artı́culo se ha reproducido en

• Ramachandran, K.M. (2002). Stochastic differential games and applica-

– Si A es una matriz, A0 = transpuesta de A.

– Los vectores se escribirán como matrices columna:

– Si x, y son vectores, x ≤ y significa que

– El producto escalar de vectores x, y se escribe x · y ó x0 y.

– Dada una función real f : IRn → IR y un vector

fx (vector fila) denota el gradiente de f , y fxx la matriz de segundas deri-

Si f : IRn → IRk es una función vectorial, fx = (∂fi /∂xj ) denota la matriz

Ejemplo 1.1: Oligopolios

Oligopolio: Mercado con pocos vendedores (también llamados productores o

Ejemplo 1.2. Un oligopolio a tiempo discreto, N firmas, [Kirman, Sobel (1974)].

xit := nivel de inventario de la firma i (i = 1, . . . , N ) al inicio del periodo t.

zti := cantidad que decide producir en el periodo t,

ρit := precio que anuncia.

• Demanda dit del producto de la firma i. La demanda puede ser deter-

• Modelo dinámico del juego: el estado xt = (x1t , . . . , xN

rti (· · · ) = ρit dit − hi · (yti − dit )+ − bi · (dit − yti )+ − ci zti , (1.2)

donde hi , bi , ci son constantes dadas que representan, respectivamente, cos-

Una estrategia del jugador i es una regla, digamos π i = {πti , t = 0, 1, . . .},

Una multiestrategia es un vector π = (π 1 , . . . , π N ) donde π i es una estrategia

En un juego con horizonte infinito se tendrı́a (e.g.)

donde 0 < αi < 1 es un “factor de descuento”.

• En principio, cada jugador o firma desea “maximizar” su ganancia neta.

Ejemplo 1.3. Un duopolio a tiempo continuo con “sticky prices” [Dockner et

• Para i = 1, 2, ai (t) ≥ 0 es la tasa de producción de la firma i.

• El precio de mercado (del producto) varı́a de acuerdo con la función de

• El precio es pegajoso, lo cual significa que el precio de mercado no se ajusta

donde s > 0 es el parámetro de rapidez de ajuste del precio.

• La función de costo de producción es la misma para ambas firmas:

• Dada una multiestrategia π = (a1 (·), a2 (·)) la función objetivo de la firma

En general, en un juego LQ a tiempo discreto el estado evoluciona de acuerdo

xt+1 = At xt + Bt at + ξt para t = 0, 1, . . . (1.7)

donde xt y at son vectores que representan, respectivamente, el estado del juego

Parte 1. Problemas de control óptimo

2 Definición del problema de control óptimo

En un PCO debemos especificar:

1. cómo evoluciona el sistema de interés; es decir, se debe especificar el modelo

2. cómo se va a controlar el sistema; es decir, se debe especificar el conjunto de

3. restricciones adicionales (por ejemplo, en el estado del sistema o en las estrate-

En esta sección describiremos las componentes 1 a 4 de un PCO.

Sistemas a tiempo discreto:

xt+1 = F (xt , at , ξt ) para t = 0, 1, . . . , T, (2.1)