Está en la página 1de 82

EMALCA

CIMAT, Guanajuato
Agosto 1–12, 2005

CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

Onésimo Hernández–Lerma
Departamento de Matemáticas
CINVESTAV–IPN
México, D.F.

Resumen: Estas son notas para un mini–curso (de 7.5 horas, aproximadamente)
introductorio sobre algunos aspectos de los juegos dinámicos, incluyendo juegos
determinı́sticos y estocásticos, a tiempo discreto y tiempo continuo. Se presenta
una breve introducción a problemas de control óptimo y después se ven los
principales tipos de equilibrios cooperativos y equilibrios no–cooperativos. El
curso está dirigido a estudiantes avanzados de licenciatura o principiantes de
posgrado. No es necesario que los estudiantes satisfagan ningún requisito en
particular, sólo que no se asusten si oyen frases como “ecuación diferencial”,
“variable aleatoria”, etc.
2

CONTENIDO

1. Introducción 6

Parte 1: Problemas de control óptimo (juegos con un jugador)

2. Definición del problema de control óptimo 10


Procesos de Markov
Procesos de control markovianos

3. El principio del máximo 23

4. Programación dinámica 32

5. Control minimax (juegos contra la naturaleza) 41

Parte 2: Juegos cooperativos

6. Equilibrios de Pareto 45

7. Equilibrios de compromiso 51

8. El problema de negociación de Nash 55

Parte 3: Juegos no–cooperativos

9. Equilibrios de Nash 59

10. Juegos simétricos y de suma cero 65

11. Juegos de Stackelberg 70

Referencias 73
3

Observaciones sobre la bibliografı́a

La literatura sobre juegos estáticos es extensı́sima, pero para juegos dinámi-


cos está limitada a artı́culos sobre casos especiales y a un puñado de libros, como
los siguientes.

• Para juegos diferenciales (determinı́sticos) una buena referencia es el libro de


Dockner et al. (2000). Algunos libros clásicos en este tema son los de Isaacs
(1965) y Leitmann (1974), aunque el primero sólo trata juegos de suma cero.

• El libro de Basar y Olsder (1999) sólo considera equilibrios no–cooperativos,


pero tiene la “ventaja” de que estudia algunos tipos de juegos diferenciales tanto
determinı́sticos como estocásticos y, además, juegos a tiempo discreto. La “desven-
taja” es que el material y su presentación son un tanto arcaicos, porque el libro
se escribió originalmente en 1982 y entre esa fecha y la de la segunda edición, en
1999, han habido muchos nuevos desarrollos.

• El libro de Filar y Vrieze (1997) estudia juegos estocásticos a tiempo discreto,


con espacio de estados finito.

Por supuesto, algunos textos de teorı́a de juegos incluyen “algo” sobre juegos
dinámicos, por ejemplo, Fudenberg y Tirole (1991), Gibbons (1992), Petrosjan y
Zenkevich (1996).

Advertencia

Un concepto fundamental en teorı́a de juegos es el de equilibrio de Nash,


también conocido como equilibrio no–cooperativo, introducido por John Nash
(1950). Para juegos dinámicos, la existencia de tales equilibrios se conoce en
una variedad de casos especiales, pero para juegos con espacio de estados no–
numerable sigue siendo un problema abierto. Lamentablemente, hay publica-
ciones que aseguran la existencia de equilibrios de Nash pero cuyas demostra-
ciones son incorrectas. Ejemplos de estas publicaciones, para juegos a tiempo
discreto, son los artı́culos:

• Lai, H.–C. Tanaka, K. (1984). On an N–person noncooperative Markov


game with a metric state space. J. Math. Anal. Appl. 101, pp. 78–96.
4

• Sobel, M.J. (1973). Continuous stochastic games. J. Appl. Prob. 10, pp.
597–604.

Para juegos a tiempo continuo:

• Borkar, V.S., Ghosh, M.K. (1992). Stochastic differential games: an occu-


pation measure based approach. J. Optim. Theory Appl. 73, pp. 359–385;
correction: ibid, 88 (1996), pp. 251–252.

Por desgracia el resultado (erróneo) en este último artı́culo se ha reproducido en


trabajos posteriores, por ejemplo:

• Ramachandran, K.M. (2002). Stochastic differential games and applica-


tions. Chapter 8 in Handbook of Stochastic Analysis and Applications, ed. by
D. Kannan and V. Lakshmikantan, Marcel Dekker, New York.

Los equilibrios de Nash están entre los muchı́simos conceptos que son tri-
viales de analizar para juegos estáticos o juegos repetidos, pero que para juegos
dinámicos (con espacio de estados no–numerable) han permanecido casi “into-
cables” hasta la fecha.
5

Indice de notación

– Si A es una matriz, A0 = transpuesta de A.

– Los vectores se escribirán como matrices columna:


x = (x1 , . . . , xn )0 .

– Si x, y son vectores, x ≤ y significa que


xi ≤ yi para todo i.

– El producto escalar de vectores x, y se escribe x · y ó x0 y.

– Dada una función real f : IRn → IR y un vector


x = (x1 , . . . , xn )0 , las derivadas parciales se denotarán con subı́ndices:

fxi = ∂f /∂xi .

fx (vector fila) denota el gradiente de f , y fxx la matriz de segundas deri-


vadas parciales (la matriz Hessiana), es decir,

fx = (fx1 , . . . , fxn ),
fxx = (fxi xj ).

Si f : IRn → IRk es una función vectorial, fx = (∂fi /∂xj ) denota la matriz


Jacobiana.
6

1 Introducción
En esta sección se presentan algunos ejemplos que servirán para motivar e ilus-
trar algunos de los conceptos que se introducirán en secciones posteriores.

Ejemplo 1.1: Oligopolios

Oligopolio: Mercado con pocos vendedores (también llamados productores o


firmas) y muchos compradores.

Ejemplos de oligopolios:
• Servicios de transporte (autobuses, aerolı́neas, ...)
• Mercados de energéticos (gas, petróleo, electricidad, ...)
• Bebidas (refrescos, cerveza, ...), etc.
El hecho de que haya pocos vendedores implica que las acciones de cua-
lesquiera de ellos afecta el precio del producto y, por lo tanto, tiene un impacto
medible sobre los competidores.
Casos especiales:
• Duopolio: El duopolio de Cournot (1838) fue la primera aplicación de
teorı́a de juegos a economı́a.
• Monopolio (una única firma): en este caso el “juego” se reduce a un pro-
blema de control óptimo que se estudia en el contexto de sistemas de pro-
ducción. 2

Ejemplo 1.2. Un oligopolio a tiempo discreto, N firmas, [Kirman, Sobel (1974)].


En cada tiempo t = 0, 1, . . . tenemos:
• Estado del juego: xt = (x1t , . . . , xN
t ), donde

xit := nivel de inventario de la firma i (i = 1, . . . , N ) al inicio del periodo t.


• Acción de control de la firma i : ait = (zti , ρit ) donde

zti := cantidad que decide producir en el periodo t,

ρit := precio que anuncia.


1. INTRODUCCIÓN 7

• Demanda dit del producto de la firma i. La demanda puede ser deter-


minı́stica, estocástica o incierta.

• Modelo dinámico del juego: el estado xt = (x1t , . . . , xN


t ) satisface

xt+1 = xt + zt − dt ∀ t = 0, 1, . . . . (1.1)

• Ganancia neta de la firma i : rti (xit , ait , dit ). Por ejemplo, si yti := xit + zti ,
entonces

rti (· · · ) = ρit dit − hi · (yti − dit )+ − bi · (dit − yti )+ − ci zti , (1.2)

donde hi , bi , ci son constantes dadas que representan, respectivamente, cos-


tos unitarios de almacenamiento, de penalización (por no satisfacer la de-
manda total) y de producción.

Una estrategia del jugador i es una regla, digamos π i = {πti , t = 0, 1, . . .},


que en cada tiempo t le dice al jugador que acción tomar, digamos, ait = (zti , ρit ).

πti
Información −→ Acciones ait

Una multiestrategia es un vector π = (π 1 , . . . , π N ) donde π i es una estrategia


del jugador i.

Sea Vi (π, x0 ) la ganancia neta total del jugador i, dado que las firmas usan la
multiestrategia π = (π 1 , . . . , π N ) y los inventarios iniciales son x0 = (x10 , . . . , xN0 ).
Por ejemplo, en un juego con horizonte finito T ,
"T −1 #
V (π, x ) := E π
X
i 0 x0 ri (xi , ai , di ) + ri (xi ) .
t t t t T T (1.3)
t=0

En un juego con horizonte infinito se tendrı́a (e.g.)


"∞ #
V (π, x ) := E π
X
i 0αt ri (xi , ai , di )
x0 i t t t t (1.4)
t=0

donde 0 < αi < 1 es un “factor de descuento”.


8

• En principio, cada jugador o firma desea “maximizar” su ganancia neta.

Sin embargo, la regla es que no existen multiestrategias que satisfagan tal condi-
ción. Por tal motivo, en teorı́a de juegos se habla de equilibrios en lugar de
multiestrategias “óptimas”.
• En el caso estocástico, el oligopolio anterior es un caso especial de cier-
tos juegos a tiempo discreto conocidos como juegos estocásticos o juegos
markovianos, introducidos por Shapley (1953). 2

Ejemplo 1.3. Un duopolio a tiempo continuo con “sticky prices” [Dockner et


al. (2000)]
• N = 2 firmas; el producto es homogéneo.

• Para i = 1, 2, ai (t) ≥ 0 es la tasa de producción de la firma i.

• El precio de mercado (del producto) varı́a de acuerdo con la función de


demanda α − [a1 (t) + a2 (t)], donde α > 0 es una constante.

• El precio es pegajoso, lo cual significa que el precio de mercado no se ajusta


instantaneamente al precio indicado por la función de demanda; de hecho,
la tasa de cambio del precio p(t) es

ṗ(t) = s{α − [a1 (t) + a2 (t)] − p(t)} para t > 0, p(0) = p0 , (1.5)

donde s > 0 es el parámetro de rapidez de ajuste del precio.

• La función de costo de producción es la misma para ambas firmas:


1
C(ai ) := c ai + a2i , con 0 < c < α constante.
2

• Dada una multiestrategia π = (a1 (·), a2 (·)) la función objetivo de la firma


i (i = 1, 2) es
Z ∞
1
Vi (π) := e−rt [p(t)ai (t) − c ai (t) − a2i (t)]dt, (1.6)
0 2
donde r > 0 es el factor de descuento. Cada firma desea maximizar su
función objetivo (1.6) sujeta a (1.5) y ai (·) ≥ 0. 2
1. INTRODUCCIÓN 9

Ejemplo 1.4: Juegos LQ. El juego (1.5)–(1.6) es un ejemplo de juego LQ, del
inglés: Linear system, Quadratic cost. Este tipo de juegos es muy importante
debido a sus múltiples aplicaciones y, sobre todo, porque en muchos casos se
pueden resolver explı́citamente.

En general, en un juego LQ a tiempo discreto el estado evoluciona de acuerdo


a una ecuación de la forma

xt+1 = At xt + Bt at + ξt para t = 0, 1, . . . (1.7)

donde xt y at son vectores que representan, respectivamente, el estado del juego


y el vector de acciones de los jugadores, y los coeficientes At y Bt son matrices
de dimensiones adecuadas. El vector ξt en (1.7) representa “perturbaciones”, ya
sean determinı́sticas o estocásticas. Asimismo, en el caso LQ la función rti en
(1.3) ó (1.4) resulta ser cuadrática en el estado xt y cuadrática en el vector at de
acciones de control, digamos (escribiendo y 0 por la transpuesta de una matriz o
vector y),
cit (xt , at ) = x0t Qit xt + a0t Rti at (1.8)
donde Qit es una matriz simétrica y definida no–negativa, y Rti es simétrica y
definida positiva. La función “terminal” rTi en (1.3) también es cuadrática, di-
gamos rTi (xT ) = x0T STi xT , con STi matriz simétrica definida no–negativa.
10

Parte 1. Problemas de control óptimo

2 Definición del problema de control óptimo


Un problema de control óptimo (PCO) es un juego dinámico con un jugador. En
particular, los Ejemplos 1.2 y 1.3 con N = 1 se reducen a PCOs.

En un PCO debemos especificar:

1. cómo evoluciona el sistema de interés; es decir, se debe especificar el modelo


dinámico del sistema;

2. cómo se va a controlar el sistema; es decir, se debe especificar el conjunto de


estrategias admisibles, también llamadas polı́ticas de control o simplemente
polı́ticas o estrategias;

3. restricciones adicionales (por ejemplo, en el estado del sistema o en las estrate-


gias), si es necesario hacerlas;

4. cómo se va a “medir” la respuesta del sistema a cada una de las distintas es-
trategias admisibles; es decir, se debe especificar la función objetivo, también
llamada ı́ndice de funcionamiento.

Dadas estas cuatro componentes, el PCO se puede resumir como sigue: optimizar
la función objetivo sujeta a las restricciones en 1, 2 y 3.

En esta sección describiremos las componentes 1 a 4 de un PCO.

Definición 2.1: El modelo dinámico. Los modelos más comunes (aunque no los
únicos) son los siguientes.

Sistemas a tiempo discreto:

xt+1 = F (xt , at , ξt ) para t = 0, 1, . . . , T, (2.1)

con condición inicial x0 = x, donde T ≤ ∞ es el horizonte del problema, y las


ξt son “perturbaciones”. Dependiendo de las ξt , se dice que (2.1) representa un

• sistema estocástico si las ξt son variables aleatorias;


2. DEFINICIÓN DEL PROBLEMA DE CONTROL ÓPTIMO 11

• sistema determinı́stico si las ξt forman una sucesión de constantes con


valores conocidos;

• sistema incierto si se sabe que las ξt son constantes con valores en algún
conjunto dado, pero no se conoce el valor particular de cada ξt .
En todo caso (incluyendo los modelos a tiempo continuo que veremos a con-
tinuación), el conjunto en donde toman sus valores las variables xt se llama el
espacio de estados del PCO y lo denotaremos por X. Para fijar ideas supon-
dremos que X es un subconjunto cerrado de IRd para algún entero d ≥ 1. (Más
generalmente, basta suponer que X es un espacio de Borel, es decir, un subcon-
junto de Borel de un espacio métrico separable y completo.)

Sistemas a tiempo continuo:


• Caso determinı́stico:

ẋt = F (t, xt , at ) para 0 ≤ t ≤ T, (2.2)

con T ≤ ∞ y condición inicial dada x0 = x.

• Caso estocástico: este caso admite una gran diversidad de modelos. El


más estudiado es el de una ecuación diferencial estocástica

dxt = F (t, xt , at )dt + σ(t, xt , at )dWt , 0 ≤ t ≤ T, x0 = x, (2.3)

con T ≤ ∞, y Wt es un proceso de Wiener. El estado inicial x0 puede ser


determinı́stico o estocástico. Otros modelos estocásticos a tiempo continuo
son las cadenas de Markov, los procesos de Lévy, los procesos hı́bridos (e.g., el
sistema (2.3) pero, además, con una componente de saltos),...

Definición 2.2: Estrategias admisibles. Una estrategia de control, digamos π =


{at }, generalmente se especifica imponiendo restricciones
(a) en las acciones de control at directamente, y/o

(b) en la información que puede o debe usar el controlador en cada tiempo t.


Por ejemplo, en (a), un caso muy común es pedir

at ∈ A(xt ) ∀ t, (2.4)
12

donde A(x) es el conjunto de acciones factibles cuando el estado es x.

Con respecto a (b), un caso muy general es el de una estrategia no–anticipan-


te, también conocida como estrategia con memoria (memory strategy), en la
que, en cada tiempo t, la acción at depende de “toda la historia del proceso
hasta el tiempo t”. Por ejemplo, en un PCO a tiempo discreto tenemos
at = g(t, x0 , . . . , xt , a0 , . . . , at−1 ),
donde g es una función dada. El otro extremo es cuando g depende de t única-
mente,

a x
- sistema -

 controlador 

Figura 2.1. Un esquema de retroalimentación.

t at
- controlador -

Figura 2.2. Una estrategia de lazo abierto.

es decir,
at = g(t) ∀ t, (2.5)
en cuyo caso se dice que π es una estrategia de lazo abierto (open loop). Si g
depende sólo de t y xt , es decir,
at = g(t, xt ) ∀ t, (2.6)
2. DEFINICIÓN DEL PROBLEMA DE CONTROL ÓPTIMO 13

decimos que π es una estrategia de retroalimentación (feedback), también lla-


mada estrategia de lazo cerrado (closed loop) o estrategia markoviana. Si ade-
más g no depende de t, i.e.
at = g(xt ) ∀ t, (2.7)
entonces π es una estrategia markoviana estacionaria.

Las estrategias mencionadas se dice que son determinı́sticas, y generalmente


son “suficientes” para estudiar problemas de control. Sin embargo, en algunos
problemas de control con restricciones o en problemas de juegos es indispensa-
ble usar estrategias aleatorizadas, también conocidas como estrategias mixtas
o controles relajados (relaxed controls), en las que cada acción de control at es
una variable aleatoria con una distribución de probabilidad φt concentrada en
el conjunto A(xt ) en (2.4), lo cual denotamos como

at ∼ φt (·). (2.8)

Más explı́citamente, φt (B) := Prob (at ∈ B) para B ⊂ A(xt ). En algunos casos,


la distribución φt depende no sólo del tiempo t sino también del estado xt . En
este caso escribimos
at ∼ φt (·|xt ) ∀ t. (2.9)
Las estrategias en (2.8) y (2.9) son la versión aleatorizada (o “relajada”) de las
estrategias de lazo abierto y de lazo cerrado en (2.5) y (2.6), respectivamente.

Para cada estado x ∈ X, el conjunto de acciones factibles A(x) en (2.4) es un


subconjunto cerrado de un espacio A que se llama el espacio de acciones. A
menos que se especifique lo contrario, supondremos que A es un subconjunto
cerrado de IRm para algún m ≥ 1. (Más generalmente, basta suponer que A es
un espacio de Borel.)

Definición 2.3. Restricciones adicionales. Estas restricciones pueden depender


de la naturaleza del PCO. Por ejemplo, en un problema de control de pobla-
ciones (e.g. pesquerı́as, epidemias, etc.) el estado xt del sistema es el tamaño
de la población al tiempo t, y obviamente se debe pedir una condición de no–
negatividad,
xt ≥ 0 ∀ t.
Esta misma restricción se debe cumplir en problemas de control de recursos re-
novables (e.g. agua, bosques) o no–renovables (e.g. petróleo, minerales), o en
14

problemas financieros en los que el estado es un capital. En otras situaciones se


puede requerir que el estado terminal xT pertenezca a un cierto conjunto K, i.e.
xT ∈ K.

Otro caso muy común es cuando se desea optimizar una cierta función obje-
tivo, digamos V0 (π), sobre todas las estrategias π para las que

Vi (π) ≤ bi ∀ i = 1, . . . , n, (2.10)

donde las Vi (·) son funciones dadas y las bi son constantes. Por ejemplo, en un
problema de control de producción, tı́picamente se desea maximizar la ganan-
cia neta V0 (π) sujeta a que ciertos costos Vi (π) (e.g. costos de manufactura, de
almacenamiento, de distribución, etc.) están acotados por arriba, como en (2.10).

Definición 2.4. La función objetivo o ı́ndice de funcionamiento. Para un PCO


determinı́stico a tiempo discreto, ejemplos tı́picos de función objetivo son: para
cada estrategia π = {at } y cada estado inicial x0 = x,

• costo total con horizonte finito T :


T −1
X
V (π, x) := c(xt , at ) + CT (xT ), (2.11)
t=0

donde c(x, a) es el costo por etapa, y CT (x) es el costo terminal

• costo total descontado con horizonte infinito:



X
V (π, x) := αt c(xt , at ), (2.12)
t=0

donde 0 < α < 1 es el factor de descuento.

En un PCO estocástico a tiempo discreto se debe tomar la esperanza en el


lado derecho de (2.11) y (2.12); por ejemplo, en lugar de (2.11) tendrı́amos
"T −1 #
X
V (π, x) := E c(xt , at ) + CT (xT ) . (2.13)
t=0
2. DEFINICIÓN DEL PROBLEMA DE CONTROL ÓPTIMO 15

En un PCO a tiempo continuo las sumatorias en (2.11) y (2.12) se reemplazan


por integrales. Por ejemplo, en el caso de horizonte finito
Z T
V (π, x) := c(xt , at )dt + CT (xT ). (2.14)
0

Si además el PCO es estocástico, se debe tomar la esperanza en el lado derecho,


i.e. Z T 
V (π, x) = E c(xt , at )dt + CT (xT ) . (2.15)
0
En teorı́a de juegos, a una función objetivo también se le llama función de
pago (payoff function).

Finalmente, como ya mencionamos al principio de esta sección, en un PCO


se especifican la función objetivo V (π, x) (alguna de las funciones (2.11) a (2.15))
y el conjunto, digamos Π, de estrategias admisibles y entonces el PCO consiste
en optimizar (ya sea minimizar o maximizar) V (π, x) sobre todas las estrategias
π ∈ Π para las que el proceso de estados {xt } sigue el modelo dinámico corres-
pondiente (e.g. (2.1) a (2.3)) y satisface las restricciones adicionales (e.g. (2.10)),
si las hay. A la función
V ∗ (x) := inf V (π, x) ∀ x ∈ X, (2.16)
π∈Π

se le llama la función de valor del PCO. En el caso de “costos”, como en (2.11)–


(2.15), a V ∗ (x) también se le llama función de costo mı́nimo. Si en lugar de
costos tenemos “ganancias” o “utilidades” que se desean maximizar, entonces
en lugar de (2.16) la función de valor es
V ∗ (x) := sup V (π, x) (2.17)
π∈Π

y se le llama también la función de ganancia (o de utilidad) máxima.

En todo caso, si existe una estrategia π ∗ ∈ Π tal que


V ∗ (x) = V (π ∗ , x) ∀ x ∈ X, (2.18)
se dice que π ∗ es una estrategia óptima.

Ejemplo 3.5. El siguiente PCO se conoce como problema de selección de porta-


folio (de inversión) o como problema de inversión y consumo, y se puede
16

plantear a tiempo discreto o a tiempo continuo.

Tiempo discreto. Considérese un mercado financiero con dos tipos de ac-


tivos:
• un activo libre de riesgos (e.g. algún tipo de bonos o CETES = Certificados
de la Tesorerı́a) con una tasa fija de interés r > 0, y
• un activo con riesgo (e.g. algún tipo de acciones) con una tasa aleatoria de
interés ξt ≥ 0. Obviamente, pedimos que E(ξt ) > r.
La variable de estado es el capital xt de un cierto inversionista, que en cada
tiempo t (t = 0, 1, . . . , T ≤ ∞) debe decidir cuanto consumir y cuanto invertir.
Entonces las acciones de control son
at = (ct , pt ) ∈ [0, xt ] × [0, 1], (2.19)
donde
• ct := cantidad que el inversionista decide consumir,
• pt := fracción de xt − ct que decide invertir en el activo con riesgo, de modo
que 1 − pt es la fracción de xt − ct que invertirá en el activo sin riesgo.
El conjunto A(x) := [0, x] × [0, 1] en (2.19) es el conjunto de “acciones factibles”,
como en (2.4).

El modelo dinámico del sistema es


xt+1 = [(1 − pt )(1 + r) + pt ξt ](xt − ct ) ∀ t = 0, 1, . . . (2.20)
con condición inicial x0 = x > 0. Una función objetivo tı́pica es una “utilidad de
consumo” " T #
X
V (π, x) := Exπ αt U (ct ) (2.21)
t=0
donde T ≤ ∞, α ∈ (0, 1) es el factor de descuento, y U (c) es una función de
utilidad. El PCO consiste en maximizar la función en (2.21) sobre todas las es-
trategias π = {at } con at como en (2.19), bajo la “restricción” (2.20).

Tiempo continuo. En este caso el precio b(t) del activo sin riesgo (el bono,
digamos) varı́a de acuerdo a una ecuación diferencial ordinaria
db(t) = rb(t)dt.
2. DEFINICIÓN DEL PROBLEMA DE CONTROL ÓPTIMO 17

con r > 0, mientras que el precio s(t) del activo con riesgo (el “stock”) está dado
por una ecuación diferencial estocástica

ds(t) = s(t)[mdt + σdw(t)],

donde m > r y σ > 0 son constantes, y w(·) es un proceso de Wiener estándar.


Las acciones de control a(t) = (c(t), p(t)) tienen la misma interpretación que en
(2.19). El modelo de sistema, en lugar de (2.20), ahora resulta ser la ecuación
diferencial estocástica.

dx(t) = (1 − p(t))x(t)r dt + p(t)x(t)[m dt + σdw(t)] − c(t)dt, (2.22)

con x(0) = x > 0. Los tres términos en el lado derecho de (2.22) corresponden,
respectivamente, a la ganancia por el capital invertido en el bono, la ganancia
por la inversión en el stock, y la disminución del capital debida al consumo.

Por último, la función objetivo que se desea optimizar es de nuevo como en


(2.21), pero en “tiempo continuo”, i.e.
Z T 
−ρt
V (π, x) := Exπ e U (c(t))dt , (2.23)
0

donde ρ > 0 es el factor de descuento.

Nótese que en (2.20) necesariamente se tiene xt ≥ 0 para todo t, si x0 = x > 0,


mientras que en (2.22) la condición de no–negatividad no es evidente (por las
propiedades del proceso w(·)); se debe imponer la condicional adicional x(t) ≥ 0.
Otra forma de asegurar la condición de no–negatividad consiste en sustituir el
tiempo terminal T en (2.23) por el tiempo aleatorio

τ := min{T, τ0 },

donde τ0 := inf{t ≥ 0 | x(t) = 0} es el primer tiempo en el que el proceso x(·)


llega a cero.

Las aplicaciones del control óptimo a problemas de finanzas se iniciaron con


los trabajos de Samuelson (1969) y Merton (1969) para problemas a tiempo dis-
creto y tiempo continuo, respectivamente. Actualmente, dichas aplicaciones son
18

material estándar; ver e.g. Fleming y Rishel (1975), Fleming y Soner (1992), Sethi
y Thompson (2000), Karatzas y Shreve (1998), Zariphopoulou (2002).

Procesos de Markov

Para motivar la definición de “proceso de Markov”, considérese la ecuación


diferencial ordinaria, en IRn ,
ẋ(t) = F (x(t)) ∀ t ≥ 0, con x(0) = x0 . (2.24)
(La función F podrı́a depender del tiempo t.) Bajo ciertas hipótesis sobre F , esta
ecuación tiene una solución única
Z s
x(s) = x0 + F (x(r))dr ∀ s ≥ 0.
0

Además, para t > s ≥ 0 tenemos


Z t
x(t) = x(s) + F (x(r))dr. (2.25)
s

Interpretando a s como el “tiempo presente” y a t > s como el “tiempo futuro”,


la ecuación (2.25) dice que el estado presente x(s) determina el futuro x(t); o bien,
que dado el estado presente x(s), el futuro x(t) es independiente del pasado x(r), para
r < s. Por este motivo se dice que (2.25) es una condición de causalidad (el
presente determina el futuro); también se dice que el sistema determinı́stico x(·)
no tiene memoria o que satisface la condición de Markov (también llamada
propiedad de Markov).

Para procesos estocásticos la condición de Markov se expresa de manera si-


milar a (2.25). Por ejemplo, si x• = {xt , t ≥ 0} es un proceso estocástico a tiempo
continuo, con valores en algún espacio de estados X, se dice que x• satisface la
condición de Markov o que x• es un proceso de Markov si para todo conjunto
B ⊂ X y tiempos t ≥ s ≥ 0 se tiene
P(xt ∈ B | xr ∀ 0 ≤ r ≤ s) = P(xt ∈ B | xs ). (2.26)
En particular, comparando esta expresión con (2.25) vemos que el sistema deter-
minı́stico x(·) es un proceso de Markov. Los procesos de Markov incluyen las
soluciones de ecuaciones diferenciales estocásticas
dxt = F (xt )dt + σ(xt )dWt , (2.27)
2. DEFINICIÓN DEL PROBLEMA DE CONTROL ÓPTIMO 19

bajo ciertas hipótesis sobre los coeficientes F y σ, los cuales pueden depender
también del tiempo t, no sólo del estado xt (vea (2.3)). Otros ejemplos son las
cadenas de Markov (cuyo espacio de estados es un conjunto numerable), los
procesos de Lévy, ...

Para un proceso estocástico a tiempo discreto, x• = {xt , t = 0, 1, . . .} con


espacio de estados X, la propiedad de Markov se puede escribir como:

P(xt+1 ∈ B | x0 , . . . , xt ) = P(xt+1 ∈ B | xt ) (2.28)

para todo t = 0, 1, . . . y B ⊂ X. Esta es una probabilidad de transición en un


paso, de t a t + 1, pero se puede demostrar que es equivalente a una condición en
k pasos, de t a t + k, para k = 1, 2, . . .

Un proceso de Markov a tiempo discreto también se conoce como cadena de


Markov.

En muchı́simas aplicaciones, una cadena de Markov x• = {xt , t = 0, 1, . . .} se


define mediante una ecuación de diferencias

xt+1 = F (xt , ξt ) ∀ t = 0, 1, . . . ; x0 dado, (2.29)

donde {ξt } es una sucesión de variables aleatorias independientes, con valores


en algún conjunto S, e independientes del estado inicial x0 , y F : X × S → X
es una función dada. Por ejemplo, un proceso muy común es el proceso autore-
gresivo de primer orden definido por

xt+1 = G(xt ) + ξt , (2.30)

también conocido como proceso con “ruido aditivo”. Un caso especial son los
sistemas lineales
xt+1 = Γxt + ξt
con X = S = IRn y Γ una matriz cuadrada de orden n.

Procesos de control markovianos: tiempo discreto

Sea x• = {xt , t = 0, 1, . . .} un proceso controlado con valores es un espacio


X. Por analogı́a con la propiedad de Markov (2.28), se dice que x• es un proceso
de control markoviano (PCM) si para cualquier estrategia π = {at , t = 0, 1, . . .}
20

y cualquier t = 0, 1, . . . , la distribución de x• en el tiempo t + 1, dada toda la


“historia del proceso hasta el tiempo t” depende sólo del estado y la acción en el
tiempo t, es decir

Prob(xt+1 ∈ B | x0 , a0 , . . . , xt , at ) = Prob(xt+1 ∈ B | xt , at )
=: Q(B|xt , at ) (2.31)

para todo B ⊂ X. La función Q en (2.31), i.e.

Q(B|x, a) := Prob(xt+1 ∈ B | xt = x, at = a) (2.32)

se llama la ley de transición del PCM.

Por ejemplo, supóngase que tenemos variables aleatorias i.i.d. ξt como en


(2.29), e independientes de x0 . Para cualquier estrategia dada π = {at }, defini-
mos el proceso xπ• = {xt } como

xt+1 = G(xt , at , ξt ) ∀ t = 0, 1, . . . ; x0 dado, (2.33)

donde G : X × A × S → X es una función dada (compare con (2.29)). Entonces x•


es un PCM y su ley de transición Q se puede calcular mediante la distribución
común de las vv.aa. ξt . Nótese también que si π es una estrategia markoviana (por
ejemplo como en (2.6) ó (2.7)), entonces x• es una cadena de Markov. En efecto, si
at = g(xt ) para todo t = 0, 1, . . ., entonces (2.33) resulta

xt+1 = G(xt , g(xt ), ξt ) ∀ t = 0, 1, . . . , (2.34)

de modo que x• es precisamente de la forma (2.29).

Observe que el sistema lineal (1.7) y el modelo de inversión y consumo (2.20)


son ambos PCMs, porque son de la forma (2.33).

Un hecho muy importante es que un PCM se puede describir de manera


concisa mediante un modelo de control (MC) markoviano

M C := (X, A, Q, c), (2.35)

donde X es el espacio de estados del PCM, A es el conjunto de acciones, Q es la ley de


transición (en (2.32)), y c : X × A → IR es la función de costo por etapa que se usa
para definir la función objetivo de interés, como en (2.11)–(2.13). Algunas veces
2. DEFINICIÓN DEL PROBLEMA DE CONTROL ÓPTIMO 21

es necesario añadir componentes al modelo de control. Por ejemplo, si conside-


ramos un costo terminal CT (x) como es (2.13), quizás convendrı́a reescribir (2.35)
como
M C = (X, A, Q, c, CT ).
Si además hay restricciones en los controles como en (2.4), entonces escribirı́a-
mos
M C = (X, A, {A(x)|x ∈ X}, Q, c, CT ).
En fin, el modelo de control markoviano se puede adaptar a cada problema par-
ticular que se esté analizando.

Procesos de control markovianos: tiempo continuo

Sea x• = {xt , 0 ≤ t ≤ T } un proceso controlado, el cual depende por supuesto


de la estrategia particular π = {at , 0 ≤ t ≤ T } que se esté usando. Decimos que
x• es un proceso de control markoviano (PCM) a tiempo continuo si cuando π
es una estrategia markoviana, el proceso x• resulta ser proceso de Markov. (Esta
definición es una extensión de la idea que usamos en (2.3.4).)

Un PCM a tiempo continuo también se puede representar mediante un mo-


delo de control (MC) markoviano, pero el asunto es un poco más complicado
que a tiempo discreto porque, en lugar de la ley de transición Q en (2.35), debe-
mos especificar el generador infinitesimal La (a ∈ A) del PCM, es decir, en
lugar de (2.35) ahora tenemos

M C = (X, A, La , c), (2.36)

donde La es un operador definido sobre algún conjunto adecuado de funciones.

Por ejemplo, el sistema determinı́stico (2.2) es un PCM porque si π = {at } es


una estrategia markoviana, digamos at = g(t, xt ), entonces (2.2) se reduce a una
ecuación diferencial ordinaria

ẋt = F (t, xt , g(t, xt )) ≡ G(t, xt ).

En este caso el generador infinitesimal asociado a (2.2) es el operador

La v(x) := F (t, x, a) · vx (2.37)


22

definido para cierta subfamilia de funciones v(x) de clase C 1 .

Análogamente, la ecuación diferencial estocástica (2.3) también define un


PCM — bajo hipótesis adecuadas sobre F (t, x, a), σ(t, x, a) y at — y el gene-
rador La resulta ser
1
La v(x) := F (t, x, a) · vx + T r[D(t, x, a)vxx ], (2.38)
2
donde D := σσ 0 , vxx es la matriz hessiana de v, y T r(B) := i bii es la traza de
P
una matriz B = (bij ). Explı́citamente,
!
X X
T r(Dvxx ) = σik σkj vxi xj (2.39)
i,j k

cuando el coeficiente σ en (2.3) es una matriz, digamos σ = (σij ). Por supuesto,


en el caso escalar (2.39) se reduce a σ 2 · ∂ 2 v/∂x2 .

Nota bibliográfica. Para problemas de control a tiempo discreto el lector puede


consultar (por ejemplo): Arkin y Evstigneev (1987), Bertsekas (1987, 2000),
Hernández–Lerma y Lasserre (1996, 1999), Stokey y Lucas (1989). Para proble-
mas a tiempo continuo: Fleming y Rishel (1975), Fleming y Soner (1992),
Hernández–Lerma (1994), Sethi y Thompson (2000), Yong y Zhou (1999).
3. EL PRINCIPIO DEL MÁXIMO 23

3 El principio del máximo


Hay varias técnicas generales para estudiar PCOs como son el análisis convexo
y la programación lineal (usualmente en espacios vectoriales de dimensión in-
finita). Sin embargo, por razones computacionales, en la mayorı́a de las aplica-
ciones las técnicas más usadas son el principio del máximo (que algunos autores
llaman el principio de Pontryagin) y la programación dinámica. En esta sección
veremos brevemente la primera de estas técnicas; la segunda se estudia en la
siguiente sección.

Para simplificar la exposición sólo consideraremos problemas determinı́sti-


cos con horizonte finito, a tiempo discreto y a tiempo continuo. Al final de la
sección se mencionan algunas referencias sobre problemas estocásticos.

Problemas a tiempo discreto.

Considérese el PCO determinı́stico con espacio de estados X = IRn , espacio


de acciones A = IRm , y modelo dinámico
xt+1 = F (t, xt , at ) ∀ t = 0, 1, . . . , T − 1 (3.1)
con estado inicial x0 = x. La función objetivo que se desea minimizar es el costo
total
T −1
X
V (π, x) := L(t, xt , at ) + C(xT ), (3.2)
t=0

sobre el conjunto de estrategias π = {at }.

A grandes rasgos, la idea del principio del máximo consiste en usar el mé-
todo de multiplicadores de Lagrange para minimizar (3.2) sujeto a la “restricción”
(3.1). Para este fin, primero expresamos (3.1) en la forma
xt+1 − F (t, xt , at ) = 0 ∀ t = 0, 1, . . . , T − 1.
Después introducimos “multiplicadores de Lagrange” p0 , p1 , . . . , pT en IRn , a los
que llamaremos vectores adjuntos (también llamados vectores de co–estado), y
definimos el “lagrangiano”
T −1
X
Ṽ (π, x, p• ) := V (π, x) + pt+1 · [xt+1 − F (t, xt , at )], (3.3)
t=0
24

donde p• = {p0 , . . . , pT }. Por lo tanto, sustituyendo (3.2) en (3.3) y usando el


hamiltoniano, definido para cada t = 0, 1, . . . , T − 1 como

H(t, xt , at , pt+1 ) := pt+1 · F (t, xt , at ) − L(t, xt , at ), (3.4)

un poco de álgebra elemental nos permite reescribir (3.3) como

T −1
X
Ṽ (π, x, p• ) = [pt · xt − H(t, xt , at , pt+1 )] + C(xT ) + pT · xT − p0 · x0 .
t=0

Finalmente, bajo la siguiente hipótesis y usando resultados de optimización no–


lineal se obtiene el Teorema 3.2 (cuya demostración se puede ver en Halkin
(1966), Tabak y Kuo (1971) o Sethi y Thompson (2000)).

Hipótesis 3.1.

(a) Para cada t = 0, 1, . . . , T − 1, las funciones de costo L(t, x, a) y C(x) son de


clase C 1 en x y a;

(b) Para cada t = 0, 1, . . . , T − 1 y a ∈ A, la función F (t, x, a) es de clase C 1 en x;

(c) Para cada t = 0, 1, . . . , T − 1 y x ∈ IRn , el conjunto {F (t, x, a) : a ∈ A} es


convexo.

Teorema 3.2. (El principio del máximo — caso determinı́stico, tiempo discreto).
Suponga que se cumple la Hipótesis 3.1. Supóngase también que existe una
estrategia óptima a∗• = {a∗t , t = 0, . . . , T − 1} para el PCO (3.1)–(3.2), y sea
x∗• = {x∗t , t = 0, . . . , T } la trayectoria correspondiente que se obtiene de (3.1)
con estado inicial x∗0 = x0 . Entonces existe un conjunto p• = {p0 , . . . , pT } de
vectores adjuntos que satisfacen la ecuación adjunta

pt = Hx (t, x∗t , a∗t , pt+1 ) ∀ t = 0, . . . , T − 1, (3.5)

i.e.
pt = Fx (t, x∗t , a∗t )0 pt+1 − Lx (t, x∗t , a∗t ),
con la condición terminal
pT = Cx (x∗T ), (3.6)
3. EL PRINCIPIO DEL MÁXIMO 25

y la maximización del hamiltoniano:

H(t, x∗t , a∗t , pt+1 ) = max H(t, x∗t , a, pt+1 ) (3.7)


a∈A

para t = 0, . . . , T − 1.

El nombre “principio del máximo” para el Teorema 3.2 viene precisamente


de la condición (3.7).

Nota 3.3. El Teorema 3.2 da condiciones necesarias de optimalidad, a saber, la exis-


tencia de la sucesión p• de vectores adjuntos que satisfacen (3.5), (3.6) y (3.7).
Bajo hipótesis adecuadas estas condiciones también son suficientes. De hecho, si
tales condiciones se satisfacen, entonces la búsqueda de un “par óptimo” (a∗• , x∗• )
se reduce a resolver un problema con valores de frontera que consiste de
(a) las ecuaciones (3.1) y (3.5), que también se conocen como las ecuaciones canó-
nicas del PCO;
(b) las condiciones de frontera (3.6) y x∗0 = x0 ; y
(c) la maximización del hamiltoniano, es decir, encontrar a∗• tal que
H(t, x∗t , a∗t , pt+1 ) = max H(t, x∗t , a, pt+1 ).
a∈A

Este procedimiento sólo asegura, en general, la existencia de estrategias óptimas


de lazo abierto (ver (2.5)). En contraste, el método de programación dinámica
que veremos en la siguiente sección necesariamente da estrategias markovianas
(como en (2.6)).

Ejemplo 3.4: Sistema LQ determinı́stico a tiempo discreto. Considérese el


problema de encontrar una estrategia de control que minimize la función de
costo
T −1
1X 1
V (π, x) = (Qx2t + Ra2t ) + Sx2T , (3.8)
2 t=0 2
con π = {at }, sujeta a

xt+1 = αxt + βat ∀ t = 0, 1, . . . , T − 1; x0 = x. (3.9)

Las constantes Q y S en (3.8) son no–negativas y R es positiva, mientras que los


coeficientes α y β en (3.9) son distintos de cero. El espacio de estados y el de
26

acciones son X = A = IR. (Exactamente el mismo análisis que presentamos a


continuación se puede extender a un problema vectorial con X = IRn y A = IRm ,
en cuyo caso los coeficientes en (3.8) y (3.9) son matrices de dimensiones ade-
cuadas. Además, dichos coeficientes pueden variar con el parámetro de tiempo:
Qt , Rt , ST , αt , βt .)

Comparando (3.8)–(3.9) con (3.1)–(3.2) vemos que el hamiltoniano en (3.4)


resulta
1
H(t, xt , at , pt+1 ) = (αxt + βat ) · pt+1 − (Qx2t + Ra2t ).
2
Luego, como
Hx = αpt+1 − Qxt y Ha = βpt+1 − Rat ,
el problema con valores de frontera mencionado en la Nota 3.3 resulta:

(a) Ecuaciones canónicas: para t = 0, . . . , T − 1,

xt+1 = αxt + βat , pt = αpt+1 − Qxt . (3.10)

(b) Condiciones de frontera: x0 = x, pT = SxT .

(c) Maximización del hamiltoniano: de la igualdad Ha = 0 obtenemos.

at = R−1 βpt+1 ∀ t = 0, . . . , T − 1. (3.11)

Como la segunda derivada parcial Haa = −R es negativa, se puede de-


mostrar que los controles en (3.11) dan una estrategia óptima, aunque por su-
puesto aún falta calcular los vectores adjuntos pt . Con este fin, sustituimos (3.11)
en (3.10):
xt+1 = αxt + R−1 β 2 pt+1 , pt = αpt+1 − Qxt (3.12)
y combinando estas ecuaciones vemos que necesariamente pt es de la forma

p t = Kt x t ∀ t = 0, . . . , T, (3.13)

donde K0 , . . . , kT son constantes. En efecto, la condición de frontera pT = SxT


implica que KT = S. Asimismo, de la segunda ecuación en (3.12) tenemos

pT −1 = αpT − QxT −1
3. EL PRINCIPIO DEL MÁXIMO 27

y usando la primera ecuación en (3.12) podemos escribir pT en función de xT −1 .


En general, para obtener Kt procedemos como sigue.

Sustituyendo (3.13) en (3.12) obtenemos


xt+1 = αxt + R−1 β 2 Kt+1 xt+1 ,
pt = αKt+1 xt+1 − Qxt .
De la primera de estas ecuaciones despejamos xt+1 y sustituimos su valor en la
segunda ecuación. Ası́ se obtiene que
pt = [α2 RKt+1 /(R − β 2 Kt+1 ) − Q]xt
y comparando con (3.13) vemos que las constantes Kt satisfacen que
Kt = α2 RKt+1 /(R − β 2 Kt+1 ) − Q ∀ t = 0, 1, . . . , T − 1, (3.14)
con condición terminal KT = S, bajo la hipótesis de que S 6= R/β 2 . La ecuación
(3.14) es un caso especial de la llamada ecuación de Riccati y se resuelve “hacia
atrás”: empezando con KT = S, se calculan KT −1 , KT −2 , . . . , K0 .

Conociendo el valor de los vectores adjuntos pt podemos determinar los con-


troles óptimos y la correspondiente trayectoria y la función de costo mı́nimo. Por
ejemplo, sustituyendo (3.13) en (3.11) obtenemos
at = R−1 βKt+1 xt+1
= R−1 βKt+1 (αxt + βat ) [por (3.9)]
y despejando at obtenemos los controles óptimos:
a∗t = Gt xt ∀ t = 0, . . . , T − 1,
con Gt := αβKt+1 /(R − β 2 Kt+1 ). 2

Problemas a tiempo continuo.

Sea A[0, T ] el conjunto de todas las funciones medibles a(·) : [0, T ] → A.


El conjunto A[0, T ] es esencialmente la familia de las estrategias de lazo abierto
definidas sobre el intervalo [0, T ].

Ahora consideraremos el PCO que consiste en minimizar el costo


Z T
J(a(·)) := L(t, x(t), a(t))dt + C(x(T )) (3.15)
0
28

sobre todas las estrategias a(·) ∈ A[0, T ], sujetas a que

ẋ(t) = F (t, x(t), a(t)) ∀ 0 ≤ t ≤ T, x(0) = x0 . (3.16)

Supondremos que el espacio de estados y el conjunto de acciones son X = IRn y


A = IRm .

Por supuesto, para que (3.8) y (3.9) estén bien definidas se requieren hipótesis
adecuadas de medibilidad, de Lipschitz, etc., que se pueden ver en, por ejemplo,
los libros de Fleming y Rishel (1975) o de Yong y Zhou (1999). Un tratamiento
un tanto informal del principio del máximo, pero con un buen número de apli-
caciones, se puede ver en Sethi y Thompson (2000). Aquı́ sólo enunciaremos el
resultado principal, que requiere la siguiente notación y terminologı́a.

Si a(·) es una función en A[0, T ] y x(·) es la correspondiente solución de (3.9)


se dice que (x(·), a(·)) es un par admisible. Además, si a∗ (·) es una estrategia
óptima y x∗ (·) es la solución de (3.9), decimos que (x∗ (·), a∗ (·)) es un par óptimo.
Dado un par admisible (x(·), a(·)) y una función p(·) : [0, T ] → IRn , que llamare-
mos una (función o) variable adjunta, definimos el hamiltoniano

H(t, x(t), a(t), p(t)) := p(t) · F (t, x(t), a(t)) − L(t, x(t), a(t)). (3.17)

(Compare esta definición con (3.4).) Con esta notación, el análogo de las condi-
ciones necesarias (3.5)–(3.7) resulta como sigue.

Teorema 3.5. (El principio del máximo — caso determinı́stico, tiempo con-
tinuo). Supóngase que existe un par óptimo para el PCO (3.8)–(3.9). Entonces,
bajo ciertas hipótesis sobre las funciones F (t, x, a), L(t, x, a) y C(x), existe una
variable adjunta p(·) : [0, T ] → IRn que satisface la ecuación adjunta

ṗ(t) = −Hx (t, x∗ (t), a∗ (t), p(t)) (3.18)


= −Fx (t, x∗ (t), a∗ (t))0 p(t) + Lx (t, a∗ (t), x∗ (t))

con condición terminal


p(T ) = −Cx (x∗ (T )), (3.19)
y la maximización del hamiltoniano:

H(t, x∗ (t), a∗ (t), p(t)) = max H(t, x∗ (t), a, p(t)). (3.20)


a∈A
3. EL PRINCIPIO DEL MÁXIMO 29

Las ecuaciones (3.11) y (3.12) se cumplen “para casi todo” t ∈ [0, T ].

La Nota 3.3 (para problemas a tiempo discreto) también es válida en el caso


continuo, con algunos cambios obvios de notación.

Ejemplo 3.6: un problema de control de inventario–producción. Considérese


un problema de control cuyos componentes son, en cada tiempo 0 ≤ t ≤ T :
• la variable de estado x(t) := el nivel de inventario
• la variable de control a(t) := la tasa de producción
• la variable exógena s(t) := la tasa de ventas.
Además, hay dos valores de referencia, un nivel de inventario de seguridad x̂ y un
nivel eficiente de producción â.

El nivel de inventario varı́a de acuerdo a la ecuación diferencial


ẋ(t) = a(t) − s(t) para t ≥ 0, x(0) = x0 . (3.21)
Las estrategias de control son funciones medibles a(t), no–negativas. El PCO
consiste en encontrar una estrategia que minimiza la función objetivo.
Z T
1
J(a(·)) := [h · (x − x̂)2 + c · (a − â)2 ]dt, (3.22)
0 2

donde x = x(t) y a = a(t); h > 0 es el costo de mantenimiento y c > 0 el costo


de producción. La interpretación de (3.22) es que el controlador desea mantener
el nivel de inventario x(·) y la tasa de producción a(·) lo más cerca posible de
los valores de referencia x̂ y â, respectivamente. (A problemas de este tipo se
les llama problemas de seguimiento o de rastreo, porque el estado y los controles
deben seguir — o rastrear — lo más cerca posible a los valores x̂, â.)

Comparando (3.21)–(3.22) con (3.15)–(3.16) vemos que el hamiltoniano (en


(3.17)) resulta ser
1
H(t, x(t), a(t), p(t)) = p(t) · (a(t) − s(t)) − [h · (x(t) − x̂)2 + c · (a(t) − â)2 ].
2
Luego, como
Hx = −h · (x(t) − x̂) y Ha = p(t) − c · (a(t) − â),
obtenemos el siguiente problema con valores de frontera:
30

(a) Las ecuaciones canónicas

ẋ(t) = a(t) − s(t), (3.23)


ṗ(t) = h · (x(t) − x̂); (3.24)

(b) las condiciones de frontera: x(0) = x0 , p(T ) = 0;

(c) maximización del hamiltoniano; haciendo Ha = 0 vemos que

a(t) = p(t)/c + â. (3.25)

Como Haa = −c < 0, la función a(·) en (3.23) es en efecto la estrategia óptima


del problema (3.21)–(3.22), pero aún falta calcular la variable adjunta p(·). Con
esto en mente, sustituimos (3.25) en (3.23) para obtener

ẋ(t) = p(t)/c + â − s(t), x(0) = x0 . (3.26)

Para resolver las ecuaciones (3.24) y (3.26), primero derivamos (3.26) y ası́ obte-
nemos una ecuación con ṗ, es decir,

ẍ(t) = ṗ(t)/c − ṡ(t).

Ahora sustituimos (3.24) en esta última ecuación para obtener


p
ẍ(t) = α2 (x(t) − x̂) − ṡ(t), con α := h/c;

equivalentemente,
ẍ − α2 x(t) = −α2 x̂ − ṡ(t). (3.27)
La solución general de esta ecuación es de la forma

x(t) = a1 e−αt + a2 eαt + Q(t), x(0) = x0 , (3.28)

donde Q(t) es cualquier solución particular de (3.27). (La función Q se puede


determinar si se conoce la forma explı́cita de s(t).) Como en (3.28) hay sólo
una condición inicial, para determinar las constantes a1 , a2 , sustituimos (3.28) en
(3.26) y esto da que la variable adjunta p(t) satisface:

p(t) = c(−αa1 e−αt + αa2 eαt + Q̇(t) − s(t) − â), (3.29)

con condición terminal p(T ) = 0. Las ecuaciones (3.28) y (3.29), con sus respec-
tivas condiciones de frontera, dan un sistema de dos ecuaciones algebraicas que
3. EL PRINCIPIO DEL MÁXIMO 31

permiten determinar los valores de a1 y a2 . Habiendo determinado estos valores


se obtiene la forma explı́cita del control óptimo en (3.25). (Nótese que no impusi-
mos la condición a(t) ≥ 0; si la tasa de producción a(t) es negativa, significa que
debemos eliminar o desechar inventario.) 2

El caso estocástico.
Para sistemas estocásticos a tiempo continuo, y salvo contadas excepciones,
el principio del máximo se ha desarrollado principalmente para ecuaciones dife-
renciales estocásticas, como en (2.3). Una buena referencia para este caso, con
una extensa bibliografı́a, es el libro de Yong y Zhou (1999). Una extensión del
principio del máximo ha permitido a Josa–Fombellida y Rincón–Zapatero (2005)
proponer un nuevo enfoque para problemas de control estocástico. Un enfoque
similar ha sido estudiado por Bourdache–Siguerdidjane y Fliess (1987) para pro-
blemas determinı́sticos y por Rincón–Zapatero (2004) y Rincón–Zapatero et al.
(1998) para juegos diferenciales.

Curiosamente, para sistemas estocásticos a tiempo discreto hay poquı́simas


referencias, entre las que cabe mencionar el libro de Arkin y Evstigneev (1983).
32

4 Programación dinámica
Como se mencionó en la Nota 3.3, para encontrar una estrategia óptima el prin-
cipio del máximo se reduce esencialmente a resolver un problema con valores
de frontera. Esto requiere determinar una estrategia óptima simultáneamente con
las otras variables (la trayectoria y los vectores adjuntos) en el problema. Un
enfoque alternativo consiste en descomponer el PCO en “etapas”, cada una cor-
respondiente a un subproblema con una sola variable, de modo que el PCO se
resuelve en forma secuencial, por etapas. Esta es la idea del método de progra-
mación dinámica que veremos en esta sección. Primero consideraremos PCOs a
tiempo discreto y después a tiempo continuo.

La programación dinámica fue introducida por Richard Bellman en la década


de los años 1950 — vea el libro de Bellman (1956), por ejemplo.

Problemas a tiempo discreto.

Consideraremos de nuevo el PCO determinı́stico en (3.1)—(3.2) pero por con-


veniencia notacional escribiremos las variables xt y at como x(t) y a(t), respecti-
vamente. Ası́ pues, tenemos el modelo dinámico

x(t + 1) = F (t, x(t), a(t)) ∀ t = 0, . . . , T − 1, con x(0) = x0 , (4.1)

con función objetivo

T −1
X
V (π, x) := L(t, x(t), a(t)) + C(x(T )), (4.2)
t=0

donde π = {a(t)}. El espacio de estados es X = IRn y el de acciones de control es


un conjunto cerrado A ⊂ IRm .

La programación dinámica se basa en el siguiente “principio de optimali-


dad” que introdujo Bellman, y cuya demostración es evidente.

Lema 4.1. (El principio de optimalidad) Sea a∗ (·) = {a∗ (0), . . . , a∗ (T − 1)} una
estrategia óptima para el problema (4.1)–(4.2), y sea x∗ (·) = {x∗ (0), . . . , x∗ (T )} la
trayectoria correspondiente; en particular, x∗ (0) = x0 . Entonces para cualquier
4. PROGRAMACIÓN DINÁMICA 33

tiempo s ∈ {0, . . . , T − 1}, la estrategia “truncada” a∗ (t) para s ≤ t ≤ T − 1, es la


estrategia óptima que lleva el sistema (4.1) del punto x∗ (s) al punto x∗ (T ).

Para ver como se usa el Lema 4.1, consideremos el PCO (4.1)–(4.2) pero sólo
del tiempo s en adelante (con 0 ≤ s ≤ T − 1), con estado “inicial” x(s) = x, es
decir, sea
T −1
X
V (π, s, x) := L(t, x(t), a(t)) + C(x(T )) (4.3)
t=s

y sea v(s, x) el correspondiente costo mı́nimo, i.e.

v(s, x) := inf V (π, s, x). (4.4)


π

Además, como en el tiempo terminal T no se aplican acciones de control, defin-


imos
v(T, x) := C(x). (4.5)
Luego, si en el Lema 4.1 interpretamos s y x∗ (s) = x como el tiempo y el estado
iniciales, se sigue de (4.3) y (4.4) que

v(s, x) = V (a∗ (·), s, x)


T −1
X
= L(t, x∗ (t), a∗ (t)) + C(x∗ (T ))
t=s
= L(s, x, a∗ (s)) + V (a∗ (·), s + 1, x∗ (s + 1))
= L(s, x, a∗ (s)) + v(s + 1, x∗ (s + 1)).

Por lo tanto, como x∗ (s + 1) = F (s, x∗ (s), a∗ (s)) = F (s, x, a∗ (s)), obtenemos

v(s, x) = L(s, x, a∗ (s)) + v(s + 1, F (s, x, a∗ (s))). (4.6)

Pero, por la definición (4.4), v(s, x) es el costo mı́nimo de operar el sistema del
tiempo s al tiempo T , de modo que

v(s, x) ≤ L(s, x, a) + v(s + 1, F (s, x, a)) ∀ a ∈ A. (4.7)

Finalmente, combinando (4.6) y (4.7) vemos que

v(s, x) = min[L(s, x, a) + v(s + 1, F (s, x, a))] ∀ s = 0, . . . , T − 1. (4.8)


a∈A
34

y que el mı́nimo en el lado derecho de (4.8) se alcanza en a∗ (s), como en (4.6).

La ecuación (4.8) con la “condición terminal” (4.5) se llama la ecuación de


programación dinámica (EPD), o ecuación de Bellman, y es la base del “algo-
ritmo de programación dinámica” (4.9)–(4.10) en el siguiente teorema

Teorema 4.2. (El teorema de programación dinámica) Sean J0 , J1 , . . . , JT las


funciones sobre X definidas “hacia atrás” (de s = T a s = 0) como

JT (x) := C(x), (4.9)

y para s = T − 1, T − 2, . . . , 0,

Js (x) := min[L(s, x, a) + Js+1 (F (s, x, a))]. (4.10)


a

Suponga que para cada s = 0, 1, . . . , T − 1, existe una función a∗s : X → A


que alcanza el mı́nimo en el lado derecho de (4.10) para todo x ∈ X. Entonces
la estrategia markoviana π ∗ = {a∗0 , . . . , a∗T −1 } es óptima y la función de valor
coincide con J0 , i.e.

inf V (π, x) = V (π ∗ , x) = J0 (x) ∀ x ∈ X. (4.11)


π

De hecho, para cada s = 0, . . . , T, Js coincide con la función en (4.4)–(4.5), i.e.

v(s, x) = Js (x) ∀ 0 ≤ s ≤ T, x ∈ X. (4.12)

Es importante observar que (4.12) significa que algoritmo (4.9)–(4.10) da el


costo óptimo (o costo mı́nimo) del PCO (4.1)–(4.2) con tiempo y estado inicial
0 ≤ s ≤ T − 1 y x(s) = x, respectivamente.

Consideremos ahora el sistema estocástico en el que (4.1) y (4.2) se susti-


tuyen por

x(t + 1) = F (t, x(t), a(t), ξ(t)) ∀ t = 0, . . . , T − 1, con x(0) = x, (4.13)


"T −1 #
X
V (π, x) := E L(t, x(t), a(t)) + C(x(T )) , (4.14)
t=0

con π = {a(t)}, y las “perturbaciones” ξ(0), . . . , ξ(T − 1) en (4.13) son variables


aleatorias independientes e identicamente distribuidas (i.i.d.) con valores en
4. PROGRAMACIÓN DINÁMICA 35

algún espacio S. Resulta entonces que, con algunos cambios adecuados, prác-
ticamente todo lo que aparece en los párrafos anteriores sigue siendo válido.
Más precisamente, en las expresiones en las que aparece la función F [a saber,
(4.6)–(4.8) y (4.10)] debemos escribir F (s, x, a, ξ(s)) en lugar de F (s, x, a); ade-
más, se debe tomar la esperanza en las expresiones donde aparezcan términos
estocásticos, o sea, en el lado derecho de (4.3), (4.6)–(4.8), y (4.10). Para más
detalles, vea el Ejemplo 4.4.

Nota 4.3. Una demostración detallada del teorema de programación dinámica


en el caso estocástico a tiempo discreto aparece en Hernández–Lerma y Lasserre
(1996), Sección 3.2. Otras demostraciones, ası́ como un buen número de ejemplos
y aplicaciones, aparecen en Arkin y Evstigneev (1987), Bertsekas (1987), Le Van
y Dana (2003), Luque–Vásquez et al. (1996), Stokey y Lucas (1989), ... 2

Para ilustrar el algoritmo de programación dinámica, a continuación vere-


mos una versión estocástica del sistema LQ en el Ejemplo 3.4.

Ejemplo 4.4: Sistema LQ estocástico a tiempo discreto. Considere el sistema


lineal

xt+1 = αxt + βat + ξt ∀ t = 0, 1, . . . ; x0 dado,


con coeficientes α, β distintos de cero. Las perturbaciones ξt son variables
aleatorias i.i.d., independientes de x0 , y con media 0 y varianza σ 2 finita, i.e.

E(ξt ) = 0, σ 2 := E(ξt2 ) < ∞ ∀ t = 0, . . . , T − 1. (4.15)


Los espacios de estados y de acciones son X = A = IR. Se desea minimizar la
función de costo
"T −1 #
X
V (π, x) := Exπ (qx2t + ra2t ) + qT x2T ∀ x0 = x,
t=0

donde r > 0 y q, qT ≥ 0.

En este caso, la ecuación de programación dinámica (4.9)–(4.10) resulta

JT (x) := qT x2 (4.16)
36

y para s = T − 1, T − 2, . . . , 0:

Js (x) := min[qx2 + ra2 + EJs+1 (αx + βa + ξs )]. (4.17)


a

Esta ecuación se resuelve “hacia atrás”: sustituyendo (4.16) en (4.17) obtenemos

JT −1 (x) = min[qx2 + ra2 + qT E(αx + βa + ξT −1 )2 ]


a

donde, usando (4.15),

E(αx + βa + ξT −1 )2 = (αx + βa)2 + σ 2 .

Luego,

JT −1 (x) = min[(q + qT α2 )x2 + (r + qT β 2 )a2 + 2qT αβxa + qT σ 2 ].


a

El lado derecho de esta ecuación se minimiza en

a∗T −1 (x) = GT −1 x, con GT −1 := −(r + qT β 2 )−1 qT αβ

y el mı́nimo es

JT −1 (x) = KT −1 x2 + qT σ 2 , con KT −1 := (r + qT β 2 )−1 qT rσ 2 + q.

En general, es fácil ver que la estrategia óptima π ∗ = {a∗0 , . . . , a∗T −1 } está dada
por
a∗s (x) = Gs x, con Gs := −(r + Ks+1 β 2 )−1 Ks+1 αβ, (4.18)
con “ganancias” Ks dadas recursivamente por KT := qT y para s = T − 1, . . . , 0:

Ks = (r + Ks+1 β 2 )−1 Ks+1 rσ 2 + q.

Asimismo, el costo óptimo del tiempo s en adelante, en (4.12), resulta


T
X
Js (x) = Ks x2 + σ 2 Kn para s = 0, . . . , T − 1. (4.19)
n=s+1

En particular, con s = 0 se obtiene el costo mı́nimo en (4.11). 2

Nota. Es interesante comparar el problema LQ estocástico en el ejemplo anterior


con el problema LQ determinı́stico en el Ejemplo 3.4: se puede ver que en ambos
4. PROGRAMACIÓN DINÁMICA 37

casos la estrategia óptima está dada por (4.18). Sin embargo, difieren en el costo
mı́nimo; la diferencia está en que, en el caso determinı́stico, la varianza σ 2 que
aparece en (4.19) es cero.

Para referencia futura, a continuación veremos brevemente el caso de costo


descontado con horizonte infinito. Considérese el PCO que consiste del sistema
estocástico.
xt+1 = F (xt , at , ξt ) ∀ t = 0, 1, . . . ; con x0 = x, (4.20)
con función objetivo
" ∞
#
X
V (π, x) := E αt c(xt , at , ξt ) (4.21)
t=0

en donde c(x, a, ξ) es la función de costo por etapa, y α ∈ (0, 1) es el factor


de descuento. Como siempre, X y A representan el espacio de estados y de
acciones, respectivamente. Asimismo, denotaremos por A(x) el conjunto de ac-
ciones factibles en el estado x; véase (2.4). El PCO (4.15)–(4.16) es estacionario
en el sentido de que las funciones F (x, a, ξ) y c(x, a, ξ) no dependen del tiempo t
y, además, ξ0 , ξ1 , . . . son variables aleatorias i.i.d. cuya distribución de probabil-
idad la denotaremos por µ, es decir
µ(B) := Prob[ξ0 ∈ B] ∀ B ∈ S, (4.22)
donde S es el “espacio de perturbaciones”, o sea el conjunto en el que toman
valores las variables ξt . Considérese la función de valor
v(x) := inf V (π, x)
π

y la sucesión de funciones vn definidas iterativamente como


vn (x) := inf E[c(x, a, ξ0 ) + αvn−1 (F (x, a, ξ0 ))]
a∈A(x)
Z
= inf [c(x, a, s) + αvn−1 (F (x, a, s))]µ(ds), (4.23)
a∈A(x) S

para n = 1, 2, . . . , con v0 (x) ≡ 0. Con esta notación, se tiene el siguiente resultado


bajo una variedad de hipótesis (véanse las referencias en la Nota 4.3, o la sección
8.3 en Hernández–Lerma y Lasserre (1999)).

Teorema 4.5. Bajo hipótesis adecuadas:


38

(a) la función de valor v satisface la ecuación de programación dinámica


Z
v(x) = inf [c(x, a, s) + αv(F (x, a, s))]µ(ds) ∀ x ∈ X. (4.24)
a∈A(x) S

(b) Supóngase que existe una función g : X → A tal que g(x) ∈ A(x) y g(x)
minimiza el lado derecho de (4.24) para todo x ∈ X, i.e.
Z
v(x) = [c(x, g(x), s) + αv(F (x, g(x), s))]µ(ds).
S

Entonces g define una estrategia markoviana estacionaria (recuérdese (2.7))


que es óptima para el PCO (4.20)–(4.22).
(c) Cuando n → ∞, vn (x) → v(x) para todo x ∈ X. (Las funciones vn , definidas
en (4.23), se llaman funciones de iteración de valores.)
La parte (c) del Teorema 4.5 se usa para aproximar la función v(x) o para
deducir propiedades de ella.

Problemas a tiempo continuo


Consideremos el PCO (4.1)–(4.2) pero en tiempo continuo, es decir
ẋ(t) = F (t, x(t), a(t)) ∀ t ∈ [0, T ], x(0) = x, (4.25)
Z T
V (π, x) := L(t, x(t), a(t))dt + C(x(T )),
0
con π = {a(·)}. Asimismo, como en (4.3)–(4.5), para cada estado s ∈ [0, T ] y
“estado inicial” x(s) = x, definimos
Z T
V (π, s, x) := L(t, x(t), a(t))dt + C(x(T ))
s
y
v(s, x) := inf V (π, s, x) para 0 ≤ s < T, v(T, x) := C(x).
π
En este caso, el principio de optimalidad es completamente análogo al caso de
tiempo discreto (Lema 4.1), y el teorema de programación dinámica es como
sigue.

Teorema 4.6 Bajo ciertas hipótesis sobre las funciones F, L, C y el conjunto A, y


suponiendo que v(s, x) es de clase C 1,1 ([0, T ] × IRn ), v es solución de la ecuación
4. PROGRAMACIÓN DINÁMICA 39

de programación dinámica

vs + inf [F (s, x, a) · vx + L(s, x, a)] = 0 ∀ (s, x) ∈ [0, T ) × IRn , (4.26)


a∈A

con condición de frontera v(T, x) = C(x). Si además g(s, x) es una función que
alcanza el mı́nimo en (4.21), entonces

a∗ (s) := g(s, x(s)) ∀ s ∈ [0, T ]

es una estrategia óptima, i.e. v(s, x) = V (a∗ (·), s, x).

Para PCOs a tiempo continuo (determinı́sticos o estocásticos) la ecuación


de programación dinámica, como (4.26), también se conoce como ecuación de
Hamilton–Jacobi–Bellman.

Usando el hamiltoniano H(s, x, a, p) en (3.10) podemos expresar (4.26) como

vs − sup H(s, x, a, −vx ) = 0.


a∈A

Esto establece un vı́nculo entre la programación dinámica y el principio del


máximo.

La demostración del Teorema 4.6 se puede ver en, por ejemplo, Fleming y
Rishel (1975), Fleming y Soner (1992), Yong y Zhou (1999). Estos libros estudian
el control de ecuaciones diferenciales ordinarias (como en (4.25)) y estocásticas
(como en (2.3)). Otros sistemas estocásticos a tiempo continuo incluyen las
cadenas de Markov — ver, por ejemplo, Guo y Hernández–Lerma (2003a) o
Prieto–Rumeau y Hernández–Lerma (2005a). Aunque es costumbre estudiar
cada uno de estos sistemas por separado, es posible hacer estudios unificados
que incluyen prácticamente cualquier tipo de proceso de control markoviano
(PCM) a tiempo continuo, como en (2.36)–(2.38); ver Hernández–Lerma (1994),
Prieto–Rumeau y Hernández–Lerma (2005b) y sus referencias, donde en parti-
cular podemos ver lo siguiente.

Nota 4.7. Usando el generador infinitesimal (2.37) podemos expresar la ecuación


de programación dinámica (4.26) como

vs + inf [La v(s, x) + L(s, x, a)] = 0 ∀ (s, x) ∈ [0, T ) × IRn . (4.27)


a∈A
40

De hecho, expresada de esta manera — usando el generador infinitesimal del


PCM — la ecuación (4.27) resulta ser la ecuación de programación dinámica
para cualquier PCM a tiempo continuo, con horizonte finito T . Por ejemplo, si
en lugar del sistema determinı́stico (4.25) consideramos la ecuación diferencial
estocástica (2.3), entonces el generador La en (4.27) serı́a el operador en (2.38).
Asimismo, si el PCM es un proceso markoviano de saltos con espacio de estados
numerable y “tasas de transición” qxy (a), entonces tomando s = 0 en (4.27) el
generador La resulta X
La v(x) := qxy (a)v(y).
y∈X

Para más detalles, vea las referencias mencionadas en el párrafo anterior.


5. CONTROL MINIMAX (JUEGOS CONTRA LA NATURALEZA) 41

5 Control minimax (juegos contra la naturaleza)


Considérese un problema de control en el que de hecho hay dos decisores (en
lugar de sólo uno), el controlador y un “oponente”. El sistema puede evolu-
cionar en tiempo continuo o tiempo discreto. Para fijar ideas, consideremos el
sistema estocástico

xt+1 = F (xt , at , bt , ξt ) ∀ t = 0, 1, . . . , (5.1)

que depende de las estrategias π = {at } ∈ Π del controlador y γ = {bt } ∈ Γ


del oponente. Por lo tanto, también la función objetivo del PCO depende de las
estrategias de ambos decisores, i.e. tenemos V (π, γ, x), donde x0 = x es el estado
inicial. Considérese la función

V # (π, x) := sup V (π, γ, x).


γ∈Γ

Si π ∗ ∈ Π es una estrategia del controlador que minimiza V # (π, x), i.e., para todo
x ∈ X:
V # (π ∗ , x) = inf V # (π, x),
π

o equivalentemente
V # (π ∗ , x) = inf sup V (π, γ, x), (5.2)
π γ

se dice entonces que π ∗ es una estrategia minimax.

La interpretación de (5.2) es que π ∗ es la mejor estrategia del controlador en la


peor de las circunstancias, porque π ∗ minimiza lo máximo (= lo peor) que puede
hacer el oponente, cuando dicho máximo se calcula sobre todas las estrategias γ
del oponente. Por esta caracterı́stica, a un problema de control minimax también
se le llama problema de control del peor caso (worst–case control). Las técnicas
que se usan para estudiar estos problemas son, principalmente, extensión del
método de programación dinámica o del principio del máximo; ver González–
Trejo et al. (2003) o Poznyak (2002a, 2002b).

Juegos contra la naturaleza

Una aplicación tı́pica del control minimax es a problemas de control que de-
penden de “parámetros” desconocidos. En este caso, el oponente es la “natu-
42

raleza” que de alguna manera, en cada tiempo t, selecciona el valor del paráme-
tro. Estos problemas se conocen como juegos contra la naturaleza.

Por ejemplo, en lugar de (5.1) considérese un problema de control (un único


jugador) con modelo dinámico
xt+1 = F (xt , at , ξt ), ∀ t = 0, 1, . . . , con x0 = x, (5.3)
donde las ξt son “perturbaciones”. Consideraremos dos casos:

Caso 1: El sistema es incierto, es decir, se sabe que las ξt son constantes con
valores en algún conjunto dado S, pero no se conoce el valor particular de ξt .

Caso 2: El sistema es estocástico, es decir, las ξt son variables aleatorias i.i.d.


con valores en un conjunto S y distribución común µ (ver (4.22)), pero no se
conoce µ. Sin embargo, sı́ sabemos que µ debe pertenecer a un conjunto M (S)
de distribuciones “admisibles”.

En el caso estocástico el PCO consiste en minimizar el costo esperado (4.21),


mientras que en el caso incierto el costo es determinı́stico, ası́ que eliminamos la
esperanza en (4.21) y la función objetivo resulta

X
V (π, x) := αt c(xt , at , ξt ). (5.4)
t=0

Consideremos primero el caso 2. Entonces, por el Teorema 4.5 (a), (b), sabe-
mos que si se conoce µ, entonces la función de valor v(x) satisface la ecuación de
programación dinámica (4.24), y una función g : X → A que alcanza el mı́nimo
en el lado derecho de (4.24) define una estrategia óptima. Resulta que el Teo-
rema 4.5 sigue siendo válido con algunos cambios adecuados, que dan como
resultado lo siguiente.

Teorema 5.1. (Teorema de control minimax) Considérese el PCO estocástico que


consiste en minimizar el costo esperado (4.21), sujeto a (5.3). Se desconoce la
distribución µ de las perturbaciones ξt pero se sabe que pertenece a un conjunto
M (S) de distribuciones sobre el espacio S. Entonces, bajo ciertas hipótesis:
(a) la función de valor v ∗ (x) := inf π supµ∈M (S) Vµ (π, x) satisface la ecuación
Z

v (x) = inf sup [c(x, a, ξ) + αv ∗ (F (x, a, s))]µ(ds). (5.5)
a∈A(x) µ∈M (S) S
5. CONTROL MINIMAX (JUEGOS CONTRA LA NATURALEZA) 43

(b) Si existe una función f : X → A tal que f (x) ∈ A(x) alcanza el mı́nimo en
(5.5), i.e.
Z
v (x) = sup [c(x, f (x), s) + αv ∗ (F (x, f (x), s))]µ(ds),

(5.6)
µ S

entonces f define una estrategia minimax, o sea at := f (xt ) para todo t =


0, 1, . . ..

Es importante observar que la función v ∗ en (5.5) se puede aproximar por una


sucesión de funciones de “iteración de valores”, como en el Teorema 4.5(c). Para
mayores detalles, vea González–Trejo et al. (2003). En esta misma referencia se
pueden ver ejemplos concretos de control minimax para problemas con hori-
zonte finito, horizonte infinito, y también con “costo promedio” (también lla-
mado “costo ergódico”).

En el caso 1, cuando las variables ξt son “inciertas”, el teorema anterior es


válido (bajo hipótesis adecuadas) sustituyendo la ecuación (5.5) por la siguiente:

v ∗ (x) = inf sup[c(x, a, s) + αv ∗ (F (x, a, s))]. (5.7)


a∈A(x) s∈S

El cambio en (5.6) es similar.

Los problemas de control minimax de sistemas inciertos también se conocen


como problemas de control robusto. El nombre se debe a que resultados como
(5.7) son “robustos” en el sentido de que valen para todo valor s ∈ S. Como
ejemplo, Poznyak (2002a, 2002b) estudia PCOs con una ecuación diferencial es-
tocástica de la forma (2.3), pero cuyos coeficientes dependen de un parámetro
incierto s en algún conjunto S. Entonces en lugar de (2.3) se tiene

dxt = F s (t, xt , at )dt + σ s (t, xt , at )dWt ∀ 0 ≤ t ≤ T, s ∈ S.

Bernhard (2005) propone técnicas de control robusto para estudiar algunos pro-
blemas en finanzas.

En la sección 9 veremos que un problema de control minimax es un caso


particular de ciertos juegos dinámicos conocidos como juegos de suma cero.
44

Parte 2. Juegos cooperativos

En lo que resta de estas notas consideraremos juegos dinámicos con N ju-


gadores, N ≥ 2, de modo que todos los conceptos introducidos en la Sección 2
(para N = 1) se deben reinterpretar de manera adecuada. Por ejemplo, en un
modelo dinámico, como en (2.1)–(2.3), en lugar de la acción at del controlador
ahora tenemos un vector de acciones

at = (a1t , . . . , aN
t ),

en donde ait es la acción del jugador i al tiempo t. Asimismo, en lugar del con-
junto A(x) de acciones factibles en (2.4), para un juego A(x) es el producto carte-
siano
A(x) = A1 (x) × · · · × AN (x),
donde Ai (x) representa el conjunto de acciones factibles para el jugador i cuando
el estado del juego es x. Por último, en lugar de una función objetivo (la función
objetivo del controlador), como en (2.11)–(2.15), ahora tenemos un vector

V (π, x) = (V 1 (π, x), . . . , V N (π, x))

en donde V i (π, x) es la función objetivo del jugador i, dado que el estado inicial
del juego es x, y que los jugadores siguen la multiestrategia

π = (π 1 , . . . , π N )

donde π i es la estrategia del jugador i. De aquı́ se sigue que expresiones como


(2.16) ó (2.17) en las que se desea “minimizar” o “maximizar” V (π, x), para jue-
gos dejan de tener un significado obvio. En esta segunda parte del curso vere-
mos el caso en el que “optimizar” una función vectorial se entiende en el sentido
de Pareto.

Para fijar ideas, supondremos que las funciones objetivo V i (π, x) son costos
que se desea minimizar.
6. EQUILIBRIOS DE PARETO 45

6 Equilibrios de Pareto
En un juego cooperativo los jugadores desean cooperar para alcanzar un resul-
tado que, en algún sentido, sea benéfico para todos ellos. (Por el contrario, en un
juego no–cooperativo los jugadores no hacen acuerdos para cooperar; más bien,
actuan independientemente y sólo les preocupa alcanzar sus objetivos individ-
uales.)

Para juegos cooperativos estáticos existen varios conceptos de solución, al-


gunos de los cuales se remontan al trabajo pionero de von Neumann y Morgen-
stern (1944). Sin embargo, cuando se intenta extrapolar estos conceptos a juegos
cooperativos dinámicos muchos de ellos resultan ser inconsistentes en el tiempo
o dinámicamente inestables. (Vea la Nota 6.3(a) o, por ejemplo, Filar y Petrosjan
(2000), Haurie (2001), Petrosjan (2005) para una discusión de las “inconsisten-
cias” que pueden ocurrir). Por tal motivo, para juegos dinámicos cooperativos
nos restringiremos al caso más común y más estudiado, a saber, los equilibrios de
Pareto.

Observación. Recuérdese que para vectores x = (x1 , . . . , xN ) y y = (y1 , . . . , yN )


se dice que
x ≤ y ssi xi ≤ yi ∀ i = 1, . . . , N.
Asimismo, x < y ssi x ≤ y y x 6= y ; y x << y ssi xi < yi ∀ i.

Observación. En las secciones 6, 7 y 8 supondremos que el estado inicial x0


está fijo; en el caso de juegos estocásticos, lo anterior significa que la distribución
de probabilidad de x0 , digamos ν0 (B) := P(x0 ∈ B), está fija. En todo caso,
para simplicar R la notación escribimos simplemente V i (π) en lugar de V i (π, x0 ) ó
V i (π, ν0 ) := V i (π, x)ν0 (dx).

Definición 6.1. Considérese un juego con N jugadores. Sea V i (π) la función


objetivo del jugador i, dado que los jugadores siguen la multiestrategia π =
(π 1 , . . . , π N ). Sea Πi el conjunto de estrategias admisibles para el jugador i, y sea
Π := Π1 × · · · × ΠN . Además, sea
Γ := {V (π) | π ∈ Π} ⊂ IRN , (6.1)
donde V (π) := (V 1 (π), . . . , V N (π)) ∈ IRN . (A Γ se le llama el conjunto objetivo
o conjunto alcanzable del juego.) Se dice que una multiestrategia π ∗ ∈ Π es un
46

equilibrio de Pareto si no existe π ∈ Π tal que

V (π) < V (π ∗ ). (6.2)

Sea Π∗ el conjunto de equilibrios de Pareto (suponiendo que el conjunto no es


vacı́o). Entonces el conjunto de vectores

{V (π) | π ∈ Π∗ } ⊂ Γ

se llama el frente de Pareto del juego.

El método más usual para estudiar la existencia de equilibrios de Pareto es el


método de escalarización definido como sigue. Sea

SN −1 := {λ ∈ IRN | λ >> 0 y λ1 + · · · + λN = 1}.

Para cada λ ∈ SN −1 considerese la función “escalar”


N
X
λ
V (π) := λ · V (π) = λi V i (π). (6.3)
i=1

Teorema 6.2. Bajo ciertas hipótesis, se obtiene lo siguiente. Si para algún vector
λ ∈ SN −1 existe una multiestrategia π ∗ ∈ Π que minimiza la función escalar (6.3),
i.e.
V λ (π ∗ ) ≤ V λ (π) ∀ π ∈ Π, (6.4)
entonces π ∗ es un equilibrio de Pareto.

La demostración de este teorema es trivial. En efecto, si π ∗ satisface (6.4)


pero no es un equilibrio de Pareto, entonces (por la Definición 6.1) existe una
multiestrategia π 0 ∈ Π tal que

V (π 0 ) < V (π ∗ ).

Multiplicando ambos lados de esta desigualdad por el vector λ se obtiene que


V λ (π 0 ) < V λ (π ∗ ), lo cual contradice (6.4); es decir, necesariamente π ∗ es un equi-
librio de Pareto.

Por el contrario, la demostración del recı́proco del Teorema 6.2 requiere un


poco más de trabajo; véase, por ejemplo, Hernández–Lerma y Romera (2004).
6. EQUILIBRIOS DE PARETO 47

De hecho, esta referencia estudia problemas de control multiobjetivos (es decir, un


controlador con N objetivos V 1 (·), . . . , V N (·)), pero la demostración para juegos
es básicamente la misma.

Nota 6.3. (a) Si se admite que algunas de las componentes del vector λ en (6.4)
sean cero (pero con suma total = 1), entonces sólo se podrı́a garantizar que π ∗ es
un equilibrio de Pareto débil. (Se dice que π ∗ es un equilibrio de Pareto débil si
no existe π ∈ Π tal que V (π) << V (π ∗ ).)

(b) En Hernández–Lerma y Romera (2004a) se demuestra que el método de


escalarización es equivalente a resolver el problema dual de un programa lineal
(de dimensión infinita) con objetivos múltiples.

(c) Los artı́culos de Tolwinski et al. (1986) y de Gaidov (1986) dan condiciones
para la existencia de estrategias de Pareto en juegos diferenciales determinı́sticos
y estocásticos, respectivamente. La primera de estas referencias incluye estrate-
gias con amenazas (threats) cuyo papel es inducir a los jugadores a que respeten
lo convenido entre ellos, una vez que se ha llegado a un equilibrio. Alternativa-
mente, para que los jugadores respeten los acuerdos entre ellos, se puede suponer
que tales acuerdos son vinculantes (binding agreements). En estas notas haremos
tal suposición.

Los juegos cooperativos están muy desarrollados pero principalmente para


juegos diferenciales (determinı́sticos); vea, por ejemplo, Haurie (2001), Petrosjan
y Zenkevich (1996), Vaisbord y Zhukovskii (1988), Zhukovskiy y Salukvadze
(1994).

Ejemplo 6.4. Considérese el juego diferencial LQ que consiste de la ecuación de


estado
ẋ = αx + B1 a1 + B2 a2 ∀ t ≥ 0, x(0) = x0 , (6.5)

en donde, para simplicar la notación, hemos omitido la variable de tiempo “t”.


El espacio de estados X y los espacios de acciones Ai (i = 1, 2) son X = Ai = IR,
y los coeficientes α, B1 , B2 son constantes. Para cada jugador i = 1, 2 la función
de costo es
Z ∞
Vi (a1 , a2 ) := hi (t, x, a1 , a2 )dt (6.6)
0
48

con
1
hi (t, x, a1 , a2 ) := e−βt (q1 x2 + ri a2i + rij a2j ), j 6= i,
2
donde β > 0 es un factor de descuento. Dado un vector λ = (λ1 , λ2 ) en S1 el
costo “escalarizado” (6.3) resulta
V λ (a1 , a2 ) = λ1 V1 (a1 , a2 ) + λ2 V2 (a1 , a2 ) (6.7)
Z ∞
= hλ (t, x, a1 , a2 )dt,
0

donde (por (6.6))


1
hλ (t, x, a1 , a2 ) = e−βt (Qx2 + R1 a21 + R2 a22 )
2
con
Q := λ1 q1 + λ2 q2 y Ri = λi ri + λj rji para i = 1, 2; j 6= i. (6.8)
Para minimizar el costo (6.7) sujeto a (6.5) usaremos programación dinámica.

Sea a = (a1 , a2 ) y s ≥ 0. Dado el “estado inicial” x(s) = x, sea


v(s, x) := inf V λ (a, s, x),
a

donde Z ∞
λ
V (a, s, x) := hλ (t, x, a)dt, x(s) = x.
s
Luego, de (4.26) (ó (4.27)) la ecuación de programación dinámica es
vs + inf [(αx + B1 a1 + B2 a2 ) · vx + hλ (t, x, a1 , a2 )] = 0.
a

Se puede verificar que las estrategias óptimas son, para i = 1, 2,


a∗i = −Ki x ∀ x ∈ X, con Ki := Ri−1 Bi M0 , (6.9)
donde M0 es la solución positiva de la ecuación
(B12 /R1 + B22 /R2 )M02 − (2α − ρ)M0 − Q = 0,
con Q y Ri en (6.8) Es decir, a∗ = (a∗1 , a∗2 ) es el equilibrio de Pareto para el vector
dado λ = (λ1 , λ2 ) y, además, sustituyendo (6.9) en (6.6) se obtiene que el costo
óptimo para cada jugador i = 1, 2 es
1
Vi∗ (x0 ) = Pi x20 , (6.10)
2
6. EQUILIBRIOS DE PARETO 49

donde Pi es la solución (positiva) de la ecuación


1
2(αc − ρ)Pi + Q̃i = 0 (6.11)
2
con
αc := α − B1 K1 − B2 K2 , Q̃i := qi + ri Ki2 + rij Kj2 , j 6= i. (6.12)

El caso estocástico. Supóngase que, en lugar de (6.5), la ecuación de estado


es
dx = (αx + B1 a1 + B2 a2 )dt + G dW, x(0) = x0 , t ≥ 0,
donde G es una constante y W es un proceso de Wiener estándar, en cuyo caso
las funciones de costo en (6.6) y (6.7) se deben sustituir por sus valores esperados
dada la condición inicial x(0) = x0 . Por ejemplo, en lugar de (6.6) ahora tenemos
Z ∞
Vi (a1 , a2 ) := E[hi (t, x, a1 , a2 )|x(0) = x0 ]dt.
0

y similarmente en (6.7). Usando de nuevo programación dinámica se puede ver


que las estrategias óptimas son como en (6.9), es decir, las mismas que en el caso
determinı́stico. Sin embargo, los costos óptimos (6.10) sı́ deben modificarse y
resultan
1 1
Vie (x0 ) = Pi x20 + Q̃i Si , (6.13)
2 2ρ
con Pi y Q̃i como en (6.11) y (6.12), mientras que Si es la solución de la ecuación
1
2(αc − ρ)Si + G2 = 0.
2
Los resultados (6.9), (6.10) y (6.13) para sistemas LQ son bien conocidos. Para
mayores detalles se puede consultar prácticamente cualquier texto sobre con-
trol óptimo (o juegos dinámicos) que incluya modelos a tiempo continuo, por
ejemplo, Basar y Olsder (1999), Fleming y Rishel (1975), Fleming y Soner (1992),
Hernández–Lerma (1994), Klompstra (1992), Sethi y Thompson (2000), Yong y
Zhou (1999). 2

Nota 6.5. Para concluir esta sección, obsérvese que un equilibrio de Pareto es, en
efecto, un equilibrio “cooperativo” en el sentido de que ninguna otra decisión
conjunta de los jugadores puede disminuir el costo de al menos uno de ellos sin
50

incrementar el costo de los otros. Más explı́citamente, si usamos el método de


escalarización para encontrar equilibrios de Pareto, vemos de (6.3)–(6.4) que al
variar el vector λ, varı́a el correspondiente equilibrio de Pareto y, por lo tanto,
también varı́a el vector de costos V (π, x) a lo largo del frente de Pareto. Esto hace
que algunos jugadores resulten beneficiados (al disminuir su costo o función
objetivo), mientras que otros salen perjudicados (al incrementar su costo). Esta
situación lleva a una pregunta natural: de entre todos los equilibrios de Pareto,
¿cuál es el más “justo” para todos los jugadores? Esta pregunta se puede respon-
der de varias maneras. En las siguientes dos secciones veremos algunas de las
posibles respuestas.
7. EQUILIBRIOS DE COMPROMISO 51

7 Equilibrios de compromiso
Con respecto a la Nota 6.5, para encontrar un equilibrio “justo” algunos autores
han propuesto el siguiente procedimiento. Para cada i = 1, . . . , N , sea
V∗i := inf V i (π).
π

El vector
V∗ := (V∗1 , . . . , V∗N ) (7.1)
se llama el mı́nimo virtual del juego. (También se le conoce como mı́nimo
utópico, mı́nimo ideal o mı́nimo sombra.)

Definición 7.1. Dada una norma k · k sobre IRN , se dice que una multiestrategia
π ∗ ∈ Π es un equilibrio de compromiso con respecto a dicha norma si
k V (π ∗ ) − V∗ k= inf k V (π) − V∗ k . (7.2)
π

Observe que la función


ρ(π) :=k V (π) − V∗ k para π∈Π
es una función de utilidad para el juego, en el sentido de que si π y π 0 son tales
que V (π) < V (π 0 ), entonces ρ(π) < ρ(π 0 ). De aquı́ se sigue que un equilibrio de
compromiso necesariamente es un equilibrio de Pareto.

Generalmente, en (7.2) se usa una “norma Lp ”, definida como


N
!1/p
X
k u kp := |ui |p 1 ≤ p < ∞.
i=1

Para p = 2, un equilibrio de compromiso π ∗ se dice que es una solución de


Salukvadze al juego cooperativo. Si p = +∞, entonces π ∗ se llama un equilibrio
minimax porque satisface que
k V (π ∗ ) − V∗ k∞ = min max |V i (π) − V∗i |.
π 1≤i≤N

Nota 7.2. Las condiciones para que existan equilibrios de compromiso son las
mismas que para problemas de control o de optimización multiobjetivos; vea,
52

por ejemplo, Hernández–Lerma y Romera (2004a), Yu y Leitmann (1974). Esta


última referencia interpreta el término V i (π) − V∗i como la pena o pesar (regret)
del jugador i cuando se usa la multiestrategia π. Por lo tanto, se sigue de (7.2)
que un equilibrio de compromiso π ∗ minimiza “la pena” del grupo de jugadores
porque V (π ∗ ) es el punto más cercano al mı́nimo virtual, con respecto a la norma
k · k.

El propósito del siguiente ejemplo es ilustrar el cálculo de un equilibrio de


compromiso. Sin embargo, para simplificar la presentación, no consideramos
un problema de “juegos” sino más bien un problema de control multiobjetivos, es
decir, un controlador que desea “minimizar” en el sentido de Pareto un vector
de costos, digamos
V (π) = (V1 (π), . . . , VN (π)). (7.3)

Ejemplo 7.3: Control multiobjetivos—sistema LQ estocástico a tiempo dis-


creto. Sean α y β números reales distintos de cero y considérese el sistema lineal,
escalar,
xt+1 = αxt + βat + ξt para t = 0, 1, . . . , (7.4)
con espacio de estados y de acciones X = A = IR. Las perturbaciones ξt son
variables aleatorias i.i.d., que son independientes del estado inicial x0 , y tales
que
E(ξ0 ) = 0 y E(ξ02 ) =: σ 2 < ∞. (7.5)
Sea ν0 la distribución inicial. Los costos Vi (π, ν0 ) ≡ Vi (π) en (7.3) son de la forma
"∞ #
X
Vi (π) := (1 − δ)Eνπ0 δ t ci (xt , at ) ∀ i = 1, . . . , N, (7.6)
t=0

donde ci es un costo cuadrático,

ci (x, a) := si x2 + ri a2 (7.7)

con coeficientes positivos si , ri . Siguiendo el “método de escalarización”, toma-


mos un N–vector λ > 0 arbitrario y formamos el producto
N
X
λ
V (π) := λ · V (π) = λi Vi (π).
i=1
7. EQUILIBRIOS DE COMPROMISO 53

Por (7.6) y (7.7), podemos expresar V λ (π) como


"∞ #
X
V λ (π) = (1 − δ)Eνπ0 δ t cλ (xt , at ) (7.8)
t=0

con
N
X
cλ (x, a) := λi ci (x, a) = (λ · s)x2 + (λ · r)a2 ,
i=1

donde s := (s1 , . . . , sN ) y r := (r1 , . . . , rN ). El problema “LQ” de encontrar una


estrategia que minimiza (7.8) sujeta a (7.4) es muy bien conocido. Por ejemplo,
en la pág. 72 de Hernández–Lerma y Lasserre (1996) se puede ver que la estrate-
gia óptima es la estrategia (markoviana estacionaria)
fλ (x) = −[(λ · r) + δβ 2 z(λ)]−1 αβδz(λ)x ∀ x ∈ X, (7.9)
donde z(λ) es la única solución positiva de la ecuación de Riccati
δβ 2 z 2 + (r̂ − r̂α2 δ − ŝβ 2 δ)z − ŝr̂ = 0, (7.10)
con r̂ = λ·r y ŝ = λ·s. Asimismo, para cualquier estado inicial x0 = x, la función
de costo óptimo es
V λ (fλ , x) = z(λ)[(1 − δ)x2 + δσ 2 ] ∀ x ∈ X,
con σ 2 como en (7.5). Por lo tanto, suponiendo que la distribución inicial ν0 tiene
segundo momento finito, i.e.
Z
ν̄0 := x2 ν0 (dx) < ∞, (7.11)

entonces el correspondiente costo óptimo resulta ser


Z
λ
V (fλ ) = V λ (fλ , x)ν0 (dx) = z(λ)k(ν0 ) (7.12)
IR

con k(ν0 ) := (1 − δ)ν̄0 + δσ 2 .

Obsérvese que el resultado (7.9)–(7.12) es válido para cualquier vector λ = (λ1 ,


. . . , λN ) > 0. En particular, si tomamos λ = e(i), donde e(i) es el vector con
coordenadas 
1 si j = 1,
e(i)j =
0 si j 6= i,
54

y después variamos i = 1, . . . , N, entonces obtenemos el mı́nimo virtual V∗ =


(V∗1 , . . . , V∗N ) en (7.1). Más explicitamente, si en (7.12) sustituimos λ por e(i)
obtenemos el costo mı́nimo

V∗i = inf V i (π) = V i (fe(i) ) = zi k(ν0 )


π

donde zi es la única solución positiva de la ecuación de Riccati (7.10) con r̂ = ri


y ŝ = si .

Finalmente, para encontrar una “estrategia de compromiso” π ∗ se debe se-


leccionar una norma en IRN y calcular π ∗ que minimiza k V (π) − V∗ k, como en
(7.2). Estas operaciones se pueden realizar — al menos en principio — usando
una cierta “función de soporte”, como en el Ejemplo 5.7 de Hernández–Lerma y
Romera (2004b).
8. EL PROBLEMA DE NEGOCIACIÓN DE NASH 55

8 El problema de negociación de Nash


Otra forma de ver cuál es el equilibrio más “justo” entre todos los equilibrios
de Pareto consiste en encontrar la solución de Nash del problema de negociación
(bargaining problem). Nash (1950b, 1953) introdujo este problema para juegos
estáticos con un número finito de acciones y de jugadores y posteriormente se
ha estudiado para varios tipos de juegos dinámicos, por ejemplo, juegos dife-
renciales, como en Haurie (1976, 1982), Petrosyan (2003),..., y juegos diferen-
ciales estocásticos, como en Gaidov (1990). En cualquier caso, la formulación es
esencialmente la misma. Para facilitar la exposición aquı́ sólo consideraremos
juegos con N = 2 jugadores.

Para i = 1, 2, sea V i (π) la función objetivo del jugador i, con π = (π 1 , π 2 ), y


sea V0 := (V01 , V02 ) el vector cuyas coordinadas son los valores minimax

V01 := min
1
max
2
V 1 (π 1 , π 2 ),
π π
V02 := min
2
max
1
V 2 (π 1 , π 2 ).
π π

A la pareja V 0 se le llama el “status quo”. (En general, el status quo no nece-


sariamente son los valores minimax; es decir, las componentes de V 0 se pueden
seleccionar de otras maneras.) A las multiestrategias π en el conjunto

Πir := {π ∈ Π | V 1 (π) ≤ V01 , V 2 (π) ≤ V02 }

se les llama multiestrategias individualmente racionales. Si π = (π 1 , π 2 ) es una


multiestrategia individualmente racional, entonces la diferencia

V0i − V i (π) ≥ 0 para i = 1, 2 (8.1)

se interpreta como el beneficio por cooperar del jugador i cuando se usa la multi-
estrategia π. (Compare (8.1) con la “pena” o “pesar” V i (π) − V∗i del jugador i en
la Nota 7.2.)

Definición 8.1. Si π∗ ∈ Πir es una multiestrategia que maximiza la función

b(π) := [V01 − V 1 (π)] · [V02 − V 2 (π)], π ∈ Πir ,


56

se dice que π∗ es la solución de Nash al problema de negociación.

Un cálculo directo muestra que si π∗ satisface la definición anterior, entonces


π∗ es un equilibrio de Pareto.

Para cualquier número N ≥ 2 de jugadores los conceptos anteriores siguen


siendo válidos, con los cambios obvios. Por ejemplo, la función b(π) en la Defi-
nición 8.1 ahora resulta ser

b(π) := [V01 − V 1 (π)] · · · [V0N − V N (π)]

y el conjunto de multiestrategias individualmente racionales es

Πir := {π | V i (π) ≤ V0i ∀ i = 1, . . . , N }.

En el siguiente teorema se da una caracterización de una solución de Nash


(al problema de negociación) basada en la desigualdad
N
X
1/N −1
(y1 · · · yN ) ≤N yi ∀ yi > 0, i = 1, . . . , N. (8.2)
i=1

entre la “media Pgeométrica” (y1 · · · yN )1/N de N números yi ≥ 0 y la “media


aritmética” N −1 i yi .

Teorema 8.2. (Ehtamo et al., 1988) Supóngase que π ∗ ∈ Πir es tal que, para todo
i = 1, . . . , N ,
V i (π ∗ ) < V0i ,
y sea
b(π ∗ )
λ∗i := , (8.3)
V0i − V i (π ∗ )
es decir
N
Y
λ∗i = [V0j − V j (π ∗ )]
j=1
j 6= i
Si además π ∗ es tal que

λ∗ · V (π ∗ ) ≤ λ∗ · V (π) ∀ π ∈ Π, (8.4)
8. EL PROBLEMA DE NEGOCIACIÓN DE NASH 57

entonces π ∗ es una solución de Nash al problema de negociación, i.e.

b(π ∗ ) ≥ b(π) ∀ π ∈ Πir . (8.5)

Demostración. Fı́jese una estrategia arbitraria π ∈ Πir . Observe que (8.4) es


equivalente a

λ∗ · (V0 − V (π)) ≤ λ∗ · (V0 − V (π ∗ ))


X
= λ∗i [V0i − V i (π ∗ )],
i

i.e., por (8.3),


λ∗ · (V0 − V (π)) ≤ N b(π ∗ ). (8.6)
Equivalentemente, usando de nuevo (8.3) y definiendo

V0i − V i (π) i
∗ V0 − V (π)
i
yi := i = λi · ,
V0 − V i (π ∗ ) b(π ∗ )
podemos expresar (8.6) como
N
X
N ≥ λ∗i [V0i − V i (π)]/b(π ∗ )
i=1
n
X
= yi
i=1

≥ N · (y1 · · · yN )1/N [por (8.2)]


= N [b(π)/b(π ∗ )]1/N .

Finalmente, multiplicando la expresión anterior por 1/N se obtiene b(π ∗ ) ≥ b(π).


Luego, como π ∈ Πir es arbitraria, se sigue (8.5). 2

El Teorema 8.2 sugiere el siguiente “algoritmo”, introducido por Ehtamo et


al. (1988), para encontrar una solución de Nash. Supóngase que para cada vector
λ en
SN −1 := {λ ∈ IRN | λ >> 0, λ1 + · · · + λN = 1}
existe una multiestrategia πλ = (πλ1 , . . . , πλN ) ∈ Π tal que

λ · V (πλ ) ≤ λ · V (π) ∀ π ∈ Π, (8.7)


58

de modo que πλ es un equilibrio de Pareto (por el Teorema 6.2). Con esta no-
tación el “algoritmo” es como sigue.

Paso 1. Para cada λ ∈ SN −1 encuentre πλ que satisface (8.7).

Paso 2. Encuentre λ∗ ∈ SN −1 tal que, para todo i = 1, . . . , N, V i (πλ∗ ) < V0i y,


además (como en (8.3)),
b(πλ∗ )
λ∗i = i .
V0 − V i (πλ∗ )

Del Teorema 8.2 se sigue de manera evidente que πλ∗ es una solución de Nash
al problema de negociación. Sin embargo, aunque el algoritmo es conceptual-
mente simple, es poco útil por la dificultad de realizar los pasos 1 y 2.

Para juegos estáticos hay soluciones distintas de la de Nash al problema de


negociación — ver, por ejemplo, Kalai y Smorodinsky (1975), Petrosjan y Zenke-
vich (1996), Roth (1979, 1985).

Kaitala et al. (1985) estudian el problema de negociación asociado a un juego


diferencial que representa dos cooperativas pesqueras que explotan una misma
pesquerı́a. Una situación más general se analiza en el artı́culo de Ehtamo et al.
(1988).
9. EQUILIBRIOS DE NASH 59

Parte 3. Juegos no–cooperativos

En un juego no–cooperativo los jugadores actuan independientemente y ca-


da uno desea alcanzar su propio objetivo individual.

9 Equilibrios de Nash
Primero consideraremos el caso de N = 2 jugadores.

Definición 9.1. Sea π 2 ∈ Π2 una estrategia (fija) del jugador 2. Definimos el


conjunto de las respuestas óptimas del jugador 1 a la estrategia π 2 como

RO1 (π 2 ) := {π∗1 ∈ Π1 | V 1 (π∗1 , π 2 ) = inf1 V 1 (π 1 , π 2 )}. (9.1)


π

Análogamente, el conjunto de las respuestas óptimas del jugador 2 a una es-


trategia π 1 ∈ Π1 del jugador 1 se define como

RO2 (π 1 ) := {π∗2 ∈ Π2 | V 2 (π 1 , π∗2 ) = inf2 V 2 (π 1 , π 2 )}. (9.2)


π

Se dice que la multiestrategia (π∗1 , π∗2 ) ∈ Π1 × Π2 es un equilibrio de Nash si

π∗1 ∈ RO1 (π∗2 ) y π∗2 ∈ RO2 (π∗1 ).

Equivalentemente, (π∗1 , π∗2 ) es un equilibrio de Nash si

V 1 (π∗1 , π∗2 ) = inf1 V 1 (π 1 , π∗2 )


π

y
V 2 (π∗1 , π∗2 ) = inf2 V 2 (π∗1 , π 2 ).
π

En palabras, en un equilibrio de Nash, un jugador no puede mejorar su


situación si altera su estrategia unilateralmente.

Nota 9.2. Para algunos tipos de juegos (por ejemplo, juegos markovianos a
tiempo discreto con espacio de estados no–numerable) hasta la fecha ha sido
60

imposible dar condiciones generales para la existencia de equilibrios de Nash.


Trataremos de explicar porqué.

Considérese la multifunción Γ que a cada multiestrategia (π 1 , π 2 ) ∈ Π1 × Π2


le asocia el conjunto RO1 (π 2 ) × RO2 (π 1 ), i.e.

Γ(π 1 , π 2 ) := RO1 (π 2 ) × RO2 (π 1 ).

Se puede ver fácilmente que (π∗1 , π∗2 ) es un equilibrio de Nash si y sólo si (π∗1 , π∗2 )
es un punto fijo de Γ, es decir,

(π∗1 , π∗2 ) ∈ Γ(π∗1 , π∗2 ). (9.3)

El problema con (9.3) es que los teoremas de punto fijo de multifunciones requieren
hipótesis muy restrictivas, por ejemplo, alguna condición de continuidad de Γ,
y que los conjuntos Γ(π 1 , π 2 ) sean compactos, convexos, etc. Esto requiere, de
entrada, introducir una topologı́a adecuada sobre Π1 × Π2 con respecto a la cual
se satisfacen las hipótesis de los teoremas de punto fijo. Salvar estos obstáculos
topológicos no es fácil en muchos casos. 2

Caso general (N ≥ 2). Sea Π := Π1 × · · · × ΠN . Para cada multiestrategia


π = (π 1 , . . . , π N ) en Π y γ ∈ Πi , sea

[π −i |γ] := (π 1 , . . . , π i−1 , γ, π i+1 , . . . , π N )

la multiestrategia con respecto a la cual cada jugador k usa la estrategia π k si


k 6= i, mientras que el jugador i usa γ.

Se dice que una multiestrategia π∗ = (π∗1 , . . . , π∗N ) es un equilibrio de Nash


si para cada i la estrategia π∗i ∈ Πi es una respuesta óptima del jugador i contra
π∗ , es decir,
Vi (π∗ ) = inf Vi ([π∗−i |γ]). (9.4)
γ∈Πi

Esto también se puede expresar equivalentemente como

π∗i ∈ arg min Vi ([π∗−i |γ]) ∀ i = 1, . . . , N. (9.5)


γ∈Πi

En realidad, la definición anterior de equilibrio de Nash es adecuada para


juegos estáticos pero no para juegos dinámicos. El problema es que en un juego
9. EQUILIBRIOS DE NASH 61

dinámico puede darse el caso de que, en algún instante del juego, algunos de los
jugadores decidan unilateralmente desviarse de la posición de equilibrio y, por
lo tanto, la multiestrategia correspondiente deja de ser un ”equilibrio”. Para evi-
tar este tipo de situación se puede suponer que los acuerdos entre los jugadores
son vinculantes; recuerde la Nota 6.3(c). Otra manera de evitar desviaciones uni-
laterales de la posición de equilibrio consiste en demostrar que un equilibrio de
Nash es perfecto en el sentido de la siguiente definición.

Definicion 9.3. Considerese un juego dinámico con N jugadores y sea Vi (t, x, π)


la función objectivo del jugador i(i = 1, . . . , N ) dado que la condición inicial del
juego es x(t) = x en el tiempo t ≥ 0. Sea π∗ = (π∗1 , . . . , π∗N ) una multiestrategia
markoviana, es decir, cada π∗i es markoviana (o de retroalimentación), como en
(2.6). Se dice que π∗ es un equilibrio de Nash perfecto si, para cada i = 1, . . . , N
y cualquier condición inicial (t, x), se cumple que
Vi (t, x, π∗ ) = inf Vi (t, x, [π∗−i |γ]),
γ

donde el infimo se calcula sobre todas las estrategias markovianas γ del jugador
i.

En otras palabras, un equilibrio de Nash perfecto es una multiestrategia mar-


koviana que es un equilibrio de Nash para cualquiera que sea la condición ini-
cial del juego. En este caso, algunos autores dicen que el equilibrio de Nash es
perfecto en los subjuegos (subgame perfect).

Nótese que resolver (9.4) ó (9.5) esencialmente equivale a resolver un PCO


para cada i. Esto sugiere que, en principio, podemos usar técnicas como el prin-
cipio del máximo o programación dinámica para encontrar equilibrios de Nash.

El principio del máximo.

Considérese un juego diferencial con N ≥ 2 jugadores, espacio de estados


X = IRn y conjuntos de acciones Ai ⊂ IRmi para i = 1, . . . , N . El modelo dinámico
es (compárese con (3.16))
ẋ(t) = F (t, x(t), a(t)) ∀ 0 ≤ t ≤ T, x(0) = x0 . (9.6)
Los controles admisibles son de lazo abierto, a(·) = (a1 (·), . . . , aN (·)), donde ai (·)
es una función medible de [0, T ] a Ai . Los jugadores desean “maximizar” las
62

funciones objetivo
Z T
i
J (a(·)) := Li (t, x(t), a(t))dt + C i (T, x(T )).
0

Sea p(t) = [pij (t)] la matriz N × n de variables adjuntas cuya i–ésima fila es

pi (t) = (pi1 (t), . . . , pin (t)) para i = 1, . . . , N.

Definimos el hamiltoniano

H i (t, x, a, p) := Li (t, x, a) + pi (t) · F (t, x, a). (9.7)

Supóngase que a∗ (·) es un equilibrio de Nash y sea x∗ (·) la trayectoria corre-


spondiente (solución de (9.6)). En este caso (bajo ciertas hipótesis sobre F, Li , C i ,
etc.) se cumplen las siguientes condiciones necesarias para cada i = 1, . . . , N :
las ecuaciones adjuntas

ṗi (t) = −Hxi (t, x∗ (t), a∗ (t), p(t)) (9.8)

la condición terminal
pi (T ) = Cxi (T, x∗ (T )), (9.9)
y la maximización del hamiltoniano

H i (t, x∗ (t), a∗ (t), pi (t)) ≥ H i (t, x∗ (t), ai , pi (t)) ∀ ai ∈ Ai . (9.10)

(Compare (9.8)–(9.10) con (3.18)–(3.20).)

Las ecuaciones (9.6) y (9.8)–(9.10) definen un problema con dos condiciones


de frontera que en algunos casos se puede resolver explı́citamente. Por ejem-
plo, Clemhout y Wan (1974) consideran juegos trilineales, llamados ası́ porque el
hamiltoniano es lineal en el estado, en los controles, y en la variable adjunta.
Asimismo, Dockner et al. (1985) identifican varios tipos de juegos diferenciales
que son solubles, en el sentido de que se pueden determinar equilibrios de Nash
de lazo abierto, ya sea explı́citamente o “cualitativamente”. Esto último sig-
nifica que se puede obtener un equilibrio de Nash resolviendo un sistema de
ecuaciones diferenciales de la forma

ȧi = φi (t, a) para i = 1, . . . , N.


9. EQUILIBRIOS DE NASH 63

Programación dinámica.

Para cada a = (a1 , . . . , aN ), sea [a−i |a0 ] el vector con componentes ak si k 6= i,


y ai = a0 , es decir,

[a−i |a0 ] = (a1 , . . . , ai−1 , a0 , ai+1 , . . . , aN ).

Supóngase que para cada i = 1, . . . , N existen funciones v i (s, x) de clase C 1,1


que satisfacen la ecuación de programación dinámica (cf. (4.26)):

vti + max
0 i
{F (t, x, [a−i |a0 ]) · vxi + Li (t, x, [a−i |a0 ])} = 0 (9.11)
a ∈A

para todo (t, x) en [0, T ] × IRn , con condición de frontera

v i (T, x) = C i (T, x) ∀ x ∈ IRn . (9.12)

Además, sea a∗ (t, x) ∈ A1 ×· · ·×AN la multiestrategia cuyas componentes ai∗ (t, x)


alcanzan el máximo en (9.11). Entonces a∗ (t, x) es un equilibrio de Nash perfecto
y
v i (t, x) = J i (t, x, a∗ (t, x)), (9.13)
donde Z T
i
J (t, x, a∗ (t, x)) = Li (s, x∗ , a∗ )ds + C i (T, x∗ (T ))
t

y x∗ (s) es la solución de (9.6) para t ≤ s ≤ T con condición inicial x∗ (t) = x.

El resultado (9.11)–(9.13) para juegos diferenciales se debe a Stalford y Leit-


mann (1973) y se puede extender a otros juegos markovianos a tiempo continuo;
ver Jasso–Fuentes (2004).

En muchos casos interesantes se puede obtener una solución explı́cita de


(9.11)–(9.13). Por ejemplo, Jorgensen y Sorger (1990) hacen un análisis muy
detallado, explı́cito, de un juego diferencial que representa dos jugadores ex-
plotando una misma pesquerı́a. El modelo dinámico es
1 +a2
ẋ = rx(1 − x/k) − bx(ea − 1), 0 ≤ t ≤ T, x(0) = x0 ,
64

donde k es la capacidad portadora del ecosistema, r y b son constantes, y a1 , a2 son


las acciones de los jugadores. Jorgensen y Yeung (1996) analizan una versión
estocástica del juego anterior, con N ≥ 2 jugadores. En estos dos artı́culos se
consideran funciones objetivo con horizonte finito y también horizonte infinito.

Para juegos a tiempo discreto también hay muchas publicaciones en las que
se calculan (o se demuestra la existencia de) equilibrios de Nash, en particu-
lar, en juegos relacionados a economı́a. Amir (2003) trae un buen número de
referencias. Los juegos de acumulación de capital (o de extracción de recur-
sos) han recibido mucha atención en años recientes; ver, por ejemplo, Balbus y
Nowak (2004), Nowak (2003b), Nowak y Szajowski (2003), Wiecek (2003, 2005).
Otra lı́nea interesante son los juegos sobre ”capitalismo”, iniciados por Lancaster
(1973) y que se han desarrollado a tiempo contı́nuo, como en Basar et al. (1985),
Pohjola (1983) y Shimomura (1991), y a tiempo discreto, como en Krawczyk y
Shimomura (2003). En esta última referencia se hace un análsis muy completo
de varios tipos de equilibrios para un cierto modelo de crecimiento económico.

Observaciones 9.4. (a) De (9.11)–(9.13) se puede ver que la programación diná-


mica da en forma natural equilibrios de Nash perfectos, a diferencia del prin-
cipio del máximo (9.8)–(9.10) que, en general, da equilibrios de Nash de lazo
abierto y que, por lo tanto, no son perfectos. Por otra parte, Rincón–Zapatero
(2004) y Rincón–Zapatero et al. (1998) proponen un enfoque distinto de la progra-
mación dinámica para caracterizar equilibrios de Nash perfectos en ciertos juegos
diferenciales.

(b) En general, un equilibrio (no–cooperativo) de Nash no es equilibrio (co-


operativo) de Pareto—algunos casos especı́ficos se pueden ver en Krawczyk y
Shimomura (2003), Neck (1985) y Rincón–Zapatero (2004). Sin embargo, Rincón
–Zapatero et al. (2000) han identificado una clase de juegos diferenciales cuyos
equilibrios de Nash sı́ son equilibrios de Pareto. (De hecho, ya existı́an traba-
jos similares, como el de Case (1974), pero para juegos más bien ”académicos”,
es decir, juegos un poco artificiales que no tienen nada que ver con juegos que
surgen de aplicaciones.)
10. JUEGOS SIMÉTRICOS Y DE SUMA CERO 65

10 Juegos simétricos y de suma cero


Hay varios casos particulares, pero muy importantes, de juegos no–cooperativos
entre los que destacan los juegos simétricos y los juegos de suma cero.

Juegos simétricos

Un juego simétrico es un juego no–cooperativo en el que los jugadores tienen


la misma función objetivo, digamos
V i (π) ≡ V (π) ∀ i = 1, . . . , N, π ∈ Π, (10.1)
y los mismos conjuntos de acciones admisibles y, además, la ley de movimiento
del estado del juego es simétrica con respecto a las acciones de los jugadores. Un
juego simétrico también es conocido como un problema de equipo porque es como
si todos y cada uno de los jugadores trataran de optimizar la misma función,
V (π) en nuestro caso.

Ejemplos de juegos simétricos aparecen en Balbus y Nowak (2004), Dockner


et al. (2000), Rincón–Zapatero (2004) y Sundaram (1989). En particular, en la
penúltima de estas referencias se estudia el problema de la explotación, por N >
1 agentes, de un recurso no renovable de propiedad común. La evolución del
nivel del recurso sigue la ecuación dferencial
ẋ = −(a1 + · · · + aN ), con x(0) = x0 > 0,
donde ai ≥ 0 es la tasa de explotación del i–ésimo jugador. Asimismo, para cada
jugador se define una cierta función de pago como en (10.1) que permite de-
mostrar la existencia de un equilibrio de Nash simétrico, es decir, un equilibrio
de Nash (π 1 , . . . , π N ) con π i = π j para todo i, j = 1, . . . , N . (Nota: En general, un
juego simétrico no necesariamente tiene equilibrios de Nash simétricos.)

De (9.4) y (10.1) se puede ver que una multiestrategia π∗ = (π∗1 , . . . , π∗N ) es un


equilibrio de Nash para un juego simétrico si y sólo si
V (π∗ ) = inf V ([π∗−i |γ]) ∀ i = 1, . . . , N. (10.2)
γ∈Πi

Por este motivo se dice que π∗ es una multiestrategia óptima persona–por–


persona. Obsérvese que si π̂ es el mı́nimo global de V , i.e.
V (π̂) ≤ V (π) ∀ π ∈ Π,
66

entonces π̂ es “mejor” que π∗ en el sentido de que V (π̂) ≤ V (π∗ ). Sin embargo, π̂


no satisface en general la condición ser un óptimo persona–por-persona, como
en (10.2).

Nota 10.1. En un juego simétrico o problema de equipo se supone que todos


los jugadores tienen la misma información en todo el tiempo que dura el juego. Esto
significa que el juego se puede interpretar como un problema de control central-
izado en el que varios controladores están coordinados por una misma “central”.
Por el contrario, en problemas de control decentralizado los controladores no com-
parten la misma información y se presentan dificultades para coordinarlos. Para
más detalles y referencias, ver Neck (1982), por ejemplo.

Juegos de suma cero

Un juego no–cooperativo con N = 2 jugadores es un juego de suma cero si

V 1 (π) + V 2 (π) = 0 ∀ π ∈ Π,

es decir V 1 (π) = −V 2 (π). Definiendo V := V 1 = −V 2 , es evidente que π∗ =


(π∗1 , π∗2 ) es un equilibrio de Nash para un juego de suma cero si y sólo si es un
punto silla, i.e.

V (π∗1 , π 2 ) ≤ V (π∗1 , π∗2 ) ≤ V (π 1 , π∗2 ) ∀ (π 1 , π 2 ) ∈ Π1 × Π2 . (10.3)

Considérese un juego de suma cero con estado inicial x(s) = x ∈ X en el


tiempo s ≥ 0. Las funciones

L(s, x) := sup inf1 V (s, x, π 1 , π 2 ),


π2 π

U (s, x) := inf1 sup V (s, x, π 1 , π 2 ) (10.4)


π π2

se llaman el valor inferior y el valor superior del juego, respectivamente. Siem-


pre se cumple la desigualdad

L(s, x) ≤ U (s, x) ∀ (s, x). (10.5)


10. JUEGOS SIMÉTRICOS Y DE SUMA CERO 67

Definición 10.2. Si se cumple la igualdad en (10.5) para todo (s, x), se dice que
el juego de suma cero tiene el valor V(s, x) := L(s, x) = U (s, x).

Un resultado que da condiciones para la existencia del valor V se conoce


como un teorema minimax. El siguiente teorema minimax nos dice, en pocas
palabras, que la existencia del valor V es en cierto modo equivalente a la exis-
tencia de un punto silla.

Teorema 10.3. (a) Si un juego de suma cero tiene un punto silla (π∗1 , π∗2 ), entonces
tiene el valor
V(s, x) = V (s, x, π∗1 , π∗2 ) ∀ (s, x). (10.6)

(b) Si existe una multiestrategia π∗ = (π∗1 , π∗2 ) tal que para todo (s, x):
V (s, x, π∗1 , π∗2 ) = infπ1 V (s, x, π 1 , π∗2 ) (10.7)
= supπ2 V (s, x, π∗1 , π 2 ),
entonces π∗ es un punto silla.

Aunque la demostración del Teorema 10.3 es trivial, es importante obser-


var que es válido para cualquier juego de suma cero, ya sea determinı́stico o
estocástico, a tiempo discreto o tiempo continuo. A continuación daremos un
ejemplo de cómo se aplica dicho teorema.

Considere un juego determinı́stico a tiempo continuo con ecuación de movi-


miento
ẋ = F (t, x, a1 , a2 ) para 0 ≤ t ≤ T.
Dada la condición inicial x(s) = x en el tiempo s ∈ [0, T ], la función objetivo está
dada como
Z T
1 2
V (s, x, π , π ) := L(t, x, a1 , a2 )dt + C(T, x(T )).
s

Entonces combinando la ecuación de programación dinámica (9.11)–(9.12) con


el Teorema 4.6 obtenemos el siguiente teorema minimax.

Teorema 10.4. Supóngase que existe una función suave v(s, x) y estrategias π∗1 , π∗2
68

tales que, para todo (s, x) en [0, T ] × X, se tiene

0 = F (s, x, a1∗ , a2∗ ) · vx + L(s, x, a1∗ , a2∗ )


= inf
1
[F (s, x, a1 , a2∗ ) · vx + L(s, x, a1 , a2∗ )] (10.8)
a
= sup[F (s, x, a1∗ , a2 ) · vx + L(s, x, a1∗ , a2 )]
a2

con la condición de frontera

v(T, x) = C(T, x) ∀ x ∈ X. (10.9)

Entonces
v(s, x) = V (s, x, π∗1 , π∗2 ) (10.10)
es el valor del juego y (π∗1 , π∗2 ) es un punto silla.

En efecto, de la primera igualdad en (10.8), junto con la condición de frontera


(10.9), se obtiene (10.10). Por otra parte, comparando (10.7) con las últimas dos
igualdades en (10.8) se obtiene la condición de punto silla:

V (s, x, π∗1 , π 2 ) ≤ V (s, x, π∗1 , π∗2 ) ≤ V (s, x, π 1 , π∗2 ).

Usando el generador infinitesimal La mencionado en (2.36)–(2.38) se puede


ver que el Teorema 10.4 es un caso particular de un resultado válido para cual-
quier tipo de juego markoviano a tiempo continuo; vea Jasso–Fuentes (2004).
Otros casos particulares de juegos markovianos a tiempo continuo, de suma
cero, son los juegos diferenciales estocásticos (como en Basar y Olsder (1999),
Browne (2000), Kushner (2002, 2004), etc.) y cadenas de Markov (como en Guo y
Hernández–Lerma (2003b, 2005), Prieto–Rumeau y Hernández–Lerma (2005c)).
Para este tipo de juegos, a la ecuación de programación dinámica (10.8)–(10.9)
algunos autores le llaman la ecuación de Hamilton–Jacobi–Bellman–Isaacs.

Nota 10.5. El Teorema 10.4 da condiciones suficientes para la existencia de un


punto silla (π∗1 .π∗2 ), donde π∗i es una estrategia markoviana. Pero, por supuesto,
no todos los juegos satisfacen dichas condiciones y, de hecho, hay juegos de
suma cero que no tienen un punto silla. También existen juegos de suma cero
que no admiten puntos silla en una cierta familia de estrategias (e.g., estrategias
markovianas), pero sı́ en una familia más grande (e.g., estrategias aleatorizadas);
vea, por ejemplo, Schmitendorf (1976).
10. JUEGOS SIMÉTRICOS Y DE SUMA CERO 69

Para juegos semi–markovianos o markovianos a tiempo discreto se tienen re-


sultados semejantes al Teorema 10.4 (ver, por ejemplo, Filar y Vrieze (1997),
Hernández–Lerma y Lasserre (2001), Luque–Vásquez (2002), Nowak (2003),
Vega–Amaya (2003), ...). En el caso a tiempo discreto, a la correspondiente
ecuación de programación dinámica se le llama ecuación de Shapley.

Nota 10.6 Los problemas de control minimax que estudiamos en la Sección 5 se


pueden ver como cierto tipo de juegos de suma cero. En efecto, si comparamos
las ecuaciones (10.4) y (5.2) vemos que una estrategia minimax π∗1 alcanzarı́a el
valor superior del juego, i.e.

U (s, x) = sup V (s, x, π∗1 , π 2 ) = inf1 sup V (s, x, π 1 , π 2 )


π2 π π2

para cualquier condición inicial (s, x). Los problemas de control minimax vistos
como “juegos contra la naturaleza” son muy populares en algunas aplicaciones,
por ejemplo, en control de colas—ver Altman (2005), Altman y Hordijk (1995).
70

11 Juegos de Stackelberg
Los juegos de Stackelberg fueron introducidos por el economista austriaco H.
von Stackelberg en 1934. Estos juegos se caracterizan porque uno de los ju-
gadores, al que se le llama el lı́der, fija las reglas del juego, “tira primero” por ası́
decirlo, y el resto de los jugadores, a quienes se les llama los seguidores, deben
buscar su respuesta óptima a las reglas del lı́der.

Aquı́ sólo consideraremos el caso de dos jugadores, en los que el jugador 1


es el lı́der y el jugador 2 es el seguidor. Las respectivas funciones objetivo son

V1 (π 1 , π 2 ), V2 (π 1 , π 2 ).

(Se pueden considerar juegos de Stackelberg con más de dos jugadores y con
varios niveles de jerarquı́a; ver Basar y Olsder (1999), por ejemplo.)

Dada una estrategia π 1 ∈ Π1 del lı́der, recuérdese que RO2 (π 1 ) denota el


conjunto de las respuestas óptimas del jugador 2 a la estrategia π 1 ; vea (9.2).

Definición 11.1. Sea

Ṽ1 (π 1 ) := sup{V1 (π 1 , π 2 ) | π 2 ∈ RO2 (π 1 )}.

Una multiestrategia (π∗1 , π∗2 ) es un equilibrio de Stackelberg si

Ṽ1 (π∗1 ) = infπ1 Ṽ1 (π 1 ) = infπ1 supπ2 ∈RO2 (π1 ) V1 (π 1 , π 2 ) (11.1)

y
π∗2 ∈ RO2 (π∗1 ).

Obsérvese que (11.1) tenemos una situación similar al control minimax o con-
trol del peor caso que vimos en la sección 5. En efecto, el lı́der toma una actitud
de minimizar el peor caso, porque trata de cubrir sus pérdidas contra la peor
selección del jugador 2 en el conjunto RO2 (π 1 ).

Ejemplo 11.2. En este ejemplo, introducido por Basar (1991), el lı́der (= jugador
1) es el gobierno o la “autoridad monetaria” — en México, el Banco de México
— y el seguidor (= jugador 2) es el sector privado. El objetivo principal del
lı́der es controlar la inflación, ası́ que el estado xt ∈ IR del juego es el parámetro
11. JUEGOS DE STACKELBERG 71

de preferencia (en México, el IPC = ı́ndice de precios al consumidor) del lı́der y


satisface la ecuación diferencial estocástica

dxt = −(1 − ρ)xt dt + θ(1 − ρ)dt + dvt , t ≥ 0, x(0) = x0 ,

donde ρ ∈ (0, 1) y θ > 0 son constantes, y vt es un proceso de Wiener. (En


el artı́culo de Basar y Salmon (1990) se estudia un juego similar pero a tiempo
discreto.)

La variable de control a1t del lı́der es la tasa planeada de crecimiento monetario,


de modo que el crecimiento monetario acumulado real, que se denota por mt , es
Z t
mt := a1s ds + wt
0

donde wt es un proceso de Wiener independiente de vt . La variable de control a2t


del seguidor es el pronóstico que hace de a1t basándose en la información {ms , s <
t}.

Basar (1991) considera funciones objetivo con horizonte finito y también hor-
izonte infinito. Aquı́ sólo consideraremos el segundo caso, en el que el seguidor
desea minimizar
Z ∞ 
1 2 1 2 2 −αt
V2 (π , π ) := E (at − at ) e dt ,
0

donde α > 0 es un factor de descuento, mientras que el lı́der desea maximizar


Z ∞ 
1 2 1 2 1 1 2 −βt
V1 (π , π ) := E [xt (at − at ) − (at ) ]e dt ,
0 2

donde β > 0 es otro factor de descuento. Esta función V1 representa un bal-


ance entre maximizar el primer término (llamado la “sorpresa monetaria”) y
minimizar (a1t )2 (que equivale a un bajo nivel de inflación), con el parámetro de
preferencia xt determinando el grado y nivel de este balance.

Se puede demostrar que el conjunto RO2 (π 1 ) tiene un único punto T (π 1 ), o


sea T (π 1 ) ∈ A2 es el único valor para el que

V2 (π 1 , T (π 1 )) ≤ V2 (π 1 , π 2 ) ∀ π 1 , π 2 .
72

Combinando este hecho con la Definición 11.1 se sigue que una multiestrategia
(π̂ 1 , π̂ 2 ) es un equilibrio de Stackelberg si

V1 (π̂ 1 , π̂ 2 ) ≥ V1 (π 1 , T (π 1 )) ∀ π 1 ∈ Π1

y, además,
π̂ 2 = T (π̂ 1 ).
De hecho, bajo ciertas hipótesis, este equilibrio resulta ser

â1t := M (xt − x̂t ) y â2t = E(â1t | ms , s < t) = 0, (11.2)

donde M > 0 es una constante y x̂t := E(xt | ms , s < t). (Como E(â1t ) = 0 se dice
que el “sesgo inflacionario” es cero.)

Por otra parte, (π∗1 , π∗2 ) es un equilibrio de Nash si

V1 (π∗1 , π∗2 ) ≥ V1 (π 1 , π∗2 ) ∀ π 1

y
V2 (π∗1 , π∗2 ) ≤ V2 (π∗1 , π 2 ) ∀ π 2 .
Bajo hipótesis adecuadas, se demuestra que el equilibrio de Nash es

a∗1
t = b xt + c y a∗2
t = x̂t , (11.3)

con x̂t como en (11.2), y b, c constantes. (El estimador x̂t se calcula usando filtros
de Kalman.) Basar hace una comparación del equilibrio de Stackelberg (11.2)
con el equilibrio de Nash (11.3). 2

Además de los artı́culos de Basar (1991) y Basar y Salmon (1990) menciona-


dos en el ejemplo anterior, Basar et al. (1985), Neck (1991) y Pohjola (1983) estu-
dian equilibrios de Nash y de Stackelberg para un mismo juego.
73

Referencias
Altman, E. (2005). Applications of dynamic games in queues. In Nowak y
Szajowski (2005), pp. 309–342.

Altman, E., Hordijk, A. (1995). Zero–sum Markov games and worst–case op-
timal control of queueing systems. Queueing Syst. Theory Appl. 21, pp.
415–447.

Alvarez–Mena, J., Hernández–Lerma, O. (2005). Existence of Nash equilibria


for constrained stochastic games. Math. Meth. Oper Res. 62, to appear.

Amir, R. (2003). Stochastic games in economics and related fields: an overview.


In Neyman and Sorin (2003), Chapter 30.

Arkin, V.I., Evstigneev, I.V. (1987). Stochastic Models of Control and Economic
Dynamics. Academic Press, London.

Balbus, L., Nowak, A.S. (2004). Construction of Nash equilibria in symmetric


stochastic games of capital accumulation. Math. Meth. Oper. Res. 60, pp.
267–277.

Basar, T., editor (1986). Dynamic Games and Applications in Economics. Lec-
ture Notes in Economics and Mathematical Systems 265, Springer–Verlag,
Berlin.

Basar, T. (1991). A continuous–time model of monetary policy and inflation: a


stochastic differential game. In Ricci (1991), pp. 3–17.

Basar, T., Haurie, A., Ricci, G. (1985). On the dominance of capitalists lead-
ership in a feedback–Stackelberg solution of differential game model of
capitalism”. J. Econ. Dyn. Control 9, pp. 101–125.

Basar, T., Olsder, G.J. (1999). Dynamic Noncooperative Game Theory, Second Edi-
tion. SIAM, Philadelphia. (The first edition was published by Academic
Press, in 1982.)

Basar, T., Salmon, M. (1990). Credibility and the value of information transmis-
sion in a model of monetary policy and inflation. J. Economic Dynamics and
Control 14, pp. 97–116.
74

Bellman, R. (1956). Dynamic Programming. Princeton University Press, Prince-


ton, N.J.

Bernhard, P. (2005). Robust control approach to option pricing, including trans-


action costs. In Nowak and Szajowski (2005), pp. 391–416.

Bertsekas, D.P. (1987). Dynamic Programming: Deterministic and Stochastic Mod-


els. Prentice–Hall, Englewood Cliffs, N.J.

Bertsekas, D.P. (2000). Dynamic Programming and Optimal Control, Volume I, Sec-
ond Edition. Athena Scientific, Belmont, MA.

Browne, S. (2000). Stochastic differential portfolio games. J. Appl. Prob. 37, pp.
126–147.

Bourdache–Siguerdidjane, H., Fliess, M. (1987). Optimal feedback control of


nonlinear systems. Automatica 23, pp. 365–372.

Case, J. (1974). A class of games having Pareto optimal Nash equilibria. J.


Optim. Theory Appl. 13, pp. 379–386.

Clemhout, S., Wan, H.Y. (1974). A class of trilinear differential games. J. Optim.
Theory Appl. 14, pp. 419–424.

Dockner, E., Feichtinger, G., Jorgensen, S. (1985). Tractable classes of nonzero–


sum open–loop Nash differential games: theory and examples. J. Optim.
Theory Appl. 45, pp. 179–197.

Dockner, E.J., Jorgensen, S., Long, N.V., Sorger, G. (2000). Differential Games
in Economics and Management Science. Cambridge University Press, Cam-
bridge, U.K.

Ehtamo, H., Ruusunen, J., Kaitala, V., Hamalainen, R.P. (1988). Solution for a
dynamic bargaining problem with an application to resource management.
J. Optim. Theory Appl. 59, pp. 391–405.

Feichtinger, G., editor (1985). Optimal Control Theory and Economic Analysis 2.
North–Holland, Amsterdam.

Feichtinger, G., Jorgensen, S. (1983). Differential game models in management.


Euro. J. Oper. Res. 14, pp. 137–155.
75

Fershtman, C., Mullar, E. (1986). Turnpike properties of capital accumulation


games. J. Econ. Th. 38, pp. 167–177.

Filar, J.A., Petrosjan, L.A. (2000). Dynamic cooperative games. Internatl. Game
Theory Rev. 2, pp. 47–65.

Filar, J., Vrieze, K. (1997). Competitive Markov Decision Processes. Springer–


Verlag, New York.

Fleming, W.H., Rishel, R.W. (1975). Deterministic and Stochastic Optimal Control.
Springer–Verlag, New York.

Fleming, W.H., Soner, H.M. (1992). Controlled Markov Processes and Viscosity
Solutions. Springer–Verlag, New York.

Fudenberg, D., Tirole, J. (1991). Game Theory. MIT Press, Cambridge, MA.

Gaidov, S.D. (1986). Pareto–optimality in stochastic differential games. Prob-


lems of Control and Information Theory 15, 439–450.

Gaidov, S.D. (1990). On the Nash–bargaining solution in stochastic differential


games. Serdica 16, pp. 120–125.

Gibbons, R. (1992). Game Theory for Applied Economists. Princeton University


Press, Princeton, NJ.

González–Trejo, J.I., Hernández–Lerma, O., Hoyos–Reyes, L.F. (2003). Mini-


max control of discrete–time stochastic systems. SIAM J. Control Optim. 41,
pp. 1626–1659.

Guo, X.P., Hernández–Lerma, O. (2003a). Continuous–time controlled Markov


chains with discounted rewards. Acta Appl. Math. 79, pp. 195–216.

Guo, X.P., Hernández–Lerma, O. (2003b). Zero–sum games for continuous–


time Markov chains with unbounded transition and average payoff rates.
J. Appl. Prob. 40, pp. 327–345.

Guo, X.P., Hernández–Lerma, O. (2005). Nonzero–sum games for continuous–


time Markov chains with unbounded discounted payoff. J. Appl. Probab.
42, to appear.
76

Halkin, H. (1966). A maximum principle of the Pontryagin type for systems


described by nonlinear difference equations. SIAM J. Control 4, pp. 90–111.

Haurie, A. (1976). A note on nonzero–sum differential games with bargaining


solution. J. Optim. Theory Appl. 18, pp. 31–39.

Haurie, A. (1982). Acceptable equilibria in dynamic bargaining games. Lecture


Notes in Control and Information Sciences 38, pp. 715–725.

Haurie, A. (2001). A historical perspective on cooperative differential games.


In Advances in Dynamic Games and Applications, ed by E. Altman and O.
Pourtallier, Birkhauser, Boston, pp. 19–29.

Hernández–Lerma, O. (1994). Lectures on Continuous–Time Markov Control Pro-


cesses. Sociedad Matemática Mexicana, México.

Hernández–Lerma, O., Lasserre, J.B. (1996). Discrete–Time Markov Control Pro-


cesses: Basic Optimality Criteria. Springer–Verlag, New York.

Hernández–Lerma, O., Lasserre, J.B. (1999). Further Topics on Discrete–Time


Markov Control Processes. Springer–Verlag, New York.

Hernández–Lerma, O., Lasserre, J.B. (2001). Zero–sum stochastic games in


Borel spaces: average payoff criteria. SIAM J. Control Optim. 39, pp. 1520–
1539.

Hernández–Lerma, O., Romera, R. (2004a). The scalarization approach to mul-


tiobjective Markov control problems: why does it work? Appl. Math. Op-
tim. 50, pp. 279–293.

Hernández–Lerma, O., Romera, R. (2004b). Multiobjective Markov control pro-


cesses: a linear programming approach. Morfismos 8, to appear. (This pa-
per is an extended, more detailed, version of the paper by the same authors
(20004a).)

Isaacs, R. (1965). Differential Games. Wiley, New York.

Jasso–Fuentes, H. (2004). Noncooperative Continuous–Time Markov Games. M.Sc.


thesis, Departamento de Matemáticas, CINVESTAV–IPN.

Jorgensen, S., Sorger, G. (1990). Feedback Nash equilibria in a problem of opti-


mal fishery management. J. Optim. Theory Appl. 64, pp. 293–310.
77

Jorgensen, S., Yeung, D.W.K. (1996). Stochastic differential game model of a


common property fishery. J. Optim. Theory Appl. 90 pp. 381–403.

Josa–Fombellida, R., Rincón–Zapatero, J.P. (2005). A new approach to stochas-


tic control problems and applications to economics. Submitted to J. Optim.
Theory Appl.

Kaitala, V., Hamalainen, R.P., Ruusunen, J. (1985). On the analysis of equilibria


and bargaining in a fishery game. In Feichtinger (1985), pp. 593–606.

Kalai, E., Smorodinsky, M. (1975). Other solutions to Nash’s bargaining prob-


lem. Econometrica 43, pp. 513–518.

Kannan, D., Lakshmikantham, V., editors (2002). Handbook of Stochastic Analysis


and Applications. Dekker, New York.

Karatzas, I., Shreve, S.E. (1998). Methods of Mathematical Finance. Springer–


Verlag, New York.

Kirman, A.P., Sobel, M.J. (1974). Dynamic oligopoly with inventories. Eco-
nometrica 42, pp. 279–287.

Klompstra, M. (1992). Time Aspects in Games and in Optimal Control. Ph.D. The-
sis, Delft University of Technology.

Krawczyk, J.B., Shimomura, K. (2003). Why countries with the same funda-
mentals can have different growth rates. J. Econ. Dyn. Control 27, pp.
1899–19916.

Kuhn, H.W. Szegö, G.P., editors (1971). Differential Games and Related Topics.
North–Holland, Amsterdam.

Kushner, H.J. (2002). Numerical approximations for stochastic differential


games. SIAM J. Control Optim. 41, pp. 457–486.

Kushner, H.J. (2004). Numerical approximations for stochastic differential


games: the ergodic case. SIAM J. Control Optim. 42, pp. 1911–1933.

Lancaster, K. (1973). The dynamic inefficiency of capitalism. J. Political Economy


87, pp. 1092–1109.
78

Leitmann, G. (1974). Cooperative and Non–cooperative Many Players Differential


Games. Springer–Verlag, New York.

Le Van, C., Dana, R.–A. (2003). Dynamic Programming in Economics. Kluwer,


Boston.

Luque–Vásquez, F. (2002). Zero–sum semi–Markov games in Borel spaces: dis-


counted and average payoff. Bol Soc. Mat. Mexicana 8, pp. 227–241.

Luque–Vásquez, F., Minjárez–Sosa, J.A., Vega–Amaya, O. (1996). Introducción a


la Teorı́a de Control Estocástico. Departamento de Matemáticas, División de
Ciencias Exactas y Naturales, Universidad de Sonora.

Merton, R.C. (1969). Lifetime portfolio selection under uncertainty: the contin-
uous–time case. Rev. Economics and Statistics 51, pp. 247–257.

Nash, J. (1950a). Equilibrium points in N –person games. Proc. Natl. Acad. Sci.
36, pp. 48–49.

Nash, J. (1950b). The bargaining problem. Econometrica 18, pp. 155–162.

Nash, J. (1951). Noncooperative games. Ann. Math. 54, pp. 286–295.

Nash, J. (1953). Two–person cooperative games. Econometrica 21, pp. 128–140.

Neck, R. (1982). Dynamic systems with several decision makers. In Operations


Research in Progress, ed. by G. Feichtinger and P. Kall, Reidel, New York,
pp. 261–284.

Neck, R. (1985). A differential game model of fiscal and monetary policies:


conflict and cooperation. In Feichtinger (1985), pp. 607–632.

Neck, R. (1991). Non–cooperative equilibrium solution for a stochastic dy-


namic game of economic stabilization policies. Lecture Notes in Control and
Information Sciences 157, Springer–Verlag, Berlin, pp. 221–230.

Neyman, A., Sorin, S., editors (2003). Stochastic Games and Applications. Kluwer,
Dordrecht.

Nowak, A.S. (2003a). Zero–sum stochastic games with Borel state spaces. In
Neyman and Sorin (2003), pp. 77–91.
79

Nowak, A.S. (2003b). On a new class of nonzero–sum discounted stochastic


games having stationary Nash equilibrium points. Int. J. Game Theory 32,
pp. 121–132.

Nowak, A.S., Szajowski, P. (2003). On Nash equilibria in stochastic games of


capital accumulation. In Stochastic Games and Applications, Volume 9, edited
by L.A. Petrosjan and V.V. Mazalov, Nova Science, pp. 118–129.

Nowak, A.S., Szajowski, K., editors (2005). Advances in Dynamic Games. (Annals
of the International Society of Dynamic Games, vol. 7) Birkhauser, Boston.

Petrosyan, L.A. (2003). Bargaining in dynamic games. In Petrosyan and Yeung


(2003), pp. 139–143.

Petrosjan, L.A. (2005). Cooperative differential games. In Nowak and Sza-


jowski (2005), pp. 183–200.

Petrosjan, L.A. Zenkevich, N.A. (1996). Game Theory. World Scientific, Singa-
pore.

Petrosyan, L.A. Yeung, D.W.K., editors (2003). ICM Millennium Lectures on


Games. Springer–Verlag, Berlin.

Pohjola, M. (1983). Nash and Stackelberg solutions in a differential game model


of capitalism. J. Economic Dynamics and Control 6, pp. 173–186.

Poznyak, A.S. (2002a). Robust stochastic maximum principle: complete proof


and discussions. Math. Problems in Engineering 8, pp. 389–411.

Poznyak, A.S. (2002b). Robust stochastic maximum principle: a measure space


as uncertainty set. In Lecture Notes in Control and Information Sciences 280,
pp. 385–394.

Prieto–Rumeau, T., Hernández–Lerma, O. (2005a). The Laurent series, sen-


sitive discount and Blackwell optimality for continuous–time controlled
Markov chains. Math. Methods Oper. Res. 61, pp. 123–145.

Prieto–Rumeau, T., Hernández–Lerma, O. (2005b). A unified approach to con-


tinuous–time discounted Markov control processes. (Reporte Interno No.
356, CINVESTAV.) Submitted.
80

Prieto–Rumeau, T., Hernández–Lerma, O. (2005c). Bias and overtaking equi-


libria for zero–sum continuous–time Markov games. Math. Meth. Oper.
Res., to appear.

Ramachandran, K.M. (2002). Stochastic differential games and applications. In


Kannan and Lakshmikantam (2002), Chapter 8.

Ricci, G., editor (1991). Decision Processes in Economics. Lecture Notes in Eco-
nomics and Mathematical Systems 353, Springer–Verlag, Berlin.

Rincón–Zapatero, J.P. (2004). Characterization of Markovian equilibria in a


class of differential games. J. Econ. Dyn. Control 28, pp. 1243–1266.

Rincón–Zapatero, J.P., Martı́nez, J., Martı́n–Herrán, G. (1998). New method


to characterize subgame perfect Nash equilibria in differential games. J.
Optim. Theory Appl. 96, pp. 377–395.

Rincón–Zapatero, J.P., Martı́n–Herrán, G., Martı́nez, J. (2000). Identification of


efficient subgame-perfect Nash equilibria in a class of differential games.
J. Optim. Theory Appl. 104, pp. 235–242.

Roth, A.E. (1979). Axiomatic Models of Bargaining. Springer–Verlag, Berlin.

Roth, A.E. (1985). Game–Theoretic Models of Bargaining. Cambridge University


Press, Cambridge, U.K.

Samuelson, P.A. (1969). Lifetime portfolio selection by dynamic stochastic pro-


gramming. Rev. Economics and Statistics 51, pp. 239–246.

Schmitendorf, W.E. (1976). Differential games without pure strategy saddle–


point solutions. J. Optim. Theory Appl. 18, pp. 81–92.

Sethi, S.P., Thompson, G.L. (2000). Optimal Control Theory: Applications to Man-
agement Science and Economics, 2nd Edition. Kluwer, Boston.

Shapley, L. (1953). Stochastic games. Proc. Natl. Acad. Sci. 39, pp. 1095–1100.
(This paper is reproduced in Neyman and Sorin (2003), pp. 1–7.)

Shimomura, K. (1991). The feedback equilibria of a differential game of capi-


talism. J. Econ. Dyn. Control 15, pp. 317–338.
81

Stalford, H., Leitmann, G. (1973). Sufficiency conditions for Nash equilibrium


in N–person differential games. In Topics in Differential Games, edited by A.
Blaquière, North–Holland, New York.

Stokey, N.L., Lucas, R.E. (1989). Recursive Methods in Economic Dynamics. Har-
vard University Press, Cambridge, MA.

Sundaram, R.K. (1989). Perfect equilibria in a class of symmetric dynamic


games. J. Econ. Theory 47, pp. 153–177.

Tabak, D., Kuo, B.C. (1971). Optimal Control by Mathematical Programming. Pren-
tice Hall, Englewood Cliffs, N.J.

Tolwinski, B., Haurie, A., Leitmann, G. (1986). Cooperative equilibria in differ-


ential games. J. Math. Anal. Appl. 119, pp. 182–202.

Toussaint, S. (1985). The transversality condition at infinity applied to a prob-


lem of optimal resource depletion. In Feichtinger (1985), pp. 429–440.

Vaisbord, E.M., Zhukovskii, V.I. (1988). Introduction to Multi–Player Differential


Games and Their Applications. Gordon and Breach, New York.

Vega–Amaya, O. (2003). Zero–sum average semi–Markov games: fixed–point


solutions of the Shapley equation. SIAM J. Control Optim. 42, pp. 1876–
1894.

von Neumann, J., Morgenstern, O. (1944). The Theory of Games and Economic
Behavior. Princeton University Press, Princeton, N.J.

Wiecek, P. (2003). Convex stochastic games of capital accumulation with non-


divisible money unit. Scientia Mathematicae Japonica 57 (2003), pp. 397–411.

Wiecek, P. (2005). Continuous convex stochastic games of capital accumulation.


In Nowak and Szajowski (2005), pp. 111–125.

Yong, J., Zhou, X.Y. (1999). Stochastic Controls: Hamiltonian Systems and HJB
Equations. Springer–Verlag, New York.

Yu, P.L., Leitmann, G. (1974). Compromise solutions, domination structures


and Salukvadze’s solution. J. Optim. Theory Appl. 3, pp. 362–378.
82

Zariphopoulou, T. (2002). Stochastic control methods in asset pricing. In Kan-


nan and Lakshmikantam (2002), Chapter 12.

Zhukovskiy. V.I., Salukvadze, M.E. (1994). The Vector–Valued Maximin. Aca-


demic Press, Boston.

También podría gustarte