Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Minicurso Dinámica PDF
Minicurso Dinámica PDF
CIMAT, Guanajuato
Agosto 1–12, 2005
Onésimo Hernández–Lerma
Departamento de Matemáticas
CINVESTAV–IPN
México, D.F.
Resumen: Estas son notas para un mini–curso (de 7.5 horas, aproximadamente)
introductorio sobre algunos aspectos de los juegos dinámicos, incluyendo juegos
determinı́sticos y estocásticos, a tiempo discreto y tiempo continuo. Se presenta
una breve introducción a problemas de control óptimo y después se ven los
principales tipos de equilibrios cooperativos y equilibrios no–cooperativos. El
curso está dirigido a estudiantes avanzados de licenciatura o principiantes de
posgrado. No es necesario que los estudiantes satisfagan ningún requisito en
particular, sólo que no se asusten si oyen frases como “ecuación diferencial”,
“variable aleatoria”, etc.
2
CONTENIDO
1. Introducción 6
4. Programación dinámica 32
6. Equilibrios de Pareto 45
7. Equilibrios de compromiso 51
9. Equilibrios de Nash 59
Referencias 73
3
Por supuesto, algunos textos de teorı́a de juegos incluyen “algo” sobre juegos
dinámicos, por ejemplo, Fudenberg y Tirole (1991), Gibbons (1992), Petrosjan y
Zenkevich (1996).
Advertencia
• Sobel, M.J. (1973). Continuous stochastic games. J. Appl. Prob. 10, pp.
597–604.
Los equilibrios de Nash están entre los muchı́simos conceptos que son tri-
viales de analizar para juegos estáticos o juegos repetidos, pero que para juegos
dinámicos (con espacio de estados no–numerable) han permanecido casi “into-
cables” hasta la fecha.
5
Indice de notación
fxi = ∂f /∂xi .
fx = (fx1 , . . . , fxn ),
fxx = (fxi xj ).
1 Introducción
En esta sección se presentan algunos ejemplos que servirán para motivar e ilus-
trar algunos de los conceptos que se introducirán en secciones posteriores.
Ejemplos de oligopolios:
• Servicios de transporte (autobuses, aerolı́neas, ...)
• Mercados de energéticos (gas, petróleo, electricidad, ...)
• Bebidas (refrescos, cerveza, ...), etc.
El hecho de que haya pocos vendedores implica que las acciones de cua-
lesquiera de ellos afecta el precio del producto y, por lo tanto, tiene un impacto
medible sobre los competidores.
Casos especiales:
• Duopolio: El duopolio de Cournot (1838) fue la primera aplicación de
teorı́a de juegos a economı́a.
• Monopolio (una única firma): en este caso el “juego” se reduce a un pro-
blema de control óptimo que se estudia en el contexto de sistemas de pro-
ducción. 2
xt+1 = xt + zt − dt ∀ t = 0, 1, . . . . (1.1)
• Ganancia neta de la firma i : rti (xit , ait , dit ). Por ejemplo, si yti := xit + zti ,
entonces
πti
Información −→ Acciones ait
Sea Vi (π, x0 ) la ganancia neta total del jugador i, dado que las firmas usan la
multiestrategia π = (π 1 , . . . , π N ) y los inventarios iniciales son x0 = (x10 , . . . , xN0 ).
Por ejemplo, en un juego con horizonte finito T ,
"T −1 #
V (π, x ) := E π
X
i 0 x0 ri (xi , ai , di ) + ri (xi ) .
t t t t T T (1.3)
t=0
Sin embargo, la regla es que no existen multiestrategias que satisfagan tal condi-
ción. Por tal motivo, en teorı́a de juegos se habla de equilibrios en lugar de
multiestrategias “óptimas”.
• En el caso estocástico, el oligopolio anterior es un caso especial de cier-
tos juegos a tiempo discreto conocidos como juegos estocásticos o juegos
markovianos, introducidos por Shapley (1953). 2
ṗ(t) = s{α − [a1 (t) + a2 (t)] − p(t)} para t > 0, p(0) = p0 , (1.5)
Ejemplo 1.4: Juegos LQ. El juego (1.5)–(1.6) es un ejemplo de juego LQ, del
inglés: Linear system, Quadratic cost. Este tipo de juegos es muy importante
debido a sus múltiples aplicaciones y, sobre todo, porque en muchos casos se
pueden resolver explı́citamente.
4. cómo se va a “medir” la respuesta del sistema a cada una de las distintas es-
trategias admisibles; es decir, se debe especificar la función objetivo, también
llamada ı́ndice de funcionamiento.
Dadas estas cuatro componentes, el PCO se puede resumir como sigue: optimizar
la función objetivo sujeta a las restricciones en 1, 2 y 3.
Definición 2.1: El modelo dinámico. Los modelos más comunes (aunque no los
únicos) son los siguientes.
• sistema incierto si se sabe que las ξt son constantes con valores en algún
conjunto dado, pero no se conoce el valor particular de cada ξt .
En todo caso (incluyendo los modelos a tiempo continuo que veremos a con-
tinuación), el conjunto en donde toman sus valores las variables xt se llama el
espacio de estados del PCO y lo denotaremos por X. Para fijar ideas supon-
dremos que X es un subconjunto cerrado de IRd para algún entero d ≥ 1. (Más
generalmente, basta suponer que X es un espacio de Borel, es decir, un subcon-
junto de Borel de un espacio métrico separable y completo.)
at ∈ A(xt ) ∀ t, (2.4)
12
a x
- sistema -
controlador
t at
- controlador -
es decir,
at = g(t) ∀ t, (2.5)
en cuyo caso se dice que π es una estrategia de lazo abierto (open loop). Si g
depende sólo de t y xt , es decir,
at = g(t, xt ) ∀ t, (2.6)
2. DEFINICIÓN DEL PROBLEMA DE CONTROL ÓPTIMO 13
at ∼ φt (·). (2.8)
Otro caso muy común es cuando se desea optimizar una cierta función obje-
tivo, digamos V0 (π), sobre todas las estrategias π para las que
Vi (π) ≤ bi ∀ i = 1, . . . , n, (2.10)
donde las Vi (·) son funciones dadas y las bi son constantes. Por ejemplo, en un
problema de control de producción, tı́picamente se desea maximizar la ganan-
cia neta V0 (π) sujeta a que ciertos costos Vi (π) (e.g. costos de manufactura, de
almacenamiento, de distribución, etc.) están acotados por arriba, como en (2.10).
Tiempo continuo. En este caso el precio b(t) del activo sin riesgo (el bono,
digamos) varı́a de acuerdo a una ecuación diferencial ordinaria
db(t) = rb(t)dt.
2. DEFINICIÓN DEL PROBLEMA DE CONTROL ÓPTIMO 17
con r > 0, mientras que el precio s(t) del activo con riesgo (el “stock”) está dado
por una ecuación diferencial estocástica
con x(0) = x > 0. Los tres términos en el lado derecho de (2.22) corresponden,
respectivamente, a la ganancia por el capital invertido en el bono, la ganancia
por la inversión en el stock, y la disminución del capital debida al consumo.
τ := min{T, τ0 },
material estándar; ver e.g. Fleming y Rishel (1975), Fleming y Soner (1992), Sethi
y Thompson (2000), Karatzas y Shreve (1998), Zariphopoulou (2002).
Procesos de Markov
bajo ciertas hipótesis sobre los coeficientes F y σ, los cuales pueden depender
también del tiempo t, no sólo del estado xt (vea (2.3)). Otros ejemplos son las
cadenas de Markov (cuyo espacio de estados es un conjunto numerable), los
procesos de Lévy, ...
también conocido como proceso con “ruido aditivo”. Un caso especial son los
sistemas lineales
xt+1 = Γxt + ξt
con X = S = IRn y Γ una matriz cuadrada de orden n.
Prob(xt+1 ∈ B | x0 , a0 , . . . , xt , at ) = Prob(xt+1 ∈ B | xt , at )
=: Q(B|xt , at ) (2.31)
A grandes rasgos, la idea del principio del máximo consiste en usar el mé-
todo de multiplicadores de Lagrange para minimizar (3.2) sujeto a la “restricción”
(3.1). Para este fin, primero expresamos (3.1) en la forma
xt+1 − F (t, xt , at ) = 0 ∀ t = 0, 1, . . . , T − 1.
Después introducimos “multiplicadores de Lagrange” p0 , p1 , . . . , pT en IRn , a los
que llamaremos vectores adjuntos (también llamados vectores de co–estado), y
definimos el “lagrangiano”
T −1
X
Ṽ (π, x, p• ) := V (π, x) + pt+1 · [xt+1 − F (t, xt , at )], (3.3)
t=0
24
T −1
X
Ṽ (π, x, p• ) = [pt · xt − H(t, xt , at , pt+1 )] + C(xT ) + pT · xT − p0 · x0 .
t=0
Hipótesis 3.1.
Teorema 3.2. (El principio del máximo — caso determinı́stico, tiempo discreto).
Suponga que se cumple la Hipótesis 3.1. Supóngase también que existe una
estrategia óptima a∗• = {a∗t , t = 0, . . . , T − 1} para el PCO (3.1)–(3.2), y sea
x∗• = {x∗t , t = 0, . . . , T } la trayectoria correspondiente que se obtiene de (3.1)
con estado inicial x∗0 = x0 . Entonces existe un conjunto p• = {p0 , . . . , pT } de
vectores adjuntos que satisfacen la ecuación adjunta
i.e.
pt = Fx (t, x∗t , a∗t )0 pt+1 − Lx (t, x∗t , a∗t ),
con la condición terminal
pT = Cx (x∗T ), (3.6)
3. EL PRINCIPIO DEL MÁXIMO 25
para t = 0, . . . , T − 1.
p t = Kt x t ∀ t = 0, . . . , T, (3.13)
pT −1 = αpT − QxT −1
3. EL PRINCIPIO DEL MÁXIMO 27
Por supuesto, para que (3.8) y (3.9) estén bien definidas se requieren hipótesis
adecuadas de medibilidad, de Lipschitz, etc., que se pueden ver en, por ejemplo,
los libros de Fleming y Rishel (1975) o de Yong y Zhou (1999). Un tratamiento
un tanto informal del principio del máximo, pero con un buen número de apli-
caciones, se puede ver en Sethi y Thompson (2000). Aquı́ sólo enunciaremos el
resultado principal, que requiere la siguiente notación y terminologı́a.
H(t, x(t), a(t), p(t)) := p(t) · F (t, x(t), a(t)) − L(t, x(t), a(t)). (3.17)
(Compare esta definición con (3.4).) Con esta notación, el análogo de las condi-
ciones necesarias (3.5)–(3.7) resulta como sigue.
Teorema 3.5. (El principio del máximo — caso determinı́stico, tiempo con-
tinuo). Supóngase que existe un par óptimo para el PCO (3.8)–(3.9). Entonces,
bajo ciertas hipótesis sobre las funciones F (t, x, a), L(t, x, a) y C(x), existe una
variable adjunta p(·) : [0, T ] → IRn que satisface la ecuación adjunta
Para resolver las ecuaciones (3.24) y (3.26), primero derivamos (3.26) y ası́ obte-
nemos una ecuación con ṗ, es decir,
equivalentemente,
ẍ − α2 x(t) = −α2 x̂ − ṡ(t). (3.27)
La solución general de esta ecuación es de la forma
con condición terminal p(T ) = 0. Las ecuaciones (3.28) y (3.29), con sus respec-
tivas condiciones de frontera, dan un sistema de dos ecuaciones algebraicas que
3. EL PRINCIPIO DEL MÁXIMO 31
El caso estocástico.
Para sistemas estocásticos a tiempo continuo, y salvo contadas excepciones,
el principio del máximo se ha desarrollado principalmente para ecuaciones dife-
renciales estocásticas, como en (2.3). Una buena referencia para este caso, con
una extensa bibliografı́a, es el libro de Yong y Zhou (1999). Una extensión del
principio del máximo ha permitido a Josa–Fombellida y Rincón–Zapatero (2005)
proponer un nuevo enfoque para problemas de control estocástico. Un enfoque
similar ha sido estudiado por Bourdache–Siguerdidjane y Fliess (1987) para pro-
blemas determinı́sticos y por Rincón–Zapatero (2004) y Rincón–Zapatero et al.
(1998) para juegos diferenciales.
4 Programación dinámica
Como se mencionó en la Nota 3.3, para encontrar una estrategia óptima el prin-
cipio del máximo se reduce esencialmente a resolver un problema con valores
de frontera. Esto requiere determinar una estrategia óptima simultáneamente con
las otras variables (la trayectoria y los vectores adjuntos) en el problema. Un
enfoque alternativo consiste en descomponer el PCO en “etapas”, cada una cor-
respondiente a un subproblema con una sola variable, de modo que el PCO se
resuelve en forma secuencial, por etapas. Esta es la idea del método de progra-
mación dinámica que veremos en esta sección. Primero consideraremos PCOs a
tiempo discreto y después a tiempo continuo.
T −1
X
V (π, x) := L(t, x(t), a(t)) + C(x(T )), (4.2)
t=0
Lema 4.1. (El principio de optimalidad) Sea a∗ (·) = {a∗ (0), . . . , a∗ (T − 1)} una
estrategia óptima para el problema (4.1)–(4.2), y sea x∗ (·) = {x∗ (0), . . . , x∗ (T )} la
trayectoria correspondiente; en particular, x∗ (0) = x0 . Entonces para cualquier
4. PROGRAMACIÓN DINÁMICA 33
Para ver como se usa el Lema 4.1, consideremos el PCO (4.1)–(4.2) pero sólo
del tiempo s en adelante (con 0 ≤ s ≤ T − 1), con estado “inicial” x(s) = x, es
decir, sea
T −1
X
V (π, s, x) := L(t, x(t), a(t)) + C(x(T )) (4.3)
t=s
Pero, por la definición (4.4), v(s, x) es el costo mı́nimo de operar el sistema del
tiempo s al tiempo T , de modo que
y para s = T − 1, T − 2, . . . , 0,
algún espacio S. Resulta entonces que, con algunos cambios adecuados, prác-
ticamente todo lo que aparece en los párrafos anteriores sigue siendo válido.
Más precisamente, en las expresiones en las que aparece la función F [a saber,
(4.6)–(4.8) y (4.10)] debemos escribir F (s, x, a, ξ(s)) en lugar de F (s, x, a); ade-
más, se debe tomar la esperanza en las expresiones donde aparezcan términos
estocásticos, o sea, en el lado derecho de (4.3), (4.6)–(4.8), y (4.10). Para más
detalles, vea el Ejemplo 4.4.
donde r > 0 y q, qT ≥ 0.
JT (x) := qT x2 (4.16)
36
y para s = T − 1, T − 2, . . . , 0:
Luego,
y el mı́nimo es
En general, es fácil ver que la estrategia óptima π ∗ = {a∗0 , . . . , a∗T −1 } está dada
por
a∗s (x) = Gs x, con Gs := −(r + Ks+1 β 2 )−1 Ks+1 αβ, (4.18)
con “ganancias” Ks dadas recursivamente por KT := qT y para s = T − 1, . . . , 0:
casos la estrategia óptima está dada por (4.18). Sin embargo, difieren en el costo
mı́nimo; la diferencia está en que, en el caso determinı́stico, la varianza σ 2 que
aparece en (4.19) es cero.
(b) Supóngase que existe una función g : X → A tal que g(x) ∈ A(x) y g(x)
minimiza el lado derecho de (4.24) para todo x ∈ X, i.e.
Z
v(x) = [c(x, g(x), s) + αv(F (x, g(x), s))]µ(ds).
S
de programación dinámica
con condición de frontera v(T, x) = C(x). Si además g(s, x) es una función que
alcanza el mı́nimo en (4.21), entonces
La demostración del Teorema 4.6 se puede ver en, por ejemplo, Fleming y
Rishel (1975), Fleming y Soner (1992), Yong y Zhou (1999). Estos libros estudian
el control de ecuaciones diferenciales ordinarias (como en (4.25)) y estocásticas
(como en (2.3)). Otros sistemas estocásticos a tiempo continuo incluyen las
cadenas de Markov — ver, por ejemplo, Guo y Hernández–Lerma (2003a) o
Prieto–Rumeau y Hernández–Lerma (2005a). Aunque es costumbre estudiar
cada uno de estos sistemas por separado, es posible hacer estudios unificados
que incluyen prácticamente cualquier tipo de proceso de control markoviano
(PCM) a tiempo continuo, como en (2.36)–(2.38); ver Hernández–Lerma (1994),
Prieto–Rumeau y Hernández–Lerma (2005b) y sus referencias, donde en parti-
cular podemos ver lo siguiente.
Si π ∗ ∈ Π es una estrategia del controlador que minimiza V # (π, x), i.e., para todo
x ∈ X:
V # (π ∗ , x) = inf V # (π, x),
π
o equivalentemente
V # (π ∗ , x) = inf sup V (π, γ, x), (5.2)
π γ
Una aplicación tı́pica del control minimax es a problemas de control que de-
penden de “parámetros” desconocidos. En este caso, el oponente es la “natu-
42
raleza” que de alguna manera, en cada tiempo t, selecciona el valor del paráme-
tro. Estos problemas se conocen como juegos contra la naturaleza.
Caso 1: El sistema es incierto, es decir, se sabe que las ξt son constantes con
valores en algún conjunto dado S, pero no se conoce el valor particular de ξt .
Consideremos primero el caso 2. Entonces, por el Teorema 4.5 (a), (b), sabe-
mos que si se conoce µ, entonces la función de valor v(x) satisface la ecuación de
programación dinámica (4.24), y una función g : X → A que alcanza el mı́nimo
en el lado derecho de (4.24) define una estrategia óptima. Resulta que el Teo-
rema 4.5 sigue siendo válido con algunos cambios adecuados, que dan como
resultado lo siguiente.
(b) Si existe una función f : X → A tal que f (x) ∈ A(x) alcanza el mı́nimo en
(5.5), i.e.
Z
v (x) = sup [c(x, f (x), s) + αv ∗ (F (x, f (x), s))]µ(ds),
∗
(5.6)
µ S
Bernhard (2005) propone técnicas de control robusto para estudiar algunos pro-
blemas en finanzas.
at = (a1t , . . . , aN
t ),
en donde ait es la acción del jugador i al tiempo t. Asimismo, en lugar del con-
junto A(x) de acciones factibles en (2.4), para un juego A(x) es el producto carte-
siano
A(x) = A1 (x) × · · · × AN (x),
donde Ai (x) representa el conjunto de acciones factibles para el jugador i cuando
el estado del juego es x. Por último, en lugar de una función objetivo (la función
objetivo del controlador), como en (2.11)–(2.15), ahora tenemos un vector
en donde V i (π, x) es la función objetivo del jugador i, dado que el estado inicial
del juego es x, y que los jugadores siguen la multiestrategia
π = (π 1 , . . . , π N )
Para fijar ideas, supondremos que las funciones objetivo V i (π, x) son costos
que se desea minimizar.
6. EQUILIBRIOS DE PARETO 45
6 Equilibrios de Pareto
En un juego cooperativo los jugadores desean cooperar para alcanzar un resul-
tado que, en algún sentido, sea benéfico para todos ellos. (Por el contrario, en un
juego no–cooperativo los jugadores no hacen acuerdos para cooperar; más bien,
actuan independientemente y sólo les preocupa alcanzar sus objetivos individ-
uales.)
{V (π) | π ∈ Π∗ } ⊂ Γ
Teorema 6.2. Bajo ciertas hipótesis, se obtiene lo siguiente. Si para algún vector
λ ∈ SN −1 existe una multiestrategia π ∗ ∈ Π que minimiza la función escalar (6.3),
i.e.
V λ (π ∗ ) ≤ V λ (π) ∀ π ∈ Π, (6.4)
entonces π ∗ es un equilibrio de Pareto.
V (π 0 ) < V (π ∗ ).
Nota 6.3. (a) Si se admite que algunas de las componentes del vector λ en (6.4)
sean cero (pero con suma total = 1), entonces sólo se podrı́a garantizar que π ∗ es
un equilibrio de Pareto débil. (Se dice que π ∗ es un equilibrio de Pareto débil si
no existe π ∈ Π tal que V (π) << V (π ∗ ).)
(c) Los artı́culos de Tolwinski et al. (1986) y de Gaidov (1986) dan condiciones
para la existencia de estrategias de Pareto en juegos diferenciales determinı́sticos
y estocásticos, respectivamente. La primera de estas referencias incluye estrate-
gias con amenazas (threats) cuyo papel es inducir a los jugadores a que respeten
lo convenido entre ellos, una vez que se ha llegado a un equilibrio. Alternativa-
mente, para que los jugadores respeten los acuerdos entre ellos, se puede suponer
que tales acuerdos son vinculantes (binding agreements). En estas notas haremos
tal suposición.
con
1
hi (t, x, a1 , a2 ) := e−βt (q1 x2 + ri a2i + rij a2j ), j 6= i,
2
donde β > 0 es un factor de descuento. Dado un vector λ = (λ1 , λ2 ) en S1 el
costo “escalarizado” (6.3) resulta
V λ (a1 , a2 ) = λ1 V1 (a1 , a2 ) + λ2 V2 (a1 , a2 ) (6.7)
Z ∞
= hλ (t, x, a1 , a2 )dt,
0
donde Z ∞
λ
V (a, s, x) := hλ (t, x, a)dt, x(s) = x.
s
Luego, de (4.26) (ó (4.27)) la ecuación de programación dinámica es
vs + inf [(αx + B1 a1 + B2 a2 ) · vx + hλ (t, x, a1 , a2 )] = 0.
a
Nota 6.5. Para concluir esta sección, obsérvese que un equilibrio de Pareto es, en
efecto, un equilibrio “cooperativo” en el sentido de que ninguna otra decisión
conjunta de los jugadores puede disminuir el costo de al menos uno de ellos sin
50
7 Equilibrios de compromiso
Con respecto a la Nota 6.5, para encontrar un equilibrio “justo” algunos autores
han propuesto el siguiente procedimiento. Para cada i = 1, . . . , N , sea
V∗i := inf V i (π).
π
El vector
V∗ := (V∗1 , . . . , V∗N ) (7.1)
se llama el mı́nimo virtual del juego. (También se le conoce como mı́nimo
utópico, mı́nimo ideal o mı́nimo sombra.)
Definición 7.1. Dada una norma k · k sobre IRN , se dice que una multiestrategia
π ∗ ∈ Π es un equilibrio de compromiso con respecto a dicha norma si
k V (π ∗ ) − V∗ k= inf k V (π) − V∗ k . (7.2)
π
Nota 7.2. Las condiciones para que existan equilibrios de compromiso son las
mismas que para problemas de control o de optimización multiobjetivos; vea,
52
ci (x, a) := si x2 + ri a2 (7.7)
con
N
X
cλ (x, a) := λi ci (x, a) = (λ · s)x2 + (λ · r)a2 ,
i=1
V01 := min
1
max
2
V 1 (π 1 , π 2 ),
π π
V02 := min
2
max
1
V 2 (π 1 , π 2 ).
π π
se interpreta como el beneficio por cooperar del jugador i cuando se usa la multi-
estrategia π. (Compare (8.1) con la “pena” o “pesar” V i (π) − V∗i del jugador i en
la Nota 7.2.)
Teorema 8.2. (Ehtamo et al., 1988) Supóngase que π ∗ ∈ Πir es tal que, para todo
i = 1, . . . , N ,
V i (π ∗ ) < V0i ,
y sea
b(π ∗ )
λ∗i := , (8.3)
V0i − V i (π ∗ )
es decir
N
Y
λ∗i = [V0j − V j (π ∗ )]
j=1
j 6= i
Si además π ∗ es tal que
λ∗ · V (π ∗ ) ≤ λ∗ · V (π) ∀ π ∈ Π, (8.4)
8. EL PROBLEMA DE NEGOCIACIÓN DE NASH 57
V0i − V i (π) i
∗ V0 − V (π)
i
yi := i = λi · ,
V0 − V i (π ∗ ) b(π ∗ )
podemos expresar (8.6) como
N
X
N ≥ λ∗i [V0i − V i (π)]/b(π ∗ )
i=1
n
X
= yi
i=1
de modo que πλ es un equilibrio de Pareto (por el Teorema 6.2). Con esta no-
tación el “algoritmo” es como sigue.
Del Teorema 8.2 se sigue de manera evidente que πλ∗ es una solución de Nash
al problema de negociación. Sin embargo, aunque el algoritmo es conceptual-
mente simple, es poco útil por la dificultad de realizar los pasos 1 y 2.
9 Equilibrios de Nash
Primero consideraremos el caso de N = 2 jugadores.
y
V 2 (π∗1 , π∗2 ) = inf2 V 2 (π∗1 , π 2 ).
π
Nota 9.2. Para algunos tipos de juegos (por ejemplo, juegos markovianos a
tiempo discreto con espacio de estados no–numerable) hasta la fecha ha sido
60
Se puede ver fácilmente que (π∗1 , π∗2 ) es un equilibrio de Nash si y sólo si (π∗1 , π∗2 )
es un punto fijo de Γ, es decir,
El problema con (9.3) es que los teoremas de punto fijo de multifunciones requieren
hipótesis muy restrictivas, por ejemplo, alguna condición de continuidad de Γ,
y que los conjuntos Γ(π 1 , π 2 ) sean compactos, convexos, etc. Esto requiere, de
entrada, introducir una topologı́a adecuada sobre Π1 × Π2 con respecto a la cual
se satisfacen las hipótesis de los teoremas de punto fijo. Salvar estos obstáculos
topológicos no es fácil en muchos casos. 2
dinámico puede darse el caso de que, en algún instante del juego, algunos de los
jugadores decidan unilateralmente desviarse de la posición de equilibrio y, por
lo tanto, la multiestrategia correspondiente deja de ser un ”equilibrio”. Para evi-
tar este tipo de situación se puede suponer que los acuerdos entre los jugadores
son vinculantes; recuerde la Nota 6.3(c). Otra manera de evitar desviaciones uni-
laterales de la posición de equilibrio consiste en demostrar que un equilibrio de
Nash es perfecto en el sentido de la siguiente definición.
donde el infimo se calcula sobre todas las estrategias markovianas γ del jugador
i.
funciones objetivo
Z T
i
J (a(·)) := Li (t, x(t), a(t))dt + C i (T, x(T )).
0
Sea p(t) = [pij (t)] la matriz N × n de variables adjuntas cuya i–ésima fila es
Definimos el hamiltoniano
la condición terminal
pi (T ) = Cxi (T, x∗ (T )), (9.9)
y la maximización del hamiltoniano
Programación dinámica.
vti + max
0 i
{F (t, x, [a−i |a0 ]) · vxi + Li (t, x, [a−i |a0 ])} = 0 (9.11)
a ∈A
Para juegos a tiempo discreto también hay muchas publicaciones en las que
se calculan (o se demuestra la existencia de) equilibrios de Nash, en particu-
lar, en juegos relacionados a economı́a. Amir (2003) trae un buen número de
referencias. Los juegos de acumulación de capital (o de extracción de recur-
sos) han recibido mucha atención en años recientes; ver, por ejemplo, Balbus y
Nowak (2004), Nowak (2003b), Nowak y Szajowski (2003), Wiecek (2003, 2005).
Otra lı́nea interesante son los juegos sobre ”capitalismo”, iniciados por Lancaster
(1973) y que se han desarrollado a tiempo contı́nuo, como en Basar et al. (1985),
Pohjola (1983) y Shimomura (1991), y a tiempo discreto, como en Krawczyk y
Shimomura (2003). En esta última referencia se hace un análsis muy completo
de varios tipos de equilibrios para un cierto modelo de crecimiento económico.
Juegos simétricos
V 1 (π) + V 2 (π) = 0 ∀ π ∈ Π,
Definición 10.2. Si se cumple la igualdad en (10.5) para todo (s, x), se dice que
el juego de suma cero tiene el valor V(s, x) := L(s, x) = U (s, x).
Teorema 10.3. (a) Si un juego de suma cero tiene un punto silla (π∗1 , π∗2 ), entonces
tiene el valor
V(s, x) = V (s, x, π∗1 , π∗2 ) ∀ (s, x). (10.6)
(b) Si existe una multiestrategia π∗ = (π∗1 , π∗2 ) tal que para todo (s, x):
V (s, x, π∗1 , π∗2 ) = infπ1 V (s, x, π 1 , π∗2 ) (10.7)
= supπ2 V (s, x, π∗1 , π 2 ),
entonces π∗ es un punto silla.
Teorema 10.4. Supóngase que existe una función suave v(s, x) y estrategias π∗1 , π∗2
68
Entonces
v(s, x) = V (s, x, π∗1 , π∗2 ) (10.10)
es el valor del juego y (π∗1 , π∗2 ) es un punto silla.
para cualquier condición inicial (s, x). Los problemas de control minimax vistos
como “juegos contra la naturaleza” son muy populares en algunas aplicaciones,
por ejemplo, en control de colas—ver Altman (2005), Altman y Hordijk (1995).
70
11 Juegos de Stackelberg
Los juegos de Stackelberg fueron introducidos por el economista austriaco H.
von Stackelberg en 1934. Estos juegos se caracterizan porque uno de los ju-
gadores, al que se le llama el lı́der, fija las reglas del juego, “tira primero” por ası́
decirlo, y el resto de los jugadores, a quienes se les llama los seguidores, deben
buscar su respuesta óptima a las reglas del lı́der.
V1 (π 1 , π 2 ), V2 (π 1 , π 2 ).
(Se pueden considerar juegos de Stackelberg con más de dos jugadores y con
varios niveles de jerarquı́a; ver Basar y Olsder (1999), por ejemplo.)
y
π∗2 ∈ RO2 (π∗1 ).
Obsérvese que (11.1) tenemos una situación similar al control minimax o con-
trol del peor caso que vimos en la sección 5. En efecto, el lı́der toma una actitud
de minimizar el peor caso, porque trata de cubrir sus pérdidas contra la peor
selección del jugador 2 en el conjunto RO2 (π 1 ).
Ejemplo 11.2. En este ejemplo, introducido por Basar (1991), el lı́der (= jugador
1) es el gobierno o la “autoridad monetaria” — en México, el Banco de México
— y el seguidor (= jugador 2) es el sector privado. El objetivo principal del
lı́der es controlar la inflación, ası́ que el estado xt ∈ IR del juego es el parámetro
11. JUEGOS DE STACKELBERG 71
Basar (1991) considera funciones objetivo con horizonte finito y también hor-
izonte infinito. Aquı́ sólo consideraremos el segundo caso, en el que el seguidor
desea minimizar
Z ∞
1 2 1 2 2 −αt
V2 (π , π ) := E (at − at ) e dt ,
0
V2 (π 1 , T (π 1 )) ≤ V2 (π 1 , π 2 ) ∀ π 1 , π 2 .
72
Combinando este hecho con la Definición 11.1 se sigue que una multiestrategia
(π̂ 1 , π̂ 2 ) es un equilibrio de Stackelberg si
V1 (π̂ 1 , π̂ 2 ) ≥ V1 (π 1 , T (π 1 )) ∀ π 1 ∈ Π1
y, además,
π̂ 2 = T (π̂ 1 ).
De hecho, bajo ciertas hipótesis, este equilibrio resulta ser
donde M > 0 es una constante y x̂t := E(xt | ms , s < t). (Como E(â1t ) = 0 se dice
que el “sesgo inflacionario” es cero.)
y
V2 (π∗1 , π∗2 ) ≤ V2 (π∗1 , π 2 ) ∀ π 2 .
Bajo hipótesis adecuadas, se demuestra que el equilibrio de Nash es
a∗1
t = b xt + c y a∗2
t = x̂t , (11.3)
con x̂t como en (11.2), y b, c constantes. (El estimador x̂t se calcula usando filtros
de Kalman.) Basar hace una comparación del equilibrio de Stackelberg (11.2)
con el equilibrio de Nash (11.3). 2
Referencias
Altman, E. (2005). Applications of dynamic games in queues. In Nowak y
Szajowski (2005), pp. 309–342.
Altman, E., Hordijk, A. (1995). Zero–sum Markov games and worst–case op-
timal control of queueing systems. Queueing Syst. Theory Appl. 21, pp.
415–447.
Arkin, V.I., Evstigneev, I.V. (1987). Stochastic Models of Control and Economic
Dynamics. Academic Press, London.
Basar, T., editor (1986). Dynamic Games and Applications in Economics. Lec-
ture Notes in Economics and Mathematical Systems 265, Springer–Verlag,
Berlin.
Basar, T., Haurie, A., Ricci, G. (1985). On the dominance of capitalists lead-
ership in a feedback–Stackelberg solution of differential game model of
capitalism”. J. Econ. Dyn. Control 9, pp. 101–125.
Basar, T., Olsder, G.J. (1999). Dynamic Noncooperative Game Theory, Second Edi-
tion. SIAM, Philadelphia. (The first edition was published by Academic
Press, in 1982.)
Basar, T., Salmon, M. (1990). Credibility and the value of information transmis-
sion in a model of monetary policy and inflation. J. Economic Dynamics and
Control 14, pp. 97–116.
74
Bertsekas, D.P. (2000). Dynamic Programming and Optimal Control, Volume I, Sec-
ond Edition. Athena Scientific, Belmont, MA.
Browne, S. (2000). Stochastic differential portfolio games. J. Appl. Prob. 37, pp.
126–147.
Clemhout, S., Wan, H.Y. (1974). A class of trilinear differential games. J. Optim.
Theory Appl. 14, pp. 419–424.
Dockner, E.J., Jorgensen, S., Long, N.V., Sorger, G. (2000). Differential Games
in Economics and Management Science. Cambridge University Press, Cam-
bridge, U.K.
Ehtamo, H., Ruusunen, J., Kaitala, V., Hamalainen, R.P. (1988). Solution for a
dynamic bargaining problem with an application to resource management.
J. Optim. Theory Appl. 59, pp. 391–405.
Feichtinger, G., editor (1985). Optimal Control Theory and Economic Analysis 2.
North–Holland, Amsterdam.
Filar, J.A., Petrosjan, L.A. (2000). Dynamic cooperative games. Internatl. Game
Theory Rev. 2, pp. 47–65.
Fleming, W.H., Rishel, R.W. (1975). Deterministic and Stochastic Optimal Control.
Springer–Verlag, New York.
Fleming, W.H., Soner, H.M. (1992). Controlled Markov Processes and Viscosity
Solutions. Springer–Verlag, New York.
Fudenberg, D., Tirole, J. (1991). Game Theory. MIT Press, Cambridge, MA.
Kirman, A.P., Sobel, M.J. (1974). Dynamic oligopoly with inventories. Eco-
nometrica 42, pp. 279–287.
Klompstra, M. (1992). Time Aspects in Games and in Optimal Control. Ph.D. The-
sis, Delft University of Technology.
Krawczyk, J.B., Shimomura, K. (2003). Why countries with the same funda-
mentals can have different growth rates. J. Econ. Dyn. Control 27, pp.
1899–19916.
Kuhn, H.W. Szegö, G.P., editors (1971). Differential Games and Related Topics.
North–Holland, Amsterdam.
Merton, R.C. (1969). Lifetime portfolio selection under uncertainty: the contin-
uous–time case. Rev. Economics and Statistics 51, pp. 247–257.
Nash, J. (1950a). Equilibrium points in N –person games. Proc. Natl. Acad. Sci.
36, pp. 48–49.
Neyman, A., Sorin, S., editors (2003). Stochastic Games and Applications. Kluwer,
Dordrecht.
Nowak, A.S. (2003a). Zero–sum stochastic games with Borel state spaces. In
Neyman and Sorin (2003), pp. 77–91.
79
Nowak, A.S., Szajowski, K., editors (2005). Advances in Dynamic Games. (Annals
of the International Society of Dynamic Games, vol. 7) Birkhauser, Boston.
Petrosjan, L.A. Zenkevich, N.A. (1996). Game Theory. World Scientific, Singa-
pore.
Ricci, G., editor (1991). Decision Processes in Economics. Lecture Notes in Eco-
nomics and Mathematical Systems 353, Springer–Verlag, Berlin.
Sethi, S.P., Thompson, G.L. (2000). Optimal Control Theory: Applications to Man-
agement Science and Economics, 2nd Edition. Kluwer, Boston.
Shapley, L. (1953). Stochastic games. Proc. Natl. Acad. Sci. 39, pp. 1095–1100.
(This paper is reproduced in Neyman and Sorin (2003), pp. 1–7.)
Stokey, N.L., Lucas, R.E. (1989). Recursive Methods in Economic Dynamics. Har-
vard University Press, Cambridge, MA.
Tabak, D., Kuo, B.C. (1971). Optimal Control by Mathematical Programming. Pren-
tice Hall, Englewood Cliffs, N.J.
von Neumann, J., Morgenstern, O. (1944). The Theory of Games and Economic
Behavior. Princeton University Press, Princeton, N.J.
Yong, J., Zhou, X.Y. (1999). Stochastic Controls: Hamiltonian Systems and HJB
Equations. Springer–Verlag, New York.