Está en la página 1de 6

Universidad Nacional Mayor de San Marcos

Facultad de Ciencias Económicas


Taller de Macrodinámica

Programación Dinámica

Miguel Ataurima Arellano


mataurimaa@economia.unmsm.pe
miguel.ataurima@pucp.edu.pe
mataurimaa@uni.pe

Febrero 2011

En este artículo se presentan ideas y métodos básicos de la programación dinámica. Se establecen los
elementos básicos de un problema de optimización recursivo, se describe el funcionamiento la ecuación
(la ecuación de Bellman), se presenta tres métodos para resolver la eecuación de Bellman, y se da la
fórmula de Benveniste-Scheinkman de la derivada de la función de valor óptima.

1 El Problema Secuencial
Sea 2 [0; 1] un factor de descuento. Se desea escoger una secuencia in…nita de controles
1
fut gt=0 = fu0 ; u1 ; : : :g

para maximizar
1
X
t
r (xt ; ut ) (1)
t=0

sujeto a
xt+1 = g (xt ; ut )
con x0 dado.
Asumimos que r (xt ; ut ) es una función cóncava y que el conjunto

(xt+1 ; xt ) : xt+1 g (xt ; ut ) ; ut 2 Rk

es convexo y compacto.
La programación dinámica busca encontrar una función de política h invariante en el tiempo que
1
mapee el estado xt en el control ut , de tal manera que la secuencia fus gs=0 generada mediante la iteración
de las siguientes dos funciones

ut = h (xt ) (2)
xt+1 = g (xt ; ut )

iniciando desde la condición inicial x0 en t = 0, resuelva el problema general


Una solución de la forma de las ecuaciones (2) se dice que es recursiva.
Para encontrar la función de política h necesitamos conocer una función V (x) que exprese el valor
óptimo del problema original, iniciando desde una condición arbitraria x 2 X. Esta es la llamada
función valor. En particular, de…nimos
1
X
t
V (x0 ) = max
1
r (xt ; ut ) (3)
fus gs=0
t=0

1
Taller de Macrodinámica Programación Dinámica

donde una vez mas, la maximización está sujeta a


xt+1 = g (xt ; ut )
con x0 dado.
Como es de esperarse, no podemos conocer V (x0 ) hasta después de haber resuelto el problema, sin
embargo, vamos a proceder con fé. Si conociécemos V (x0 ), entonces la función de política h puede ser
calculada resolvendo para cada x 2 X el problema
max fr (x; u) + V (e
x)g (4)
u

sujeto a
v = g (x; u)
con x dado, y xe denota el estado del periodo siguiente.
Así, hemos intercambiado el problema original de encontrar una in…nita secuencia de controles que
maximizan la expresión (1) por el problema de encontrar la función valór óptima V (x) y una función h
que resuelva la continuidad de los problemas de maximización (4) - un problema de maximización para
cada valor de x. Este intercambio no parece un progreso, pero veremos que a menudo si lo es.
Nuestro trabajo se convertido a resolver en forma conjunta para V (x), h (x), que están asociados por
la ecuación de Bellman
V (x) = max fr (x; u) + V (g (x; u))g (5)
u

El maximizador del lado derecho de la ecuación (5) es la función de política h (x) que satisface
V (x) = r (x; h (x)) + V (g (x; h (x))) (6)
La ecuación (5) o (6) es una ecuación funcional a ser resuelta para el par de funciones desconocidas
V (x) ; h (x).
Los métodos de solución de la ecuación de Bellman están basados en estructuras matemáticas que
varían en sus detalles dependiendo de la naturaleza de la precisión de las funciones r y g:
Todas estas estructuras contienen versiones de las siguientes cuatro. Bajo varios supuestos particu-
lares acerca de r y g, resulta que:
1. La ecuación funcional (5) es una única solución estríctamente cóncava.
2. Esta solución es aproximada en el límite cuando j ! 1 mediante iteraciones en
Vj+1 (x) = max fr (x; u) + Vj (e
x)g
u

sujeto a
e = g (x; u)
x
con x dado, iniciando desde cualquier valor inicial V0 acotado y contínuo.
3. Existe una única política óptima e invariante en el tiempo de la forma ut = h (xt ), donde h es
elegido para maximizar el lado derecho de (5)
4. Fuera de las esquinas, la función de valor límite V dada por la ecuación (6) es diferenciable respecto
ax
@ @
V 0 (x) = r (x; h (x)) + V (g (x; h (x)))
@x @x
@ @
V 0 (x) = r (x; h (x)) + V 0 (g (x; h (x))) g (x; h (x)) (7)
@x @x
Esta es una versión de una fórmula de Benveniste y Scheinkman (1979).
A menudo nos encontraremos estableciendo en cual la ley de transición puede ser formulada de tal
@g
manera que el estado x no aparezca en ella, o sea que @x = 0, de tal manera que la ecuación (7) se
convierta en
@
V 0 (x) = r (x; h (x))
@x
y por lo tanto
@
V 0 (e
x) = r (e
x; h (e
x)) (8)
@ex

Miguel Ataurima Arellano (UNMSM-FCE) 2 http://economiadinamica.blogspot.com


Taller de Macrodinámica Programación Dinámica

1.1 La Ecuación de Euler


En diversos problemas, no hay una forma única de de…nir los estados y controles, y varias diversas
de…niciones alternativas que conducen a la misma solución del problema. A veces los estados y los
controles pueden ser de…nidos de tal manera que x no aparece en la ecuación de transición, de modo que
@g
@x = 0.
En este caso, la condición de primer orden (CPO) para el problema en el lado derecho de la ecuación
de Bellman
V (x) = max fr (x; u) + V (g (x; u))g
u

en relación con la Fórmula de Benveniste-Scheinkman implica que


@
fr (x; u) + V (g (x; u))g = 0
@u
o sea
@ @
r (x; u) + V 0 (g (x; u)) g (x; u) = 0 (9)
@u @u
e = g (x; u) entonces
como x
V 0 (g (x; u)) = V 0 (e
x)
@
y por el Teorema de la Envolvente V 0 (e
x) = x r (e
@e x; h (e
x)), entonces

@
V 0 (g (x; u)) = r (e
x; h (e
x))
@e
x
@
V 0 (g (x; u)) = r (e e)
x; u (10)
@e
x
reemplazando (10) en (9) obtenemos la Ecuación de Euler
@ @ @
r (x; u) + r (e e)
x; u g (x; u) = 0; e = g (x; u)
x
@u @e
x @u
Bajo circunstancias en las que la segunda ecuación puede ser invertida para obtener u como una función
de xe, usando la segunda ecuación para eliminar u desde la primera ecuación produce una ecuación en
diferencia de segundo orden, a partir de la eliminación de u e
e se determina x
e:

2 Los Problemas de Control Estocástico


Consideraremos ahora una modi…cación al problema (1) para permitir incertidumbre. Esencialmente,
añadiremos algunos choques (bien ubicados) a los problemas anteriores no estocásticos. En tanto que los
choques son de forma independiente e idénticamente distribuidas o de Markov, las sencillas modi…caciones
al método para el manejo del problema no estocástico funcionará.
Así, modi…camos la ecuación de transición y consideramos el problema de maximización
1
X
t
E0 r (xt ; ut ) ; 0< <1 (11)
t=0

sujeto a
xt+1 = g (xt ; ut ; t+1 ) (12)
con x0 conocido y dado en t = 0, donde t es una secuancia de variables aleatorias distribuidas indepen-
diente e identicamente distribuidas con una distribución de probabilidad acumulada

Pr [ t e] = F (e)

para todo t; Et (y) denota la expectativa matemática de una variable aleatoria y, dada la información
conocida en t.
En el instante t, xt se asume conocido pero xt+j ; j 1 no es conocida en t. Esto es, t+1 es realizado
en (t + 1), despues ut ha sido elegido en t. En el problema (11) - (12) la incertidumbre es inyectada
asumiendo que xt sige una ecuación en diferencia aleatoria.
El problema (11) - (12) continúa teniendo una estructura recursiva, derivados en forma conjunta a
partir de la separabilidad del a función objetivo (11) en pares (xt ; ut ) y desde la caracterización en la

Miguel Ataurima Arellano (UNMSM-FCE) 3 http://economiadinamica.blogspot.com


Taller de Macrodinámica Programación Dinámica

ecuación en diferencia de la ley de transición (12). En particular, los controles de fecha t afectan los
resultados r (xs ; us ) para s t pero no tempranamente. Esta característica implica que los métodos de
programación dinámica siguen siendo apropiados.
El problema es maximizar la expresión (11) sujeto a la ecuación (12) mediante la elección de una
política o plan de contingencia ut = h (xt ). La Ecuación de Bellman se convierte en

V (x) = max fr (x; u) + E [V (g (x; u; )) j x]g (13)


u
R
donde E [V (g (x; u)) j x] = V (g (x; u)) dF ( ) y donde V (x) es el valor óptimo del problema a partir
de x en t = 0. La solución V (x) de la ecuación (13) puede ser calculada mediante iteraciones con

Vj+1 (x) = max fr (x; u) + E [Vj (g (x; u; )) j x]g


u

iniciando desde cualquier valor inicial V0 acotado y continuo. Bajo varias condiciones particulares de
regularidad, se obtienen versiones de las mismas cuatro propiedades listadas anteriormente.

2.1 La Ecuación Estocástica de Euler


La Condición necesaria de Primer Orden (CPO) para el problema del lado derecho de la ecuación (13)
es
@
fr (x; u) + E [Vj (g (x; u; )) j x]g = 0
@u
@ @
r (x; u) + E V 0 (g (x; u; )) g (x; u; ) x = 0
@u @u
ésta es obtenida simplemente diferenciando el lado derecho de la ecuación (13), pasando la operación de
diferenciaición bajo el operador E (una integración).
Fuera de las esquinas, la función objetivo satisface

@ @
V 0 (x) = r (x; h (x)) + E V 0 (g (x; h (x) ; )) g (x; h (x) ; ) x
@x @x
@g
En el caso especial en el que @x = 0, la fórmula para V 0 (x) se convierte en

@
V 0 (x) = r (x; h (x))
@x
@
V 0 (e
x) = r (e
x; h (e
x))
@e
x
Sustituyendo esta fórmula en la CPO para el problema, se obtiene la Ecuación Estocástica de Euler

@ @ @
r (x; u) + E r (e e)
x; u g (x; u; ) x = 0
@u @x @u

donde las tildes sobre x y u denotan los valores del siguiente periodo.

Miguel Ataurima Arellano (UNMSM-FCE) 4 http://economiadinamica.blogspot.com


Taller de Macrodinámica Programación Dinámica

3 Problemas
En cada uno de los siguiente problemas, identi…que:

1. Las variables de estado y de control


2. La Ecuación de Bellman

3. Las Condiciones de Optimalidad

(a) Teorema de la Envolvente (Benveniste y Scheinkman)


(b) Condición de Primer Orden

4. La Ecuación de Euler

Problema 1
1
X
t
max 1 u (ct )
fct ;at+1 gt=0
t=0

sujeto a
Rat at+1 + ct
con a0 dado.

Problema 2
1
X
t
max 1 u (ct )
fct ;kt+1 gt=0
t=0

sujeto a
ct + kt+1 = f (kt )
con k0 dado.

Problema 3
1
X
t
max 1 u (ct )
fct ;bt+1 gt=0
t=0

sujeto a

ct + bt+1 bt+1 + yt
bt+1 b

con y0 y b0 dados.

Problema 4
1
X
t
max 1 ln (ct )
fkt+1 ;ct gt=0
t=0

sujeto a
kt+1 + ct = Akt
con k0 dado.

Miguel Ataurima Arellano (UNMSM-FCE) 5 http://economiadinamica.blogspot.com


Taller de Macrodinámica Programación Dinámica

Problema 5
" 1
#
X
t
max E0 u (ct )
fct ;at+1 g1
t=0 t=0

sujeto a

at+1 + ct Rat + yt
yt+1 = f (yt ; t+1 )
2
t+1 iid 0;

con a0 dado.

Problema 6
"1 #
X
t
max E0 u (ct )
fct ;st+1 g1
t=0 t=0

sujeto a
ct + pt slt + 1 = (dt + pt ) st
donde d son los dividendos, p es el precio de una acción, s es la participación en un activo. En equilibrio
de mercado s = 1 o ct = dt , pt = p dt donde dt sigue un proceso markoviano dt = fdl ; dh g sabiendo
+
que
Pr [ dt+1 = dl j dt = dl ] = Pr [ dt+1 = dh j dt = dh ] = p
siendo 0 < dl < dh y 0:5 < p < 1.

4 Bilbiografía
Sargent, Thomas. Dynamic Macroeconomic Theory, Harvard University Press, Chapter 1. 1987.

Sargent, Thomas. Recursive Macroeconomic Theory, Second edition, MIT 2000, Chapter 3: Dy-
namic Programming
Stokey, N. and Lucas, R., with Prescott, E. Recursive Methods in Economic Dynamics, Harvard
University Press, 1989.

Miguel Ataurima Arellano (UNMSM-FCE) 6 http://economiadinamica.blogspot.com