Teoría de Programación Dinámica PDF

U NIVERSIDAD DE P IURA – C AMPUS P IURA
P ROGRAMA DE E CONOMÍA
Óptimización económica 2
Elementos de programación dinámica
19 de junio de 2017
1. P ROBLEMAS RECURSIVOS Y P ROGRAMACIÓN DINÁMICA
Consideremos el siguiente problema de optimización recursiva, con T periodos, donde las

variables c t ∈ R y k t +1 ∈ R representan, respectivamente, el consumo en el periodo t y el capital
que es determinado en el periodo t y será usado en el periodo t + 1:
máx U (k 0 , k 1 , ..., k T +1 , c 0 , c 1 , ..., c T )

{c t ,k t +1 }Tt=0
s.a
F 0 (k 0 , k 1 , ..., k T +1 , c 0 , c 1 , ..., c T ) = 0
F 1 (k 0 , k 1 , ..., k T +1 , c 0 , c 1 , ..., c T ) = 0
..
.
F T (k 0 , k 1 , ..., k T +1 , c 0 , c 1 , ..., c T ) = 0
k0 dado.
Denotemos con k ≡ (k 0 , k 1 , ..., k T +1 ), c ≡ (c 0 , c 1 , ..., c T ) Asumiendo que las condiciones usuales

que garantizan la existencia de solución interior al problema se cumplen, tenemos el
1
lagrangiano.
T
L = U (k, c) + λt F t (k, c)
X
t =0
Así, las condiciones de primer de orden asociadas al problema son
∂L ∂U (k, c) X T ∂F s (k, c)
= 0 =⇒ + λs = 0, ∀t ∈ {0, 1, ..., T }
∂c t ∂c t s=0 ∂c t
∂L ∂U (k, c) X T ∂F s (k, c)
= 0 =⇒ + λs = 0, ∀t ∈ {0, 1, ..., T }
∂k t +1 ∂k t +1 s=0 ∂k t +1
∂L
= 0 =⇒ F t (k, c) = 0, ∀t ∈ {0, 1, ..., T }
∂λt
En este caso, existen 3(T +1) incógnitas y 3(T +1) ecuaciones, las cuales se resuelven en función
de k 0 dado:
c t = H t (k 0 ), k t +1 = J t (k 0 ), ∀t ∈ {0, 1, ..., T }
Observe también que los multiplicadores serán obtenidos en función de k 0 .
1.1. C ASO ESPECIAL : U N PROBLEMA RECURSIVO
Supongamos que U presenta una estructura de separabilidad en el tiempo y, junto con las
funciones que determinan las restricciones adoptan las formas:
U (k, c) = u 0 (k 0 , c 0 ) + · · · + u T (k T , c T ) + S(k T +1 )
F t (k, c) = G t (k t , c t ) − k t +1 , ∀t ∈ {0, 1, ..., T }.
Bajo tales condiciones, el problema central se convierte en
máx u 0 (k 0 , c 0 ) + · · · + u T (k T , c T ) + S(k T +1 )
{c t ,k t +1 }Tt=0
s.a
k1 = G 0 (k 0 , c 0 )
k2 = G 1 (k 1 , c 1 )
..
.
k T +1 = G T (k T , c T )
k0 dado.
2
En tal caso:
c 0 , c 1 , ..., c T se denominan variables de control.
k 0 , k 1 , ..., k T , k T +1 se denominan variables de estado.
u t (k t , c t ) se denominan funciones de un periodo de retorno en t .
S(k T +1 ) se denomina valor residual (scrap value).
k t +1 = G t (k t , c t ) se denomina ecuación de transición en t . Tal estructura de separabilidad en el
tiempo para este problema, implica que, para los valores dados de k τ , c τ , influye en los valores
futuros de la variable de estado {k t +1 }Tt=τ y los retornos corrientes y futuros {u t (k t , c t )}Tt=τ , pero
no influyen en sus valores pasados, {k t +1 }τ−1 τ−1
t =0 y {u t (k t , c t )}t =0 . Así, tendremos:
k τ+1 = G τ (k τ , c τ )
k τ+2 = G τ+1 (k τ+1 , c τ+1 )
= G τ+1 (G τ (k τ , c τ ), c τ+1 )
k τ+3 = G τ+2 (k τ+2 , c τ+2 )
= G τ+2 (G τ+1 (G τ (k τ , c τ ), c τ+1 ), c τ+2 )
···
y
u τ (k τ , c τ )
u τ+1 (k τ+1 , c τ+1 ) = u τ+1 (G τ (k τ , c τ )c τ+1 )
u τ+2 (k τ+2 , c τ+2 ) = u τ+2 (G τ+1 (G τ (k τ , c τ ), c τ+1 ), c τ+2 )
···
En consecuencia, k τ constituye una completa descripción de la posición corriente del sistema,
de modo que, los valores pasados {c t , k t }τ−1
t =0 no añaden mayor información más allá de la que
está contenida en k τ (esta es la razón por la que k τ se denomina variable de estado en el

tiempo τ). Gracias a esta propiedad es que el problema que planteamos presenta una estructura
recursiva.
El lagrangiano asociado a este problema es
L = u 0 (k 0 , c 0 ) + · · · + u T (k T , c T ) + S(k T +1 )
+ λ0 [G 0 (k 0 , c 0 ) − k 1 ] + λ1 [G 1 (k 1 , c 1 ) − k 2 ] + · · · + λT −1 [G T −1 (k T −1 , c T −1 ) − k T ]
+ λT [G T (k T , c T ) − k T +1 ].
3
Las condiciones de primer orden son:
∂L ∂u 0 (k 0 , c 0 ) ∂G 0 (k 0 , c 0 )
= 0 =⇒ + λ0 =0
∂c 0 ∂c 0 ∂c 0
········· ······························
∂L ∂u T (k T , c T ) ∂G T (k T , c T )
= 0 =⇒ + λT =0
∂c T ∂c T ∂c T
∂L ∂u 1 (k 1 , c 1 ) ∂G 1 (k 1 , c 1 )
= 0 =⇒ − λ0 + λ1 =0
∂k 1 ∂k 1 ∂k 1
········· ······························
∂L ∂u T (k T , c T ) ∂G T (k T , c T )
= 0 =⇒ − λT −1 + λT =0
∂k T ∂k T ∂k T
∂L
= 0 =⇒ S 0 (k T +1 ) − λT = 0
∂k T +1
∂L
= 0 =⇒ k 1 = G 0 (k 0 , c 0 )
∂λ0
········· ··················
∂L
= 0 =⇒ k T +1 = G T (k T , c T ).
∂λT
Solución
El sistema de ecuaciones obtenidas mediante las CPO, puede ser resuelta recursivamente, es
decir toma la forma
ct = h t (k t )
k t +1 = g t (k t ) ≡ G t (k t , h t (k t ))
donde las funciones h t (.) se denominan funciones de política (policy functions o también
denominadas optimal feedback rules).
El proceso de resolución recursiva consiste en iterar sobre estas funciones, empezando con el
valor inicial de k en t = 0, k 0 :
4
c 0 = H0 (k 0 ) ≡ h 0 (k 0 )
k 1 = J 1 (k 0 ) ≡ G 0 (k 0 , H0 (k 0 ))
c 1 = H1 (k 0 ) ≡ h 1 (J 1 (k 0 ))
k 2 = J 2 (k 0 ) ≡ G 1 (J 1 (k 0 ), H1 (k 0 ))
··· ··· ···
c T = HT (k 0 ) ≡ h T (J T (k 0 ))
k T +1 = J T +1 (k 0 ) ≡ G T (J T (k 0 ), HT (k 0 ))
La iteración empieza desde el periodo final t = T .

Las CPO asociadas al periodo T son:
∂u T (k T , c T ) ∂G T (k T , c T )
+ λT =0
∂c T ∂c T
λT = S‘(k T +1 )
k T +1 = G T (k T , c T )
Este sistema cuenta con tres ecuaciones y tres incógnitas, es decir podemos obtener c T , k T +1 y
λT en términos de k T :
c T = h T (k T )
k T +1 = g T (k T ) ≡ G T (k T , h T (k T ))
λT = l T (k T )k T +1 = G T (k T , c T )
Ahora en el periodo t = T − 1, las CPO son:
∂u T −1 (k T −1 , c T −1 ) ∂G T −1 (k T −1 , c T −1 )
+ λT −1 =0
∂c T −1 ∂c T −1
u T (k T , c T ) ∂G T (k T , c T )
− λT −1 + λT =0
∂k T ∂k T
k T = G T −1 (k T −1 , c T −1 )
Dado que en el periodo precedente (periodo T ), se obtuvieron c T = h T (k T ) y λT = l T (k T ),
5
entonces las CPO del periodo T − 1 pueden ser expresadas como
∂u T −1 (k T −1 , c T −1 ) ∂G T −1 (k T −1 , c T −1 )
+ λT −1 =0
∂c T −1 ∂c T −1
u T (k T , h T (k T )) ∂G T (k T , h T (k T ))
− λT −1 + λT (k T ) =0
∂k T ∂k T
k T = G T −1 (k T −1 , c T −1 )
Las ecuaciones precedentes forman un sistema de tres ecuaciones con tres incógnitas: c T −1 , k T
y λT −1 , que pueden ser expresadas en términos de k T −1 . Así,
c T −1 = h T −1 (k T −1 )
k T = g T −1 (k T −1 ) ≡ G T −1 (k T −1 , h T −1 (k T −1 ))
λT −1 = l T −1 (k T −1 )
Para el periodo t = T − 2, las CPO asociadas son
∂u T −2 (k T −2 , c T −2 ) ∂G T −2 (k T −2 , c T −2 )
+ λT −2 =0
∂c T −2 ∂c T −2
u T −1 (k T −1 , c T −1 ) ∂G T −1 (k T −1 , c T −1 )
− λT −2 + λT −1 =0
∂k T −1 ∂k T −1
k T −1 = G T −2 (k T −2 , c T −2 )
Pero se sabe por las CPO obtenidas en el periodo precedente (T-1) que c T −1 = h T −1 (k T −1 ) y
λT −1 = l T −1 (k T −1 ). En consecuencia,
∂u T −2 (k T −2 , c T −2 ) ∂G T −2 (k T −2 , c T −2 )
+ λT −2 =0
∂c T −2 ∂c T −2
u T −1 (k T −1 , h T −1 (k T −1 )) ∂G T −1 (k T −1 , h T −1 (k T −1 ))
− λT −2 + l T −1 (k T −1 ) =0
∂k T −1 ∂k T −1
k T −1 = G T −2 (k T −2 , c T −2 )
Nuevamente, este sistema de tres ecuaciones puede ser resuelta para las tres incógnitas c T −2 ,
k T −1 y λT −2 , en términos de k T −2 . Así,
c T −2 = h T −2 (k T −2 )
k T −1 = g T −2 (k T −2 ) ≡ G T −2 (k T −2 , h T −2 (k T −2 ))
λT −2 = l T −2 (k T −2 )
6
Continuamos el proceso hasta alcanzar el periodo t = 0. En este caso, las CPO para el periodo 0
son:
∂u 0 (k 0 , c 0 ) ∂G 0 (k 0 , c 0 )
+ λ0 =0
∂c 0 ∂c 0
u 1 (k 1 , h 1 (k 1 )) ∂G 1 (k 1 , h 1 (k 1 ))
− λ0 + l 1 (k 1 ) =0
∂k 1 ∂k 1
k 1 = G 0 (k 0 , c 0 )
Este sistema presenta tres ecuaciones y tres incógnitas que pueden ser resueltas para las tres
variables desconocidas, c 0 , k 1 y λ0 , en términos de k 0 . Finalmente, conseguimos
c 0 = h 0 (k 0 )
k 1 = g 0 (k 0 ) ≡ G 0 (k 0 , h 0 (k 0 ))
λ0 = l 0 (k 0 ).
Ejemplo de ilustración
Consideremos el problema
máx ln c 0 + ln c 1 + ln x 2
s.a x1 = x0 − c0
x2 = x1 − c1
x 0 > 0 dado.
En este caso, elegimos las variables c 0 , c 1 , x 1 y x 2 . Formulamos la función lagrangiana
L = ln c 0 + ln c 1 + ln x 2 + λ1 (x 0 − c 0 − x 1 ) + λ2 (x 1 − c 1 − x 2 ).
Las condiciones de primer orden asociadas al problema son:
1
(c 0 ) : c0
= λ1
1
(c 1 ) : c1
= λ2
(x 1 ) : λ1 = λ2
1
(x 2 ) : x2 = λ2
(λ1 ) : x 1 = x 0 − c 0
(λ2 ) : x 2 = x 1 − c 1
A partir de las primeras cuatro ecuaciones, se obtiene
1 1 1
= = .
c0 c1 x2
7
Luego,
c0 = c1 = x2 .
Sustituyendo en la segunda restricción, se tiene c 0 = x 1 −c 0 , con lo cual se obtiene x 1 = 2c 0 . Esto

lo sustituimos en la primera restricción: 2c 0 = x 0 − c 0 , con lo cual 3c 0 = x 0 . Luego
1
c 0∗ = x 0 .
3
Pero c 0 = c 1 = x 2 . En consecuencia,
1
c 1∗ = x0
3
1
x 2∗ = x0
3
Además, x 1 = 2c 0 , produciendo
2
x 1∗ = x 0
3
2. L A ECUACIÓN DE B ELLMAN
Definimos la sucesión de problemas de optimización de un periodo, para cada t ∈ {0, 1, ..., T }:
Wt (k t ) ≡ máxc t ,k t +1 u t (k t , c t ) + Wt +1 (k t +1 )
s.a
k t +1 = G t (k t , c t )
kt dado
con
WT +1 (k T +1 ) = S(k T +1 )
Afirmación: La solución de la sucesión de problemas de optimización de un periodo coincide

con la solución del problema planteado inicialmente.
Consideremos el periodo t = T
WT (k T ) ≡ máxcT ,kT +1 u T (k T , c T ) + S(k t +1 )

s.a
k T +1 = G T (k T , c T )
kT dado
8
La función lagrangiana y las condiciones de primer orden asociadas al problema son
L = u T (k T , c T ) + S(k T +1 ) + λT [G T (k T , c T ) − k T +1 ].
∂L ∂u T (k T , c T ) ∂G T (k T , c T )
= 0 =⇒ + λT =0
∂c T ∂c T ∂c T
∂L
= 0 =⇒ λT = S 0 (k T +1 )
∂k T +1
∂L
= 0 =⇒ k T +1 = G T (k T , c T )
∂λT
Es claro que este sistema de ecuaciones coincide con las CPO del periodo T del problema
original. Por lo tanto:
c T = h T (k T )
k T +1 = g T (k T ) ≡ G T (k T , h T (k T ))
λT = l T (k T ) ≡ S 0 (G T (k T , h T (k T ))).
Sustituyendo en la función objetivo, se tendrá
WT (k T ) = u T (k T , h T (k T )) + S(g T (k T ))
= u T (k T , h T (k T )) + S(G T (k T , h T (k T ))).
Para el periodo t = T − 1:
WT −1 (k T −1 ) ≡ máxcT −1 ,kT u T −1 (k T −1 , c T −1 ) + WT (k t )
s.a
k T = G T −1 (k T −1 , c T −1 )
k T −1 dado
El lagrangiano y las condiciones de primer orden asociadas al problema son:
L = u T −1 (k T −1 , c T −1 ) + WT (k T ) + λT −1 [G T −1 (k T −1 , c T −1 ) − k T ].
∂L ∂u T −1 (k T −1 , c T −1 ) ∂G T −1 (k T −1 , c T −1 )
= 0 =⇒ + λT −1 =0
∂c T −1 ∂c T −1 ∂c T −1
∂L
= 0 =⇒ WT0 (k T ) − λT −1 = 0
∂k T
∂L
= 0 =⇒ k T = G T −1 (k T −1 , c T −1 )
∂λT −1
9
Y, de acuerdo con lo desarrollado en el periodo T , se sabe que
WT (k T ) = u T (k T , h T (k T )) + S(G T (k T , h T (k T ))).
Así,
WT0 (k T ) =
∂u T (k T , h T (k T )) ∂u T (k T , h T (k T )) 0
+ h T (k T )+
∂k T ∂c T
∂G T (k T , h T (k T )) ∂G T (k T , h T (k T )) 0
· ¸
0
S (G T (k T , h T (k T ))) × + h T (k T )
∂k T ∂c T
∂u T (k T , h T (k T )) ∂u T (k T , h T (k T )) ∂G T (k T , h T (k T )) 0
· ¸
0
= + + S (G T (k T , h T (k T ))) h T (k T )+
∂k T ∂c T ∂c T
∂G T (k T , h T (k T ))
S 0 (G T (k T , h T (k T )))
∂k T
∂u T (k T , h T (k T )) ∂u T (k T , h T (k T )) ∂G T (k T , h T (k T )) 0
· ¸
= + + l T (k T ) h T (k T )+
∂k T ∂c T ∂c T
| {z }
=0, por CPO del periodo T
∂G T (k T , h T (k T ))
l T (k T )
∂k T
∂u T (k T , h T (k T )) ∂G T (k T , h T (k T ))
= + l T (k T )
∂k T ∂k T
Por lo tanto, las CPO del periodo T − 1 se convierten en:
∂u T −1 (k T −1 , c T −1 ) ∂G T −1 (k T −1 , c T −1 )
+ λT −1 =0
∂c T −1 ∂c T −1
∂u T (k T , h T (k T )) ∂G T (k T , h T (k T ))
+ λT (k T ) − λT −1 = 0
∂k T ∂k T
k T = G T −1 (k t −1 , c T −1 )
Nuevamente, este sistema coincide exactamente con las CPO para el periodo T − 1, del
10
problema original. Por lo tanto,
c T −1 = h T −1 (k T −1 )
k T = g T −1 (k T −1 ) ≡ G T −1 (k T −1 , h T −1 (k T −1 ))
λT −1 = l T −1 (k T −1 ).
Reemplazando en la función objetivo, tendremos
WT −1 (k T −1 ) = u T −1 (k T −1 , h T −1 (k T −1 )) + WT (g T −1 (k t −1 ))
= u T −1 (k T −1 , h T −1 (k T −1 )) + WT (G T −1 (k T −1 , h T −1 (k T −1 )))
Continuando este proceso de inducción, se demuestra que la solución coincide con la solución
del problema planteado inicialmente.
En conclusión, se puede resolver el problema original resolviendo la sucesión de problemas de
optimización de un periodo, definidas por las ecuaciones de Bellman.
Observación. Recordemos que, para t ∈ {0, 1, ..., T }, se definió la sucesión de problemas de

optimización de un periodo
Wt (k t ) ≡ máx u t (k t , c t ) + Wt +1 (k t +1 )
c t ,k t +1
sujeto a
k t +1 = G t (k t , c t )
kt dado
y
WT +1 (k T +1 ) = S(k T +1 )).
En tal caso, tenemos,
W0 (k 0 ) = máx{u 0 (k 0 , c 0 ) + W1 (k 1 )}
c 0 ,k 1
= máx{u 0 (k 0 , c 0 ) + máx{u 1 (k 1 , c 1 ) + W2 (k 2 )}}

c 0 ,k 1 c 1 ,k 2
= máx{u 0 (k 0 , c 0 ) + máx{u 1 (k 1 , c 1 ) + máx{u 2 (k 2 , c 2 ) + W3 (k 3 )}}}

c 0 ,k 1 c 1 ,k 2 c 2 ,k 3
= máx{u 0 (k 0 , c 0 ) + máx{u 1 (k 1 , c 1 ) + máx{u 2 (k 2 , c 2 ) + · · · + máx {u T (k T , c T ) + S(k T +1 )} · · · }}}

c 0 ,k 1 c 1 ,k 2 c 2 ,k 3 c T ,k T +1
Por otra parte, se demostró que las soluciones a los dos problemas planteados coinciden. Así
W0 (k 0 ) = máx {u 0 (k 0 , c 0 ) + · · · + u T (k T , c T ) + S(k T +1 )},

{c t ,k t +1 }Tt=0
11
donde la restricción propia del proceso de maximización es (∀t ∈ {0, 1, . . . T }), k t +1 = G t (k t , c t ),
con k 0 dado.
Finalmente, podemos usar los dos resultados precedentes y obtener:
máx {u 0 (k 0 , c 0 ) + · · · + u T (k T , c T ) + S(k T +1 )}
{c t ,k t +1 }Tt=0
= máx{u 0 (k 0 , c 0 ) + máx{u 1 (k 1 , c 1 ) + máx{u 2 (k 2 , c 2 ) + máx{u 3 (k 3 , c 3 )+

c 0 ,k 1 c 1 ,k 2 c 2 ,k 3 c 3 ,k 4
· · · + máx {u T (k T , c T ) + S(k T +1 )} . . .}}}}.

c ,k
|T T +1 {z }
Pr 1
Dada la estructura particular de nuestro problema, los cálculos precedentes permiten

descomponer el problema original en T + 1 problemas de maximización. De este modo,
empezamos resolviendo el problema (P r 1) para valores óptimos de c T y k T +1 , como funciones
de k T , es decir:
c T = h T (k T ) y k T +1 = g T (k T ).
Luego, estos valores nos permiten obtener el valor optimizado de WT (k T ). Continuando el

proceso, obtendremos valores óptimos de c T −1 y k T :
c T −1 = h T −1 (k T −1 ) y k T = g T −1 (k T −1 ),
y el valor óptimo de WT −1 (k T −1 ). El proceso continúa hasta alcanzar los valores óptimos de c 0

y k1 .
Principio de optimalidad de Bellman: Una política óptima tiene la propiedad de que
cualquiera que sea el estado inicial y las decisiones iniciales, las decisiones restantes deben
constituir una política óptima con respecto al estado resultante de la primera de decisión.
12
Principio de optimalidad de Bellman (POB): Formulación matemática.
Si las funciones de política {c t = h t (k t )}Tt=0 resuelven
máx u 0 (k 0 , c 0 ) + · · · + u T (k T , c T ) + S(k T +1 )
{c t ,k t +1 }Tt=0
s.a k t +1 = G t (k t , c t ) t ∈ {0, 1, . . . , T }
k0 dado
entonces, para cada τ ∈ {0, 1, . . . , T }, las funciones de política {c t = h t (k t )}Ttτ resuelven el

problema
máx u τ (k τ , c τ ) + · · · + u T (k T , c T ) + S(k T +1 )
{c t ,k t +1 }Tt=τ
s.a k t +1 = G t (k t , c t ) t ∈ {τ, τ + 1, . . . , T }
kτ dado
Interpretación: Como consecuencia del carácter recursivo del problema tratado, el POB
establece que no hay incentivos para apartarse del plan original. En este caso, las políticas
óptimas que cumplen con el POB se denominan consistentes en el tiempo.
Ejemplo
Si, para cada t ∈ {0, 1, . . . , T } se establece
u t (k t , c t ) = βt u(k t , c t ), con β ∈ (0, 1),
entonces, la ecuación de Bellman sería
Wt (k t ) ≡ máx βt u(k t , c t ) + Wt +1 (k t + 1)
c t ,k t +1
s.a k t +1 = G t (k t , c t )
kt dado.
Observación. Dado que u t (k t , c t ) = βt u(k t , c t ) presenta dependencia explícita de la variable

temporal t , definimos la función de valor corriente (current value function)
Wt (k t )
Vt (k t ) ≡ .
βt
13
En tal caso
Wt (k t )
Vt (k t ) =
βt
máx βt u(k t , c t ) + Wt +1 (k t + 1)
c t ,k t +1
=
βt
βt u(k t , c t ) + Wt +1 (k t + 1)
= máx
c t ,k t +1 βt
Wt +1 (k t +1 )
= máx u(k t , c t ) + β ,
c t ,k t +1 βt +1
es decir
Vt (k t ) = máx u(k t , c t ) + βVt +1 (k t +1 ).
c t ,k t +1
Retornamos a la discusión del problema planteado inicialmente
T
X
máx u t (k t , c t ) + S(k t +1 )
{c t ,k t +1 }Tt=0 t =0
s.a k t +1 = G t (k t , c t ), t ∈ {0, 1, . . . , T }
k0 dado
A diferencia del ejemplo (que corresponde a un caso particular), observamos que tanto la
función u como la función G puede cambiar para cada t arbitrariamente. Más aún, el horizonte
temporal es finito. En consecuencia la solución a este problema correspondería a funciones de
política que varíen con el tiempo: c t = h t (k t ).
Nuestro interés radica en obtener funciones de política que sean invariantes en el tiempo,
es decir funciones de la forma c t = h(k t ), para cada periodo t . Estas funciones también se
denominan políticas estacionarias (stationary policies). En consecuencia, consideraremos un
marco especial en el que el horizonte temporal es infinito y las funciones u t (.) y G t (.) presenten
características particulares:
u t (k t , c t ) = βt u(k t , c t )
G t (k t , c t ) = G(k t , c t )
14
2.1. E L PROBLEMA RECURSIVO : HORIZONTE INFINITO
∞
βt u(k t , c t )
X
máx∞
{c t ,k t +1 }t =0 t =0
s.a k t +1 = G(k t , c t ), t ∈ {0, 1, . . .}
k0 dado
Definimos el problema de continuación del periodo 1

∞
βt u(k t , c t )
X
máx∞
{c t ,k t +1 }t =1 t =1
s.a k t +1 = G(k t , c t ), t ∈ {1, 2, . . .}
k1 dado
Dado que u(.) y G(.) son invariantes en el tiempo, ambos problemas presentan la misma
estructura, excepto por el valor inicial de la variable de estado. Más aún, esta característica
sugiere que la solución al problema original sea una función de política invariante en el tiempo:
c t = h(k t ),
y que la función de valor del problema original y de los problemas de continuación serán los
mismos. En consecuencia, para cada t ∈ {0, 1 . . .}, la ecuación de Bellman será:
W (k t ) ≡ máx u(k t , c t ) + βV (k t + 1)
c t ,k t +1
s.a k t +1 = G(k t , c t )
kt dado.
Reemplazando k t +1 (de la ecuación de transición) en la función objetivo, obtenemos una

ecuación funcional:
V (k t ) = máx u(k t , c t ) + βV (G(k t , c t )).
ct
En esta ecuación deberá hallarse la función V (.) y, juntamente, la función de política h(.).
15
2.2. M ÉTODOS DE RESOLUCIÓN DE LA ECUACIÓN DE B ELLMAN
2.2.1. I TERACIÓN DE LA FUNCIÓN DE VALOR
Este método consiste en construir una sucesión de funciones de valor y las correspondiente
funciones de política. Tal sucesión es construida iterando en
V j +1 = máx u(k, c) + βV j (G(k, c)).

ct
Primero se empieza por alguna función V0 y se continúa hasta que V j converja.1
2.2.2. G UESS AND V ERIFY
Este método consiste en postular una solución V para la ecuación de Bellman y verificar si fue
correcta. En este caso, el método de los coeficientes indeterminados es usado para verificar la
solución postulada.
1
La convergencia se garantiza definiendo un operador T , con (T V )(k) = máx u(k, c)+βV (G(k, c)), de modo que
ct
T V j = V j +1 . Se puede demostrar que bajo ciertas condiciones que este operador es una contracción. Así, el
teorema de contracción del análisis funcional garantiza que T presenta un único punto fijo, T V = V . Más aún,
tal punto fijo puede ser calculado por iteraciones sucesivas en T V j = V j +1 , considerando alguna función inicial
V0 (comúnmente V0 = 0).
16
3. L A ECUACIÓN DE E ULER
Los métodos de solución indicados en la sección precedente requieren hallar la función de valor
V . Sin embargo, es posible resolver el problema sin necesidad de hallar V .
Sea
V (k t ) = máx u(k t , c t ) + βV (G(k t , c t ))
ct
la ecuación de Bellman asociada al problema de horizonte infinito.

Si V fuera conocido, se podría resolver el problema de maximización mediante el cálculo
estándar. Las condición de primer orden asociada a una solución interior es:
u c (k t , c t ) + βV 0 (G(k t , c t ))G c (k t , c t ) = 0.
Implícitamente, esta ecuación define la función de política:
c t = h(k t ),
de modo que, sustituyendo en la función objetivo tendremos
V (k t ) = u(k t , h(k t )) + βV (G(k t , h(k t )))
Derivando respecto a k t :
V 0 (k t ) = u k (k t , h(k t )) + u c (k t , h(k t ))h 0 (k t )+

βV 0 (G(k t , h(k t )))[G k (k t , h(k t )) +G c (k t , h(k t ))h 0 (k t )]
= u k (k t , h(k t )) + βV 0 (G(k t , h(k t )))G k (k t , h(k t ))+
[u (k , h(k t )) + βV 0 (G(k t , h(k t )))G c (k t , h(k t ))] h 0 (k t )
| c t {z }
=0, por C PO
Así,
V 0 (k t ) = u k (k t , h(k t )) + βV 0 (G(k t , h(k t )))G k (k t , h(k t ))
Esta ecuación es denominada la fórmula de Benveniste – Scheinkman (BS), o condición de la

envolvente.
En muchos problemas no existe un modo único de definir estados y controles, de modo que
distintas definiciones alternativas conducen a la misma solución del problema. Supongamos
17
que logramos elegir las variables de control y estado de modo tal que la ecuación de transición
no depende de k t : k t +1 = G(c t ). Así, G k = 0 y la fórmula de B-S se convierte en
V 0 (k t ) = u k (k t , h(k t ))
= u k (k t , c t )
y en el periodo t + 1 es
V 0 (k t +1 ) = u k (k t +1 , c t +1 )
Y de la condición de primer orden:
u c (k t , c t ) + βV 0 (k t +1 )G c (k t , c t ) = 0
Finalmente, combinando las dos expresiones anteriores, se obtiene la ecuación de Euler:
u c (k t , c t ) + βu k (k t +1 , c t +1 )G c (k t , c t ) = 0
Por otra parte, a partir de k t +1 = G(c t ) y asumiendo que G es inversible, se obtiene c t =

G −1 (k t +1 ) ≡ m(k t +1 ). Así, la ecuación de Euler se convierte en
u c (k t , m(k t +1 )) + βu k (k t +1 , m(k t +2 ))G c (k t , m(k t +1 )) = 0,
el cual es una ecuación en diferencias de segundo orden en k. Tal ecuación puede ser resuelta
usando dos condiciones de frontera: la condición inicial k 0 , y una condición apropiada de
transversalidad (CT).
Comentarios
En el desarrollo precedente se ha podido prescindir de la función de valor V . Sin embargo,

el enfoque alternativo implica resolver una ecuación en diferencias, no lineal y de
segundo orden. Es más, será necesario obtener una condición adicional: la condición de
transversalidad.
El método Guess-Verify, puede ser usado para resolver la ecuación de Euler. En este caso,
en vez de adivinar la forma de la función de valor, se adivina la forma de la función de
política, h(.), y se verifica si la ecuación de Euler es satisfecha.
18
Ejemplo de ilustración 2
Resolvamos el ejemplo de ilustración 1, usando el método de programación dinámica:
En t = 1:
W1 (x 1 ) ≡ máxc1 ,x2 ln c 1 + W2 (x 2 )
s.a x2 = x1 − c1
x1 dado,
con W2 (x 2 ) = ln x 2 .
Luego,
W1 (x 1 ) ≡ máxc1 ,x2 ln c 1 + ln x 2
s.a x2 = x1 − c1
x1 dado,
Así,
W1 (x 1 ) ≡ máx ln c 1 + ln(x 1 − c 1 )
c1
La condición de primer orden es:

1 1
=
c1 x1 − c1
Luego, x 1 − c 1 = c 1 implica
1
c1 = x1 .
2
1
Sustituyendo en la restricción x 2 = x 1 − c 1 , se tiene x 2 = x 1 − x 1 . Así,
2
1
x2 = x1 .
2
Sustituyendo en la función objetivo:
1 1
W1 (x 1 ) = ln( x 1 ) + ln( x 1 )
2 2
es decir
1
W1 (x 1 ) = 2 ln( ) + 2 ln x 1 .
2
En t = 0:
W0 (x 0 ) ≡ máxc0 ,x1 ln c 0 + W1 (x 1 )
s.a x1 = x0 − c0
x0 dado,
19
donde W1 fue hallado en el paso previo.
Luego,
W0 (x 0 ) ≡ máxc0 ,x1 ln c 0 + 2 ln( 12 ) + 2 ln x 1
s.a x1 = x0 − c0
x0 dado,
Es decir,
1
W0 (x 0 ) ≡ máx ln c 0 + 2 ln( ) + 2 ln(x 0 − c 0 )
c0 2
La condición de primer orden:
1 2
=
c0 x0 − c0
Luego, como x 0 − c 0 = 2c 0 , se tiene 3c 0 = x 0 , es decir
1
c 0∗ = x 0
3
Sustituyendo en la restricción: x 1 = x 0 − c 0 implica x 1 = x 0 − 13 x 0 , es decir
2
x 1∗ = x 0
3
Sustituyendo la expresión anterior en c 1 = 12 x 1 se obtiene
1
c 1∗ = x 0
3
Sustituyendo x 1 = 23 x 0 en x 2 = 21 x 1 , conseguimos
1
x 2∗ = x 0 .
3
4. P ROGRAMACIÓN DINÁMICA ESTOCÁSTICA
Considere el problema estocástico de horizonte infinito

∞
E0 βt u(k t , c t )
X
máx∞
{c t ,k t +1 }t =0 t =0
s.a k t +1 = G(k t , c t , εt ), t ∈ {0, 1, . . .}
k0 dado
donde {εt }∞
t =0 es una sucesión de variables aleatorias con función de distribución condicional
f (εt +1 |εt ) para todo t , y Et x denota la esperanza matemática de la variable aleatoria x
20
condicional a la información disponible en el tiempo t .
Se asume que εt es conocidad en t , antes que c t sea elegida. El valor de k t es también conocido
antes que c t sea elegido. Esto implica, mediante la ecuación de transición, que k t +1 es conocido
en t .
Observación. En algunas especificaciones, la ecuación de transición es de la forma k t +1 =
G(k t , c t , εt +1 ). En este caso, εt +1 y k t +1 son desconocidos en t . En otras especificaciones, un
shock estocástico es usado para incidir sobre la función de retorno: u(k t , c t , εt ).
El problema estocástico descrito mantiene la estructura recursiva proveniente de la
separabilidad de la función objetivo en pares (k t , c t ), y de la forma particular de la ecuación
de transición. En consecuencia, los métodos de la programación dinámica continúan siendo
apropiados.
La ecuación de Bellman, en este caso, es
V (k t , εt ) = máx u(k t , c t ) + βEt {V (G(k t , c t , εt ), εt +1 )},

ct
donde se ha usado la ecuación de transición para eliminar k t +1 . Notar también que el vector
de estado ahora es (k t , εt ). La esperanza es (asumiendo que el shock es una variable aleatoria
continua):
Z
E{V (G(k t , c t , εt ), εt +1 )} = V (G(k t , c t , εt ), εt +1 ) f (εt +1 |εt )d εt +1 .
Resolviendo al ecuación funcional de Bellman, hallaremos la función de valor V y los planes

contingentes de la forma
c t = h(k t , εt )
y
k t +1 = g (k t , εt ) ≡ G(k t , h(k t , εt ), εt ).
La solución V de la ecuación de Bellman puede ser hallada iterando en
V j +1 = máx u(k t , c t ) + βEt {V j (G(k t , c t , εt ), εt +1 )},

ct
empezando con una función apropiada V0 (usualmente, V0 = 0).

En algunos casos también es posible usar el método Guess – Verify.
21
Por otra parte, también es posible obtener la versión estocástica de la ecuación de Euler. En
este caso, la condición de primer orden establece:
u c (k t , c t ) + β Et {Vk (G(k t , c t , εt ), εt +1 )G c (k t , c t , εt )} = 0.
Luego:
u c (k t , c t ) + β Et {Vk (G(k t , c t , εt ), εt +1 )} G c (k t , c t , εt ) = 0.
La ecuación anterior define, implícitamente, el plan de contingencia
c t = h(k t , εt ).
Sustituyendo en la función objetivo,
V (k t , εt ) = u(k t , h(k t , εt )) + β Et {V (G(k t , h(k t , εt ), εt ), εt +1 )}.
Derivando respecto a k t , se obtiene
V (k t , εt ) = u k (k t , h(k t , εt )) + u c (k t , h(k t , εt ))h k (k t , εt )+

β Et {Vk (G(k t , h(k t , εt ), εt ), εt +1 ) × [G k (k t , h(k t , εt ), εt ) +G c (k t , h(k t , εt ), εt )h k (k t , εt )]}
= u k (k t , h(k t , εt )) + β Et {Vk (G(k t , h(k t , εt ), εt ), εt +1 )}G k (k t , h(k t , εt ), εt )+
u c (k t , h(k t , εt )) + β Et {Vk (G(k t , h(k t , εt ), εt ), εt +1 )}G c (k t , h(k t , εt )) h k (k t , εt )
£ ¤
donde la expresión que se muestra entre corchetes se anula por la condición de primer orden.
Luego
Vk (k t , εt ) = u k (k t , h(k t , εt )) + β Et {Vk (G(k t , h(k t , εt ), εt ), εt +1 )}G k (k t , h(k t , εt ), εt ).
Esta es la ecuación de Benveniste – Scheinkman (BS) para el caso estocástico.
Supongamos que se logra elegir las variables de control y de estado de modo tal que la ecuación
de transición no dependa de k t : k t +1 = G(c t , εt ). Entonces G k = 0 y la fórmula de BS se convierte
en
Vk (k t , εt ) = u k (k t , h(k t , εt ))
= u k (k t , c t )
Un periodo adelante, tendremos
Vk (k t +1 , εt +1 ) = u k (k t +1 , c t +1 ).
22
De las condición de primer orden:
u c (k t , c t ) + β Et {Vk (k t +1 , εt +1 )}G c (k t , c t , εt ) = 0.
Combinando las dos expresiones anteriores, se obtiene la ecuación estocástica de Euler:
u c (k t , c t ) + β Et {u k (k t +1 , c t +1 )}G c (k t , c t , εt ) = 0
23

Teoría de Programación Dinámica PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Teoría de Programación Dinámica PDF

Cargado por

Copyright:

Formatos disponibles

U NIVERSIDAD DE P IURA – C AMPUS P IURA

Elementos de programación dinámica

1. P ROBLEMAS RECURSIVOS Y P ROGRAMACIÓN DINÁMICA

Consideremos el siguiente problema de optimización recursiva, con T periodos, donde las

máx U (k 0 , k 1 , ..., k T +1 , c 0 , c 1 , ..., c T )

Denotemos con k ≡ (k 0 , k 1 , ..., k T +1 ), c ≡ (c 0 , c 1 , ..., c T ) Asumiendo que las condiciones usuales

Así, las condiciones de primer de orden asociadas al problema son

Observe también que los multiplicadores serán obtenidos en función de k 0 .

1.1. C ASO ESPECIAL : U N PROBLEMA RECURSIVO

F t (k, c) = G t (k t , c t ) − k t +1 , ∀t ∈ {0, 1, ..., T }.

Bajo tales condiciones, el problema central se convierte en

k τ+2 = G τ+1 (k τ+1 , c τ+1 )

k τ+3 = G τ+2 (k τ+2 , c τ+2 )

= G τ+2 (G τ+1 (G τ (k τ , c τ ), c τ+1 ), c τ+2 )

está contenida en k τ (esta es la razón por la que k τ se denomina variable de estado en el

La iteración empieza desde el periodo final t = T .

Ahora en el periodo t = T − 1, las CPO son:

Dado que en el periodo precedente (periodo T ), se obtuvieron c T = h T (k T ) y λT = l T (k T ),

Las condiciones de primer orden asociadas al problema son:

A partir de las primeras cuatro ecuaciones, se obtiene

Sustituyendo en la segunda restricción, se tiene c 0 = x 1 −c 0 , con lo cual se obtiene x 1 = 2c 0 . Esto

Definimos la sucesión de problemas de optimización de un periodo, para cada t ∈ {0, 1, ..., T }:

Afirmación: La solución de la sucesión de problemas de optimización de un periodo coincide

WT (k T ) ≡ máxcT ,kT +1 u T (k T , c T ) + S(k t +1 )

Por lo tanto, las CPO del periodo T − 1 se convierten en:

Reemplazando en la función objetivo, tendremos

Observación. Recordemos que, para t ∈ {0, 1, ..., T }, se definió la sucesión de problemas de

En tal caso, tenemos,

= máx{u 0 (k 0 , c 0 ) + máx{u 1 (k 1 , c 1 ) + W2 (k 2 )}}

= máx{u 0 (k 0 , c 0 ) + máx{u 1 (k 1 , c 1 ) + máx{u 2 (k 2 , c 2 ) + W3 (k 3 )}}}

= máx{u 0 (k 0 , c 0 ) + máx{u 1 (k 1 , c 1 ) + máx{u 2 (k 2 , c 2 ) + · · · + máx {u T (k T , c T ) + S(k T +1 )} · · · }}}

W0 (k 0 ) = máx {u 0 (k 0 , c 0 ) + · · · + u T (k T , c T ) + S(k T +1 )},

= máx{u 0 (k 0 , c 0 ) + máx{u 1 (k 1 , c 1 ) + máx{u 2 (k 2 , c 2 ) + máx{u 3 (k 3 , c 3 )+

· · · + máx {u T (k T , c T ) + S(k T +1 )} . . .}}}}.

Dada la estructura particular de nuestro problema, los cálculos precedentes permiten

Luego, estos valores nos permiten obtener el valor optimizado de WT (k T ). Continuando el

y el valor óptimo de WT −1 (k T −1 ). El proceso continúa hasta alcanzar los valores óptimos de c 0

Si las funciones de política {c t = h t (k t )}Tt=0 resuelven

entonces, para cada τ ∈ {0, 1, . . . , T }, las funciones de política {c t = h t (k t )}Ttτ resuelven el

Si, para cada t ∈ {0, 1, . . . , T } se establece

u t (k t , c t ) = βt u(k t , c t ), con β ∈ (0, 1),

entonces, la ecuación de Bellman sería

Observación. Dado que u t (k t , c t ) = βt u(k t , c t ) presenta dependencia explícita de la variable

Retornamos a la discusión del problema planteado inicialmente

Definimos el problema de continuación del periodo 1

Reemplazando k t +1 (de la ecuación de transición) en la función objetivo, obtenemos una

2.2.1. I TERACIÓN DE LA FUNCIÓN DE VALOR

V j +1 = máx u(k, c) + βV j (G(k, c)).

Primero se empieza por alguna función V0 y se continúa hasta que V j converja.1

2.2.2. G UESS AND V ERIFY

la ecuación de Bellman asociada al problema de horizonte infinito.

Implícitamente, esta ecuación define la función de política:

de modo que, sustituyendo en la función objetivo tendremos

V (k t ) = u(k t , h(k t )) + βV (G(k t , h(k t )))

V 0 (k t ) = u k (k t , h(k t )) + u c (k t , h(k t ))h 0 (k t )+

Esta ecuación es denominada la fórmula de Benveniste – Scheinkman (BS), o condición de la

Y de la condición de primer orden:

Finalmente, combinando las dos expresiones anteriores, se obtiene la ecuación de Euler:

Por otra parte, a partir de k t +1 = G(c t ) y asumiendo que G es inversible, se obtiene c t =

u c (k t , m(k t +1 )) + βu k (k t +1 , m(k t +2 ))G c (k t , m(k t +1 )) = 0,

En el desarrollo precedente se ha podido prescindir de la función de valor V . Sin embargo,

La condición de primer orden es:

Sustituyendo en la función objetivo: