Maurette Ojea PDF

Programacin Dinmica
Manuel Maurette e Ignacio Ojea
Junio de 2006
Agradecimientos:
Nuestro reconocimiento a la Dra. Susana Puddu, por su compromiso con la labor

docente y con los alumnos y, especialmente, al Dr. Fabio Vicentini por su tesn en la
difusin de la matemtica aplicada y la generosidad con que brinda sus
conocimientos a los estudiantes.
ndice
1. Introduccin 1
1.1. Resumen del Trabajo . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.2. Historia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2. Programacin Dinmica Discreta 3
2.1. El Problema del Camino de Mnimo Costo . . . . . . . . . . . . . . . 3

2.1.1. Grafos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.1.2. El problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.1.3. El planteo con Programacin Dinmica . . . . . . . . . . . . . 4
2.1.4. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.2. El mtodo general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2.1. Principio de optimalidad . . . . . . . . . . . . . . . . . . . . . 8
2.2.2. Ecuacin Funcional . . . . . . . . . . . . . . . . . . . . . . . . 9
2.3. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.3.1. Asignacin de un Recurso . . . . . . . . . . . . . . . . . . . . 10
2.3.2. Multiplicacin de Matrices . . . . . . . . . . . . . . . . . . . . 12
2.3.3. El Problema de la Carga . . . . . . . . . . . . . . . . . . . . . 13
2.4. El Problema de la Dimensin. . . . . . . . . . . . . . . . . . . . . . . 15
2.5. Multiplicadores de Lagrange . . . . . . . . . . . . . . . . . . . . . . . 16
2.5.1. Los Multiplicadores de Lagrange en Programacin Dinmica . 17
3. Aplicacin al Clculo de Variaciones 19
3.1. El Planteo Formal con Programacin Dinmica . . . . . . . . . . . . 20

3.2. Resolucin Numrica de Problemas Variacionales . . . . . . . . . . . 21
4. Programacin Dinmica Estocstica 23
i
4.1. Procesos de Decisin Markoviana . . . . . . . . . . . . . . . . . . . . 23
4.2. Ejemplos de Retorno Incierto . . . . . . . . . . . . . . . . . . . . . . 24
4.2.1. Distribucin de un Producto . . . . . . . . . . . . . . . . . . . 24
4.2.2. Valuacin de una Opcin . . . . . . . . . . . . . . . . . . . . . 26
ii
1. Introduccin
1.1. Resumen del Trabajo
La Programacin Dinmica es un mtodo de optimizacin de extraordinaria ver-

satilidad. Si bien fue desarrollada especialmente para la resolucin de problemas en
Procesos de Decisin en Mltiples Pasos, diferentes investigaciones han mostrado que
las mismas ideas pueden utilizarse en otro tipo de problemas de matemtica aplica-
da, e incluso pueden ser tiles en el planteo de algunas cuestiones tericas. Habiendo
surgido en los inicios de la poca de las computadoras, la Programacin Dinmica
fue, adems, concebida con un ojo puesto en esta potente herramienta. La Ecuacin
Funcional que se obtiene, para cada problema, a travs del uso del Principio de Op-
timalidad de Bellman permite, con mayor o menor esfuerzo dependiendo del caso,
establecer una recurrencia que es, en s misma, un algoritmo que resuelve el problema
en cuestin.
El objetivo de esta monografa es brindar un panorama relativamente amplio de
las aplicaciones de la Programacin Dinmica, de manera que resulte accesible para
cualquier estudiante de Licenciatura, incluso para aquellos que no estn familiarizados
con las reas especcas de dichas aplicaciones. Persiguiendo este n, procuramos, en
la medida en que el espacio lo permiti, exponer todos los pasos de cada razonamiento
y los elementos tericos bsicos para su comprensin.
Atendiendo a la utilidad principal de la Programacin Dinmica, esto es: la res-
olucin de problemas aplicados con el auxilio de las computadoras; nuestro trabajo
se centra en la exposicin y resolucin de algunos ejemplos clsicos, a travs de los
cuales intentamos mostrar las ideas que pone en juego la tcnica de la Programacin
Dinmica, su versatilidad y, tambin, sus limitaciones.
Teniendo en cuenta que temas como, por ejemplo, el Clculo de Variaciones o los
Procesos Estocsticos, difcilmente sean abordados en las materias regulares de una
carrera de Licenciatura, preferimos dar prioridad a los problemas discretos y deter-
minsticos, que requieren menos conocimientos tericos previos para su comprensin,
y dejar las aplicaciones de la Programacin Dinmica en estas reas para el nal.
Dadas las limitaciones de extensin, debimos, a nuestro pesar, reducir los ltimos
temas abordados a su mnima expresin.
1
1.2. Historia
Durante la Segunda Guerra Mundial la investigacin matemtica se extendi hacia

zonas que hasta entonces le haban sido ajenas. Si bien la participacin de la ciencia,
y de la matemtica en particular, en los enfrentamientos blicos, puede remontarse
a la organizacin, por parte de Arqumedes, de las defensas de Siracusa, lo cierto es
que, hasta la Segunda Guerra, no haban existido polticas consecuentes de aplicacin
especca de la matemtica a problemas de importancia en esta materia.
En realidad, este fenmeno comenz en los aos previos al estallido de la guer-
ra. Alemania, Inglaterra, Estados Unidos y la U.R.S.S. formaron equipos de investi-
gacin, cuyos trabajos fueron la base de muchos de los inventos que aparecieron en
funcionamiento durante la guerra (el radar, por ejemplo) y que abrieron las nuevas
ramas de la matemtica que se desarrollaran enormemente despus de 1945.
La primera gran disciplina que surgi a partir del abordaje matemtico de los
problemas especcos de la guerra fue, seguramente, la Investigacin Operativa1 . El
trmino Operations Research fue utilizado por primera vez en Inglaterra, en 1941.
Las investigaciones realizadas en los centros de Investigacin Operativa de la Royal
Air Force y otros organismos militares britnicos permitieron, entre otras cosas, in-
crementar la ecacia de la los patrullajes areos en busca de submarinos alemanes, y
consecuentemente, la cantidad de submarinos daados o hundidos.
Rpidamente se hizo evidente que las mismas tcnicas utilizadas en el mbito mil-
itar podan servir en otras reas de aplicacin. En los aos posteriores a la Guerra se
abrieron nuevos temas de investigacin y se plantearon nuevos problemas, que fueron
abordados desde una perspectiva matemtica. Entre estos nuevos temas se encontra-
ba la teora de los Procesos de Decision en Mltiples Pasos, que Richard Bellman
(1920 - 1984) abord alrededor de 1952, y para los cuales fue pensada originalmente
la Programacin Dinmica.
Despus de desarrollar el mtodo en el rea especca de los problemas de decisin
discretos, Bellman y sus colaboradores se dedicaron a la ardua tarea de formular
diferentes problemas en los trminos de la Programacin Dinmica. Como resultado de
esta labor, encontraron que las ideas centrales del mtodo, en particular, el Principio
de Optimalidad, podan ser aplicadas satisfactoriamente en muchos de los problemas
abordados. Descubrieron tambin las limitaciones de esta tcnica y hallaron modos
de sobreponerse a ellas, para algunos problemas puntuales.
La Programacin Dinmica es, hoy en da, un recurso imprescindible de Matemti-
ca Aplicada y, tambin, una importante herramienta terica.
1 En rigor, una traduccin ms exacta sera Investigacin en Operaciones.
2
2. Programacin Dinmica Discreta
2.1. El Problema del Camino de Mnimo Costo
2.1.1. Grafos
Llamamos grafo a un par de conjuntos V y E , de los cuales el primero contiene

los vrtices o nodos, mientras que el segundo es el conjunto de las ramas o arcos y
est formado por pares de elementos de V que consideramos conectados entre s. La
notacin usual para un grafo es G = (V, E).
Nos interesa particularmente considerar el caso en que los elementos (u, v) E son
pares ordenados. Cuando esto sucede, el grafo se dice dirigido y las ramas se notan:
u v . A modo de ejemplo, La Fig. 1 representa un grafo en donde V = {1, 2, 3, 4} y
E = {(1, 2); (4, 2); (3, 1)}.
Figura 1: Ejemplo de Grafo
En un grafo dirigido un camino del vrtice u al vrtice v es una sucesin de ramas

u u1 , u1 u2 , ..., uk1 v que conectan u con v .
Por ltimo, un grafo se dice acclico si no forma ciclos, es decir, si no existe ningn
camino que comience y termine en el mismo vrtice.
2.1.2. El problema
Sea G = (V, E) un grafo dirigido y acclico, donde cada arco u v tiene asociado
un costo cuv R, y donde el costo de un camino se computa sumando los costos de
las ramas que lo componen.
El hecho de que sea acclico implica que todo camino naliza en un vrtice del que
no sale ninguna echa, al que llamamos terminal. Dado un vrtice cualquiera, u V ,
el problema consiste en hallar un camino de costo mnimo que parta de u y nalice
en un vrtice terminal. Un camino con estas caractersticas se llama camino ptimo
que parte de u.
Esta formulacin matemtica sirve de modelo para diversos problemas. El ejemplo
ms sencillo es el de una red de carreteras que conectan una localidad de origen con
otra de destino, pasando por varias localidades intermedias. En este caso, el costo de
3
un tramo de ruta podra ser su longitud. Es a partir de este ejemplo que el problema
suele presentarse con el nombre de problema del camino ms corto.
Debe tenerse en cuenta que tanto V como E pueden tener una enorme cantidad
de elementos, por lo que la bsqueda de un camino de costo mnimo representa un
autntico problema. Por otra parte y como veremos luego en un ejemplo, una poltica
codiciosa a corto plazo, que tome en cada nodo la rama que resulte menos costosa,
no conduce, generalmente, a la construccin de un camino de costo mnimo.
Antes de encarar la resolucin del problema, observemos que, puesto que existen
nitos caminos, debe existir al menos uno de costo mnimo. Es decir: nuestro problema
tiene solucin.
2.1.3. El planteo con Programacin Dinmica
Sea V0 el conjunto de todos los vrtices terminales de G. Consideremos ahora el

grafo G V0 que resulta de eliminar de G los vrtices de V0 y las ramas que inciden
en ellos. Sea ahora V1 el conjunto de los vrtices terminales de G V0 . Anlogamente,
denimos:
i1
Vi := conjunto de los vrtices terminales de G (
[
Vj )
j=0
Puesto que la cantidad de vrtices es nita, existe un n para el cual V = ni=0 Vi , y

S
como Vi Vj = si i 6= j , concluimos que {Vj }nj=1 es una particin de V . Por otra
parte:
i1
[
u Vi uv = v Vj
j=0
Ahora bien, si
u v v2 ... vk1 vk vk terminal
es un camino ptimo partiendo del vrtice u, entonces, necesariamente,
v v2 ... vk1 vk
es un camino ptimo partiendo del vrtice v . Es decir: las colas de un camino ptimo
son, a su vez, ptimas. Esta brillante, y aparentemente sencilla, observacin recibe
el nombre de Principio de Optimalidad y es la clave de la Programacin Dinmica.
Veamos cmo, a partir de ella, se llega a la solucin del problema.
4
Sea f : V R la funcin que asigna a cada vrtice u V el costo de un camino
ptimo que parte de dicho vrtice. El Principio de Optimalidad puede expresarse en
trminos de esta funcin, que es una incgnita de nuestro problema. En efecto, si,
como antes, v es el nodo que sigue a u en un camino ptimo:
f (u) = cuv + f (v)
Adems, para cualquier otro w tal que u w tendremos:

f (u) cuw + f (w)
Lo cual nos conduce a establecer la siguiente ecuacin funcional :

f (u) = mn cuw + f (w)
w:uw
Consideramos ahora la poltica ptima, esto es, la funcin p : V \ V0 V \ Vn

que asigna a cada vrtice u el nodo v que le contina en un camino ptimo; es decir,
p(u) es el argumento que realiza el mnimo en la ecuacin funcional. Est funcin
podra no estar bien denida, si para algn u existiera ms de un camino ptimo. Sin
embargo, si esto ocurriera, podramos elegir arbitrariamente alguno de los vrtices
posibles, resolviendo el inconveniente. Cabe aclarar que para algunos problemas puede
determinarse un criterio especco para esta eleccin.
As planteado el problema, nuestro objetivo es hallar, para todo u V los valores
f (u) y p(u). La funcin f nos da el costo del camino mnimo, mientras que p nos
permite construirlo, de la siguiente manera:
u p(u) = u1 p(u1 ) = u2 ... p(uk1 ) = uk V0
La ecuacin funcional nos permite encontrar f y p recursivamente y de atrs para

adelante ; en primer lugar tenemos:
f (u) = 0 u V0
Luego, si u V1 y u w entonces w V0 . Por lo tanto:

f (u) = mn c(u, w) + f (w) = mn c(u, w) u V1
w:uw w:uw
p(u) = arg mn c(u, w) + f (w) = arg mn c(u, w) u V1

w:uw w:uw
Y as, habiendo calculado f (u) u j=0 Vj se tiene que:

Si1
f (u) = mn c(u, w) + f (w) u Vi

w:uw
5
y(u) = arg mn c(u, w) + f (w)
w:uw
El planteo recursivo no slo permite hallar una solucin del problema sino que
constituye la base para el diseo de un algoritmo de implementacin bastante sencilla.
Veamos como funciona el mtodo en un ejemplo:
2.1.4. Ejemplo
Consideremos el grafo de la Fig. 2. El problema es hallar el camino ptimo desde

el vrtice inicial 1 hasta el terminal 7, donde los valores en las echas indican el costo
c(u, v) de ir de un vrtice u a otro v . Sean f y p las funciones denidas anteriormente.
Figura 2: Hallar el camino de mnimo costo.
En primer lugar, podemos denir los Vi fcilmente:

V0 = {7}, V1 = {5, 6}, V2 = {4}, V3 = {2, 3}, V4 = {1}
Entonces, procedamos a calcular las funciones recursivamente, comenzando por el
vrtice terminal:
f (7) = 0
f (6) = c(6, 7) = 2 p(6) = 7
f (5) = c(5, 7) = 3 p(5) = 7
f (4) = mn{c(4, 5)+f (5), c(4, 6)+f (6), c(4, 7)+f (7)} = mn{1+3, 4+2, 6} = 4 p(4) = 5
f (3) = mn{c(3, 4) + f (4), c(3, 6) + f (6)} = mn{1 + 4, 5 + 2} = 5 p(3) = 4
f (2) = mn{c(2, 4) + f (4), c(2, 5) + f (5)} = mn{3 + 4, 5 + 3} = 7 p(2) = 4
f (1) = mn{c(1, 2) + f (2), c(1, 3) + f (3)} = mn{1 + 7, 2 + 5} = 7 p(1) = 3
Notar que f (1) = 7 nos proporciona el costo del camino ptimo. El camino, propia-
mente dicho se obtiene con la funcin p :
1 p(1) = 3 p(3) = 4 p(4) = 5 p(5) = 7
Comparemos este algoritmo a otro, por ejemplo, un algoritmo codicioso, es decir uno
que comenzando desde el primer vrtice, elija el prximo siguiendo la rama de costo
menor inmediato. En ese caso obtenemos:
12457
6
Cuyo costo es 8, o sea mayor al mnimo. Otra manera de resolver este problema sera
usando fuerza bruta, es decir, numerar todos los posibles caminos que parten del 1 y
elegir el menor. Veamos que esto requiere excesivos clculos. Para esto, deberamos
enumerar todos los caminos, 1 2 5 7 , 1 3 4 6 7, etc. En total son
8, 4 de 3 ramas y 4 de 4. A cada uno de estos habra que calcular su costo, es decir,
la suma de las ramas que lo componen. Para los caminos que tiene 3 ramas harn
falta 3 sumas y 4 para los de 4. En total hacen 28 sumas. Luego de tener todos, hay
que comparar los 8 nmeros y quedarse con el menor, usando el algoritmo merge sort
se necesitaran, en el peor de los casos, 24 comparaciones (Con el bubble sort, que es
el algoritmo bsico para la comparacin se necesitaran 28 comparaciones). Lo que
hace un total de 52 operaciones bsicas. Con el algoritmo de programacin dinmica
hicimos 9 sumas y 6 comparaciones. Es decir 15 operaciones bsicas, ms de un 70 %
menos. A medida que crece la complejidad del problema ms se ve el poder de la
programacin dinmica.
2.2. El mtodo general
El problema de hallar el camino de costo mnimo en un grafo dirigido es un caso

particular de lo que se llama Problema de Decisin en Mltiples Pasos (Multistage
Decision Process Problem ). La formulacin general de este problema es la siguiente:
Un proceso es examinado peridicamente, a tiempos t = 0, 1, .... Como resultado
de dicho examen se obtiene el valor de una variable (o, eventualmente, un vector
de variables) x que sirve para juzgar la situacin del proceso. Al par u = (t, x(t))
lo llamamos un estado. Luego de cada observacin de x debe ejecutarse una accin
correctiva, tomada de un conjunto de posibles decisiones D(u). La eleccin de una
decisin particular d(u) genera una transformacin T que da como resultado un nuevo
estado: v = (t + 1, x) = T (u, d), y que tiene asociado un costo c(u, d). Una funcin
que indique para cada estado u una decisin especca a tomar recibe el nombre
de poltica. Se quiere hallar una poltica de manera que la suma de los costos de
las transformaciones engendradas por las sucesivas decisiones resulte mnima. A una
poltica de estas caractersticas se la llama poltica ptima.
En el problema del camino de mnimo costo, los nodos del grafo juegan el papel de
estados. A su vez, para cada u V , el conjunto D(u) de las posibles decisiones est
formado por los vrtices v tales que (u, v) E , mientras que las transformaciones
engendradas por una decisin son justamente las ramas (u, v) E , y el costo de la
transformacin es el costo de la rama. Una poltica es, en este caso, una regla que
nos dice a qu nodo pasar si nos encontramos en un vrtice dado cualquiera, siendo
la poltica ptima aquella que nos da, para cada u V un camino de costo mnimo
7
que nalice en un vrtice terminal.
Si nos centramos en el caso en que el proceso naliza en un tiempo N , la analoga
entre el planteo general y el caso particular del problema del camino de mnimo
costo en un grafo dirigido resulta inmediata, y nos permite pensar que las sucesivas
transformaciones forman un camino, pasando de un estado a otro, en un tiempo
posterior.
Figura 3: Problema de Control
Siguiendo esta idea, tenemos que, si llamamos d a la poltica utilizada, comenzando

en un estado u0 se forma un camino - como lo muestra la Figura 3- dado por:
u1 = T (u0 , d(u0 ))
u2 = T (u1 , d(u1))
...
uk+1 = T (uk , d(uk ) uk = (k, x(k))
...
uN = T (uN 1 , d(uN 1 ))
Continuando con la analoga, llamamos fd a la funcin que asigna a cada estado

u = (t, x) el costo del camino hasta un estado terminal inducido por la poltica d.
La observacin crucial sobre la que llamamos la atencin en el ejemplo es la sigu-
iente:
2.2.1. Principio de optimalidad
Una poltica ptima tiene la propiedad de que cualquiera sean el estado y la de-
cisin iniciales, las decisiones siguientes constituyen una poltica ptima con respecto
al estado resultante de la primera decisin.
Si llamamos f a la funcin de costo correspondiente a la poltica ptima, el prin-
cipio de optimalidad puede expresarse de la siguiente manera:
f (ut ) = c(ut , d(ut )) + f (T (ut , d(ut )))
8
2.2.2. Ecuacin Funcional
Al igual que en el ejemplo, el Principio de Optimalidad permite establecer la

siguiente Ecuacin Funcional :
f (u) = mn c(u, d(u)) + fd (T (u, d(u)))

dD(u)
A partir de esta ecuacin, puede resolverse el problema de manera recursiva, de

un modo anlogo al utilizado para el problema de camino de costo mnimo.
2.3. Ejemplos
Seguramente la mayor dicultad que se presenta al encarar la resolucin de un

problema de Optimizacin es la de encontrar una formulacin matemtica apropiada.
En el caso de la Programacin Dinmica, que se basa en el uso del Principio de
Optimalidad para el planteo de la Ecuacin Funcional, el elemento principal de una
buena formulacin es la nocin de estado, ntimamente ligada a la idea de secuencia,
puesto que, en casa paso del proceso se pasa de un estado a otro posterior, desde el
cual no es posible regresar. Esta concepcin temporal no siempre est implcita en
el planteo verbal del problema. Encontrar la manera apropiada de expresarla puede
representar un importante esfuerzo. Como se ver ms adelante, para decidir qu
es lo que debe considerarse estado es necesario determinar cul es la informacin
esencial con que se debe contar a cada paso para estar en condiciones de tomar una
decisin. Esto hara pensar qu deben hallarse primero los sucesivos pasos y luego los
estados. Sin embargo, el estrecho vnculo que une ambas nociones -la de estado y la de
secuencia- obliga a pensar en ambas cosas a la vez, no siendo, generalmente, posible
determinar la secuencia independientemente del estado, ni viceversa. Por otra parte,
una vez establecidos ambos y explicitada la funcin ptima f que calcula el mnimo
(o mximo) buscado, deben asignrsele a esta funcin los valores correspondientes a
los estados terminales. En el caso del camino de mnimo costo esto resultaba muy
sencillo, pues si u era un nodo terminal, se tena trivialmente que f (u) = 0. En la
mayor parte de los problemas esto no es as y la determinacin de los valores de borde
o extremos, representa tambin un importante escollo en el camino hacia la solucin.
Para mostrar la naturaleza de estas dicultades y el modo en que pueden resol-
verse, exponemos a continuacin algunos ejemplos clsicos, enuncindolos primero
verbalmente y mostrando luego cmo pueden ser planteados matemticamente.
9
2.3.1. Asignacin de un Recurso
Supongamos que contamos con una cierta cantidad (limitada) de un determinado

recurso, sea este dinero, mquinas, agua, combustible o materia prima de cualquier
tipo. Este recurso puede ser utilizado para diferentes actividades, cada una de las
cuales produce un determinado retorno, que depende tanto de la actividad como de
la cantidad del recurso invertida en ella. Para jar ideas, supongamos que el recurso
en cuestin es dinero. Supondremos, adems, que: (a) Los retornos de las diferentes
actividades pueden ser medidos en una unidad comn, que podemos pensar que es
la unidad pesos, lo que nos permite cambiar la palabra retorno por ganancia ; (b)
La ganancia de una actividad es independiente de la cantidad del recurso que se
haya invertido en las otras; (c) La ganancia total se calcula sumando las ganancias
proporcionadas por todas la actividades.
El problema consiste en hallar los montos que deben invertirse en cada actividad
de manera que la ganancia total sea mxima.
El planteo matemtico
Sea P la cantidad de dinero con la que contamos. Numeremos 1, 2, ..., N a las

diferentes actividades, cada una de las cuales tiene asignada una funcin de ganancia :
g1 , g2 , ..., gN . Si xi es la cantidad de pesos que se asigna a la actividad i, gi (xi ) ser la
ganancia proporcionada por esta actividad. Razonablemente, podemos suponer que
las funciones gi son crecientes. Nuestro problema consiste, entonces, en minimizar la
funcin de ganancia total:
G(x1 , x2 , ..., xN ) = g1 (x1 ) + g2 (x2 ) + ... + gN (xN )
Sujetos a las condiciones:

x1 + x2 + ... + xN = P
xi 0 i = 1, 2, ..., N
La formulacin con Programacin Dinmica
En este caso, si bien el tiempo no gura entre los ingredientes del problema, resulta
ms o menos sencillo encararlo de manera secuencial, pensando que primero se asigna
una cierta cantidad x1 a la actividad 1, luego una cantidad x2 a la actividad 2, y as
sucesivamente.
Ahora bien, al comenzar la asignacin, es decir, en el momento de decidir el valor
x1 , estamos limitados por las restricciones 0 x1 P . Una vez jado x1 el monto
total con el que contamos habr disminuido a P x1 , por lo que las restricciones
para la determinacin de x2 sern 0 x2 P x1 . Siguiendo este razonamiento,
10
cuando se hayan determinado los valores x1 , x2 , ..., xk , las restricciones de la asignacin
correspondiente a la actividad k + 1 sern: 0 xk+1 P (x1 + x2 + ... + xk ).
El Principio de Optimalidad nos dice que el valor xk+1 de una asignacin ptima
para las N actividades con un monto inicial P corresponde, a su vez, a una asignacin
ptima de las actividades k + 1, ..., N con un monto inicial z = P (x1 + ... + xk ). La
informacin esencial con la que debemos contar a cada paso es, entonces, el nmero
de la actividad sobre la cual estamos decidiendo y la cantidad de pesos que restan
distribuir. Por lo tanto, un estado deber ser un par (k, z), con k el nmero de la
actividad que debemos asignar y z el dinero disponible. Llamando f a la funcin
ptima, la Ecuacin Funcional del problema es:
f (k, z) = max gk (xk ) + f (k + 1, z xk )

0xk z
Observemos que los montos de dinero siempre pueden considerarse enteros, pues
en el caso de que sea posible asignar una fraccin de peso a alguna actividad, puede
cambiarse la unidad de medida de pesos a centavos. Esto hace que el nmero de
estados posibles sea nito, pues: k = 1, 2, ..., N y z = 0, 1, 2, ..., P , siendo N y P
nmeros enteros dados.
Lo nico que resta, entonces, para establecer la recurrencia que resuelva el proble-
ma es determinar los valores de f para los estados terminales. Hecho esto, la Ecuacin
Funcional nos permitir hallar f en todos los otros estados. En este caso, los esta-
dos terminales son los de la forma (N, z) con z = 1, 2, ..., P , es decir, aquellos que
corresponden a la situacin que slo quedan z pesos para asignar a la actividad N .
Puesto que las funciones gi son crecientes, resulta natural que la totalidad del dinero
sea asignado a esta ltima actividad. Esto es:
f (N, z) = gN (z)
A partir de aqu, para k = N 1, N 2, ..., 1 y para z = 1, 2, ..., P utilizamos la

Ecuacin Funcional y calculamos:
f (k, z) = mn gk (xk ) + f (k + 1, z xk )
0xk z
p(k, z) = arg mn gk (xk ) + f (k + 1, z xk )

0xk z
Donde p es la poltica ptima, que nos da las asignaciones que maximizan la ganancia:
x1 = p(1, P )
x2 = p(2, P x1 )
11
...
xN = p(N, P (x1 + ... + xN 1 ))
Complejidad
Contemos el nmero de operaciones que hacen falta para completar la recursin.

En primer lugar el clculo de f para los estados terminales requiere de P + 1 op-
eraciones pues la nica variable es z que toma valores enteros entre 0 y P . Luego,
para cada (k, z) jo se realizan z comparaciones, y este clculo debe hacerse para
0 z P , lo que da un total de P (P21) operaciones. Finalmente, k se mueve entre 1
y N 1, por lo que, la complejidad general del proceso ser de O(N P 2 ). Esto es lo que
se llama un algoritmo pseudo-polinomial : el nmero de operaciones es un polinomio
en la cantidad de variables (N ) y el valor de un de sus parmetros (P ).
2.3.2. Multiplicacin de Matrices
Se tienen N matrices A1 , A2 , ..., AN y N + 1 nmeros naturales r0 , ..., rN tales que

Ai Rri1 ri . Se desea calcular el producto:
A1 A2 ... AN
Observamos que el nmero de operaciones necesarias para calcular (A1 A2 )A3 no es

el mismo que el nmero de operacin que demanda A1 (A2 A3 ). El problema consiste,
entonces, en decidir cmo deberan ubicarse los parntesis para el obtener el producto
total en un mnimo nmero de operaciones.
El planteo con Programacin Dinmica .
Lo que buscamos es, en primer lugar, un k tal que la asociacin
(A1 A2 ...Ak )(Ak+1 Ak+2 ...An )
resulte ptima. Y luego de esto, queremos encontrar un k 0 y un k 00 que optimicen
(A1 A2 ...Ak0 )(Ak0 +1 Ak0 +2 ...Ak )(Ak+1 Ak+2 ...Ak00 )(Ak00 +1 Ak00 +2 ...An )
y as sucesivamente.
Segn este planteo, a cada paso de nuestro problema nos concentramos en un
subconjunto {Aj }kj=i {Aj }nj=1 , teniendo como datos las dimensiones dadas por los
nmeros r0 , ..., rn N. Entonces, la informacin esencial que necesitamos para encarar
cada uno de los subproblemas est dada por el nmero de la primera y de la ltima
12
matriz del subconjunto. Luego, un estado ser un par (i, k) y corresponder a la
situacin en que debamos asociar el producto Ai Ai+1 ...Ak . En este caso, lo poltica
ptima ser una funcin j = j(i, k), i j k , que al par (i, k) le asigna la ubicacin
ptima del parntesis: (Ai Ai+1 ...Aj )(Aj+1 ...Ak ). As, si denimos:
f (i, k) = mnimo nmero de operaciones para obtener Ai Ai+1 Ak (1 i k n)
Por el Principio de Optimalidad tenemos que:
f (i, k) = f (i, j) + f (j + 1, k) + ri1 rj rk
En donde ri1 rj rk es el nmero de operaciones del producto (Ai Ai+1 ...Aj )(Aj+1 Aj+2 ...Ak ).
De aqu obtenemos la Ecuacin Funcional:
f (i, k) = mn f (i, j) + f (j + 1, k) + ri1 rj rk (1 i j j n)
ijk
Naturalmente, la funcin j(i, k) que asigna a cada par (i, k) el argumento j que
minimiza la ecuacin, nos brinda la solucin del problema:
j11 = j(1, n)
j21 = j(1, j11 ) j22 = j(j11 , n)
j31 = j(1, j21) j32 = j(j21 , j11 ) j33 = j(j11 , j22 ) j34 = j(j22 , n)
Y as siguiendo.
Dejamos el clculo de la complejidad en manos del lector.
2.3.3. El Problema de la Carga
Una fbrica que produce N artculos debe cargar un contenedor con algunos de sus
productos, pudiendo poner en l diferentes cantidades de cada uno. Cada unidad del
producto i tiene un peso pi Z y un valor vi Z. El peso total de la carga no puede
superar el lmite P Z. El problema consiste en hallar las cantidades que deben
cargarse de cada producto de manera que el valor total de la carga sea mximo, y su
peso no supere el lmite. Para la resolucin supondremos que la cantidad disponible
de cada artculo es ilimitada.
Planteo con Programacin Dinmica
Si la variable xi designa la cantidad de unidades del artculo i que se pondr en

el contenedor, nuestro problema puede plantearse como uno de programacin lineal
entera:
N
X
max vi xi
i=1
13
Sujeto a las restricciones:
N
X
pi xi P
i=1
xi 0 xi Z
Para plantear este problema por programacin dinmica, supondremos que la

carga se hace artculo por artculo. Anlogamente a lo que ocurra en el caso de
la Asignacin de un Recurso, los estados son binomios (i, z) con (1 i N ) y
0 z P el peso restante a distribuir. Los cambios de estado estn dados por los
arcos (i, z) (i + 1, z pi xi ) donde xi es la cantidad que se decide cargar del artculo
i. Por el Principio de Optimalidad tenemos la Ecuacin Funcional:
f (i, z) = max vi x + f (i + 1, z pi x) (1 i N )(0 z P )
0xb pz c
i
Tambin de manera anloga al caso de la Asignacin de un Recurso denimos la

funcin f en los estados terminales poniendo en el contenedor tanta cantidad del
artculo N como sea posible:
z
f (N, z) = vN b c
pN
Con esto estamos en condiciones de establecer la recursin que resuelve el problema.
Para i = N 1, N 2, ..., 1 y 0 z P calculamos:
f (i, z) = max vi x + f (i + 1, z pi x)
0xb pz c
i
x(i, z) = arg maxz vi x + f (i + 1, z pi x)

0xb p c
i
La funcin x es la poltica ptima que nos permite reconstruir la solucin:

x1 = x(1, P )
x2 = x(2, P x1 p1 )
...
xi = x(i, P (x1 p1 + ... + xi1 pi1 ))
Complejidad
El clculo de la complejidad para este problema es prcticamente idntico al caso

de Asignacin de un Recurso, obtenindose el mismo resultado. El nmero de opera-
ciones es de O(N P 2 ). Veremos que el hecho de que el algoritmo sea pseudo-polinomial
compromete la resolucin numrica del problema en el caso en que se agreguen algunas
complicaciones.
14
2.4. El Problema de la Dimensin.
Si aadimos a la restriccin de peso una restriccin de volumen, es decir, si in-

troducimos valores wi que representan el volumen de una unidad del artculo i, y un
valor W para el volumen del contenedor, nuestro problema quedara formulado de
este modo:
N
X
max vi xi
i=1
Sujeto a:
N
X
pi xi P
i=1
N
X
wi xi W
i=1
xi 0 xi Z
Razonando como antes, un estado ser ahora una terna (i, z, w) con i el artculo
considerado, z el peso que an es posible cargar y w el volumen restante. La Ecuacin
Funcional queda, entonces:
f (i, z, y) = max vi x + f (i + 1, z pi x, y wi x)
0xmn{b pz c,b wy c}
i i
Los valores de f en un estado terminal sern:

z w
f (N, z, w) = vN mn{b c, b c}
pN wN
Es posible, entonces, establecer la recursin para resolver el problema. Hay, sin em-
bargo, un inconveniente. El valor W juega en este caso un papel idntico al de P .
Resulta, por lo tanto, bastante sencillo comprobar que la complejidad de un algoritmo
construido en base a la recursin dada por Programacin Dinmica es de O(N P 2 W 2 ).
Esto hace que el tiempo de ejecucin aumente bastante si los valores de P y W son
grandes. Pero no es slo este el problema.
En el caso en que hay solamente una restriccin de peso, en cada paso del algoritmo
se calculan los valores de f para los estados (i, z) con i jo y 0 z P . Esto hace un
total de P +1 datos por paso. Una vez completado el proceso, la cantidad de estados en
que hemos calculado f es N (P +1). Agregando la restriccin de volumen, cada paso del
algoritmo calcula f en todos los estados (i, z, w) con i jo y 0 z P , 0 w W .
As, al nalizar la recurrencia, debern guardarse en memoria N (P +1)(W +1) datos,
15
cosa que puede resultar imposible para valores no muy grandes de P y W , incluso
con computadoras modernas.
Esto muestra una de las limitaciones ms grandes de la Programacin Dinmica:
el problema de la dimensin. Si el nmero de restricciones es grande, la complejidad y,
sobre todo, el espacio en memoria, crecen demasiado. Sin embargo, puede adaptarse
el mtodo para casos con este, en que la dimensin, si bien impide el uso directo de
la Programacin Dinmica, no es demasiado grande.
2.5. Multiplicadores de Lagrange
El mtodo de los Multiplicadores de Lagrange2 es un recurso muy til para resolver

problemas de minimizacin o maximizacin de funciones de varias variables sujetas
a restricciones. Describiremos brevemente su uso en el Clculo antes de mostrar la
manera de utilizarlos en Programacin Dinmica.
Supongamos que queremos hallar los extremos de una funcin diferenciable de
dos variables F (x, y) sobre todos los (x, y) en una curva descripta por la ecuacin
G(x, y) = 0. De no existir esta restriccin procederamos a calcular las derivadas
parciales de F respecto de x y de y , igualndolas a 0. Pero este procedimiento deja
de ser til al imponer la restriccin, pues no es necesario que las derivadas parciales
se anulen para que existan extremos sobre los puntos de la curva. Para resolver este
problema, denimos una funcin H :
H(x, y) = F (x, y) + G(x, y)
Donde es un Multiplicador de Lagrange. Si ahora buscamos los extremos de H de

la manera usual tendremos:
H F G
= + =0
x x x
H F G
= + =0
y y y
A partir de estas ecuaciones podemos obtener x e y en trminos de y luego usar
la restriccin G(x, y) = 0 para determinar el valor de . Por supuesto, no siempre
es posible obtener una solucin a travs de este mtodo, puesto que los despejes de
x = x(), y = y() y luego el clculo del valor de pueden resultar impracticables.
2 Expuesto por Joseph Louis Lagrange (1736-1813) en su obra Mcanique Analytique
16
2.5.1. Los Multiplicadores de Lagrange en Programacin Dinmica
Tomemos un problema general de optimizacin denido del siguiente modo: sean

g y h dos funciones denidas sobre un conjunto nito S y W un nmero natural.
Queremos hallar:
mn g(x)
Sujetos a las restricciones:
h(x) W
xS
Observemos que el Problema de la Carga con restricciones de peso y volumen

puede expresarse de este modo, siendo:
x = (x1 , ..., xN )
N
X
g(x) = vi xi
i=1
n
X
h(x) = wi xi
i=1
N
X
S = {x : pi xi P }
i=1
Para utilizar los multiplicadores de Lagrange pensaremos que la restriccin:
h(x) W
juega el papel que cumpla, en el caso de la minimizacin o maximizacin de una

funcin diferenciable, la restriccin G(x, y)=0. Plantearemos entonces, el siguiente
problema auxiliar:
mn g(x) + h(x)
Sujeto a:
xS
Hemos reducido el nmero de restricciones, de dos que tenamos originalmente, a

una. Veamos que es posible hallar un tal que la solucin del segundo problema sea
tambin solucin del primero:
17
Teorema 1 Si para todo > 0, la funcin g(x) + h(x) tiene un mnimo global en
S que se alcanza en un elemento x S. Entonces:
1. x es solucin de:
mn g(x)
h(x) h(x )
xS
2. h(x ) decrece cuando crece
Demostracin :
1) Sea x S. Por hiptesis tenemos que:
g(x ) + h(x ) g(x) + h(x)
g(x ) g(x) (h(x) h(x ))

Luego, como h(x) h(x ) vale (h(x) h(x )) 0. Entonces:
g(x ) g(x) 0 = g(x ) g(x)
2) Sea 0 < < por hiptesis vale que:
g(x ) + h(x ) g(x ) + h(x )
g(x ) + h(x ) g(x ) + h(x )

Sumando ambos trminos y reordenando queda
( )(h(x ) + h(x )) 0
Y como > , h(x ) h(x ).
La primera parte de este teorema muestra que la resolucin del problema auxiliar
brinda tambin la solucin de un tercer problema que tiene la misma estructura que
el original, que deseamos resolver. La nica diferencia est en que, en lugar de la
restriccin h(x) W , tenemos otra, h(x) h(x ). Buscamos, entonces, un valor de
tal que h(x ) = W . Para esto, utilizamos la segunda parte del teorema, que nos
dice que h(x ) es una funcin decreciente del multiplicador de Lagrange . Esto nos
permite hallar el valor de a travs de un algoritmo de biseccin:
18
Tomamos un valor inicial 0 y calculamos h(0 ). Si h(0 ) < W tomamos 1 = 20 .
Si, en cambio h(0 ) > W , denimos un 1 mayor que 0 , por ejemplo: 1 = 32 0 , y
reiteramos el procedimiento para 1 .
Por supuesto, hemos resulto el inconveniente del espacio necesario para alojar la
informacin en memoria, reduciendo el problema a uno con una sola restriccin. Sin
embargo, es necesario correr el algoritmo varias veces, con diferentes valores de ,
para encontrar nalmente la solucin de problema original.
3. Aplicacin al Clculo de Variaciones
Hasta aqu hemos trabajado con problemas en los que haba que minimizar o max-
imizar una funcin de varias variables, sujeta a ciertas restricciones. En el Clculo
de Variaciones consideramos problemas similares, pero que involucran funciones de
innitas variables, es decir, funciones de funciones, que reciben el nombre de fun-
cionales.
El problema ms antiguo del Clculo de Variaciones consista en hallar la gura
de rea mxima entre todas las que tienen permetros iguales3 . Varios matemticos
griegos de la antigedad trabajaron en este problema pero fue Jacob Bernoulli, el
mayor, (1654-1705) quin dio la solucin (el crculo), demostrndo su validez. Uno de
los hermanos de Jacob, Johannes Bernoulli (1667 - 1748) lanz, como desafo a los
matemticos del mundo, uno de los problemas que ms importancia histrica tuvieron
en el desarrollo de esta teora: el problema de la Braquistocrona. Dados dos puntos en
el espacio, la braquistocrona es la curva que los une, a lo largo de la cul el descenso
de una partcula por accin de la gravedad se realiza en menor tiempo. Este problema
haba inquietado ya a Galileo, que no haba podido resolverlo, hecho este bastante
natural pues haca falta contar con el Clculo como herramienta matemtica para
encontrar la solucin. Aparentemente, el desafo de Johannes Bernoulli iba dirigido
particularmente a Newton. Un ao despus de planteado el problema aparecieron
varias soluciones, entre ellas una de Leibniz, una de Jacob Bernoulli, y una annima.
Segn se cuenta, al ver la breve resolucin annima, Johannes habra exclamado algo
as como Reconozco al len por su garra. En efecto, el autor de esta solucin haba sido
Newton. Por lo dems, el resultado del problema es sorprendente: la braquistocrona
es una cicloide4 .
Los funcionales correspondientes a estos ejemplos se expresan en trminos de una
3 Este tipo de restriccin es la que, en trminos modernos, corresponde a un problema de isop-
ermetros.
4 La curva que describe un punto jo en una rueda cuando esta se desplaza.
19
determinada integral que involucra a la funcin buscada. Abordaremos aqu un prob-
lema general, con un funcional de la forma:
Z b
J(f ) = G(x, f (x), f 0 (x))dx
a
Buscaremos una funcin f que haga mnimo este funcional, imponiendo como nica
restriccin un valor inicial f (a) = c.
3.1. El Planteo Formal con Programacin Dinmica
Denamos:
Z b
c) = mn J(f ) = mn
J(a, G(x, f (x), f 0 (x))dx
f :f (a)=c f :f (a)=c a
Por la aditividad de la integral tenemos que:

Z a+h Z b

J = mn ( G(x, f, f )dx + 0
G(x, f, f 0 )dx)
f :f (a)=c a a+h
Y aplicando el Principio de Optimalidad:

Z a+h

J = mn( + h, c(f ))
G(x, f, f 0 )dx + J(a
f a
con c(f ) = f (a + h). Llegado el momento haremos tender h a cero, pero primero
debemos escribir las cosas de manera apropiada. En primer lugar:
Z a+h
G(x, f, f 0 )dx = G(a, c, f 0 (a))h + o(h)
a
c(f ) = f (a + h) = c + f 0 (a)h + o(h2 )

Por lo cual:
c) = mn(G(a, c, v)h + J(a
J(a, + h, c + vh)) + o(h)
v
donde v juega el papel de f (a). Ahora, reescribiendo los trminos apropiadamente y

0
tomado lmite con h tendiendo a 0, tenemos la llamada Ecuacin de Bellman :

J f
= mn(G(a, c, v) + v )
a v c
Slo en algunos (raros) casos es posible encontrar una solucin explcita a un prob-
lema variacional. Normalmente no puede esperarse ms que una descripcin ms o
20
menos satisfactoria de la solucin a travs de una ecuacin en derivadas parciales. Eu-
ler, Lagrange, Weierstrass, Hamilton, Jacobi, Hilbert y otros importantes matemticos
abordaron estos problemas y establecieron diversas condiciones necesarias y sucientes
para diferentes tipos de problemas, todas ellas a travs de ecuaciones en derivadas
parciales que involucran a la funcin incgnita. Por falta de espacio no abordaremos
este tema en detalle. Sin embargo, llamaremos la atencin sobre un punto impor-
tante: muchas de estas condiciones clsicas, que fueron halladas, en su momento,
como consecuencia de un arduo trabajo, pueden ser deducidas fcilmente a partir de
la Ecuacin de Bellman.
3.2. Resolucin Numrica de Problemas Variacionales
Dada la enorme dicultad que implica hallar una solucin explcita de un problema
variacional, luego de la aparicin de las computadoras se ha intentado encontrar
mtodos que permitieran obtener aproximaciones numricas de las soluciones. En
esto tambin ha hecho un importante aporte la Programacin Dinmica.
Consideremos, a modo el ejemplo, el problema de la Braquistocrona, que comen-
tamos anteriormente. Tomemos dos puntos en el plano, (0, 0) y (a, b), 0 < a 0 > b.
Nuestra incgnita ser una funcin y = y(x), que para cada punto x dar la altura
correspondiente, de manera que la curva dada por (x, y(x)) ser la que describa la
trayectoria de la partcula. El funcional que debemos minimizar es el que expresa el
tiempo de la cada dada la trayectoria y , es decir:
0
1 + y 02 1
Z
J(y) = ( ) 2 dx
a 2gy
Donde g es la gravedad y la expresin (1 + y 02 ) 2 dx es el diferencial de arco. Denimos:

1
f (x, y) = tiempo de cada desde (x, y) hasta (a, b) siguiendo una trayectoria ptima.
Entonces, aplicando el Principio de Optimalidad tenemos que:

x+
1 + y 0 (s)2 1
Z
f (x, y) = mn ( ) 2 ds + f (x + , y + y 0 )
y0
x 2gy(s)
Lo cual puede aproximarse de la siguiente manera:
1 + y 02 1
f (x, y) = mn[( ) 2 + f (x + , y + y 0 )]
0 y 2gy
A diferencia de lo que suceda en el planteo formal (continuo), en este caso el valor
del incremento en la variable x es un nmero pequeo jo. Para discretizar el
21
problema, tomamos un valor para el incremento en la variable y y construimos a
partir de ellos una grilla como la que muestra la Fig.4. Nuestra solucin discreta ser
una sucesin de puntos de la grilla, empezando por el (0, 0) y terminando en el (a, b)
que, unidos, formarn una poligonal que aproxime a la solucin analtica.
Dadas las caractersticas del problema resulta natural suponer que la trayectoria
ptima estar dada por una funcin decreciente, y que no tomar puntos fuera del
rectngulo de la grilla. Hechas estas suposiciones, el problema numrico se resuelve
del siguiente modo:
Sean xi = i , i = 0, 1, ..., n = a las coordenadas x de los puntos de la grilla. Del
mismo modo denimos yj = j, j = 0, 1, ..., m = b . Lo que buscamos no es otra cosa
que un camino de costo mnimo entre los vrtices (x0 , y0 ) = (0, 0), (xn , ym ) = (a, b)
del grafo formado por los nodos de la grilla, donde las ramas unen cada punto (xi , yj )
con todos los puntos (xi+1 , yj 0 ), j 0 j .
Figura 4: Grilla
La funcin f , que ya hemos denido, es la funcin ptima del planteo de Progra-

macin Dinmica, que nos permitir establecer la recurrencia que resuelva el prob-
lema. Para ello, debemos denir el valor de f en el nodo terminal y determinar la
manera de obtener la poltica ptima, que ser la trayectoria. Lo primero es sencillo,
pues, naturalmente, f (a, b) = 0. Lo segundo requiere un pequeo esfuerzo.
Dado un nodo (xi , yj ) en la grilla, y teniendo el valor f (xi , yj ) queremos obtener
el nodo (xi+1 , yk ) que le sigue en una trayectoria ptima. En los ejemplos estudiados
hasta aqu, esto vena dado por el argumento que minimizaba f . En este caso, dicho
argumento ser un valor y 0 , correspondiente a la derivada de la trayectoria y en el
punto (xi , yj ). Basta tomar, entonces, la aproximacin de la derivada
yk yj
y0 = = (k j)
xi+1 xi
para poder conseguir el k que buscamos. As, la poltica ptima viene dada por:

k(i, j) = arg mn f (x i , y j ) +j
y0
22
4. Programacin Dinmica Estocstica
En las dos secciones anteriores, se analizaron problemas en los cuales dado un

estado y una poltica, tanto el payo (costo o ganancia segn el caso) y el estado
siguiente eran conocidos. Se podra decir entonces que se trataba de programacin
dinmica determinista. Si, en cambio, no se sabe con seguridad cuales sern estos,
y en cambio tenemos alguna funcin de distribucin de probabilidad se habla de
programacin dinmica estocstica. Las ideas bsicas de determinar los estados, las
etapas, las polticas y las ecuaciones funiconales siguen valiendo, simplemente toman
una forma distinta. La aleatoriedad que aparece introduce naturalmente a un Proceso
Estocstico. Matemticamente, un proceso estocstico se dene como un conjunto de
variables aleatorias Xt cuya distribucin vara de acuerdo a un parmetro, general-
mente el tiempo. El proceso estocstico ms sencillo es el Proceso de Markov, aqu
una pequea introduccin y los problemas de decisin asociados a estos procesos.
4.1. Procesos de Decisin Markoviana
Procesos de Markov
Consideremos un sistema que en cualquier tiempo determinado est en uno de

un nmero nito de estados i = 1, 2, ..., N , y asumamos que en tiempos discretos
t = 0, 1, ... el sistema cambia aleatoriamente de un estado a otro. Las transiciones de
un estado a otro se rigen por una matriz de transicin P = (pij ) donde pij = es la
probabilidad de que el sistema est en el estado j al tiempo t + 1 dado que estaba en
el estado i en el tiempo t (i, j = 1, 2, ...N )
Consideramos aqu el caso en el que la matriz P no depende del tiempo, que es el
caso ms interesante de estudiar. Sean las siguientes funciones:
xt (i) = la probabilidad de que el sistema est en el estado i en el tiempo t
Con i = 1, 2, ..., N y t = 0, 1, .... Un sencillo anlisis de probabilidades nos d:
N
X
xt+1 (j) = pij xt (i) x0 (i) = ci j = 1, ..., N.
i=1
La teora de los procesos de Markov se dedica a estudiar el comportamiento asin-

ttico de las funciones xt (i) cuando t . Si todas las pij son positivas, no es difcil
probar que estas funciones convergen a unas xi que satisfacen la ecuacin:
N
X
x(j) = pij x(i) j = 1, ..., N.
i=1
23
Lo sorprendente es que los valores en el lmite son independientes a los valores iniciales
x0 (i).
Problemas de Decisin
Extendamos ahora el concepto de un proceso a situaciones ms generales en las

cuales se toman decisiones en cada etapa. Supongamos que en cada tiempo la matriz
de transicin puede ser elegida entre un conjunto de tales matrices, y notemos a la
matriz correspondiente a una poltica y como P (y) = (pij (y)). Supongamos tambin
que no slo hay un cambio de estado en cada etapa, pero tambin un retorno, que
es una funcin que depende del estado inicial, del nal y de la decisin. Sea R(y) =
(rij (y)) la matriz de retornos. Un proceso de este tipo se llama un Proceso de Decisin
Markoviana. El problema es elegir una secuencia de decisiones que maximicen el
retorno esperado que se obtiene de un proceso de N etapas, dado el estado inicial.
Formulacin Matemtica
Usemos tcnicas de programacin dinmica para obtener una formulacin analti-

ca para el problema de decisin markoviana. Para i = 1, 2, ...N y n = 0, 1, ... sea
f (i, n) =retorno esperado de un proceso de n etapas, empezando en el estado i usan-
do una poltica ptima. Notemos que n representa la longitud del proceso, a diferencia
de t, que era usada antes para denotar el tiempo. El principio de optimalidad da como
consecuencia la ecuacin funcional:
N
X
f (i, n) = max pij (rij (y) + f (j, n 1)) (i = 1, 2, ..., N ) (n = 1, 2, ...)
y
j=1
f (i, 0) = 0 (i = 1, 2, ..., N )
Una poltica ptima consiste de un vector (yn (1), yn (2), ..., yn (N ))
Veamos algunos simples ejemplos en los cuales se introduce la aleatoridad y cmo
se resuelven mediante la programacin dinmica.5
4.2. Ejemplos de Retorno Incierto
4.2.1. Distribucin de un Producto
Consideremos una cadena de supermercados que ha adquirido 6 litros de leche de

un distribuidor local. La cadena debe distribuir los 6 litros entre sus 3 mercados. Si
un mercado vende un litro de leche la cadena recibe una ganancia de $2. Por cada
5 Los ejemplos estn basados en [7]
24
litro de leche sin vender la cadena slo gana $0.50. Desafortunadamente, la demanda
de leche es incierta y est dada por la siguiente tabla:
Mercado Cant. de Litros Probabilidad
1 0.6
1 2 0
3 0.4
1 0.5
2 2 0.1
3 0.4
1 0.4
3 2 0.3
3 0.3
El objetivo de la cadena es maximizar la ganancia (su esperanza) a partir de los
6 litros de leche.
Notemos que es un problema similar a los que tenamos anteriormente, la diferencia
es que no conocemos la ganancia con certeza. Podemos, sin embargo, determinar
la ganancia esperada para cada entrega de leche en un mercado. Por ejemplo, la
ganancia esperada de entregar 2 litros en el marcado 1 es 0.6(2.5)+0.4(4)=3.1 ya que
la probabilidad de que demanden 1 litro es 0,6 y en este caso se ganarn $2 por ese
litro vendido ms los $0.50 del que qued sin vender. La que demanden 2 litros es 0.
Y la que demanden 3 es $0.4 y de este modo se ganan los $4. Podemos hacer esta
misma cuenta para todas las posibilidades (omitimos la posibilidad de entregar ms
de 3 litros en un mercado pues tiene probabilidad 0):
Mercado Cant. de Litros Ganancia esperada
1 2
1 2 3.1
3 4.2
1 2
2 2 3.25
3 4.35
1 2
3 2 3.4
3 4.35
Ahora tenemos un problema determinstico. Un estado en este caso ser un par
(i, k) que representa que al mercado i se le entregan k litros. Sea c(i, k)=ganancia
esperada al entregar k litros al mercado i (con c(i, k) = c(i, 3) si 4 k 6). Si
llamamos f (i, k) a la ganancia esperada mxima llegamos a la ecuacin funcional:
25
f (3, k) = c(3, k) (0 k 6)
f (i, k) = max c(i, y) + f (i + 1, k y) (i = 1, 2) (0 k 6)

0yk
Y llamamos y(i, k) al y que maximiza en cada caso. La poltica ptima ser:

y1 = y(1, 6); y2 = y(2, 6 y1 ); y3 = y(3, 6 y1 y2 )
Haciendo las cuentas, en este ejemplo, y de la misma manera que uno haca en el caso
determinista, se llega a que la mxima ganancia esperada ser de 9,75, asignando 1
litro al primer mercado, 3 al segundo y 2 al tercero.
4.2.2. Valuacin de una Opcin
Opciones
Un problema comn en el mbito de las nanzas es el de la valuacin de una

opcin. Una opcin call europea (la ms simple de todas) es un contrato entre dos
partes que cumple las siguientes condiciones: En un tiempo T predeterminado en el
futuro llamado tiempo de expiracin, el portador puede (de aqu la palabra opcin)
comprar al escritor un predeterminado activo S (por ejemplo, una accin), llamado
activo subyacente, o simplemente subyacente por una cantidad predeterminada K ,
llamado el precio de ejercicio. Otro tipo de opcin es la llamada opcin americana,
que a diferencia de la europea, uno puede ejercer la opcin no solo en el tiempo de
ejercicio, sin en cualquier tiempo entre el inicio del contrato y ste. En teora se
piensa en el tiempo como un continuo, pero en la prctica se discretiza. Se llama el
payo de la opcin, al retorno de la misma en T . En el caso de las call europea y
americana es max{0, S K}. Pues si S K > 0 entonces uno ejerce la opcin pagando
K y luego vende el activo a S lo que representa una ganancia de S K . En el caso
que S K 0 no conviene ejercer la opcin, pues se perdera K S y la opcin no
tiene valor.6
Ejemplo
Supongamos que tenemos la opcin de comprar una accin de una empresa a

$150. Podemos ejercer la opcin en cualquier da en los prximos 10 das. Notemos
que es una opcin call americana. El precio actual de la accin es de $140. Tenemos de
antemano un modelo, muy precario por cierto, del movimiento de la accin que dice
6 Ver [10] para ms informacin sobre valuacin de opciones
26
lo siguiente: Sube $2 con probabilidad 0.4 baja $2 con probabilidad 0.5 y se queda
igual con probabilidad 0.1. El valor de la opcin, si la ejercemos con precio S ser
S 150. Notemos que solamente ejerceremos la opcin si el precio de ejercicio supera
los 150. Podemos formular este problema con programacin dinmica de la siguiente
manera: Para cada da tendremos un estado i. El estado ser el precio de la accin
ese da. Sea f (i, S) la mxima ganancia esperada ejerciendo la opcin en el da i dado
que el valor de la accin es S .
Entonces, usando herramientas de programacin dinmica, la decisin ptima est
dada por:
f (i, S) = max{S 150, 0,4f (i + 1, S + 2), 0,1f (i + 1, S), 0,5f (i + 1, (S 2)},
(1 i T 1) (140 2S10 S 140 + 2S10)

f (10, S) = max{0, S 150} (140 2S10 S 140 + 2S10)
27
Referencias
[1] Bell, E.T ; Los Grandes Matemticos.

[2] Bellman, Richard y Dreyfus, Stuart ; Applied Dynamic Programming ;
Princeton University Press, New Jersey, 1962.
[3] Dreyfus, Stuart ; Dynamic Programming and the Calculos of Variations ; Aca-
demic Press, New York,1965.
[4] Koo, Delia ; Elements of Optimization (With Applications in Economics and
Business) ; Heildelberg Science Library, New York, 1977.
[5] Neimhauser, George ; Integer and Combinatorial Optimization ; Wiley, New
York, 1988.
[6] Sasieni, M., Yaspan, A., Friedman L. ; Investigacin de Operaciones. Mto-
dos y Problemas ; AID, Mxico, 1967.
[7] Trick, Michael ; A Tutorial on Stochastic Dynamic Programming,
http://mat.gsia.cmu.edu/
[8] Ventsel, Elena ; Investigacin de Operaciones. Problemas, principios,
metodologa ; Editorial Mir, Mosc, 1983.
[9] Vicentini, Fabio , Notas de Optimizacin
[10] Wilmott, P., Howiston S., Deweynne J.; The Mathematics of Finantial
Derivatives. A Student Introduction ; Cambridge University Press, 1995
28

Maurette Ojea PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Maurette Ojea PDF

Cargado por

Copyright:

Formatos disponibles

Programacin Dinmica

Manuel Maurette e Ignacio Ojea

Nuestro reconocimiento a la Dra. Susana Puddu, por su compromiso con la labor

1.1. Resumen del Trabajo . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

2. Programacin Dinmica Discreta 3

2.1. El Problema del Camino de Mnimo Costo . . . . . . . . . . . . . . . 3

3. Aplicacin al Clculo de Variaciones 19

3.1. El Planteo Formal con Programacin Dinmica . . . . . . . . . . . . 20

4. Programacin Dinmica Estocstica 23

1.1. Resumen del Trabajo

La Programacin Dinmica es un mtodo de optimizacin de extraordinaria ver-

Durante la Segunda Guerra Mundial la investigacin matemtica se extendi hacia

2.1. El Problema del Camino de Mnimo Costo

Llamamos grafo a un par de conjuntos V y E , de los cuales el primero contiene

Figura 1: Ejemplo de Grafo

En un grafo dirigido un camino del vrtice u al vrtice v es una sucesin de ramas

2.1.3. El planteo con Programacin Dinmica

Sea V0 el conjunto de todos los vrtices terminales de G. Consideremos ahora el

Puesto que la cantidad de vrtices es nita, existe un n para el cual V = ni=0 Vi , y

u v v2 ... vk1 vk vk terminal

es un camino ptimo partiendo del vrtice u, entonces, necesariamente,

Adems, para cualquier otro w tal que u w tendremos:

Lo cual nos conduce a establecer la siguiente ecuacin funcional :

Consideramos ahora la poltica ptima, esto es, la funcin p : V \ V0 V \ Vn

La ecuacin funcional nos permite encontrar f y p recursivamente y de atrs para

Luego, si u V1 y u w entonces w V0 . Por lo tanto:

p(u) = arg mn c(u, w) + f (w) = arg mn c(u, w) u V1

Y as, habiendo calculado f (u) u j=0 Vj se tiene que:

f (u) = mn c(u, w) + f (w) u Vi

Consideremos el grafo de la Fig. 2. El problema es hallar el camino ptimo desde

Figura 2: Hallar el camino de mnimo costo.

En primer lugar, podemos denir los Vi fcilmente:

2.2. El mtodo general

El problema de hallar el camino de costo mnimo en un grafo dirigido es un caso

Figura 3: Problema de Control

Siguiendo esta idea, tenemos que, si llamamos d a la poltica utilizada, comenzando

Continuando con la analoga, llamamos fd a la funcin que asigna a cada estado

2.2.1. Principio de optimalidad

f (ut ) = c(ut , d(ut )) + f (T (ut , d(ut )))

Al igual que en el ejemplo, el Principio de Optimalidad permite establecer la

f (u) = mn c(u, d(u)) + fd (T (u, d(u)))

A partir de esta ecuacin, puede resolverse el problema de manera recursiva, de

Seguramente la mayor dicultad que se presenta al encarar la resolucin de un

Supongamos que contamos con una cierta cantidad (limitada) de un determinado

Sea P la cantidad de dinero con la que contamos. Numeremos 1, 2, ..., N a las

G(x1 , x2 , ..., xN ) = g1 (x1 ) + g2 (x2 ) + ... + gN (xN )

Sujetos a las condiciones:

La formulacin con Programacin Dinmica

f (k, z) = max gk (xk ) + f (k + 1, z xk )

A partir de aqu, para k = N 1, N 2, ..., 1 y para z = 1, 2, ..., P utilizamos la

p(k, z) = arg mn gk (xk ) + f (k + 1, z xk )

Contemos el nmero de operaciones que hacen falta para completar la recursin.

2.3.2. Multiplicacin de Matrices

Se tienen N matrices A1 , A2 , ..., AN y N + 1 nmeros naturales r0 , ..., rN tales que

Observamos que el nmero de operaciones necesarias para calcular (A1 A2 )A3 no es

(A1 A2 ...Ak )(Ak+1 Ak+2 ...An )

resulte ptima. Y luego de esto, queremos encontrar un k 0 y un k 00 que optimicen

2.3.3. El Problema de la Carga

Si la variable xi designa la cantidad de unidades del artculo i que se pondr en

Para plantear este problema por programacin dinmica, supondremos que la

Tambin de manera anloga al caso de la Asignacin de un Recurso denimos la

x(i, z) = arg maxz vi x + f (i + 1, z pi x)

La funcin x es la poltica ptima que nos permite reconstruir la solucin:

Puesto que la cantidad de vrtices es nita, existe un n para el cual V = ni=0 Vi , y

En primer lugar, podemos denir los Vi fcilmente:

Seguramente la mayor dicultad que se presenta al encarar la resolucin de un

Tambin de manera anloga al caso de la Asignacin de un Recurso denimos la

Tomemos un problema general de optimizacin denido del siguiente modo: sean

Donde g es la gravedad y la expresin (1 + y 02 ) 2 dx es el diferencial de arco. Denimos:

La funcin f , que ya hemos denido, es la funcin ptima del planteo de Progra-

Un problema comn en el mbito de las nanzas es el de la valuacin de una