Está en la página 1de 10

PROGRAMACIN DINMICA PROBABILSTICA

Wilson Said Martnez Navarro


Martn Silgado
Oscar Hoyos

Prof.: Ing. Esp. Fredy Martnez

Universidad de Crdoba
Facultad de Ingenieras
Programa de Ingeniera Industrial
Investigacin de Operaciones III
VII Semestre
Montera Crdoba
2011

PROGRAMACIN DINMICA PROBABILSTICA

La programacin dinmica probabilstica (PDP) es una tcnica matemtica til


para la toma de decisiones interrelacionadas, se presenta cuando el estado en la
siguiente etapa no est determinado por completo por el estado y la poltica de
decisin de la etapa actual. En su lugar existe una distribucin de probabilidad
para determinar cul ser el siguiente estado. Sin embargo, esta distribucin de
probabilidad s queda bien determinada por el estado y la poltica de decisin en la
etapa actual.
Por otro lado, cabe resaltar, qu; cuando el estado en la siguiente etapa est
determinado por completo por el estado y la poltica de decisin de la etapa actual,
entonces este problema corresponde a programacin dinmica determinstica
(PDD).
A continuacin se ilustra la estructura bsica de la PDD y la PDP.
Etapa

Etapa

+1
Estado:
Contribucin de
Valor:

( ,

PDD (Figura 1)

Contribucin
de la etapa

Probabilidad
Decisin

Estado:
( ,

+1

Etapa

Etapa

(1)
2

(2)

PDP (Figura 2)

( )

En la Programacin dinmica (Sea PDD PDP), se utiliza una relacin recursiva


que identifica la poltica ptima para la etapa , dada la poltica ptima para la
etapa + 1. La forma precisa de la relacin recursiva difiere de un problema a otro
de PD (Sea PDD PDP), pero se usa una notacin general como se resume a
continuacin:
: Nmero de etapas.
: Etiqueta para la etapa actual ( = 1,2, ).
: Estado actual para la etapa .
: Variable de decisin para la etapa .
: Valor ptimo de
(Dado ).
( , ): Contribucin a la funcin objetivo de la etapas , + 1 , , , si el
sistema se encuentra en el estado
en la etapa , la decisin inmediata es
y
en adelante se toman decisiones ptimas.
=
( , )
La relacin recursiva siempre tendr la forma:
(

)=

)}

)=

)}

) y tal vez alguna


En donde ( , ) se escribe en trminos de , , (
medida de la contribucin inmediata de
a la funcin objetivo, Lo que hace que
)
la expresin para ( ) sea una relacin recursiva, es la inclusin de (
(
( )
).
en el lado derecho, de manera que
est definida en trminos de
La relacin recursiva recurre constantemente a las etapas posteriores conforme se
trabaja hacia atrs una etapa a la vez. Cuando el nmero de la etapa actual
disminuye su valor en 1, la nueva funcin ( ) se obtiene usando la funcin
(
) que se obtuvo en la iteracin anterior, despus el proceso se repite
cada nueva iteracin

Hay que tener en cuenta las caractersticas bsicas que distinguen los problemas
de programacin dinmica (Sea PDD PDP), las cuales son:

1. El problema se puede dividir en etapas que requieran una poltica de decisin


en cada una de ellas.
2. Cada etapa tiene cierto nmero de estados asociados con su inicio.
3. El efecto de la poltica de decisin en cada etapa es transformar el estado
actual en un estado asociado con el inicio de la siguiente etapa (Quiz segn con
una distribucin de probabilidad).

4. El procedimiento de solucin est diseado para encontrar una poltica ptima


para el problema completo, es decir, una receta para la poltica de decisin ptima
en cada etapa para cada uno de los estados posibles.
5. Dado el estado actual, una poltica ptima para las etapas restantes es
independiente de la poltica adoptada en etapas anteriores. Por lo tanto, la
decisin inmediata ptima depende solo del estado actual y no de cmo se lleg
ah. ste es el principio de optimalidad para programacin dinmica (Sea PDD
PDP).
6. El procedimiento de solucin se inicia al encontrar la poltica ptima para la
ltima etapa
7. Se dispone de una relacin recursiva que identifica la poltica ptima para la
etapa , dada la poltica ptima para la etapa + 1.
8. Cuando se usa esta relacin recursiva, el procedimiento de solucin comienza
al final y se mueve hacia atrs, etapa por etapa (Encuentra cada vez la poltica
ptima para esa etapa) hasta que encuentra la poltica ptima desde la etapa
inicial. Esta poltica ptima lleva de inmediato a una solucin ptima para el
problema completo, a saber, para el estado inicial , despus para el estado
que resulta, luego para el estado
que se obtiene, y as sucesivamente

hasta
para el estado
resultante.

En la ilustracin de la PDP de la Figura 2, sea el nmero de estados posibles en


la etapa + 1, estos estados en el lado derecho estn representados por 1, 2, . .
El sistema cambia al estado con probabilidad ( = 1 ,2 ) dados el estado
y la decisin
en la etapa . Si el sistema cambia al estado ,
es la
contribucin de la etapa a la funcin objetivo.
Cuando se expande la ilustracin de la PDP en la Figura 2 para incluir todos los
estados y las decisiones posibles en todas las etapas, se obtiene lo que con
frecuencia se conoce como rbol de decisin. Si este rbol de decisin no es
muy grande, proporciona una forma til de resumir estas posibilidades.
), es un
Debido a la estructura probabilstica, la relacin entre ( , ) y (
poco complicada. La forma exacta de esta relacin depender de la forma global
de la funcin objetivo.
Para explicar lo anterior, con relacin a la ilustracin de la PDP de la Figura 2, se
supone que el objetivo es minimizar la suma esperada de las contribuciones de las
etapas individuales. En este caso, ( , ) representa la suma esperada mnima
de la etapa en adelante, dado que en la etapa , el estado es
y la poltica de
decisin es .

En consecuencia:
( ,

)=

( )]

Con:

( )=

(,

Donde la minimizacin se toma sobre todos los valores factibles de

Ejemplo 1:
(Ejercicio propuesto 11.4-2 del libro Investigacin de operaciones - Hiller,
Frederick S. Lieberman, Gerald J. )
Imagine que tiene $ 5.000 para invertir y que tendr la oportunidad de hacerlo en
cualquiera de dos inversiones (A B) al principio de cada uno de los prximos
aos. Existe incertidumbre respecto al rendimiento de ambas inversiones. Si se
invierte en A, se puede perder todo el dinero o (con probabilidad ms alta) obtener
$ 10.000 (una ganancia de $ 5.000) al final del ao. Si se invierte en B, se pueden
obtener los mismos $ 5.000 (con probabilidad ms baja) $ 10.000 al terminar el
ao. Las probabilidades para estos eventos son las siguientes:

Inversin

A
B

Cantidad
Probabilidad
obtenida ($)

0
10000
5000
10000

0.3
0.7
0.9
0.1

Se le permite hacer (a lo sumo) una inversin al ao y slo puede invertir $ 5000


cada vez. (Cualquier cantidad de dinero acumulada queda intil).
a) Utilice programacin dinmica para encontrar la poltica de inversin que
maximice la cantidad de dinero esperada que tendr despus de los tres aos.
b) Utilice programacin dinmica para encontrar la poltica de inversin que
maximice la probabilidad de tener por lo menos $ 10000 despus de los tres aos.

Solucin a)
Sea
la inversin realizada en el ao , esto es,
= 0, , .
Sea la cantidad de dinero en la mano al inicio del ao.
Sea ( , ) la cantidad mxima prevista de dinero al final del tercer ao, dado
y
en el ao .
( ,

5000

Para

)=

( )

=0

0.3

0.9

( ) + 0.1

5000) + 0.7

( , )= ( )y
Para 0 < 5000
(No se puede invertir menos de $ 5000)

+ 5000)

+ 5000)

=
=

=0

Comenzando el procedimiento tenemos:


=3
(

< 5000
5000

0
+ 2000

=2
( ,

0
0
5000

< 5000

< 10000

10000

+ 2000

+ 3400

+ 2500

+ 3400

+ 2000

+ 4000

+ 2500

+ 4000

=1
( ,

0
5000 8400 9800 8150

9800

Por tanto la poltica ptima es invertir siempre en A, con una fortuna de espera
despus de tres aos de $ 9800.

Solucin b)
Sea
la inversin realizada en el ao , esto es,
= 0, , .
Sea la cantidad de dinero en la mano al inicio del ao.
Sea ( , ) la probabilidad mxima de tener al menos $ 10000 despus de tres
aos, dado y .

=3

< 5000

0
0

( ,

5000

< 10000

10000

< 15000 1 0.7

15000

0 0.7 0.1

1 1

0.7

0
0,

=2
( ,
0
5000

< 5000

0
0

< 10000 0.7

10000

0.7

0.73

0.73

0.73

=3
( , )
0
5000 0.73 0.7 0.757

0.757

Por lo tanto las polticas ptimas son (Con los nmeros en los arcos para
representar el retorno de la inversin).
Ao 1

Ao 2

Ao 3
A
5000

5000

B
10000

B
10000

10000

O tambin:

A
5000
5000

B
10000

0B

B
10000

10000
15000

0, A B

Y la mxima probabilidad de tener al menos $ 10000 al final de tres aos es 0.757

CONCLUSIN

La programacin dinmica (Sea PDD PDP) es una tcnica muy til para tomar
una sucesin de decisiones interrelacionadas. Requiere la formulacin de una
relacin recursiva apropiada para cada problema individual. Sin embargo,
proporciona grandes ahorros computacionales en comparacin con la
enumeracin exhaustiva para encontrar la mejor combinacin de decisiones, en
especial cuando se trata de problemas grandes. Por ejemplo, si un problema tiene
10 etapas con 10 estados y 10 decisiones posibles en cada etapa, la enumeracin
exhaustiva tendra que considerar hasta 1010 combinaciones, mientras que la
programacin dinmica (Sea PDD PDP) necesita hacer cuando mucho 103
clculos (10 para cada estado en cada etapa).

BIBLIOGRAFA

Investigacin de operaciones - Hiller, Frederick S. Lieberman, Gerald J.

También podría gustarte