Programacion Dinamica Probabilistica V

Programación Dinámica
PROGRAMACIÓN DINÁMICA
 CARACTERISTICAS DE LA PROGRAMACIÓN DINÁMICA
Puede definirse como una técnica matemática para la solución de una serie de
decisiones en secuencia. Hay que tomar una secuencia de decisiones con cada
una de ellas que afecte las decisiones futuras. Por consiguiente, el ejecutivo se
enfrenta a situaciones que requieren que tome una serie de decisiones, en las
que el buen éxito de cada una, depende de los resultados de una decisión
previa de la misma serie.
Además de la característica esencial de la toma de decisiones en secuencia,

los problemas de programación dinámica tienen otras propiedades. Solo hay
que conocer una pequeña cantidad de datos en cada etapa, a fin describir el
problema. En realidad los problemas de programación dinámica se caracterizan
por la dependencia del resultado de las decisiones de una pequeña cantidad de
variables. Otra característica es que, en cualquier etapa, el resultado de una
decisión altera los valores de las variables relacionadas con el problema. Por lo
tanto, habrá que considerar el mismo numero de variables para la siguiente
serie.
En un problema de programación dinámica, hay que tomar una serie de decisiones en
una secuencia determinada. Cuando se hace así, se persigue una política óptima, sin
que importe cuales hayan sido los estados y decisiones anteriores, las decisiones
restantes constituirán una política óptima con respecto al estado que se obtenga con
la primera decisión.
 ESTRUCTURA DE LA PROGRAMACIÓN DINÁMICA
La programación dinámica comparte algunos conceptos con otros métodos

cuantitativos. El primer concepto es el de una variable de estado, cuyos valores
especifican las condiciones las condiciones del proceso. Los valores de esas variables
nos dicen todo lo que necesitamos saber sobre el sistema, a fin de tomar decisiones.
Por ejemplo, en un problema de producción, podríamos requerir variables de estado
que se relacionen con la capacidad de fabricas y los inventarios actuales. Hay que
recordar que el numero de variables de estado puede ser muy grande. Sin embargo,
la dificultad para resolver un problema aumenta considerablemente con un número
creciente de variables, y por lo tanto es conveniente reducir al mínimo el número de
variables de estado.
En la estructura de un problema de programación dinámica, se incluye el concepto de
una “decisión”, que es una oportunidad para cambiar las variables de estado en una
forma probabilística. Las retribuciones generadas por cada decisión dependen de los
estados de principio y de fin de la misma, y de ese modo se convierten en una
secuencia de decisiones. La tarea inmediata consiste en tomar decisiones que
aumenten al máximo las retribuciones totales. Pág. 354
Programación Dinámica
Probabilística
Modelos Probabilísticos
18 Enero 2010
Contenido
• Introducción
• Un juego de azar
• Referencias
Introducción
• La programación dinámica probabilística (PDP)
difiere de la programación dinámica
determinística (PDD) en que
– Las condiciones y resultados en cada etapa no son

fijos, sino que tienen un componente de aleatoriedad
– Se hace uso de conceptos de probabilidad en la

obtención de su solución
• Presentaremos la PDP mediante algunos

problemas prototipo
Un juego de azar
• Una variante del juego de ruleta requiere que
se gire una rueda marcada con los números
de 1 a n
• La probabilidad de que la rueda se detenga
en un número i después de hacerla girar es pi
• Un jugador paga $x para tener derecho a
girar la rueda hasta m veces
• El jugador obtiene como ganancia el doble
del número que obtiene cuando gira por
última vez
• Suponiendo que el juego se repite un número
grande de veces, queremos diseñar una
estrategia óptima para el jugador
Planteamiento general
• Para poner el problema en términos de PD,
consideremos lo siguiente:
– La etapa i corresponde a la i-ésima vuelta de la

rueda, i = 1, 2, …, m
– En cada etapa hay dos alternativas: se gira la

rueda una vez más o se termina el juego
– El estado j del sistema en la etapa i es el número

que se obtuvo la última vez que se giró la rueda,
el cual está entre 1 y n
• Sea fi(j) = Ganancia máxima esperada
dado que el juego está en la etapa i y
que el resultado de la última vuelta fue
j, entonces
2 j , si termina
f i  j   max  n
 k 1 pk fi 1  k , si continúa
• La ecuación recursiva es entonces
f m 1  j   2 j
2 j , si termina
f i  j   max  n , i  2,..., m
 k 1 pk fi 1  k , si continúa
n
f1  0    pk f 2  k 
k 1
• Los cálculos comienzan con fm+1 y
terminan con f1, de modo que hay m+1
etapas
• f1(0) representa el rendimiento
esperado de las m vueltas, así que el
rendimiento esperado neto, Rn, es
Rn  f1  0   x
Ejemplo
• Supongamos que la ruleta está marcada con los
números 1 a 5 y que las probabilidades de que
se detenga en cada número son p1 = 0.30, p2 =
0.25, p3 = 0.20, p4 = 0.15, p5 = 0.10
• El jugador paga $5 por un máximo de cuatro

vueltas
• Determine la estrategia óptima para cada una

de las cuatro vueltas y encuentre el rendimiento
esperado neto asociado
Ejemplo
Etapa 4 f4(j) = 2j
Resultado de la
vuelta 4 Solución óptima
j f4(j) Decisión
1 2 Terminar
2 4 Terminar
3 6 Terminar
4 8 Terminar
5 10 Terminar
f3(j) = max{2j,
Etapa 3 Suma(pkf4(k))}
= max{2j,5}
Resultado de la Rendimiento Solución

vuelta 3 esperado óptima
j Terminar Girar f3(j) Decisión
1 2 5 5 Girar
2 4 5 5 Girar
3 6 5 6 Terminar
4 8 5 8 Terminar
5 10 5 10 Terminar
f2(j) = max { 2j,
Etapa 2 Suma(pkf3k)) }
= max { 2j, 6.15 }

Resultado de la vuelta
2 Rendimiento esperado Solución óptima
1 2 6.15 6.15 Girar
2 4 6.15 6.15 Girar
3 6 6.15 6.15 Girar
4 8 6.15 8 Terminar
5 10 6.15 10 Terminar
f1(j) = max{2j,
Etapa 1 Suma(pkf2(k))}
= max{2j,6.8125}
Resultado de la vuelta 1 Rendimiento esperado Solución óptima
1 2 6.8125 6.8125 Girar
2 4 6.8125 6.8125 Girar
3 6 6.8125 6.8125 Girar
4 8 6.8125 8 Terminar
5 10 6.8125 10 Terminar
• En la etapa 1 debe girar. Su ganancia esperada es de 7.31

Vuelta número Estrategia óptima
Continúe si la vuelta 1 produce 1,2, o 3; de

1 otra forma, termine
Continúe si la vuelta 2 produce 1, 2 o 3; de

otra forma, termine
2
Continúe si la vuelta 3 produce 1 o 2. De

3 otra forma, termine
4 Ultima vuelta, termina el juego.

Referencias
• Taha, Hamdy A. Investigación de

operaciones. Una introducción. Pearson
Educación. 6ª edición. México, 1997

Programacion Dinamica Probabilistica V

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Programacion Dinamica Probabilistica V

Cargado por

Copyright:

Formatos disponibles

Programación Dinámica

Además de la característica esencial de la toma de decisiones en secuencia,

 ESTRUCTURA DE LA PROGRAMACIÓN DINÁMICA

La programación dinámica comparte algunos conceptos con otros métodos

– Las condiciones y resultados en cada etapa no son

– Se hace uso de conceptos de probabilidad en la

• Presentaremos la PDP mediante algunos

– La etapa i corresponde a la i-ésima vuelta de la

– En cada etapa hay dos alternativas: se gira la

– El estado j del sistema en la etapa i es el número

• El jugador paga $5 por un máximo de cuatro

• Determine la estrategia óptima para cada una

Resultado de la Rendimiento Solución

j Terminar Girar f3(j) Decisión

= max { 2j, 6.15 }

j Terminar Girar f3(j) Decisión

1 2 6.15 6.15 Girar

2 4 6.15 6.15 Girar

3 6 6.15 6.15 Girar

Resultado de la vuelta 1 Rendimiento esperado Solución óptima

j Terminar Girar f2(j) Decisión

1 2 6.8125 6.8125 Girar

2 4 6.8125 6.8125 Girar

3 6 6.8125 6.8125 Girar

• En la etapa 1 debe girar. Su ganancia esperada es de 7.31

Continúe si la vuelta 1 produce 1,2, o 3; de

Continúe si la vuelta 2 produce 1, 2 o 3; de

Continúe si la vuelta 3 produce 1 o 2. De

4 Ultima vuelta, termina el juego.

• Taha, Hamdy A. Investigación de

También podría gustarte