Está en la página 1de 18

Programación Dinámica

PROGRAMACIÓN DINÁMICA
 CARACTERISTICAS DE LA PROGRAMACIÓN DINÁMICA

Puede definirse como una técnica matemática para la solución de una serie de
decisiones en secuencia. Hay que tomar una secuencia de decisiones con cada
una de ellas que afecte las decisiones futuras. Por consiguiente, el ejecutivo se
enfrenta a situaciones que requieren que tome una serie de decisiones, en las
que el buen éxito de cada una, depende de los resultados de una decisión
previa de la misma serie.

Además de la característica esencial de la toma de decisiones en secuencia,


los problemas de programación dinámica tienen otras propiedades. Solo hay
que conocer una pequeña cantidad de datos en cada etapa, a fin describir el
problema. En realidad los problemas de programación dinámica se caracterizan
por la dependencia del resultado de las decisiones de una pequeña cantidad de
variables. Otra característica es que, en cualquier etapa, el resultado de una
decisión altera los valores de las variables relacionadas con el problema. Por lo
tanto, habrá que considerar el mismo numero de variables para la siguiente
serie.
En un problema de programación dinámica, hay que tomar una serie de decisiones en
una secuencia determinada. Cuando se hace así, se persigue una política óptima, sin
que importe cuales hayan sido los estados y decisiones anteriores, las decisiones
restantes constituirán una política óptima con respecto al estado que se obtenga con
la primera decisión.

 ESTRUCTURA DE LA PROGRAMACIÓN DINÁMICA

La programación dinámica comparte algunos conceptos con otros métodos


cuantitativos. El primer concepto es el de una variable de estado, cuyos valores
especifican las condiciones las condiciones del proceso. Los valores de esas variables
nos dicen todo lo que necesitamos saber sobre el sistema, a fin de tomar decisiones.
Por ejemplo, en un problema de producción, podríamos requerir variables de estado
que se relacionen con la capacidad de fabricas y los inventarios actuales. Hay que
recordar que el numero de variables de estado puede ser muy grande. Sin embargo,
la dificultad para resolver un problema aumenta considerablemente con un número
creciente de variables, y por lo tanto es conveniente reducir al mínimo el número de
variables de estado.
En la estructura de un problema de programación dinámica, se incluye el concepto de
una “decisión”, que es una oportunidad para cambiar las variables de estado en una
forma probabilística. Las retribuciones generadas por cada decisión dependen de los
estados de principio y de fin de la misma, y de ese modo se convierten en una
secuencia de decisiones. La tarea inmediata consiste en tomar decisiones que
aumenten al máximo las retribuciones totales. Pág. 354
Programación Dinámica
Probabilística

Modelos Probabilísticos
18 Enero 2010
Contenido
• Introducción
• Un juego de azar
• Referencias
Introducción
• La programación dinámica probabilística (PDP)
difiere de la programación dinámica
determinística (PDD) en que

– Las condiciones y resultados en cada etapa no son


fijos, sino que tienen un componente de aleatoriedad

– Se hace uso de conceptos de probabilidad en la


obtención de su solución

• Presentaremos la PDP mediante algunos


problemas prototipo
Un juego de azar
• Una variante del juego de ruleta requiere que
se gire una rueda marcada con los números
de 1 a n
• La probabilidad de que la rueda se detenga
en un número i después de hacerla girar es pi
• Un jugador paga $x para tener derecho a
girar la rueda hasta m veces
• El jugador obtiene como ganancia el doble
del número que obtiene cuando gira por
última vez
• Suponiendo que el juego se repite un número
grande de veces, queremos diseñar una
estrategia óptima para el jugador
Planteamiento general
• Para poner el problema en términos de PD,
consideremos lo siguiente:

– La etapa i corresponde a la i-ésima vuelta de la


rueda, i = 1, 2, …, m

– En cada etapa hay dos alternativas: se gira la


rueda una vez más o se termina el juego

– El estado j del sistema en la etapa i es el número


que se obtuvo la última vez que se giró la rueda,
el cual está entre 1 y n
Planteamiento general
• Sea fi(j) = Ganancia máxima esperada
dado que el juego está en la etapa i y
que el resultado de la última vuelta fue
j, entonces
2 j , si termina
f i  j   max  n
 k 1 pk fi 1  k , si continúa
Planteamiento general
• La ecuación recursiva es entonces
f m 1  j   2 j

2 j , si termina
f i  j   max  n , i  2,..., m
 k 1 pk fi 1  k , si continúa

n
f1  0    pk f 2  k 
k 1
Planteamiento general
• Los cálculos comienzan con fm+1 y
terminan con f1, de modo que hay m+1
etapas
• f1(0) representa el rendimiento
esperado de las m vueltas, así que el
rendimiento esperado neto, Rn, es
Rn  f1  0   x
Ejemplo
• Supongamos que la ruleta está marcada con los
números 1 a 5 y que las probabilidades de que
se detenga en cada número son p1 = 0.30, p2 =
0.25, p3 = 0.20, p4 = 0.15, p5 = 0.10

• El jugador paga $5 por un máximo de cuatro


vueltas

• Determine la estrategia óptima para cada una


de las cuatro vueltas y encuentre el rendimiento
esperado neto asociado
Ejemplo

Etapa 4 f4(j) = 2j

Resultado de la
vuelta 4   Solución óptima

j   f4(j) Decisión

1   2 Terminar

2   4 Terminar

3   6 Terminar

4   8 Terminar

5   10 Terminar
f3(j) = max{2j,
Etapa 3 Suma(pkf4(k))}

= max{2j,5}

Resultado de la Rendimiento Solución


vuelta 3   esperado   óptima

j   Terminar Girar   f3(j) Decisión

1   2 5   5 Girar

2   4 5   5 Girar

3   6 5   6 Terminar

4   8 5   8 Terminar

5   10 5   10 Terminar
f2(j) = max { 2j,
Etapa 2 Suma(pkf3k)) }

= max { 2j, 6.15 }


Resultado de la vuelta
2   Rendimiento esperado   Solución óptima

j   Terminar Girar   f3(j) Decisión

1   2 6.15   6.15 Girar

2   4 6.15   6.15 Girar

3   6 6.15   6.15 Girar

4   8 6.15   8 Terminar

5   10 6.15   10 Terminar
f1(j) = max{2j,
Etapa 1 Suma(pkf2(k))}

= max{2j,6.8125}

Resultado de la vuelta 1   Rendimiento esperado   Solución óptima

j   Terminar Girar   f2(j) Decisión

1   2 6.8125   6.8125 Girar

2   4 6.8125   6.8125 Girar

3   6 6.8125   6.8125 Girar

4   8 6.8125   8 Terminar

5   10 6.8125   10 Terminar

• En la etapa 1 debe girar. Su ganancia esperada es de 7.31


Vuelta número   Estrategia óptima

Continúe si la vuelta 1 produce 1,2, o 3; de


1   otra forma, termine

Continúe si la vuelta 2 produce 1, 2 o 3; de


otra forma, termine
2  

Continúe si la vuelta 3 produce 1 o 2. De


3   otra forma, termine

4   Ultima vuelta, termina el juego.


Referencias

• Taha, Hamdy A. Investigación de


operaciones. Una introducción. Pearson
Educación. 6ª edición. México, 1997

También podría gustarte