Dinamica PDF

Ejercicios de programación dinámica
Investigación Operativa II
Diplomatura en Estadı́stica
Curso 07/08
1. Resuelve aplicando programación dinámica el problema siguiente: Se trata de asignar dı́as de estudio
para preparar los exámenes de cuatro asignaturas. Se dispone de 10 dı́as para todas ellas, y estos
dı́as han de repartirse de manera que se optimice la mejora prevista en las calificaciones totales de
las mismas.
Se ha estimado que para un cierto número de dı́as asignado a cada asignatura se pueden conseguir
las mejoras en las notas que se indican en la tabla siguiente:
Asignatura
Dı́as 1 2 3 4
1 1 3 1 2
2 3 4 2 4
3 4 4 4 5
4 5 5 4 5
A ninguna asignatura se le asignarán más de cuatro dı́as, y a cada una de ellas se le asignará al
menos un dı́a.
Sugerencia: Define como etapas la asignación de dı́as de estudio a cada una de las asignaturas.
Solución. Siguiendo la sugerencia, supondremos que cada etapa se corresponde a la asignación de
dı́as a cada una de las asignaturas. El estado del sistema será por tanto el número de dı́as pendientes
de asignar tras la etapa correspondiente.
La función de valor será el valor acumulado de las mejoras de calificaciones correspondientes a todas
las asignaturas asignadas hasta esa etapa. Comenzaremos por asignar dı́as a la primera asignatura,
después a la segunda, etc. (el orden no debe afectar a la solución óptima obtenida). Por tanto, el
estado en la primera etapa será el número de dı́as pendientes de asignar para las asignaturas 2, 3
y 4; el estado en la segunda etapa el número de dı́as pendientes de asignar para las asignaturas 3
y 4, etc.
Como la función de valor en el estado de partida (sin asignación) vale cero, tendremos:
Etapa 1 (Asignación para la asignatura 1)
Estado Asignaciones posibles F. valor
9 1 0+1=1
8 2 0+3=3
7 3 0+4=4
6 4 0+5=5
Con estos valores podemos pasar a la segunda etapa (aquı́ las asignaciones posibles son el estado
de la etapa anterior, horas pendientes de asignar, y las horas asignadas en la etapa):
8 (9,1) 1+3=4
7 (9,2), (8,1) máx(1 + 4, 3 + 3) = 6
6 (9,3), (8,2), (7,1) máx(1 + 4, 3 + 4, 4 + 3) = 7
5 (9,4), (8,3), (7,2), (6,1) máx(1 + 5, 3 + 4, 4 + 4, 5 + 3) = 8
4 (8,4), (7,3), (6,2) máx(3 + 5, 4 + 4, 5 + 4) = 9
3 (7,4), (6,3) máx(4 + 5, 5 + 4) = 9
2 (6,4) 5 + 5 = 10
1
Para la tercera etapa tendremos:

7 (8,1) 4+1=5
6 (8,2), (7,1) máx(4 + 2, 6 + 1) = 7
5 (8,3), (7,2), (6,1) máx(4 + 4, 6 + 2, 7 + 1) = 8
4 (8,4), (7,3), (6,2), (5,1) máx(4 + 4, 6 + 4, 7 + 2, 8 + 1) = 10
3 (7,4), (6,3), (5,2), (4,1) máx(6 + 4, 7 + 4, 8 + 2, 9 + 1) = 11
2 (6,4), (5,3), (4,2), (3,1) máx(7 + 4, 8 + 4, 9 + 2, 9 + 1) = 12
1 (5,4), (4,3), (3,2), (2,1) máx(8 + 4, 9 + 4, 9 + 2, 10 + 1) = 13
Por último, para la cuarta etapa tendremos

6 (7,1) 5+2=7
5 (7,2), (6,1) máx(5 + 4, 7 + 2) = 9
4 (7,3), (6,2), (5,1) máx(5 + 5, 7 + 4, 8 + 2) = 11
3 (7,4), (6,3), (5,2), (4,1) máx(5 + 5, 7 + 5, 8 + 4, 10 + 2) = 12
2 (6,4), (5,3), (4,2), (3,1) máx(7 + 5, 8 + 5, 10 + 4, 11 + 2) = 14
1 (5,4), (4,3), (3,2), (2,1) máx(8 + 5, 10 + 5, 11 + 4, 12 + 2) = 15
0 (4,4), (3,3), (2,2), (1,1) máx(10 + 5, 11 + 5, 12 + 4, 13 + 2) = 16
De esta última tabla se ve que la mejor opción es acabar con 0 dı́as sin asignar, y que las asignaciones
óptimas son las siguientes (todas ellas son equivalentes, y mejoran las calificaciones en 16 puntos):
(2, 2, 3, 3), (3, 1, 3, 3), (3, 2, 3, 2), (4, 1, 3, 2) .
2. Un operador turı́stico organiza viajes de vacaciones, que incluyen el alquiler de coches. Durante las
próximas cinco semanas, y en función de los viajes que ha vendido, esta empresa prevee que debe
tener disponibles 8, 6, 10, 7 y 8 coches respectivamente.
El alquiler de los coches se subcontrata a una empresa local, que cobra una cantidad fija de 50 euros
por automóvil por cada nuevo alquiler de un coche, más 150 euros por cada semana de alquiler de
dicho coche.
El operador puede por tanto alquilar coches y asignarlos a los viajes organizados, o mantenerlos sin
usar, o bien devolverlos cuando ya no quiera usarlos (aunque quizás tenga que volver a alquilarlos
más tarde pagando la cantidad fija). ¿Cuál es el número óptimo de automóviles a alquilar y/o
devolver en cada semana de las próximas cinco?
Solución. Los elementos de la formulación del problema de PD son:
Etapas: las etapas naturales en el problema son las semanas a considerar t = 1, 2, 3, 4, 5.
Estados: el estado xt representa el número total de coches disponibles en una semana deter-
minada. Los valores razonables son los números enteros entre 6 y 10.
Acciones: la acción at representa el número de nuevos coches a alquilar (valor positivo) o el
número de coches a devolver (valor negativo) en cada semana. Consideraremos valores entre
−4 y 4.
Costes: los costes incurridos en la etapa t vienen dados por 150 euros multiplicados por el
número de automóviles disponibles, más 50 euros multiplicados por el número de nuevos coches
alquilados en esa semana (150dt + 50nt ).
Dinámica de estados: si en la etapa t el estado es xt y se toma la acción at , el estado en la
etapa siguiente es xt+1 = xt + at .
Denotamos por Vt (xt ) la función de valor óptimo en la etapa t. Las relaciones de recurrencia que
cumple son:
Vt (x) = mı́n {ti (xi ) + Vt+1 (x − xi )} , t = 1, 2, 3
xi
2
Finalmente, necesitamos indicar los valores finales de la función V . Asumiremos que V6 (x) = 0 para
todo x.
Para los valores intermedios de V en las etapas desde la 5 hasta la 1, aplicamos la fórmula de
recurrencia para obtener los valores dados en la tabla siguiente (para ahorrar espacio, los valores
están dados en decenas de euros):
Etapa 5
x/y -4 -3 -2 -1 0 1 2 3 4 V5 (x)
6 – – – – – – 130 150 170 130
7 – – – – – 125 145 165 – 125
8 – – – – 120 140 160 – – 120
9 – – – 120 140 160 – – – 120
10 – – 120 140 160 – – – – 120
Etapa 4
x/y -4 -3 -2 -1 0 1 2 3 4 V4 (x)
6 – – – – – 110 + 125 130 + 120 150 + 120 170 + 120 235
7 – – – – 105 + 125 125 + 120 145 + 120 165 + 120 – 230
8 – – – 105 + 125 120 + 120 140 + 120 160 + 120 – – 230
9 – – 105 + 125 120 + 120 135 + 120 155 + 120 – – – 230
10 – 105 + 125 120 + 120 135 + 120 150 + 120 – – – – 230
Etapa 3
x/y -4 -3 -2 -1 0 1 2 3 4 V3 (x)
6 – – – – – – – – 170 + 230 400
7 – – – – – – – 165 + 230 – 395
8 – – – – – – 160 + 230 – – 390
9 – – – – – 155 + 230 – – – 385
10 – – – – 150 + 230 – – – – 380
Etapa 2
x/y -4 -3 -2 -1 0 1 2 3 4 V2 (x)
6 – – – – 90 + 400 110 + 395 130 + 390 150 + 385 170 + 380 490
7 – – – 90 + 400 105 + 395 125 + 390 145 + 385 165 + 380 – 490
8 – – 90 + 400 105 + 395 120 + 390 140 + 385 160 + 380 – – 490
9 – 90 + 400 105 + 395 120 + 390 135 + 385 155 + 380 – – – 490
10 90 + 400 105 + 395 120 + 390 135 + 385 150 + 380 – – – – 490
Etapa 1
x/y -4 -3 -2 -1 0 1 2 3 4 V1 (x)
6 – – – – – – 130 + 490 150 + 490 170 + 490 620
7 – – – – – 125 + 490 145 + 490 165 + 490 – 615
8 – – – – 120 + 490 140 + 385 160 + 380 – – 610
9 – – – 120 + 490 135 + 490 155 + 490 – – – 610
10 – – 120 + 490 135 + 490 150 + 490 – – – – 610
Con estos valores podemos obtener la polı́tica óptima partiendo del número de coches disponibles
inicialmente. Por ejemplo, si dicho número de coches fuese de 7, las mejores decisiones a tomar
serı́an:
Acción Estado
Etapa 1 1 8
Etapa 2 -2 6
Etapa 3 4 10
Etapa 4 -3 7
Etapa 5 1 8
3. Estás encargado de la gestión de un desarrollo de software, que requiere que se completen tres
tareas en etapas sucesivas. Dispones de un presupuesto de 45.000 euros que puedes emplear para
mejorar tus recursos (personal, equipos, medios) en cada una de las etapas. En función del dinero
que inviertas, esperas reducir el tiempo necesario para llevar a cabo cada etapa, de acuerdo con las
expresiones siguientes:
t1 (x1 ) = 16 − x1 /3, 0 ≤ x1 ≤ 30
t2 (x2 ) = 12 − x2 /5, 0 ≤ x2 ≤ 15
t3 (x3 ) = 14 − x3 /3, 0 ≤ x3 ≤ 30
donde ti denota el tiempo en semanas necesario para completar cada tarea, i = 1, 2, 3, y xi es la

cantidad invertida en cada etapa, medida en miles de euros. Las cantidades no invertidas al final
del proceso no tienen valor para el desarrollo.
Formula las relaciones de recurrencia y los elementos del problema de programación dinámica
correspondientes.
Resuelve el problema de programación dinámica para el caso en que el dinero disponible
deba gastarse en múltiplos de 15.000 euros, esto es, los valores aceptables para el gasto en la
primera etapa serı́an 0, 15 ó 30 miles de euros, por ejemplo. Obtén a partir de ellas la polı́tica
que permita un tiempo de desarrollo mı́nimo y el plan de gasto óptimo. ¿Existe más de una
solución? ¿Cuáles son las soluciones alternativas?
Repite el apartado anterior suponiendo que las cantidades a invertir en cada etapa fuesen
valores cualesquiera entre 0 y los máximos indicados anteriormente.
3
Solución. Los elementos de la formulación de PD son:
Etapas: las etapas naturales en el problema son las tareas a completar t = 1, 2, 3.
Estados: el estado xt ∈ {0, . . . , 45} representa el presupuesto restante al comenzar la etapa t.
Acciones: la acción at representa la parte del presupuesto disponible invertida en la etapa t.
Acciones factibles:
A1 (x1 ) = {0, . . . , mı́n(30, x1 )},

A2 (x2 ) = {0, . . . , mı́n(15, x2 )},
A3 (x3 ) = {0, . . . , mı́n(30, x3 )}.
Recompensas: la recompensa recibida en la etapa t es Rt (at ) = −st (at ) (la duración de la

tarea correspondiente, cambiada de signo).
Dinámica de estados: si en la etapa t el estado es xt y se toma la acción at , el estado en la
etapa siguiente es xt+1 = xt − at .
Denotamos por Vt (xt ) la función de valor óptimo en la etapa t. Las relaciones de recurrencia que
cumple son:
Vt (x) = mı́n {ti (xi ) + Vt+1 (x − xi )} , t = 1, 2, 3
xi
con V4 (x) = 0 para todo x. Para x1 ∈ {0, . . . , 45}:
V1 (x1 ) = máxa1 ∈A1 (x1 ) a1 /3 − 16 + V2 (x1 − a1 )

V2 (x2 ) = máxa2 ∈A2 (x2 ) a2 /5 − 12 + V3 (x2 − a2 )
V3 (x3 ) = máxa3 ∈A3 (x3 ) a3 /3 − 14.
En el caso discreto obtenemos los valores indicados en la tabla siguiente:
Etapa 3
x 0 15 30 V3 (x)
0 14 – – 14
15 14 9 – 9
30 14 9 4 4
45 14 9 4 4
Etapa 2
x 0 15 V2 (x)
0 12 + 14 – 26
15 12 + 9 9 + 14 21
30 12 + 4 9+9 16
45 12 + 4 9+4 13
Etapa 1
x 0 15 30 V1 (x)
0 16 + 26 – – 42
15 16 + 21 11 + 26 – 37
30 16 + 16 11 + 21 6 + 26 32
45 16 + 13 11 + 16 6 + 21 27
La polı́tica óptima viene dada por los valores en negrita, y un plan de inversiones óptimo es invertir
15.000 euros en la primera etapa, nada en la segunda etapa y 30.000 euros en la última etapa. El
otro plan alternativo es el correspondiente a invertir 30.000 euros en la primera etapa y 15.000 en
la tercera.
Para el caso en que se puede impartir cualquier cantidad dentro de los lı́mites indicados, tenemos
para la tercera etapa (dado que x3 ≤ 30)

14 − x/3 si 0 ≤ x < 30
V3 (x) = mı́n {14 − x3 /3} =
0≤x3 ≤mı́n(30,x) 4 si 30 ≤ x

x si 0 ≤ x < 30
x3 (x) =
30 si 30 ≤ x
4
Para la segunda etapa, tenemos que
V2 (x) = mı́n {12 − x2 /5 + V3 (x − x2 )}

0≤x2 ≤mı́n(15,x)
mı́n{(16 − x2 /5)I{x−x2 ≥30} , (12 − x2 /5 + 14 − (x − x2 )/3)I{x−x2 <30} }

=

26 − x/3 si 0 ≤ x < 30
=
22 − x/5 si 30 ≤ x ≤ 45

0 si 0 ≤ x < 30
x2 (x) =
x − 30 si 30 ≤ x ≤ 45
Por último, para la primera etapa,
V1 (x) = mı́n {16 − x1 /3 + V2 (x − x1 )}

0≤x1 ≤mı́n(30,x)
mı́n{(16 − x1 /3 + 22 − (x − x1 )/5)I{x−x1 ≥30} ,

=
(16 − x1 /3 + 26 − (x − x1 )/3)I{x−x1 <30} }
= 42 − x/3 0 ≤ x ≤ 45

[0, x] si 0 ≤ x < 30
x1 (x) =
[x − 30, x − 15] si 30 ≤ x ≤ 45
La notación [0, x] indica que cualquier valor del intervalo es aceptable.

4. Una empresa de alquiler de automóviles se propone planificar su polı́tica de reemplazamientos para
los próximos 3 años. La adquisición de un coche nuevo le cuesta a la empresa 9.000 euros. Durante
su vida útil, los coches incurren costes de mantenimiento que aumentan con su antigüedad, mientras
que su valor de venta como coches usados disminuye con su edad. Un coche nuevo no incurre costes
de mantenimiento. Para cada coche, la empresa toma decisiones el dı́a 1 de enero de cada año: vender
el coche por su valor como coche usado y adquirir uno nuevo, o continuar utilizándolo durante un
año más, incurriendo los costes de mantenimiento correspondientes. Los gastos de mantenimiento
y el valor de venta de un coche usado, en función de su antigüedad en años, se muestran en la
siguiente tabla:
antigüedad (años) coste de mantenimiento (euros) valor de venta (euros)

1 1.800 6.000
2 2.100 4.000
3 2.400 3.000
4 2.700 2.250
a) Formula como un programa dinámico el problema de planificación óptima para los próximos
3 años.
b) Formula las relaciones de recurrencia y los elementos del problema de programación dinámica
correspondientes.
c) Resuelve el problema. dinámica, y describe la polı́tica óptima obtenida.
d ) ¿Debe la empresa reemplazar un coche que tiene inicialmente 4 años? ¿Y uno que tiene 3?
Solución. Al igual que en el caso anterior, comenzamos por identificar las etapas, que se corre-
sponden con los años transcurridos, ası́ como nuestras variables de estado xt y de decisión yt , que
en este caso serán la edad del automóvil y la decisión de renovar o no hacerlo (1 ó 0) al inicio de
cada año.
La función objetivo vendrá dada por los costes de mantenimiento y de compra, ası́ como el valor
de venta del automóvil, y tendrá la forma siguiente:
X
mı́n cm (xt ) + (C − R(xt−1 + 1))yt ,
t
donde cm es la función que da los costes de mantenimiento, C es el coste de compra y R es el valor

de venta del automóvil.
5
La ley de movimiento vendrá dada por

xt−1 + 1 si yt = 0
xt =
0 si yt = 1
Definimos la función Vt (xt−1 ) como el menor coste de operar el automóvil a partir del periodo t si la
antigüedad del mismo (antes de la decisión de renovación) es xt−1 . Tomamos también V4 (x3 ) = 0.
Se te recomienda que rehagas los cálculos por ejemplo si definimos V4 (x3 ) = −R(x3 ). Obsérvese en
relación con la notación que asociamos el subı́ndice de la variable de estado al periodo al final del
cual se toma la decisión de renovación o no renovación. El estado inicial será por tanto el dado por
x0 .
La relación de recurrencia que define Vt será la dada por
Vt (xt−1 ) = mı́n (cm (xt ) + (C − R(xt−1 + 1))yt + Vt+1 (xt )) .
Llevamos a cabo a continuación los cálculos de la relación anterior para cada periodo.
Etapa final.
V4 (x3 ) = 0 ∀x3 .
Tercer año.
V3 (x2 ) = mı́n(cm (x2 + 1) + V4 (x2 + 1), C − R(x2 + 1) + V4 (0))



 mı́n(1800, 9000 − 6000) = 1800 si x2 = 0
mı́n(2100, 9000 − 4000) = 2100 si x2 = 1

=

 mı́n(2400, 9000 − 3000) = 2400 si x2 = 2
9000 − 2250 = 6750 si x2 = 3



 0 si x2 = 0
0 si x2 = 1

y3 =

 0 si x2 = 2
1 si x2 = 3

Segundo año.
V2 (x1 ) = mı́n(cm (x1 + 1) + V3 (x1 + 1), C − R(x1 + 1) + V3 (0))



 mı́n(1800 + 2100, 9000 − 6000 + 1800) = 3900 si x1 =0
mı́n(2100 + 2400, 9000 − 4000 + 1800) = 4500 si x1 =1

=

 mı́n(2400 + 6750, 9000 − 3000 + 1800) = 7800 si x1 =2
9000 − 2250 + 1800 = 8550 si x1 =3



 0 si x1 = 0
0 si x1 = 1

y2 =

 1 si x1 = 2
1 si x1 = 3

Primer año.
V1 (x0 ) = mı́n(cm (x0 + 1) + V2 (x0 + 1), C − R(x0 + 1) + V2 (0))



 mı́n(1800 + 4500, 9000 − 6000 + 3900) = 6300 si x0 =0
mı́n(2100 + 7800, 9000 − 4000 + 3900) = 8900 si x0 =1

=

 mı́n(2400 + 8550, 9000 − 3000 + 3900) = 9900 si x0 =2
9000 − 2250 + 3900 = 10650 si x0 =3



 0 si x0 = 0
1 si x0 = 1

y1 =

 1 si x0 = 2
1 si x0 = 3

6
En los cálculos anteriores, y debido a la falta de datos, hemos supuesto que un automóvil con
xt = 3 se renovaba obligatoriamente, ya que no disponemos de datos sobre costes o valores para
automóviles de más de cuatro años de antigüedad.
De los datos anteriores, si el automóvil tiene una edad inicial de 4 años (x0 = 3), se debe renovar al
principio del periodo. Si tiene una edad inicial de 3 años (x0 = 2) también debe ser renovado. En
ambos casos y1 = 1.
5. Tienes que decidir cuándo y cuánto producir de un determinado producto, para hacer frente a la
demanda con coste mı́nimo. La demanda prevista para los próximos 4 meses se indica en la tabla
siguiente:
Mes 1 2 3 4
Demanda 2 1 2 1
El coste de almacenamiento es de 600 Pta./unidad.mes, y el coste de producción está compuesto

por un coste fijo de 3500 Pta. cada vez que se fabrica (independiente de la cantidad fabricada), y
un coste variable de 1500 Pta./unidad.
Aplica Programación Dinámica para obtener el plan de producción (cantidades y meses) óptimo,
suponiendo que al comienzo del primer mes no dispones de ninguna unidad de producto en inven-
tario, y que no dispones de espacio para llevar un inventario de más de dos unidades en ningún
periodo. El valor de las unidades que estén en inventario al final del último periodo es de 2000
Pta./unidad.
¿Cuál hubiera sido la polı́tica óptima si el inventario inicial hubiese sido de dos unidades?
Solución. Comenzamos por identificar las etapas del problema, correspondientes a cada uno
de los meses considerados. Igualmente, identificamos el estado en cada etapa como la cantidad de
producto que llevamos en inventario al comienzo de cada mes. La variable de control será la cantidad
de producto a fabricar en cada periodo de tiempo.
La función de valor será el coste incurrido hasta el periodo considerado, en función del estado
considerado.
Supondremos que no es admisible no hacer frente a la demanda, por lo que obligaremos a que la
producción en cualquier periodo sea al menos la necesaria para hacer frente a dicha demanda.
Iniciamos los cálculos al final del último periodo (inicio del periodo 5). En ese momento tenemos
un valor (en función del número de unidades en inventario) dado en la tabla siguiente:
Periodo 5
Estado 0 1 2
Valor 0 −2000 −4000
Para el periodo anterior tendremos que tomar la decisión de cuántas unidades producimos. Supong-
amos que estamos en el estado 0 (ninguna unidad en inventario al comienzo del mes 4). Como
la demanda es de una unidad, al menos deberemos fabricar una unidad (con lo que tendrı́amos 0
unidades al comienzo del mes 5), y como máximo podemos fabricar 4 unidades (3 unidades en in-
ventario al comienzo del mes 5). Además, debemos tener en cuenta los costes de llevar el inventario
de un periodo al siguiente. La función de valor correspondiente se obtendrá como
J4 (0) = mı́n(3500 + 1500 + J5 (0), 3500 + 2 1500 + 600 + J5 (1), 3500 + 3 1500 + 2 600 + J5 (2)) = 5000.
Haciendo cálculos similares para el estado 1 tendremos que
J4 (1) = mı́n(0 + J5 (0), 3500 + 1500 + 600 + J5 (1), 3500 + 2 1500 + 2 600 + J5 (2)) = 0.
Y en general para todos los valores del estado,
Periodo 4
Estado 0 1 2
F. Valor 5000 (1) 0 (0) −1400 (0)
Entre paréntesis se indica la cantidad óptima a producir.

Repitiendo estos cálculos para los periodos anteriores tenemos
7
Estado 0 1 2
F. Valor 3 8600 (3) 7100 (2) 5000 (0)
F. Valor 2 13600 (1) 8600 (0) 7700 (0)
F. Valor 1 17200 (3) 15700 (2) 13600 (0)
De esta tabla tenemos que si inicialmente el inventario es igual a cero, la polı́tica óptima consistirá en
fabricar 3 unidades en el primer periodo (estado 0), 0 unidades en el segundo periodo (estado 1), 3
unidades en el tercer periodo (estado 0) y cero unidades en el cuarto periodo (estado 1).
Si inicialmente hubiesemos tenido dos unidades, entonces la polı́tica óptima hubiese consistido en
fabricar cero unidades el primer periodo (estado 2), una unidad el segundo periodo (estado 1), tres
unidades el tercer periodo (estado 0) y cero unidades en el cuarto periodo (estado 1).
6. Un dispositivo consta de 3 etapas conectadas en serie. En cada etapa podemos tener un número de
componentes variable mi , y la probabilidad de fallo en cada una de las etapas en función de dicho
número de componentes viene dada por las expresiones siguientes:
p1 = 0,5m1 , p2 = 0,75m2 , p3 = 0,6m3 .
Los ingresos que se obtienen de la operación del sistema dependen de que los equipos estén funcio-
nando correctamente o estén averiados. Dichos ingresos se dan en la tabla siguiente:
Etapa
Estado 1 2 3
F 1500 3000 2500
A −5000 −8000 −6000
Por último, el coste de cada componente es de:
Etapa 1 2 3
Coste 100 150 75
Si se dispone de un presupuesto de 750 u.m., encontrar la manera de invertir este presupuesto en

componentes de forma que se maximicen los ingresos esperados.
Sugerencia: Incluye en el estado información sobre el dinero que no te has gastado todavı́a, y define
las etapas de programación dinámica como decisiones de gasto en componentes de cada etapa.
Solución. De nuevo siguiendo la sugerencia, y de manera similar al primer problema, tomamos co-
mo estado del sistema el dinero que nos queda pendiente de gastar después de comprar componentes
para cada etapa. Comenzaremos por la primera etapa, luego estudiaremos la segunda etapa, y por
último consideraremos la tercera etapa. Supondremos que en cada etapa tendremos al menos un
componente (se podrı́a calcular un coste aun no teniendo ningún componente, pero no parece muy
razonable tener una etapa que falle con seguridad). La función de valor será el beneficio esperado,
teniendo en cuenta la probabilidad de fallo. Su valor de partida será cero (no hay beneficio si no
tenemos componentes).
Para la primera etapa tendremos:
Etapa 1 (Compra de componentes para la etapa 1)

Estado Componentes Prob. de fallo F. valor
650 1 0,5 −100 + 0,5 × 1500 + 0,5 × (−5000) = −1850
550 2 0,25 −200 + 0,75 × 1500 + 0,25 × (−5000) = −325
450 3 0,125 −300 + 0,875 × 1500 + 0,125 × (−5000) = 387,5
350 4 0,0625 −400 + 0,9375 × 1500 + 0,0625 × (−5000) = 693,8
250 5 0,03125 −500 + 0,96875 × 1500 + 0,03125 × (−5000) = 796,8
Observese que no calculamos valores del dinero restante menores de 250 porque queremos comprar
al menos uno de los dos tipos de componentes que nos quedan.
Para la etapa siguiente obtenemos
8
Estado Componentes Prob. de fallo F. valor
500 (650,1) 0,75 −1850 − 150 + 0,25 × 3000 + 0,75 × (−5000) = −5000
400 (550,1) 0,75 −325 − 150 + 0,25 × 3000 + 0,75 × (−5000) = −3425
350 (650,2) 0,562 −1850 − 300 + 0,438 × 3000 + 0,562 × (−5000) = −3650
300 (450,1) 0,75 387,5 − 150 + 0,25 × 3000 + 0,75 × (−5000) = −2762,5
250 (550,2) 0,562 −325 − 300 + 0,438 × 3000 + 0,562 × (−5000) = −2125
200 (350,1), (650,3) 0,75, 0,422 máx(693,75 − 150 + 0,25 × 3000 + 0,75 × (−5000),
−1850 − 450 + 0,578 × 3000 + 0,422 × (−5000)) = −2456,3
150 (450,2) 0,562 387,5 − 300 + 0,438 × 3000 + 0,562 × (−5000) = −1412,5
100 (250,1), (550,3) 0,75, 0,422 máx(796,8275 − 150 + 0,25 × 3000 + 0,75 × (−5000),
−325 − 450 + 0,578 × 3000 + 0,422 × (−5000)) = −1250
Para la última etapa tendremos los valores siguientes:

Estado Componentes F. valor
425 (500,1) -7675
350 (500,2) -5710
325 (400,1) -6100
275 (500,3), (350,1) -4561
250 (400,2) -4135
225 (300,1) -5437.5
200 (500,4), (350,2) -3901.6
175 (400,3), (250,1) -2986
150 (300,2) -3472.5
125 (500,5), (350,3), (200,1) -3211
100 (400,4), (250,2) -2327.6
75 (300,3), (150,1) -2323.5
50 (500,6), (350,4), (200,2) -2551.6
25 (400,5), (250,3), (100,1) -1686
0 (300,4), (150,2) -1664.1
Realizando los cálculos para estos estados se llega a que el valor óptimo es el correspondiente al
estado final 0 (algo razonable), y que ese estado se alcanza seleccionando 3 componentes para la
primera etapa, 1 componente para la segunda etapa y 4 componentes para la tercera etapa.
9
EJEMPLO
Figura 1: EJEMPLO: La diligencia
10

Dinamica PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Dinamica PDF

Cargado por

Copyright:

Formatos disponibles

Ejercicios de programación dinámica

Etapa 3 (Asignación para la asignatura 3)

Por último, para la cuarta etapa tendremos

Etapa 4 (Asignación para la asignatura 4)

(2, 2, 3, 3), (3, 1, 3, 3), (3, 2, 3, 2), (4, 1, 3, 2) .

donde ti denota el tiempo en semanas necesario para completar cada tarea, i = 1, 2, 3, y xi es la

A1 (x1 ) = {0, . . . , mı́n(30, x1 )},

Recompensas: la recompensa recibida en la etapa t es Rt (at ) = −st (at ) (la duración de la

con V4 (x) = 0 para todo x. Para x1 ∈ {0, . . . , 45}:

V1 (x1 ) = máxa1 ∈A1 (x1 ) a1 /3 − 16 + V2 (x1 − a1 )

En el caso discreto obtenemos los valores indicados en la tabla siguiente:

V2 (x) = mı́n {12 − x2 /5 + V3 (x − x2 )}

mı́n{(16 − x2 /5)I{x−x2 ≥30} , (12 − x2 /5 + 14 − (x − x2 )/3)I{x−x2 <30} }

Por último, para la primera etapa,

V1 (x) = mı́n {16 − x1 /3 + V2 (x − x1 )}

mı́n{(16 − x1 /3 + 22 − (x − x1 )/5)I{x−x1 ≥30} ,

La notación [0, x] indica que cualquier valor del intervalo es aceptable.

antigüedad (años) coste de mantenimiento (euros) valor de venta (euros)

donde cm es la función que da los costes de mantenimiento, C es el coste de compra y R es el valor

Vt (xt−1 ) = mı́n (cm (xt ) + (C − R(xt−1 + 1))yt + Vt+1 (xt )) .

V3 (x2 ) = mı́n(cm (x2 + 1) + V4 (x2 + 1), C − R(x2 + 1) + V4 (0))

V2 (x1 ) = mı́n(cm (x1 + 1) + V3 (x1 + 1), C − R(x1 + 1) + V3 (0))

V1 (x0 ) = mı́n(cm (x0 + 1) + V2 (x0 + 1), C − R(x0 + 1) + V2 (0))

El coste de almacenamiento es de 600 Pta./unidad.mes, y el coste de producción está compuesto

Haciendo cálculos similares para el estado 1 tendremos que

Y en general para todos los valores del estado,

Entre paréntesis se indica la cantidad óptima a producir.

p1 = 0,5m1 , p2 = 0,75m2 , p3 = 0,6m3 .

Por último, el coste de cada componente es de:

Si se dispone de un presupuesto de 750 u.m., encontrar la manera de invertir este presupuesto en

Etapa 1 (Compra de componentes para la etapa 1)

Para la última etapa tendremos los valores siguientes:

Etapa 3 (Compra de componentes para la etapa 3)

Figura 1: EJEMPLO: La diligencia

También podría gustarte