Está en la página 1de 10

Ejercicios de programación dinámica

Investigación Operativa II
Diplomatura en Estadı́stica

Curso 07/08

1. Resuelve aplicando programación dinámica el problema siguiente: Se trata de asignar dı́as de estudio
para preparar los exámenes de cuatro asignaturas. Se dispone de 10 dı́as para todas ellas, y estos
dı́as han de repartirse de manera que se optimice la mejora prevista en las calificaciones totales de
las mismas.
Se ha estimado que para un cierto número de dı́as asignado a cada asignatura se pueden conseguir
las mejoras en las notas que se indican en la tabla siguiente:
Asignatura
Dı́as 1 2 3 4
1 1 3 1 2
2 3 4 2 4
3 4 4 4 5
4 5 5 4 5
A ninguna asignatura se le asignarán más de cuatro dı́as, y a cada una de ellas se le asignará al
menos un dı́a.
Sugerencia: Define como etapas la asignación de dı́as de estudio a cada una de las asignaturas.
Solución. Siguiendo la sugerencia, supondremos que cada etapa se corresponde a la asignación de
dı́as a cada una de las asignaturas. El estado del sistema será por tanto el número de dı́as pendientes
de asignar tras la etapa correspondiente.
La función de valor será el valor acumulado de las mejoras de calificaciones correspondientes a todas
las asignaturas asignadas hasta esa etapa. Comenzaremos por asignar dı́as a la primera asignatura,
después a la segunda, etc. (el orden no debe afectar a la solución óptima obtenida). Por tanto, el
estado en la primera etapa será el número de dı́as pendientes de asignar para las asignaturas 2, 3
y 4; el estado en la segunda etapa el número de dı́as pendientes de asignar para las asignaturas 3
y 4, etc.
Como la función de valor en el estado de partida (sin asignación) vale cero, tendremos:
Etapa 1 (Asignación para la asignatura 1)
Estado Asignaciones posibles F. valor
9 1 0+1=1
8 2 0+3=3
7 3 0+4=4
6 4 0+5=5
Con estos valores podemos pasar a la segunda etapa (aquı́ las asignaciones posibles son el estado
de la etapa anterior, horas pendientes de asignar, y las horas asignadas en la etapa):
Etapa 2 (Asignación para la asignatura 2)
Estado Asignaciones posibles F. valor
8 (9,1) 1+3=4
7 (9,2), (8,1) máx(1 + 4, 3 + 3) = 6
6 (9,3), (8,2), (7,1) máx(1 + 4, 3 + 4, 4 + 3) = 7
5 (9,4), (8,3), (7,2), (6,1) máx(1 + 5, 3 + 4, 4 + 4, 5 + 3) = 8
4 (8,4), (7,3), (6,2) máx(3 + 5, 4 + 4, 5 + 4) = 9
3 (7,4), (6,3) máx(4 + 5, 5 + 4) = 9
2 (6,4) 5 + 5 = 10

1
Para la tercera etapa tendremos:

Etapa 3 (Asignación para la asignatura 3)


Estado Asignaciones posibles F. valor
7 (8,1) 4+1=5
6 (8,2), (7,1) máx(4 + 2, 6 + 1) = 7
5 (8,3), (7,2), (6,1) máx(4 + 4, 6 + 2, 7 + 1) = 8
4 (8,4), (7,3), (6,2), (5,1) máx(4 + 4, 6 + 4, 7 + 2, 8 + 1) = 10
3 (7,4), (6,3), (5,2), (4,1) máx(6 + 4, 7 + 4, 8 + 2, 9 + 1) = 11
2 (6,4), (5,3), (4,2), (3,1) máx(7 + 4, 8 + 4, 9 + 2, 9 + 1) = 12
1 (5,4), (4,3), (3,2), (2,1) máx(8 + 4, 9 + 4, 9 + 2, 10 + 1) = 13

Por último, para la cuarta etapa tendremos

Etapa 4 (Asignación para la asignatura 4)


Estado Asignaciones posibles F. valor
6 (7,1) 5+2=7
5 (7,2), (6,1) máx(5 + 4, 7 + 2) = 9
4 (7,3), (6,2), (5,1) máx(5 + 5, 7 + 4, 8 + 2) = 11
3 (7,4), (6,3), (5,2), (4,1) máx(5 + 5, 7 + 5, 8 + 4, 10 + 2) = 12
2 (6,4), (5,3), (4,2), (3,1) máx(7 + 5, 8 + 5, 10 + 4, 11 + 2) = 14
1 (5,4), (4,3), (3,2), (2,1) máx(8 + 5, 10 + 5, 11 + 4, 12 + 2) = 15
0 (4,4), (3,3), (2,2), (1,1) máx(10 + 5, 11 + 5, 12 + 4, 13 + 2) = 16

De esta última tabla se ve que la mejor opción es acabar con 0 dı́as sin asignar, y que las asignaciones
óptimas son las siguientes (todas ellas son equivalentes, y mejoran las calificaciones en 16 puntos):

(2, 2, 3, 3), (3, 1, 3, 3), (3, 2, 3, 2), (4, 1, 3, 2) .

2. Un operador turı́stico organiza viajes de vacaciones, que incluyen el alquiler de coches. Durante las
próximas cinco semanas, y en función de los viajes que ha vendido, esta empresa prevee que debe
tener disponibles 8, 6, 10, 7 y 8 coches respectivamente.
El alquiler de los coches se subcontrata a una empresa local, que cobra una cantidad fija de 50 euros
por automóvil por cada nuevo alquiler de un coche, más 150 euros por cada semana de alquiler de
dicho coche.
El operador puede por tanto alquilar coches y asignarlos a los viajes organizados, o mantenerlos sin
usar, o bien devolverlos cuando ya no quiera usarlos (aunque quizás tenga que volver a alquilarlos
más tarde pagando la cantidad fija). ¿Cuál es el número óptimo de automóviles a alquilar y/o
devolver en cada semana de las próximas cinco?
Solución. Los elementos de la formulación del problema de PD son:
Etapas: las etapas naturales en el problema son las semanas a considerar t = 1, 2, 3, 4, 5.
Estados: el estado xt representa el número total de coches disponibles en una semana deter-
minada. Los valores razonables son los números enteros entre 6 y 10.
Acciones: la acción at representa el número de nuevos coches a alquilar (valor positivo) o el
número de coches a devolver (valor negativo) en cada semana. Consideraremos valores entre
−4 y 4.
Costes: los costes incurridos en la etapa t vienen dados por 150 euros multiplicados por el
número de automóviles disponibles, más 50 euros multiplicados por el número de nuevos coches
alquilados en esa semana (150dt + 50nt ).
Dinámica de estados: si en la etapa t el estado es xt y se toma la acción at , el estado en la
etapa siguiente es xt+1 = xt + at .
Denotamos por Vt (xt ) la función de valor óptimo en la etapa t. Las relaciones de recurrencia que
cumple son:
Vt (x) = mı́n {ti (xi ) + Vt+1 (x − xi )} , t = 1, 2, 3
xi

2
Finalmente, necesitamos indicar los valores finales de la función V . Asumiremos que V6 (x) = 0 para
todo x.
Para los valores intermedios de V en las etapas desde la 5 hasta la 1, aplicamos la fórmula de
recurrencia para obtener los valores dados en la tabla siguiente (para ahorrar espacio, los valores
están dados en decenas de euros):
Etapa 5
x/y -4 -3 -2 -1 0 1 2 3 4 V5 (x)
6 – – – – – – 130 150 170 130
7 – – – – – 125 145 165 – 125
8 – – – – 120 140 160 – – 120
9 – – – 120 140 160 – – – 120
10 – – 120 140 160 – – – – 120
Etapa 4
x/y -4 -3 -2 -1 0 1 2 3 4 V4 (x)
6 – – – – – 110 + 125 130 + 120 150 + 120 170 + 120 235
7 – – – – 105 + 125 125 + 120 145 + 120 165 + 120 – 230
8 – – – 105 + 125 120 + 120 140 + 120 160 + 120 – – 230
9 – – 105 + 125 120 + 120 135 + 120 155 + 120 – – – 230
10 – 105 + 125 120 + 120 135 + 120 150 + 120 – – – – 230
Etapa 3
x/y -4 -3 -2 -1 0 1 2 3 4 V3 (x)
6 – – – – – – – – 170 + 230 400
7 – – – – – – – 165 + 230 – 395
8 – – – – – – 160 + 230 – – 390
9 – – – – – 155 + 230 – – – 385
10 – – – – 150 + 230 – – – – 380
Etapa 2
x/y -4 -3 -2 -1 0 1 2 3 4 V2 (x)
6 – – – – 90 + 400 110 + 395 130 + 390 150 + 385 170 + 380 490
7 – – – 90 + 400 105 + 395 125 + 390 145 + 385 165 + 380 – 490
8 – – 90 + 400 105 + 395 120 + 390 140 + 385 160 + 380 – – 490
9 – 90 + 400 105 + 395 120 + 390 135 + 385 155 + 380 – – – 490
10 90 + 400 105 + 395 120 + 390 135 + 385 150 + 380 – – – – 490
Etapa 1
x/y -4 -3 -2 -1 0 1 2 3 4 V1 (x)
6 – – – – – – 130 + 490 150 + 490 170 + 490 620
7 – – – – – 125 + 490 145 + 490 165 + 490 – 615
8 – – – – 120 + 490 140 + 385 160 + 380 – – 610
9 – – – 120 + 490 135 + 490 155 + 490 – – – 610
10 – – 120 + 490 135 + 490 150 + 490 – – – – 610

Con estos valores podemos obtener la polı́tica óptima partiendo del número de coches disponibles
inicialmente. Por ejemplo, si dicho número de coches fuese de 7, las mejores decisiones a tomar
serı́an:

Acción Estado
Etapa 1 1 8
Etapa 2 -2 6
Etapa 3 4 10
Etapa 4 -3 7
Etapa 5 1 8

3. Estás encargado de la gestión de un desarrollo de software, que requiere que se completen tres
tareas en etapas sucesivas. Dispones de un presupuesto de 45.000 euros que puedes emplear para
mejorar tus recursos (personal, equipos, medios) en cada una de las etapas. En función del dinero
que inviertas, esperas reducir el tiempo necesario para llevar a cabo cada etapa, de acuerdo con las
expresiones siguientes:

t1 (x1 ) = 16 − x1 /3, 0 ≤ x1 ≤ 30
t2 (x2 ) = 12 − x2 /5, 0 ≤ x2 ≤ 15
t3 (x3 ) = 14 − x3 /3, 0 ≤ x3 ≤ 30

donde ti denota el tiempo en semanas necesario para completar cada tarea, i = 1, 2, 3, y xi es la


cantidad invertida en cada etapa, medida en miles de euros. Las cantidades no invertidas al final
del proceso no tienen valor para el desarrollo.
Formula las relaciones de recurrencia y los elementos del problema de programación dinámica
correspondientes.
Resuelve el problema de programación dinámica para el caso en que el dinero disponible
deba gastarse en múltiplos de 15.000 euros, esto es, los valores aceptables para el gasto en la
primera etapa serı́an 0, 15 ó 30 miles de euros, por ejemplo. Obtén a partir de ellas la polı́tica
que permita un tiempo de desarrollo mı́nimo y el plan de gasto óptimo. ¿Existe más de una
solución? ¿Cuáles son las soluciones alternativas?
Repite el apartado anterior suponiendo que las cantidades a invertir en cada etapa fuesen
valores cualesquiera entre 0 y los máximos indicados anteriormente.

3
Solución. Los elementos de la formulación de PD son:
Etapas: las etapas naturales en el problema son las tareas a completar t = 1, 2, 3.
Estados: el estado xt ∈ {0, . . . , 45} representa el presupuesto restante al comenzar la etapa t.
Acciones: la acción at representa la parte del presupuesto disponible invertida en la etapa t.
Acciones factibles:

A1 (x1 ) = {0, . . . , mı́n(30, x1 )},


A2 (x2 ) = {0, . . . , mı́n(15, x2 )},
A3 (x3 ) = {0, . . . , mı́n(30, x3 )}.

Recompensas: la recompensa recibida en la etapa t es Rt (at ) = −st (at ) (la duración de la


tarea correspondiente, cambiada de signo).
Dinámica de estados: si en la etapa t el estado es xt y se toma la acción at , el estado en la
etapa siguiente es xt+1 = xt − at .
Denotamos por Vt (xt ) la función de valor óptimo en la etapa t. Las relaciones de recurrencia que
cumple son:
Vt (x) = mı́n {ti (xi ) + Vt+1 (x − xi )} , t = 1, 2, 3
xi

con V4 (x) = 0 para todo x. Para x1 ∈ {0, . . . , 45}:

V1 (x1 ) = máxa1 ∈A1 (x1 ) a1 /3 − 16 + V2 (x1 − a1 )


V2 (x2 ) = máxa2 ∈A2 (x2 ) a2 /5 − 12 + V3 (x2 − a2 )
V3 (x3 ) = máxa3 ∈A3 (x3 ) a3 /3 − 14.

En el caso discreto obtenemos los valores indicados en la tabla siguiente:

Etapa 3
x 0 15 30 V3 (x)
0 14 – – 14
15 14 9 – 9
30 14 9 4 4
45 14 9 4 4
Etapa 2
x 0 15 V2 (x)
0 12 + 14 – 26
15 12 + 9 9 + 14 21
30 12 + 4 9+9 16
45 12 + 4 9+4 13
Etapa 1
x 0 15 30 V1 (x)
0 16 + 26 – – 42
15 16 + 21 11 + 26 – 37
30 16 + 16 11 + 21 6 + 26 32
45 16 + 13 11 + 16 6 + 21 27

La polı́tica óptima viene dada por los valores en negrita, y un plan de inversiones óptimo es invertir
15.000 euros en la primera etapa, nada en la segunda etapa y 30.000 euros en la última etapa. El
otro plan alternativo es el correspondiente a invertir 30.000 euros en la primera etapa y 15.000 en
la tercera.
Para el caso en que se puede impartir cualquier cantidad dentro de los lı́mites indicados, tenemos
para la tercera etapa (dado que x3 ≤ 30)

14 − x/3 si 0 ≤ x < 30
V3 (x) = mı́n {14 − x3 /3} =
0≤x3 ≤mı́n(30,x) 4 si 30 ≤ x

x si 0 ≤ x < 30
x3 (x) =
30 si 30 ≤ x

4
Para la segunda etapa, tenemos que

V2 (x) = mı́n {12 − x2 /5 + V3 (x − x2 )}


0≤x2 ≤mı́n(15,x)

mı́n{(16 − x2 /5)I{x−x2 ≥30} , (12 − x2 /5 + 14 − (x − x2 )/3)I{x−x2 <30} }


=

26 − x/3 si 0 ≤ x < 30
=
22 − x/5 si 30 ≤ x ≤ 45

0 si 0 ≤ x < 30
x2 (x) =
x − 30 si 30 ≤ x ≤ 45

Por último, para la primera etapa,

V1 (x) = mı́n {16 − x1 /3 + V2 (x − x1 )}


0≤x1 ≤mı́n(30,x)

mı́n{(16 − x1 /3 + 22 − (x − x1 )/5)I{x−x1 ≥30} ,


=
(16 − x1 /3 + 26 − (x − x1 )/3)I{x−x1 <30} }
= 42 − x/3 0 ≤ x ≤ 45

[0, x] si 0 ≤ x < 30
x1 (x) =
[x − 30, x − 15] si 30 ≤ x ≤ 45

La notación [0, x] indica que cualquier valor del intervalo es aceptable.


4. Una empresa de alquiler de automóviles se propone planificar su polı́tica de reemplazamientos para
los próximos 3 años. La adquisición de un coche nuevo le cuesta a la empresa 9.000 euros. Durante
su vida útil, los coches incurren costes de mantenimiento que aumentan con su antigüedad, mientras
que su valor de venta como coches usados disminuye con su edad. Un coche nuevo no incurre costes
de mantenimiento. Para cada coche, la empresa toma decisiones el dı́a 1 de enero de cada año: vender
el coche por su valor como coche usado y adquirir uno nuevo, o continuar utilizándolo durante un
año más, incurriendo los costes de mantenimiento correspondientes. Los gastos de mantenimiento
y el valor de venta de un coche usado, en función de su antigüedad en años, se muestran en la
siguiente tabla:

antigüedad (años) coste de mantenimiento (euros) valor de venta (euros)


1 1.800 6.000
2 2.100 4.000
3 2.400 3.000
4 2.700 2.250

a) Formula como un programa dinámico el problema de planificación óptima para los próximos
3 años.
b) Formula las relaciones de recurrencia y los elementos del problema de programación dinámica
correspondientes.
c) Resuelve el problema. dinámica, y describe la polı́tica óptima obtenida.
d ) ¿Debe la empresa reemplazar un coche que tiene inicialmente 4 años? ¿Y uno que tiene 3?

Solución. Al igual que en el caso anterior, comenzamos por identificar las etapas, que se corre-
sponden con los años transcurridos, ası́ como nuestras variables de estado xt y de decisión yt , que
en este caso serán la edad del automóvil y la decisión de renovar o no hacerlo (1 ó 0) al inicio de
cada año.
La función objetivo vendrá dada por los costes de mantenimiento y de compra, ası́ como el valor
de venta del automóvil, y tendrá la forma siguiente:
X
mı́n cm (xt ) + (C − R(xt−1 + 1))yt ,
t

donde cm es la función que da los costes de mantenimiento, C es el coste de compra y R es el valor


de venta del automóvil.

5
La ley de movimiento vendrá dada por

xt−1 + 1 si yt = 0
xt =
0 si yt = 1

Definimos la función Vt (xt−1 ) como el menor coste de operar el automóvil a partir del periodo t si la
antigüedad del mismo (antes de la decisión de renovación) es xt−1 . Tomamos también V4 (x3 ) = 0.
Se te recomienda que rehagas los cálculos por ejemplo si definimos V4 (x3 ) = −R(x3 ). Obsérvese en
relación con la notación que asociamos el subı́ndice de la variable de estado al periodo al final del
cual se toma la decisión de renovación o no renovación. El estado inicial será por tanto el dado por
x0 .
La relación de recurrencia que define Vt será la dada por

Vt (xt−1 ) = mı́n (cm (xt ) + (C − R(xt−1 + 1))yt + Vt+1 (xt )) .

Llevamos a cabo a continuación los cálculos de la relación anterior para cada periodo.
Etapa final.
V4 (x3 ) = 0 ∀x3 .
Tercer año.

V3 (x2 ) = mı́n(cm (x2 + 1) + V4 (x2 + 1), C − R(x2 + 1) + V4 (0))




 mı́n(1800, 9000 − 6000) = 1800 si x2 = 0
mı́n(2100, 9000 − 4000) = 2100 si x2 = 1

=

 mı́n(2400, 9000 − 3000) = 2400 si x2 = 2
9000 − 2250 = 6750 si x2 = 3



 0 si x2 = 0
0 si x2 = 1

y3 =

 0 si x2 = 2
1 si x2 = 3

Segundo año.

V2 (x1 ) = mı́n(cm (x1 + 1) + V3 (x1 + 1), C − R(x1 + 1) + V3 (0))




 mı́n(1800 + 2100, 9000 − 6000 + 1800) = 3900 si x1 =0
mı́n(2100 + 2400, 9000 − 4000 + 1800) = 4500 si x1 =1

=

 mı́n(2400 + 6750, 9000 − 3000 + 1800) = 7800 si x1 =2
9000 − 2250 + 1800 = 8550 si x1 =3



 0 si x1 = 0
0 si x1 = 1

y2 =

 1 si x1 = 2
1 si x1 = 3

Primer año.

V1 (x0 ) = mı́n(cm (x0 + 1) + V2 (x0 + 1), C − R(x0 + 1) + V2 (0))




 mı́n(1800 + 4500, 9000 − 6000 + 3900) = 6300 si x0 =0
mı́n(2100 + 7800, 9000 − 4000 + 3900) = 8900 si x0 =1

=

 mı́n(2400 + 8550, 9000 − 3000 + 3900) = 9900 si x0 =2
9000 − 2250 + 3900 = 10650 si x0 =3



 0 si x0 = 0
1 si x0 = 1

y1 =

 1 si x0 = 2
1 si x0 = 3

6
En los cálculos anteriores, y debido a la falta de datos, hemos supuesto que un automóvil con
xt = 3 se renovaba obligatoriamente, ya que no disponemos de datos sobre costes o valores para
automóviles de más de cuatro años de antigüedad.
De los datos anteriores, si el automóvil tiene una edad inicial de 4 años (x0 = 3), se debe renovar al
principio del periodo. Si tiene una edad inicial de 3 años (x0 = 2) también debe ser renovado. En
ambos casos y1 = 1.
5. Tienes que decidir cuándo y cuánto producir de un determinado producto, para hacer frente a la
demanda con coste mı́nimo. La demanda prevista para los próximos 4 meses se indica en la tabla
siguiente:

Mes 1 2 3 4
Demanda 2 1 2 1

El coste de almacenamiento es de 600 Pta./unidad.mes, y el coste de producción está compuesto


por un coste fijo de 3500 Pta. cada vez que se fabrica (independiente de la cantidad fabricada), y
un coste variable de 1500 Pta./unidad.
Aplica Programación Dinámica para obtener el plan de producción (cantidades y meses) óptimo,
suponiendo que al comienzo del primer mes no dispones de ninguna unidad de producto en inven-
tario, y que no dispones de espacio para llevar un inventario de más de dos unidades en ningún
periodo. El valor de las unidades que estén en inventario al final del último periodo es de 2000
Pta./unidad.
¿Cuál hubiera sido la polı́tica óptima si el inventario inicial hubiese sido de dos unidades?
Solución. Comenzamos por identificar las etapas del problema, correspondientes a cada uno
de los meses considerados. Igualmente, identificamos el estado en cada etapa como la cantidad de
producto que llevamos en inventario al comienzo de cada mes. La variable de control será la cantidad
de producto a fabricar en cada periodo de tiempo.
La función de valor será el coste incurrido hasta el periodo considerado, en función del estado
considerado.
Supondremos que no es admisible no hacer frente a la demanda, por lo que obligaremos a que la
producción en cualquier periodo sea al menos la necesaria para hacer frente a dicha demanda.
Iniciamos los cálculos al final del último periodo (inicio del periodo 5). En ese momento tenemos
un valor (en función del número de unidades en inventario) dado en la tabla siguiente:

Periodo 5
Estado 0 1 2
Valor 0 −2000 −4000

Para el periodo anterior tendremos que tomar la decisión de cuántas unidades producimos. Supong-
amos que estamos en el estado 0 (ninguna unidad en inventario al comienzo del mes 4). Como
la demanda es de una unidad, al menos deberemos fabricar una unidad (con lo que tendrı́amos 0
unidades al comienzo del mes 5), y como máximo podemos fabricar 4 unidades (3 unidades en in-
ventario al comienzo del mes 5). Además, debemos tener en cuenta los costes de llevar el inventario
de un periodo al siguiente. La función de valor correspondiente se obtendrá como

J4 (0) = mı́n(3500 + 1500 + J5 (0), 3500 + 2 1500 + 600 + J5 (1), 3500 + 3 1500 + 2 600 + J5 (2)) = 5000.

Haciendo cálculos similares para el estado 1 tendremos que

J4 (1) = mı́n(0 + J5 (0), 3500 + 1500 + 600 + J5 (1), 3500 + 2 1500 + 2 600 + J5 (2)) = 0.

Y en general para todos los valores del estado,

Periodo 4
Estado 0 1 2
F. Valor 5000 (1) 0 (0) −1400 (0)

Entre paréntesis se indica la cantidad óptima a producir.


Repitiendo estos cálculos para los periodos anteriores tenemos

7
Estado 0 1 2
F. Valor 3 8600 (3) 7100 (2) 5000 (0)
F. Valor 2 13600 (1) 8600 (0) 7700 (0)
F. Valor 1 17200 (3) 15700 (2) 13600 (0)

De esta tabla tenemos que si inicialmente el inventario es igual a cero, la polı́tica óptima consistirá en
fabricar 3 unidades en el primer periodo (estado 0), 0 unidades en el segundo periodo (estado 1), 3
unidades en el tercer periodo (estado 0) y cero unidades en el cuarto periodo (estado 1).
Si inicialmente hubiesemos tenido dos unidades, entonces la polı́tica óptima hubiese consistido en
fabricar cero unidades el primer periodo (estado 2), una unidad el segundo periodo (estado 1), tres
unidades el tercer periodo (estado 0) y cero unidades en el cuarto periodo (estado 1).

6. Un dispositivo consta de 3 etapas conectadas en serie. En cada etapa podemos tener un número de
componentes variable mi , y la probabilidad de fallo en cada una de las etapas en función de dicho
número de componentes viene dada por las expresiones siguientes:

p1 = 0,5m1 , p2 = 0,75m2 , p3 = 0,6m3 .

Los ingresos que se obtienen de la operación del sistema dependen de que los equipos estén funcio-
nando correctamente o estén averiados. Dichos ingresos se dan en la tabla siguiente:

Etapa
Estado 1 2 3
F 1500 3000 2500
A −5000 −8000 −6000

Por último, el coste de cada componente es de:

Etapa 1 2 3
Coste 100 150 75

Si se dispone de un presupuesto de 750 u.m., encontrar la manera de invertir este presupuesto en


componentes de forma que se maximicen los ingresos esperados.
Sugerencia: Incluye en el estado información sobre el dinero que no te has gastado todavı́a, y define
las etapas de programación dinámica como decisiones de gasto en componentes de cada etapa.
Solución. De nuevo siguiendo la sugerencia, y de manera similar al primer problema, tomamos co-
mo estado del sistema el dinero que nos queda pendiente de gastar después de comprar componentes
para cada etapa. Comenzaremos por la primera etapa, luego estudiaremos la segunda etapa, y por
último consideraremos la tercera etapa. Supondremos que en cada etapa tendremos al menos un
componente (se podrı́a calcular un coste aun no teniendo ningún componente, pero no parece muy
razonable tener una etapa que falle con seguridad). La función de valor será el beneficio esperado,
teniendo en cuenta la probabilidad de fallo. Su valor de partida será cero (no hay beneficio si no
tenemos componentes).
Para la primera etapa tendremos:

Etapa 1 (Compra de componentes para la etapa 1)


Estado Componentes Prob. de fallo F. valor
650 1 0,5 −100 + 0,5 × 1500 + 0,5 × (−5000) = −1850
550 2 0,25 −200 + 0,75 × 1500 + 0,25 × (−5000) = −325
450 3 0,125 −300 + 0,875 × 1500 + 0,125 × (−5000) = 387,5
350 4 0,0625 −400 + 0,9375 × 1500 + 0,0625 × (−5000) = 693,8
250 5 0,03125 −500 + 0,96875 × 1500 + 0,03125 × (−5000) = 796,8

Observese que no calculamos valores del dinero restante menores de 250 porque queremos comprar
al menos uno de los dos tipos de componentes que nos quedan.
Para la etapa siguiente obtenemos

8
Etapa 2 (Compra de componentes para la etapa 2)
Estado Componentes Prob. de fallo F. valor
500 (650,1) 0,75 −1850 − 150 + 0,25 × 3000 + 0,75 × (−5000) = −5000
400 (550,1) 0,75 −325 − 150 + 0,25 × 3000 + 0,75 × (−5000) = −3425
350 (650,2) 0,562 −1850 − 300 + 0,438 × 3000 + 0,562 × (−5000) = −3650
300 (450,1) 0,75 387,5 − 150 + 0,25 × 3000 + 0,75 × (−5000) = −2762,5
250 (550,2) 0,562 −325 − 300 + 0,438 × 3000 + 0,562 × (−5000) = −2125
200 (350,1), (650,3) 0,75, 0,422 máx(693,75 − 150 + 0,25 × 3000 + 0,75 × (−5000),
−1850 − 450 + 0,578 × 3000 + 0,422 × (−5000)) = −2456,3
150 (450,2) 0,562 387,5 − 300 + 0,438 × 3000 + 0,562 × (−5000) = −1412,5
100 (250,1), (550,3) 0,75, 0,422 máx(796,8275 − 150 + 0,25 × 3000 + 0,75 × (−5000),
−325 − 450 + 0,578 × 3000 + 0,422 × (−5000)) = −1250

Para la última etapa tendremos los valores siguientes:

Etapa 3 (Compra de componentes para la etapa 3)


Estado Componentes F. valor
425 (500,1) -7675
350 (500,2) -5710
325 (400,1) -6100
275 (500,3), (350,1) -4561
250 (400,2) -4135
225 (300,1) -5437.5
200 (500,4), (350,2) -3901.6
175 (400,3), (250,1) -2986
150 (300,2) -3472.5
125 (500,5), (350,3), (200,1) -3211
100 (400,4), (250,2) -2327.6
75 (300,3), (150,1) -2323.5
50 (500,6), (350,4), (200,2) -2551.6
25 (400,5), (250,3), (100,1) -1686
0 (300,4), (150,2) -1664.1

Realizando los cálculos para estos estados se llega a que el valor óptimo es el correspondiente al
estado final 0 (algo razonable), y que ese estado se alcanza seleccionando 3 componentes para la
primera etapa, 1 componente para la segunda etapa y 4 componentes para la tercera etapa.

9
EJEMPLO

Figura 1: EJEMPLO: La diligencia

10

También podría gustarte