Está en la página 1de 21

INDICE

MÉTODO CON ETAPAS INFINITAS......................................................................2
1.

MÉTODO DE ENUMERACIÓN EXHAUSTIVA...........................................5

2.

METODO DE ITERACIÓN DE POLITICA SIN DESCUENTO.......................9

3.

MÉTODO DE ITERACIÓN DE POLÍTICA CON DESCUENTO....................15

CONCLUSIONES.......................................................................................... 19
BIBLIOGRAFIA............................................................................................ 19

1

MÉTODO CON ETAPAS INFINITAS
Hay dos métodos para resolver el problema con etapas infinitas. En el primero se deben
evaluar todas las políticas estacionarias del problema de decisión. Esto equivale a un proceso
de enumeración exhaustiva y sólo se puede usar si la cantidad de políticas estacionarias es
razonablemente pequeña. El segundo método, llamado iteración de política, en general es más
eficiente, porque determina en forma iterativa la política óptima (Thaja, 2004)
Ejemplo
Cada año, al comenzar la estación para trabajar los jardines (de marzo a septiembre) un
jardinero usa una prueba química para determinar el estado del suelo. Dependiendo de los
resultados de las pruebas, la productividad para la nueva estación cae en uno de tres estados:
1) bueno, 2) regular y 3) malo.
A través de los años el jardinero observó que las condiciones meteorológicas prevalecientes
durante el invierno (de octubre a febrero) juegan un papel importante en la determinación de
la condición del suelo, dejándolo igual o empeorándolo, pero nunca mejorándolo. En este
respecto, el estado del suelo en el año anterior es un factor importante para la productividad
del presente año. Usando los datos de las pruebas hechas por el jardinero, las probabilidades
de transición durante un periodo de un año, de un estado de productividad a otro, se
representa con la siguiente cadena de Markov: (Thaja, 2004)

2

o se volverán malas (estado 3) con una probabilidad de 0. Por ejemplo. 2004) 3 . Como el jardinero tiene la opción de usar fertilizante o no. el jardinero asocia una función de ingreso (o una estructura de recompensa) con la transición de un estado a otro. Las matrices R1 y R2 resumen las funciones de ingreso. respectivamente (Thaja. la productividad en el próximo año permanecerá regular con una probabilidad de 0. dependiendo de los estados entre los que se hace la transición.5. y se produce la siguiente matriz de transición: (Thaja. la ganancia o la pérdida varían dependiendo de la decisión tomada. 2004) El jardinero puede alterar las probabilidades de transición P1 con otras acciones. en cientos de $.Las probabilidades de transición en P1 indican que la productividad de determinado año no puede ser mejor que la del año anterior. La función de ingreso expresa la ganancia o la pérdida durante un periodo de 1 año. se aplica fertilizante para mejorar las condiciones del suelo. (Thaja. si las condiciones del suelo en el presente año son regulares (estado 2). En el caso normal. correspondientes a las matrices P1 y P2.5. 2004) Para poner en perspectiva el problema de decisión.

se debe conocer si la actividad de jardinería continuará durante una cantidad limitada de años. Por ejemplo. o en forma indefinida. ¿Qué clase de problema de decisión tiene el jardinero? Primero. si las condiciones del suelo fueron regulares el año anterior (estado 2) y se vuelven malas (estado 3) en este año. el jardinero usa el resultado de las pruebas químicas (estado del sistema) para determinar la mejor acción (fertilizar o no) que maximice el ingreso esperado. al jardinero le puede interesar evaluar el ingreso esperado que resulte de las acciones especificadas de antemano para determinado estado del sistema. (Thaja. Se dice que el proceso de toma de decisiones en este caso se representa por una política estacionaria. que se obtienen a partir de las matrices P1. para la política estacionaria de aplicar fertilizante sólo cuando las condiciones del suelo sean malas (estado 3). R expresa la recompensa neta después de haber introducido el costo del fertilizante. 2004) También. (Thaja. P2. su ganancia será r 23 2 = 0 en comparación con r 23 1= 1 cuando no se usa fertilizante. En ambos casos. Aestos casos se les llama problemas de decisión con etapas finitas o con etapas infinitas. R1 y R2. se puede aplicar fertilizante siempre que las condiciones del suelo sean malas (estado 3). 2004) Cada política estacionaria corresponderá a matrices de transición y de ingreso distintas. 2004) 4 . Por ejemplo. 2004) A este respecto. las matrices resultantes de transición y de ingreso son: (Thaja.Los elementos rij2 de R2 tienen en cuenta el costo de aplicar el fertilizante. (Thaja. Por ejemplo.

las matrices asociadas con la aplicación del fertilizante (Thaja. que se toman directamente de P2 y R2. 2004) Paso 2. cuando existen. S... . i = 1. (Thaja. el ingreso esperado de un paso (un periodo) de la política s.. y supondremos que Ps y Rs son las matrices de transición y de ingreso (de un paso) correspondientes a la política. Estas probabilidades. Calcule V si . (Thaja. Calcule transición P s π si . 2. Una de las objeciones principales que presenta éste método es el número de variables. a partir de los valores tomados para las variables enteras y realizar todas las combinaciones posibles hasta encontrar una combinación que nos proporcione el valor óptimo de la función objetivo y que cumpla con todas las restricciones del problema. las probabilidades estacionarias a largo plazo de la matriz de asociadas con la política s. 2004) Supongamos que el problema de decisión tiene S políticas estacionarias. ya que se presentan demasiadas combinaciones antes de encontrar la solución óptima. s = 1. 2. m. 2004) Paso 1.. Los pasos del método de enumeración son los siguientes: (Thaja.. dado el estado i.Estas matrices son distintas de P1 y R1 sólo en los terceros renglones. 2004) 5 . . MÉTODO DE ENUMERACIÓN EXHAUSTIVA Consiste en enumerar todas las soluciones posibles.. se calculan con las ecuaciones (Thaja. 2004) 1.

Se determina la política óptima s* tal que: (Thaja.E Paso 3. como se ve en la siguiente tabla: (Thaja. (Thaja. Determine s . el ingreso esperado de la política s por paso (periodo) de transición. 2004) Ilustraremos el método resolviendo el problema del jardinero con un horizonte de planeación de periodos infinitos. y son las siguientes: 6 . 2004) Las matrices P s y R s de las políticas 3 a 8 se deducen de las correspondientes a las políticas 1 y 2. con la fórmula (Thaja. 2004) Paso 4. 2004) Ejemplo: El problema del jardinero tiene un total de ocho políticas estacionarias.

las ecuaciones correspondientes son (Observe que una de las tres primeras ecuaciones es redundante. se pueden calcular los valores de V i que aparecen en la tabla siguiente: Los cálculos de las probabilidades estacionarias se hacen con las ecuaciones Por ejemplo.) La solución es: 7 .s Así. si s =2.

observe que cada una de las políticas 1.) (Thaja. La política óptima a largo plazo es aplicar fertilizante independientemente del estado del sistema. 2004) 8 . 3. (Thaja. 4 y 6 tiene un estado absorbente: el estado 3. 2004) La política 2 produce el máximo ingreso anual esperado. (Aunque no afectará esto a los cálculos en modo alguno. Es la razón por la que π 1=π 2=0 y π3 = 1 para todas esas políticas. el ingreso anual esperado es: En la tabla siguiente se resumen πs y Es para todas las políticas estacionarias.En este caso.

METODO DE ITERACIÓN DE POLITICA SIN DESCUENTO El método de iteración por política está basado principalmente en el desarrollo siguiente. i=1. que define a la etapa n. se debe modificar un poco la forma actual.2. 2004) m f η ( i )=v i+ ∑ P ij f η−1 ( j ) .2.m j=1 Esta acción recursiva es la base del desarrollo del método de iteración de política.2... Es distinto de n en la ecuación. i=1.… … . se puede estudiar el comportamiento asintótico del proceso haciendo que Ham04 \l 13322 η →∝ CITATION (Thaja..3. La ecuación recursiva se escribe entonces como sigue: (Thaja. m j=1 Obsérvese que f η es el ingreso esperado acumulado si η es la cantidad de etapas que faltan por considerar. . Se definirá como la cantidad de etapas restantes por considerar. para permitir el estudio del comportamiento asintótico del proceso. 2004) Ya que 9 . … … . Con la nueva definición. . Para cualquier política específica el rendimiento total esperado en la etapa n se expresa atraves de la ecuación recursiva (Thaja. Sin embargo. 2004) m f n ( i )=v i+ ∑ P ij f n+1 ( j ) .

se puede demostrar que cuando es muy grande. se puede ver en es igual a ηE para tener en cuenta el estado específico i η→∞ etapas restantes. la ecuación recursiva se escribe como sigue: 10 . π 2 v 2 +… … . … … .π =( π 1 . π 2 . π m v m ) es el ingreso esperado por etapa. . π m) Es el vector de probabilidades de estado estable de la matriz de transición P=∥ pij ∥ y π =(π 1 v 1 . (Thaja. 2004) Ahora. como se calculó en el problema anterior. 2004) f η ( i )=ηE+ f (i) Donde f ( i ) es un término constante que representa la intersección asintótica de f η dado el estado i Ya que f η ( i ) es el ingreso óptimo acumulado cuando hay η dado el estado i y como E forma intuitiva por qué f η ( i ) es el ingreso esperado por etapa. CITATION Ham04 \l 13322 más un factor de corrección f (i) . con esta información. . En este resultado se supone que (Thaja.

m j=1 Luego se simplifica y se obtiene m E+ f ( i )−∑ P ij f ( j ) =v i . 2004) El proceso iterativo termina cuando hay dos políticas sucesivas que son idénticas. el valor óptimo de E m ecuaciones con m+ 1 no se puede determinar en un paso.m ηE+ f (i ) =v i + ∑ Pij {( η−1 ) E+f ( j) } . i=1. que f s ( m ) =0 . a partir de una política arbitraria.. f(1).2.2. en forma arbitraria. 2004) m E + f ( i )−∑ P ij f ( j )=v i . .. m j=1 En este caso hay m m ecuaciones con +1 incógnitas. (Thaja. el objetivo es determinar la política óptima que produce el valor máximo de E . . Como hay incógnitas.i =1.. . determina una nueva política que produce un valor mejor de E . 2004) Como en el problema anterior .i=1. … . … . Con sus matrices correspondientes Ps y Rs y suponiendo. 1º Paso de determinación de valor: Se elige la política s en forma arbitraria.2. f(m) y E.m S s S s j=1 11 . . se resuelven las ecuaciones (Thaja. f(2).… . En lugar de ello se usa un método iterativo de dos pasos que. (Thaja.

t es óptima. (Thaja. En caso contrario.. f s (1). 2004) Los valores de f s ( j ) . determinar la política t que corresponde a (Thaja. . Si s y t son idénticas. 2. y m son la nueva política t. 2004) Las ecuaciones del paso de iteración de valores son 12 . y f s (m – 1).. m son los que se determinan en el paso de determinación de valor.. Continuar en el paso de mejoramiento de política 2º Paso de mejoramiento de política: Para cada estado i. j=1. hacer s = t y regresar al paso de determinación de valor..... Las matrices correspondientes son (Thaja. … . 2004) Ejemplo Se resolverá el problema del jardinero con el método de iteración de política.2. Las decisiones óptimas resultantes para los estados 1.. Se comienza con la política arbitraria que indica no aplicar fertilizante.Con las incógnitas E S .

Los cálculos correspondientes se ven en el cuadro siguiente. (Thaja. la solución de las ecuaciones es Continuación se aplica el paso de mejoramiento de política. 2004) 13 .Si en forma arbitraria f(3) = 0. Como es distinta de la anterior. 2004) Cuadro nº 01 mejoramiento de la calidad Fuente: investigación de operaciones La nueva política indica aplicar fertilizante independientemente del estado. Las matrices correspondientes a la nueva política son (Thaja. se hace de nuevo el paso de determinación de valor.

es idéntica a la anterior. que establece aplicar fertilizante independientemente del estado. y termina el proceso 14 .Estas matrices definen las siguientes ecuaciones: De nuevo si f (3) =0. se llega a la solución Los cálculos del paso de mejoramiento de política se ven en el siguiente cuadro Cuadro nº 02 mejoramiento de la calidad Fuente: investigación de operaciones La nueva política. Entonces esta última política es óptima.

el comportamiento de fη(i) a largo plazo. Con base en esta información. En realidad. Es la misma conclusión a la que se llega con el método de enumeración exhaustiva . el valor presente f (i) debe tender a un valor constante cuando η→∞. ésta es una característica normal del nuevo método. porque al descontar. MÉTODO DE ITERACIÓN DE POLÍTICA CON DESCUENTO El algoritmo de iteración de política se puede ampliar para abarcar descuentos. la ecuación recursiva de etapas finitas se puede plantear como sigue: (Thaja. en el que fη(i)=ηE +f (i). (Thaja. obsérvese que el método de iteración de política converge con rapidez hacia al política óptima. cuando η→∞ es independiente del valor de η. 2004) (Nótese que η representa la cantidad de etapas que faltan. el efecto de los ingresos futuros disminuye a cero. fη(i) =f (i).iterativo. si el sistema está en el estado i y funciona durante un horizonte infinito. se modifican como sigue los pasos de iteración de política. (Thaja. Así. Dado el factor de descuento α (< 1). Cabría esperar este resultado. en forma asintótica. Esto contrasta con el caso donde no hay descuentos. siendo f (i) el ingreso a valor presente (descontado).) Se puede demostrar que cuando η→∞ (modelo infinito). Sin embargo. 2004) 3. 2004) 15 .

detenerse. Las matrices asociadas P y R (P1 y R1 en el ejemplo de enumeración exhaustiva) dan las ecuaciones (Thaja. 2004) Ejemplo: Se resolverá el ejemplo con el factor de descuento α=0. 2004) Con las m incógnitas f s(1). f2 = 3. f s(2). .21.61.5 16 . Si la política resultante t es la misma. Paso de mejoramiento de política. t es óptima. f3 = -2.1. En caso contrario... (Thaja. Paso de determinación de valor.1}. determinar la política t que corresponda (Thaja. poner s = t y regresar al paso de determinación de valor.. Para una política arbitraria s con matrices Ps y Rs.1. 2004) f s(j) se obtiene en el paso de determinación de valor. 2004) La solución de estas ecuaciones es f1 = 6.6. 2. Partiremos de la política arbitraria S={1. fs(m). resolver las m ecuaciones (Thaja. Para cada estado i.

37 17 . f (3) = 3.En el siguiente cuadro se presenta un resumen de la iteración de mejoramiento de política: Cuadro nº 03 mejoramiento de la calidad F uente: investigación de operaciones El paso de determinación de valor usando P2 y R2 (Ejemplo de enumeración exhaustiva) produce las siguientes ecuaciones: (Thaja.89. 2004) La solución de esas ecuaciones es f (1) = 8. f (2) = 6.62.

2004) La solución de estas ecuaciones es f (1) = 8. 2) es distinta de la anterior.63. f(3) = 3.El paso de mejoramiento de política da como resultado el siguiente cuadro: Cuadro nº 04 mejoramiento de la calidad Fuente: investigación de operaciones Como la nueva política (1.38 18 . 2.97. se repite el paso de determinación de valor con P3 y R3 (Ejemplo de enumeración exhaustiva). Esto da como resultado las siguientes ecuaciones: (Thaja. f (2) = 6.

es óptima. (Thaja. 2004) 19 . Obsérvese que los descuentos han producido una política óptima distinta que establece no aplicar fertilizante si el estado del sistema es bueno (estado 3).El paso de mejoramiento de política da como resultado el siguiente cuadro: Cuadro nº 04 mejoramiento de la calidad Fuente: investigación de operaciones Como la nueva política (1. 2) es idéntica a la anterior. 2.

CONCLUSIONES 20 .

INVESTIGACION DE APERACIONES SEXTA EDICION . A. (2004).Bibliografía Thaja. H. 21 . Mexico: pearson educacion .