Está en la página 1de 8
195 19.5 Apéndice: repaso de las cadenas de Markov 693 Maximizar SS vig sujetaa Bran oS Spl = P= No Wy = 0, parai= 1,2... k= 120.,K Fjemplo 19.42 En el problema del jardinero, el factor de descuento es « = 0.6, Sise hace que b, = b= by = 1 cl dual del problema lineal se puede escribir como sigue: Maximizar 5.3wy, + 4.7, + 32 + 3. — wy, + 4s sujeta a way + wy, — 0.6[0.204, + 02) + OW: + 05w,)=1 Way + Way — 0.6[0.5iey: + 0.6142 + O.SWey + O.6w. O43] = 1 Way + Way — 0.6(0.3W4) + O.Livy + 0.5, + 03! + Ws + 0.5SW] = 1 Wy, = 0, paratodaiyk La solucion dptima es wy = Wy, = Way = OY Wy = 1.5678, way = 3.3528, y Wye = 2.8145. Esta soluci6n indica que la politica dptima és (1,2, 2). CONJUNTO DE PROBLEMAS 19.40, 1. Formule los siguientes problemas como programas lneales 4) Problema 1, conjunto de problemas 19.3 1) Problema 2, conjunto de problemas 19.35 9 Froblema 3, conjusto de problemas 19.3b APENDICE: REPASO DE LAS CADENAS DE MARKOV Sean los puntos discretos en el tiempo {f,} para k = 1, 2,..., y sea &, la variable aleatoria que caracteriza el estado del sistema en el momento 4, La familia de variables aleatorias (€,} forma un proceso estocéstico, Los estados en el momento (o tiempo) t, representan en reali- dad los resultados (exhaustivos y mutuamente excluyentes) del sistema en ese momento. La cantidad de estados puede, entonces, ser finita 0 infinita, Por ejemplo, 1a distribuciin de Poisson on Pal) n=0,1,2 representa un proceso estocéstico con una cantidad infinita de estados. La variable aleatoria representa la cantidad de ocurrencias entre 0 y ¢, suponiendo que el sistema comienza cuan- do el tiempo es 0. Los estados del sistema en cualquier momento f se expresan entonces por n=0,1,2, 694 195.1 19.5.2 Capitulo 19 Proceso de decisién markoviana iro ejemplo es el lanzamiento de moneda con kintentos. Se puede considerar que cada intento es un punto en el tiempo, La sucesién de intentos que resulta forma tin proceso esto- cAstico. El estado del sistema en cualquier intento es una cruz o una cara En esta seccidn se presenta un resumen de una clase de sistemas estocasticos que inclu ‘ye alos procesos de Markov y a las cadenas de Markov. Una cadena de Markov es un caso especial de los procesos de Markov. Se usa para estudiar el comportamiento de ciertos siste- mas estocésticos a corto y a largo plazo. Procesos de Markov La ocurrencia de un estado futuro en un proceso de Markov depende de el estado inmediata- mente anterior, y sélo de él Si <<... 0,i#j,1sn< 00 En este caso se comunican todos los estados de la cadena, Conjunto cerrado y estados absorbentes, En un proceso de Markov, un conjunto Cde esta dos se llama cerrado si el sistema, una vez en uno de los estados de C, permanece alli por tiempo indefinido, Un cy especial de un conjunto cerrado es un estado tnico E, con pro- Dabilidad de transicii = 1, Enese caso a F, se le llama estado absorbente, Todos los es- tds de una cadena reducible deben format un conjuto cerrado, y ningun subconjunto puede ser cerrado. El conjunto cerrado Ctambién debe satisfacer todas las condiciones de una cadena de Markov. y por consiguiente se puede estudiar en forma independiente 19.5 Apéndice: repaso de las cadenas de Markov 697 off 2 4 ol ah A | rele g is aloo 8 a] Esta cadena se ilustra en forma grafica en la figura 19.1. Alli se ve que los cuatro estados no constituyen una cadena irreducible, porque desde el estado 3 no se puede llegar a los estados 0, Ly 2, Elestado 3 en sf forma un conjunto cerrado y en consecuencia es absorbente. Tam- bién se puede decir que el estado 3 forma una cadena irreducible. FIGURA19.1 [Bjemplo de los estados de una cadena Matkow Primeros tiempos de retorno, Una definiisn importante en la teorfa dels cadenas de Mar- ov es el tiempo de primer retorno, Sil sistema est iniialmente en el estado Z puede re- gresar al estado E; por primera vez en el nésimo paso, n= 1. La cantidad de pasos para que el sistema regrese a Z, se llama tiempo de primer retorno, Sea fla probabilidad de que el primer retorno aH, suceda en el nésimo paso. Enton- ces, sila matt de transicin es P= Isl se puede llegar a una ecuacién de J como sigue >, J Por induccién, SG = Bp — Sp om La probabilidad de que haya cuando menos un retomo al estado E, se determina enton- 4-3 698 Capitulo 18 Proceso de decisién markoviana Asi, es soguro que el sistema regresa ajsi f= 1. En este caso, sity define al tiempo prome- dio de retomo (de recurrencia) i by Si f, < 1, no es segura que el sistema regrese a E, y en consecuencia, sy Las estados de una cadena de Markov se pueden clasificar con base en la definicién del tiempo de primer retormo como sigue: Un estado es transitorio si f, < 1; esto es, si ny = Un estado es recurrente (persistente) si fj = 1 Un estado recurrente es milo si shy ~ 0° y es no nulo si pty < 9°, Un estado es periédico con periodo fi es posible un retorno sélo en & 26.36... pa- sos. Esto quiere decir que p? = 0 siempre que nino es divisible entre 5. Unestado recurrente es ergédico si es no mulo y aperiédico (no periéico) Si todos los estados de una cadena de Markov son ergéidicos, la cadena es irreducible. Eneste caso, las probabilidades absolutas at = ap" siempre converge en forma tinica a una distribucién limite cuando n —> 00, donde la distribu- cin limite es independiente de las probabilidades iniciales a” El siguiente teorema es pertinente Teorema 19.5-1, Todos los estados de una cadena de Markov irreducible e infinita pueden pertenecer a uno, y sélo uno, de tres estados: transitorio, recurrente nulo y recurrente no nu To, En cada caso, todos las estados se comunican y tienen el mismo periodo. Para el caso es- ppecial en el que la cadena tiene una cantidad finita de estados, Ia cadena no puede consistir sélo de estados transitorios, y tampoco puede contener estados nulos. Distribucién limite de cadenas irreducibles. En el ejemplo 19.5-1 se ve que a medida que aumenta la cantidad de transiciones, la probabilidad absoluta se vuelve independiente de Ta dis- tribucién inicial. Esta es la propiedad de las cadenas de Markov a largo plazo. En esta seccién se presenta la determinacién dela dstribucién limite (a largo plazo) de una cadena irreducible La explicacin se estringira al tipo aperiddico, por ser el tnico ipo necesaro en este texto La existencia de una distibucidn limite en una cadena aperiédica irreducible depende dela clase de sus estados. Ast, ise consideran las tres clases del teorema 19.5-1, se puede enun- ciar el siguiente teorema: Teorema 19.5-2. En una cadena de Markov rredueible y aperiddica 2) Sitodos los estados son transitorias o nulos,entonces pl» 0 cuando -» 60 pata to da i yj, y no existe distribucién limite, D) Sitodos los estados son ergédicas, entonces lima! = 5, j = 0,1,2 195 Apéndice: repaso de las cadenas de Markov 699 en donde, es la distribucién limite (de estado establ). Existen las probabilidades ‘n, en forma tinica, y son independientes de a”, En este caso, se puede determinar ™, a patti del conjunto de ecuaciones? Davy 1-35) Eltiempo medio de recurrencia para el estado j se define entonces por My Ejemplo 19. Para determinar la distribucisn de probabilidades de estado estable en el ejemplo 19.5-1, se tienen my = 0.2m + 0.6m, m= 08m, + 0.4m mtm=t La solucisn es =, = 0.4286 y 1, = 0.5714. Estos resultados se acercan mucho a los valores de renglén en a® del ejemplo 19.5-1 Los tiempos promedio de recurrencia para los estados 1 y 2.son wa = b= 28 17s 1 f= Ejemplo 19.5-4 Se tiene la siguiente cadena de Markov con tres estados: 012 of ¥ 3) paili gt alo} A ésta se le llama matriz doblemente estocdstica, porque Drie Bev in esos casos, las probabilidades de estado estable son ‘Una de las ecuaciones-n, = Ympy es redundante. 700 Capitulo 18 Proceso de decisién markoviana CONJUNTO DE PROBLEMAS 19.5, 1, Clasifique as siguientes cadenas de Markov y determine sus distibuclones estables o Pp 0 ° ° REFERENCIAS SELECCIONADAS Dorman, C, Finite State Markovian Decision Processes, Academic Press, New York, 1970 Howard, R, Dynamic Programming and Markov Processes, MIT Press, Cambridge, MA, 1960,

También podría gustarte