Cadenas y Procesos de Markov

PROCESOS Y CADENAS DE MARKOV
UNIVERSIDAD MARIANO GLVEZ

INGENIERO ERICK LVAREZ
INVESTIGACIN DE OPERACIONES
CADENAS Y PROCESOS DE MARKOV
JONATHAN ISMAEL SANCHEZ MAYORGA

0909-12-2659
19/05/2017.
pg. 2
INDICE
INTRODUCCIN ........................................................................................................................................................1
CADENA DE MARKOV ..............................................................................................................................................2
ALCANCE DEL PROBLEMA DE DECISIN MARKOVIANA: ..........................................................................................3
EL PROBLEMA DEL JARDINERO .............................................................................................................................3
MODELO DE PROGRAMACIN DINMICA CON ETAPAS FINITAS ........................................................................5
MODELO DE PROGRAMACIN DINMICA CON ETAPAS INFINITAS.....................................................................9
Mtodo de enumeracin exhaustiva ...............................................................................................................9
Mtodo de iteracin de poltica sin descuento ............................................................................................. 13
REPRESENTACIN GRAFICA DE UNA MATRIZ DE TRANSICIN: ....................................................................... 20
PROPIEDADES DE UNA MATRIZ DE TRANSICIN: ................................................................................................. 20
ELEMENTOS DE UNA CADENA DE MARKOV ...................................................................................................... 20
CONCLUSIONES ..................................................................................................................................................... 21
E-GRAFA Y BIBLIOGRAFA ..................................................................................................................................... 22
INTRODUCCIN
Los procesos de decision markoviana son tiles para estudiar la evolucin de sistemas a lo
largo de ensayos repetidos, que a menudo, son perodos sucesivos donde el estado del
sistema, en cualquier perodo particular, no puede determinarse con certeza son llamados
tambin markovianos.
Es til para describir la probabilidad de que una mquina siga funcionando o se estropeara en
el siguiente periodo y tambin de que un consumidor que compra la marca A en un periodo
compre la marca B en el siguiente perodo.
pg. 1
CADENA DE MARKOV
Una cadena de Markov es una sucesin de ensayos similares u observaciones en la cual
cada ensayo tiene el mismo nmero finito de resultados posibles y en donde la probabilidad
de cada resultado para un ensayo dado depende slo del resultado del ensayo
inmediatamente precedente y no de cualquier resultado previo.
Propiedad de Markov: Dada una secuencia de variables aleatorias X1, X2, X3,......, tales
que el valor de Xn es el estado del proceso en el tiempo n. Si la distribucin de probabilidad
condicional de X n +1 en estados pasados es una funcin de X n por si sola, entonces:
P(Xn+1 = xn+1/Xn = xn, Xn1 = xn1,....X2 = x2, X1 = x1 ) = P(Xn+1 = xn+1/Xn = xn )
Donde xi es el estado del proceso en el instante i.
Esta identidad es la denominada propiedad de Markov: El estado en t + 1 solo depende del
estado en t y no de la evolucion anterior del sistema
Al trabajar con cadenas de Markov, a menudo es util pensar la sucesion de ensayos como
experimentos efectuados en cierto sistema fis ico, cada resultado dejando a este sistema en
cierto estado.
Por ejemplo, consideremos una sucesion de elecciones polit icas en cierto pais : el sistema
podria tomarse como el pais mismo y cada eleccion lo dejaria en cierto estado, es decir en el
control del partido ganador. Si solo hay dos partidos polit icos fuertes, llamados A y B, los que
por lo regular controlan el gobierno, entonces podemos decir que el pais se encuentra en el
estado A o B si el partido A o B ganara la eleccion. Cada ensayo (o sea cada eleccion), coloca
al pais en uno de los dos estados A o B. Una sucesion de 10 elecciones podria producir
resultados tales como los siguientes:
A,B,A,A,B,B,B,A,B,B
La primera eleccion en la sucesion deja en el poder al partido A, la segunda fue ganada
por el partido B, y asi sucesivamente, hasta que la decima eleccion la gane el partido B.
Supongamos que las probabilidades de que el partido A o B ganen la proxima eleccion son
determinadas por completo por el partido que esta en el poder ahora. Por ejemplo podria
mos
tener las probabilidades siguientes:
Si el partido A esta en el poder, existe una probabilidad de 14 que el partido A ganara
la proxima eleccion y una probabilidad de 34 de que el partido B gane la eleccion
siguiente.
Si el partido B esta en el poder, hay una probabilidad de 1/3 de que el partido A gane la
eleccion siguiente y una probabilidad de 2/3 que el partido B permanezca en el poder.
pg. 2
En tal caso, la sucesion de elecciones forman una

cadena de Markov, dado que las probabilidades de
los dos resultados de cada eleccion estan
determinadas por el resultado de la eleccion
precedente.
Lo descrito anteriormente puede representarse
grficamente usando la siguiente red: Los cir culos
A y B se denominan nodos y representan los
estados del proceso, las flechas que van de un nodo a si mismo o al otro son los arcos y
representan la probabilidad de cambiar de un estado al otro
La informacion probabilis tica que se

acaba de dar se puede representar de
manera conveniente por la siguiente
matriz:
ALCANCE DEL PROBLEMA DE DECISIN MARKOVIANA:

EL PROBLEMA DEL JARDINERO
Usaremos un ejemplo para presentar los detalles del proceso markoviano de decisin (o
proceso de decisin markoviana). El ejemplo ilustra varias aplicaciones importantes en las
reas de inventarios, reposiciones, administracin del flujo de efectivo y control de la capacidad
de los depsitos de agua. Cada ao, al comenzar la estacin para trabajar los jardines (de
marzo a septiembre) un jardinero usa una prueba qumica para determinar el estado del suelo.
Dependiendo de los resultados de las pruebas, la productividad para la nueva estacin cae en
uno de tres estados: 1) bueno, 2) regular y 3) malo. A travs de los aos el jardinero observ
que las condiciones meteorolgicas prevalecientes durante el invierno (de octubre a febrero)
juegan un papel importante en la determinacin de la
condicin del suelo, dejndolo igual o empeorndolo,
pero nunca mejorndolo. En este respecto, el estado
del suelo en el ao anterior es un factor importante
para la productividad del presente ao. Usando los
pg. 3
datos de las pruebas hechas por el jardinero, las probabilidades de transicin durante un
periodo de un ao, de un estado de productividad a otro, se representa con la siguiente cadena
de Markov:
Las probabilidades de transicin en P1 indican que la productividad de determinado ao no

puede ser mejor que la del ao anterior. Por ejemplo, si las condiciones del suelo en el presente
ao son regulares (estado 2), la productividad en el prximo ao permanecer regular con una
probabilidad de 0.5, o se volvern malas (estado 3) con una probabilidad de 0.5. El jardinero
puede alterar las probabilidades de transicin P1 con otras acciones. En el caso normal, se
aplica fertilizante para mejorar las condiciones del suelo, y se produce la siguiente matriz de
transicin:
Para poner en perspectiva el problema de decisin, el jardinero

asocia una funcin de ingreso (o una estructura de recompensa) con la transicin de un estado
a otro. La funcin de ingreso expresa la ganancia o la prdida durante un periodo de 1 ao,
dependiendo de los estados entre los que se hace la transicin. Como el jardinero tiene la
opcin de usar fertilizante o no, la ganancia o la prdida varan dependiendo de la decisin
tomada. Las matrices R1 y R2 resumen las funciones de ingreso, en cientos de $,
correspondientes a las matrices P1 y P2, respectivamente.
Los elementos r2ij de R2 tienen en cuenta el costo de aplicar el fertilizante. Por ejemplo, si las
condiciones del suelo fueron regulares el ao anterior (estado 2) y se vuelven malas (estado
3) en este ao, su ganancia ser r223 = 0 en comparacin con r123= 1 cuando no se usa
fertilizante. A este respecto, R expresa la recompensa neta despus de haber introducido el
costo del fertilizante.
Qu clase de problema de decisin tiene el jardinero? Primero, se debe conocer si la actividad

de jardinera continuar durante una cantidad limitada de aos, o en forma indefinida. A estos
casos se les llama problemas de decisin con etapas finitas o con etapas infinitas. En ambos
pg. 4
casos, el jardinero usa el resultado de las pruebas qumicas (estado del sistema) para
determinar la mejor accin (fertilizar o no) que maximice el ingreso esperado.
Tambin, al jardinero le puede interesar evaluar el ingreso esperado que resulte de las
acciones especificadas de antemano para determinado estado del sistema. Por ejemplo, se
puede aplicar fertilizante siempre que las condiciones del suelo sean malas (estado 3). Se dice
que el proceso de toma de decisiones en este caso se representa por una poltica estacionaria.
Cada poltica estacionaria corresponder a matrices de transicin y de ingreso distintas, que

se obtienen a partir de las matrices P1, P2, R1 y R2. Por ejemplo, para la poltica estacionaria
de aplicar fertilizante slo cuando las condiciones del suelo sean malas (estado 3), las matrices
resultantes de transicin y de ingreso son:
Estas matrices son distintas de P1 y R1 slo en los terceros renglones, que se toman
directamente de P2 y R2, las matrices asociadas con la aplicacin del fertilizante.
MODELO DE PROGRAMACIN DINMICA CON ETAPAS FINITAS

Supongamos que el jardinero desea jubilarse de la jardinera dentro de N aos. Lo que
interesa es determinar las acciones ptimas de cada ao (fertilizar o no) que produzcan los
ingresos esperados mximos al final de N aos. Sean k = 1 y 2 las dos acciones (alternativas)
disponibles para el jardinero. Las matrices Pk y Rk que representan las probabilidades de
transicin y la funcin de recompensa para la alternativa k se presentaron en la seccin
anterior, y se muestran a continuacin para mayor comodidad.
pg. 5
El problema del jardinero se expresa como un modelo de programacin dinmica de etapas

finitas como sigue. Para generalizar, se definen
m = Cantidad de estados en cada etapa (ao) (= 3 en el problema del jardinero)
fn(i) = Ingreso ptimo esperado de las etapas n, n = 1, ..., N, cuando i es el estado del sistema
(condiciones del suelo) al comenzar el ao n
La ecuacin recursiva en reversa que relaciona a fn con fn+1 es
en donde fN+1(j) = 0 para toda j.
Una justificacin de esta ecuacin es que el ingreso acumulado, rijk + fn+1(j) que resulta de
alcanzar el estado j en la etapa n + 1 desde el estado i en la etapa n tiene la probabilidad p ijk
de suceder. Sea
La ecuacin recursiva de programacin dinmica se puede escribir en la forma
Para ilustrar el clculo de vik, veamos el caso en donde no se usa fertilizante (k = 1).
As, si la condicin del suelo es buena, una sola transicin produce 5.3 para ese ao, si es
regular la productividad es 3; y si es mala, la productividad es -1.
pg. 6
EJEMPLO 1:
En este ejemplo se resolver el problema del jardinero con los datos resumidos en las matrices
P1, P2, R1 y R2, dado un horizonte de 3 aos (N = 3). Como se usarn los valores de vik en
forma repetida en los clculos, se resumen aqu por comodidad. Recurdese que k = 1
representa no fertilizar, y k = 2 representa fertilizar.
Etapa 3:
Etapa 2:
Etapa 1:
pg. 7
La solucin ptima indica que para los aos 1 y 2, el jardinero debe aplicar fertilizante (k* = 2)
independientemente del estado del sistema (condiciones del suelo, determinadas por medio
de las pruebas qumicas). En el ao 3 se debe aplicar fertilizante slo si el sistema est en el
estado 2 o 3 (condiciones del suelo, regulares o malas). Los ingresos totales esperados en los
tres aos son f1(1) = 10.74, si el estado del sistema en el ao 1 es bueno, f 1(2) = 7.92, si es
regular, y f1(3) = 4.23 si es malo.
El problema del horizonte finito se puede generalizar de dos modos. En el primero, las
probabilidades de transicin y sus funciones de ingreso no necesitan ser iguales en todos los
aos. En el segundo, se puede aplicar un factor de descuento al ingreso esperado de las
etapas sucesivas, de modo que f1(i) sea el valor presente de los ingresos esperados para todas
las etapas. En la primera generalizacin se requiere que los valores de ingreso rijk y las
probabilidades de transicin pijk sean funciones de la etapa n, como muestra la siguiente
ecuacin recursiva de programacin dinmica:
en la que
En la segunda generalizacin, dado que (<1) es el factor de descuento por ao, tal
que $D dentro de un ao tienen un valor de $D, la nueva ecuacin recursiva es
pg. 8
MODELO DE PROGRAMACIN DINMICA CON ETAPAS INFINITAS

Hay dos mtodos para resolver el problema con etapas infinitas. En el primero se deben
evaluar todas las polticas estacionarias del problema de decisin. Esto equivale a un proceso
de enumeracin exhaustiva y slo se puede usar si la cantidad de polticas estacionarias es
razonablemente pequea. El segundo mtodo, llamado iteracin de poltica, en general es ms
eficiente, porque determina en forma iterativa la poltica ptima.
Mtodo de enumeracin exhaustiva

Supongamos que el problema de decisin tiene S polticas estacionarias, y supondremos que
Ps y Rs son las matrices de transicin y de ingreso (de un paso) correspondientes a la poltica,
s = 1, 2, S. Los pasos del mtodo de enumeracin son los siguientes:
Paso 1. Calcule vsi, el ingreso esperado de un paso (un periodo) de la poltica s, dado el estado
i, i = 1, 2, m.
Paso 2. Calcule si, las probabilidades estacionarias a largo plazo de la matriz de transicin
Ps asociadas con la poltica s. Estas probabilidades, cuando existen, se calculan con las
ecuaciones
en donde
Paso 3. Determine Es, el ingreso esperado de la poltica s por paso (periodo) de transicin,
con la frmula
Paso 4. Se determina la poltica ptima s* tal que
pg. 9
Ejemplo 2:
Ilustraremos el mtodo resolviendo el problema del jardinero con un horizonte de planeacin

de periodos infinitos.
El problema del jardinero tiene un total de ocho polticas estacionarias, como se ve en la

siguiente tabla:
Las matrices Ps y Rs de las polticas 3 a 8 se deducen de las correspondientes a las polticas

1 y 2, y son las siguientes:
As, se pueden calcular los valores de vsi que aparecen en la

tabla siguiente.
pg. 10
Los clculos de las probabilidades estacionarias
Se hacen con las ecuaciones
Por ejemplo, si s = 2, las ecuaciones correspondientes son
(Hay que observar que una de las tres primeras ecuaciones es redundante.) La solucin es
En este caso, el ingreso anual esperado es
En la tabla siguiente se resumen s y Es para todas las polticas estacionarias. (Aunque no

afectar esto a los clculos en modo alguno, observe que cada una de las polticas 1, 3, 4 y 6
tiene un estado absorbente: el estado 3. Es la razn por la que 1 = 2 = 0 y 3 = 1 para todas
esas polticas.)
La poltica 2 produce el mximo ingreso anual esperado. La poltica ptima a largo plazo es
aplicar fertilizante independientemente del estado del sistema.
pg. 11
pg. 12
Mtodo de iteracin de poltica sin descuento

Para apreciar la dificultad asociada al mtodo de enumeracin exhaustiva, supondremos que
el jardinero tiene cuatro acciones (alternativas) en lugar de dos: 1) no fertilizar, 2) fertilizar una
vez durante la estacin, 3) fertilizar dos veces y 4) fertilizar tres veces. En este caso, el jardinero
tendra un total de 43 = 256 polticas estacionarias. Al aumentar la cantidad de alternativas de
2 a 4, la cantidad de polticas estacionarias se dispara en forma exponencial, de 8 a 256. No
slo es difcil enumerar en forma explcita a todas las polticas, sino que tambin la cantidad
de clculos puede ser grande y prohibitiva. Es la razn por la que interesa desarrollar el mtodo
de iteracin de poltica. En el modelo de programacin dinmica con etapas finitas, se
demostr que, para cualquier poltica especfica, el ingreso esperado total en la etapa n se
expresa con la ecuacin recursiva
Esta accin recursiva es la base del desarrollo del mtodo de iteracin de poltica. Sin
embargo, se debe modificar un poco la forma actual, para permitir el estudio del
comportamiento asinttico del proceso. Se definir como la cantidad de etapas restantes por
considerar. Es distinto de n en la ecuacin, que define a la etapa n. La ecuacin recursiva se
escribe entonces como sigue:
Obsrvese que fes el ingreso esperado acumulado si es la cantidad de etapas que faltan por
considerar. Con la nueva definicin, se puede estudiar el comportamiento asinttico del
proceso haciendo que
Ya que
es el vector de probabilidades de estado estable de la matriz de transicin
es el ingreso esperado por etapa, como se calcul en la seccin 19.3.1, se puede demostrar
que cuando es muy grande,
donde f (i) es un trmino constante que representa la interseccin asinttica de f dado el

estado i. Ya que f(i) es el ingreso ptimo acumulado cuando hay etapas restantes, dado el
estado i, y como E es el ingreso esperado por etapa, se puede ver en forma intuitiva por qu
pg. 13
f (i) es igual a E ms un factor de correccin f(i) para tener en cuenta el estado especfico i.
En este resultado se supone que
Ahora, con esta informacin, la ecuacin recursiva se escribe como sigue:
Se simplifica y se obtiene
En este caso hay m ecuaciones con m 1 incgnitas, f(1), f(2), ..., f(m) y E.
Como en la seccin 19.3.1, el objetivo es determinar la poltica ptima que produce el valor
mximo de E. Como hay m ecuaciones con m 1 incgnitas, el valor ptimo de E no se puede
determinar en un paso. En lugar de ello se usa un mtodo iterativo de dos pasos que, a partir
de una poltica arbitraria, determina una nueva poltica que produce un valor mejor de E. El
proceso iterativo termina cuando hay dos polticas sucesivas que son idnticas.
1. Paso de determinacin de valor. Se elige la poltica s en forma arbitraria. Con sus matrices
correspondientes Ps y Rs y suponiendo, en forma arbitraria, que fs(m) = 0, se resuelven las
ecuaciones.
con las incgnitas Es,fs(1), ..., y fs(m 1). Continuar en el paso de mejoramiento de poltica.
2. Paso de mejoramiento de poltica. Para cada estado i, determinar la poltica t que

corresponde a
Los valores de fs(j), j = 1, 2, ..., m son los que se determinan en el paso de determinacin de
valor. Las decisiones ptimas resultantes para los estados 1, 2, y m son la nueva poltica t.
Si s y t son idnticas, t es ptima. En caso contrario, hacer s = t y regresar al paso de
determinacin de valor.
pg. 14
Ejemplo 3:
Se resolver el problema del jardinero con el
mtodo de iteracin de poltica. Se comienza
con la poltica arbitraria que indica no aplicar
fertilizante. Las matrices correspondientes son
Las ecuaciones del paso de iteracin de

valores son
Si en forma arbitraria f(3) = 0, la solucin de las ecuaciones es
A continuacin se aplica el
paso de mejoramiento de
poltica. Los clculos
correspondientes se ven en
el cuadro siguiente.
La nueva poltica indica aplicar fertilizante independientemente del estado. Como es distinta
de la anterior, se hace de nuevo el paso
de determinacin de valor. Las matrices
correspondientes a la nueva poltica son
Estas matrices definen las siguientes

ecuaciones:
De nuevo si f(3) = 0, se llega a la solucin
pg. 15
Los clculos del paso de

mejoramiento de poltica se ven en
el siguiente cuadro.
La nueva poltica, que establece aplicar fertilizante independientemente del estado, es idntica
a la anterior. Entonces esta ltima poltica es ptima, y termina el proceso iterativo. Es la misma
conclusin a la que se llega con el mtodo de enumeracin exhaustiva. Sin embargo,
obsrvese que el mtodo de iteracin de poltica converge con rapidez hacia la poltica ptima;
sta es una caracterstica normal del nuevo mtodo.
Mtodo de iteracin de poltica con descuento
El algoritmo de iteracin de poltica se puede ampliar para abarcar descuentos. Dado el factor
de descuento (< 1), la ecuacin recursiva de etapas finitas se puede plantear como sigue
(Ntese que representa la cantidad de etapas que faltan.) Se puede demostrar que cuando
(modelo infinito), f (i) = f(i), siendo f(i) el ingreso a valor presente (descontado), si
el sistema est en el estado i y funciona durante un horizonte infinito. As, el comportamiento
de f (i) a largo plazo, cuando es independiente del valor de . Esto contrasta
con el caso donde no hay descuentos, en el que Cabra esperar este resultado,
porque al descontar, el efecto de los ingresos futuros disminuye a cero, en forma asinttica.
En realidad, el valor presente f(i) debe tender a un valor constante cuando
Con base en esta informacin, se modifican como sigue los pasos de iteracin de poltica.
1. Paso de determinacin de valor. Para una poltica arbitraria s con matrices Ps y Rs, resolver
las m ecuaciones
con las m incgnitas fs(1), fs(2), ..., fs(m).
pg. 16
2. Paso de mejoramiento de poltica. Para cada estado i, determinar la poltica t que

corresponda a
fs(j) se obtiene en el paso de determinacin de valor. Si la poltica resultante t es la misma,

detenerse; t es ptima. En caso contrario, poner s = t y regresar al paso de determinacin de
valor.
pg. 17
Ejemplo 4:
Se resolver el ejemplo anterior (problema del jardinero) con el factor de descuento =0.6.
Partiremos de la poltica arbitraria s = {1, 1, 1}. Las matrices asociadas P y R (P1 y R1 en el
ejemplo 19.3-1) dan las ecuaciones
La solucin de estas ecuaciones es
En el siguiente cuadro se presenta un resumen de la iteracin de mejoramiento de poltica:
El paso de determinacin de valor usando P2 y R2 (Ejemplo 19.3-1) produce las siguientes

ecuaciones:
La solucin de esas ecuaciones es
El paso de mejoramiento de poltica da como resultado el siguiente cuadro:

pg. 18
Como la nueva poltica (1, 2, 2) es distinta de la anterior, se repite el paso de determinacin de

valor con P3 y R3 (Ejemplo 19.3-1). Esto da como resultado las siguientes ecuaciones:
La solucin de estas ecuaciones es
El paso de mejoramiento de poltica da como resultado el siguiente cuadro:
Como la nueva poltica (1, 2, 2) es idntica a la anterior, es ptima. Obsrvese que los
descuentos han producido una poltica ptima distinta que establece no aplicar fertilizante si el
estado del sistema es bueno (estado 3).
pg. 19
REPRESENTACIN GRAFICA DE UNA MATRIZ DE TRANSICIN:

Es el arreglo numrico donde se condensa las probabilidades de un estado a otro. A
travs de una grfica de matriz de transicin se puede observar el comportamiento estacionario
representado por una cadena de Markov tal que los estados representan la categora en que
se encuentre clasificado. Como se aprecia a continuacin:
PROPIEDADES DE UNA MATRIZ DE TRANSICIN:

1- la suma de las probabilidades de los estados debe ser igual a 1.
2- la matriz de transicin debe ser cuadrada.
3- las probabilidades de transicin deben estar entre 0 y 1.
ELEMENTOS DE UNA CADENA DE MARKOV

Un conjunto finito de M estados, exhaustivos y mutuamente excluyentes (ejemplo:
estados de la enfermedad)
Ciclo de Markov (paso) : periodo de tiempo que sirve de base para examinar las
transiciones entre estados (ejemplo, un mes)
Probabilidades de transicin entre estados, en un ciclo (matriz P)
Distribucin inicial del sistema entre los M estados posibles
pg. 20
CONCLUSIONES
Este mtodo es muy importante, ya que ha comenzado a usarse en los ltimos aos
como instrumento de investigaciones de mercadotecnia, para examinar y pronosticar el
comportamiento de los clientes desde el punto de vista de su lealtad a una marca y de
sus formas de cambio a otras marcas, la aplicacin de esta tcnica, ya no solo se limita
a la mercadotecnia sino que su campo de accin se ha podido aplicar en diversos
campos.
pg. 21
E-GRAFA Y BIBLIOGRAFA
http://www.bioingenieria.edu.ar/academica/catedras/metestad/Cadenas%20de%20Markov-
1.pdf
Investigacin de operaciones, sptima edicin, Hamdy A. Taha, Pearson
Educacin, Mxico 2004.
pg. 22

Cadenas y Procesos de Markov

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Cadenas y Procesos de Markov

Cargado por

Copyright:

Formatos disponibles

PROCESOS Y CADENAS DE MARKOV

UNIVERSIDAD MARIANO GLVEZ

CADENAS Y PROCESOS DE MARKOV

JONATHAN ISMAEL SANCHEZ MAYORGA

En tal caso, la sucesion de elecciones forman una

La informacion probabilis tica que se

ALCANCE DEL PROBLEMA DE DECISIN MARKOVIANA:

Las probabilidades de transicin en P1 indican que la productividad de determinado ao no

Para poner en perspectiva el problema de decisin, el jardinero

Qu clase de problema de decisin tiene el jardinero? Primero, se debe conocer si la actividad

Cada poltica estacionaria corresponder a matrices de transicin y de ingreso distintas, que

MODELO DE PROGRAMACIN DINMICA CON ETAPAS FINITAS

El problema del jardinero se expresa como un modelo de programacin dinmica de etapas

m = Cantidad de estados en cada etapa (ao) (= 3 en el problema del jardinero)

La ecuacin recursiva en reversa que relaciona a fn con fn+1 es

en donde fN+1(j) = 0 para toda j.

La ecuacin recursiva de programacin dinmica se puede escribir en la forma

MODELO DE PROGRAMACIN DINMICA CON ETAPAS INFINITAS

Mtodo de enumeracin exhaustiva

Paso 4. Se determina la poltica ptima s* tal que

Ilustraremos el mtodo resolviendo el problema del jardinero con un horizonte de planeacin

El problema del jardinero tiene un total de ocho polticas estacionarias, como se ve en la

Las matrices Ps y Rs de las polticas 3 a 8 se deducen de las correspondientes a las polticas

As, se pueden calcular los valores de vsi que aparecen en la

Los clculos de las probabilidades estacionarias

Se hacen con las ecuaciones

Por ejemplo, si s = 2, las ecuaciones correspondientes son

En este caso, el ingreso anual esperado es

En la tabla siguiente se resumen s y Es para todas las polticas estacionarias. (Aunque no

Mtodo de iteracin de poltica sin descuento

es el vector de probabilidades de estado estable de la matriz de transicin

donde f (i) es un trmino constante que representa la interseccin asinttica de f dado el

Ahora, con esta informacin, la ecuacin recursiva se escribe como sigue:

2. Paso de mejoramiento de poltica. Para cada estado i, determinar la poltica t que

Las ecuaciones del paso de iteracin de

Si en forma arbitraria f(3) = 0, la solucin de las ecuaciones es

Estas matrices definen las siguientes

De nuevo si f(3) = 0, se llega a la solucin

Los clculos del paso de

Mtodo de iteracin de poltica con descuento

con las m incgnitas fs(1), fs(2), ..., fs(m).

2. Paso de mejoramiento de poltica. Para cada estado i, determinar la poltica t que

fs(j) se obtiene en el paso de determinacin de valor. Si la poltica resultante t es la misma,

La solucin de estas ecuaciones es

En el siguiente cuadro se presenta un resumen de la iteracin de mejoramiento de poltica:

El paso de determinacin de valor usando P2 y R2 (Ejemplo 19.3-1) produce las siguientes

La solucin de esas ecuaciones es

El paso de mejoramiento de poltica da como resultado el siguiente cuadro:

Como la nueva poltica (1, 2, 2) es distinta de la anterior, se repite el paso de determinacin de

La solucin de estas ecuaciones es

El paso de mejoramiento de poltica da como resultado el siguiente cuadro:

REPRESENTACIN GRAFICA DE UNA MATRIZ DE TRANSICIN:

PROPIEDADES DE UNA MATRIZ DE TRANSICIN:

ELEMENTOS DE UNA CADENA DE MARKOV

También podría gustarte