Tema 12

12.
Procesos Estocsticos y Cadenas de Markov
12. Procesos estocsticos y cadenas de

Markov
n Procesos estocsticos
n Cadenas de Markov
n Clasificacin de estados en una cadena de Markov
n Probabilidades en estado estacionario
n Anlisis de estado transitorio
n Proceso de decisin markoviano
Procesos estocsticos.
n Un poceso estocstico de tiempo discreto es una descripcin de la
relacin entre las variables aleatorias X0,X1,...que representan alguna
caracterstica de un sistema en puntos discretos en el tiempo.
n Ejemplo: ruina del jugador: inicialmente tengo 2, en los tiempos 1,2,...
participo en un juego en el que apuesto 1 que gano con probabilidad p y
pierdo con probabilidad 1-p. Dejo de jugar cuando mi capital es 4 o he
perdido todo mi capital. Si Xi es la cantidad de dinero que tengo en el
tiempo i, X0,X1,... es un proceso estocstico.
n Un proceso estocstico de tiempo continuo es un proceso estocstico en
el que el estado del tiempo se puede examinar en cualquier tiempo.
n Ejemplo: nmero de personas en un supermercado a los t minutos de abrir
Carmen M Garca Lpez

Francisco R. Villatoro 1
12. Procesos Estocsticos y Cadenas de Markov
Cadenas de Markov.
n Cadena de Markov: proceso estocstico de tiempo discreto que para
t=0,1,2,... y todos los estados verifica
P(Xt+1=it+1 | Xt=it, Xt-1=it-1, ..., X1=i1, X0=i0)=P(Xt+1=it+1|Xt=it)
Hiptesis de estabilidad: P(Xt+1=j|Xt=i)=pij (no depende de t)
Probabilidades de transicin: pij
p11 p12 L p1s
p p L p2s
Matriz de probabilidades de transicin: P = 21 22
M M O M

s1
p p s2 L pss
s
Se debe verificar: p
j =1
ij =1
Cadenas de Markov.
Las cadenas de Markov que cumplen la hiptesis de estabilidad se

llaman cadenas estacionarias de Markov.
Distribucin inicial de probabilidad de una cadena de Markov:
q=[q1,...,qs] donde qi=P(X0=i)
Carmen M Garca Lpez

Cadenas de Markov.
Ejemplo: la ruina del jugador es una cadena de Markov estacionaria
Estados: 0, 1, 2, 3, 4
Matriz de transicin
1 0 0 0 0
1 p 0 p 0 0

P = 0 1 p 0 p 0

0 0 1 p 0 p
0 0 0 0 1
La matriz de transicin se puede representar con un grafo en el que cada
nodo representa un estado y cada arco la probabilidad de transicin entre
estados.
1-p 1-p 1-p
1 0 1 2 3 4 1
p p p
Probabilidades despus de n pasos.

n Si una cadena de Markov estacionaria est en el estado i en el tiempo
m, cul es la probabilidad de que n perodos despus la cadena est
en el estado j?
P(Xm+n=j|Xm=i)=P(Xn=j|X0=i)=Pij(n)
Pij(n) es la probabilidad en la etapa n de una transicin del estado i al
estado j s
Pij(1)=pij, Pij (2 ) = p ik p kj P ij(n)= elemento ij-simo de Pn

k =1
Probabilidad de estar en el estado j en el tiempo n =

s
q i Pij (n )
i =1
Carmen M Garca Lpez

Clasificacin de estados en una cadena

de Markov.
n Dados dos estados i y j, la trayectoria de i a j es la sucesin de
transiciones que comienza en i y termina en j, de forma que cada
transicin de la secuencia tenga probabilidad positiva.
n Un estado j es alcanzable desde un estado i si hay una trayectoria de
i a j.
n Dos estados i y j se comunican si i es alcanzable desde j y j es
alcanzable desde i.
n Un conjunto de estados S en una cadena de Markov es cerrado
(constituyen una clase de la cadena) sin ningn estado fuera de S es
alcanzable desde un estado en S.
n Un estado i es absorbente si pii=1
Clasificacin de estados en una cadena

de Markov.
n Un estado i es transitorio si hay un estado j alcanzable desde i,pero el
estado i no es alcanzable desde j.
n Un estado es recurrente si no es transitorio.
n Un estado i es peridico con periodo k>1 si k es el menor nmero tal
que todas las trayectorias que parten del estado i y regresan al
estado i tienen una longitud mltiplo de k.
n Si un estado recurrente no es peridico es aperidico.
n Si todos los estado de una cadena son recurrentes, aperidicos y se
comunican entre s, la cadena es ergdica.
Carmen M Garca Lpez

Probabilidades en estado estacionario.

n Si P es la matriz de transicin de una cadena ergdica de s estados
entonces existe un vector = [1 2 K s ] tal que
1 2 L s
L s
lim P n = 1 2
n M M O M

1 2 L s
Es decir,
lim Pij (n ) = j
n
n
n A se le llama distribucin de estado estable o de equilibrio para la

cadena de Markov
Probabilidades en estado estacionario.

s
n se puede determinar a partir de la ecuacin: j = k pkj
k =1
n En forma matricial = P
n Este sistema tiene un nmero infinito de soluciones porque el rango
de P siempre resulta ser menor o igual que s-1
n Tambin se debe verificar:
1 + 2 + K+ s = 1
Carmen M Garca Lpez

Interpretacin intuitiva de las

probabilidades de estado estable.
j (1 p jj ) = k pkj
k j
n Probabilidad de que una transicin determinada deje el estado j =
probabilidad de que una transicin determinada entre al estado j.
n Probabilidad de que una transicin determinada deje el estado j =
j (1 p jj )
n Probabilidad de que una transicin determinada entre al estado j=

k j
k p kj
n En el estado estable el flujo de probabilidad hacia cada estado debe

ser igual al flujo de probabilidad que sale de cada estado:
probabilidades de equilibrio
Anlisis de estado transitorio

n El comportamiento de una cadena de Markov antes de alcanzar el
estado estable se llama comportamiento transitorio.
n Para su estudio se utilizan las frmulas dadas anteriormente para
Pij(n).
Carmen M Garca Lpez

Proceso de decisin markoviano

n Aplicacin de la programacin dinmica a un proceso de decisin
estocstico
n Las probabilidades de transicin entre estado estn descritas por una
cadena de Markov.
n La estructura de recompensas del proceso est descrita por una
matriz cuyos elementos individuales son el coste o el beneficio de
moverse de un estado a otro.
n Las matrices de transicin y de recompensas dependen de las
alternativas de decisin.
n Objetivo: determinar la poltica ptima que maximice el ingreso
esperado en un nmero finito o infinito de etapas.

Modelo de etapas finitas
n Objetivo: optimizar ingreso esperado al final de un perodo de tamao
N
n Pk=[pijk] y Rk=[rijk] matrices de transicin y recompensa para la
alternativa k
n fn(i)= ingreso esperado ptimo de las etapas n, n+1,...,N si el estado
del sistema al inicio de la etapa n es i
m
[ ]
f n (i ) = max p ijk rijk + f n +1 ( j ) , n = 1, 2 , K , N ,
k
j =1
f N +1 ( j ) = 0 , j = 1, 2 , K , m
Carmen M Garca Lpez


Modelo de etapas infinitas
n Nos interesan polticas para las que existan soluciones de estado
estable
n Mtodos:
n Enumeracin exhaustiva: se evalan todas las polticas estacionarias
posibles del problema de decisin
n Iteracin de poltica: determina la poltica ptima de forma iterativa

Enumeracin exhaustiva
n Problema de decisin con S polticas estacionarias
n Pasos del mtodo
n Calcular el ingreso de una etapa esperado de la poltica s dado el estado
i, i=1,2,...,m: m
v is = p
j =1
s s
r
ij ij
n Calcular las probabilidades estacionarias de largo plazo de la matriz de

transicin asociada a la poltica s
n Determinar el ingreso esperado de la poltica s por paso de transicin:
m
E s = is vis
{ }
i =1
n La poltica ptima s* se determina de forma que E s* = max E s
s
Carmen M Garca Lpez


Iteracin de polticas
n Problema de decisin con S polticas estacionarias
n Para una poltica especfica:
n Rendimiento total esperado en la etapa n:
m
f n (i ) = v i + p ij f n +1 ( j ), i = 1, 2 , K , m
j =1
n nmero de etapas que faltan por considerar:

m
f (i ) = v i + p ij f 1 ( j ), i = 1, 2 , K , m
j =1
n El comportamiento asinttico del proceso se estudia haciendo

n Ingreso esperado por etapa: E=1v1 + 2v2 + ...+ mvm
n Para grande f (i ) = E + f (i )donde f(i) es un trmino constante que

representa el efecto sobre el ingreso de comenzar en el estado i.
n Sustituyendo en la ecuacin recursiva y simplificando

m
E = v i + p ij f ( j ) f (i ), i = 1, 2 , K , m
j =1
que es un sistema de m ecuaciones y m+1 incgnitas: E, f(1),...,f(m).
Carmen M Garca Lpez


n Para determinar el valor mximo de E se sigue un proceso iterativo que termina
cuando dos polticas sucesivas son idnticas:
n Paso de determinacin del valor: se elige una poltica arbitraria s. Suponiendo fs(m)=0 se
resuelven las ecuaciones:
m
E s = v is + p ijs f s
( j) f s
(i ), i = 1, 2 , K , m
j =1
n Paso de mejoramiento de poltica: Para cada estado i determina la poltica k que produce
m
max v ki + p ijk f s
( j ), i = 1, 2 , K , m
k
j =1
n Las decisiones ptimas que resultan para los estados 1,2,...,m constituyen la nueva
poltica t. Si s y t son idnticas, t es ptima. Si no es as, se repite el proceso con s=t.
Carmen M Garca Lpez


Tema 12

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tema 12

Cargado por

Copyright:

Formatos disponibles

12.

Procesos Estocsticos y Cadenas de Markov

12. Procesos estocsticos y cadenas de

Carmen M Garca Lpez

Las cadenas de Markov que cumplen la hiptesis de estabilidad se

Carmen M Garca Lpez

Probabilidades despus de n pasos.

Pij(1)=pij, Pij (2 ) = p ik p kj P ij(n)= elemento ij-simo de Pn

Probabilidad de estar en el estado j en el tiempo n =

Carmen M Garca Lpez

Clasificacin de estados en una cadena

Clasificacin de estados en una cadena

Carmen M Garca Lpez

Probabilidades en estado estacionario.

n A se le llama distribucin de estado estable o de equilibrio para la

Probabilidades en estado estacionario.

Carmen M Garca Lpez

Interpretacin intuitiva de las

n Probabilidad de que una transicin determinada entre al estado j=

n En el estado estable el flujo de probabilidad hacia cada estado debe

Anlisis de estado transitorio

Carmen M Garca Lpez

Proceso de decisin markoviano

Proceso de decisin markoviano

Carmen M Garca Lpez

Proceso de decisin markoviano

Proceso de decisin markoviano

n Calcular las probabilidades estacionarias de largo plazo de la matriz de

Carmen M Garca Lpez

Proceso de decisin markoviano

n nmero de etapas que faltan por considerar:

n El comportamiento asinttico del proceso se estudia haciendo

Proceso de decisin markoviano

n Ingreso esperado por etapa: E=1v1 + 2v2 + ...+ mvm

n Para grande f (i ) = E + f (i )donde f(i) es un trmino constante que

n Sustituyendo en la ecuacin recursiva y simplificando

que es un sistema de m ecuaciones y m+1 incgnitas: E, f(1),...,f(m).

Carmen M Garca Lpez

Proceso de decisin markoviano

Carmen M Garca Lpez

También podría gustarte