Está en la página 1de 10

12.

Procesos Estocsticos y Cadenas de Markov

12. Procesos estocsticos y cadenas de


Markov
n Procesos estocsticos
n Cadenas de Markov
n Clasificacin de estados en una cadena de Markov
n Probabilidades en estado estacionario
n Anlisis de estado transitorio
n Proceso de decisin markoviano

Procesos estocsticos.
n Un poceso estocstico de tiempo discreto es una descripcin de la
relacin entre las variables aleatorias X0,X1,...que representan alguna
caracterstica de un sistema en puntos discretos en el tiempo.
n Ejemplo: ruina del jugador: inicialmente tengo 2, en los tiempos 1,2,...
participo en un juego en el que apuesto 1 que gano con probabilidad p y
pierdo con probabilidad 1-p. Dejo de jugar cuando mi capital es 4 o he
perdido todo mi capital. Si Xi es la cantidad de dinero que tengo en el
tiempo i, X0,X1,... es un proceso estocstico.
n Un proceso estocstico de tiempo continuo es un proceso estocstico en
el que el estado del tiempo se puede examinar en cualquier tiempo.
n Ejemplo: nmero de personas en un supermercado a los t minutos de abrir

Carmen M Garca Lpez


Francisco R. Villatoro 1
12. Procesos Estocsticos y Cadenas de Markov

Cadenas de Markov.
n Cadena de Markov: proceso estocstico de tiempo discreto que para
t=0,1,2,... y todos los estados verifica
P(Xt+1=it+1 | Xt=it, Xt-1=it-1, ..., X1=i1, X0=i0)=P(Xt+1=it+1|Xt=it)
Hiptesis de estabilidad: P(Xt+1=j|Xt=i)=pij (no depende de t)
Probabilidades de transicin: pij
p11 p12 L p1s
p p L p2s
Matriz de probabilidades de transicin: P = 21 22
M M O M

s1
p p s2 L pss
s

Se debe verificar: p
j =1
ij =1

Cadenas de Markov.

Las cadenas de Markov que cumplen la hiptesis de estabilidad se


llaman cadenas estacionarias de Markov.
Distribucin inicial de probabilidad de una cadena de Markov:
q=[q1,...,qs] donde qi=P(X0=i)

Carmen M Garca Lpez


Francisco R. Villatoro 2
12. Procesos Estocsticos y Cadenas de Markov

Cadenas de Markov.
Ejemplo: la ruina del jugador es una cadena de Markov estacionaria
Estados: 0, 1, 2, 3, 4
Matriz de transicin
1 0 0 0 0
1 p 0 p 0 0


P = 0 1 p 0 p 0

0 0 1 p 0 p
0 0 0 0 1
La matriz de transicin se puede representar con un grafo en el que cada
nodo representa un estado y cada arco la probabilidad de transicin entre
estados.
1-p 1-p 1-p

1 0 1 2 3 4 1

p p p

Probabilidades despus de n pasos.


n Si una cadena de Markov estacionaria est en el estado i en el tiempo
m, cul es la probabilidad de que n perodos despus la cadena est
en el estado j?
P(Xm+n=j|Xm=i)=P(Xn=j|X0=i)=Pij(n)
Pij(n) es la probabilidad en la etapa n de una transicin del estado i al
estado j s

Pij(1)=pij, Pij (2 ) = p ik p kj P ij(n)= elemento ij-simo de Pn


k =1

Probabilidad de estar en el estado j en el tiempo n =


s

q i Pij (n )
i =1

Carmen M Garca Lpez


Francisco R. Villatoro 3
12. Procesos Estocsticos y Cadenas de Markov

Clasificacin de estados en una cadena


de Markov.
n Dados dos estados i y j, la trayectoria de i a j es la sucesin de
transiciones que comienza en i y termina en j, de forma que cada
transicin de la secuencia tenga probabilidad positiva.
n Un estado j es alcanzable desde un estado i si hay una trayectoria de
i a j.
n Dos estados i y j se comunican si i es alcanzable desde j y j es
alcanzable desde i.
n Un conjunto de estados S en una cadena de Markov es cerrado
(constituyen una clase de la cadena) sin ningn estado fuera de S es
alcanzable desde un estado en S.
n Un estado i es absorbente si pii=1

Clasificacin de estados en una cadena


de Markov.
n Un estado i es transitorio si hay un estado j alcanzable desde i,pero el
estado i no es alcanzable desde j.
n Un estado es recurrente si no es transitorio.
n Un estado i es peridico con periodo k>1 si k es el menor nmero tal
que todas las trayectorias que parten del estado i y regresan al
estado i tienen una longitud mltiplo de k.
n Si un estado recurrente no es peridico es aperidico.
n Si todos los estado de una cadena son recurrentes, aperidicos y se
comunican entre s, la cadena es ergdica.

Carmen M Garca Lpez


Francisco R. Villatoro 4
12. Procesos Estocsticos y Cadenas de Markov

Probabilidades en estado estacionario.


n Si P es la matriz de transicin de una cadena ergdica de s estados
entonces existe un vector = [1 2 K s ] tal que

1 2 L s
L s
lim P n = 1 2
n M M O M


1 2 L s

Es decir,
lim Pij (n ) = j
n
n

n A se le llama distribucin de estado estable o de equilibrio para la


cadena de Markov

Probabilidades en estado estacionario.


s
n se puede determinar a partir de la ecuacin: j = k pkj
k =1
n En forma matricial = P
n Este sistema tiene un nmero infinito de soluciones porque el rango
de P siempre resulta ser menor o igual que s-1
n Tambin se debe verificar:
1 + 2 + K+ s = 1

Carmen M Garca Lpez


Francisco R. Villatoro 5
12. Procesos Estocsticos y Cadenas de Markov

Interpretacin intuitiva de las


probabilidades de estado estable.
j (1 p jj ) = k pkj
k j
n Probabilidad de que una transicin determinada deje el estado j =
probabilidad de que una transicin determinada entre al estado j.
n Probabilidad de que una transicin determinada deje el estado j =
j (1 p jj )

n Probabilidad de que una transicin determinada entre al estado j=



k j
k p kj

n En el estado estable el flujo de probabilidad hacia cada estado debe


ser igual al flujo de probabilidad que sale de cada estado:
probabilidades de equilibrio

Anlisis de estado transitorio


n El comportamiento de una cadena de Markov antes de alcanzar el
estado estable se llama comportamiento transitorio.
n Para su estudio se utilizan las frmulas dadas anteriormente para
Pij(n).

Carmen M Garca Lpez


Francisco R. Villatoro 6
12. Procesos Estocsticos y Cadenas de Markov

Proceso de decisin markoviano


n Aplicacin de la programacin dinmica a un proceso de decisin
estocstico
n Las probabilidades de transicin entre estado estn descritas por una
cadena de Markov.
n La estructura de recompensas del proceso est descrita por una
matriz cuyos elementos individuales son el coste o el beneficio de
moverse de un estado a otro.
n Las matrices de transicin y de recompensas dependen de las
alternativas de decisin.
n Objetivo: determinar la poltica ptima que maximice el ingreso
esperado en un nmero finito o infinito de etapas.

Proceso de decisin markoviano


Modelo de etapas finitas
n Objetivo: optimizar ingreso esperado al final de un perodo de tamao
N
n Pk=[pijk] y Rk=[rijk] matrices de transicin y recompensa para la
alternativa k
n fn(i)= ingreso esperado ptimo de las etapas n, n+1,...,N si el estado
del sistema al inicio de la etapa n es i
m
[ ]
f n (i ) = max p ijk rijk + f n +1 ( j ) , n = 1, 2 , K , N ,
k
j =1
f N +1 ( j ) = 0 , j = 1, 2 , K , m

Carmen M Garca Lpez


Francisco R. Villatoro 7
12. Procesos Estocsticos y Cadenas de Markov

Proceso de decisin markoviano


Modelo de etapas infinitas
n Nos interesan polticas para las que existan soluciones de estado
estable
n Mtodos:
n Enumeracin exhaustiva: se evalan todas las polticas estacionarias
posibles del problema de decisin
n Iteracin de poltica: determina la poltica ptima de forma iterativa

Proceso de decisin markoviano


Enumeracin exhaustiva
n Problema de decisin con S polticas estacionarias
n Pasos del mtodo
n Calcular el ingreso de una etapa esperado de la poltica s dado el estado
i, i=1,2,...,m: m
v is = p
j =1
s s
r
ij ij

n Calcular las probabilidades estacionarias de largo plazo de la matriz de


transicin asociada a la poltica s
n Determinar el ingreso esperado de la poltica s por paso de transicin:
m
E s = is vis

{ }
i =1
n La poltica ptima s* se determina de forma que E s* = max E s
s

Carmen M Garca Lpez


Francisco R. Villatoro 8
12. Procesos Estocsticos y Cadenas de Markov

Proceso de decisin markoviano


Iteracin de polticas
n Problema de decisin con S polticas estacionarias
n Para una poltica especfica:
n Rendimiento total esperado en la etapa n:
m
f n (i ) = v i + p ij f n +1 ( j ), i = 1, 2 , K , m
j =1

n nmero de etapas que faltan por considerar:


m
f (i ) = v i + p ij f 1 ( j ), i = 1, 2 , K , m
j =1

n El comportamiento asinttico del proceso se estudia haciendo

Proceso de decisin markoviano


Iteracin de polticas

n Ingreso esperado por etapa: E=1v1 + 2v2 + ...+ mvm

n Para grande f (i ) = E + f (i )donde f(i) es un trmino constante que


representa el efecto sobre el ingreso de comenzar en el estado i.

n Sustituyendo en la ecuacin recursiva y simplificando


m
E = v i + p ij f ( j ) f (i ), i = 1, 2 , K , m
j =1

que es un sistema de m ecuaciones y m+1 incgnitas: E, f(1),...,f(m).

Carmen M Garca Lpez


Francisco R. Villatoro 9
12. Procesos Estocsticos y Cadenas de Markov

Proceso de decisin markoviano


Iteracin de polticas
n Para determinar el valor mximo de E se sigue un proceso iterativo que termina
cuando dos polticas sucesivas son idnticas:
n Paso de determinacin del valor: se elige una poltica arbitraria s. Suponiendo fs(m)=0 se
resuelven las ecuaciones:
m
E s = v is + p ijs f s
( j) f s
(i ), i = 1, 2 , K , m
j =1
n Paso de mejoramiento de poltica: Para cada estado i determina la poltica k que produce
m
max v ki + p ijk f s
( j ), i = 1, 2 , K , m
k
j =1
n Las decisiones ptimas que resultan para los estados 1,2,...,m constituyen la nueva
poltica t. Si s y t son idnticas, t es ptima. Si no es as, se repite el proceso con s=t.

Carmen M Garca Lpez


Francisco R. Villatoro 10

También podría gustarte