Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Cadenas de Markov
13
Capítulo 2. Cadenas de Markov
p p p
0 1 2 3 4
q q q
Figura 2.1: Representación de la cadena de Markov para el problema de la ruina del
jugador
Definición
En la ecuación 2.1 se dice que lo que suceda en el periodo t+1 depende únicamente
del estado en el tiempo t, y no de los estados por los que pasó la cadena para llegar
al estado it .
Como hipótesis adicional, se dice que para todos los estados i y j y todo t, se tiene
que P (Xt+1 = j | Xt = i) es independiente de t, por lo cual:
La ecuación 2.2 indica que la ley de probabilidades que relaciona los estados de
un periodo a otro (i y j) no cambian o permanecen estacionarias. Las cadenas de
Markov que cumplen con esta propiedad se conocen como cadenas estacionarias
de Markov.
14
2.1 Proceso Estocástico
�
pi,j = 1 (2.5)
j∈S
Teniendo en cuenta que los valores de las probabilidades son no negativos y con-
siderando las ecuaciones 2.4 y 2.5, puede afirmarse que para cada estado i las
probabilidades en el renglón correspondiente constituyen la distribución de proba-
bilidad para los diferentes estados del sistema. Dicho de otra forma, la suma de
las probabilidades para el espacio muestral asociado a cada estado es igual a uno.
En la ecuación 2.6, Pi,j (1) = pi,j . Para determinar Pi,j (2) debe tenerse en cuenta
que si el sistema está en estado i, para que termine en estado j al cabo de dos
15
Capítulo 2. Cadenas de Markov
periodos se requiere que en un periodo pase al estado k, y en el otro pase del estado
k al estado j. Así se tiene:
�
Pi,j (2) = (P rob. de ir de i a k) × (P rob. de ir de k a j) (2.7)
k∈S
�
Pi,j (2) = pi,k pk,j (2.8)
k∈S
donde q = [q1 , q2 , . . . qs ].
Teorema
17
Capítulo 2. Cadenas de Markov
Dado que el ij-ésimo elemento de P n es Pi,j (n), para cualquier estado inicial i, se
tiene:
para n grande, P n tiende a una matriz con renglones idénticos. Lo que significa
que en el largo plazo la cadena se estabiliza y la probabilidad de llegar a un estado
j es πj en el largo plazo (independientemente del estado inicial i).
Pi,j (n + 1) ∼
= Pi,j (n) ∼
= πj (2.14)
π=π P (2.17)
π1 + π2 + · · · + πs = 1 (2.19)
18
2.1 Proceso Estocástico
Al sustituir cualquier ecuación del sistema presentado en 2.16 por la ecuación 2.19,
se pueden obtener valores únicos para las probabilidades de estado estable.
Las granjas de cierta región pueden clasificarse en tres tipos: agrícolas, pecuarias o
mixtas. Actualmente 30 % son agrícolas, 40 % pecuarias y 30 % mixtas. La matriz
de transición de un año al siguiente es:
Agrcola 0,8 0,1 0,1
P ecuaria 0,2 0,8 0,0
M ixta 0,1 0,1 0,8
a) el año próximo,
� � 0,8 0,1 0,1 � �
qP = 0,3 0,4 0,3 0,2 0,8 0,0 = 0,35 0,38 0,27
0,1 0,1 0,8
Los porcentajes (probabilidades) son de 0.35, 0.38 y 0.27 para las granjas agrícolas,
pecuarias y mixtas, respectivamente.
b) dentro de 2 años,
� � 0,8 0,1 0,1 � �
qP = 0,35 0,38 0,27 0,2 0,8 0,0 = 0, 383 0, 366 0, 251
0,1 0,1 0,8
Los porcentajes (probabilidades) son de 0.383, 0.366 y 0.251 para las granjas agrí-
colas, pecuarias y mixtas, respectivamente.
� � � �
π1 π2 π3 = 0,8π1 + 0,2π2 + 0,1π3 , 0,1π1 + 0,8π2 + 0,1π3 , 0,1π1 + 0,8π3
Dicho de otro modo, cuando el sistema alcanza estado estable es cierto que la
probabilidad de que el sistema deje el estado j es igual a la probabilidad de que
el sistema llegue al estado j desde un estado diferente.
20
2.1 Proceso Estocástico
Partiendo del estado i, con probabilidad pi,j se llegará a j en una etapa (transición).
Para k �= j se llega a k en una etapa con probabilidad pi,k y a continuación tras
mk,j etapas se llega a j. En este caso llevará un promedio de 1 + mk,j etapas ir de
i a j, lo que implica que:
�
mi,j = Pi,j (1) + pi,k (1 + mk,j ) (2.21)
k�=j
dado que:
�
pi,j + pi,k = 1 (2.22)
k�=j∈S
�
mi,j = 1 + pi,k mk,j (2.23)
k�=j
1
mi,i = (2.24)
πi
1. El número de veces que se espera que entre a cada estado transitorio, dado
que inició en el estado transitorio i, esto es el número de periodos que se
espera que pase en un estado transitorio determinado i antes de alcanzar la
absorción.
21
Capítulo 2. Cadenas de Markov
T = (I − Q)−1 (2.26)
P A = (I − Q)−1 R (2.27)
22
2.1 Proceso Estocástico
Estudiante de primero 0,15 0,75 0 0,1 0
Estudiante de segundo
0 0,15 0,80 0,05 0
Estudiante de tercero
0 0 0,20 0,05 0,75
Desertor 0 0 0 1 0
Graduado 0 0 0 0 1
23
Capítulo 2. Cadenas de Markov
�
Dado que k�=i pi,k = 1 − pi,i la ecuación 2.31 puede simplificarse como se observa
en la ecuación 2.32.
�
Hi + Nk pk,i = Ni (1 − pi,i ) ∀i ∈ S (2.32)
k�=i
24
2.2 Problema de la ruina del jugador
Sea un jugador que inicia con i y que en cada jugada gana $1 con probabilidad p
o pierde $1 con probabilidad q = 1 − p.
Sea Xn la fortuna total del jugador después del n-ésimo juego, y teniendo en cuenta
que el objetivo del jugador es lograr una fortuna de N sin arruinarse, entonces el
juego terminará cuando el jugador (si tiene éxito) gane el juego o cuando termine
arruinado.
Como el jugador inicia con i, 0 < i < N , el juego puede representarse mediante una
cadena de Markov con variable de estado Xn y espacio de estado S = {0, 1, . . . , N }.
A medida que el juego avanza, puede ser representado como una caminata aleatoria
según la cual Xn = Δ1 + Δ2 + · · · + Δn , con X0 = i donde {Δn } es una secuencia
de pasos independientes e idénticamente distribuidos tal que P (Δ = 1) = p y
P (Δ = −1) = q = 1−p, tales pasos representan la ganancia de los juegos sucesivos.
i
� i
� q
Pk+1 − Pk = ( ) k P1
p
k=1 k=1
i
� q
Pi+1 − P1 = ( ) k P1
p
k=1
i
� q
Pi+1 = P1 + P1 ( )k
p
k=1
i
� q
Pi+1 = P1 ( )k (2.35)
p
k=0
Con lo cual:
q i+1
1−( p )
P1 q si p �= q
Pi+1 = 1− p (2.36)
P (i + 1) si p = q = 0,5
1
26
2.2 Problema de la ruina del jugador
si p > 0,5 (cada juego está a su favor) existe una probabilidad positiva de
que nunca se arruine, y por el contrario llegue a ser infinitamente rico, ver
ecuación 2.38.
Ejemplos
1. John inicia con $2, y p = 0,6. ¿Cuál es la probabilidad de que John obtenga
una fortuna N = 4 sin arruinarse?
q
Respuesta: i = 2, N = 4, p = 0,6, q = 1 − p = 0,4 y p = 23 , la probabilidad
de ganar (para la meta establecida N es:
2
1−( 23 )
P2 = 4 = 0,91
1−( 2
3 )
2. ¿Cuál es la probabilidad de que John llegue a ser infinitamente rico?
Respuesta:
27
Capítulo 2. Cadenas de Markov
� �i � 2 �2
q 5
1− p =1− 3 = 9 = 0,56
Respuesta:
� �i � �1
1 − pq = 1 − 23 = 1
3 es la probabilidad de que llegue a ser infinitamente
rico y en consecuencia la probabilidad de arruinarse es de 1 − 1
3 = 23 .
2.2.2 Aplicaciones
Riesgo en el negocio de los seguros: Una compañía de seguros que gana $1
por día (por concepto de intereses), pero cada día independientemente del
pasado puede recibir una reclamación en su contra, por la cantidad de $2
con probabilidad q = 1 − p. Cuando se presenta un reclamo se remueven $2
de su reserva de dinero. Por lo tanto en el n-ésimo día el ingreso neto del día
es Δn como en el problema de la ruina del jugador: 1 con probabilidad p y
-1 con probabilidad q.
28
2.2 Problema de la ruina del jugador
P (Aj − Bj = 1) = P (Aj = 1, Bj = 0) = r1 (1 − r2 ),
P (Δ = 1) = p y P (Δ = −1) = q = 1 − p,
29
Capítulo 2. Cadenas de Markov
donde:
p = P (Aj − Bj = 1|Aj − Bj �= 0)
P (Aj −Bj =1
= P (Aj−Bj =1)+P (Aj−Bj =−1)
r1 (1−r2 )
= r1 (1−r2 )+r2 (1−r1 )
Ejemplo
1. Ellen compró una acción por $10 y se cree que el precio de la acción
se mueve como una caminata aleatoria simple con p = 0,55. ¿cuál es la
probabilidad de que la acción de Ellen alcance un máximo valor de $15
antes de alcanzar un valor mínimo de $5?
Respuesta
30
2.3 Procesos de decisión de Markov
Respuesta
� �b
q
Se busca lima→∞ p(a) = 1 − p = 1 − (0,82)5 = 0,63
1
M + M β + M β 2 + · · · = M (β 0 + β 1 + β 2 + . . . ) = M <∞ (2.41)
1−β
En este caso aunque el ingreso puede ser infinito, el valor promedio puede
calcularse.
31
Capítulo 2. Cadenas de Markov
� ∞
�
�
Vδ(i) = Eδ β t−1 rxt ,dt | x1 = i (2.43)
t=1
32
2.3 Procesos de decisión de Markov
� �
donde Eδ β t−1 rxt ,dt | x1 = i es la recompensa descontada esperada durante el
periodo t, dado que al comienzo del periodo 1 el estado es i y se sigue la política
estacionaria δ.
Si en una política δ ∗ , V (i) = Vδ∗ (i) para todo i ∈ S, entonces δ ∗ es una política
óptima. Sin embargo, la existencia de una política simple δ ∗ que obtiene de manera
simultánea los N óptimos en el problema de optimización no es evidente. Además
se sabe que si ri,d están acotadas, existe una política óptima.
2. Programación lineal
Iteración de Políticas
Donde:
33
Capítulo 2. Cadenas de Markov
Siempre Tδ (i) ≥ Vδ (i), dado que se puede elegir d ∈ D(i), para todo i ∈ S.
Si Tδ (i) > Vδ (i), entonces se modifica la política δ(i) de modo que la decisión
d ∈ D(i) que proporciona el máximo valor de Tδ(i) , creando la nueva política
estacionaria δ � para la cual Vδ� (i) ≥ Vδ (i) para todo i ∈ S y para por lo menos un
estado i� , Vδ� (i� ) ≥ Vδ (i� ). Se regresa al paso 1 con la política δ � , en lugar de δ.
Programación lineal
Vj no restringidas en signo
Vj no restringidas en signo
34
2.3 Procesos de decisión de Markov
V0 (i) = 0 (2.49)
βt
|Vt (i) − V (i)| ≤ máx |ri,d | (2.50)
1 − β i,d
donde δ ∗ (i) define la política estacionaria óptima. Pueto que β < 1, para t sufi-
cientemente grande Vt (i) de aproxima a V (i), lo que significa que para t >> 0 la
decisión que es óptima en el estado i para un problema de t periodos es también
óptima para un horizonte de tiempo infinito.
35
Capítulo 2. Cadenas de Markov
No es fácil determinar un valor t∗ tal que para toda i y t > t∗ , dt (i) = δ ∗ (i); y si
se quiere asegurar que las Vt (i) estén dentro de una desviación � de su respectiva
V (i) en la t∗ −ésima iteración de aproximaciones sucesivas en la cual:
∗
βt
máx |ri,d | < � (2.52)
1 − β i,d
Sujeto a:
� � �
πi,d = πi,d p(j | i, d) ∀j ∈ S (2.54)
d∈D(j) d∈D(i) i∈S
� �
πi,d = 1 (2.55)
i∈S d∈D(i)
πi,d ≥ 0 (2.56)
La ecuación 2.54, representa la fracción de los periodos en que ocurre una transición
fuera del estado j, que debe ser igual a la fracción de periodos en los que se da
una transición hacia j; y las ecuaciones 2.55 y 2.56 las que deben cumplir las
probabilidades πi,d . Se puede demostrar que este PL tiene una solución óptima en
la cual para cada i a lo sumo una πi,d > 0. Tal solución implica que cada qi (d) es
igual a uno o cero.
36
2.4 Ejemplo de Proceso de decisión Markoviano
Solución
λi e−λ
pi = P (Demanda = i) = (2.57)
i!
∞
� i−1
�
qi = P (Demanda ≥ i) = pk = 1 − pk (2.58)
k=i k=0
37
Capítulo 2. Cadenas de Markov
Si i < 2 se coloca una orden, por lo cual el lunes a primera hora habrán
4 XBoxs en inventario, lo mismo que si hubiese habido 4 en inventario el
viernes, por lo cual las filas para los estados 0, 1 y 4 son iguales.
0 1 2 3 4
0 q4 p3 p2 p1 p0
1 q4 p3 p2 p1 p0
P = (2.61)
2 q2 p1 p0 0 0
3 q3 p2 p1 p0 0
4 q4 p3 p2 p1 p0
0 1 2 3 4
0 0,5665 0,1954 0,1465 0,0733 0,0183
1 0,5665 0,1954 0,1465 0,0733 0,0183
P = (2.62)
2 0,9084 0,0733 0,0183 0,0000 0,0000
3 0,7619 0,1465 0,0733 0,0183 0,0000
4 0,5665 0,1954 0,1465 0,0733 0,0183
Solución
38
2.4 Ejemplo de Proceso de decisión Markoviano
2 3 4
2 p0 0 q1
P = (2.64)
3 p1 p0 q2
4 p2 p1 p0 + q 3
2 3 4
2 0,0183 0,0000 0,9817
P = (2.65)
3 0,0733 0,0183 0,9084
4 0,1465 0,0733 0,7802
3. Calcular las probabilidades de estado estable para los dos casos anteriores y
conparar los resultados
Solución
39
Capítulo 2. Cadenas de Markov
π 0 = q4 π 0 + q 4 π 1 + q 2 π 2 + q 3 π 3 + q 4 π 4 (2.67)
π1 = p3 π0 + p3 π1 + p1 π2 + p2 π3 + p3 π4 (2.68)
π2 = p2 π0 + p2 π1 + p0 π2 + p1 π3 + p2 π4 (2.69)
π3 = p1 π0 + p1 π1 + p0 π3 + p1 π4 (2.70)
π4 = p0 π0 + p0 π1 + p0 π4 (2.71)
(1 − q4 )π0 − q4 π1 − q2 π2 − q3 π3 − q4 π4 = 0 (2.72)
−p3 π0 + (1 − p3 )π1 − p1 π2 − p2 π3 − p3 π4 = 0 (2.73)
−p2 π0 − p2 π1 + (1 − p0 )π2 − p1 π3 − p2 π4 = 0 (2.74)
−p1 π0 − p1 π1 + (1 − p0 )π3 − p1 π4 = 0 (2.75)
π0 π1 + π2 + π3 + π4 = 1 (2.76)
El estudiante puede comprobar que los dos sistemas son equivalentes pues
en el segundo caso las probabilidades de estado estable son: π2 = 0, 1259,
π3 = 0, 0607 y π4 = 0, 8133.
40
2.4 Ejemplo de Proceso de decisión Markoviano
Solución
0 1 2 3 4
0 1,0000 0,0000 0,0000 0,0000 0,0000
1 0,9817 0,0183 0,0000 0,0000 0,0000
P (0) = (2.80)
2 0,9084 0,0733 0,0183 0,0000 0,0000
3 0,7619 0,1465 0,0733 0,0183 0,0000
4 0,5665 0,1954 0,1465 0,0733 0,0183
0 1 2 3 4
0 0,9817 0,0183 0,0000 0,0000 0,0000
P (1) = 1 0,9084 0,0733 0,0183 0,0000 0,0000 (2.81)
2 0,7619 0,1465 0,0733 0,0183 0,0000
3 0,5665 0,1954 0,1465 0,0733 0,0183
0 1 2 3 4
0 0,9084 0,0733 0,0183 0,0000 0,0000
P (2) = (2.82)
1 0,7619 0,1465 0,0733 0,0183 0,0000
2 0,5665 0,1954 0,1465 0,0733 0,0183
0 1 2 3 4
P (3) = 0 0,7619 0,1465 0,0733 0,0183 0,0000 (2.83)
1 0,5665 0,1954 0,1465 0,0733 0,0183
0 1 2 3 4
P (4) = (2.84)
0 0,5665 0,1954 0,1465 0,0733 0,0183
41
Capítulo 2. Cadenas de Markov
�∞
E(D − x)+ = − x)pk
k=x+1 (k (2.86)
�∞ �∞
= k=x+1 (k)pk − x k=x+1 pk (2.87)
�∞ � k −λ � � �x k −λ
�
= k=x+1 k λ k! e
− x 1 − k=0 λ k! e
(2.88)
�∞ � �x �
λk e−λ k −λ
= k=x+1 (k−1)! − x 1 − k=0 λ k! e
(2.89)
�∞ m+1 −λ
� �x k −λ
�
= m=x λ m!e − x 1 − k=0 λ k! e
(2.90)
�� � � �x �
∞ λk e−λ k −λ
=λ k=m+1 k! − x 1 − k=0 λ k! e
(2.91)
� �x−1 k e−λ � � �x k −λ
�
= λ 1 − k=0 λ k! − x 1 − k=0 λ k! e
(2.92)
= λ [1 − F (x − 1)] − x [1 − F (x)] (2.93)
= (λ − x) [1 − F (x)] − λ [f (x)] (2.94)
/*
Modelo Markoviano de decision para determinar la
politica de inventarios (s,S) para el problema,
*/
Estado 0 1 2 3 4 Promedio
πi 0,5665 0,1954 0,1465 0,0733 0,0183
Inventario viernes 0 1 2 3 4 0,7815
Inventario lunes 4 4 4 4 4 4
Unidades ordenadas 4 3 2 1 0 3,2185
Ventas esperadas 3,2185 3,2185 3,2185 3,2185 3,2185 3,2185
Ingresos esperados $3.218,5 $3.218,5 $3.218,5 $3.218,5 $3.218,5 $3.218,5
Coste de ordenar $50,0 $50,0 $50,0 $50,0 $0,0 $49,1
Coste variable orden $1.600,0 $1.200,0 $800,0 $400,0 $0,0 $1.287,4
Coste de inventario $0,0 $80,0 $160,0 $240,0 $320,0 $62,5
Coste Total $1.650,0 $1.330,0 $1.010,0 $690,0 $320,0 $1.399,0
Utilidad Neta $1.568,5 $1.888,5 $2.208,5 $2.528,5 $2.898,5 $1.819,5
Coste de oportunidad $2.119,0 $1.799,0 $1.479,0 $1.159,0 $789,0 $1.868,0
6. Ahora considere que las órdenes que se colocan el viernes solo llegan el día
miércoles a las siete de la mañana, modele el problema nuevamente.
Solución
44
2.4 Ejemplo de Proceso de decisión Markoviano
λi e−λ
pi = P (Demanda = i) = (2.96)
i!
∞
� i−1
�
qi = P (Demanda ≥ i) = pk = 1 − pk (2.97)
k=i k=0
0 1 2 3 4
0 0 0 0 0 1
1 0 0 0 q1 p0
Pa = (2.98)
2 q2 p1 p0 0 0
3 q3 p2 p1 p0 0
4 q4 p3 p2 p1 p0
0 1 2 3 4
0 0,0000 0,0000 0,0000 0,0000 1,0000
1 0,0000 0,0000 0,0000 0,7981 0,2018
Pa = (2.99)
2 0,4751 0,3230 0,2019 0,0000 0,0000
3 0,2166 0,2584 0,3230 0,2019 0,0000
4 0,0788 0,1378 0,2584 0,3230 0,2019
0 1 2 3 4
0 1 0 0 0 0
1 q1 p0 0 0 0
Pb = (2.100)
2 q2 p1 p0 0 0
3 q3 p2 p1 p0 0
4 q4 p3 p2 p1 p0
0 1 2 3 4
0 1,0000 0,0000 0,0000 0,0000 0,0000
1 0,9093 0,0907 0,0000 0,0000 0,0000
Pb = (2.101)
2 0,6915 0,2177 0,0907 0,0000 0,0000
3 0,4303 0,2613 0,2177 0,0907 0,0000
4 0,2213 0,2090 0,2613 0,2177 0, 0907
45
Capítulo 2. Cadenas de Markov
En consecuencia la matriz P = Pa Pb
0 1 2 3 4
0 0,2213 0,2090 0,2613 0,2177 0,0907
1 0,3881 0,2507 0,2265 0,1163 0,0183
P = P a Pb = (2.102)
2 0,9084 0,0733 0,0183 0,0000 0,0000
3 0,7619 0,1465 0,0733 0,0183 0,0000
4 0,5665 0,1954 0,1465 0,0733 0,0183
Observe que sólo cambian las dos primeras filas si la comparamos con la
matriz correspondiente a recibir los pedidos el día lunes en la mañana.
Solución
El nivel de inventario cada viernes no es más una cadena de Markov, pero aún
puede constituirse una cadena de Markov extendiendo el espacio de estado.
Sea Wn = (Zn , Xn ), donde Xn es el nivel de inventario al finalizar la semana
n, y Zn = 1 si la semana n es par y 0 en otro caso. En este caso se asume
que las órdenes solo pueden colocarse en las semanas pares. Entonces Wn es
una cadena de Markov, cuya matriz de transición está dada por:
0, 0 0, 1 0, 2 0, 3 0, 4 1, 0 1, 1 1, 2 1, 3 1, 4
0, 0 0 0 0 0 0 q4 p3 p2 p1 p0
0, 1 0 0 0 0 0 q4 p3 p2 p1 p0
0, 2 0 0 0 0 0 q2 p1 p0 0 0
0, 3 0 0 0 0 0 q3 p2 p1 p0 0
P = 0, 4 0 0 0 0 0 q4 p3 p2 p1 p0 (2.103)
1, 0 1 0 0 0 0 0 0 0 0 0
1, 1 q1 p0 0 0 0 0 0 0 0 0
1, 2 q2 p1 p0 0 0 0 0 0 0 0
1, 3 q3 p2 p1 p0 0 0 0 0 0 0
1, 4 q4 p3 p2 p1 p0 0 0 0 0 0
46