Está en la página 1de 34

Capítulo 2

Cadenas de Markov

A veces conviene analizar el comportamiento de una variable aleatoria a lo largo


del tiempo, tal estudio recibe el nombre de proceso estocástico. Vamos a analizar
el comportamiento de las cadenas de Markov como uno de los principales procesos
estocásticos.

2.1 Proceso Estocástico

Al analizar una característica de un sistema en puntos discretos en el tiempo,


donde Xt es el valor de la característica (variable aleatoria) en el tiempo t, y X t
no se conoce con certeza antes de que se llegue al tiempo t. Un proceso estocástico
de tiempo discreto es la descripción de la relación entre las variables aleatorias X 0 ,
X1 , X 2 , . . . .

Ejemplo: El problema de la ruina del jugador en el cual dos jugadores se enfrentan


en un juego en el cual sólo pueden ganar con probabilidad p o perder con probabi-
lidad q = 1 − p, cada uno inicia con dos monedas y entrega una si llega a perder.
El juego termina cuando un jugador se queda con todas las monedas. La figura 2.1
representa los estados posibles para un jugador, al comienzo del juego él está en
el estado 2 (posee dos monedas) y al finalizar está en el estado 0 como perdedor
del juego o en el estado 4 como ganador del mismo.

Un proceso estocástico de tiempo continuo es un proceso estocástico en el que


el estado del sistema se puede revisar en cualquier momento (no sólo en puntos
discretos).

13
Capítulo 2. Cadenas de Markov

p p p

0 1 2 3 4

q q q
Figura 2.1: Representación de la cadena de Markov para el problema de la ruina del
jugador

2.1.1 Cadena de Markov


Una cadena de Markov es un proceso estocástico de tiempo discreto que en cual-
quier tiempo puede estar en un número finito de estados 1, 2, . . . , s.

Definición

Un proceso estocástico de tiempo discreto es una cadena de Markov si, para t =


0, 1, 2, . . . , s y todos los estados:

P (Xt+1 = it+1 | Xt = it , Xt−1 = it−1 , Xt−2 = it−2 , . . . , X1 = i1 , X0 = i0 )


= P (Xt+1 = it+1 | Xt = it ) (2.1)

En la ecuación 2.1 se dice que lo que suceda en el periodo t+1 depende únicamente
del estado en el tiempo t, y no de los estados por los que pasó la cadena para llegar
al estado it .

Como hipótesis adicional, se dice que para todos los estados i y j y todo t, se tiene
que P (Xt+1 = j | Xt = i) es independiente de t, por lo cual:

P (Xt+1 = j | Xt = i) = pi,j (2.2)

donde pi,j es la probabilidad de que el sistema esté en estado j en el periodo t + 1,


dado que en el tiempo t estaba en el estado i. Esta probabilidad se conoce como
probabilidad de transición del estado i al estado j.

La ecuación 2.2 indica que la ley de probabilidades que relaciona los estados de
un periodo a otro (i y j) no cambian o permanecen estacionarias. Las cadenas de
Markov que cumplen con esta propiedad se conocen como cadenas estacionarias
de Markov.
14
2.1 Proceso Estocástico

Además se tiene el vector q = q1 , q2 , . . . qs o distribución inicial de probabilidad


de la cadena de Markov, cuyos valores qi representan la probabilidad de que el
sistema esté en el estado i en el tiempo 0.

La matriz P de probabilidades de transición se presenta en la ecuación 2.3.


 
p1,1 p1,2 ... p1,s
p2,1 p2,2 ... p2,s 
 
P = . .. .. ..  (2.3)
 .. . . . 
ps,1 ps,2 ... ps,s

Teniendo en cuenta que el estado es i en el tiempo t, en el tiempo t + 1 el proceso


debe estar en el tiempo t + 1, implicando para cada i:

P (Xt+1 = j | Xt = i) = 1 (2.4)
j∈S


pi,j = 1 (2.5)
j∈S

Teniendo en cuenta que los valores de las probabilidades son no negativos y con-
siderando las ecuaciones 2.4 y 2.5, puede afirmarse que para cada estado i las
probabilidades en el renglón correspondiente constituyen la distribución de proba-
bilidad para los diferentes estados del sistema. Dicho de otra forma, la suma de
las probabilidades para el espacio muestral asociado a cada estado es igual a uno.

2.1.2 Probabilidades de transición de n etapas


Para una cadena de Markov estacionaria con matriz P de probabilidades de tran-
sición conocidas, puede establecerse la probabilidad de que partiendo del estado i
en el tiempo m se alcance el estado j n transiciones más tarde. En vista de que la
cadena de Markov es estacionaria, puede decirse:

P (Xm+n = j | Xm = i) = P (Xn = j | X0 = i) = Pi,j (n) (2.6)

En la ecuación 2.6, Pi,j (1) = pi,j . Para determinar Pi,j (2) debe tenerse en cuenta
que si el sistema está en estado i, para que termine en estado j al cabo de dos

15
Capítulo 2. Cadenas de Markov

periodos se requiere que en un periodo pase al estado k, y en el otro pase del estado
k al estado j. Así se tiene:

Pi,j (2) = (P rob. de ir de i a k) × (P rob. de ir de k a j) (2.7)
k∈S


Pi,j (2) = pi,k pk,j (2.8)
k∈S

Como se ve en la ecuación 2.8 el lado derecho corresponde al producto del vector


(renglón) i de la matriz P por la columna j de esa misma matriz. En consecuencia
Pi,j (2) es el i, j−esimo elemento de la matriz P 2 . Generalizando se puede decir
que:

Pi,j (n) = elemento ij − simo de P n (2.9)

De forma natural, para n = 0, Pi,j (0) = P (X0 = j | X0 = i), se tiene que:



1 si j = i
Pi,j = (2.10)
0 si j �= i

Cuando no se conoce el estado de la cadena de Markov en el tiempo cero, sea qi


la probabilidad de que la cadena esté en estado i en el tiempo 0. Se puede estimar
la probabilidad de que el sistema esté en el estado j en el tiempo n mediante el
cálculo de la sumatoria, sobre el conjunto de estados en S, de la probabilidad de
que el estado inicial sea i por la probabilidad de ir de i a j en n transiciones, como
se observa en la ecuación 2.11.

P robabilidad de estar en estado j en t = qi Pi,j (n) = q(columna j de P n )
i∈S
(2.11)

donde q = [q1 , q2 , . . . qs ].

2.1.3 Clasificación de los estados en una cadena de Markov


Trayectoria: Para dos estados i y j, una trayectoria es la secuencia de transicio-
nes que comienza en i y termina en j en el que todas las transiciones tienen
probabilidad mayor de cero (> 0) de ocurrir.

Alcanzabilidad: Un estado j es alcanzable desde i si hay una trayectoria entre


i y j.
16
2.1 Proceso Estocástico

Comunicación: Dos estados i y j se comunican si j es alcanzable desde i e i es


alcanzable desde j.

Conjunto Cerrado: Un conjunto de estados S en una cadena de Markov es


un conjunto cerrado si ningún estado fuera de S es alcanzable desde algún
estado en S.

Estado Absorbente: Un estado i es absorbente si la probabilidad de ir a sí


mismo es uno (Pi,i = 1).

Estado transitorio: Un estado i es transitorio al existir un estado j alcanzable


desde i e i no es alcanzable desde j.

Estado recurrente: Es un estado que no es transitorio.

Estado periódico: Un estado es periódico con periodo k > 1 si k es el número


más pequeño tal que sus trayectorias conducen del estado i de regreso al
estado i tienen una longitud que es múltiplo de k.

Estado aperiódico: Es un estado recurrente que no es periódico.

Cadena ergódica: Es una cadena de Markov cuyos estados son recurrentes,


aperiódicos y se comunican entre sí.

2.1.4 Probabilidades de estado estable y tiempos promedio de


primer paso
El siguiente teorema ayuda a explicar las probabilidades de transición:

Teorema

Sea P la matriz de transición de una cadena de Markov ergódica de estado estable,


entonces existe un vector π = π1 , π2 , . . . , πs , para el cual se cumple lo indicado en
la ecuación 2.12.
 
π1 π2 ... πs
 π1 π2 ... πs 
 
lı́m P n =  . .. .. ..  (2.12)
n→∞  .. . . .
π1 π2 ... πs

17
Capítulo 2. Cadenas de Markov

Dado que el ij-ésimo elemento de P n es Pi,j (n), para cualquier estado inicial i, se
tiene:

lı́m Pi,j (n) = πj (2.13)


n→∞

para n grande, P n tiende a una matriz con renglones idénticos. Lo que significa
que en el largo plazo la cadena se estabiliza y la probabilidad de llegar a un estado
j es πj en el largo plazo (independientemente del estado inicial i).

El vector π = [π1 , π2, . . . , πs ] se conoce como distribución de estado estable (o de


equilibrio).

Cálculo de la distribución de estado estable

Partiendo del teorema anterior, para n grande y para toda i,

Pi,j (n + 1) ∼
= Pi,j (n) ∼
= πj (2.14)

Dado que Pi,j (n + 1) = (renglón i de P n )(columna j de P ), se puede escribir:



Pi,j (n + 1) = Pi,k (n)pk,j (2.15)
k∈S

Si n es grande, sustituyendo la ecuación 2.14 en 2.15, quedando



πj = πk pk,j (2.16)
k∈S

En forma matricial, la ecuación 2.16 puede verse como:

π=π P (2.17)

El problema de la ecuación 2.17 tiene infinitas soluciones, pero pueden obtenerse


valores únicos si se considera que para cualquier n y cualquier i:

Pi,1 (n) + Pi,2 (n) + · · · + Pi,s (n) = 1 (2.18)

En el caso en que n tiende a infinito:

π1 + π2 + · · · + πs = 1 (2.19)
18
2.1 Proceso Estocástico

Al sustituir cualquier ecuación del sistema presentado en 2.16 por la ecuación 2.19,
se pueden obtener valores únicos para las probabilidades de estado estable.

Ejemplo de estado estable

Las granjas de cierta región pueden clasificarse en tres tipos: agrícolas, pecuarias o
mixtas. Actualmente 30 % son agrícolas, 40 % pecuarias y 30 % mixtas. La matriz
de transición de un año al siguiente es:
  
Agrcola 0,8 0,1 0,1
P ecuaria 0,2 0,8 0,0
M ixta 0,1 0,1 0,8

Encuentre los porcentajes de los tres tipos de granjas:

a) el año próximo,
 
� � 0,8 0,1 0,1 � �
qP = 0,3 0,4 0,3 0,2 0,8 0,0 = 0,35 0,38 0,27
0,1 0,1 0,8

Los porcentajes (probabilidades) son de 0.35, 0.38 y 0.27 para las granjas agrícolas,
pecuarias y mixtas, respectivamente.

b) dentro de 2 años,
 
� � 0,8 0,1 0,1 � �
qP = 0,35 0,38 0,27 0,2 0,8 0,0 = 0, 383 0, 366 0, 251
0,1 0,1 0,8

Los porcentajes (probabilidades) son de 0.383, 0.366 y 0.251 para las granjas agrí-
colas, pecuarias y mixtas, respectivamente.

c) a largo plazo. Se resuelve empleando la relación π = πP =


 
� � � � 0,8 0,1 0,1
π1 π2 π3 = π1 π2 π3 0,2 0,8 0,0
0,1 0,1 0,8

� � � �
π1 π2 π3 = 0,8π1 + 0,2π2 + 0,1π3 , 0,1π1 + 0,8π2 + 0,1π3 , 0,1π1 + 0,8π3

El sistema de ecuaciones resultante luego de reducir términos semejantes es:


19
Capítulo 2. Cadenas de Markov

0,2π1 − 0,2π2 − 0,1π3 = 0


−0,1π1 + 0,2π2 − 0,1π3 = 0
−0,1π1 + 0,2π3 = 0

Reemplazando la última ecuación del sistema por π1 + π2 + π3 = 1

0,2π1 − 0,2π2 − 0,1π3 = 0


−0,1π1 + 0,2π2 − 0,1π3 = 0
π1 + π 2 + π 3 = 1

Al resolver el sistema de ecuaciones se obtienen las siguientes probabilidades π1 =


9 , π2 = 9 y π3 = 9 , las cuales son las probabilidades de estado estable del sistema.
4 3 2

2.1.5 Análisis transitorio


El comportamiento previo a alcanzar el estado estable se conoce como compor-
tamiento transitorio, para cuyo cálculo se debe trabajar con las ecuaciones para
Pi,j (n).

2.1.6 Interpretación de las probabilidades de estado estable


Una interpretación de las probabilidades de estado estable puede deducirse de 2.16,
al restar a ambos lados πj pj,j .

πj (1 − pj,j ) = πk pk,j (2.20)
k�=j

El término de la izquierda en la ecuación 2.20 es la probabilidad de que una


transición particular deje el estado j y el del lado derecho la probabilidad de que
una transición particular llegue al estado j.

Dicho de otro modo, cuando el sistema alcanza estado estable es cierto que la
probabilidad de que el sistema deje el estado j es igual a la probabilidad de que
el sistema llegue al estado j desde un estado diferente.

20
2.1 Proceso Estocástico

2.1.7 Tiempos promedio de primer paso


Para una cadena ergódica, mi,j el número esperado de transiciones antes de llegar
por primera vez al estado j dado que estamos en estado i se conoce como tiempo
promedio de primer paso.

Partiendo del estado i, con probabilidad pi,j se llegará a j en una etapa (transición).
Para k �= j se llega a k en una etapa con probabilidad pi,k y a continuación tras
mk,j etapas se llega a j. En este caso llevará un promedio de 1 + mk,j etapas ir de
i a j, lo que implica que:

mi,j = Pi,j (1) + pi,k (1 + mk,j ) (2.21)
k�=j

dado que:

pi,j + pi,k = 1 (2.22)
k�=j∈S


mi,j = 1 + pi,k mk,j (2.23)
k�=j

Resolviendo se tiene que:

1
mi,i = (2.24)
πi

y reemplazando en el sistema de ecuaciones resultante de la ecuación 2.23 se cal-


culan los valores restantes.

2.1.8 Cadenas absorbentes


Las cadenas de Markov que poseen algunos estados absorbentes se conocen co-
mo Cadenas absorbentes. En ellas de comenzar en un estado transitorio, tarde o
temprano se llegará a un estado absorbente.

Para cualquer cadena absorbente es posible calcular:

1. El número de veces que se espera que entre a cada estado transitorio, dado
que inició en el estado transitorio i, esto es el número de periodos que se
espera que pase en un estado transitorio determinado i antes de alcanzar la
absorción.
21
Capítulo 2. Cadenas de Markov

2. La probabilidad de terminar en cada uno de los estados absorbentes dado


que se inició en un estado transitorio i.

Para realizar tales cálculos, es necesario reescribir la matriz de la forma:


� �
Q | R
P = (2.25)
0 | I

donde: Q es la matriz de probabilidades de transición entre estados transitorios,


R es la matriz de probabilidades de transición entre estados transitorios y estados
absorbentes, 0 es una matriz cero debido a que la probabilidad de ir de un estado
absorbente i a un estado transitorio j es igual a 0, e I es la matriz identidad
que indica que de un estado absorbente i solo se puede ir a sí mismo, o en otras
palabras permanecer en él.

Si se tienen m estados absorbentes, la matriz Q será de s − m × s − m, la matriz


R será de s − m × m, la matriz 0 será de m × s − m y la matriz I de m × m.

Número de periodos esperado en un estado transitorio

T = (I − Q)−1 (2.26)

De la ecuación 2.26 se tiene que: al iniciar en el estado transitorio i, el número de


periodos que se pasa en un estado transitorio j antes de la absorción es el ij-ésimo
elemento de la matriz T.

P A = (I − Q)−1 R (2.27)

La ecuación 2.27 contiene las probabilidades de absorción, así: el ij-ésimo término


de la matriz P A contiene la probabilidad de ser absorbido en el estado j dado que
se parte de un estado transitorio i.

Ejemplo de cadenas de Markov absorbentes

La matriz de transición que sigue representa la trayectoria de los estudiantes de


ingeniería de producción en la universidad como una cadena de Markov.

22
2.1 Proceso Estocástico

 
Estudiante de primero 0,15 0,75 0 0,1 0
Estudiante de segundo 
 0 0,15 0,80 0,05 0 

Estudiante de tercero 
 0 0 0,20 0,05 0,75

Desertor  0 0 0 1 0 
Graduado 0 0 0 0 1

El estado de cada estudiante se observa cada año en febrero. Las probabilidades de


transición muestran las probabilidades de cambio de estado en un periodo (suponga
que un estudiante una vez se retira de la universidad no vuelve).

a) Si un estudiante entra a ingeniería de producción, a primer año, ¿cuántos años


espera pasar como estudiante?
     
1 0 0 0,15 0,75 0 0,85 −0,75 0
I − Q = 0 1 0 −  0 0,15 0,80 =  0 0,85 −0,80
0 0 1 0 0 0,20 0 0 0,80
 20 300 300

17 289 289
−1
[I − Q] =0 20
17
20 
17
5
0 0 4

En consecuencia, el tiempo que se espera que un estudiante que empieza en primer


año permanezca en el sistema es el resultado de sumar los términos de la fila uno.

20 300 300 940


T iempo = + + = = 3,2525
17 289 289 289

b) ¿Cuál es la probabilidad de que se gradúe y cuál la de que deserte?


 20 300 300
   64 225
  
17 289 289 0,10 0 289 289 0, 22145 0, 77855
−1
[I − Q] R=0 20
17
20  
17 0,05 0  =  17
2 15 
17 = 0, 11765 0, 88235
5 1 15
0 0 4
0,05 0,75 16 16
0, 0625 0, 9375

La probabilidad de que un estudiante de primer año termine desertando es 0.2214,


la probabilidad de que se termine graduando es de 0.7785, etc.

23
Capítulo 2. Cadenas de Markov

2.1.9 Modelos para planificar la fuerza de trabajo


Existen aplicaciones para planeación a largo plazo en las cuales resulta útil predecir
la cantidad de empleados de cada tipo si se mantiene la tendencia actual en el
estado estable. Tales predicciones se hacen de manera similar al cálculo de las
probabilidades de estado estable para cadenas de Markov.

Dada una clasificación de los miembros de una organización en S = {1, 2, . . . , s}


grupos. Durante cada periodo, una fracción pi,j de los que comienzan en el gru-
po (estado) i termina en el grupo (estado) j. Además durante cada periodo una
fracción pi,s+1 de los miembros del grupo i sale de la organización.

En este caso la matriz P es de s × (s + 1), y su ij-ésimo elemento es pi,j . Al


comenzar cada periodo son contratados por la organización Hi miembros del grupo
i. Sea Ni (t) el número de miembros del grupo i al comienzo del periodo t si
existe un límite al que tiende Ni (t) a medida que crece t se llama Ni y al vector
N = (N1 , N2 , . . . , Ns ) se le conoce como Censo de estado estable de la organización.

El censo de estado estable, si existe, se puede hallar al resolver el sistema de s


ecuaciones que se obtiene como sigue: Para que exista un censo de estado estable
debe cumplirse para i = 1, 2, . . . , s, y para cada periodo.

Individuos que entran a i = Individuos que salen de i (2.28)

Si la ecuación 2.28 no se cumple para todos los grupos, el número de personas en


el último grupo se acumulará con el paso del tiempo. Se tiene que:

Individuos que entran a i en cada periodo = Hi + Nk pk,i (2.29)
k�=i

Individuos que salen de i en cada periodo = Ni pi,k (2.30)
k�=i

El sistema de ecuaciones que permite calcular el censo de estado estable, si existe,


es presentado en 2.31:
� �
Hi + Nk pk,i = Ni pi,k ∀i ∈ S (2.31)
k�=i k�=i


Dado que k�=i pi,k = 1 − pi,i la ecuación 2.31 puede simplificarse como se observa
en la ecuación 2.32.

Hi + Nk pk,i = Ni (1 − pi,i ) ∀i ∈ S (2.32)
k�=i
24
2.2 Problema de la ruina del jugador

A partir de Hi y pi,j conocidos es posible calcular el censo de estado estable, y de


manera similar conocido el censo de estado estable es posible determinar la política
de contratación, algunos censos de estado estable requerirán de Hi negativos (lo
que implicaría el despido de empleados).

2.2 Problema de la ruina del jugador

Sea un jugador que inicia con i y que en cada jugada gana $1 con probabilidad p
o pierde $1 con probabilidad q = 1 − p.

Sea Xn la fortuna total del jugador después del n-ésimo juego, y teniendo en cuenta
que el objetivo del jugador es lograr una fortuna de N sin arruinarse, entonces el
juego terminará cuando el jugador (si tiene éxito) gane el juego o cuando termine
arruinado.

Como el jugador inicia con i, 0 < i < N , el juego puede representarse mediante una
cadena de Markov con variable de estado Xn y espacio de estado S = {0, 1, . . . , N }.

Las probabilidades de transición son, por lo tanto: pi,i+1 = p, pi,i−1 = q, para


0 < i < N (estados transitorios) y, pi,i = 1, para los estados absorbentes 0 y N .

A medida que el juego avanza, puede ser representado como una caminata aleatoria
según la cual Xn = Δ1 + Δ2 + · · · + Δn , con X0 = i donde {Δn } es una secuencia
de pasos independientes e idénticamente distribuidos tal que P (Δ = 1) = p y
P (Δ = −1) = q = 1−p, tales pasos representan la ganancia de los juegos sucesivos.

Dado que el juego sólo terminará cuando Xn = N o Xn = 0 y sea τi la duración


del juego. τi = min{n ≥ 0 : Xn ∈ {0, N }|X0 = i} Lo que quiere decir que Xτi = 0
si pierde el juego o Xτi = N si lo gana.

Sea Pi = P (Xτi = N ), la probabilidad de que el jugador gane el juego cuando


parte de i, es decir, X0 = i. En consecuencia P0 = 0 y PN = 1, por lo que se
requiere calcular Pi para 1 ≤ i ≤ N − 1.

Pi = pPi+1 + qP i − 1 con lo cual si Δ1 = 1 la fortuna del jugador incrementa a


X1 = i + 1 y por las propiedades de la cadena de Markov gana ahora con Pi+1 ,
si por el contrario Δ1 = −1 su fortuna decrece a X1 = i − 1 con lo que ganará
el juego con probabilidad Pi−1 , pues como se mencionó p y q son respectivamente
las probabilidades de ganar y de perder y p + q = 1.

pP1 + qP1 = pPi+1 + qPi−1


p(Pi+1 − P1 ) = q(P1 − Pi−1 ) (2.33)
q
Pi+1 − P1 = (P1 − Pi−1 )
p
25
Capítulo 2. Cadenas de Markov

para i = 1 se tiene: P2 − P1 = pq (P1 − P0 ) = pq P1 , pues P0 = 0


� �2
para i = 2 se tiene: P3 − P2 = pq (P2 − P1 ) = q
p P1 , generalizando se tiene
� �i
q
Pi+1 − Pi = P1 , 0<i<N (2.34)
p

Sumando a los dos lados

i
� i
� q
Pk+1 − Pk = ( ) k P1
p
k=1 k=1
i
� q
Pi+1 − P1 = ( ) k P1
p
k=1
i
� q
Pi+1 = P1 + P1 ( )k
p
k=1
i
� q
Pi+1 = P1 ( )k (2.35)
p
k=0

Con lo cual:
 q i+1
 1−( p )
P1 q si p �= q
Pi+1 = 1− p (2.36)
P (i + 1) si p = q = 0,5
1

Se realizó la reducción de la serie geométrica ...

Seleccionando i = N − 1 y teniendo en cuenta que PN = 1


 q N
P 1−( p )
si p �= q
1 1− pq
Pi+1 = 1 = PN =
P (N ) si p = q = 0,5
1

con lo cual se puede concluir que


� q
1− p
q N
1−( p )
si p �= q
P1 =
1
N si p = q = 0,5

26
2.2 Problema de la ruina del jugador

Reemplazando P1 en la ecuación 2.36 y reduciendo términos semejantes


 q i
 1−( p ) si p �= q
q N
Pi = 1−( p ) (2.37)
i
N si p = q = 0,5

Recordar que 1 − Pi es la probabilidad de arruinarse.

2.2.1 Llegar a ser infinitamente rico o arruinarse


q
Si p > 0,5 entonces p < 1 y de acuerdo con la ecuación 2.37
� �i
q
limN →∞ Pi = 1 − > 0, p > 0,5 (2.38)
p
q
Si por el contrario p ≤ 0,5 entonces p ≥ 1 y de acuerdo con la ecuación 2.37

limN →∞ Pi = 0, p ≤ 0,5 (2.39)

Suponiendo que el jugador inicia con X0 = i y desea jugar indefinidamente hasta


ganar tanto dinero como sea posible o (si le va mal) hasta arruinarse. No existe
un valor ganador N , y el jugador sólo parará de apostar al arruinarse.

si p > 0,5 (cada juego está a su favor) existe una probabilidad positiva de
que nunca se arruine, y por el contrario llegue a ser infinitamente rico, ver
ecuación 2.38.

si p ≤ 0,5 (cada juego está en su contra o es neutral), entonces el jugador se


arruinará con probabilidad 1, como se observa en ecuación 2.39.

Ejemplos

1. John inicia con $2, y p = 0,6. ¿Cuál es la probabilidad de que John obtenga
una fortuna N = 4 sin arruinarse?
q
Respuesta: i = 2, N = 4, p = 0,6, q = 1 − p = 0,4 y p = 23 , la probabilidad
de ganar (para la meta establecida N es:
2
1−( 23 )
P2 = 4 = 0,91
1−( 2
3 )
2. ¿Cuál es la probabilidad de que John llegue a ser infinitamente rico?

Respuesta:
27
Capítulo 2. Cadenas de Markov

� �i � 2 �2
q 5
1− p =1− 3 = 9 = 0,56

3. Si John inicia con $1 ¿Cuál es la probabilidad de que vaya a la quiebra?

Respuesta:
� �i � �1
1 − pq = 1 − 23 = 1
3 es la probabilidad de que llegue a ser infinitamente
rico y en consecuencia la probabilidad de arruinarse es de 1 − 1
3 = 23 .

2.2.2 Aplicaciones
Riesgo en el negocio de los seguros: Una compañía de seguros que gana $1
por día (por concepto de intereses), pero cada día independientemente del
pasado puede recibir una reclamación en su contra, por la cantidad de $2
con probabilidad q = 1 − p. Cuando se presenta un reclamo se remueven $2
de su reserva de dinero. Por lo tanto en el n-ésimo día el ingreso neto del día
es Δn como en el problema de la ruina del jugador: 1 con probabilidad p y
-1 con probabilidad q.

Si la compañía de seguros inicia con una reserva de $i ≥ 1, ¿cuál es entonces


la probabilidad de que eventualmente se arruine?

La respuesta se obtiene de las probabilidades de arruinarse o ser infinita-


mente rico mostradas en la ecuación 2.38 y ecuación 2.39, así: Si p > 0,5 la
� �i
probabilidad de alcanzar una fortuna infinita está dada por pq > 0, de lo
contrario, es decir si p ≤ 0,5 la ruina siempre ocurrirá. Intuitivamente tiene
sentido pues si p > 0,5, entonces el ingreso neto por día es E(Δ) = p − q > 0,
mientras que si p ≤ 0,5, el ingreso neto diario será de E(Δ) = p − q ≤ 0. Por
lo tanto, la compañía no puede esperar permanecer en el negocio a menos
que la ganancia promedio sea mayor que los gastos promedio ocasionados
por las reclamaciones.

Prueba de farmacos: Un hospital desea determinar cual de dos medicamentos


es más efectivo en el tratamiento de cierta enfermedad. Independientemente,
toman pares de pacientes dando a uno de los miembros del par el medi-
camento uno y al otro el medicamento dos. Cada medicamento cura o no
cura la enfermedad y el resultado del i-ésimo par es dado por (Ai , Bi ) donde
Ai = 1 si el medicamento 1 cura al paciente del par i y 0 de lo contrario,
y Bi = 1 si�el medicamento 2 cura al paciente del par i y 0 de lo contra-
n
rio. Zn = j=1 (Aj − Bj ), z0 = 0 denota la diferencia neta entre los dos
medicamentos, en el número de pacientes curados en n pares de pruebas.
Esto es si Z0 > 0 el medicamento uno es mejor, si Z0 < 0 el medicamento

28
2.2 Problema de la ruina del jugador

dos es mejor y si Z0 = 0 no existe diferencia entre el comportamiento de los


medicamentos.

Para determinar cual medicamento es mejor (asumiendo que uno de ellos


es estrictamente mejor), el hospital escoge y fija un entero grande M > 0 y
espera hasta el primer ensayo n en el cual Zn = M o Zn = −M lo que suceda
primero. Con lo cual si M es alcanzado primero se dice que el medicamento
uno es mejor y en caso contrario se dice que es mejor el medicamento dos. Si
M es suficientemente grande, se espera que sea una buena forma de decidir
cual de los dos medicamentos es mejor, pero existe la posibilidad de cometer
un error por lo cual se realiza el siguiente análisis.

Sea r1 = P (A = 1), r2 = P (B = 1) las probabilidades individuales y desco-


nocidas de cura, y asumiendo que{Ai } y {Bi } forman secuencias cada una de
las cuales es idéntica e independientemente distribuida. Secuencias de Ber-
noulli con probabilidades r1 y r2 . Donde r1 y r2 pueden interpretarse en el
largo plazo como la proporción de pacientes que son curados con el respecti-
vo medicamento, y el objetivo del hospital es determinar cual es mayor entre
r1 y r 2 .

Si se asume que r1 > r2 se conoce y calculando la probabilidad de que de


manera equivocada se halla dicho que r2 > r1 . {Zn } representa una caminata
aleatoria en la cual los incrementos Aj − Bj toman los valores 1, −1 y 0 con
probabilidades:

P (Aj − Bj = 1) = P (Aj = 1, Bj = 0) = r1 (1 − r2 ),

P (Aj − Bj = −1) = P (Aj = 0, Bj = 1) = r2 (1 − r1 ),

P (Aj − Bj = 0) = P (Aj = 1, Bj = 1) + P (Aj = 0, Bj = 0) = r1 r2 + (1 −


r1 )(1 − r2 ).

Se desea entonces calcular la probabilidad de que Zn alcance por primera vez


el nivel −M antes de alcanzar el nivel M teniendo en cuenta las probabilida-
des anteriores. Note que este problema puede ser considerado en el marco de
referencia del problema de la ruina del jugador: Sea i = M y sea N = 2M ,
se quiere calcular la probabilidad 1 − Pi de que el jugador se arruine, esta es
la probabilidad de que Zn disminuya M unidades antes de incrementar M .
La única diferencia es que se incluye la probabilidad de que no se gane ni se
pierda dinero en una jugada (P (Aj = Bj = 0) > 0). Pero dado que cuando
Aj = Bj , Zn no cambia de valor, sólo es necesario considerar aquellos juegos
en los cuales Aj − Bj es igual a 1 o −1. En otras palabras, se definen incre-
mentos {Δn } independientes e idénticamente distribuidos correspondientes
a una nueva caminata aleatoria Xn = Δ1 + · · · + Δn en la cual:

P (Δ = 1) = p y P (Δ = −1) = q = 1 − p,
29
Capítulo 2. Cadenas de Markov

donde:
p = P (Aj − Bj = 1|Aj − Bj �= 0)
P (Aj −Bj =1
= P (Aj−Bj =1)+P (Aj−Bj =−1)
r1 (1−r2 )
= r1 (1−r2 )+r2 (1−r1 )

Δ tiene la distribución de probabilidad de un viejo incremento Ai − Bi dado


que Ai − Bi �= 0.

Por lo anterior, el problema sepuede representar como la ruina del jugador,


en la cual se desea calcular (usando la nueva cadena {Xn }) 1 − Pi cuando
N = 2M , e i = M . Lo que proporciona, después de algunos cálculos:
1
1 − PM = M
1+( p
q)

donde p es el calculado previamente y q = 1 − p. Claramente al seleccio-


nar M suficientemente grande, esta probabilidad puede ser arbitrariamente
pequeña.

2.2.3 Caminata aleatoria con probabilidades


Sean a > 0 y b > 0 enteros y Rn una caminata aleatoria simple con R0 = 0.
Sea p(a) = P (Rn alcance el nivel a antes de caer al nivel − b).

Haciendo a = N − i y b = i, con lo cual N = a + b, la caminata aleatoria


puede representarse como un juego que inicia con i = b y busca llegar a
N = a + b antes de ir a la ruina. Así la probabilidad p(a) puede calcularse
enmarcando el problema en la ruina del jugador: p(a) = Pi donde N = a + b,
i = b. Por lo cual:
 q b
 1−( p )
a+b si p �= q
p(a) = 1−( q
p ) (2.40)
 b
a+b si p = q = 0,5

Ejemplo

1. Ellen compró una acción por $10 y se cree que el precio de la acción
se mueve como una caminata aleatoria simple con p = 0,55. ¿cuál es la
probabilidad de que la acción de Ellen alcance un máximo valor de $15
antes de alcanzar un valor mínimo de $5?

Respuesta

30
2.3 Procesos de decisión de Markov

Se quiere calcular la probabilidad de que la acción gane $5 antes de que


pierda $5, y calcular p(a)
q b
1−( p ) 1−(0,82)5
p(a) = q a+b = 1−(0,82)10
= 0,73.
1−( p )
2. ¿Cuál es la probabilidad de que Ellen llegue a ser infinitamente rica?

Respuesta
� �b
q
Se busca lima→∞ p(a) = 1 − p = 1 − (0,82)5 = 0,63

2.3 Procesos de decisión de Markov

A menudo es deseable establecer procesos de toma de decisiones y evaluar su


comportamiento en un horizonte de tiempo de largo plazo. Se pretende entonces
maximizar los beneficios o los ingresos esperados en un horizonte de larga dura-
ción, o minimizar los costes esperados. Usualmente este horizonte de planeación
se considera infinito.

Existen dos formas básicas de considerar los beneficios o costes:

Descuentos: Las recompensas obtenidas en periodos futuros pueden traerse a


valor presente si se aplica un factor β, tal que 0 ≤ β ≤ 1, así un dólar
obtenido en el periodo siguiente representa β el día de hoy.

Si M es la recompensa máxima en cada periodo, la recompensa descontada


máxima puede obtenerse como se observa en la ecuación 2.41.

1
M + M β + M β 2 + · · · = M (β 0 + β 1 + β 2 + . . . ) = M <∞ (2.41)
1−β

Promedio: Se tiene en cuenta en este caso que si se obtiene la mejor decisión


en cada periodo, puede calcularse el valor esperado de la recompensa dentro
del horizonte de planeación:
� �
Recompensa de los periodos : 1, 2, . . . , n
E lı́m (2.42)
n→∞ n

En este caso aunque el ingreso puede ser infinito, el valor promedio puede
calcularse.

31
Capítulo 2. Cadenas de Markov

2.3.1 Descripción de un proceso de decisión de Markov


Un proceso de decisión de Markov (MDP, del inglés Markov decision process) se
caracteriza por los siguientes elementos:

Espacio de Estado: se tienen los estados i ∈ S = {1, 2, . . . , N }, el conjunto S


se conoce como espacio de estado.

Conjunto de decisiones: para cada estado i existe un conjunto finito de deci-


siones D(i), que pueden ser tomadas.

Probabilidades de transición: para cada estado i y decisión d, existe una pro-


babilidad de llegar al estado j, P (j | i, d) que solo depende del estado actual
i y de la decisión d. P (j | i, d)puede leerse como la probabilidad de llegar al
estado j dado que en el estado i se toma la decisión d.

Recompensa esperada: Durante un periodo en el cual el estado es i y se escoge


la alternativa (decisión) d ∈ D(i), se obtiene una recompensa esperada ri,j .

2.3.2 Política óptima


La política es entendida como una regla que se establece para la toma de decisiones,
a manera de criterio. Así, la decisión que se toma en un periodo t puede depender
de lo sucedido antes, es decir, la decisión puede depender del estado en los periodos
1, 2, . . . , t, y de las decisiones tomadas en los periodos 1, 2, . . . , t − 1.

Se conoce como una política estacionaria β si siempre que el estado es i, me-


diante la política β se adopta, independientemente del periodo, la misma decisión
δ(i).

Sea δ una política arbitraria y Δ el conjunto de políticas. Entonces:

Xt : Variable de decisión para el estado del proceso markoviano de decisión al


comienzo del periodo t.

X1 : Estado particular del sistema al comienzo del periodo 1 (estado inicial).

dt : Decisión elegida durante el periodo t.

Vδ (i): Recompensa descontada esperada obtenida durante un número infinito de


periodos, dado que al inicio del periodo 1 el estado es i y la política estacio-
naria es δ.

� ∞


Vδ(i) = Eδ β t−1 rxt ,dt | x1 = i (2.43)
t=1
32
2.3 Procesos de decisión de Markov

� �
donde Eδ β t−1 rxt ,dt | x1 = i es la recompensa descontada esperada durante el
periodo t, dado que al comienzo del periodo 1 el estado es i y se sigue la política
estacionaria δ.

El problema de optimización, es:

En caso de maximización: V (i) = máxδ∈Δ Vδ (i)

En caso de minimización: V (i) = mı́nδ∈Δ Vδ (i)

Si en una política δ ∗ , V (i) = Vδ∗ (i) para todo i ∈ S, entonces δ ∗ es una política
óptima. Sin embargo, la existencia de una política simple δ ∗ que obtiene de manera
simultánea los N óptimos en el problema de optimización no es evidente. Además
se sabe que si ri,d están acotadas, existe una política óptima.

2.3.3 Métodos para determinar una política óptima


1. Iteración de Políticas

2. Programación lineal

3. Iteración de valores o aproximaciones sucesivas

Iteración de Políticas

Una forma de evaluar cualquier política estacionaria consiste en determinar el


conjunto de ecuaciones lineales Vδ (i) para todo i ∈ S, como sigue:

Vδ (i) = ri,δ(i) + β p(j | i, δ(i))Vδ (j) ∀i ∈ S (2.44)
j∈S

Donde:

Vδ (i): Recompensa descontada esperada para un número infinito de periodos.

ri,δ(i) : Recompensa esperada del periodo actual.



j∈S p(j | i, δ(i))Vδ(j) : Recompensa descontada esperada al comienzo del perio-
do dos, obtenida del periodo dos en adelante.

Para evaluar una política estacionaria delta se resuelve el sistema de ecuaciones


lineales asociado a ella.

33
Capítulo 2. Cadenas de Markov

Método de iteración de la política de Howard Este método permite obtener


la política estacionaria óptima para un MDP.

Evaluación de la política: Solución del sistema de ecuaciones para el cálculo


de la recompensa descontada esperada para un número infinito de periodos,
asociado a la política δ.

Mejoramiento de la política: Procedimiento sistemático que se aplica para


encontrar la política óptima. A partir del cálculo de Tδ (i)
 

Tδ(i) = máx ri,δ(i) + β p(j | i, d)Vδ(j)  (2.45)
d∈D(i)
j∈S

Siempre Tδ (i) ≥ Vδ (i), dado que se puede elegir d ∈ D(i), para todo i ∈ S.

Si Tδ (i) = Vδ (i), para todo i ∈ S entonces la política δ es una política óptima.

Si Tδ (i) > Vδ (i), entonces se modifica la política δ(i) de modo que la decisión
d ∈ D(i) que proporciona el máximo valor de Tδ(i) , creando la nueva política
estacionaria δ � para la cual Vδ� (i) ≥ Vδ (i) para todo i ∈ S y para por lo menos un
estado i� , Vδ� (i� ) ≥ Vδ (i� ). Se regresa al paso 1 con la política δ � , en lugar de δ.

Programación lineal

La formulación del Proceso de decisión de Markov, puede resumirse como sigue:

Para un problema de maximización:



Minimizar z = Vj
j∈S

sujeto a: Vi − β p(j | i, d)Vj ≥ ri,d ∀i, ∀d ∈ D(i) (2.46)
j∈S

Vj no restringidas en signo

Para un problema de minimización:



Maximizar z = Vj
j∈S

sujeto a: Vi − β p(j | i, d)Vj ≤ ri,d ∀i, ∀d ∈ D(i) (2.47)
j∈S

Vj no restringidas en signo
34
2.3 Procesos de decisión de Markov

La solución óptima para estos modelos de LP tendrá Vi = V (i). Además, si una


restricción para el estado i y la decisión d es activa (no tiene holgura ni exceso),
entonces la decisión d es óptima en el estado i.

Iteración de valores o aproximaciones sucesivas

Se ilustra el procedimiento más simple para el caso de maximización. Sea Vt (i) la


recompensa descontada esperada máxima que se puede obtener tras t periodos, si
el estado al comienzo del periodo actual es i. Entonces:
 
 � 
Vt (i) = máx ri,δ(i) + β p(j | i, d)Vt−1 (j) (2.48)
d∈D(i)  
j∈S

V0 (i) = 0 (2.49)

Al igual que en los métodos anteriores en la ecuación 2.48 el valor de V t (i) se


calcula a partir de la recompensa por el periodo �
actual ri,δ(i) y de la recompensa
descontada esperada para el periodo 2, que es β j∈S p(j | i, d)Vt−1 (j).

Si la decisión dt (i) es la decisión que se elige en el periodo 1 en el estado i para


obtener Vt (i), para un MDP con un espacio de estado finito y cada D(i) tiene un
número finito de elementos, el resultado más básico de aproximaciones sucesivas
establece que para cada i ∈ S.

βt
|Vt (i) − V (i)| ≤ máx |ri,d | (2.50)
1 − β i,d

Donde V (i) es la recompensa descontada esperada máxima obtenida durante un


número infinito de periodos si el estado es i al comienzo del periodo actual. Por lo
que:

lı́m dt (i) = δ ∗ (i) (2.51)


t→∞

donde δ ∗ (i) define la política estacionaria óptima. Pueto que β < 1, para t sufi-
cientemente grande Vt (i) de aproxima a V (i), lo que significa que para t >> 0 la
decisión que es óptima en el estado i para un problema de t periodos es también
óptima para un horizonte de tiempo infinito.

35
Capítulo 2. Cadenas de Markov

No es fácil determinar un valor t∗ tal que para toda i y t > t∗ , dt (i) = δ ∗ (i); y si
se quiere asegurar que las Vt (i) estén dentro de una desviación � de su respectiva
V (i) en la t∗ −ésima iteración de aproximaciones sucesivas en la cual:

βt
máx |ri,d | < � (2.52)
1 − β i,d

Aunque no hay garantía de que tras t∗ iteraciones se llegue a la política estacionaria


óptima.

2.3.4 Maximización de la recompensa esperada por periodo


Por medio de programación lineal es posible determinar la política estacionaria
que maximiza la recompensa media esperada por periodo. Sea una política Q que
elige la decisión d ∈ D(i) con probabilidad qi (d) en un periodo en el que el estado
es i. La política será estacionaria si cada qi (d) es igual a cero o uno.

Para encontrar la política estacionaria buscada, se define πi,d como la fracción de


todos los periodos en los que en el estado i se elige la decisión d ∈ D(i). Por lo que
la recompensa esperada por periodo se puede escribir como en la ecuación 2.53
� �
máx z = ri,d πi,d (2.53)
i∈S d∈D(i)

Sujeto a:
� � �
πi,d = πi,d p(j | i, d) ∀j ∈ S (2.54)
d∈D(j) d∈D(i) i∈S

� �
πi,d = 1 (2.55)
i∈S d∈D(i)

πi,d ≥ 0 (2.56)

La ecuación 2.54, representa la fracción de los periodos en que ocurre una transición
fuera del estado j, que debe ser igual a la fracción de periodos en los que se da
una transición hacia j; y las ecuaciones 2.55 y 2.56 las que deben cumplir las
probabilidades πi,d . Se puede demostrar que este PL tiene una solución óptima en
la cual para cada i a lo sumo una πi,d > 0. Tal solución implica que cada qi (d) es
igual a uno o cero.

36
2.4 Ejemplo de Proceso de decisión Markoviano

2.4 Ejemplo de Proceso de decisión Markoviano

Consolas y videojuegos comercializa una amplia variedad de consolas para su venta


al detal. El horario de funcionamiento es de lunes a viernes de 8:00 a 18:00. El
control de inventarios de la XBox se realiza de acuerdo con la siguiente política: Los
viernes al terminar su turno de trabajo (18:00) el dependiente verifica la cantidad
de Xboxs en inventario, si hay menos de dos ordena el número necesario para
completar cuatro al comienzo del día lunes (pues todas las órdenes llegan durante
el fin de semana); si hay dos o más no ordena nada. La demanda de las Xboxs
en el transcurso de la semana tiene una demanda de Poisson con media cuatro
y se asuma cada semana independiente de las semanas previas (propiedad de las
cadenas de Markov).

Cada XBox es adquirida a $400 y vendida en $1000. El coste de mantenimiento


de inventarios es de $80 por semana para cada XBox. Hay un coste de ordenar de
$50 que se paga al proveedor por cada orden colocada, independientemente de la
cantidad ordenada. No se permiten órdenes atrasadas, luego si la demanda supera
el inventario se pierden las respectivas ventas.

1. Defina Xn como el número de XBoxs que el dependiente encuentra el viernes


al finalizar la jornada de trabajo en la semana n. Modele el comportamiento
del inventario de las XBoxs para la compañía como una Cadena de Markov
en Tiempo Discreto.

Solución

Sea pi la probabilidad de que la demanda sea de i unidades, teniendo en


cuenta que se comporta como una distribución de probabilidad de Poisson,
se tiene:

λi e−λ
pi = P (Demanda = i) = (2.57)
i!

� i−1

qi = P (Demanda ≥ i) = pk = 1 − pk (2.58)
k=i k=0

Como Xn es el número de XBoxs al finalizar la jornada del viernes, el espacio


de estado es S = {0, 1, 2, 3, 4}, y al finalizar la siguiente semana habrá:

máx(0, Demandan ) para Xn ≥ 2 No se coloca orden
Xn+1 =
máx(4 − Demandan , 0) para Xn < 2 Se coloca una orden
(2.59)

37
Capítulo 2. Cadenas de Markov

Esto es si Xn = i e i ≥ 2 no se coloca ninguna orden y el inventario Xn+1 = i


si la demanda es 0, i − 1 si la demanda es 1, etc.

Las probabilidades de transición son en consecuencia:


 �


 P (Demanda = k) = pk si j = 4 − k > 0

 Si i ≤ 1

 P (Demanda ≥ i) = qk si j = 4 − k = 0

pi,j = P (Demanda = k) = pk
 si j = i − k > 0 (2.60)



 Si i ≥ 2 0 si j = i − k < 0

 
 
P (Demanda ≥ i) = qi si j = i − k = 0

Si i < 2 se coloca una orden, por lo cual el lunes a primera hora habrán
4 XBoxs en inventario, lo mismo que si hubiese habido 4 en inventario el
viernes, por lo cual las filas para los estados 0, 1 y 4 son iguales.

0 1 2 3 4
0 q4 p3 p2 p1 p0
1 q4 p3 p2 p1 p0
P = (2.61)
2 q2 p1 p0 0 0
3 q3 p2 p1 p0 0
4 q4 p3 p2 p1 p0

Los valores numéricos son:

0 1 2 3 4
0 0,5665 0,1954 0,1465 0,0733 0,0183
1 0,5665 0,1954 0,1465 0,0733 0,0183
P = (2.62)
2 0,9084 0,0733 0,0183 0,0000 0,0000
3 0,7619 0,1465 0,0733 0,0183 0,0000
4 0,5665 0,1954 0,1465 0,0733 0,0183

2. Sea Yn el inventario de XBoxs el día lunes en la mañana después de que llega


la orden en la semana n. Modele Yn , n ∈ N como una cadena de Markov en
tiempo discreto. Discuta las ventajas y desventajas de utilizar este enfoque.

Solución

Dado que Yn es la cantidad de XBoxs después de que el pedido llega, el


espacio de estado es S = {2, 3, 4}. Además, debido a la demanda de la

38
2.4 Ejemplo de Proceso de decisión Markoviano

semana, el viernes habrá máx(0, Yn − Demandan ) XBoxs en inventario, y


por la política de pedidos el número al comienzo de la semana siguiente será:

máx(Yn , Demandan ) Si Yn − Demandan ≥ 2 No se coloca orden
Yn+1 =
4 Si Yn − Demandan < 2 Se coloca una orden
(2.63)

En este caso la matriz de probabilidades de transición es:

2 3 4
2 p0 0 q1
P = (2.64)
3 p1 p0 q2
4 p2 p1 p0 + q 3

La probabilidad p4,4 = p0 + q3 dado que es posible llegar de 4 a 4 de varias


formas, no se vende nada o se venden tres o más XBoxs, en cuyo caso se
coloca una orden el viernes y se completan cuatro unidades el lunes en la
mañana. Esta técnica de modelización permite trabajar con matrices más
pequeñas.

Los valores numéricos son:

2 3 4
2 0,0183 0,0000 0,9817
P = (2.65)
3 0,0733 0,0183 0,9084
4 0,1465 0,0733 0,7802

3. Calcular las probabilidades de estado estable para los dos casos anteriores y
conparar los resultados

Solución

Teniendo en cuenta que π = πP


 
q4 p3 p2 p1 p0
 q4 p3 p2 p1 p0 
 
[π0 , π1 , π2 , π3 , π4 ] = [π0 , π1 , π2 , π3 , π4 ] 
 q2 p1 p0 0 0 
 (2.66)
 q3 p2 p1 p0 0 
q4 p3 p2 p1 p0

Se obtiene el sistema de ecuaciones:

39
Capítulo 2. Cadenas de Markov

π 0 = q4 π 0 + q 4 π 1 + q 2 π 2 + q 3 π 3 + q 4 π 4 (2.67)
π1 = p3 π0 + p3 π1 + p1 π2 + p2 π3 + p3 π4 (2.68)
π2 = p2 π0 + p2 π1 + p0 π2 + p1 π3 + p2 π4 (2.69)
π3 = p1 π0 + p1 π1 + p0 π3 + p1 π4 (2.70)
π4 = p0 π0 + p0 π1 + p0 π4 (2.71)

Reduciendo términos semejantes y reemplazando una de las ecuaciones por


π0 + π1 + π2 + π3 + π4 = 1 se tiene:

(1 − q4 )π0 − q4 π1 − q2 π2 − q3 π3 − q4 π4 = 0 (2.72)
−p3 π0 + (1 − p3 )π1 − p1 π2 − p2 π3 − p3 π4 = 0 (2.73)
−p2 π0 − p2 π1 + (1 − p0 )π2 − p1 π3 − p2 π4 = 0 (2.74)
−p1 π0 − p1 π1 + (1 − p0 )π3 − p1 π4 = 0 (2.75)
π0 π1 + π2 + π3 + π4 = 1 (2.76)

Resolviendo el sistema de ecuaciones (por medio de la matriz inversa):


 
(1 − q4 ) −q4 −q2 −q3 −q4
 −p3 (1 − p3 ) −p1 −p2 −p3 
 
A=
 −p2 −p2 (1 − p0 ) −p1 −p2 
 (2.77)
 −p1 −p1 0 (1 − p0 ) −p1 
1 1 1 1 1
 
1 0 0, 2923 0, 1649 0, 6214
 0 1 −0, 1056 −0, 0390 0, 1770 
 
A −1
=
 0 0 0, 8903 −0, 0617 0, 1259 
 (2.78)
 0 0 −0, 0618 0, 9521 0, 0607 
−1 −1 −1, 0151 −1, 0162 0, 0148
      
π0 1 0 0, 2923 0, 1649 0, 6214 0 0, 6214
 π1   0 1 −0, 1056 −0, 0390 0, 1770  0   0, 1770 
      
 π2 = 0 0 0, 8903 −0, 0617 0, 1259  0 = 0, 1259 
      
 π3   0 0 −0, 0618 0, 9521 0, 0607  0   0, 0607 
π4 −1 −1 −1, 0151 −1, 0162 0, 0148 1 0, 0148
(2.79)

El estudiante puede comprobar que los dos sistemas son equivalentes pues
en el segundo caso las probabilidades de estado estable son: π2 = 0, 1259,
π3 = 0, 0607 y π4 = 0, 8133.

40
2.4 Ejemplo de Proceso de decisión Markoviano

4. Determine la política óptima (s, S) de inventario para el modelo original.


Recordar que una política (s, S) implica que si el nivel de inventario es menor
o igual a s se debe pedir la cantidad necesaria para completar S.

Solución

Modelando el problema como un proceso Markoviano de decisión, en el que


los estados son el nivel de inventario {0, 1, 2, 3, 4} y las acciones son la canti-
dad a ordenar {0, 1, 2, 3, 4}. Las matrices de transición P (a) para cada una
de las acciones están dadas por:

0 1 2 3 4
0 1,0000 0,0000 0,0000 0,0000 0,0000
1 0,9817 0,0183 0,0000 0,0000 0,0000
P (0) = (2.80)
2 0,9084 0,0733 0,0183 0,0000 0,0000
3 0,7619 0,1465 0,0733 0,0183 0,0000
4 0,5665 0,1954 0,1465 0,0733 0,0183
0 1 2 3 4
0 0,9817 0,0183 0,0000 0,0000 0,0000
P (1) = 1 0,9084 0,0733 0,0183 0,0000 0,0000 (2.81)
2 0,7619 0,1465 0,0733 0,0183 0,0000
3 0,5665 0,1954 0,1465 0,0733 0,0183
0 1 2 3 4
0 0,9084 0,0733 0,0183 0,0000 0,0000
P (2) = (2.82)
1 0,7619 0,1465 0,0733 0,0183 0,0000
2 0,5665 0,1954 0,1465 0,0733 0,0183
0 1 2 3 4
P (3) = 0 0,7619 0,1465 0,0733 0,0183 0,0000 (2.83)
1 0,5665 0,1954 0,1465 0,0733 0,0183
0 1 2 3 4
P (4) = (2.84)
0 0,5665 0,1954 0,1465 0,0733 0,0183

La matriz de costes para este problema puede construirse a partir de la


expresión:

50 + 400a + 80i + 600E(D − i − a)+ si a > 0
ca,i = (2.85)
80i + 600E(D − i) si a = 0

El último término corresponde a las ventas perdidas, pues es la cantidad


en que la demanda excede al inventario más los XBoxs comprados: E(D −
i − a)+ = máx(D − i − a, 0) donde i + a es el inventario disponible el día

41
Capítulo 2. Cadenas de Markov

lunes. Dado que la demanda tiene distribución de probabilidad de Poisson y


haciendo x = i + a, este se puede calcular como sigue:

�∞
E(D − x)+ = − x)pk
k=x+1 (k (2.86)
�∞ �∞
= k=x+1 (k)pk − x k=x+1 pk (2.87)
�∞ � k −λ � � �x k −λ

= k=x+1 k λ k! e
− x 1 − k=0 λ k! e
(2.88)
�∞ � �x �
λk e−λ k −λ
= k=x+1 (k−1)! − x 1 − k=0 λ k! e
(2.89)
�∞ m+1 −λ
� �x k −λ

= m=x λ m!e − x 1 − k=0 λ k! e
(2.90)
�� � � �x �
∞ λk e−λ k −λ
=λ k=m+1 k! − x 1 − k=0 λ k! e
(2.91)
� �x−1 k e−λ � � �x k −λ

= λ 1 − k=0 λ k! − x 1 − k=0 λ k! e
(2.92)
= λ [1 − F (x − 1)] − x [1 − F (x)] (2.93)
= (λ − x) [1 − F (x)] − λ [f (x)] (2.94)

La matriz de costes resultante es:


0 1 2 3 4
0 2400,0 1891,0 1425,9 1048,8 788,9
1 2260,9 1795,9 1418,8 1158,9
ca,i = (2.95)
2 2115,9 1738,8 1478,9
3 2058,8 1798,9
4 2118,9

En GLPK construimos un modelo para minimizar el coste total promedio


según el cual:

/*
Modelo Markoviano de decision para determinar la
politica de inventarios (s,S) para el problema,
*/

set I; #Estados del sistema


set A; #Acciones posibles

param Cost{i in I,k in A};


#Costes de realizar la acción k en el estado i

param Prob{k in A,i in I,j in I} default 0;


#Probabilidades de transición de i a j cuando se realiza la acción k

var x{i in I,k in A}>=0;


var y{i in I};
42
2.4 Ejemplo de Proceso de decisión Markoviano

minimize CosTot : sum{i in I, k in A} Cost[i,k] * x[i,k];

subject to Balance{j in I}: sum{a in A} x[j,a] = sum{i in I, k in A} Prob[k,i,j] * x[i,k];


subject to EspaciMuest: sum{i in I, k in A} x[i,k] = 1;
subject to Soluci{i in I}: y[i]= sum{a in A} x[i,a];
solve;
display y;
data;

El archivo de datos se presenta a continuación


/*
Modelo Markoviano de decision para la gestión
de inventarios, en este caso se ha transpuesto
la matriz de costes para su uso.
*/
set I:= 0 1 2 3 4;
set A:= 0 1 2 3 4;

param Cost: 0 1 2 3 4:=


0 2400.0 2261.0 2115.9 2058.8 2118.9
1 1891.0 1795.9 1738.8 1798.9 0
2 1425.9 1418.8 1478.9 0 0
3 1048.8 1158.9 0 0 0
4 788.9 0 0 0 0;
param Prob:=
[0,*,*]: 0 1 2 3 4:=
0 1.0000 0.0000 0.0000 0.0000 0.0000
1 0.9817 0.0183 0.0000 0.0000 0.0000
2 0.9084 0.0783 0.0183 0.0000 0.0000
3 0.7619 0.1465 0.0733 0.0183 0.0000
4 0.5665 0.1954 0.1465 0.0733 0.0183
[1,*,*]: 0 1 2 3 4:=
0 0.9817 0.0183 0.0000 0.0000 0.0000
1 0.9084 0.0783 0.0183 0.0000 0.0000
2 0.7619 0.1465 0.0733 0.0183 0.0000
3 0.5665 0.1954 0.1465 0.0733 0.0183
[2,*,*]: 0 1 2 3 4:=
0 0.9084 0.0783 0.0183 0.0000 0.0000
1 0.7619 0.1465 0.0733 0.0183 0.0000
2 0.5665 0.1954 0.1465 0.0733 0.0183
[3,*,*]: 0 1 2 3 4:=
0 0.7619 0.1465 0.0733 0.0183 0.0000
1 0.5665 0.1954 0.1465 0.0733 0.0183
[4,*,*]: 0 1 2 3 4:=
0 0.5665 0.1954 0.1465 0.0733 0.0183;
43
Capítulo 2. Cadenas de Markov

La solución al problema proporciona una respuesta que consiste en adoptar


una política (s, S) con s = 4, S = 4, consistente en ordenar hasta completar
4 unidades de Xboxs.

5. Calcular la distribución del nivel de inventarios en el largo plazo, nivel de


inventario esperado, nivel de ventas semanales esperado y utilidad esperada,
bajo la política previamente encontrada.

De la respuesta anterior se tiene que las probabilidades de estado estable son

Estado 0 1 2 3 4 Promedio
πi 0,5665 0,1954 0,1465 0,0733 0,0183
Inventario viernes 0 1 2 3 4 0,7815
Inventario lunes 4 4 4 4 4 4
Unidades ordenadas 4 3 2 1 0 3,2185
Ventas esperadas 3,2185 3,2185 3,2185 3,2185 3,2185 3,2185
Ingresos esperados $3.218,5 $3.218,5 $3.218,5 $3.218,5 $3.218,5 $3.218,5
Coste de ordenar $50,0 $50,0 $50,0 $50,0 $0,0 $49,1
Coste variable orden $1.600,0 $1.200,0 $800,0 $400,0 $0,0 $1.287,4
Coste de inventario $0,0 $80,0 $160,0 $240,0 $320,0 $62,5
Coste Total $1.650,0 $1.330,0 $1.010,0 $690,0 $320,0 $1.399,0
Utilidad Neta $1.568,5 $1.888,5 $2.208,5 $2.528,5 $2.898,5 $1.819,5
Coste de oportunidad $2.119,0 $1.799,0 $1.479,0 $1.159,0 $789,0 $1.868,0

6. Ahora considere que las órdenes que se colocan el viernes solo llegan el día
miércoles a las siete de la mañana, modele el problema nuevamente.

Solución

Ahora es necesario construir dos matrices: Pa que describe el comportamiento


del inventario desde el día viernes hasta el día miércoles (justo después de
que llega la orden), y Pb que describe el comportamiento desde el miércoles
en la mañana hasta el viernes al finalizar la jornada. La matriz P = Pa Pb ,
describe el comportamiento de una semana a otra, de viernes a viernes.

Para la construcción de la matriz Pa se tiene en cuenta el consumo de lunes


y martes, es decir dos quintos de la semana, por lo cual la distribución
de probabilidad de Poisson tendrá media igual a 25 4 = 85 . Si el nivel del
inventario es cero, toda la demanda se pierde y el miércoles se tendrán 4
unidades con probabilidad 1; si se tiene 1 unidad el pedido es de tres y se
tendrán 4 si no se vende ninguna o tres si se vende la unidad que se tiene
(demanda mayor o igual a uno);

Sea pi la probabilidad de que la demanda sea de i unidades, teniendo en


cuenta que se comporta como una distribución de probabilidad de Poisson,
se tiene:

44
2.4 Ejemplo de Proceso de decisión Markoviano

λi e−λ
pi = P (Demanda = i) = (2.96)
i!

� i−1

qi = P (Demanda ≥ i) = pk = 1 − pk (2.97)
k=i k=0

0 1 2 3 4
0 0 0 0 0 1
1 0 0 0 q1 p0
Pa = (2.98)
2 q2 p1 p0 0 0
3 q3 p2 p1 p0 0
4 q4 p3 p2 p1 p0

Los valores numéricos son:

0 1 2 3 4
0 0,0000 0,0000 0,0000 0,0000 1,0000
1 0,0000 0,0000 0,0000 0,7981 0,2018
Pa = (2.99)
2 0,4751 0,3230 0,2019 0,0000 0,0000
3 0,2166 0,2584 0,3230 0,2019 0,0000
4 0,0788 0,1378 0,2584 0,3230 0,2019

La matriz Pb se calcula de manera similar, solo que en esta no hay reaprovi-


sionamiento pues los pedidos llegan el miércoles en la mañana, por lo cual se
tiene en cuenta únicamente la forma en que el inventario va disminuyendo en
5 .
este caso mediante una distribución de Poisson con media igual a 35 4 = 12

0 1 2 3 4
0 1 0 0 0 0
1 q1 p0 0 0 0
Pb = (2.100)
2 q2 p1 p0 0 0
3 q3 p2 p1 p0 0
4 q4 p3 p2 p1 p0

0 1 2 3 4
0 1,0000 0,0000 0,0000 0,0000 0,0000
1 0,9093 0,0907 0,0000 0,0000 0,0000
Pb = (2.101)
2 0,6915 0,2177 0,0907 0,0000 0,0000
3 0,4303 0,2613 0,2177 0,0907 0,0000
4 0,2213 0,2090 0,2613 0,2177 0, 0907

45
Capítulo 2. Cadenas de Markov

En consecuencia la matriz P = Pa Pb

0 1 2 3 4
0 0,2213 0,2090 0,2613 0,2177 0,0907
1 0,3881 0,2507 0,2265 0,1163 0,0183
P = P a Pb = (2.102)
2 0,9084 0,0733 0,0183 0,0000 0,0000
3 0,7619 0,1465 0,0733 0,0183 0,0000
4 0,5665 0,1954 0,1465 0,0733 0,0183

Observe que sólo cambian las dos primeras filas si la comparamos con la
matriz correspondiente a recibir los pedidos el día lunes en la mañana.

7. Suponga ahora que el sistema original es verificado cada dos semanas y


modelelo de nuevo

Solución

El nivel de inventario cada viernes no es más una cadena de Markov, pero aún
puede constituirse una cadena de Markov extendiendo el espacio de estado.
Sea Wn = (Zn , Xn ), donde Xn es el nivel de inventario al finalizar la semana
n, y Zn = 1 si la semana n es par y 0 en otro caso. En este caso se asume
que las órdenes solo pueden colocarse en las semanas pares. Entonces Wn es
una cadena de Markov, cuya matriz de transición está dada por:

0, 0 0, 1 0, 2 0, 3 0, 4 1, 0 1, 1 1, 2 1, 3 1, 4
0, 0 0 0 0 0 0 q4 p3 p2 p1 p0
0, 1 0 0 0 0 0 q4 p3 p2 p1 p0
0, 2 0 0 0 0 0 q2 p1 p0 0 0
0, 3 0 0 0 0 0 q3 p2 p1 p0 0
P = 0, 4 0 0 0 0 0 q4 p3 p2 p1 p0 (2.103)
1, 0 1 0 0 0 0 0 0 0 0 0
1, 1 q1 p0 0 0 0 0 0 0 0 0
1, 2 q2 p1 p0 0 0 0 0 0 0 0
1, 3 q3 p2 p1 p0 0 0 0 0 0 0
1, 4 q4 p3 p2 p1 p0 0 0 0 0 0

46

También podría gustarte