Cadenas de Markov

51
3 Cadenas de Markov
3.1 Cadenas de Markov: Introducción
3.1.1 Concepto de cadena de Markov
Las cadenas de Markov son una herramienta para analizar el comportamiento y el gobierno de
determinados tipos de procesos estocásticos, esto es, procesos que evolucionan de forma no
determinista a lo largo del tiempo en torno a un conjunto de estados.
Una cadena de Markov, por tanto, representa un sistema que varía su estado a lo largo del tiempo,
siendo cada cambio una transición del sistema. Dichos cambios no están predeterminados, aunque sí lo
está la probabilidad del próximo estado en función de los estados anteriores, probabilidad que es
constante a lo largo del tiempo (sistema homogéneo en el tiempo). Eventualmente, en una transición,
el nuevo estado puede ser el mismo que el anterior y es posible que exista la posibilidad de influir en
las probabilidades de transición actuando adecuadamente sobre el sistema (decisión).
En este módulo nos ocuparemos de las llamadas cadenas de Markov finitas, caracterizadas porque el
número de estados del sistema es finito.
Formalmente, para definir una cadena de Markov finita hace falta determinar por lo tanto los
siguientes elementos:
a) Un conjunto de estados del sistema.
b) La definición de transición.
c) Una ley de probabilidad condicional, que defina la probabilidad del nuevo estado en función de los
anteriores.
Los estados son una caracterización de la situación en que se halla el sistema en un instante dado,
dicha caracterización puede ser tanto cuantitativa como cualitativa. Desde un punto de vista práctico
probablemente, la mejor definición de qué debe entenderse por estado es la respuesta que se daría a la
pregunta "¿cómo están las cosas?".
Formalmente, el estado de un sistema en un instante t es una variable cuyos valores sólo pueden
pertenecer al conjunto de estados del sistema. El sistema modelizado por la cadena, por lo tanto, es
una variable que cambia de valor en el tiempo, cambio al que llamamos transición.
Dicho de otro modo, se trata de una colección indexada de variables E , donde t denota intervalos
t
temporales significativos para el fenómeno estudiado. Los posibles valores de E se toman de un
t
© Los autores, 2002; © Edicions UPC, 2002


Métodos cuantitativos de organización industrial II
52
conjunto de categorías mutuamente excluyentes, denominadas estados del sistema. Por ser el sistema
estocástico, no se conocerá con certeza el estado del sistema en un determinado instante, sino tan solo
la probabilidad asociada a cada uno de los estados. Este hecho puede expresarse en términos de
probabilidad condicional:
p{E = j
t
| E
t- 1
= i, E
t- 2
= e , E
t-2 t- 3
= e , ... , E = e } = p{E = j
t-3 0 0 t
| E
t- 1
= i, E
t-2
= e , E
t-2 t- 3
= e , ..., E
t-3 t-k
= e }
t- k
donde i, j, e pertenecen al conjunto de estados posibles del sistema.
i
Para el caso particular de una cadena de Markov de orden 1, tenemos:
p{E = j
t
| E
t-1
= i, E
t-2
= e , E
t-2 t-3
= e , ... , E = e } = p{E = j
t-3 0 0 t
| E
t-1
= i} = p
ij
Donde p recibe el nombre de probabilidad de transición del estado i al estado j. En una cadena de
ij
Markov de orden 1, el estado del sistema en el futuro j sólo depende del estado presente i.
En este módulo sólo estudiaremos cadenas de Markov que tengan las propiedades siguientes:
Con un número n finito de estados (en oposición a cadenas de Markov de infinitos estados
posibles).
De orden 1 (si bien veremos cómo transformar las de orden superior en cadenas de orden 1).
Para este tipo de cadenas, tendremos que la ley de probabilidad condicional es de la forma:
p{E
t+s
= j | E
t+s-1
= i} = p{E = j
t
| E
t-1
= i}
3.1.2 Matrices de probabilidades de transición
En las cadenas finitas de orden 1 (es decir las que estudiamos aquí), la forma más cómoda de expresar
la ley de probabilidad condicional de la misma es mediante la llamada matriz de probabilidades de
transición P, o más sencillamente, matriz de la cadena.
Dicha matriz es cuadrada con tantas filas y columnas como estados tiene el sistema, y los elementos de
la matriz representan la probabilidad de que el estado próximo sea el correspondiente a la columna si
el estado actual es el correspondiente a la fila.
Como el sistema debe evolucionar a t a alguno de los n estados posibles, las probabilidades de
transición cumplirán la propiedad siguiente:
Además, por definición de probabilidad, cada una de ellas ha de ser no negativa:
0
ij
p c
Cuando las p cumplen las propiedades arriba indicadas, la matriz P es una matriz estocástica: la suma
ij
de valores de las filas de la matriz será siempre igual a 1 (la suma de valores de las columnas no tiene
ninguna propiedad especial).
1
1
n
ij
j
p

© Los autores, 2002; © Edicions UPC, 2002


Cadenas de Markov
53
Para más adelante, es interesante recordar dos propiedades de este tipo de matrices:
Si P, Q son matrices estocásticas, su producto P· Q también lo es.
Los valores propios de una matriz estocástica tienen siempre módulo inferior o igual a 1.
3.1.3 Matrices de orden superior
La condición antes expresada de que únicamente se tratarán en este módulo las matrices de orden 1
puede parecer una limitación a las posibilidades de modelización de procesos estocásticos, pero en
realidad no lo es, ya que es posible estudiar las cadenas de orden superior (k > 1) mediante las de
orden 1, transformándolas adecuadamente.
Dada una cadena de orden k con n estados, se puede definir una cadena equivalente de orden 1 de la
siguiente forma:
Los estados de la cadena de orden 1 se definen como los diferentes conjuntos (ordenados) en los que
puede estar la cadena superior en las k últimas transiciones. Así los estados de la cadena de orden 1 se
definirán por:
X = {E , E , E , .... E }
t t t-1 t-2 t-k
De esta forma, la nueva cadena tiene x = n estados.
k
Naturalmente, no todas las transiciones serán posibles en la nueva cadena: solamente aquellas en que
los estados correspondientes para la cadena superior sean coherentes con la definición anterior. Dicho
de otro modo:
Si X = {E , E , E , .... E } y X'
t t t-1 t-2 t-k t- 1
= {E' , E' , .... E'
t-1 t-2 t-k -1
} la probabilidad de transición P'{X | X'
t t-
1
}podrá ser distinta de cero si y sólo si E
t-1
= E' , E
t-1 t- 2
= E' , etc.
t-2
y en este caso:
P' { X | X'
t t-1
}= P {E | E , E , .... E
t t-1 t-2 t-k
, E
t- k- 1
}
Ejemplo 3.1.3.a: cadena de Markov de orden 2
Después de analizar en profundidad la evolución de la cotización de un valor bursátil de renta variable,
un inversor ha llegado a la conclusión de que la probabilidad de que dicho valor suba su cotización
(estado A), la mantenga (estado B) o baje (estado C) durante una semana de cotización depende de su
comportamiento en las dos semanas anteriores. Las probabilidades se indican en la siguiente tabla:
E
t-1
E
t
p(A) p(B) p(C)
A A 0,7 0,1 0,2
A B 0,3 0,5 0,2
A C 0,5 0,3 0,2
B A 0,4 0,1 0,5
B B 0,2 0,7 0,1
B C 0,1 0,3 0,6
C A 0,3 0,3 0,4
C B 0,3 0,1 0,6
C C 0,2 0,1 0,7
© Los autores, 2002; © Edicions UPC, 2002


Métodos cuantitativos de organización industrial II
54
Atendiendo a las definiciones que hemos indicado antes, nos encontramos ante una cadena de Markov
de n = 3 estados y de orden k = 2. Pero, definiendo los estados como (E , E ) podemos convertir la
t-1 t-2
cadena de orden 2 en cadena de orden 1. Contaremos con 3 = 9 estados posibles. Como cada estado
2
puede evolucionar sólo a otros 3 en el instante siguiente, tendremos 27 transiciones posibles. En
definitiva, tendremos la matriz de transición que se muestra a continuación, en la que los orígenes son
(E , E ) y los destinos (E , E ). En cada celda, se ha indicado el valor de E , y la probabilidad
t-1 t-2 t t-1 t
correspondiente.
AA AB AC BA BB BC CA CB CC
AA A/0,7 B/0,1 C/0,2
AB A/0,3 B/0,5 C/0,2
AC A/0,5 B/0,3 C/0,2
BA A/0,4 B/0,1 C/0,5
BB A/0,2 B/0,7 C/0,1
BC A/0,1 B/0,3 C/0,6
CA A/0,3 B/0,3 C/0,4
CB A/0,3 B/0,1 C/0,6
CC A/0,2 B/0,1 C/0,7
3.1.4 Probabilidades de transición de k pasos. Teorema de Chapman – Kolmogorov
Puesto que las probabilidades de transición son estables en el tiempo, podemos interesarnos en
conocer las propiedades de transición después de k pasos, definidas formalmente como:
p{E
t+k
= j | E = i} = p{E = j
t k
| E = i} = p
0 ij
(k)
Esto es, la probabilidad de que el proceso se encuentre en el estado j si k etapas antes se encontraba en
el estado i.
Si conocemos las p , podemos calcular las p
ij ij
(k)
haciendo el siguiente razonamiento: si al cabo de m < k
pasos, nos encontramos en el estado e, la probabilidad de alcanzar el estado j despues de k – e pasos
será:
Como el estado intermedio e puede ser cualquiera, podemos determinar una expresión para la
probabilidad de transición de k pasos:
Haciendo m = 1, y m = k-1 obtenemos las ecuaciones de Chapman – Kolmogorov, que permiten
obtener las expresiones de las propiedades de transición en el estado k a partir de las de k-1.
( ) ( ) mkm
ie ej
p p

©
( ) ( ) ( )
1
n
kmk m
ij ie ej
e
ppp

©

( ) ( 1 )
1
n
k k
ij ie ej
e
ppp

©

© Los autores, 2002; © Edicions UPC, 2002


Cadenas de Markov
55
Lo que indican las ecuaciones es que pueden obtenerse las matrices P
(k)
de transición de k pasos a
partir de las potencias de la matriz P.
P
(2)
= P· P = P
2
P
(3)
= P · P = P· P = P · P = P
(2 ) 2 2 3
P
(k)
= P
(k-1)
· P= P· P
k- 1
= P
k- 1
· P = P
k
Es decir, que las sucesivas potencias de la matriz P indican las probabilidades de transición en tantas
transiciones como se indica en el índice de la potencia. Esto puede generalizarse aún más observando
que la P
1
representa la probabilidad de una transición y que P
0
= I es la probabilidad en cero
transiciones: si no ha habido transición, el estado es el mismo y por lo tanto la matriz que representa la
no- transición es la matriz identidad.
3.1.5 Probabilidades estacionarias y tipos de cadenas de Markov
Nos interesamos ahora por conocer la probabilidad de hallar el sistema en un estado determinado
cuando lleva funcionando un tiempo indefinidamente largo. Tales probabilidades se denominan
probabilidades estacionarias. El estudio de las probabilidades estacionarias puede entenderse, por lo
tanto, como el estudio del comportamiento a largo plazo de las cadenas de Markov.
Dichas probabilidades se denotan como
ij
, y la matriz de probabilidades de estado estable como P*.
Puesto que, como hemos visto, las potencias de P definen las probabilidades en un número cualquiera
de transiciones, podemos aproximarnos al estudio de las probabilidades estacionarias viendo qué
ocurre si calculamos potencias elevadas de algunas matrices P. Veremos que el comportamiento del
sistema puede tender a estabilizarse, en el sentido de que el sistema pasará por cada uno de los estados
con una frecuencia regular, esto es, independiente del número de transiciones transcurridas.
3.1.5.1 Cadenas ergódicas
La cadena de Markov C1, de dos estados, tiene la matriz de probabilidades de transición:
Calculemos la potencia decimosexta de esa matriz para aproximar la matriz de probabilidades
estacionarias:
Se observa que las probabilidades de estado estable de los diferentes estados son independientes del
estado de origen, razón por la que la matriz de probabilidades estacionarias tiene todas las filas
( ) ( 1 )
1
n
k k
ij ie ej
e
ppp

©

0,2 0,8
0,6 0 ,4
1
P
0 ,429 0 ,571
0 ,429 0 ,571
16
1
P
© Los autores, 2002; © Edicions UPC, 2002


Métodos cuantitativos de organización industrial II
56
iguales. Tenemos entonces una cadena de Markov regular, en la que las probabilidades estacionarias
no dependen del estado inicial. Además, ninguna de las probabilidades vale cero. Tenemos entonces
una cadena de Markov ergódica.
3.1.5.2 Cadenas semiergódicas
Tenemos ahora una cadena C2 de cuatro estados, de matriz de probabilidades de transición.
Si se observa la matriz de la transición decimosexta, se observa cómo todas las filas tienden a ser
iguales (aunque no completamente, especialmente las dos primeras), con una diferencia respecto de las
cadenas ergódicas: existen estados cuya probabilidad de estado estable tiende a ser cero (esto es, que
no aparecerán en el comportamiento a largo plazo). Por lo tanto, no se trata de una cadena ergódica.
Sin embargo, sigue siendo cierto que todas las filas tienden hacia un mismo valor, por lo que sigue
siendo regular. Las cadenas de Markov regulares (y también otras que veremos más adelante) con
algunas de las columnas de la matriz de probabilidades estacionarias igual a cero se llaman
semiergódicas. Las cadenas ergódicas pueden considerarse como un caso particular de las cadenas
semiergódicas, en las que no existen probabilidades de estado estable iguales a cero.
3.1.5.3 Cadenas no ergódicas
La cadena C3, de cuatro estados, tiene la siguiente matriz de transición:
0,5 0 ,4 0 ,1 0
0 1 0 0
0 0 0 ,2 0 ,8
0 0 0 ,6 0 ,4
3
P
Si observamos la matriz de la transición 16, podemos ver que, mientras algunas filas tienen el mismo
comportamiento que las de los casos anteriores, vemos que otras tienden a ciertos valores, diferentes
de los de las otras filas. Ello quiere decir que, al contario de lo que sucede con el caso regular, las
probabilidades de estado estable sí dependen de cuál ha sido el estado inicial de la cadena. Se trata de
una cadena semirregular.
0,5 0 ,4 0 ,1 0
0,3 0 ,3 0,4 0
0 0 0 ,2 0 ,8
0 0 0 ,6 0 ,4
2
P
0 ,005 0 ,007 0 ,475 0 ,563
0 ,002 0 ,005 0 ,426 0 ,567
0 0 0 ,429 0 ,571
0 0 0 ,429 0 ,571
16
2
P
© Los autores, 2002; © Edicions UPC, 2002


Cadenas de Markov
57
0 ,000 0 ,800 0 ,086 0 ,114
0 1 0 0
0 0 0 ,429 0 ,571
0 0 0 ,429 0 ,571
16
3
P
3.1.5.4 Cadenas cíclicas
La cadena C4, cuya matriz de probabilidades de transición se muestra a continuación, después de un
número elevado de transiciones presenta un comportamiento diferente del de las cadenas anteriores.
0,5 0 ,4 0 ,1 0
0 0 1 0
0 0 , 2 0 0 , 8
0 0 1 0
4
P
Al ir obteniendo matrices de transición, se observa que éstas no convergen a un valor concreto, sino
que muestran un comportamiento cíclico. En este caso, las transiciones impares tienden a un valor y
las pares a otro:
0 0 ,08 0 ,60 0 ,32
0 0 ,2 0 0 ,8
0 0 1 0
0 0 ,2 0 0 ,8
2k
4
P
0 0 ,2 0 , 4 0 , 4 8
0 0 1 0
0 0 ,2 0 0 ,8
0 0 1 0
+ 2k 1
4
P
Este tipo de cadenas son cadenas cíclicas. En este caso particular, nos encontramos ante una cadena de
periodo p=2.
Obsérvese que la primera columna es siempre cero, por lo que el estado 1 no aparecerá en las
probabilidades a largo plazo; quiere ello decir que la cadena considerada no es ergódica, aunque es
claro que pueden existir cadenas cíclicas ergódicas, como veremos en ejemplos posteriores.
También debemos preguntarnos qué ocurre con las probabilidades estacionarias en las cadena cíclicas,
ya que si las sucesivas potencias de P no tienden hacia unos valores determinados. Más adelante,
cuando estudiemos el cálculo sistemático de P*, daremos una respuesta a esta pregunta.
3.1.5.5 Clasificación de cadenas de Markov
Los distintos casos examinados son sólo algunos (los más importantes) de las diferentes situaciones
que se pueden dar en cuanto a la clasificación de las cadenas de Markov. En el apartado 3.2.4 se darán
de forma completa y sistematizada todas las definiciones.
© Los autores, 2002; © Edicions UPC, 2002


Métodos cuantitativos de organización industrial II
58
De lo expuesto hasta ahora, si queremos analizar el comportamiento a largo plazo de un proceso
estocástico que cumpla la propiedad markoviana, necesitamos:
Una metodología para poder clasificar la cadena como ergódica o no ergódica por una parte, y como
regular, semirregular o cíclica por otra, examinando la matriz de probabilidades de transición.
Una metodología que permita el cálculo de la matriz de probabilidades estacionarias.
La clasificación de las cadenas de Markov puede realizarse mediante dos metodologías:
El análisis topológico, examinando las propiedades de los estados de la cadena y estableciendo
clases de equivalencia entre los estados.
El análisis espectral, examinando los valores propios de la matriz de probabilidades de transición
de un paso.
Una vez clasificada la cadena, puede obtenerse información acerca de la forma que presente la matriz
de probabilidades estacionarias, lo cual facilita su obtención.
3.2 Análisis topológico de las cadenas de Markov
El análisis de topológico de las cadenas de Markov permite la clasificación de las cadenas a partir de
la información suministrada por la matriz P utilizando propiedades relativas a la relación entre estados
(propiedades de estado). Estas propiedades permiten, a su vez, definir subconjuntos de estados
denominados clases. También podremos definir, entonces, las propiedades de clase.
3.2.1 Propiedades de estado
Dados dos estados de una cadena, pueden establecerse dos tipos de relaciones entre ellos:
El estado i es descendiente de j si cuando iniciamos el proceso en i existe una probabilidad no nula
de que el proceso llegue a j. En este caso, diremos que existe un camino entre los estados i y j.
Los estados i y j se comunican si i es descendiente de j y j es descendiente de i.
Existirá un ciclo dentro de una cadena de Markov si existe un camino en la cadena que comunique
al estado i consigo mismo. Dicho circuito se caracterizará por el número mínimo de transiciones
que necesitará el sistema para volver al estado i, si se inició el proceso en ese estado. Dicho
número constituirá la longitud del ciclo.
Obsérvese que, con las definiciones dadas, la existencia de un circuito implica que todos los estados
que lo forman están comunicados. Se conviene que todo estado está comunicado consigo mismo, ya
que se al menos puede acceder a él en cero transiciones (circuito de longitud cero), con independencia
de que además existan otros circuitos de longitud mayor.
Para analizar estas relaciones entre estados, es útil recordar que, según la teoría de grafos, toda matriz
cuadrada tiene asociado un grafo, cuya representación gráfica se puede elaborar a partir de la matriz de
probabilidades de transición, el diagrama de transiciones de estados.
Cada estado de la cadena se representa por un vértice del grafo y cada transición con probabilidad no
nula se representa por una relación entre les vértices que representan los estados anterior y posterior de
la misma. De esta manera en el diagrama se representan todas las situaciones en las que un estado i es
descendiente respecto de j. En la figura 3.2.1.a se muestra el diagrama de transición de una cadena de
Markov, junto con su matriz de transición.
© Los autores, 2002; © Edicions UPC, 2002


Cadenas de Markov
59
Fig. 3.2.1.a Propiedades de estado en cadenas de Markov
3.2.2 Propiedades de clase
Dado que, por convenio, hemos establecido que un estado está siempre comunicado consigo mismo, la
relación entre estados estar comunicado es reflexiva, simétrica y transitiva, por lo que se trata de una
relación de equivalencia. Por este motivo, podemos decir que un conjunto de estados comunicados
entre sí constituye una clase de equivalencia. De esta manera, podemos clasificar en diversas clases
los estados de una cadena de Markov.
A su vez, podemos definir la propiedad de clase siguiente para las clases de equivalencia que se hayan
establecido:
Una clase de equivalencia será una clase final si cuando el proceso llega a uno de los estados de la clase,
en las transiciones siguientes el proceso evoluciona siempre dentro de los estados de la clase.
Aquellas clases de equivalencia que no sean clases finales serán clases de paso. Las clases de paso
tienen un interés muy limitado en el estudio de las cadenas de Markov.
Es claro que, puesto que el sistema debe ser capaz de evolucionar indefinidamente entre un número
finito de estados, toda cadena debe tener al menos una clase final. Si en su evolución a lo largo de
infinitas transiciones el sistema puede pasar por todos los estados, entonces habrá una única clase final
que los englobará a todos ellos. Este caso es el que hemos definido anteriormente como cadena
ergódica.
La figura 3.2.2.a muestra, sobre una cadena de Markov, una clase final y una clase de paso.
PROPIEDADES DE ESTADO EN CADENAS DE MARKOV
7 ,0 3 ,0 0 0
2 ,0 0 8 ,0 0
1 0 0 0
0 4 ,0 5 ,0 1 ,0
P
1
4
2
3
ALGUNAS PROPIEDADES DE ESTADO:
1 es descendiente de 4 (y no al revés)
3 y 4 se comunican
Pueden observarse los ciclos {2 4 3 2}, {3 4 3}, {4 4}
© Los autores, 2002; © Edicions UPC, 2002


Métodos cuantitativos de organización industrial II
60
Fig. 3.2.2.a Propiedades de clase en una cadena de Markov
3.2.3 PERIODICIDAD DE UNA CLASE FINAL
Para una clase final, se puede obtener el periodo de una clase como el máximo común divisor de las
longitudes de los ciclos que pueden encontrarse en esa clase. Tendremos entonces dos tipos de clases
finales:
Clases cíclicas (o periódicas): aquellas que tengan un periodo de valor p > 1.
Clases acíclicas (o aperiódicas): aquellas que tengan un periodo de valor p = 1.
La figura 3.2.3.a muestra varias cadenas de Markov. La primera tiene ciclos de longitud 2 y 3, por lo
que es aperiódica, ya que MCD(2,3) = 1. En la segunda se pueden observar ciclos de longitud 2 y 4,
por lo que su periodo es p = 2. Obsérvese que la existencia de estos ciclos no impide la de otros
mayores (por ejemplo 1-2-4-3-4-3-4-2-1, que tiene longitud ocho. Sin embargo, todos estos ciclos
serán múltiplos de dos). La última, similar a la anterior, tiene sin embargo ciclos de longitud 1, 2 y 4,
por lo que es también aperiódica. La mera existencia de un ciclo de longitud uno (en este caso el 1-1)
implica que la clase es aperiódica.
Fig. 3.2.3.a Ciclicidad en clases finales de las cadenas de Markov
CLASES DE EQUIVALENCIA
0 4 ,0 7 ,0 0 0
5 ,0 0 5 ,0 0 0
0 1 0 0 0
0 2 ,0 1 ,0 4 ,0 3 ,0
0 0 0 7 ,0 3 ,0
P
1 2
5
4 3
CLASES DE EQUIVALENCIA:
La clase de equivalencia {1 2} es una clase de paso.
La clase de equivalencia {3 4 5} es una clase final.
CLASES FINALES PERIÓDICAS
2
3 1
4
2
3
1
4
2
3
1
p = 1
p = 2
p = 1
© Los autores, 2002; © Edicions UPC, 2002


Cadenas de Markov
61
3.2.4 Clasificación de las cadenas a partir del análisis topológico
Con las propiedades que se han definido, podemos establecer dos clasificaciones distintas de las
cadenas de Markov según su número de clases finales y la periodicidad o no de sus clases finales:
Clasificación según el número de clases finales
Podemos tener las siguientes situaciones en relación con las clases finales de una cadena de Markov:
La cadena tiene una única clase final y no tiene clases de paso. Se trata de una cadena ergódica.
La cadena tiene una única clase final, pero tiene clases de paso. Tenemos entonces una cadena
semiergódica.
La cadena tiene más de una clase final y una o varias clases de paso. La cadena es entonces no
ergódica.
Otra situación que podemos encontrar es la de varias clases de finales, sin que existan clases de paso.
Entonces, más que una única cadena, tenemos varias cadenas ergódicas sin relación entre ellas. Por
esta razón, no se ha incluido en la clasificación.
Clasificación según la periodicidad de las clases finales
Según el número y la periodicidad de las clases finales, tenemos diversas situaciones:
Si tenemos una sola clase final aperiódica, tendremos una cadena de Markov regular. Una cadena
regular puede ser ergódica o semiergódica, según tenga clases de paso o no.
Si tenemos varias clases finales, todas ellas aperiódicas, tendremos una cadena de Markov
semirregular.
Si tenemos varias clases finales, y todas ellas son periódicas, se trata entonces de una cadena
policíclica.
Finalmente, si tenemos varias clases finales, y algunas son cíclicas y otras no, hablaremos de una
cadena mixta.
Las cadenas semirregulares, policíclicas y mixtas son por tanto los tres casos posibles de cadenas no
ergódicas. En la tabla 3.2.4.a se muestran las diversas posibilidades derivadas de esta doble
clasificación:
Tabla 3.2.4.a. Clasificación cadenas de Markov
Ergódica Semiergódica No ergódica
Regular Regular positiva Regular (No posible)
Cíclica Cíclica Cíclica (No posible)
Semirregular (No posible) (No posible) Semirregular
Policíclica (No posible) (No posible) Policíclica
Mixta (No posible) (No posible) Mixta
En las figuras 3.2.4.a y 3.2.4.b se procede a clasificar las cadenas C1, C2, C3 y C4 a partir del análisis
topológico, mostrando las clases finales y las clases de paso.
© Los autores, 2002; © Edicions UPC, 2002


Métodos cuantitativos de organización industrial II
62
Fig. 3.2.4.a Ejemplos de clasificación de las cadenas de Markov
Fig. 3.2.4.b Ejemplos de clasificación de las cadenas de Markov
3.2.5 Significado de la ergodicidad
El concepto de cadena ergódica tiene relación con el comportamiento a largo plazo del sistema. En
una cadena ergódica, todos los estados se pueden dar a largo plazo, es decir, que en régimen
permanente todos los estados tienen una probabilidad no nula de aparecer: se trata de cadenas cuyo
comportamiento no varía de forma cualitativa a lo largo del tiempo. En una cadena ergódica es lo
mismo el largo plazo que el corto plazo, salvo que se conserva la memoria del estado inicial.
CLASIFICACIÓN DE LAS CADENAS DE MARKOV (1)
1 2
CADENA C1
Una sola clase final, de p = 1
® CADENA REGULAR ERGÓDICA
(REGULAR POSITIVA)
2
4 3
1
CADENA C2
Una clase final, de p = 1: { 3 4 }
Una clase de paso: {1 2 }
® CADENA REGULAR SEMIERGÓDICA
CLASIFICACIÓN DE LAS CADENAS DE MARKOV (2)
2
4 3
1
2
4 3
1
Dos clases finales, de p = 1: { 2 } { 3 4 }
Una clase de paso: {1 }
® CADENA SEMIRREGULAR
Una clase final, de p = 2: { 2 3 4 }
Una clase de paso: {1 }
® CADENA CÍCLICA SEMIERGÓDICA,
DE p = 2
© Los autores, 2002; © Edicions UPC, 2002


Cadenas de Markov
63
En las cadenas semiergódicas, el comportamiento a largo y a corto plazo es cualitativamente distinto.
Existen unos estados transitorios, que a largo plazo desaparecerán y por tanto sólo pueden aparecer
mientras el sistema no haya alcanzado su régimen permanente. Una vez alcanzado éste, el
comportamiento de la cadena no difiere del caso ergódico, si se hace abstracción de los estados que ya
no pueden aparecer.
Finalmente, en las cadenas no ergódicas el comportamiento a largo plazo depende de la situación
inicial. Al revés de lo que ocurre en los dos casos anteriores, el comportamiento a largo plazo no está
definido cualitativamente, sino que será distinto según la clase final a la que vaya a parar el sistema.
Ello significa que la probabilidad estacionaria de cada estado depende de la situación inicial, que
puede llegar a determinar que ciertos estados no se pueden alcanzar jamás si se parte de un cierto
conjunto de estados.
3.2.6 Significado de la periodicidad o ciclicidad
Una clase final acíclica representa una situación en la que la cadena evoluciona entre los distintos
estados de la misma de forma completamente aleatoria, descrita según las probabilidades indicadas por
la ley condicional (o matriz P). Podríamos decir que se trata de un sistema estocástico “puro”, en el
sentido que no se puede hacer una descripción de su comportamiento más precisa que las meras
probabilidades. El significado de las probabilidades estacionarias representa en estas clases finales la
probabilidad real de que en una transición cualquiera el sistema se halle en uno u otro estado.
Las cadenas regulares y semiregulares, por tanto, representan sistemas que acaban yendo a parar a una
situación de este tipo, sea ésta única o no.
Un caso particular interesante dentro de las clases finales acíclicas es el de los llamados estados
absorbentes: se trata de estados que constituyen por sí mismos una sola clase final, puesto que la única
transición posible es ir otra vez al mismo. Matemáticamente significa que la fila correspondiente de P
estará toda a ceros excepto un 1 en la diagonal principal; el significado de este tipo de situaciones
suele ser el de un sistema que ha llegado a una situación de degradación, que ya no puede evolucionar
más, etc.
En las clases finales cíclicas se puede establecer una partición de sus estados en p subclases, de
manera que la evolución de la cadena dentro de ésta clase consistirá en que pasará sucesivamente por
un estado de la subclase 1, luego uno de la subclase 2, etc. hasta llegar a la subclase p, después del
cual volverá a un estado de la subclase 1; en el caso de C4 (p = 2) estas dos subclases son {2,4} y {3}.
Las clases finales cíclicas, pues, son un caso intermedio entre un sistema estocástico puro en el que no
se puede predecir nada de su evolución más allá de la mera descripción probabilística y el caso
determinista en que la evolución es conocida y por lo tanto predecible y calculable: en este caso no se
conoce cuál será el estado siguiente con exactitud, pero sí que forma parte de un subconjunto bien
determinado.
Ello quiere decir que la interpretación de las probabilidades estacionarias es ligeramente distinta del
caso acíclico. Si se observa el sistema en un momento cualquiera, la probabilidad de hallarlo en uno u
otro estado es efectivamente la probabilidad estacionaria, pero ello es sólo fruto de nuestra ignorancia
del número de transiciones realizadas. Si conociéramos este número (o mas precisamente su módulo
p), las probabilidades serían distintas, puesto que las potencias de P evolucionan cíclicamente.
© Los autores, 2002; © Edicions UPC, 2002


Métodos cuantitativos de organización industrial II
64
3.3 Análisis espectral de las cadenas de Markov
Si conocemos los valores propios de una matriz de probabilidades de transición, podemos conocer
ciertas propiedades de su cadena de Markov asociada mediante el análisis espectral.
Se parte de la siguiente propiedad general de las matrices estocásticas:
Los valores propios complejos de una matriz estocástica tienen módulo inferior o igual a uno.
Para detectar el número de clases finales y su periodicidad, el análisis espectral parte de este hecho y
de la siguiente propiedad:
Cada clase final de periodo p genera p valores propios de valor igual a las raíces p –ésimas de
1. El resto de valores propios serán de módulo inferior a 1.
En consecuencia, el número de clases finales será igual a la multiplicidad de 1 como valor
propio.
De este modo, a partir del examen de los valores propios de la matriz de probabilidades de transición
podemos llegar a las conclusiones siguientes, según el análisis espectral:
Una cadena de Markov, regular, tanto ergódica como semiergódica, tendrá un único valor
propio de valor 1. El resto de valores propios serán de módulo inferior a 1.
Una cadena de Markov semirregular, tendrá un valor propio 1 múltiple, y el resto de valores
propios serán de módulo inferior a 1. La multiplicidad del valor propio 1 será igual al número
de clases finales de la cadena.
Una cadena de Markov cíclica (o policíclica) se caracterizará por tener, entre sus valores
propios, uno o varios conjuntos de raíces p –ésimas de 1. Cada uno de esos conjuntos revelará
la presencia en la cadena de una clase cíclica de periodo p.
El análisis espectral no dice nada, sin embargo, sobre las clases de paso y por ello tampoco informa
sobre si se trata de una cadena ergódica o no. Únicamente se puede deducir que si el valor propio +1
es múltiple, se tratará de una cadena no ergódica, y en caso contrario será ergódica o semiergódica.
A modo de ejemplo, podemos tener situaciones como las siguientes:
Ejemplo 3.3.a:
Una cadena de Markov con el conjunto de valores propios siguiente:
{ -0,8 0,4 +1 -1 +1 -0,3 0,01 0 }
Es una cadena de Markov cíclica: cuenta con una clase final de periodo 1 y con una clase final de
periodo 2.
Dado que existen ocho valores propios, la cadena debe tener precisamente ocho estados, pero no
sabemos cuáles pertenecen a cada una de las dos clases finales, ni si hay alguno en clases de paso o no.
Sí sabemos que por tratarse de una cadena mixta se trata de un caso no ergódico.
© Los autores, 2002; © Edicions UPC, 2002


Cadenas de Markov
65
Ejemplo 3.3.b
Una cadena de Markov con el conjunto de valores propios siguiente:
{ -0,4 0,3 0,2 -i +i - 1 +1 -1 +1 }
Ahora tenemos una cadena de Markov con dos clases finales, puesto que, como en la cadena anterior, la
multiplicidad de 1 es doble: una de las clases es de periodo 4, mientras que la segunda es de periodo 2. En
consecuencia, se trata de una cadena policíclica. Obsérvese que las filas correspondientes a la clase de período
2 se repetirán alternativamente en las potencia pares e impares de P, mientras que en la clase de período 4 se
repetirán cada 4 potencias; por lo tanto, la matriz P se repetirá cada 4 potencias.
k
3.4 Cálculo de las probabilidades estacionarias
La clasificación de la cadena de Markov permite identificar la forma de la matriz de probabilidades
estacionarias P*, y así facilitar su cálculo exacto, sin necesidad de obtener una potencia elevada de la
matriz P (procedimiento desaconsejable, por otra parte, porque puede dar lugar a confusiones, como
veremos).
Dado que la matriz de probabilidades de estado estable identifica las probabilidades de transición
después de un número de pasos suficientemente grande, si la matriz P es de una cadena ergódica o
semiergódica, P* es una matriz con todas las filas iguales, hecho que facilita notablemente su cálculo.
Para las cadenas no ergódicas, al ser algunas de las filas de P* diferente del resto, su cálculo será más
complejo.
Para todas las clases de cadenas que no tengan clases finales cíclicas, podemos escribir la siguiente
identidad:
lim
n
n
P* P
con lo que basta hallar este límite para conocer P* si la cadena no tiene clases finales cíclicas.
En consecuencia, en las cadenas cíclicas, la relación de P* con su comportamiento a largo plazo
requerirá alguna aclaración adicional. Para aclarar estas cuestiones se procederá, mediante ejemplos, a
mostrar cómo se calcula P* para diferentes tipos de cadenas de Markov.
3.4.1. Probabilidades estacionarias para cadenas regulares ergódicas
Dado que se trata de una cadena regular y ergódica, al cabo de un cierto número de transiciones
suficientemente elevado se habrá perdido la información del estado inicial, por lo que la probabilidad
de que el sistema se halle en uno u otro estado no dependerá de dicho estado. Todas las filas de P* en
una cadena regular son iguales, por lo que la matriz adopta la forma:
1 2
1 2
1 2
*
n
n
n



P
© Los autores, 2002; © Edicions UPC, 2002


Métodos cuantitativos de organización industrial II
66
Sabiendo que la matriz P* cumple la ecuación:
P* · P = P*· P = P*
Desarrollando esta ecuación matricial para una cualquiera de las filas de las matrices, obtenemos el
siguiente conjunto de ecuaciones:
1
n
kik i
k
p ©

para i =1, 2, ..., n
Al que hemos de añadir la ecuación, propia de toda matriz estocástica:
1
1
n
i
i


Tenemos entonces n+1 ecuaciones para n incógnitas. Sin embargo, las ecuaciones procedentes del
producto de matrices están indeterminadas, puesto que podemos tener otras soluciones a partir de un
conjunto de soluciones inicial, multiplicando todos los valores de ésta por un escalar. Es la última
ecuación la que hace a P* estocástica. En consecuencia, deberá eliminarse alguna de las procedentes
del producto de matrices, y nunca la que hace la suma de las
i
igual a 1.
Ejemplo 3.4.1.a Probabilidades de transición para una cadena regular ergódica
La cadena C1, de matriz de probabilidades de transición:
Tiene una matriz de probabilidades estacionarias de la forma:
Dichas probabilidades pueden obtenerse con las ecuaciones siguientes, derivadas de la ecuación
matricial P*· P=P*:
0,2·
1
+ 0,6·
2
=
1
0,8·
1
+ 0,4·
2
=
2

1
+
2
= 1
Eliminando una de las dos primeras ecuaciones, encontramos los valores:

1
= 3/7 = 0,429

2
= 4/7 = 0,571
0,2 0,8
0,6 0 ,4
1
P
1 2
1 2
*


P
© Los autores, 2002; © Edicions UPC, 2002


Cadenas de Markov
67
3.4.2 Probabilidades estacionarias para cadenas regulares no ergódicas
Las matrices de probabilidades estacionarias de este tipo de cadenas regulares tendrán la misma forma
que las matrices de las cadenas regulares ergódicas, con el rasgo distintivo de que las
clases de paso
= 0,
dado que después de infinitas transiciones el sistema se encontrará en una clase final con toda
seguridad.
Ejemplo 3.4.2.a Probabilidades de transición para una cadena regular no ergódica
La matriz de probabilidades estacionarias de la cadena C2, es:
Y la matriz de probabilidades estacionarias será de la forma:
1 2 3 4
1 2 3 4
*


P
Haciendo de nuevo P*· P = P* tenemos el conjunto de ecuaciones:
0,5·
1
+ 0,3·
2
=
1
0,4·
1
+ 0,3·
2
=
2
0,1·
1
+ 0,4·
2
+ 0,2·
3
+ 0,6·
4
=
3
0,8·
3
+ 0,4·
4
=
4

1
+
2
+
3
+
4
= 1
Eliminando una de las cuatro primeras ecuaciones, obtenemos los siguientes valores:

1
= 0

2
= 0

3
= 3/7 = 0,429

4
= 4/7 = 0,571
Los estados 1 y 2, cada uno de ellos clase de paso, tienen probabilidades estacionarias iguales a cero:
en el largo plazo, no encontraremos el proceso en ninguno de estos dos estados.
Aunque los resultados
1
=
2
= 0 se obtienen del sistema anterior, es obvio que si sabemos ya que
estos estados son de paso, podemos eliminarlos directamente dos ecuaciones y dos incógnitas del
sistema, con lo que el cálculo resultará más sencillo.
0,5 0 ,4 0 ,1 0
0,3 0 ,3 0,4 0
0 0 0 ,2 0 ,8
0 0 0 ,6 0 ,4
2
P
© Los autores, 2002; © Edicions UPC, 2002


Métodos cuantitativos de organización industrial II
68
3.4.3 Probabilidades estacionarias para cadenas semirregulares
Aunque las cadenas semirregulares presentan mayor complejidad, la naturaleza de las distintas clases
facilita también el cálculo de la matriz P*:
Las columnas de P* pertenecientes a estados de paso serán todas cero.
Las filas de los estados de una misma clase final serán todas iguales, con los valores de las
columnas correspondientes a estados no pertenecientes a la clase final considerada iguales a cero.
Por supuesto, cada clase final dará lugar a un "formato" distinto de fila.
Las filas de los estados de las clases de paso serán de la forma siguiente: los valores de las
i
de
las transiciones con destino en estados pertenecientes a clases de paso serán cero, y diferentes de
cero los
j
de las transiciones con destino en las clases finales. Cada estado perteneciente a una
clase de paso tendrá una fila diferente en P*.
Se trata entonces de proceder en dos pasos:
Se hallan las matrices P* correspondientes a las cadenas regulares positivas definidas por cada una de
las clases finales (según el procedimiento descrito en 3.4.1) y se componen con ellas las
correspondientes filas de sus estados.
Para hallar las filas de los estados de paso, se resuelven tantos sistemas de ecuaciones
0
n
kki i
k
p ©

para i =1, 2, ..., n
1
1
n
i
i


como clases finales y estados de las clases de paso tenga la cadena.
Ejemplo 3.4.3.a Matriz P* para una cadena semirregular
Sea la cadena de Markov definida por la siguiente matriz de probabilidades de transición:
0.7 0.1 0.1 0 0 0 0 0.1
0.4 0.3 0.1 0 0.2 0 0 0
0 0 0.7 0.3 0 0 0 0
P = 0 0 0.6 0.4 0 0 0 0
0 0 0.1 0.3 0.3 0.1 0.2 0
0 0 0 0 0 0.5 0.5 0
0 0 0 0 0 0.4 0.6 0
0 0 0 0 0 0 0 1
El análisis topológico nos dice que hay tres clases finales acíclicas: {3,4}, {6,7} y {8}, así como dos
clases de paso: {1,2} y {5} Se trata por tanto de una cadena semirregular.
© Los autores, 2002; © Edicions UPC, 2002


Cadenas de Markov
69
Fig. 3.4.3.a Cadena de Markov semirregular
Analizando las matrices ergódicas regulares de las tres clases finales, podemos hallar buena parte de
los valores de P*:
0 0 a b 0 c d e
0 0 i j 0 k l m
0 0 2/3 1/3 0 0 0 0
P* = 0 0 2/3 1/3 0 0 0 0
0 0 p q 0 r s t
0 0 0 0 0 4/9 5/9 0
0 0 0 0 0 4/9 5/9 0
0 0 0 0 0 0 0 1
donde se han representado con letras los valores aún no conocidos y se han recuadrado las submatrices
correspondientes a las clases finales.
Sin embargo, del diagrama de transiciones se puede deducir fácilmente que desde el estado 5 no se
puede ir a la clase {8} por lo que t = 0.
Obsérvese que aunque la transición 2-8 tiene probabilidad cero, lo mismo que las 1-6 y 1-7, no se
puede deducir de ello que, por ejemplo, c = 0, ya que el estado 6 sí es descendente del 1, a través del 2
y del 5.
Nos quedan por lo tanto 14 incógnitas, por lo que debemos ahora establecer 14 ecuaciones para hallar
estos valores. Escribimos en primer lugar las siempre obligadas:
a + b + c + d + e = 1
i + j + k + l +m = 1
p + q + r + s = 1
El resto de ecuaciones se deben establecer a partir de las expresiones ya conocidas:
1
8
2
5
3
6 7
4
© Los autores, 2002; © Edicions UPC, 2002


Métodos cuantitativos de organización industrial II
70
P P* = P* P = P*
Esta doble igualdad matricial nos permite, en teoría, escribir (2 ) = 128 igualdades, de entre las cuales
n 2
deberemos elegir las 11 que faltan. Muchas de estas igualdades serán simples identidades que no
sirven para nuestro propósito; también existen combinaciones lineales entre ellas que no podemos
utilizar.
La tarea, por tanto, parece complicada; sin embargo, de las propiedades de estas matrices se pueden
deducir algunas relaciones que permiten establecer fácilmente algunas de las ecuaciones necesarias.
Hay que decir que todas ellas se pueden hallar a partir de las expresiones matriciales indicadas, pero
de esta manera es mucho más sencillo hallarlas sin tener que buscar en la maraña de 128 igualdades
posibles.
Consideremos en primer lugar los valores a y b: representan las probabilidades de hallar el sistema en
los estados 3 y 4 sabiendo que ha empezado su evolución en el 1. Pero ello quiere decir que el sistema
ha ido a parar a la clase {3,4} lo cual tiene una probabilidad que llamaremos P
1,34
. U na vez el sistema
ha ido a parar a dicha clase, la probabilidad que se halle en uno u otro estado es justamente la
probabilidad estacionaria de la clase final, en nuestro caso, 2/3 y 1/3. De ello se deduce que a = P
1,34
*
2/3 y b = P
1,34
* 1/3, de lo que se concluye que a y b son proporcionales a 2/3 y 1/3. Por supuesto la
probabilidad P
1,34
es desconocida, aunque sí sabemos que vale precisamente a + b.
Esta propiedad, que se cumple siempre para todas las clases finales, nos permite establecer
inmediatamente seis ecuaciones más:
a / b = i / j = p / q = (2/3) / (1/3) = 2
c / d = k / l = r / s = 4 / 5
En este caso existe además otra propiedad (que no se da siempre) que también nos facilita escribir
algunas de las ecuaciones. En el estado 5, la cadena sólo puede hacer dos cosas: o bien se mantiene en
él, o bien va directamente a una clase final. Si seguimos la notación anteriormente establecida, es
evidente que P
5,34
+ P
5,67
= 1 – 0,3 = 0,7 y como p + q = P
5,34
= (0,1 + 0,3) / 0,7 y análogamente para
P
5,67
= r + s, esto supone que podemos escribir:
p + q = 4/7
r + s = 3 / 7
Desgraciadamente, estas igualdades no proporcionan dos ecuaciones más, sino sólo una, ya que hay
combinación lineal con las anteriores; no obstante, basta con ella para hallar los valores que permiten
completar la fila 5:
p = 8/21; q = 4/21; r = 4/21; s = 5/21; t = 0
Téngase en cuenta que esto no se puede escribir para los estados 1 y 2, ya que de ellos no se va
directamente sólo a clases finales. Tampoco vale el hecho de que {1,2} sea una misma clase de paso:
los estados de la misma clase de paso no tienen por qué tener las mismas probabilidades estacionarias.
Por supuesto, un análisis probabilístico parecido nos permitiría establecer expresiones semejantes para
los estados 1 y 2, pero ello generalmente conduce a situaciones más complejas que no suele valer la
pena acometer.
Así pues, en este momento tenemos ya 5 valores calculados y otras 6 ecuaciones para hallar los 15
valores desconocidos de la matriz escrita más arriba. Pero no hay que preocuparse demasiado por el
sistema de ecuaciones resultante: usualmente se puede reducir con cierta facilidad.
© Los autores, 2002; © Edicions UPC, 2002


Cadenas de Markov
71
Para ello lo más productivo suele ser desarrollar las expresiones para el cálculo de los valores
desconocidos mediante la expresión P* = P· P* en grupos de la misma columna:
Empecemos por la pareja a, i:
a = 0,7a + 0,1i + 0,1 · (2/3) ® 3 a – i = 2/3
i = 0,4a + 0,3i + 0,1 · (2/3) + 0,2p ® 7 i – 4a = 1/7
Como p es conocido, queda tan solo un sistema de dos ecuaciones y dos incógnitas, que se resuelve
fácilmente y permite además obtener inmediatamente los valores de b y j:
a = 128/357; b = 64/357; i = 146/357; j = 73/357
Repitamos la técnica con c y k:
c = 0,7 c + 0,1 k ® 3 c - k = 0
k = 0,4 c + 0,3 k + 0,2 r ® 7 k- 4c = 8/21
con lo que c = 8/357; d = 10/357; k = 8/119; l = 10/119
Y finalmente, para e y m:
e = 0,7 e + 0,1 m + 0.1· 1 ® 3 e – m = 1
m = 0.4 e + 0.3 m ® 7 m – 4e = 0
con lo cual e = 7/17; m= 4/17
Se puede comprobar que, efectivamente, la suma de los valores de cada fila es 1, y la matriz de
probabilidades estacionarias resulta ser:
0 0 128/357 64 / 357 0 8 / 357 10 / 357 7 / 17
0 0 146/357 73 / 357 0 24 / 357 30 357 4 / 17
0 0 2/3 1/3 0 0 0 0
P* = 0 0 2/3 1/3 0 0 0 0
0 0 8/21 4/21 0 5/21 4/21 0
0 0 0 0 0 4/9 5/9 0
0 0 0 0 0 4/9 5/9 0
0 0 0 0 0 0 0 1
De esta matriz es inmediato deducir las probabilidades de que el sistema vaya a una u otra clase final
según el estado inicial:
P
1,34
= 64/119; P
1,67
= 6/119; P
1,8
= 7/17
P
2,34
= 73/119; P
2,67
=18/119; P
2,8
= 4/17
P
5,34
= 4/7; P
5,67
= 3/7; P
5,8
= 0
Tres observaciones finales:
Primera: en este caso la existencia de un estado de paso del cual sólo se puede salir para ir a
alguna clase final permite el cálculo directo de la fila correspondiente; por supuesto eso no tiene
por qué ocurrir en general.
Segunda: la utilización en cada paso de los valores ya obtenidos permite la reducción de los
sistemas de ecuaciones resultantes y por tanto también facilita el cálculo incluso manual.
© Los autores, 2002; © Edicions UPC, 2002


Métodos cuantitativos de organización industrial II
72
Tercera: la técnica de escribir las ecuaciones para los elementos de la misma columna permite en
general trocear el sistema en otros más pequeños y con ello reducir notablemente la dificultad del
cálculo.
Ejemplo 4.3.b Matriz P* para una cadena de Markov semirregular
Sea la cadena de Markov cuya matriz de transición de un paso es:
0,1 0,4 0 ,3 0 ,2 0 0
0 , 3 0 0 0 ,6 0 , 1 0
0 0 0 1 0 0
0 0 0 ,5 0 ,5 0 0
0 0 0 0 0 1
0 0 0 0 0 ,5 0 ,5
P
El lector puede comprobar fácilmente, mediante análisis topológico, que se trata de una cadena
semirregular, en la que existe una clase de paso {1,2}, y dos clases finales {3,4} y {5,6}. Según lo
expuesto anteriormente, la matriz de probabilidades estacionarias tiene el aspecto siguiente:
1 2
1 2
3 4
3 4
0 0
0 0
0 0 0 0
0 0 0 0
0 0 0 0
0 0 0 0
abc d
efg h




P*
Los valores no nulos de los estados pertenecientes a clases finales pueden hallarse resolviendo la clase
final concreta. En el caso que nos ocupa, tenemos:

1
=
3
= 1/3

2
=
4
= 2/3
Para las dos primeras filas, se trata de plantear, para las dos primeras filas de P, la ecuación matricial:
P· P* = P*
El resultado es la matriz:
0 0 0 ,3162 0 ,6324 0 ,0171 0 ,0342
0 0 0 ,2949 0 ,5897 0 ,0385 0 ,0769
0 0 0 ,3333 0 ,6667 0 0
0 0 0 ,3333 0 ,6667 0 0
0 0 0 0 0 ,3333 0 ,6667
0 0 0 0 0 ,3333 0 ,6667
P*
© Los autores, 2002; © Edicions UPC, 2002


Cadenas de Markov
73
3.4.4 Probabilidades estacionarias para cadenas con clases finales cíclicas
En las cadenas regulares y semirregulares se cumple que:
lim
n
P* P
En las cadenas cíclicas, por su naturaleza, no existe este límite. La cadena evoluciona hacia tantas
matrices de transición a largo plazo como el periodo p de la cadena, por lo que tendremos un conjunto
de matrices:
P*
(1)
, P* , ..., P*
(2 ) (p)
Sin embargo, el hecho de que no exista un límite de las potencias de P no significa que no exista P*
entendida como la matriz de probabilidades estacionarias. Afortunadamente, el proceso indicado para
las cadenas regulares y semirregulares sirve también aquí, por lo que no hace falta repetirlo. La
diferencia es que el significado es ahora diferente: en lugar del límite de las potencias de P es el
promedio de las matrices de evolución a largo plazo de cada uno de los periodos.
(1) (2) ( )
1
...
p
p
¹ ( © + +=+
¸
P* P* P * P*
Ejemplo 3.4.4.a Matriz P* para una clase final cíclica
Como se ha visto anteriormente, la cadena C4, cuya matriz de probabilidades de transición de un paso
se muestra a continuación, cuenta con una clase cíclica de p=2.
0,5 0 ,4 0 ,1 0
0 0 1 0
0 0 , 2 0 0 , 8
0 0 1 0
4
P
Para hallar la matriz de probabilidades estacionarias de P procedemos formalmente como si la clase
4
final no fuese cíclica; entonces tendría las filas iguales: se trata de una cadena regular semiergódica.
La diferencia es que ahora no se trata del límite de las potencias de P , sino del promedio de las dos
4
matrices de probabilidades a las que tiende el comportamiento del sistema:
(2 ) (2 1 )
1 1
2 2
k k +
© +=© P* P* P*
0 0 ,1 0 ,5 0 ,4 0 0 ,08 0 ,6 0 ,32 0 0 ,12 0 ,4 0 ,48
0 0,1 0 ,5 0 ,4 0 0 ,2 0 0 ,8 0 0 1 0
1 1
0 0,1 0 ,5 0 ,4 0 0 1 0 0 0 ,2 0 0 ,8 2 2
0 0,1 0 ,5 0 ,4 0 0 ,2 0 0 ,8 0 0 1 0
© +=©
Para determinar las matrices P
nk
basta tener en cuenta las igualdades:
P* = 1/p ( P + P
k k+1
+ .... +P
k- 1
)
P
k+1
= P · P; P
k k+2
= P
k+1
· P; ... ; P = P
k k- 1
· P
© Los autores, 2002; © Edicions UPC, 2002


Métodos cuantitativos de organización industrial II
74
Hay que darse cuenta aquí de la posibilidad de error que existe si se clasifica la cadena simplemente
calculando potencias de P, tentación en la que es fácil de caer disponiendo de un ordenador con una
hoja de cálculo. Lo más fácil es elevar P al cuadrado, luego hacer lo mismo con P
2
y así
sucesivamente. Entonces no se verá la aparición de ciclos de longitud 2, como en este caso.
Compruébese que en la potencia P
16
ya se obtiene P , por lo que esta matriz se puede confundir con
2k
P* , cosa evidentemente errónea.
Ejemplo 3.4.4.b Matriz P* para una cadena mixta
Sea la cadena de Markov definida por la siguiente matriz de probabilidades de transición:
0.7 0.2 0.1 0 0 0 0 0 0 0 0 0 0 0 0
0.9 1/20 0 0 1/20 0 0 0 0 0 0 0 0 0 0
0 0 0,8 0,1 0,1 0 0 0 0 0 0 0 0 0 0
0 0 0 3/4 0 0.1 0 0 0 0 0.1 0 1/20 0 0
0 0 0 0 1 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 2/3 1/6 1/6 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 1 0 0 0 0 0
P= 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0
0 0 0 0 0 0 0 0 0 1 0 0 0 0 0
0 0 0 0 0 1 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 1 0 0 0
0 0 0 0 0 0 0 0 0 0 0,7 0,3 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0,4 0,6
0 0 0 0 0 0 0 0 0 0 0 0 1 0 0
0 0 0 0 0 0 0 0 0 0 0 0 1 0 0
Se observa que se trata de una cadena mixta (se han recuadrado las submatrices ergódicas
correspondientes a les cuatro clases finales).
Obsérvese que el estado 5 es un estado absorbente, y la clase {11,12} es aperiódica, mientras que las
otras dos tienen ciclos de longitud 3 y 2 respectivamente.
El lector debe hacer por su cuenta los cálculos para determinar los valores de P* y comprobará que
obtiene los siguientes valores (se han suprimido las columnas de clases de paso):
23/42 19/315 38/945 19/1990 19/1990 19/315 19/255 38/357 19/420 19/1050 19/700
4/7 2/35 4/105 1/105 1/105 2/35 6/85 12/119 3/70 3/175 3/350
1/2 1/15 2/45 1/90 1/90 1/15 7/85 2/17 1/20 1/50 3/100
0 2/15 4/45 1/45 1/45 2/15 14/85 4/17 1/10 1/25 3/50
1 0 0 0 0 0 0 0 0 0 0
0 1/3 2/9 1/18 1/18 1/3 0 0 0 0 0
0 1/3 2/9 1/18 1/18 1/3 0 0 0 0 0
P= 0 1/3 2/9 1/18 1/18 1/3 0 0 0 0 0
0 1/3 2/9 1/18 1/18 1/3 0 0 0 0 0
0 1/3 2/9 1/18 1/18 1/3 0 0 0 0 0
0 0 0 0 0 0 7/17 10/17 0 0 0
0 0 0 0 0 0 7/17 10/17 0 0 0
0 0 0 0 0 0 0 0 1/2 1/5 3/10
0 0 0 0 0 0 0 0 1/2 1/5 3/10
0 0 0 0 0 0 0 0 1/2 1/5 3/10
© Los autores, 2002; © Edicions UPC, 2002


Cadenas de Markov
75
Sin embargo, el significado de estas probabilidades es diferente según el estado (fila) de la que se
trate.
Si se introduce la matriz P en una hoja de cálculo y se eleva al cuadrado unas cuantas veces (con seis
veces será suficiente) se observará como la fila 5 no varía, las filas 11 y 12 tienden hacia los valores
finales más o menos rápidamente, mientras que en las filas 13-15 se repiten los mismos valores ya
desde P . En cambio, en las filas 6-10 se observa como los mismos valores se van "moviendo"
2
cíclicamente de unas filas a otras sin que sin embargo se lleguen a observar todos los valores en todas
las filas.
Esto es un efecto de los ciclos de las clases finales, que no se observan fácilmente si nos limitamos a
calcular potencias muy elevadas de P simplemente elevando al cuadrado. Solamente si se multiplica
por P para obtener la potencia siguiente se puede ver como en efecto los valores de las clases {6-10} y
{13-15} se repiten cada tres y cada dos potencias, como corresponde a su naturaleza. De ahí la
advertencia hecha al principio de no intentar clasificar la cadena mediante la "fuerza bruta" del
ordenador, ya que ello puede llevar fácilmente a engaño.
También se ve ahora como el significado de P* es distinto: en la clase {11-12} son efectivamente
probabilidades una vez perdida la memoria del estado inicial, mientras que en las dos clases cíclicas es
un promedio de tres y dos potencias sucesivas respectivamente. Para los estados de paso se trata de
una combinación según las leyes del cálculo de probabilidades de las diferentes situaciones finales que
se pueden dar. Véase que si se inicia la evolución del sistema en el estado 4, la probabilidad de caer en
el estado absorbente 5 es nula.
3.5 Cadenas de Markov con remuneración
Decimos que a una cadena de Markov definida por una matriz P se le ha asociado una remuneración
cuando a cada transición posible (esto es, con p >0) se le ha asociado un valor numérico arbitrario, r .
ij ij
De esta forma, junto a la matriz P ya conocida, tenemos ahora una matriz R de remuneraciones.
11 1
1
n
nnn
p p
p p
P
11 1
1
n
nnn
r r
r r
R
La palabra remuneración no debe hacer presuponer nada sobre la naturaleza de este valor, que puede
ser cualquier cosa según convenga al modelo: puede tener, en efecto, un significado de ganancias,
beneficios etc. pero también puede tenerlo de costes, pérdidas o cualquier otra cosa. De hecho, es un
modelo bastante habitual definirla de manera que su valor sirva para contar el número de veces que
han sucedido determinadas transiciones, por ejemplo.
El problema al que nos enfrentamos ahora es el de encontrar la remuneración esperada de un proceso
estocástico representable por una cadena de Markov, tanto a largo plazo como a corto plazo.
3.5.1 Remuneración esperada a corto plazo
En esta sección, estudiaremos cómo obtener la remuneración total esperada a corto plazo de un
proceso estocástico que pueda ser representado por una cadena de Markov. Se trata de determinar
dicha remuneración cuando el número de transiciones N es fijo, mediante la iteración en el espacio de
© Los autores, 2002; © Edicions UPC, 2002


Métodos cuantitativos de organización industrial II
76
los estados. También se introducirá la normalización, procedimiento que ayuda a simplificar el
proceso de cálculo.
3.5.1.1 Iteración en el espacio de los estados
Si v (N) representa la remuneración total esperada cuando quedan N transiciones para finalizar el
i
proceso, y si partimos del estado i, podemos escribir:
1 1
( ) · ( 1 ) ( 1 )
n n
iij ij j i ij j
j j
v N p r v N q p v N ¹ ( + + ©
¸

1
n
iij ij
j
qpr ©

En las dos expresiones, j representa los n estados posibles que podrá tomar el sistema en la siguiente
transición, en la que faltarán N –1 transiciones para acabar. En cuanto a la q , nótese que se obtiene
i
como producto de la fila i de las matrices de probabilidad de transición P y de remuneraciones R (no
se trata, entonces del producto de matrices P· R, sino que matricialmente se escribiría P· R ).
T
Representa la remuneración esperada de la transición del estado N al estado N – 1 y es función del
estado actual i.
Si queremos obtener todos los v (N), es decir, las remuneraciones esperadas para el sistema cuando
i
queden N iteraciones para acabar partiendo desde cualquier estado i inicial, podemos utilizar la misma
ecuación, pero esta vez en forma vectorial:
( ) ( 1 ) N N +=© vqP v
Esta expresión recursiva (se obtiene el valor del estado N a partir del valor para N–1) nos permite
obtener las remuneraciones esperadas del sistema para valores cada vez más alejados del instante final
conociendo unas condiciones de contorno que definen la remuneración esperada después del final del
proceso v(0).
La aplicación de esta ecuación constituye la iteración en el espacio de los estados.
3.5.1.2 Normalización
La técnica de la normalización consiste en restar sistemáticamente al valor obtenido en cada transición
una cantidad determinada y operar en lo sucesivo con la diferencia. Por ello las ecuaciones de
recurrencia quedan la forma siguiente:
( ) '( 1 ) N N +=© vqP v
'( ) ( )
N
N N vvg
donde g es un vector con todas las componentes iguales.
N
Obsérvese que una vez hechos los cálculos con normalización, obtener el valor verdadero de la
remuneración esperada es muy sencillo:
© Los autores, 2002; © Edicions UPC, 2002


Cadenas de Markov
77
1 1
( ) '( ) ...
R
N N
N n

+ + +=+ vvg g g
Esta técnica tiene dos ventajas: en primer lugar evita que los valores de v(N) crezcan de forma
desmesurada, lo cual tiene ventajas indiscutibles para el cálculo, y en segundo lugar permite observar
con más facilidad la llegada del régimen permanente, puesto que en el momento que en dos
transiciones (consecutivas o no) se repitan los valores tanto de la g
N
como de v(N) podemos afirmar
que se ha superado el régimen transitorio y se ha alcanzado el régimen permanente.
Queda por determinar como se fija la g , valor que tendrán todas las componentes de g : en principio
N N
dicho valor es arbitrario, y lo importante es que se determine según una regla fija. Las dos más
habituales son:
Regla 1: { } min ( )
N i
i
gvN
Regla 2: ( )
N k
gvN , donde k es un estado elegido previamente.
Ambas reglas conducen a largo plazo a los mismos resultados (salvo unas diferencias constantes),
pues en régimen permanente el estado de mínimo valor será siempre el mismo. La Regla 1 tiene la
ventaja de que se asegura que los valores de v'(N) son siempre mayores o iguales a cero, lo cual evita
errores en los cálculos manuales, mientras que la Regla 2 facilita la comparación de los vectores v'
Ejemplo 3.5.1.2.a Iteración en el espacio de los estados y normalización
La tabla siguiente muestra las sucesivas iteraciones realizadas para determinar el comportamiento de
la cadena C1, con las matrices de probabilidades de transición P y de remuneraciones R siguientes:
0,2 0,8
0,6 0 ,4
P
10 2 0
40 2 0
R
Las filas segunda y tercera muestran el vector v, obtenido a través de sucesivas normalizaciones, y la
quinta y sexta v’. La última fila es la correspondiente a g , obtenida siempre como el valor más
N
pequeño de v.
0 1 2 3 4 5 6 7 8 9 10 11
v
1
0.00 18.00 18.40 18.24 18.30 18.28 18.29 18.28 18.29 18.29 18.29 18.29
v
2
0.00 16.00 17.20 16.72 16.91 16.84 16.87 16.85 16.86 16.86 16.86 16.86
0 1 2 3 4 5 6 7 8 9 10 11
v'
1
0 2.00 1.20 1.52 1.39 1.44 1.42 1.43 1.43 1.43 1.43 1.43
v'
2
0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
g
N
0 16.00 17.20 16.72 16.91 16.84 16.87 16.85 16.86 16.86 16.86 16.86
Como se ve fácilmente en la tabla normalizada, a partir de la séptima transición aparece ya el régimen
permanente. Dicha observación no es en absoluto evidente si sólo disponemos de la tabla sin
normalizar.
3.5.2 Remuneración esperada a largo plazo
Mediante la iteración en el espacio de los estados se puede calcular la remuneración esperada en un
número cualquiera de transiciones, de manera que teóricamente basta repetir dicha iteración hasta
llegar al número deseado; sin embargo, las propiedades que se obtuvieron en la primera parte del
© Los autores, 2002; © Edicions UPC, 2002


Métodos cuantitativos de organización industrial II
78
módulo hacen pensar que el sistema tenderá a tener una remuneración promedio (remuneración
esperada dividida por el número de transiciones) estable a largo plazo.
Dicha remuneración dependerá fundamentalmente de la remuneración obtenida en la clase final a la
que finalmente vaya a parar la evolución del sistema, ya que es en ella donde se producirán la mayoría
de las transiciones (supuesto el número de estas suficientemente grande); sin embargo, es obvio que
dicho valor promedio ha de venir afectado por un factor de corrección que dependa del estado i en el
que se inicie el proceso. Podremos representar este hecho haciendo que, para un número de
transiciones lo bastante elevado:
v *(N)
i
Ng + w
i i
v* (N) Ng + w
En estas expresiones, g representa la ganancia media por transición, y w un factor de corrección
i
función del estado inicial i.
Si sustituimos las v (N) por estas expresiones en las ecuaciones de iteración en el espacio de los
i
estados, encontramos el siguiente resultado:
1
( ) ( 1 )
n
iiij j
j
v N q p v N + ©

1 1 1
(1) ( 1 )
nnn
i i iij j j i ij jij j
jjj
Ng w q p N g w q N p g p w ¹ ( +=+ © + + =© © + ©
¸

La ganancia media por transición para el estado inicial i puede obtenerse a partir de las ganancias
medias del estado siguiente:
1
n
iij j
j
gpg ©

Esto nos permite obtener la siguiente ecuación, para cada uno de los estados:
1
n
iii ij j
j
wgq p w +=+ ©

La ecuación puede expresarse también en forma vectorial, para el conjunto de estados i:
+=+ w g q P w
En principio, tenemos un sistema altamente indeterminado, puesto que tenemos n ecuaciones para 2n
incógnitas. Sin embargo, hemos de tener en cuenta dos cosas:
La indeterminación afecta a las w , puesto que dichas variables no tienen sentido por ellas mismas,
i
sino que lo tienen sus diferencias. Efectivamente, podemos escribir:
* *
( ) ( )
iji j
ww v N v N
© Los autores, 2002; © Edicions UPC, 2002


Cadenas de Markov
79
La estructura del vector g depende del tipo de la cadena de Markov. Puede deducirse la forma de g
a partir de la matriz de probabilidades estacionarias:
g = P*· q = P· g
No resulta ventajoso obtener g de esta manera, puesto que puede obtenerse a partir de las ecuaciones
obtenidas anteriormente con menos esfuerzo. Sin embargo, a través de esta ecuación podemos conocer
cuántas componentes diferentes tendrá el vector g.
3.5.2.1 Remuneración esperada a largo plazo en cadenas regulares
Consideraremos por el momento el caso sin actualización (o con ( = 1 si se prefiere) . El caso con
actualización se trata al final para todos los tipos de cadenas conjuntamente.
Si la cadena es regular, todas las filas de P* son iguales, por lo que todos los componentes del vector g
son iguales:
Cadena regular ® g = g = ... = g = g
1 2 n
Por lo tanto, para una cadena regular tendremos un sistema de n ecuaciones con n+1 incógnitas (la g y
las w ), es decir, con un grado de libertad que nos permite fijar arbitrariamente el valor de una de las
i
w . Lo más conveniente es hacer una w = 0 para simplificar los cálculos, y así obtener el resto de
i i
ecuaciones.
El hecho de fijar a cero uno u otro de los valores no tiene una significación arbitraria, ya que equivale
a la determinación del estado para el cual se hace cero el valor v'(N) al normalizar. En efecto, aunque
los valores de w no están determinados debido al grado de libertad del sistema, sí lo están sus
i
diferencias:
{ }
' '
lim ( ) ( )
i j i j
N
w w v N v N


Además, como que:
v *(N)
i
Ng + w
i i
esto puede entenderse de la siguiente forma:
Como ya se ha dicho, g representa el valor promedio de la remuneración obtenida en las diferentes
i
transiciones de la cadena dentro de la clase final.
Aceptemos ahora que se ha fijado un estado k de la cadena tal que w =0, y que k pertenece a la clase
k
final (si la cadena es ergódica tal cosa es obligada). Si la evolución del sistema parte de un estado i,
habrá un cierto número de transiciones ( ´ ) h asta que pase por primera vez por el estado k durante las
cuales se obtendrá una remuneración esperada v (
i
´ ). Pues bien, w representa la diferencia entre esta
i
remuneración y la que correspondería según el valor medio:
w = v (
i i
´ ) - ´ .g
i
Evidentemente, si tomamos el estado k fuera de la clase final o el valor fijado en uso del grado de
libertad del sistema, ello no significa más que un simple corrimiento del "nivel de referencia".
© Los autores, 2002; © Edicions UPC, 2002


Métodos cuantitativos de organización industrial II
80
Todo lo expuesto en este apartado es válido para toda cadena regular, sea ergódica o semiergódica.
Ejemplo 3.5.2.1.a.:
Se desea obtener la ganancia media que se obtendrá con la cadena ergódica de matriz P que a
continuación se indica, si las remuneraciones asociadas a cada transición se indican en la matriz R. En
este caso, la matriz R se ha obtenido del siguiente modo:
Si el proceso permanece en el mismo estado i, se remunera con una cantidad igual a i.
Si el proceso pasa de un estado i a otro j, se remunera o penaliza con una cantidad igual a j – i.
0 0 ,2 0,4 0 ,3 0,1
0,5 0 ,5 0 0 0
0 0 , 2 0 ,4 0 0 , 4
0 0 ,7 0 0 0 ,3
0 0 0 ,8 0 ,1 0 ,1
P
1 1 2 3 4
1 2 1 2 3
2 1 3 1 2
3 2 1 4 1
4 3 2 1 5




R
El vector q se obtiene multiplicando las filas de P y R (una vez más debemos insistir en el hecho de
que no se trata del producto de ambas matrices). Para el caso que nos ocupa, el valor de este vector es:
2,3
0,5
1, 8
1,1
1, 2


q
Finalmente, a partir de la ecuación matricial:
+=+ w g q P w
obtenemos el conjunto de ecuaciones siguiente, en el que todos los valores de las componentes de g
son iguales a un valor g:
w + g = 2,3 + 0,2w + 0,4w + 0,3w + 0,1w
1 2 3 4 5
w + g = 0,5 + 0,5w + 0,5w
2 1 2
w + g = 1,8 + 0,2w + 0,4w + 0,4w
3 2 3 5
w + g = -1,1 + 0,7w + 0,3w
4 2 5
w + g = -1,2 + 0,8w + 0,1w + 0,1w
5 3 4 5
Tenemos cinco ecuaciones y seis incógnitas. Por lo tanto, podemos hacer w
2
= 0, y entonces
tendremos los siguientes valores:
© Los autores, 2002; © Edicions UPC, 2002


Cadenas de Markov
81
w = 0,5545
1
w = 0
2
w = 0,1178
3
w = -2,5913
4
w = -2,3801
5
g = 0,7772
Los resultados indican que la ganancia obtenida en el largo plazo, tras N transiciones, es
aproximadamente de 0,7772N (téngase en cuenta que como N es muy grande, cualquier variación
finita es irrelevante ante este valor: para un número lo suficientemente grande de transiciones, la
ganancia media es igual a g = 0,7772). En cambio, si empezamos en el estado 4 el valor esperado de
dicha ganancia es 2,5913 unidades menor que si empezamos en el estado 2.
3.5.2.3 Remuneración esperada en cadenas cíclicas
El cálculo para una cadena cíclica es formalmente idéntico al de una cadena regular, si bien el
significado de los resultados es diferente. Los valores obtenidos son promedios de los valores que se
presentan de forma cíclica con el número de transiciones.
Ejemplo 3.5.2.3.a Remuneración esperada para una cadena cíclica de p =2
Consideremos ahora una cadena cíclica, de p = 2, tal como:
0 0 ,5 0 0 ,5
0 , 5 0 0 , 5 0
0 0 ,5 0 0 ,5
0 , 5 0 0 , 5 0
P
Planteemos el problema de obtener g y w con la matriz de remuneraciones:
1 3
4 6
2 0
2 8




R
Para estas P y R, tenemos que q vale:
2
1
1
3

q
De manera que, prescindiendo del hecho de que la cadena sea cíclica, y dado que tiene una única clase
final, podemos plantear las ecuaciones:
w + g = 2 + (w + w )/2
1 2 4
w + g = –1 + (w + w )/2
2 1 3
© Los autores, 2002; © Edicions UPC, 2002


Métodos cuantitativos de organización industrial II
82
w + g = 1 + (w + w )/2
3 2 4
w + g = 3 + (w + w )/2
4 1 3
De donde obtenemos:
g = 5/4
w = 0
1
w = -11/4
2
w = -1
3
w = 5/4
4
Estos valores describen el comportamiento promedio del sistema en el largo plazo, exactamente del
mismo modo que P* describe las propiedades estacionarias para una cadena periódica. Podemos
conocer con más detalle el comportamiento del sistema si realizamos iteraciones en el espacio de las
políticas, a partir de la ecuación:
( ) ( 1 ) N N +=© vqP v
El lector puede comprobar, por inducción, que la ganancia total del sistema cuando faltan N etapas
para terminar tiene el comportamiento siguiente:
N = 2k N = 2k+1
v
1
(5/4)N + 1/2 (5/4)N + 3/4
v
2
(5/4)N + 2 (5/4)N – 9/4
v
3
(5/4)N – 1/2 (5/4)N – 1/4
v
4
(5/4)N + 2 (5/4)N + 7/4
De la tabla se deduce que, tal como habíamos hallado, g = 5/4. Las diferencias entre componentes de v
se comportan de modo diferente en periodos pares que en periodos impares, y las w obtenidas con las
i
ecuaciones muestran el comportamiento promedio:
N = 2k N = 2k +1 w – w
i 1
v – v
1 1
0 0 0
v – v
2 1
-5 /2 -3 -1 1 /4
v – v
3 1
-1 -1 -1
v – v
4 1
3/2 5/4 5/4
3.5.2.4 Remuneración esperada en cadenas no ergódicas
En general, una cadena no ergódica tendrá:
CF , CF ,. .. , CF clases finales (sean cíclicas o acíclicas)
1 2 m
ecp , ecp , ... , ecp estados pertenecientes a clases de paso
1 2 r
Entonces el vector g tendrá m + r componentes diferentes. Todos los estados de una misma clase final
tendrán el mismo valor de g, y los estados de las clases de pasos tendrán un valor de g diferente cada
uno:
Cadena no ergódica ® g
CF1
, g
CF2
, ... g
CFm
, g
ecp1
, g
ecp2
, ..., g
ecpr
valores distintos
© Los autores, 2002; © Edicions UPC, 2002


Cadenas de Markov
83
Tenemos entonces un sistema con n ecuaciones y n + m + r incógnitas. El sistema quedará
determinado si se hacen m + r valores de w =0.
i
Ejemplo 3.5.2.4.a Remuneración esperada para una cadena semirregular
Consideremos la matriz de transición P de una cadena semirregular y las componentes activas de la
matriz de remuneraciones R siguientes:
0,1 0,2 0 ,3 0,4 0
0 0 ,4 0 ,6 0 0
0 0 ,7 0 ,3 0 0
0 0 0 0 ,3 0 ,7
0 0 0 0 ,8 0 ,2
P
4 7 8 9
8 3
2 1 3
6 4
6 4



=
=
R
En este caso, el vector de ganancias medias por transición g tendrá tres componentes diferentes:
Un componente g asociado a la clase de paso 1.
1
Un componente g asociado a la clase final A = {2,3}.
A
Un componente g asociado a la clase final B = {4,5}.
B
En primer lugar, multiplicando las filas de P y R obtenemos el vector q:
3
5
2,5
1
4


q
Podemos, por ejemplo, plantear las ecuaciones g + w = q + Pw para la clase final A:
w + g = 5 + 0,4w + 0,6w
2 A 2 3
w + g = -2,5 + 0,7w + 0,3w
3 A 2 3
De estas ecuaciones obtenemos:
g = 20/13
A
w = 0
2
w = -75/13
3
Planteando las ecuaciones para la clase final B, tenemos:
© Los autores, 2002; © Edicions UPC, 2002


Métodos cuantitativos de organización industrial II
84
w + g = -1 + 0,3w + 0,7w
4 B 4 5
w + g = 4 + 0,8w + 0,2w
5 B 4 5
g = 4/3
B
w = 0
4
w = 10/3
5
Ahora quedan por encontrar los valores de la clase de paso, g
1
y w . Para ello contamos con la
1
ecuación:
w + g = 3 + 0,1w + 0,2w + 0,3w + 0,4w
1 1 1 2 3 4
Ahora no podemos encontrar g haciendo w = 0. Ambos valores están determinados, porque hemos
1 1
agotado los grados de libertad del sistema al hacer w =0 y w =0. Por lo tanto, necesitamos otra
2 4
ecuación. Dicha ecuación puede encontrarse a partir de las ecuaciones matriciales que g satisface:
P* · q = g
P· g = g
La opción más económica es la segunda, que nos exonera de obtener P*. Desarrollando para la
primera fila, tenemos:
0,1g + 0,2g + 0,3g + 0,4g = g
1 A A B 1
De donde obtenemos de manera directa que g
1
= 508/351. Volviendo a la ecuación g
1
+ w
1
= ..
obtenemos que w = 625/3159.
1
El significado de los valores de g y w para los estados de paso se puede deducir de las expresiones
utilizadas para hallarlos: en primer lugar g en la ecuación anterior resulta ser un promedio de los
1
valores g , g
A B
de las diferentes clases finales; ello proviene del hecho que, a largo plazo, lo que
contará como remuneración de la cadena es precisamente el valor de g que corresponda a la clase final
donde vaya a parar; por ello, la g de los estados de paso es la esperanza matemática de dichos valores,
de modo que si en la ecuación anterior aislamos g1 resulta:
g = 5/9 g + 4/9 g , lo cual nos dice que las probabilidades de que el sistema acabe yendo a la clase
1 A B
final A o a la clase final B si inicia su evolución en el estado1 son 5/9 y 4/9 respectivamente.
Por lo que respecta a las w , su significado es el mismo ya visto en las cadenas ergódicas y
i
semiergódicas; la única diferencia es que en este caso, al depender de dos grados de libertad, es un
valor referido a los niveles fijados en cada clase final; recuérdese que ello no significa que el valor real
de la remuneración sea exactamente v = Ng + w , sino solamente que v - v = w -w .
i i i j i j
3.6 Cadenas de Markov con remuneración y decisión
Se dice que un proceso markoviano tiene decisión si en cada transición se puede fijar una variable
(llamada de decisión) mediante la cual se puede elegir entre diferentes juegos de probabilidades de
transición, y eventualmente entre diferentes valores de la remuneración asociada. De esta forma, tanto
la matriz de probabilidades P como la de remuneraciones R, tienen tres índices o dimensiones: el
estado anterior, el posterior y la decisión. Por ello notamos sus elementos como p
iju
y r , donde u
ij u
representa la variable de decisión. Así, los valores posibles que podrán tomar los subíndices serán:
© Los autores, 2002; © Edicions UPC, 2002


Cadenas de Markov
85
Subíndice i (estados de origen): i = 1, 2, ..., n
Subíndice j (estados de destino): j = 1, 2, ..., n
Subíndice u (decisiones): u =1, 2, ..., d
i
Como sucede a lo largo del texto, n es el número de estados de la cadena. El valor d es el número de
i
decisiones posibles, que depende del estado de partida i.
Se llama política a una regla que fija para cada estado de la cadena el valor de la decisión a adoptar.
Podrá expresarse entonces de forma vectorial:
p = {u , u , ..., u , ..., u }
T
1 2 i n
donde las u es el valor de la variable de decisión fijado por la política para el estado i.
i
Una vez determinada una política, el sistema se transforma en una cadena de Markov con
remuneración como las que se han visto en el apartado anterior. Es importante tener en cuenta que
mientras no se ha fijado una política de hecho el sistema no responde propiamente al modelo de las
cadenas tal como se ha visto, ya que ni las probabilidades de transición ni las remuneraciones están
determinadas. Por ello, hasta que no se haya fijado una política, no tiene sentido hablar de su
clasificación ni de probabilidades estacionarias ni de remuneraciones esperadas.
Si existe capacidad de decisión es porque se pretende que la remuneración obtenida sea lo mejor
posible, lo cual puede significar máxima o mínima según la naturaleza de la remuneración: de esta
manera se puede hablar de política óptima, que es aquella que permite obtener la mejor remuneración
esperada. Téngase en cuenta que por la naturaleza aleatoria del sistema no se puede optimizar la
remuneración obtenida realmente (que es una magnitud aleatoria), sino tan sólo el valor esperado de la
misma.
La política óptima no tiene sentido si no es con relación a un horizonte determinado. Se habla así de
política óptima a corto plazo (esto es con un horizonte finito y determinado) o política óptima a largo
plazo, es decir, con un horizonte ilimitado o con un horizonte finito pero desconocido.
3.6.1 Procesos markovianos de decisión
Algunos procesos polietápicos de decisión pueden modelizarse como cadenas de Markov con
remuneración y decisión. Para que esto sea posible, deben tener las características siguientes:
El sistema puede evolucionar dentro de un número finito de estados n.
La evolución del estado en el futuro depende exclusivamente de:
- El estado i en el que se encuentra en el momento presente (esto es, el sistema cumple la
propiedad markoviana).
- Del valor de la variable de decisión escogido para el estado i, de entre los d valores posibles
i
de dicha variable de decisión.
La evolución del sistema, pues, puede definirse como una secuencia de evolución (E) según un
proceso markoviano y decisión (D) que condiciona la evolución a la etapa siguiente: este tipo se
sistemas pueden caracterizarse como sistemas E / D.
Los datos de partida para resolver el sistema son:
© Los autores, 2002; © Edicions UPC, 2002


Métodos cuantitativos de organización industrial II
86
La matriz de probabilidades de transición, para cada una de las políticas P
(p)
. Sus componentes
serán del tipo p , que no es más que la probabilidad de transición del estado i al estado j, una vez
iju
se ha tomado la decisión u desde el estado i.
La matriz de remuneraciones R
(p)
, cuyos componentes son r , definidos como la remuneración
iju
(ganancia o pérdida) obtenida al pasar del estado i al estado j, una vez se ha tomado la decisión u
desde el estado i.
Definido el problema en estos términos, es importante destacar que sólo cuando hayamos establecido
una política determinada, tendremos un proceso markoviano con remuneración.
El objetivo es ahora el de establecer la política óptima, de manera que se encuentre la política que
optimiza la ganancia esperada. Existen para ello dos métodos:
La iteración en el espacio de los estados consiste en encontrar la política que nos da la v(N) óptima,
esto es, v*(N), a partir de v*(N-1). Este método puede emplearse para obtener la política óptima para
un número finito de etapas (problema de horizonte infinito), y si se observa que el sistema converge a
una determinada política después de un número determinado de etapas, la política óptima a largo plazo
(problema de horizonte finito).
La exploración del espacio de las políticas, consistente en encontrar las g y las w para cada una de las
posibles políticas del sistema. Por su propia naturaleza, se trata de una metodología para resolver el
problema de horizonte infinito.
Seguidamente se describirán cada una de estas técnicas usando diversos ejemplos prototipo.
3.6.2 Iteración en el espacio de los estados
Como se ha expuesto anteriormente, se trata de encontrar v*(N), una vez obtenida v*(N-1). Para ello,
se hará uso de la ecuación de recurrencia definida para las cadenas de Markov con remuneración,
1
teniendo en cuenta ahora que, para cada uno de los estados origen i, hemos de valorar las políticas
posibles. En primer lugar, calcularemos la remuneración esperada si partimos del estado i y tomamos
la decisión u:
*
1
( ) ( 1 )
n
iu iu iju j
j
vN q p v N + ©

Una vez calculados todos estos valores, podremos encontrar el valor óptimo (máximo o mínimo, según
convenga) para el estado i. Una vez hayamos obtenido las decisiones óptimas para todos los estados,
quedará definida la política óptima para esa etapa:
¸ ¸ { }
*
( )
iiu
u
vN OPT v N
Con esta ecuación de recurrencia, obtendremos, para la etapa N, la política óptima a seguir si en ese
momento nos encontramos en el estado i.
1
La iteración en el espacio de los estados es, de hecho, un caso particular de programación dinámica aleatoria.
En el siguiente módulo, se desarrollará con detalle la problemática de la programación dinámica, en un
contexto más general.
© Los autores, 2002; © Edicions UPC, 2002


Cadenas de Markov
87
También podemos estudiar el comportamiento a largo plazo, si normalizamos los resultados en cada
iteración, tal como se describe en la sección 5.2.2. Podremos obtener conclusiones acerca del
comportamiento del sistema a largo plazo con este sistema si se cumplen las siguientes condiciones:
Se observa que, para un número suficientemente elevado de estados, la política óptima es siempre la
misma.
Se observa que el sistema converge, esto es:
g *
N
g
N- 1
*
v’*(N) v’*(N-1)
Entonces podremos decir que hemos encontrado la política óptima p*, teniendo además:
g
(p)
N
g*
v’ (N)
*
w*
Si no observamos una convergencia clara, o bien el sistema escoge diversas políticas, podemos
recurrir a la exploración del espacio de las políticas.
Ejemplo 3.6.2.a
Un taxista trabaja en una ciudad dividida en tres zonas: A, B y C. Situado en una zona determinada,
puede seguir tres políticas:
Política 1: circular por la calle en busca de clientes.
Política 2: permanecer estacionado en una parada de taxis en espera del cliente.
Política 3: captar clientes por un servicio de radio taxi, al que el taxista está abonado. Dicho
servicio no cubre la zona B.
La zona en que se encuentre el taxi en este momento y la política seguida, determinarán:
Las probabilidades de que el destino de su próximo servicio sea la zona A, B o C.
La remuneración (que depende de las características de los clientes captados con una
política u otra, las comisiones a pagar al servicio de radio taxi, el combustible
gastado circulando en busca de cliente, etc) obtenida al partir de una zona i y llegar a
una zona j.
Dichas probabilidades, y remuneraciones, así como la ganancia esperada q
i
(p)
(obtenidas a partir de
las p
ij
(p)
y las r
ij
(p)
) , se detallan en la tabla adjunta:
ZONA política A B C A B C q
i
(p)
A 1 0,5 0,2 0,3 10 3 8 8
2 0,1 0,7 0,2 8 2 4 3
3 0,3 0,1 0,6 3 7 4 4
B 1 0,5 0 0,5 14 0 18 16
2 0,1 0,8 0,1 6 16 6 14
C 1 0,2 0,3 0,5 12 2 8 7
2 0,1 0,8 0,1 6 4 2 4
3 0,7 0,1 0,2 4 0 6 4
Se pide determinar la política óptima para el taxista a largo plazo.
© Los autores, 2002; © Edicions UPC, 2002


Métodos cuantitativos de organización industrial II
88
Resolución:
Claramente nos encontramos dentro del marco de los modelos de Markov con remuneración y
decisión, dado que la evolución del sistema en la siguiente transición depende de:
La zona (que será el estado del sistema) en la que se encuentre el taxista en el momento actual:
el sistema es de tipo markoviano.
La política seguida por el taxista.
Lo que deseamos obtener es la política a seguir si nos encontramos en un estado determinado. Así, por
ejemplo, la política p’ = {1, 2, 3} significa que el taxista debe circular por la calle en busca de clientes
si se encuentra en la zona A, estacionarse en la parada si se encuentra en la zona B y atender al radio
taxi si se encuentra en la zona C.
Tenemos entonces 3 · 2 · 3 = 18 políticas posibles, por lo que no resulta operativo explorarlas todas.
Se trata, entonces, de llevar a cabo una exploración en el espacio de las políticas. La operativa de la
exploración se detalla en la página siguiente.
N 0 1 2 3 4 5 6 7
v
1
(1)
0 8 10,3 10,5 11 11 11 11
v
1
(2)
0 3 9,4 10,9 11,8 11,8 11,8 11,8
v
1
(3)
0 4 5,2 5,7 6,4 6,4 6,4 6,4
v
2
(1)
0 16 16,5 16,5 17 17 17 17
v
2
(2)
0 14 21,3 22,9 23,8 23,8 23,8 23,8
v
3
(1)
0 7 9,9 10,8 11,6 11,6 11,6 11,6
v
3
(2)
0 4 11,3 12,9 13,8 13,8 13,8 13,8
v
3
(3)
0 4 5,6 5,3 5,6 5,6 5,6 5,6
v *
1
0 8 10,3 10,9 11,8 11,8 11,8 11,8
v *
2
0 16 21,3 22,9 23,8 23,8 23,8 23,8
v *
3
0 7 11,3 12,9 13,8 13,8 13,8 13,8
v *'
1
0 1 0 0 0 0 0 0
v *'
2
0 9 11 12 12 12 12 12
v *'
3
0 0 1 2 2 2 2 2
g 0 7 10,3 10,9 11,8 11,8 11,8 11,8
política
A 1 1 2 2 2 2 2
B 1 2 2 2 2 2 2
C 2 2 2 2 2 2 2
Nótese que las políticas óptimas (marcadas en rojo en la tabla en cada caso) se han obtenido como:
v * = max { v
1 1
(1)
, v
1
(2)
, v
1
(3)
}
v * = max { v
2 2
(1)
, v
2
(2)
}
v * = max { v
3 3
(1)
, v
3
(2)
, v
3
(3)
}
La normalización se ha llevado a cabo según las expresiones:
g = min { v *, v *, v * }
1 2 3
v *' = v * – g
i i
© Los autores, 2002; © Edicions UPC, 2002


Cadenas de Markov
89
Nótese como el sistema evoluciones de las políticas {1, 1, 1} a la {1, 2, 2} y finalmente converge a la
{2, 2, 2}. Por tanto, podemos decir que el taxista deberá esperar siempre en la parada de taxis,
obteniendo así una ganancia media de 11,8.
3.6.3 Iteración del espacio de las políticas
La iteración del espacio de las políticas nos da la política óptima para el sistema a largo plazo para
cada uno de los posibles i estados de partida. Dicha iteración no es más que determinar g y w para
cada una de las políticas. Formalmente, consiste en resolver, para cada política p:
( ) ( ) ( ) ( ) ( ) pp p p p
+=+ w g q P w
La iteración en el espacio de las políticas tiene la ventaja de considerar comportamientos anómalos
(semirregulares o periódicos) de las diferentes cadenas de Markov asociadas a una política, pero tiene
el serio inconveniente de que supone resolver un sistema de n ecuaciones con n incógnitas para cada
una de las posibles políticas, y frecuentemente resulta más laborioso que la iteración en el espacio de
los estados. Por ejemplo, para el ejemplo 3.6.2.a debemos resolver 18 sistemas de tres ecuaciones. Es
frecuente utilizar esta exploración como confirmación de los resultados obtenidos mediante la
iteración en los estados.
El ejemplo siguiente, que representa una situación con solamente dos estados, permite mostrar las
posibilidades de la exploración del espacio de las políticas.
Ejemplo 3.6.3.a
Un profesor de Métodos Cuantitativos de la Universitat Politècnica de Catalunya (U.P.C.) debe decidir, dos
veces cada trimestre, si pone un examen fácil o difícil. Lo ideal sería poner un examen difícil, y que hubieran
muchos aprobados: esto mostraría que los alumnos han estudiado y han aprendido muchas cosas de la
asignatura. Por el contrario, si hay pocos aprobados, a pesar de que el examen ha sido fácil, significa que no
han estudiado lo suficiente. Las otras dos situaciones (examen difícil y pocos aprobados, y muchos
aprobados con un examen fácil) el profesor las considera de valor intermedio.
Ahora bien, los alumnos estudian más o menos según si en el examen anterior ha habido pocos o
muchos aprobados: si han aprobado muchos estudian poco, y si ha habido muchos suspensos estudian
mucho. Esto afecta a la probabilidad de aprobar: si después de un examen con muchos aprobados el
profesor pone un examen fácil, sólo tres de cada cinco veces habrá muchos aprobados. Si después de
una situación con pocos aprobados pone un examen difícil, habrá muchos o pocos aprobados con igual
probabilidad. Por descontado, si pone un examen difícil después de uno con muchos aprobados habrá
pocos aprobados con toda seguridad, mientras que si después de haber habido pocos aprobados pone
un examen fácil, estima que la probabilidad de que haya muchos aprobados es del 90%.
a) ¿Cuál es la política más adecuada para asegurar a largo plazo el máximo nivel medio de
conocimientos de los alumnos?
b) La Universidad ha fijado unas normas para valorar la calidad de la docencia de los
profesores, en las que el parámetro principal es directamente proporcional a la frecuencia
con que hay muchos aprobados. ¿Modificará esto la política del profesor? ¿Cuál será la
valoración de los conocimientos de los alumnos que hará el profesor si aplica esta política?
RESOLUCIÓN:
© Los autores, 2002; © Edicions UPC, 2002


Métodos cuantitativos de organización industrial II
90
a) ¿Cuál es la política más adecuada para asegurar a largo plazo el máximo nivel medio de
conocimientos de los alumnos?
Este ejemplo está menos estructurado que el del caso anterior, aunque resulta relativamente sencillo
establecer los estados y las decisiones:
El sistema (es decir, el conjunto de los alumnos) puede encontrarse en dos estados: con
muchos aprobados (M) o con pocos (P). El hecho de que el comportamiento de los alumnos se
vea condicionado exclusivamente por el último examen hace que nos encontremos con una (o
varias, puesto que variarán en función de la política) cadenas de Markov de orden 1.
Antes de la siguiente evolución, el profesor toma la decisión de que el examen sea fácil (F) o
difícil (D). Dado que el profesor debe establecer cuál es su comportamiento en función de que
haya habido muchos o pocos aprobados, podemos definir en este caso la política como:
{comportamiento si M, comportamiento si P}
Siendo así posibles cuatro políticas:
{F, F}
{F, D}
{D, F}
{D, D}
Cada política tendrá sus propias matrices P y R. Dichas matrices pueden obtenerse de la lectura atenta
del enunciado, y se muestran en la siguiente tabla: la matriz de la izquierda muestra las probabilidades,
y la de la derecha las remuneraciones. También se han obtenido los valores de q
i
(p)
para cada caso.
ESTADOS política M P M P q
i
(p)
M F 0,6 0,4 0 -2 - 0,8
D 0 1 2 0 0
P F 0,9 0,1 0 -2 -0,2
D 0,5 0,5 2 0 1
En este caso, el enunciado da cierta libertad para la determinación de los valores de R , dado que se
(p )
trata de funciones de utilidad. En este caso se ha optado por asignar a la situación más deseada
(muchos aprobados con examen difícil) una utilidad de +2, a la menos deseada (pocos aprobados con
examen fácil) una utilidad de –2, y al resto de casos (situados en un término medio en el enunciado) un
valor intermedio de cero. Pueden darse formulaciones alternativas a la matriz R , que darán lugar a
(p )
diferentes valores de q .
(p )
La siguiente tabla muestra los resultados de la iteración en el espacio de los estados:
N 0 1 2 3 4 5 6
v
M
(F)
0 - 0,8 -0,4 -0,6 -0,5 -0,55 -0,525
v
M
(D)
0 0 1 0,5 0,75 0,625 0,6875
v
P
(F)
0 - 0,2 -0,1 -0,15 -0,125 -0,1375 -0,13125
v
P
(D)
0 1 1,5 1,25 1,375 1,3125 1,34375
v *
M
0 0 1 0,5 0,75 0,625 0,6875
v *
P
0 1 1,5 1,25 1,375 1,3125 1,34375
v *'
M
0 0 0 0 0 0 0
v *'
P
0 1 0,5 0,75 0,625 0,6875 0,65625
g 0 0 1 0,5 0,75 0,625 0,6875
© Los autores, 2002; © Edicions UPC, 2002


Cadenas de Markov
91
Del examen de los resultados, obtenemos:
Parece que el sistema converge a la política {D, D} desde un primer momento.
Sin embargo, no podemos asegurar que el sistema converja, dado que tanto g como v *'
M
H w
P
no
convergen con las iteraciones dadas en la tabla .
2
Por este motivo, podemos realizar una exploración en el espacio de las políticas, evaluando el
comportamiento a largo plazo del sistema si establecemos la política {D, D}. De la primera tabla
podemos ver que:
0 1
0,5 0 ,5
P
2 0
2 0
R
Un examen de P muestra rápidamente que la cadena de Markov asociada a esta política es ergódica,
por lo que el vector g tiene todas sus componentes iguales. Realizada esta precisión, podemos plantear
el sistema:
g + w
M
= w
P
g + w = 1 +0,5w
P M
+ 0,5w
P
Para comparar con facilidad los resultados obtenidos con lo obtenido en la iteración en el espacio de
los estados, haremos w
M
= 0. Entonces se obtiene:
g = w
M
= 2/3 = 0,6667
Resultado que confirma lo obtenido con la iteración en el espacio de las políticas. Ahora podemos
decir que la política óptima es {D, D} .
3
b) La Universidad ha fijado unas normas para valorar la calidad de la docencia de los
profesores, en las que el parámetro principal es directamente proporcional a la frecuencia
con que hay muchos aprobados. ¿Modificará esto la política del profesor? ¿Cuál será la
valoración de los conocimientos de los alumnos que hará el profesor si aplica esta política?
Ahora la matriz de remuneraciones cambia (las preferencias del profesor son diferentes a las de la
Universidad), y tenemos la siguiente situación:
ESTADOS política M P M P q
M F 0,6 0,4 2 0 1,2
D 0 1 2 0 0
P F 0,9 0,1 2 0 1,8
D 0,5 0,5 2 0 1
2
De hecho sí acaba convergiendo, pero bastante despacio: podemos afirmar que w
M
= g = 0,666 después de 11
iteraciones.
3
Para poder asegurarlo completamente, deberíamos calcular g y w para las cuatro políticas. La de mayor g sería
la política óptima.
0
1
q
© Los autores, 2002; © Edicions UPC, 2002


Métodos cuantitativos de organización industrial II
92
Iterando en el espacio de los estados, tenemos:
N 0 1 2 3 4 5 6
v
M
(F)
0 1,2 1,44 1,368 1,3896 1,38312 1,385064
v
M
(D)
0 0 1,2 0 0 0 0
v
P
(F)
0 1,8 1,86 1,842 1,8474 1,84578 1,846266
v
P
(D)
0 1 1,3 1,21 1,237 1,2289 1,23133
v *
M
0 1,2 1,44 1,368 1,3896 1,38312 1,385064
v *
P
0 1,8 1,86 1,842 1,8474 1,84578 1,846266
v *'
M
0 0 0 0 0 0 0
v *'
P
0 0,6 0,42 0,474 0,4578 0,46266 0,461202
g 0 1,2 1,44 1,368 1,3896 1,38312 1,385064
Efectivamente, vemos que la política escogida ahora es {F, F}. Si juzgamos la política escogida por la
Universidad a partir de los criterios del profesor, debemos evaluar esta política {F, F} a largo plazo
con los datos del apartado a).
Tenemos ahora que:
0,6 0,4
0,9 0 ,1
P
0 2
0 2


R
0,8
0,2


q
Podemos plantear el sistema:
g + w
M
= -0,8 + 0,6w
M
+ 0,4w
P
g + w = -0,2 + 0,9w
P M
+ 0,1w
P
Si hacemos w
M
= 0, obtenemos los siguientes resultados:
g = -0,615
w = 0,4615
P
De donde cabe deducir que esta política de la Universidad da como resultado una obtención de
conocimientos por parte de los alumnos subóptima: la política {D, D} es claramente mejor que la {F,
F}.
3.7 Problemas resueltos
3.7.1 Servicio en tenis
Es bien conocido que en el deporte de tenis, el jugador que sirve tiene dos oportunidades para que la
pelota entre en el cuadrado de servicio. Si falla las dos veces, pierde el punto.
© Los autores, 2002; © Edicions UPC, 2002


Cadenas de Markov
93
En cada servicio, el tenista puede optar por sacar fuerte o flojo. Si saca fuerte, tiene una probabilidad
de que la pelota entre en el cuadro de 0,5. Si saca flojo, la probabilidad de entrar la pelota en el cuadro
es de 0,8. Ahora bien, si entra el servicio fuerte, su probabilidad de ganar el punto es de 0,7, y si entra
el servicio flojo su probabilidad de ganar el punto es de 0,4. La ganancia por punto ganado es de +10,
y la ganancia por punto perdido de –10.
Se desea conocer la estrategia a seguir para maximizar la ganancia esperada por servicio en el largo
plazo.
Se pregunta:
a) Formule el problema como un proceso markoviano con remuneración y decisión, definiendo los
estados posibles del sistema, la variable de decisión y las matrices P y R para todas las
posibilidades.
b) Mediante iteración en el espacio de los estados, identifique una posible política de servicio óptima.
c) Determine la ganancia esperada por servicio a largo plazo, si el tenista opta siempre por el servicio
fuerte.
Solución problema del tenis
La forma más adecuada de resolver el problema es definir sus parámetros del siguiente modo:
Etapas: cada servicio es una etapa en la evolución del sistema. Si se trata de un primer
servicio, puede ser que el servicio dé lugar a un punto (si entra en el cuadro) o a un segundo
servicio (si no entra). El segundo servicio dará lugar, en todos los casos, a un punto, que podrá
ser ganado o perdido.
Estados: por lo que se acaba de exponer, la información que necesitamos saber para conocer la
evolución del sistema consiste en saber si estamos en el primer servicio (estado 1) o en el
segundo servicio (estado 2). Por lo tanto, se trata de un sistema dinámico con dos estados.
Variable de decisión: el tenista puede, en parte, controlar con sus acciones la evolución del
sistema. En este caso, puede hacerlo sirviendo fuerte (FU) o sirviendo flojo (FL). El tenista
puede sacar fuerte o flojo tanto en el primer servicio como en el segundo.
Por lo tanto, nos encontramos ante un sistema de Markov con remuneración y decisión (caso particular
de los modelos de programación dinámica aleatoria homogénea en el tiempo), del que nos interesa
conocer el comportamiento a largo plazo (esto es, el problema de horizonte infinito).
Las reglas del juego del tenis, junto con las probabilidades que expresan las capacidades del jugador,
nos permitirán determinar las matrices de probabilidades de transición y de remuneración, para todos
los valores de estados del sistema y de variables de decisión.
Primer servicio
Si estamos en el primer servicio y lo entramos en el cuadro, se disputará el punto y el sistema
evolucionará al estado 1 (volveremos al primer servicio). Veamos qué probabilidades y qué
remuneraciones obtenemos para cada una de las variables de decisión.
Si saca fuerte, la probabilidad de entrar el servicio es de 0,5. Ésta será, entonces, la probabilidad de
transición. Dado que el tenista tiene una probabilidad de ganar el punto de 0,7 (y de perderlo de 0,3),
la remuneración será:
© Los autores, 2002; © Edicions UPC, 2002


Métodos cuantitativos de organización industrial II
94
0,7· (+10) + 0,3· (-10) = +4
Si, en cambio, saca flojo, la probabilidad de entrar el servicio es de 0,8. Ésta será, una vez más, la
probabilidad de transición al estado 1. Sin embargo, las probabilidades de ganar el punto en estas
condiciones no son tan halagüeñas como en el caso anterior, y tenemos:
0,4· (+10) + 0,6· (-10) = -2
Si no entra el primer servicio, no se disputa el punto y pasamos al segundo servicio: en términos del
problema, evolucionamos al estado 2. Al no disputarse el punto, la remuneración es cero. Las
probabilidades de que esto suceda dependen de la variable de decisión:
Si saca fuerte, la probabilidad de fallar el servicio es de 0,5.
Si saca flojo, la probabilidad de fallar el servicio es de 0,2.
Segundo servicio
En el segundo servicio, el punto está en juego, y si el tenista falla el servicio pierde el punto. Pase lo
que pase, el próximo saque será un primer servicio. Por lo tanto, en el estado 2 la probabilidad de
transición al estado 1 es de 1, y en consecuencia la probabilidad de transición al estado 2 es de 0.
¿Cómo puede ganar el punto el tenista en el segundo servicio? Entrando el servicio y ganando el
punto. Por el contrario, el tenista pierde el punto si falla el servicio, o si entra el servicio y pierde el
punto. En consecuencia, las remuneraciones valdrán:
Si saca fuerte: 0,5· 0,7· (+10) + {0,5· 0,3 + 0,5}· (-10) = -3
Si saca flojo: 0,8· 0,4· (+10) + {0,8· 0,6 + 0,}· (-10) = -3,6
Matrices de transición y remuneración
Ahora ya podemos formular el problema como un sistema markoviano de remuneración y decisión.
Las matrices de remuneración y decisión quedan como:
Estado 1 Estado 2 Estado 1 Estado 2
Estado 1 FU 0,5 0,5 +04 0 +2
FL 0,8 0,2 -2 0 -1,6
Estado 2 FU 1 0 - 3 - 3
FL 1 0 -3,6 - 3,6
Matriz P Matriz R Vector q
En la tabla adjunta se muestra la iteración para el espacio de los estados, que muestra que la política
óptima a largo plazo es la {FU, FU}, esto es, sacar siempre fuerte.
© Los autores, 2002; © Edicions UPC, 2002


Cadenas de Markov
95
0 1 2 3 4 5 6 7 8 9 10 11 12 13
f (1,FU) 0.0 00 2.000 4.500 3.250 3.875 3.563 3.719 3.641 3.680 3.660 3.670 3.665 3.667 3.666
f (1, FL) 0.000 -1.600 2.400 0.400 1.400 0.900 1.150 1.025 1.088 1.056 1.072 1.064 1.068 1.066
f (0, FU) 0.000 -3.000 2.000 -0.500 0.750 0.125 0.438 0.281 0.359 0.320 0.340 0.330 0.335 0.333
f (0, FL) 0.000 -3.600 -3.600 -3.600 -3.600 -3.600 -3.600 -3.600 -3.600 -3.600 -3.600 -3.600 -3.600 -3.600
f*(1) 0.0 00 2.000 4.500 3.250 3.875 3.563 3.719 3.641 3.680 3.660 3.670 3.665 3.667 3.666
f*(0) 0.0 00 -3.000 2.000 -0.500 0.750 0.125 0.438 0.281 0.359 0.320 0.340 0.330 0.335 0.333
f'(1) 0.0 00 5.000 2.500 3.750 3.125 3.438 3.281 3.359 3.320 3.340 3.330 3.335 3.333 3.334
f'(0) 0.0 00 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000
g 0.0 00 -3.000 2.000 -0.500 0.750 0.125 0.438 0.281 0.359 0.320 0.340 0.330 0.335 0.333
Podemos determinar de manera exacta el comportamiento del sistema a largo plazo planteando para la
política {FU, FU}:
g + w1 = 2 + 0,5· w1 + 0,5· w2
g + w2 = -3 + w1
Haciendo w1 = 0, obtenemos: g = 0,33 y w2 = 3,33.
En definitiva, adoptando la política{FU, FU} el tenista puede ganar su servicio a largo plazo, puesto
que la ganancia por servicio a largo plazo es positiva.
En la resolución manual, basta con iterar dos o tres etapas y resolver el sistema para la política
obtenida (como puede verse, la convergencia es bastante lenta en este caso).
3.8 Glosario de términos
Cadena de Markov:
Una cadena de Markov de orden k es un proceso estocástico cuyas probabilidades de transición están
determinadas por los valores de los estados alcanzados en las k transiciones anteriores. Dichas
probabilidades de transición se mantienen inalterables a lo largo del tiempo (de otro modo, son
independientes de la transición en que nos encontremos). Cualquier cadena de Markov puede reducirse
a una cadena de orden 1.
Cadena de Markov cíclica:
Cadena de Markov con una única clase final cíclica. Puede tener clases de paso (cadena semiergódica
cíclica) o no tenerlas (cadena ergódica cíclica).
Cadena de Markov ergódica:
Cadena de Markov en la que todas las filas de la matriz de probabilidades estacionarias de P* son
iguales, de manera que ninguno de los elementos de P* es igual a cero. Se trata de una cadena con una
sola clase final y sin clases de paso.
Cadena de Markov mixta:
Cadena de Markov no ergódica con clases finales cíclicas y acíclicas.
© Los autores, 2002; © Edicions UPC, 2002


Métodos cuantitativos de organización industrial II
96
Cadena de Markov no ergódica:
Cadena de Markov cuyas probabilidades estacionarias dependen del estado inicial, por lo que las filas
de P* pueden ser diferentes entre si. Se trata de una cadena con dos o más clases finales y al menos
una clase de paso.
Cadena de Markov regular:
Cadena de Markov semiergódica cuya única clase final es acíclica.
Cadena de Markov regular positiva:
Cadena de Markov ergódica cuya única clase final es acíclica.
Cadena de Markov semiergódica:
Cadena de Markov en la que todas las filas de la matriz de probabilidades estacionarias de P* son
iguales, de manera que alguno de los elementos de P* es igual a cero. Se trata de una cadena con una
sola clase final y al menos una clases de paso.
Cadena de Markov semirregular:
Cadena de Markov no ergódica con todas sus clases finales acíclicas.
Cadena de Markov policíclica:
Cadena de Markov no ergódica con todas sus clases finales cíclicas.
Camino:
Decimos que existe un camino entre los estados i y j si i es descendiente de j.
Ciclo:
Decimos que existe un ciclo en una cadena de Markov si existe un camino que comunique a un estado
i consigo mismo.
Clase final:
Conjunto de estados comunicados entre sí tal que si en algún momento el proceso llega a alguno de los
estados de la clase final, en las transiciones siguientes el estado evoluciona entre los estados de la clase
final.
Clase final acíclica (o aperiódica):
Clase final de una cadena de Markov de periodo superior a uno.
Clase final cíclica (o periódica):
Clase final de una cadena de Markov de periodo igual a uno.
Clase de paso:
Conjunto de estados comunicados entre sí tal que si en algún momento el proceso llega a alguno de los
estados de la case de paso, en las transiciones siguientes puede evolucionar a algún estado diferente.
Decisión:
Variable de un proceso estocástico que puede ser gobernada por el observador. Cada estado tiene
definido un número de decisiones d . Cada una de ellas da lugar a diferentes probabilidades de
i
transición y remuneraciones para ese estado.
© Los autores, 2002; © Edicions UPC, 2002


Cadenas de Markov
97
Estado:
Variable descriptiva de la situación en que se encuentra el proceso en un momento del tiempo. Puede
ser una variable cuantitativa o cualitativa. También puede ser continua o discreta, aunque en este
módulo sólo se trata el último caso.
Estado absorbente:
Estado cuya única transición posible es volver al mismo estado. Un estado absorbente constituye una
clase final de un único estado.
Estado descendiente:
Un estado i es descendiente de j si cuando iniciamos el proceso en i existe una probabilidad no nula de
que el proceso llegue a j.
Estados comunicados:
Decimos que dos estados i y j se comunican cuando i es descendiente de j y j es descendiente de i. La
comunicación entre estados es una relación de equivalencia, puesto que es reflexiva, simétrica y
transitiva.
Iteración en el espacio de las políticas:
Obtención de la remuneración esperada a largo plazo para una política determinada.
Iteración en el espacio de los estados:
Obtención de la remuneración esperada cuando faltan N etapas para finalizar el proceso, operando
transición a transición. Usando la normalización, podemos llegar la obtener la remuneración esperada
por transición a largo plazo después de operar para un número de transiciones lo bastante elevado.
Longitud de un ciclo:
Número mínimo de transiciones necesarias para volver al estado i en un ciclo, si se inició el proceso
en ese estado.
Matriz de probabilidades de transición de un paso (P):
Matriz cuadrada de orden n, donde n es igual al número de estados del proceso. Sus componentes son
las probabilidades de transición de un paso p .
ij
Matriz de probabilidades estacionarias (P*):
Matriz cuadrada de orden n, donde n es igual al número de estados del proceso. Sus componentes son
las probabilidades estacionarias
ij
.
Matriz de remuneraciones (R):
Matriz cuadrada de orden n, donde n es igual al número de estados del proceso. Sus componentes son
las remuneraciones r .
ij
Módulo z:
El módulo z de un número n es el resto de la división de n por z. Los valores posibles del módulo z van
de 0 a z – 1. Por ejemplo, el módulo 2 de 7 es 1, y el módulo 3 de 11 es 2.
Normalización:
Técnica utilizada en la iteración en el espacio de los estados, para obtener la remuneración esperada
por transición en el largo plazo. Véase la sección 5.1.2 para una definición en su contexto.
Periodo de una clase final:
Máximo común divisor de las longitudes de ciclo que pueden encontrarse en una clase final.
© Los autores, 2002; © Edicions UPC, 2002


Métodos cuantitativos de organización industrial II
98
Política:
Se obtiene una política para una transición escogiendo una variable de decisión para cada uno de los
estados. Una vez fijada una política, un proceso markoviano de decisión se convierte en una cadena de
Markov.
Probabilidad de transición de k pasos (p
ij
(k)
):
Probabilidad de que el proceso evolucione al estado j dentro de k transiciones, si en este momento se
encuentra en el estado i.
Probabilidad de transición de un paso (p ):
ij
Probabilidad de que el proceso evolucione al estado j en la siguiente transición, si en este momento se
encuentra en el estado i. En una cadena de Markov de orden uno, las probabilidades de transición de
un paso no varían con el tiempo y no dependen de la evolución seguida en etapas anteriores.
Probabilidades estacionarias (
ij
):
Probabilidad de que el proceso se encuentre en el estado j después de un número elevado de
transiciones (una vez alcanzado el régimen permanente), si el sistema comenzó su evolución en el
estado i.
Proceso estocástico:
Proceso que evoluciona de manera no determinista a lo largo del tiempo, tomando cada vez valores de
entre un conjunto de estados. Suele conocerse la ley de probabilidad que rige la transición de un estado
a otro.
Remuneración (r ):
ij
Valor numérico asociado a la transición de i a j con probabilidad de transición p diferente de cero.
ij
Puede ser un valor positivo, negativo o nulo. Su significado dependerá de la situación modelizada.
Transición:
Momento en que una cadena de Markov puede cambiar de estado. Es usual que una transición se
produzca a intervalos regulares de tiempo.
Valor propio y vector propio:
Para una matriz cuadrada A, podremos encontrar un conjunto de escalares complejos y otro de
vectores tal que A· v = ¸ · v. Diremos entonces que v es un vector propio y ¸ un valor propio de la
matriz A. Los valores propios pueden encontrarse resolviendo el sistema det(A – ¸ · I) = 0. Una vez
hallados los valores ¸ , pueden hallarse los v correspondientes resolviendo el sistema (compatible
indeterminado) A – ¸ · I = 0.
© Los autores, 2002; © Edicions UPC, 2002

52

Métodos cuantitativos de organización industrial II

conjunto de categorías mutuamente excluyentes, denominadas estados del sistema. Por ser el sistema estocástico, no se conocerá con certeza el estado del sistema en un determinado instante, sino tan solo la probabilidad asociada a cada uno de los estados. Este hecho puede expresarse en términos de probabilidad condicional: p{Et = j  Et-1 = i, Et-2 = et-2 E ,
t-3

= et-3 ... , E 0 e } = p{E = j  Et-1 = i, Et-2 = et-2 E t-3 = et-3 ..., E t-k = et-} , = 0 , , t k

donde i, j, ei pertenecen al conjunto de estados posibles del sistema. Para el caso particular de una cadena de Markov de orden 1, tenemos: p{Et = j  Et-1 = i, Et-2 = et-2 E ,
t-3

= et-3 ... , E = e } 0= p{E =t j , 0

 Et-1 = i} = pij

Donde p ijrecibe el nombre de probabilidad de transición del estado i al estado j. En una cadena de Markov de orden 1, el estado del sistema en el futuro j sólo depende del estado presente i. En este módulo sólo estudiaremos cadenas de Markov que tengan las propiedades siguientes:  Con un número n finito de estados (en oposición a cadenas de Markov de infinitos estados  posibles).  De orden 1 (si bien veremos cómo transformar las de orden superior en cadenas de orden 1).  Para este tipo de cadenas, tendremos que la ley de probabilidad condicional es de la forma: p{Et+s = j  Et+s-1 = i} = p{Et = j  Et-1 = i}

3.1.2 Matrices de probabilidades de transición En las cadenas finitas de orden 1 (es decir las que estudiamos aquí), la forma más cómoda de expresar la ley de probabilidad condicional de la misma es mediante la llamada matriz de probabilidades de transición P, o más sencillamente, matriz de la cadena. Dicha matriz es cuadrada con tantas filas y columnas como estados tiene el sistema, y los elementos de la matriz representan la probabilidad de que el estado próximo sea el correspondiente a la columna si el estado actual es el correspondiente a la fila. Como el sistema debe evolucionar a t a alguno de los n estados posibles, las probabilidades de transición cumplirán la propiedad siguiente:

p 
j 1

n

ij

1

Además, por definición de probabilidad, cada una de ellas ha de ser no negativa: pij  0 Cuando las pijcumplen las propiedades arriba indicadas, la matriz P es una matriz estocástica: la suma de valores de las filas de la matriz será siempre igual a 1 (la suma de valores de las columnas no tiene ninguna propiedad especial).

© Los autores, 2002; © Edicions UPC, 2002

Cadenas de Markov

53

Para más adelante, es interesante recordar dos propiedades de este tipo de matrices:  Si P, Q son matrices estocásticas, su producto P·Q también lo es.   Los valores propios de una matriz estocástica tienen siempre módulo inferior o igual a 1. 

3.1.3 Matrices de orden superior La condición antes expresada de que únicamente se tratarán en este módulo las matrices de orden 1 puede parecer una limitación a las posibilidades de modelización de procesos estocásticos, pero en realidad no lo es, ya que es posible estudiar las cadenas de orden superior (k > 1) mediante las de orden 1, transformándolas adecuadamente. Dada una cadena de orden k con n estados, se puede definir una cadena equivalente de orden 1 de la siguiente forma: Los estados de la cadena de orden 1 se definen como los diferentes conjuntos (ordenados) en los que puede estar la cadena superior en las k últimas transiciones. Así los estados de la cadena de orden 1 se definirán por: Xt = {E t, E t-1E , t-2 E } t-k , .... De esta forma, la nueva cadena tiene x = nkestados. Naturalmente, no todas las transiciones serán posibles en la nueva cadena: solamente aquellas en que los estados correspondientes para la cadena superior sean coherentes con la definición anterior. Dicho de otro modo: Si X t= {E ,t E ,t-1 , .... E } y t-k E t-2 X' , .... t-1 = {E' t-1E' , t-2 E' t-k-1} la probabilidad de transición P'{X | tX' }podrá ser distinta de cero si y sólo si E = E't-1 E t-2 = E't-2 etc. , , 1 t-1 y en este caso: P' { Xt | X' t-1 }= P {Et | Et-1 E ,t-2 E , ....
t-k t-

, Et-k-1}

Ejemplo 3.1.3.a: cadena de Markov de orden 2 Después de analizar en profundidad la evolución de la cotización de un valor bursátil de renta variable, un inversor ha llegado a la conclusión de que la probabilidad de que dicho valor suba su cotización (estado A), la mantenga (estado B) o baje (estado C) durante una semana de cotización depende de su comportamiento en las dos semanas anteriores. Las probabilidades se indican en la siguiente tabla: Et-1 A A 0,7 0,1 0,2 A B 0,3 0,5 0,2 A C 0,5 0,3 0,2 B A 0,4 0,1 0,5 B B 0,2 0,7 0,1 B C 0,1 0,3 0,6 C A 0,3 0,3 0,4 C B 0,3 0,1 0,6 C C 0,2 0,1 0,7
© Los autores, 2002; © Edicions UPC, 2002

Et

p(A) p(B) p(C)

54

Métodos cuantitativos de organización industrial II

Atendiendo a las definiciones que hemos indicado antes, nos encontramos ante una cadena de Markov de n = 3 estados y de orden k = 2. Pero, definiendo los estados como (E , E ) podemos convertir la t-1 t-2 cadena de orden 2 en cadena de orden 1. Contaremos con 3 =2 9 estados posibles. Como cada estado puede evolucionar sólo a otros 3 en el instante siguiente, tendremos 27 transiciones posibles. En definitiva, tendremos la matriz de transición que se muestra a continuación, en la que los orígenes son (Et-1 E )t-2 los destinos (E , E ). En cada celda, se ha indicado el valor de E , y la probabilidad , y t t-1 t correspondiente. AA AB AC BA BB BC CA CB CC B/0,1 B/0,5 B/0,3 A/0,4 A/0,2 A/0,1 A/0,3 A/0,3 A/0,2

AA A/0,7 AB A/0,3 AC A/0,5 BA BB BC CA CB CC

C/0,2 C/0,2 C/0,2 B/0,1 B/0,7 B/0,3 B/0,3 B/0,1 B/0,1 C/0,5 C/0,1 C/0,6 C/0,4 C/0,6 C/0,7

3.1.4 Probabilidades de transición de k pasos. Teorema de Chapman – Kolmogorov Puesto que las probabilidades de transición son estables en el tiempo, podemos interesarnos en conocer las propiedades de transición después de k pasos, definidas formalmente como: p{Et+k = j  Et = i} = p{E = j  E0= i} = p k
(k) ij

Esto es, la probabilidad de que el proceso se encuentre en el estado j si k etapas antes se encontraba en el estado i. Si conocemos las pij, podemos calcular las p ij(k) haciendo el siguiente razonamiento: si al cabo de m < k pasos, nos encontramos en el estado e, la probabilidad de alcanzar el estado j despues de k – e pasos será:
( )  (  piemkm pej  )

Como el estado intermedio e puede ser cualquiera, podemos determinar una expresión para la probabilidad de transición de k pasos:
( kmk ) ppp ij

 
e 1

n

( ) ie

 ( m ej  )

Haciendo m = 1, y m = k-1 obtenemos las ecuaciones de Chapman – Kolmogorov, que permiten obtener las expresiones de las propiedades de transición en el estado k a partir de las de k-1.
(k ) ppp ij

 
e 1

n

ie

 ( 1 ejk )

© Los autores, 2002; © Edicions UPC, 2002

independiente del número de transiciones transcurridas. como el estudio del comportamiento a largo plazo de las cadenas de Markov. El estudio de las probabilidades estacionarias puede entenderse. y la matriz de probabilidades de estado estable como P*. esto es.2 0. 2002. 3. Veremos que el comportamiento del sistema puede tender a estabilizarse. Dichas probabilidades se denotan como .6 0. i j Puesto que. Tales probabilidades se denominan probabilidades estacionarias. Esto puede generalizarse aún más observando 0 que la P 1 representa la probabilidad de una transición y que P = I es la probabilidad en cero transiciones: si no ha habido transición.4 Calculemos la potencia decimosexta de esa matriz para aproximar la matriz de probabilidades estacionarias: 0.429 0. las potencias de P definen las probabilidades en un número cualquiera de transiciones. por lo tanto. que las sucesivas potencias de la matriz P indican las probabilidades de transición en tantas transiciones como se indica en el índice de la potencia. tiene la matriz de probabilidades de transición: P1 0. como hemos visto. 3.1.1 Cadenas ergódicas La cadena de Markov C1. © Edicions UPC. podemos aproximarnos al estudio de las probabilidades estacionarias viendo qué ocurre si calculamos potencias elevadas de algunas matrices P. 2002 . razón por la que la matriz de probabilidades estacionarias tiene todas las filas © Los autores. P(2) = P·P = P2 2 2 ·P P(3) = P(2) = P·P = P ·P = P 3 de transición de k pasos a P(k) = P(k-1)·P= P·Pk-1 = Pk-1·P = Pk Es decir. el estado es el mismo y por lo tanto la matriz que representa la no-transición es la matriz identidad. de dos estados.571 P116 Se observa que las probabilidades de estado estable de los diferentes estados son independientes del estado de origen.8 0.Cadenas de Markov 55 (k ) ppp ij   e 1 n  ( k ) 1 ie ej (k) Lo que indican las ecuaciones es que pueden obtenerse las matrices P partir de las potencias de la matriz P.571 0.5. en el sentido de que el sistema pasará por cada uno de los estados con una frecuencia regular.429 0.5 Probabilidades estacionarias y tipos de cadenas de Markov Nos interesamos ahora por conocer la probabilidad de hallar el sistema en un estado determinado cuando lleva funcionando un tiempo indefinidamente largo.1.

diferentes de los de las otras filas. 3. mientras algunas filas tienen el mismo comportamiento que las de los casos anteriores. Por lo tanto. tiene la siguiente matriz de transición: 0.5.571 0. podemos ver que. Sin embargo.426 0.005 0.4 P2 Si se observa la matriz de la transición decimosexta. 0. al contario de lo que sucede con el caso regular. © Los autores. ninguna de las probabilidades vale cero.563 0.56 Métodos cuantitativos de organización industrial II iguales.4 0 0 0 0. de matriz de probabilidades de transición.1. Además.3 0.4 P3 0 0 0 1 0 0 0.8 0. en las que no existen probabilidades de estado estable iguales a cero. no se trata de una cadena ergódica. 0. Las cadenas de Markov regulares (y también otras que veremos más adelante) con algunas de las columnas de la matriz de probabilidades estacionarias igual a cero se llaman semiergódicas. por lo que sigue siendo regular. sigue siendo cierto que todas las filas tienden hacia un mismo valor. de cuatro estados. vemos que otras tienden a ciertos valores.571 16 P2 3. especialmente las dos primeras).4 Si observamos la matriz de la transición 16. Las cadenas ergódicas pueden considerarse como un caso particular de las cadenas semiergódicas. las probabilidades de estado estable sí dependen de cuál ha sido el estado inicial de la cadena.1. © Edicions UPC.2 0.4 0.002 0.007 0.429 0. en la que las probabilidades estacionarias no dependen del estado inicial. se observa cómo todas las filas tienden a ser iguales (aunque no completamente. 2002 .3 Cadenas no ergódicas La cadena C3. Tenemos entonces una cadena de Markov ergódica.005 0 0 0 0 0.567 0.5.3 0.6 0.475 0.2 Cadenas semiergódicas Tenemos ahora una cadena C2 de cuatro estados.5 0.1 0 0.429 0.8 0 0 0. que no aparecerán en el comportamiento a largo plazo).1 0 0. con una diferencia respecto de las cadenas ergódicas: existen estados cuya probabilidad de estado estable tiende a ser cero (esto es. Se trata de una cadena semirregular.6 0 0 0. 2002. Ello quiere decir que. Tenemos entonces una cadena de Markov regular.2 0.5 0.

2 1 P42k  P42k 0.60 0 0.5.2 0 0 0. las transiciones impares tienden a un valor y las pares a otro: 0 0. sino que muestran un comportamiento cíclico. cuando estudiemos el cálculo sistemático de P*.086 1 0 0 0 0.8 0 0 0 0 0.32 0. También debemos preguntarnos qué ocurre con las probabilidades estacionarias en las cadena cíclicas. 3. aunque es claro que pueden existir cadenas cíclicas ergódicas.1. 8 0 1 0 Al ir obteniendo matrices de transición. 4 0 . por lo que el estado 1 no aparecerá en las probabilidades a largo plazo. daremos una respuesta a esta pregunta.800 0. 0. Más adelante.5 0. Obsérvese que la primera columna es siempre cero. después de un número elevado de transiciones presenta un comportamiento diferente del de las cadenas anteriores. 2 0 0 .8 0. En el apartado 3.4 se darán de forma completa y sistematizada todas las definiciones.1 0 0 1 0 0. © Los autores.4 Cadenas cíclicas La cadena C4. En este caso particular.Cadenas de Markov 57 0. se observa que éstas no convergen a un valor concreto. En este caso. como veremos en ejemplos posteriores. © Edicions UPC.8 0 0.429 0. 2002.571 0 0 0 3. cuya matriz de probabilidades de transición se muestra a continuación.429 0.4 P4 0 0 0 0.1. ya que si las sucesivas potencias de P no tienden hacia unos valores determinados.5.000 16 P3 0. quiere ello decir que la cadena considerada no es ergódica.08 0.2. 4 8 1 0 1 0 0.2 0 0 0 1 0 0. nos encontramos ante una cadena de periodo p=2.571 0.2 0 0 Este tipo de cadenas son cadenas cíclicas. 2002 .114 0 0.5 Clasificación de cadenas de Markov Los distintos casos examinados son sólo algunos (los más importantes) de las diferentes situaciones que se pueden dar en cuanto a la clasificación de las cadenas de Markov.

Una vez clasificada la cadena. diremos que existe un camino entre los estados i y j. a su vez. pueden establecerse dos tipos de relaciones entre ellos:  El estado i es descendiente de j si cuando iniciamos el proceso en i existe una probabilidad no nula  de que el proceso llegue a j. es útil recordar que.1.1 Propiedades de estado Dados dos estados de una cadena. si queremos analizar el comportamiento a largo plazo de un proceso estocástico que cumpla la propiedad markoviana. También podremos definir. entonces.2 Análisis topológico de las cadenas de Markov El análisis de topológico de las cadenas de Markov permite la clasificación de las cadenas a partir de la información suministrada por la matriz P utilizando propiedades relativas a la relación entre estados (propiedades de estado). Estas propiedades permiten. cuya representación gráfica se puede elaborar a partir de la matriz de probabilidades de transición. Para analizar estas relaciones entre estados. semirregular o cíclica por otra.  El análisis espectral. la existencia de un circuito implica que todos los estados que lo forman están comunicados. © Los autores.  Una metodología que permita el cálculo de la matriz de probabilidades estacionarias. Obsérvese que. con las definiciones dadas. examinando los valores propios de la matriz de probabilidades de transición  de un paso. el diagrama de transiciones de estados. Dicho circuito se caracterizará por el número mínimo de transiciones que necesitará el sistema para volver al estado i. En la figura 3. definir subconjuntos de estados denominados clases. Cada estado de la cadena se representa por un vértice del grafo y cada transición con probabilidad no nula se representa por una relación entre les vértices que representan los estados anterior y posterior de la misma. si se inició el proceso en ese estado. las propiedades de clase. examinando la matriz de probabilidades de transición. según la teoría de grafos. examinando las propiedades de los estados de la cadena y estableciendo  clases de equivalencia entre los estados.   Existirá un ciclo dentro de una cadena de Markov si existe un camino en la cadena que comunique  al estado i consigo mismo. con independencia de que además existan otros circuitos de longitud mayor.a se muestra el diagrama de transición de una cadena de Markov. Dicho número constituirá la longitud del ciclo. 3.2.  La clasificación de las cadenas de Markov puede realizarse mediante dos metodologías:  El análisis topológico. ya que se al menos puede acceder a él en cero transiciones (circuito de longitud cero). 2002 .58 Métodos cuantitativos de organización industrial II De lo expuesto hasta ahora. lo cual facilita su obtención. 2002. y como  regular.2. toda matriz cuadrada tiene asociado un grafo. En este caso. De esta manera en el diagrama se representan todas las situaciones en las que un estado i es descendiente respecto de j. Se conviene que todo estado está comunicado consigo mismo. 3. junto con su matriz de transición. necesitamos:  Una metodología para poder clasificar la cadena como ergódica o no ergódica por una parte. puede obtenerse información acerca de la forma que presente la matriz de probabilidades estacionarias. © Edicions UPC.  Los estados i y j se comunican si i es descendiente de j y j es descendiente de i.

1. 2002 . © Edicions UPC.0 3 0 1 . © Los autores.2. A su vez.  en las transiciones siguientes el proceso evoluciona siempre dentro de los estados de la clase.0 2 . entonces habrá una única clase final que los englobará a todos ellos.  Aquellas clases de equivalencia que no sean clases finales serán clases de paso. por convenio.0 1 P 0 0 0 . la relación entre estados estar comunicado es reflexiva.0 4 0 0 . {4 4} Fig. De esta manera. podemos decir que un conjunto de estados comunicados entre sí constituye una clase de equivalencia. {3 4 3}. Si en su evolución a lo largo de infinitas transiciones el sistema puede pasar por todos los estados.2. Este caso es el que hemos definido anteriormente como cadena ergódica.0 8 0 .2 Propiedades de clase Dado que. podemos clasificar en diversas clases los estados de una cadena de Markov. hemos establecido que un estado está siempre comunicado consigo mismo.2. Por este motivo. una clase final y una clase de paso. Las clases de paso  tienen un interés muy limitado en el estudio de las cadenas de Markov. toda cadena debe tener al menos una clase final. La figura 3. sobre una cadena de Markov. 3.Cadenas de Markov 59 PROPIEDADES DE ESTADO EN CADENAS DE MARKOV 1 2 .a muestra. podemos definir la propiedad de clase siguiente para las clases de equivalencia que se hayan establecido:  Una clase de equivalencia será una clase final si cuando el proceso llega a uno de los estados de la clase. simétrica y transitiva. por lo que se trata de una relación de equivalencia. Es claro que.a Propiedades de estado en cadenas de Markov 3. 2002.0 5 0 . puesto que el sistema debe ser capaz de evolucionar indefinidamente entre un número finito de estados.0 7 3 4 ALGUNAS PROPIEDADES DE ESTADO: 1 es descendiente de 4 (y no al revés) 3 y 4 se comunican Pueden observarse los ciclos {2 4 3 2}.2.

Obsérvese que la existencia de estos ciclos no impide la de otros mayores (por ejemplo 1-2-4-3-4-3-4-2-1. © Edicions UPC. En la segunda se pueden observar ciclos de longitud 2 y 4. 2002 . 2002. por lo que es aperiódica. La mera existencia de un ciclo de longitud uno (en este caso el 1-1) implica que la clase es aperiódica. CLASES FINALES PERIÓDICAS 2 1 2 1 3 3 4 p=1 1 2 p=2 3 4 p=1 Fig. similar a la anterior. por lo que su periodo es p = 2.2. La primera tiene ciclos de longitud 2 y 3.0 4 0 0 0 .2.2.3) = 1.0 7 .0 7 0 .  La figura 3.0 5 .2.60 Métodos cuantitativos de organización industrial II CLASES DE EQUIVALENCIA 1 2 .a muestra varias cadenas de Markov.a Ciclicidad en clases finales de las cadenas de Markov © Los autores.3. Sin embargo.0 3 0 0 0 . todos estos ciclos serán múltiplos de dos).0 5 0 3 4 5 CLASES DE EQUIVALENCIA: La clase de equivalencia {1 2} es una clase de paso.3 PERIODICIDAD DE UNA CLASE FINAL Para una clase final.   Clases acíclicas (o aperiódicas): aquellas que tengan un periodo de valor p = 1. 3.0 1 0 . 2 y 4. tiene sin embargo ciclos de longitud 1. Fig.0 3 P . que tiene longitud ocho.a Propiedades de clase en una cadena de Markov 3.0 2 1 0 . por lo que es también aperiódica.3.0 4 0 0 0 0 . La clase de equivalencia {3 4 5} es una clase final. La última.2. se puede obtener el periodo de una clase como el máximo común divisor de las longitudes de los ciclos que pueden encontrarse en esa clase. Tendremos entonces dos tipos de clases finales:  Clases cíclicas (o periódicas): aquellas que tengan un periodo de valor p > 1. 3. ya que MCD(2.

2002 . C3 y C4 a partir del análisis topológico. © Los autores. tendremos una cadena de Markov  semirregular. más que una única cadena.b se procede a clasificar las cadenas C1. y algunas son cíclicas y otras no. pero tiene clases de paso.a y 3.  La cadena tiene más de una clase final y una o varias clases de paso. y todas ellas son periódicas. si tenemos varias clases finales.2. 2002.a se muestran las diversas posibilidades derivadas de esta doble clasificación: Tabla 3. Las cadenas semirregulares.  Si tenemos varias clases finales. tenemos diversas situaciones:  Si tenemos una sola clase final aperiódica.4.  Si tenemos varias clases finales.4. La cadena es entonces no  ergódica. tenemos varias cadenas ergódicas sin relación entre ellas. podemos establecer dos clasificaciones distintas de las cadenas de Markov según su número de clases finales y la periodicidad o no de sus clases finales: Clasificación según el número de clases finales Podemos tener las siguientes situaciones en relación con las clases finales de una cadena de Markov:  La cadena tiene una única clase final y no tiene clases de paso. Otra situación que podemos encontrar es la de varias clases de finales. Una cadena  regular puede ser ergódica o semiergódica. Por esta razón.2. Entonces. se trata entonces de una cadena  policíclica.2.a. © Edicions UPC. todas ellas aperiódicas. hablaremos de una  cadena mixta.2.   La cadena tiene una única clase final. C2. no se ha incluido en la clasificación. Clasificación según la periodicidad de las clases finales Según el número y la periodicidad de las clases finales. En la tabla 3.4. policíclicas y mixtas son por tanto los tres casos posibles de cadenas no ergódicas. tendremos una cadena de Markov regular.  Finalmente. según tenga clases de paso o no.2. sin que existan clases de paso. Tenemos entonces una cadena  semiergódica.Cadenas de Markov 61 3. Se trata de una cadena ergódica. Clasificación cadenas de Markov Ergódica Regular positiva Cíclica (No posible) (No posible) (No posible) Semiergódica Regular Cíclica (No posible) (No posible) (No posible) No ergódica (No posible) (No posible) Semirregular Policíclica Mixta Regular Cíclica Semirregular Policíclica Mixta En las figuras 3. mostrando las clases finales y las clases de paso.4.4 Clasificación de las cadenas a partir del análisis topológico Con las propiedades que se han definido.

b Ejemplos de clasificación de las cadenas de Markov 3.62 Métodos cuantitativos de organización industrial II CLASIFICACIÓN DE LAS CADENAS DE MARKOV (1) CADENA C1 1 1 2 CADENA C2 2 Una sola clase final. todos los estados se pueden dar a largo plazo. es decir. 3. de p = 1: { 3 4 } Una clase de paso: {1 2 }  CADENA REGULAR SEMIERGÓDICA Fig. DE p = 2 Fig. 2002 . © Edicions UPC. de p = 2: { 2 3 4 } Una clase de paso: {1 }  CADENA CÍCLICA SEMIERGÓDICA. 2002. © Los autores.4.a Ejemplos de clasificación de las cadenas de Markov CLASIFICACIÓN DE LAS CADENAS DE MARKOV (2) 1 2 1 2 3 4 3 4 Dos clases finales.2.4. que en régimen permanente todos los estados tienen una probabilidad no nula de aparecer: se trata de cadenas cuyo comportamiento no varía de forma cualitativa a lo largo del tiempo. de p = 1  CADENA REGULAR ERGÓDICA (REGULAR POSITIVA) 3 4 Una clase final.2. En una cadena ergódica es lo mismo el largo plazo que el corto plazo. de p = 1: { 2 } { 3 4 } Una clase de paso: {1 }  CADENA SEMIRREGULAR Una clase final.2. En una cadena ergódica. 3. salvo que se conserva la memoria del estado inicial.5 Significado de la ergodicidad El concepto de cadena ergódica tiene relación con el comportamiento a largo plazo del sistema.

Ello significa que la probabilidad estacionaria de cada estado depende de la situación inicial. por tanto. etc. 3. las probabilidades serían distintas. © Edicions UPC. pero ello es sólo fruto de nuestra ignorancia del número de transiciones realizadas. son un caso intermedio entre un sistema estocástico puro en el que no se puede predecir nada de su evolución más allá de la mera descripción probabilística y el caso determinista en que la evolución es conocida y por lo tanto predecible y calculable: en este caso no se conoce cuál será el estado siguiente con exactitud.6 Significado de la periodicidad o ciclicidad Una clase final acíclica representa una situación en la que la cadena evoluciona entre los distintos estados de la misma de forma completamente aleatoria. el significado de este tipo de situaciones suele ser el de un sistema que ha llegado a una situación de degradación. Existen unos estados transitorios. que a largo plazo desaparecerán y por tanto sólo pueden aparecer mientras el sistema no haya alcanzado su régimen permanente. sino que será distinto según la clase final a la que vaya a parar el sistema. el comportamiento de la cadena no difiere del caso ergódico. el comportamiento a largo plazo no está definido cualitativamente.2. sea ésta única o no. después del cual volverá a un estado de la subclase 1. puesto que la única transición posible es ir otra vez al mismo. Finalmente. que puede llegar a determinar que ciertos estados no se pueden alcanzar jamás si se parte de un cierto conjunto de estados. en el sentido que no se puede hacer una descripción de su comportamiento más precisa que las meras probabilidades. En las clases finales cíclicas se puede establecer una partición de sus estados en p subclases. 2002. Una vez alcanzado éste. el comportamiento a largo y a corto plazo es cualitativamente distinto. Las cadenas regulares y semiregulares. 2002 . hasta llegar a la subclase p. si se hace abstracción de los estados que ya no pueden aparecer.Cadenas de Markov 63 En las cadenas semiergódicas. que ya no puede evolucionar más. descrita según las probabilidades indicadas por la ley condicional (o matriz P). etc. la probabilidad de hallarlo en uno u otro estado es efectivamente la probabilidad estacionaria. puesto que las potencias de P evolucionan cíclicamente. © Los autores. en las cadenas no ergódicas el comportamiento a largo plazo depende de la situación inicial. Al revés de lo que ocurre en los dos casos anteriores. Un caso particular interesante dentro de las clases finales acíclicas es el de los llamados estados absorbentes: se trata de estados que constituyen por sí mismos una sola clase final. pero sí que forma parte de un subconjunto bien determinado. pues. luego uno de la subclase 2. en el caso de C4 (p = 2) estas dos subclases son {2. Las clases finales cíclicas. Matemáticamente significa que la fila correspondiente de P estará toda a ceros excepto un 1 en la diagonal principal. Si conociéramos este número (o mas precisamente su módulo p). El significado de las probabilidades estacionarias representa en estas clases finales la probabilidad real de que en una transición cualquiera el sistema se halle en uno u otro estado. Podríamos decir que se trata de un sistema estocástico “puro”. representan sistemas que acaban yendo a parar a una situación de este tipo.4} y {3}. de manera que la evolución de la cadena dentro de ésta clase consistirá en que pasará sucesivamente por un estado de la subclase 1. Ello quiere decir que la interpretación de las probabilidades estacionarias es ligeramente distinta del caso acíclico. Si se observa el sistema en un momento cualquiera.

A modo de ejemplo. tendrá un único valor propio de valor 1. Una cadena de Markov cíclica (o policíclica) se caracterizará por tener. podemos tener situaciones como las siguientes: Ejemplo 3. y en caso contrario será ergódica o semiergódica. sobre las clases de paso y por ello tampoco informa sobre si se trata de una cadena ergódica o no. la cadena debe tener precisamente ocho estados. el análisis espectral parte de este hecho y de la siguiente propiedad: Cada clase final de periodo p genera p valores propios de valor igual a las raíces p –ésimas de 1. según el análisis espectral: Una cadena de Markov. El resto de valores propios serán de módulo inferior a 1. 2002.4 +1 -1 +1 -0.a: Una cadena de Markov con el conjunto de valores propios siguiente: { -0. se tratará de una cadena no ergódica. Una cadena de Markov semirregular.8 0. pero no sabemos cuáles pertenecen a cada una de las dos clases finales. Cada uno de esos conjuntos revelará la presencia en la cadena de una clase cíclica de periodo p. tanto ergódica como semiergódica. el número de clases finales será igual a la multiplicidad de 1 como valor propio. 2002 . Sí sabemos que por tratarse de una cadena mixta se trata de un caso no ergódico. De este modo. podemos conocer ciertas propiedades de su cadena de Markov asociada mediante el análisis espectral. Para detectar el número de clases finales y su periodicidad. © Los autores. © Edicions UPC. a partir del examen de los valores propios de la matriz de probabilidades de transición podemos llegar a las conclusiones siguientes. Únicamente se puede deducir que si el valor propio +1 es múltiple. y el resto de valores propios serán de módulo inferior a 1. sin embargo. El resto de valores propios serán de módulo inferior a 1. tendrá un valor propio 1 múltiple.64 Métodos cuantitativos de organización industrial II 3. En consecuencia. uno o varios conjuntos de raíces p –ésimas de 1. entre sus valores propios.3 Análisis espectral de las cadenas de Markov Si conocemos los valores propios de una matriz de probabilidades de transición. La multiplicidad del valor propio 1 será igual al número de clases finales de la cadena. Se parte de la siguiente propiedad general de las matrices estocásticas: Los valores propios complejos de una matriz estocástica tienen módulo inferior o igual a uno.3 0. El análisis espectral no dice nada.3. regular. ni si hay alguno en clases de paso o no. Dado que existen ocho valores propios.01 0} Es una cadena de Markov cíclica: cuenta con una clase final de periodo 1 y con una clase final de periodo 2.

mientras que en la clase de período 4 se repetirán cada 4 potencias. 3.3 0. su cálculo será más complejo. por lo que la probabilidad de que el sistema se halle en uno u otro estado no dependerá de dicho estado. como en la cadena anterior. como veremos). sin necesidad de obtener una potencia elevada de la matriz P (procedimiento desaconsejable. en las cadenas cíclicas. Dado que la matriz de probabilidades de estado estable identifica las probabilidades de transición después de un número de pasos suficientemente grande. 2002. 3. la relación de P* con su comportamiento a largo plazo requerirá alguna aclaración adicional.b Una cadena de Markov con el conjunto de valores propios siguiente: { -0. mientras que la segunda es de periodo 2. En consecuencia. al ser algunas de las filas de P* diferente del resto. a mostrar cómo se calcula P* para diferentes tipos de cadenas de Markov.Cadenas de Markov 65 Ejemplo 3. podemos escribir la siguiente identidad: P* lim P n  n  con lo que basta hallar este límite para conocer P* si la cadena no tiene clases finales cíclicas. la multiplicidad de 1 es doble: una de las clases es de periodo 4. por lo que la matriz adopta la forma:  1  1 P*  1   2  n   2   2  n  n © Los autores.3.1. En consecuencia.4 Cálculo de las probabilidades estacionarias La clasificación de la cadena de Markov permite identificar la forma de la matriz de probabilidades estacionarias P*. si la matriz P es de una cadena ergódica o semiergódica.2 -i +i -1 +1 -1 +1 } Ahora tenemos una cadena de Markov con dos clases finales. Para aclarar estas cuestiones se procederá. © Edicions UPC. mediante ejemplos. por otra parte. y así facilitar su cálculo exacto. Todas las filas de P* en una cadena regular son iguales. porque puede dar lugar a confusiones.4. al cabo de un cierto número de transiciones suficientemente elevado se habrá perdido la información del estado inicial. se trata de una cadena policíclica. por lo tanto. P* es una matriz con todas las filas iguales.4 0. Para todas las clases de cadenas que no tengan clases finales cíclicas. hecho que facilita notablemente su cálculo. Probabilidades estacionarias para cadenas regulares ergódicas Dado que se trata de una cadena regular y ergódica. Obsérvese que las filas correspondientes a la clase de período 2 se repetirán alternativamente en las potencia pares e impares de P. 2002 . Para las cadenas no ergódicas. puesto que. la matriz Pkse repetirá cada 4 potencias.

.8· + 0.. i Ejemplo 3.4.429  1  = 4/7 = 0. propia de toda matriz estocástica:   i i 1 n 1 Tenemos entonces n+1 ecuaciones para n incógnitas. obtenemos el siguiente conjunto de ecuaciones:   k 1 n kik  p i para i =1. 2.6· =  1 2 1    0..1.66 Métodos cuantitativos de organización industrial II Sabiendo que la matriz P* cumple la ecuación: P*·P = P*·P = P* Desarrollando esta ecuación matricial para una cualquiera de las filas de las matrices.6 0. © Edicions UPC. deberá eliminarse alguna de las procedentes del producto de matrices. Sin embargo. n Al que hemos de añadir la ecuación.4 P1 Tiene una matriz de probabilidades estacionarias de la forma: P*  1  1   2   2 Dichas probabilidades pueden obtenerse con las ecuaciones siguientes.8 0. puesto que podemos tener otras soluciones a partir de un conjunto de soluciones inicial. las ecuaciones procedentes del producto de matrices están indeterminadas. En consecuencia. y nunca la que hace la suma de las igual a 1. encontramos los valores:  = 3/7 = 0.2 0. 2002.571  2 © Los autores.4· =  1 2 2 + = 1   1 2 Eliminando una de las dos primeras ecuaciones. 2002 . Es la última ecuación la que hace a P* estocástica. de matriz de probabilidades de transición: 0.2· + 0. multiplicando todos los valores de ésta por un escalar.a Probabilidades de transición para una cadena regular ergódica La cadena C1.. derivadas de la ecuación matricial P*·P=P*:    0.

5 0.6 Y la matriz de probabilidades estacionarias será de la forma:   2 1 P*   2 1 3 3  4  4 Haciendo de nuevo P*·P = P* tenemos el conjunto de ecuaciones:    0.1 0 0 0.a Probabilidades de transición para una cadena regular no ergódica La matriz de probabilidades estacionarias de la cadena C2.4· + 0.4 P2 0.8· + 0.4 0. c dado que después de infinitas transiciones el sistema se encontrará en una clase final con toda seguridad. tienen probabilidades estacionarias iguales a cero: en el largo plazo.3· =  1 2 2      0. 2002.2 0 0 0. con lo que el cálculo resultará más sencillo. es: 0. no encontraremos el proceso en ninguno de estos dos estados. con el rasgo distintivo de que las lases de paso = 0.6· =  1 2 3 4 3    0.   Aunque los resultados  =  = 0 se obtienen del sistema anterior.3 0.429  3  = 4/7 = 0. cada uno de ellos clase de paso.2· + 0.4· =  3 4 4 + + + = 1     1 2 3 4 Eliminando una de las cuatro primeras ecuaciones.571  4 Los estados 1 y 2. es obvio que si sabemos ya que 1 2 estos estados son de paso.4. © Los autores.3 0.8 0. Ejemplo 3. podemos eliminarlos directamente dos ecuaciones y dos incógnitas del sistema.2.1· + 0.Cadenas de Markov 67 3. obtenemos los siguientes valores: = 0  1 = 0  2  = 3/7 = 0. 2002 .4· + 0.5· + 0.4.3· =  1 2 1    0.4 0 0 0. © Edicions UPC.2 Probabilidades estacionarias para cadenas regulares no ergódicas Las matrices de probabilidades estacionarias de este tipo de cadenas regulares tendrán la misma forma  que las matrices de las cadenas regulares ergódicas.

con los valores de las  columnas correspondientes a estados no pertenecientes a la clase final considerada iguales a cero. se resuelven tantos sistemas de ecuaciones   k 0 n kki  p i para i =1. 2002 .2 0 0 0 0 0 0.5 0 0 0 0 0 0 0. 2. y diferentes de cero los  de las transiciones con destino en las clases finales.1 0 0.5 0. Se trata entonces de proceder en dos pasos: Se hallan las matrices P* correspondientes a las cadenas regulares positivas definidas por cada una de las clases finales (según el procedimiento descrito en 3.68 Métodos cuantitativos de organización industrial II 3.6 0. {6. así como dos clases de paso: {1.4.3 Probabilidades estacionarias para cadenas semirregulares Aunque las cadenas semirregulares presentan mayor complejidad. Para hallar las filas de los estados de paso. Cada estado perteneciente a una j clase de paso tendrá una fila diferente en P*.1 0.3 0.2 0 0 0 0 0 0 0.2} y {5} Se trata por tanto de una cadena semirregular. 2002.4 0.3 0.4.4}.7 0. Ejemplo 3.1) y se componen con ellas las correspondientes filas de sus estados.7 0. © Edicions UPC. Por supuesto.4..1 0. cada clase final dará lugar a un "formato" distinto de fila.  Las filas de los estados de las clases de paso serán de la forma siguiente: los valores de las de  i las transiciones con destino en estados pertenecientes a clases de paso serán cero.4 0 0 0 0 0 0 0.3 0. © Los autores... n   i i 1 n 1 como clases finales y estados de las clases de paso tenga la cadena.7} y {8}.1 0 0 0 0 0.3 0 0 0 0 P = 0 0 0.   Las filas de los estados de una misma clase final serán todas iguales. la naturaleza de las distintas clases facilita también el cálculo de la matriz P*:  Las columnas de P* pertenecientes a estados de paso serán todas cero.4 0.1 0.3.6 0 00000001 El análisis topológico nos dice que hay tres clases finales acíclicas: {3.1 0.a Matriz P* para una cadena semirregular Sea la cadena de Markov definida por la siguiente matriz de probabilidades de transición: 0. .

Escribimos en primer lugar las siempre obligadas: a+b+c+d+e=1 i + j + k + l +m = 1 p+q+r+s=1 El resto de ecuaciones se deben establecer a partir de las expresiones ya conocidas: © Los autores. lo mismo que las 1-6 y 1-7. Nos quedan por lo tanto 14 incógnitas. © Edicions UPC. c = 0. podemos hallar buena parte de los valores de P*: 00ab0cde 00i j0k 0 0 2/3 1/3 0 0 0 0 P* = 0 0 2/3 1/3 0 0 0 0 00pq0rs t 0 0 0 0 0 4/9 5/9 0 0 0 0 0 0 4/9 5/9 0 00000001 lm donde se han representado con letras los valores aún no conocidos y se han recuadrado las submatrices correspondientes a las clases finales. del diagrama de transiciones se puede deducir fácilmente que desde el estado 5 no se puede ir a la clase {8} por lo que t = 0. por lo que debemos ahora establecer 14 ecuaciones para hallar estos valores. por ejemplo. Obsérvese que aunque la transición 2-8 tiene probabilidad cero.4. Sin embargo. a través del 2 y del 5. 3. ya que el estado 6 sí es descendente del 1. 2002 . no se puede deducir de ello que.3. 2002.a Cadena de Markov semirregular Analizando las matrices ergódicas regulares de las tres clases finales.Cadenas de Markov 69 8 1 2 5 6 7 3 4 Fig.

4} lo cual tiene una probabilidad que llamaremos P 1. o bien va directamente a una clase final. de entre las cuales = deberemos elegir las 11 que faltan. q = 4/21.3) / 0.67 = 1 – 0. Tampoco vale el hecho de que {1. Esta propiedad.7 y como p + q = P 5. pero de esta manera es mucho más sencillo hallarlas sin tener que buscar en la maraña de 128 igualdades posibles.34 es desconocida. © Los autores. de lo que se concluye que a y b son proporcionales a 2/3 y 1/3. nos permite establecer inmediatamente seis ecuaciones más: a / b = i / j = p / q = (2/3) / (1/3) = 2 c/d=k/l=r/s=4/5 En este caso existe además otra propiedad (que no se da siempre) que también nos facilita escribir algunas de las ecuaciones. en este momento tenemos ya 5 valores calculados y otras 6 ecuaciones para hallar los 15 valores desconocidos de la matriz escrita más arriba. en teoría. En el estado 5. la probabilidad que se halle en uno u otro estado es justamente la probabilidad estacionaria de la clase final. es evidente que P 5.34 = (0. Por supuesto.34 + P5. pero ello generalmente conduce a situaciones más complejas que no suele valer la pena acometer. aunque sí sabemos que vale precisamente a + b. también existen combinaciones lineales entre ellas que no podemos utilizar.3 = 0. ya que hay combinación lineal con las anteriores. 2002. Pero ello quiere decir que el sistema ha ido a parar a la clase {3. Una vez el sistema ha ido a parar a dicha clase. Así pues.7 y análogamente para P5. t = 0 Téngase en cuenta que esto no se puede escribir para los estados 1 y 2. s = 5/21. Consideremos en primer lugar los valores a y b: representan las probabilidades de hallar el sistema en los estados 3 y 4 sabiendo que ha empezado su evolución en el 1.34. que se cumple siempre para todas las clases finales. esto supone que podemos escribir: p + q = 4/7 r+s=3/7 Desgraciadamente. © Edicions UPC. de las propiedades de estas matrices se pueden deducir algunas relaciones que permiten establecer fácilmente algunas de las ecuaciones necesarias. basta con ella para hallar los valores que permiten completar la fila 5: p = 8/21. De ello se deduce que a = P 1. estas igualdades no proporcionan dos ecuaciones más. en nuestro caso. sino sólo una. r = 4/21. Pero no hay que preocuparse demasiado por el sistema de ecuaciones resultante: usualmente se puede reducir con cierta facilidad. escribir (2 n) 2 128 igualdades. 2002 . 2/3 y 1/3.70 Métodos cuantitativos de organización industrial II P P* = P* P = P* Esta doble igualdad matricial nos permite.67 = r + s. la cadena sólo puede hacer dos cosas: o bien se mantiene en él.1 + 0. Si seguimos la notación anteriormente establecida. Por supuesto la probabilidad P1. un análisis probabilístico parecido nos permitiría establecer expresiones semejantes para los estados 1 y 2. Muchas de estas igualdades serán simples identidades que no sirven para nuestro propósito. no obstante.34 * 1/3.34 * 2/3 y b = P 1.2} sea una misma clase de paso: los estados de la misma clase de paso no tienen por qué tener las mismas probabilidades estacionarias. ya que de ellos no se va directamente sólo a clases finales. La tarea. por tanto. sin embargo. Hay que decir que todas ellas se pueden hallar a partir de las expresiones matriciales indicadas. parece complicada.

67 =18/119.1·1 m = 0. P2.1 · (2/3) i = 0. © Edicions UPC.8 = 0 Tres observaciones finales:  Primera: en este caso la existencia de un estado de paso del cual sólo se puede salir para ir a  alguna clase final permite el cálculo directo de la fila correspondiente.  Segunda: la utilización en cada paso de los valores ya obtenidos permite la reducción de los  sistemas de ecuaciones resultantes y por tanto también facilita el cálculo incluso manual.7a + 0.1 · (2/3) + 0.1 m + 0.7 e + 0. j = 73/357 Repitamos la técnica con c y k: c = 0. 2002.34 = 73/119.67 = 6/119. P2. efectivamente. i: a = 0. 2002 .3 m con lo cual e = 7/17. k = 8/119.k = 0 7k. d = 10/357. por supuesto eso no tiene por qué ocurrir en general. P1. P1.8 = 4/17 P5. para e y m: e = 0.3i + 0.4a + 0. i = 146/357. que se resuelve fácilmente y permite además obtener inmediatamente los valores de b y j: a = 128/357.2 r   3c .3 k + 0. P5. b = 64/357.4 e + 0.7 c + 0.Cadenas de Markov 71 Para ello lo más productivo suele ser desarrollar las expresiones para el cálculo de los valores desconocidos mediante la expresión P* = P·P* en grupos de la misma columna: Empecemos por la pareja a.4c = 8/21 con lo que c = 8/357.67 = 3/7.8 = 7/17 P2.34 = 64/119.34 = 4/7.4 c + 0. y la matriz de probabilidades estacionarias resulta ser: 0 0 128/357 64 / 357 0 0 146/357 73 / 357 0 0 2/3 1/3 0 0 0 0 P* = 0 0 2/3 1/3 0 0 0 0 0 0 8/21 4/21 0 5/21 4/21 0 0 0 0 0 0 4/9 5/9 0 0 0 0 0 0 4/9 5/9 0 00000001 0 0 8 / 357 24 / 357 10 / 357 30 357 7 / 17 4 / 17   3e – m = 1 7m – 4e = 0 De esta matriz es inmediato deducir las probabilidades de que el sistema vaya a una u otra clase final según el estado inicial: P1.2p  3a – i = 2/3  7i – 4a = 1/7 Como p es conocido. P5. la suma de los valores de cada fila es 1. queda tan solo un sistema de dos ecuaciones y dos incógnitas. © Los autores.1 k k = 0. l = 10/119 Y finalmente. m= 4/17 Se puede comprobar que.1i + 0.

mediante análisis topológico. la ecuación matricial: P·P* = P* El resultado es la matriz: 0 0 0.5 0 0 0 0 P 0.72 Métodos cuantitativos de organización industrial II  Tercera: la técnica de escribir las ecuaciones para los elementos de la misma columna permite en  general trocear el sistema en otros más pequeños y con ello reducir notablemente la dificultad del cálculo. que se trata de una cadena semirregular. 3 0 0 0 0 0 0 0 0 0 0 0 0.5 0. En el caso que nos ocupa. 2002 . para las dos primeras filas de P.0171 0.0342 0.4} y {5.4 0.0769 0 0 0 0 0.5 0 0 0. © Edicions UPC.2949 0.6}.6667 0. 1 0 0 0 0 0 0 1 0.3162 0. la matriz de probabilidades estacionarias tiene el aspecto siguiente: 0 0 0 0 0 0 0 abc 0 efg 0  1 0  1 0 0 0 0 d h 0 0   4   4 P*  0 2  0 2 0  3 0  3 Los valores no nulos de los estados pertenecientes a clases finales pueden hallarse resolviendo la clase final concreta.3 0.b Matriz P* para una cadena de Markov semirregular Sea la cadena de Markov cuya matriz de transición de un paso es: 0. 2002.2 0. se trata de plantear.0385 0.6 1 0.6324 0 0 0.3.3333 0.6667 0 0 0 0 0 0 0 0 0.3333 0.1 0. tenemos:  =  = 1/3   1 3  =  = 2/3   2 4 Para las dos primeras filas.3333 0.6667 0 0 0. y dos clases finales {3.5897 0 0 0. Según lo expuesto anteriormente.2}.6667 P* © Los autores. Ejemplo 4. en la que existe una clase de paso {1.3333 0.5 El lector puede comprobar fácilmente.

el proceso indicado para las cadenas regulares y semirregulares sirve también aquí.32 0 0. por lo que tendremos un conjunto de matrices: .4. por su naturaleza. cuya matriz de probabilidades de transición de un paso se muestra a continuación. La diferencia es que ahora no se trata del límite de las potencias de P . P* 1  P *(1) P *(2)  P *( p )   .4.48 0 0..5 0.8 0 0 0.4 0. no existe este límite..4 Probabilidades estacionarias para cadenas con clases finales cíclicas En las cadenas regulares y semirregulares se cumple que: P* lim P  n  En las cadenas cíclicas.8 0 1 1 0  0 0 2 0 0.4.1 0 0 0 1 0 0 0.5 0. el hecho de que no exista un límite de las potencias de P no significa que no exista P* entendida como la matriz de probabilidades estacionarias.6 0 1 0 0. Pk = P k-1·P © Los autores. 8 0 0 1 0 P4 Para hallar la matriz de probabilidades estacionarias de P procedemos formalmente como si la clase 4 final no fuese cíclica. La diferencia es que el significado es ahora diferente: en lugar del límite de las potencias de P es el promedio de las matrices de evolución a largo plazo de cada uno de los periodos.5 0.1 0. sino del promedio de las dos 4 matrices de probabilidades a las que tiende el comportamiento del sistema: P* 0 0 0 0 0. 0. Afortunadamente. P*(2). P*(1).Cadenas de Markov 73 3.2  0 1 2 0 0 0. La cadena evoluciona hacia tantas matrices de transición a largo plazo como el periodo p de la cadena.1 0.. 2 0 0 .8 0 0 1 0. 2002.5 0. entonces tendría las filas iguales: se trata de una cadena regular semiergódica. cuenta con una clase cíclica de p=2. P = P ·P.a Matriz P* para una clase final cíclica Como se ha visto anteriormente. .2 0. . la cadena C4.1 0.1 0.4 1 1  *(2 k)  *(2 k 1) P P 2 2 0. por lo que no hace falta repetirlo.... +P 1) k+1 k k+2 k+1 P = P ·P.4 0..4 0..12 0.08 0..5 0. p   Ejemplo 3.4 0. 2002 .. P* (p) Sin embargo. © Edicions UPC.2 0 Para determinar las matrices Pnk basta tener en cuenta las igualdades: kP* = 1/p ( P k+ P k+1 + .4 0.

7 0. mientras que las otras dos tienen ciclos de longitud 3 y 2 respectivamente.1 0 0 0 0 0 0 0 0 0 0 0 0 0 3/4 0 0.9 1/20 0 0 1/20 0 0 0 0 0 0 0 0 0 0 0 0 0.b Matriz P* para una cadena mixta Sea la cadena de Markov definida por la siguiente matriz de probabilidades de transición: 0. Compruébese que en la potencia P 16 ya se obtiene P 2kpor lo que esta matriz se puede confundir con .3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0. Entonces no se verá la aparición de ciclos de longitud 2.1 0 1/20 0 0 00 00100000000 00 0 0 0 0 0 0 2/3 1/6 1/6 0 0 0 0 0 0 00 00000001000 00 P= 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 00 00000001000 00 00 00010000000 00 00 00000000010 00 0 0 0 0 0 0 0 0 0 0 0.1 0 0 0 0 0. Lo más fácil es elevar P al cuadrado.8 0.4.1 0. El lector debe hacer por su cuenta los cálculos para determinar los valores de P* y comprobará que obtiene los siguientes valores (se han suprimido las columnas de clases de paso): 23/42 19/315 38/945 19/1990 19/1990 19/315 19/255 38/357 19/420 19/1050 19/700 4/7 2/35 4/105 1/105 1/105 2/35 6/85 12/119 3/70 3/175 3/350 1/2 1/15 2/45 1/90 1/90 1/15 7/85 2/17 1/20 1/50 3/100 0 2/15 4/45 1/45 1/45 2/15 14/85 4/17 1/10 1/25 3/50 100 0 0 0000 0 0 0 1/3 2/9 1/18 1/18 1/3 0 0 0 0 0 1/3 2/9 1/18 1/18 1/3 0 0 0 0 P= 0 1/3 2/9 1/18 1/18 1/3 0 0 0 0 0 1/3 2/9 1/18 1/18 1/3 0 0 0 0 0 1/3 2/9 1/18 1/18 1/3 0 0 0 0 0 0 0 0 0 0 7/17 10/17 0 0 0 0 0 0 0 0 0 7/17 10/17 0 0 0 0 0 0 0 0 0 0 0 1/2 1/5 3/10 0 0 0 0 0 0 0 0 1/2 1/5 3/10 0 0 0 0 0 0 0 0 1/2 1/5 3/10 0 0 0 0 0 © Los autores.2 0. Obsérvese que el estado 5 es un estado absorbente. 2002.7 0. 2002 .4. luego hacer lo mismo con P y así sucesivamente. y la clase {11.74 Métodos cuantitativos de organización industrial II Hay que darse cuenta aquí de la posibilidad de error que existe si se clasifica la cadena simplemente calculando potencias de P. como en este caso.1 0 0 0 0 0 0 0 0 0 0 0 0 0.6 00 00000000001 00 00 00000000001 00 Se observa que se trata de una cadena mixta (se han recuadrado las submatrices ergódicas correspondientes a les cuatro clases finales). cosa evidentemente errónea.4 0.12} es aperiódica. P*. Ejemplo 3. © Edicions UPC. tentación en la que es fácil de caer disponiendo de un ordenador con una 2 hoja de cálculo.

Véase que si se inicia la evolución del sistema en el estado 4.5. Para los estados de paso se trata de una combinación según las leyes del cálculo de probabilidades de las diferentes situaciones finales que se pueden dar. Esto es un efecto de los ciclos de las clases finales. De hecho. cíclicamente de unas filas a otras sin que sin embargo se lleguen a observar todos los valores en todas las filas. es un modelo bastante habitual definirla de manera que su valor sirva para contar el número de veces que han sucedido determinadas transiciones. beneficios etc. mientras que en las dos clases cíclicas es un promedio de tres y dos potencias sucesivas respectivamente. con p >0) se le ha asociado un valor numérico arbitrario. Si se introduce la matriz P en una hoja de cálculo y se eleva al cuadrado unas cuantas veces (con seis veces será suficiente) se observará como la fila 5 no varía. r . ya que ello puede llevar fácilmente a engaño. 3. También se ve ahora como el significado de P* es distinto: en la clase {11-12} son efectivamente probabilidades una vez perdida la memoria del estado inicial. El problema al que nos enfrentamos ahora es el de encontrar la remuneración esperada de un proceso estocástico representable por una cadena de Markov. un significado de ganancias. Solamente si se multiplica por P para obtener la potencia siguiente se puede ver como en efecto los valores de las clases {6-10} y {13-15} se repiten cada tres y cada dos potencias. el significado de estas probabilidades es diferente según el estado (fila) de la que se trate. 2002 . pero también puede tenerlo de costes. que puede ser cualquier cosa según convenga al modelo: puede tener. estudiaremos cómo obtener la remuneración total esperada a corto plazo de un proceso estocástico que pueda ser representado por una cadena de Markov. tanto a largo plazo como a corto plazo. 3. las filas 11 y 12 tienden hacia los valores finales más o menos rápidamente. la probabilidad de caer en el estado absorbente 5 es nula. como corresponde a su naturaleza. mientras que en las filas 13-15 se repiten los mismos valores ya desde P 2 En cambio. pérdidas o cualquier otra cosa. © Edicions UPC. junto a la matriz P ya conocida.5 Cadenas de Markov con remuneración Decimos que a una cadena de Markov definida por una matriz P se le ha asociado una remuneración cuando a cada transición posible (esto es. en efecto. mediante la iteración en el espacio de © Los autores. tenemos ahora una matriz R de remuneraciones. Se trata de determinar dicha remuneración cuando el número de transiciones N es fijo. De ahí la advertencia hecha al principio de no intentar clasificar la cadena mediante la "fuerza bruta" del ordenador. que no se observan fácilmente si nos limitamos a calcular potencias muy elevadas de P simplemente elevando al cuadrado. por ejemplo. en las filas 6-10 se observa como los mismos valores se van "moviendo" .1 Remuneración esperada a corto plazo En esta sección. 2002. ij ij De esta forma. p11 P pnnn 1 p p1n R rnnn 1 r r11 r1n La palabra remuneración no debe hacer presuponer nada sobre la naturaleza de este valor.Cadenas de Markov 75 Sin embargo.

Si queremos obtener todos los v (N). 3. y si partimos del estado i. pero esta vez en forma vectorial: (N vqP )v  ( N  )  1 Esta expresión recursiva (se obtiene el valor del estado N a partir del valor para N–1) nos permite obtener las remuneraciones esperadas del sistema para valores cada vez más alejados del instante final conociendo unas condiciones de contorno que definen la remuneración esperada después del final del proceso v(0). obtener el valor verdadero de la remuneración esperada es muy sencillo: © Los autores. En cuanto a la q . Representa la remuneración esperada de la transición del estado N al estado N – 1 y es función del estado actual i. La aplicación de esta ecuación constituye la iteración en el espacio de los estados.1 Iteración en el espacio de los estados Si v i(N) representa la remuneración total esperada cuando quedan N transiciones para finalizar el proceso. sino que matricialmente se escribiría P·R ).2 Normalización La técnica de la normalización consiste en restar sistemáticamente al valor obtenido en cada transición una cantidad determinada y operar en lo sucesivo con la diferencia.1. nótese que se obtiene i como producto de la fila i de las matrices de probabilidad de transición P y de remuneraciones R (no T se trata. 2002 . es Obsérvese que una vez hechos los cálculos con normalización. es decir. 2002. las remuneraciones esperadas para el sistema cuando i queden N iteraciones para acabar partiendo desde cualquier estado i inicial. © Edicions UPC. j representa los n estados posibles que podrá tomar el sistema en la siguiente transición. procedimiento que ayuda a simplificar el proceso de cálculo.5.5. entonces del producto de matrices P·R. Por ello las ecuaciones de recurrencia quedan la forma siguiente:  (N 1 vqP )v  '( N  )  '( N (N )  N vvg ) donde gN un vector con todas las componentes iguales. podemos escribir: viij( ) N p j 1 n  ·rij v j ( N  )   qi  1  n j 1  p  v 1   ( N ) ij j  qpr iij   j 1 n  ij En las dos expresiones. 3.76 Métodos cuantitativos de organización industrial II los estados.1. en la que faltarán N –1 transiciones para acabar. También se introducirá la normalización. podemos utilizar la misma ecuación.

00 18.86 16.00 0.42 1.43 1.86 0 1 2 3 4 5 6 7 8 9 10 11 0 2. lo cual tiene ventajas indiscutibles para el cálculo.5. lo cual evita errores en los cálculos manuales.20 16.2 Remuneración esperada a largo plazo Mediante la iteración en el espacio de los estados se puede calcular la remuneración esperada en un número cualquiera de transiciones.8 0. N k( ) Ambas reglas conducen a largo plazo a los mismos resultados (salvo unas diferencias constantes).72 16. Queda por determinar como se fija la g .00 0.00 0. pues en régimen permanente el estado de mínimo valor será siempre el mismo. de manera que teóricamente basta repetir dicha iteración hasta llegar al número deseado.85 16. puesto que en el momento que en dos transiciones (consecutivas o no) se repitan los valores tanto de la g N como de v(N) podemos afirmar que se ha superado el régimen transitorio y se ha alcanzado el régimen permanente. © Edicions UPC.6 0.a Iteración en el espacio de los estados y normalización La tabla siguiente muestra las sucesivas iteraciones realizadas para determinar el comportamiento de la cadena C1. y la quinta y sexta v’. a partir de la séptima transición aparece ya el régimen permanente. sin embargo.43 1.00 0 16.39 1.00 0.29 18.86 16.24 18.86 16.00 16.86 v1 v2 v'1 v'2 gN Como se ve fácilmente en la tabla normalizada.85 16. La última fila es la correspondiente a g .84 16.1.43 1.  1 Esta técnica tiene dos ventajas: en primer lugar evita que los valores de v(N) crezcan de forma desmesurada. obtenida siempre como el valor más N pequeño de v. 2002 .20 16.86 16.29 18.91 16.Nvalor que tendrán todas las componentes de g : en principio N dicho valor es arbitrario.86 16.00 0. y lo importante es que se determine según una regla fija.29 18.00 0.52 1.72 16.43 0 0.40 18.20 1.30 18.00 17. La Regla 1 tiene la ventaja de que se asegura que los valores de v'(N) son siempre mayores o iguales a cero. 0 1 2 3 4 5 6 7 8 9 10 11 0.86 16. y en segundo lugar permite observar con más facilidad la llegada del régimen permanente.2. Las dos más habituales son: Regla 1: Regla 2: gvN min  i ( ) N i  gvN .00 0. 3.29 18.00 17.29 0..00 18. las propiedades que se obtuvieron en la primera parte del © Los autores.2 0.00 0.5.87 16..91 16. mientras que la Regla 2 facilita la comparación de los vectores v' Ejemplo 3.44 1.28 18. donde k es un estado elegido previamente.87 16. con las matrices de probabilidades de transición P y de remuneraciones R siguientes: P 0.28 18. obtenido a través de sucesivas normalizaciones. 2002.00 1.00 0.84 16. Dicha observación no es en absoluto evidente si sólo disponemos de la tabla sin normalizar.00 0.Cadenas de Markov 77 R ( vvgN ) '(n  ) N g N   g1 .43 1.4 R 10 20  40  0 2 Las filas segunda y tercera muestran el vector v.

encontramos el siguiente resultado:  viiij N ) q p j ( N  ) ( 1  v j 1 n Ngi  qiij wi p (1)     N  jjj 1 nnn  g j w j   qi ( N  )  pij  jij 1 g 1 p  j w 1 La ganancia media por transición para el estado inicial i puede obtenerse a partir de las ganancias medias del estado siguiente: gpg   j  iij j 1 n Esto nos permite obtener la siguiente ecuación. Sin embargo. © Edicions UPC. para cada uno de los estados: wgq iii p  j 1 n ij  j w La ecuación puede expresarse también en forma vectorial. puesto que dichas variables no tienen sentido por ellas mismas. y w un factor de corrección i función del estado inicial i. para un número de transiciones lo bastante elevado:  vi *(N)  Ngi + w i  v*(N)  Ng + w En estas expresiones. 2002 .  sino que lo tienen sus diferencias. podemos escribir: ww v iji  * v j (N )  *(N ) © Los autores. hemos de tener en cuenta dos cosas:  La indeterminación afecta a las w i. es obvio que dicho valor promedio ha de venir afectado por un factor de corrección que dependa del estado i en el que se inicie el proceso. 2002. sin embargo. Podremos representar este hecho haciendo que. ya que es en ella donde se producirán la mayoría de las transiciones (supuesto el número de estas suficientemente grande). puesto que tenemos n ecuaciones para 2n incógnitas. Efectivamente. para el conjunto de estados i: w P w gq En principio.78 Métodos cuantitativos de organización industrial II módulo hacen pensar que el sistema tenderá a tener una remuneración promedio (remuneración esperada dividida por el número de transiciones) estable a largo plazo. Dicha remuneración dependerá fundamentalmente de la remuneración obtenida en la clase final a la que finalmente vaya a parar la evolución del sistema. g representa la ganancia media por transición. Si sustituimos las v (N) por estas expresiones en las ecuaciones de iteración en el espacio de los i estados. tenemos un sistema altamente indeterminado.

sí lo están sus i diferencias: v wi  j  lim vi' N )  'j ( N ) w (  N   Además. ya que equivale a la determinación del estado para el cual se hace cero el valor v'(N) al normalizar. © Los autores.1 Remuneración esperada a largo plazo en cadenas regulares Consideraremos por el momento el caso sin actualización (o con  = 1 si se prefiere) . 2002 . ello no significa más que un simple corrimiento del "nivel de referencia". puesto que puede obtenerse a partir de las ecuaciones obtenidas anteriormente con menos esfuerzo.Cadenas de Markov 79  La estructura del vector g depende del tipo de la cadena de Markov. Evidentemente. aunque los valores de w no están determinados debido al grado de libertad del sistema.2. por lo que todos los componentes del vector g son iguales: Cadena regular  g1= g = . Aceptemos ahora que se ha fijado un estado k de la cadena tal que w =0. y así obtener el resto de ecuaciones. g representa el valor promedio de la remuneración obtenida en las diferentes i transiciones de la cadena dentro de la clase final. y que k pertenece a la clase k final (si la cadena es ergódica tal cosa es obligada). = g =n g 2 Por lo tanto. Si la evolución del sistema parte de un estado i. es decir. como que:  vi *(N)  Ngi + w i esto puede entenderse de la siguiente forma: Como ya se ha dicho. Sin embargo. habrá un cierto número de transiciones (  h asta que pase por primera vez por el estado k durante las ) cuales se obtendrá una remuneración esperada v (i  . todas las filas de P* son iguales. 2002. para una cadena regular tendremos un sistema de n ecuaciones con n+1 incógnitas (la g y las w i). si tomamos el estado k fuera de la clase final o el valor fijado en uso del grado de libertad del sistema. El hecho de fijar a cero uno u otro de los valores no tiene una significación arbitraria. Lo más conveniente es hacer una w = i 0 para simplificar los cálculos.. 3. El caso con actualización se trata al final para todos los tipos de cadenas conjuntamente.5. con un grado de libertad que nos permite fijar arbitrariamente el valor de una de las wi . Si la cadena es regular. gi ) .. © Edicions UPC. w representa la diferencia entre esta ) i remuneración y la que correspondería según el valor medio: wi = v i(  . Puede deducirse la forma de g  a partir de la matriz de probabilidades estacionarias: g = P*·q = P·g No resulta ventajoso obtener g de esta manera. Pues bien. En efecto. a través de esta ecuación podemos conocer cuántas componentes diferentes tendrá el vector g.

4w +3 0. 8   1.5 0 0 0 0. en el que todos los valores de las componentes de g son iguales a un valor g: w1+ g = 2.5 0 0 0 0.5. Para el caso que nos ocupa.2 0.4 0 0.5w + 0. Ejemplo 3.2 0.1w 5 3 Tenemos cinco ecuaciones y seis incógnitas. En este caso.2 + 0. la matriz R se ha obtenido del siguiente modo:  Si el proceso permanece en el mismo estado i.5 + 0.7w + 0.5w 2 1 w3+ g = 1.8 0.7 0 0 0. Por lo tanto.80 Métodos cuantitativos de organización industrial II Todo lo expuesto en este apartado es válido para toda cadena regular.3 0.2w + 0.1w +4 0. podemos hacer w tendremos los siguientes valores: 5 2 = 0.5 1. 2002.  0 0.4 0.1. el valor de este vector es: 2.1  2  1.1 0.3 + 0.3 0.8w + 0. se remunera con una cantidad igual a i. a partir de la ecuación matricial: w P w gq obtenemos el conjunto de ecuaciones siguiente.: Se desea obtener la ganancia media que se obtendrá con la cadena ergódica de matriz P que a continuación se indica. si las remuneraciones asociadas a cada transición se indican en la matriz R. sea ergódica o semiergódica.3w + 4 0.1 + 0.8 + 0.4 0.2.1w 2 w2+ g = 0.3w 5 2 w5+ g = -1.1 2 1 3 1  2 3 4 2 3 1 2 4 1  15 P R 1 1  2  1   2 1  3  2    4 3 El vector q se obtiene multiplicando las filas de P y R (una vez más debemos insistir en el hecho de que no se trata del producto de ambas matrices). q Finalmente. © Edicions UPC.2w + 0. y entonces © Los autores. se remunera o penaliza con una cantidad igual a j – i.4w 5 2 w4+ g = -1.a.   Si el proceso pasa de un estado i a otro j.1 0.3 0 0.4w +3 0. 2002 .

5.a Remuneración esperada para una cadena cíclica de p =2 Consideremos ahora una cadena cíclica. podemos plantear las ecuaciones: w1+ g = 2 + (w + w )/2 2 4 w2+ g = –1 + (w + w )/2 1 3 © Los autores. 5 0 Planteemos el problema de obtener g y w con la matriz de remuneraciones:  1 4   2 2  3    R 6  0  8  Para estas P y R.3. la ganancia media es igual a g = 0. © Edicions UPC. es aproximadamente de 0.3 Remuneración esperada en cadenas cíclicas El cálculo para una cadena cíclica es formalmente idéntico al de una cadena regular. cualquier variación finita es irrelevante ante este valor: para un número lo suficientemente grande de transiciones. En cambio.1178 w4= -2. si bien el significado de los resultados es diferente.3801 g = 0.5 0 0. tras N transiciones. 2002. 2002 .7772 Los resultados indican que la ganancia obtenida en el largo plazo.Cadenas de Markov 81 w1= 0. prescindiendo del hecho de que la cadena sea cíclica. si empezamos en el estado 4 el valor esperado de dicha ganancia es 2.5913 w5= -2. 5 0 0 .2. Los valores obtenidos son promedios de los valores que se presentan de forma cíclica con el número de transiciones.5 0. y dado que tiene una única clase final.5 0.5 0 0.7772N (téngase en cuenta que como N es muy grande.5913 unidades menor que si empezamos en el estado 2.5.2. tenemos que q vale: 2   1 1 3 q De manera que. 5 0 0 0. de p = 2.5545 w2= 0 w3= 0. tal como: 0 P 0. 5 0 0 .7772). Ejemplo 3. 3.

.2. gCFm. © Edicions UPC.82 Métodos cuantitativos de organización industrial II w3+ g = 1 + (w + w )/2 2 4 w4+ g = 3 + (w + w )/2 1 3 De donde obtenemos: g = 5/4 w1= 0 w2= -11/4 w3= -1 w4= 5/4 Estos valores describen el comportamiento promedio del sistema en el largo plazo. una cadena no ergódica tendrá: CF1. . Todos los estados de una misma clase final tendrán el mismo valor de g. exactamente del mismo modo que P* describe las propiedades estacionarias para una cadena periódica. . gCF2. g = 5/4. CF m clases finales (sean cíclicas o acíclicas) ecp1.. que la ganancia total del sistema cuando faltan N etapas para terminar tiene el comportamiento siguiente: v1 v2 v3 v4 N = 2k (5/4)N + 1/2 (5/4)N + 2 (5/4)N – 1/2 (5/4)N + 2 N = 2k+1 (5/4)N + 3/4 (5/4)N – 9/4 (5/4)N – 1/4 (5/4)N + 7/4 De la tabla se deduce que.5.. por inducción.. gecpr valores distintos © Los autores. ecp restados pertenecientes a clases de paso Entonces el vector g tendrá m + r componentes diferentes.. . gecp1.. . a partir de la ecuación: (N vqP )v  ( N  )  1 El lector puede comprobar.. ecp 2. y las w obtenidas con las i ecuaciones muestran el comportamiento promedio: v1– v v2– v v3– v v4– v N = 2k 0 -5/2 -1 3/2 N = 2k +1 0 -3 -1 5/4 5/4 wi – w 1 0 -11/4 -1 1 1 1 1 3. 2002 ..4 Remuneración esperada en cadenas no ergódicas En general. y los estados de las clases de pasos tendrán un valor de g diferente cada uno: Cadena no ergódica  gCF1. Podemos conocer con más detalle el comportamiento del sistema si realizamos iteraciones en el espacio de las políticas. CF 2.. 2002. tal como habíamos hallado. gecp2. Las diferencias entre componentes de v se comportan de modo diferente en periodos pares que en periodos impares.. .

El sistema quedará determinado si se hacen m + r valores de w i=0.6w A w3+ g = -2.7w +20.2 0 0.1 0.3 0.3 0.3w A De estas ecuaciones obtenemos: gA 20/13 = w2= 0 w3= -75/13 Planteando las ecuaciones para la clase final B. plantear las ecuaciones g + w = q + Pw para la clase final A: w2+ g = 5 + 0. tenemos: 3 3 © Los autores.3}.a Remuneración esperada para una cadena semirregular Consideremos la matriz de transición P de una cadena semirregular y las componentes activas de la matriz de remuneraciones R siguientes: 0.5.5}.5 + 0.   Un componente gA  asociado a la clase final A = {2. por ejemplo. 2002.3 0 0 0 0.  En primer lugar. el vector de ganancias medias por transición g tendrá tres componentes diferentes:  Un componente g1asociado a la clase de paso 1.4 0 0.2  P R  4 7  9 8  3  8  13    2     6  4     6  4 En este caso. multiplicando las filas de P y R obtenemos el vector q: 3 5   2.7 0 0. 2002 .5   1 4 q Podemos. Ejemplo 3. © Edicions UPC.7 0 0 0 0 0.4 0 0.8 0.Cadenas de Markov 83 Tenemos entonces un sistema con n ecuaciones y n + m + r incógnitas.4w +20.6 0 0 0.2.  Un componente gBasociado a la clase final B = {4.4.

y eventualmente entre diferentes valores de la remuneración asociada.6 Cadenas de Markov con remuneración y decisión Se dice que un proceso markoviano tiene decisión si en cada transición se puede fijar una variable (llamada de decisión) mediante la cual se puede elegir entre diferentes juegos de probabilidades de transición..3g +A0. su isignificado es el mismo ya visto en las cadenas ergódicas y semiergódicas. Desarrollando para la primera fila. la única diferencia es que en este caso.3w +40. De esta forma. g ecuación: 5 5 1 y w 1 Para ello contamos con la . Por ello notamos sus elementos como p . tenemos: 0. El significado de los valores de g y w para los estados de paso se puede deducir de las expresiones utilizadas para hallarlos: en primer lugar g en la ecuación anterior resulta ser un promedio de los 1 valores g A gB de las diferentes clases finales. necesitamos otra 4 ecuación. que nos exonera de obtener P*. Así. tanto la matriz de probabilidades P como la de remuneraciones R. a largo plazo.3w + 0. Dicha ecuación puede encontrarse a partir de las ecuaciones matriciales que g satisface: P*·q = g P·g = g La opción más económica es la segunda.4g = g A B De donde obtenemos de manera directa que g obtenemos que w1= 625/3159.1w +1 0.8w +40. Ambos valores están determinados. por ello. © Edicions UPC. iju y r ij udonde u representa la variable de decisión. tienen tres índices o dimensiones: el estado anterior. los valores posibles que podrán tomar los subíndices serán: © Los autores. Volviendo a la ecuación g 1 + w 1 = . lo cual nos dice que las probabilidades de que el sistema acabe yendo a la clase A B final A o a la clase final B si inicia su evolución en el estado1 son 5/9 y 4/9 respectivamente.4w 1 3 4 Ahora no podemos encontrar g haciendo w = 10. porque hemos 1 agotado los grados de libertad del sistema al hacer w =0 y2 w =0. es un valor referido a los niveles fijados en cada clase final. contará como remuneración de la cadena es precisamente el valor de g que corresponda a la clase final donde vaya a parar.2g + 0. el posterior y la decisión.7w B w5+ g = 4 + 0. la g de los estados de paso es la esperanza matemática de dichos valores.2w B gB= 4/3 w4= 0 w5= 10/3 Ahora quedan por encontrar los valores de la clase de paso. 2002 . Por lo tanto.84 Métodos cuantitativos de organización industrial II w4+ g = -1 + 0. sino solamente que v i.1g1+ 0. w1+ g = 3 + 0. lo que .v = w -w . j j i 3. 1 1 = 508/351. al depender de dos grados de libertad. de modo que si en la ecuación anterior aislamos g1 resulta: g1= 5/9 g + 4/9 g .2w + 2 0. recuérdese que ello no significa que el valor real de la remuneración sea exactamente vi = Ng + w i. Por lo que respecta a las w . ello proviene del hecho que. 2002.

La política óptima no tiene sentido si no es con relación a un horizonte determinado. 2002. . no tiene sentido hablar de su clasificación ni de probabilidades estacionarias ni de remuneraciones esperadas. deben tener las características siguientes:  El sistema puede evolucionar dentro de un número finito de estados n.Cadenas de Markov 85 Subíndice i (estados de origen): Subíndice j (estados de destino): Subíndice u (decisiones): i = 1. hasta que no se haya fijado una política. El valor d es el número de i decisiones posibles. Téngase en cuenta que por la naturaleza aleatoria del sistema no se puede optimizar la remuneración obtenida realmente (que es una magnitud aleatoria). n es el número de estados de la cadena. 3. u . © Edicions UPC. que es aquella que permite obtener la mejor remuneración esperada. Para que esto sea posible. Una vez determinada una política. Por ello. La evolución del sistema.. sino tan sólo el valor esperado de la misma.. 2002 .1 u .El estado i en el que se encuentra en el momento presente (esto es. es decir.Del valor de la variable de decisión escogido para el estado i.. Podrá expresarse entonces de forma vectorial: pT= {u .2.i . lo cual puede significar máxima o mínima según la naturaleza de la remuneración: de esta manera se puede hablar de política óptima. el sistema se transforma en una cadena de Markov con remuneración como las que se han visto en el apartado anterior. di Como sucede a lo largo del texto. u } n donde las ui es el valor de la variable de decisión fijado por la política para el estado i. puede definirse como una secuencia de evolución (E) según un proceso markoviano y decisión (D) que condiciona la evolución a la etapa siguiente: este tipo se sistemas pueden caracterizarse como sistemas E / D. . 2.. de entre los d valores posibles i de dicha variable de decisión.. 2... ya que ni las probabilidades de transición ni las remuneraciones están determinadas.. con un horizonte ilimitado o con un horizonte finito pero desconocido.6. pues. n j = 1. Se llama política a una regla que fija para cada estado de la cadena el valor de la decisión a adoptar.. . n u =1. Los datos de partida para resolver el sistema son: © Los autores... 2. el sistema cumple la propiedad markoviana).. Se habla así de política óptima a corto plazo (esto es con un horizonte finito y determinado) o política óptima a largo plazo.. .. que depende del estado de partida i. Es importante tener en cuenta que mientras no se ha fijado una política de hecho el sistema no responde propiamente al modelo de las cadenas tal como se ha visto. Si existe capacidad de decisión es porque se pretende que la remuneración obtenida sea lo mejor posible.1 Procesos markovianos de decisión Algunos procesos polietápicos de decisión pueden modelizarse como cadenas de Markov con remuneración y decisión.   La evolución del estado en el futuro depende exclusivamente de:  ..

En el siguiente módulo. la política óptima a largo plazo (problema de horizonte finito). Seguidamente se describirán cada una de estas técnicas usando diversos ejemplos prototipo. calcularemos la remuneración esperada si partimos del estado i y tomamos la decisión u: vN(q ) iu piju * ( N  )  v j 1 j 1 n iu Una vez calculados todos estos valores. un caso particular de programación dinámica aleatoria. según convenga) para el estado i. tendremos un proceso markoviano con remuneración. 2002. en un contexto más general. se desarrollará con detalle la problemática de la programación dinámica. Definido el problema en estos términos. es importante destacar que sólo cuando hayamos establecido una política determinada. la política óptima a seguir si en ese momento nos encontramos en el estado i. para cada una de las políticas P (p). 1 se hará uso de la ecuación de recurrencia definida para las cadenas de Markov con remuneración. © Edicions UPC. quedará definida la política óptima para esa etapa: * vN OPT v ( ) iiu u  N    Con esta ecuación de recurrencia. El objetivo es ahora el de establecer la política óptima. se ha tomado la decisión u desde el estado i. La exploración del espacio de las políticas.2 Iteración en el espacio de los estados Como se ha expuesto anteriormente. Sus componentes  serán del tipo p ijuque no es más que la probabilidad de transición del estado i al estado j. de hecho. cuyos componentes son r . Existen para ello dos métodos: La iteración en el espacio de los estados consiste en encontrar la política que nos da la v(N) óptima. © Los autores.iju  definidos como la remuneración (ganancia o pérdida) obtenida al pasar del estado i al estado j. se trata de encontrar v*(N). esto es. 3. a partir de v*(N-1). Este método puede emplearse para obtener la política óptima para un número finito de etapas (problema de horizonte infinito). una vez se ha tomado la decisión u desde el estado i. Una vez hayamos obtenido las decisiones óptimas para todos los estados. 2002 . y si se observa que el sistema converge a una determinada política después de un número determinado de etapas.  La matriz de remuneraciones R (p). una vez . Por su propia naturaleza. teniendo en cuenta ahora que. una vez obtenida v*(N-1). para cada uno de los estados origen i. consistente en encontrar las g y las w para cada una de las posibles políticas del sistema.86 Métodos cuantitativos de organización industrial II  La matriz de probabilidades de transición. para la etapa N. podremos encontrar el valor óptimo (máximo o mínimo. En primer lugar. se trata de una metodología para resolver el problema de horizonte infinito. v*(N). obtendremos. Para ello. 1 La iteración en el espacio de los estados es.6. de manera que se encuentre la política que optimiza la ganancia esperada. hemos de valorar las políticas posibles.

Dicho servicio no cubre la zona B. para un número suficientemente elevado de estados.a Un taxista trabaja en una ciudad dividida en tres zonas: A.1 0. determinarán:  Las probabilidades de que el destino de su próximo servicio sea la zona A.1 6 4 2 4 3 0. © Edicions UPC.3 10 3 8 8 2 0.Cadenas de Markov 87 También podemos estudiar el comportamiento a largo plazo.5 0.1 0. Política 3: captar clientes por un servicio de radio taxi.2 8 2 4 3 3 0.5 0 0. puede seguir tres políticas: Política 1: circular por la calle en busca de clientes. etc) obtenida al partir de una zona i y llegar a una zona j. las comisiones a pagar al servicio de radio taxi. 2002. Política 2: permanecer estacionado en una parada de taxis en espera del cliente. B o C.1 0.2. se detallan en la tabla adjunta: ZONA política AB A 1 0.2 0.5 12 2 8 7 2 0.3 0.2 0.3 0.   La remuneración (que depende de las características de los clientes captados con una  política u otra. al que el taxista está abonado.2. Situado en una zona determinada. el combustible gastado circulando en busca de cliente. tal como se describe en la sección 5. así como la ganancia esperada q las pij(p) y las rij(p)).5 14 0 18 16 2 0. La zona en que se encuentre el taxi en este momento y la política seguida. o bien el sistema escoge diversas políticas. Se observa que el sistema converge.7 0. podemos recurrir a la exploración del espacio de las políticas.2 4 0 6 4 CAB (p) i (obtenidas a partir de Cq (p) i Se pide determinar la política óptima para el taxista a largo plazo. © Los autores. B y C. Dichas probabilidades.8 0.2. Ejemplo 3. 2002 . teniendo además:  g(p)N  g*  v’*(N)  w* Si no observamos una convergencia clara.6. y remuneraciones.7 0.8 0. si normalizamos los resultados en cada iteración.1 0. Podremos obtener conclusiones acerca del comportamiento del sistema a largo plazo con este sistema si se cumplen las siguientes condiciones: Se observa que. esto es: gN  gN-1* *   v’*(N)  v’*(N-1) Entonces podremos decir que hemos encontrado la política óptima p*. la política óptima es siempre la misma.6 3 7 4 4 B 1 0.1 0.1 6 16 6 14 C 1 0.

8 01000000 0 9 11 12 12 12 12 12 00122222 0 7 10. La operativa de la exploración se detalla en la página siguiente.2 5.8 23.6 0 8 10.8 13.88 Métodos cuantitativos de organización industrial II Resolución: Claramente nos encontramos dentro del marco de los modelos de Markov con remuneración y decisión.3 10.8 0 7 11.8 11.9 23.8 11.4 6.6 5.9 11.8 11.9 10.9 13.8 11. © Edicions UPC.8 11.9 11.  Lo que deseamos obtener es la política a seguir si nos encontramos en un estado determinado.8 11.8 13.5 17 17 17 17 0 14 21.8 23.8 11.8 Nótese que las políticas óptimas (marcadas en rojo en la tabla en cada caso) se han obtenido como: v1* = max { v 1(1).8 23.6 5.8 11.9 23. de llevar a cabo una exploración en el espacio de las políticas.6 11.6 5. v3(2).8 0 16 21. Así.5 11 11 11 11 0 3 9.8 11.6 11. 3} significa que el taxista debe circular por la calle en busca de clientes si se encuentra en la zona A.5 16.7 6.3 10. N v1(1) v1(2) v1(3) v2(1) v2(2) v3(1) v3(2) v3(3) v1* v2* v3* v1*' v2*' v3*' g política A B C 1122222 1222222 2222222 01234567 0 8 10.8 23.4 0 16 16.4 10. entonces.3 12. v1(3) } v2* = max { v 2(1). estacionarse en la parada si se encuentra en la zona B y atender al radio taxi si se encuentra en la zona C. por lo que no resulta operativo explorarlas todas.3 22. la política p’ = {1.6 0 4 11. v 2*. v 3 } * vi *' = vi * – g © Los autores.4 6.8 11.8 13.8 23.3 22.3 5.  La política seguida por el taxista. v1(2).8 13.3 12.3 10.8 0 4 5. 2002.8 23.9 13. 2. 2002 . Se trata. dado que la evolución del sistema en la siguiente transición depende de:  La zona (que será el estado del sistema) en la que se encuentre el taxista en el momento actual:  el sistema es de tipo markoviano.8 13.8 0 4 5.9 11. v2(2) } v3* = max { v 3(1).6 5.8 13. v3(3) } La normalización se ha llevado a cabo según las expresiones: g = min { v1*.8 07 9. por ejemplo.6 11. Tenemos entonces 3  2  3 = 18 políticas posibles.4 6.

y que hubieran muchos aprobados: esto mostraría que los alumnos han estudiado y han aprendido muchas cosas de la asignatura. Ahora bien. y si ha habido muchos suspensos estudian mucho.3. Por ejemplo. para el ejemplo 3. dos veces cada trimestre.C. a pesar de que el examen ha sido fácil. podemos decir que el taxista deberá esperar siempre en la parada de taxis.Cadenas de Markov 89 Nótese como el sistema evoluciones de las políticas {1. Es frecuente utilizar esta exploración como confirmación de los resultados obtenidos mediante la iteración en los estados. El ejemplo siguiente.) debe decidir.6. Si después de una situación con pocos aprobados pone un examen difícil. Formalmente. que representa una situación con solamente dos estados.8. 1} a la {1. y frecuentemente resulta más laborioso que la iteración en el espacio de los estados. significa que no han estudiado lo suficiente. ¿Modificará esto la política del profesor? ¿Cuál será la valoración de los conocimientos de los alumnos que hará el profesor si aplica esta política? b) RESOLUCIÓN: © Los autores. Dicha iteración no es más que determinar g y w para cada una de las políticas. Por tanto. Las otras dos situaciones (examen difícil y pocos aprobados.P. 2}. 2002 .a Un profesor de Métodos Cuantitativos de la Universitat Politècnica de Catalunya (U. los alumnos estudian más o menos según si en el examen anterior ha habido pocos o muchos aprobados: si han aprobado muchos estudian poco. 1. pero tiene el serio inconveniente de que supone resolver un sistema de n ecuaciones con n incógnitas para cada una de las posibles políticas.a debemos resolver 18 sistemas de tres ecuaciones. si pone un examen difícil después de uno con muchos aprobados habrá pocos aprobados con toda seguridad. y muchos aprobados con un examen fácil) el profesor las considera de valor intermedio. 2. Por el contrario. permite mostrar las posibilidades de la exploración del espacio de las políticas. estima que la probabilidad de que haya muchos aprobados es del 90%. 2} y finalmente converge a la {2. para cada política p: ) w ( pp p q ( P w ( g  ) ) ( p) ( p) La iteración en el espacio de las políticas tiene la ventaja de considerar comportamientos anómalos (semirregulares o periódicos) de las diferentes cadenas de Markov asociadas a una política.6. 2. 3.3 Iteración del espacio de las políticas La iteración del espacio de las políticas nos da la política óptima para el sistema a largo plazo para cada uno de los posibles i estados de partida. Lo ideal sería poner un examen difícil. Por descontado. © Edicions UPC.2. sólo tres de cada cinco veces habrá muchos aprobados. mientras que si después de haber habido pocos aprobados pone un examen fácil. en las que el parámetro principal es directamente proporcional a la frecuencia con que hay muchos aprobados. 2002. consiste en resolver. Esto afecta a la probabilidad de aprobar: si después de un examen con muchos aprobados el profesor pone un examen fácil. obteniendo así una ganancia media de 11. si hay pocos aprobados. a) ¿Cuál es la política más adecuada para asegurar a largo plazo el máximo nivel medio de conocimientos de los alumnos? La Universidad ha fijado unas normas para valorar la calidad de la docencia de los profesores. Ejemplo 3. habrá muchos o pocos aprobados con igual probabilidad. si pone un examen fácil o difícil.6.

2002 . el conjunto de los alumnos) puede encontrarse en dos estados: con  muchos aprobados (M) o con pocos (P).625 0. el enunciado da cierta libertad para la determinación de los valores de R .90 Métodos cuantitativos de organización industrial II a) ¿Cuál es la política más adecuada para asegurar a largo plazo el máximo nivel medio de conocimientos de los alumnos? Este ejemplo está menos estructurado que el del caso anterior.6875 0.75 0. F} {D.75 0. y al resto de casos (situados en un término medio en el enunciado) un (p) valor intermedio de cero.65625 0 0 1 0. aunque resulta relativamente sencillo establecer los estados y las decisiones:  El sistema (es decir.4 0 -2 D 01200 PF 0.9 0.25 1. y se muestran en la siguiente tabla: la matriz de la izquierda muestra las probabilidades. el profesor toma la decisión de que el examen sea fácil (F) o  difícil (D).8 -0.5 2 0 1 Pq (p) i -0.6 -0.6875 0 1 1.375 1.625 0.5 0.5 0. D} Cada política tendrá sus propias matrices P y R. D} {D. Pueden darse formulaciones alternativas a la matriz R .3125 1. comportamiento si P} Siendo así posibles cuatro políticas: {F.125 -0.34375 0000000 0 1 0. dado que se trata de funciones de utilidad. podemos definir en este caso la política como: {comportamiento si M.5 -0. © Edicions UPC. El hecho de que el comportamiento de los alumnos se vea condicionado exclusivamente por el último examen hace que nos encontremos con una (o varias. En este caso se ha optado por asignar a la situación más deseada (muchos aprobados con examen difícil) una utilidad de +2.1 -0.34375 0 0 1 0. Dichas matrices pueden obtenerse de la lectura atenta del enunciado.2 -0.  Antes de la siguiente evolución.75 0.5 1.3125 1.5 0.5 0.1 0 -2 -0.2 D 0.8 (p) En este caso.375 1.525 0 0 1 0.6875 00. ESTADOS política M PM M F 0.6875 © Los autores.4 -0.625 0.5 0. F} {F.6 0. puesto que variarán en función de la política) cadenas de Markov de orden 1.625 0.75 0. Dado que el profesor debe establecer cuál es su comportamiento en función de que haya habido muchos o pocos aprobados.13125 0 1 1. y la de la derecha las remuneraciones.55 -0. a la menos deseada (pocos aprobados con examen fácil) una utilidad de –2. La siguiente tabla muestra los resultados de la iteración en el espacio de los estados: N (F) vM (D) vM (F) vP (D) vP vM * vP* vM *' vP*' g 0123456 00. que darán lugar a (p) diferentes valores de q .25 1.15 -0.5 1. 2002.1375 -0. También se han obtenido los valores de qi(p) para cada caso.

La de mayor g sería la política óptima. 2002. 2002 . © Los autores.1 2 0 1. Entonces se obtiene: g = wM = 2/3 = 0. dado que tanto g como v *' convergen con las iteraciones dadas en la tabla2. evaluando el comportamiento a largo plazo del sistema si establecemos la política {D.2 D 01200 P F 0.4 2 0 1.5 0. De la primera tabla podemos ver que: P 0 1 0. podemos plantear el sistema: g + wM = wP g + wP= 1 +0. D} desde un primer momento. en las que el parámetro principal es directamente proporcional a la frecuencia con que hay muchos aprobados. © Edicions UPC. Sin embargo.6667 Resultado que confirma lo obtenido con la iteración en el espacio de las políticas.8 D 0.5 2 0 1 2 M P q De hecho sí acaba convergiendo. haremos wM = 0. 3 Para poder asegurarlo completamente. D}. b) La Universidad ha fijado unas normas para valorar la calidad de la docencia de los profesores.666 después de 11 iteraciones. D}3.6 0.5w M + 0.5 R 2 0 2 0 q 0 1 Un examen de P muestra rápidamente que la cadena de Markov asociada a esta política es ergódica. pero bastante despacio: podemos afirmar que w M = g = 0. por lo que el vector g tiene todas sus componentes iguales. obtenemos: Parece que el sistema converge a la política {D. Realizada esta precisión. podemos realizar una exploración en el espacio de las políticas.5 0.9 0. wP no M Por este motivo. ¿Modificará esto la política del profesor? ¿Cuál será la valoración de los conocimientos de los alumnos que hará el profesor si aplica esta política? Ahora la matriz de remuneraciones cambia (las preferencias del profesor son diferentes a las de la Universidad).5wP Para comparar con facilidad los resultados obtenidos con lo obtenido en la iteración en el espacio de los estados. Ahora podemos decir que la política óptima es {D. deberíamos calcular g y w para las cuatro políticas.Cadenas de Markov 91 Del examen de los resultados. y tenemos la siguiente situación: ESTADOS política M P MF 0. no podemos asegurar que el sistema converja.

debemos evaluar esta política {F.9 0.846266 000 0.8 1.21 1.8   0.2 1.44 1.474 1.3 1.368 1.4 0.3896 1. © Edicions UPC.3896 1. 2002 .846266 1.368 0 1.8 + 0.42 0.38312 1. D} es claramente mejor que la {F.6wM + 0.86 1.1  0  2  0  2   0.3896 1.2 1.7 Problemas resueltos 3.6 0.44 1. F}.461202 1. F}.8 1. Tenemos ahora que: P 0. tenemos: N vM(F) vM(D) vP(F) vP(D) vM * vP* vM *' vP*' g 0 0 0 0 0 0 0 0 0 0 123 1.1wP Si hacemos wM = 0. 2002.2289 1.2 1. obtenemos los siguientes resultados: g = -0.4578 0.38312 1.237 1.84578 1.84578 1. Si juzgamos la política escogida por la Universidad a partir de los criterios del profesor.7.2 R q Podemos plantear el sistema: g + wM = -0.1 Servicio en tenis Es bien conocido que en el deporte de tenis.385064 1. pierde el punto.46266 0.2 + 0.385064 0 00 1.92 Métodos cuantitativos de organización industrial II Iterando en el espacio de los estados.38312 1.44 1. Si falla las dos veces.9w M + 0.4615 De donde cabe deducir que esta política de la Universidad da como resultado una obtención de conocimientos por parte de los alumnos subóptima: la política {D.86 1.6 0.842 1 1. 3. vemos que la política escogida ahora es {F.615 wP= 0.23133 1.4wP g + wP= -0. el jugador que sirve tiene dos oportunidades para que la pelota entre en el cuadrado de servicio.8474 1.2 0 1.842 000 0.385064 Efectivamente.368 456 1.8474 1. F} a largo plazo con los datos del apartado a). © Los autores.

2002. El tenista puede sacar fuerte o flojo tanto en el primer servicio como en el segundo. si entra el servicio fuerte. la remuneración será: © Los autores.8. y si entra el servicio flojo su probabilidad de ganar el punto es de 0. a un punto. se trata de un sistema dinámico con dos estados.7.3). el problema de horizonte infinito). Las reglas del juego del tenis. se disputará el punto y el sistema evolucionará al estado 1 (volveremos al primer servicio). Por lo tanto. b) Mediante iteración en el espacio de los estados. © Edicions UPC. para todos los valores de estados del sistema y de variables de decisión. 2002 . c) Determine la ganancia esperada por servicio a largo plazo. definiendo los estados posibles del sistema. Si se trata de un primer  servicio. tiene una probabilidad de que la pelota entre en el cuadro de 0. del que nos interesa conocer el comportamiento a largo plazo (esto es. identifique una posible política de servicio óptima. la probabilidad de transición. Si saca flojo. el tenista puede optar por sacar fuerte o flojo. Ésta será.5. Se pregunta: a) Formule el problema como un proceso markoviano con remuneración y decisión.  Variable de decisión: el tenista puede.5. En este caso.Cadenas de Markov 93 En cada servicio. que podrá ser ganado o perdido. Solución problema del tenis La forma más adecuada de resolver el problema es definir sus parámetros del siguiente modo:  Etapas: cada servicio es una etapa en la evolución del sistema. Por lo tanto. Dado que el tenista tiene una probabilidad de ganar el punto de 0. junto con las probabilidades que expresan las capacidades del jugador. puede hacerlo sirviendo fuerte (FU) o sirviendo flojo (FL). nos encontramos ante un sistema de Markov con remuneración y decisión (caso particular de los modelos de programación dinámica aleatoria homogénea en el tiempo). Veamos qué probabilidades y qué remuneraciones obtenemos para cada una de las variables de decisión. nos permitirán determinar las matrices de probabilidades de transición y de remuneración. Si saca fuerte. y la ganancia por punto perdido de –10. en parte. si el tenista opta siempre por el servicio fuerte.  Estados: por lo que se acaba de exponer. en todos los casos. la probabilidad de entrar la pelota en el cuadro es de 0. Ahora bien. la variable de decisión y las matrices P y R para todas las posibilidades. Se desea conocer la estrategia a seguir para maximizar la ganancia esperada por servicio en el largo plazo. La ganancia por punto ganado es de +10. Primer servicio Si estamos en el primer servicio y lo entramos en el cuadro. El segundo servicio dará lugar. entonces. controlar con sus acciones la evolución del  sistema. la información que necesitamos saber para conocer la  evolución del sistema consiste en saber si estamos en el primer servicio (estado 1) o en el segundo servicio (estado 2).7 (y de perderlo de 0. puede ser que el servicio dé lugar a un punto (si entra en el cuadro) o a un segundo servicio (si no entra). su probabilidad de ganar el punto es de 0. Si saca fuerte. la probabilidad de entrar el servicio es de 0.4.

}·(-10) = -3. las probabilidades de ganar el punto en estas condiciones no son tan halagüeñas como en el caso anterior. saca flojo. Al no disputarse el punto.4·(+10) + {0.4·(+10) + 0. esto es. En consecuencia. 2002. el tenista pierde el punto si falla el servicio. FU}.2. y en consecuencia la probabilidad de transición al estado 2 es de 0. que muestra que la política óptima a largo plazo es la {FU. la probabilidad de entrar el servicio es de 0. en el estado 2 la probabilidad de transición al estado 1 es de 1.8·0.8 0. Ésta será.5 0.5}·(-10) = -3 0.8. © Los autores. Si saca flojo.2 -2 1 0 1 0 -3. Segundo servicio En el segundo servicio.5.5 0. © Edicions UPC. sacar siempre fuerte. y tenemos: 0.8·0.94 Métodos cuantitativos de organización industrial II 0.6 Matriz P Estado 1 +04 -3 Estado 2 0 0 -1. el punto está en juego. las remuneraciones valdrán: Si saca fuerte: Si saca flojo: 0. Por el contrario.5·0.6·(-10) = -2 Si no entra el primer servicio. la probabilidad de fallar el servicio es de 0.3 + 0.5·0. y si el tenista falla el servicio pierde el punto.6 + 0. Sin embargo.6 Vector q Matriz R En la tabla adjunta se muestra la iteración para el espacio de los estados. Las probabilidades de que esto suceda dependen de la variable de decisión: Si saca fuerte. en cambio. ¿Cómo puede ganar el punto el tenista en el segundo servicio? Entrando el servicio y ganando el punto. la probabilidad de transición al estado 1. 2002 . la remuneración es cero.6 Matrices de transición y remuneración Ahora ya podemos formular el problema como un sistema markoviano de remuneración y decisión. Pase lo que pase.7·(+10) + 0. Por lo tanto. Las matrices de remuneración y decisión quedan como: Estado 1 Estado 2 FU FL FU FL Estado 1 Estado 2 0. evolucionamos al estado 2. el próximo saque será un primer servicio.3·(-10) = +4 Si.6 +2 -3 -3.7·(+10) + {0. una vez más. no se disputa el punto y pasamos al segundo servicio: en términos del problema. o si entra el servicio y pierde el punto. la probabilidad de fallar el servicio es de 0.

400 0.600 -3. Puede tener clases de paso (cadena semiergódica cíclica) o no tenerlas (cadena ergódica cíclica).330 0.000 0.500 0. Se trata de una cadena con una sola clase final y sin clases de paso.500 3.750 0.000 0.667 3.600 2.875 3.500 3. FL) 0.000 0.500 0. Cadena de Markov ergódica: Cadena de Markov en la que todas las filas de la matriz de probabilidades estacionarias de P* son iguales.600 -3.340 0.000 2.333 f (0.333 Podemos determinar de manera exacta el comportamiento del sistema a largo plazo planteando para la política {FU.719 3.600 -3. Cadena de Markov cíclica: Cadena de Markov con una única clase final cíclica.000 0.666 f (1.281 0.600 -3. FL) 0. son independientes de la transición en que nos encontremos). basta con iterar dos o tres etapas y resolver el sistema para la política obtenida (como puede verse.281 0.000 -0.000 0.320 0. 2002 .000 2. 3.600 -3.000 -3. Cadena de Markov mixta: Cadena de Markov no ergódica con clases finales cíclicas y acíclicas.000 0.250 3. adoptando la política{FU.125 0. © Edicions UPC.150 1.000 0.500 0.072 1. En la resolución manual.000 -3.000 0.335 0.068 1.359 0.000 2.600 -3. puesto que la ganancia por servicio a largo plazo es positiva.719 3.670 3.400 0.125 0.33.025 1.000 2.000 -3.750 0. de manera que ninguno de los elementos de P* es igual a cero.500 3.000 0.000 5.5·w2 g + w2 = -3 + w1 Haciendo w1 = 0.750 0.563 3.064 1. Dichas probabilidades de transición se mantienen inalterables a lo largo del tiempo (de otro modo.000 2.563 3.667 3.000 -0.340 3.33 y w2 = 3.5·w1 + 0.320 3. FU) 0.680 3.665 3.066 f (0.600 f*(1) f*(0) f'(1) f'(0) g 0.660 3. Cualquier cadena de Markov puede reducirse a una cadena de orden 1.320 0.438 0.400 1.Cadenas de Markov 95 0 1 2 3 4 5 6 7 8 9 10 11 12 13 f (1.330 0.875 3.000 4.660 3. FU} el tenista puede ganar su servicio a largo plazo. © Los autores.000 -0. En definitiva.330 0.641 3.340 0.438 0.600 -3.056 1. la convergencia es bastante lenta en este caso).125 0.330 3.000 0.600 -3.750 3.333 3.000 0.665 3.335 0.334 0.000 -3.900 1.000 4.600 -3.438 0.320 0.641 3.600 -3.359 0.670 3.680 3.000 0.333 0. 2002.666 0.600 -3.335 0.088 1.FU) 0.281 0. obtenemos: g = 0.8 Glosario de términos Cadena de Markov: Una cadena de Markov de orden k es un proceso estocástico cuyas probabilidades de transición están determinadas por los valores de los estados alcanzados en las k transiciones anteriores.335 3.600 -3.000 -1.438 3.281 3.340 0.359 3.000 2.125 3.000 0. FU}: g + w1 = 2 + 0.250 3.359 0.000 0.

Se trata de una cadena con una sola clase final y al menos una clases de paso. Clase de paso: Conjunto de estados comunicados entre sí tal que si en algún momento el proceso llega a alguno de los estados de la case de paso. © Los autores. Cadena de Markov regular positiva: Cadena de Markov ergódica cuya única clase final es acíclica. de manera que alguno de los elementos de P* es igual a cero. Cadena de Markov semiergódica: Cadena de Markov en la que todas las filas de la matriz de probabilidades estacionarias de P* son iguales. Decisión: Variable de un proceso estocástico que puede ser gobernada por el observador. en las transiciones siguientes el estado evoluciona entre los estados de la clase final. Cadena de Markov policíclica: Cadena de Markov no ergódica con todas sus clases finales cíclicas. por lo que las filas de P* pueden ser diferentes entre si. © Edicions UPC. 2002 . en las transiciones siguientes puede evolucionar a algún estado diferente. Cada una de ellas da lugar a diferentes probabilidades de i transición y remuneraciones para ese estado. Clase final: Conjunto de estados comunicados entre sí tal que si en algún momento el proceso llega a alguno de los estados de la clase final. Clase final cíclica (o periódica): Clase final de una cadena de Markov de periodo igual a uno. Se trata de una cadena con dos o más clases finales y al menos una clase de paso. Cadena de Markov semirregular: Cadena de Markov no ergódica con todas sus clases finales acíclicas. Ciclo: Decimos que existe un ciclo en una cadena de Markov si existe un camino que comunique a un estado i consigo mismo. Clase final acíclica (o aperiódica): Clase final de una cadena de Markov de periodo superior a uno. Cadena de Markov regular: Cadena de Markov semiergódica cuya única clase final es acíclica.96 Métodos cuantitativos de organización industrial II Cadena de Markov no ergódica: Cadena de Markov cuyas probabilidades estacionarias dependen del estado inicial. Camino: Decimos que existe un camino entre los estados i y j si i es descendiente de j. Cada estado tiene definido un número de decisiones d . 2002.

i j Matriz de remuneraciones (R): Matriz cuadrada de orden n. Iteración en el espacio de los estados: Obtención de la remuneración esperada cuando faltan N etapas para finalizar el proceso. el módulo 2 de 7 es 1. La comunicación entre estados es una relación de equivalencia. operando transición a transición. Véase la sección 5. Estado absorbente: Estado cuya única transición posible es volver al mismo estado. Matriz de probabilidades estacionarias (P*): Matriz cuadrada de orden n. Sus componentes son las probabilidades de transición de un paso pij.1. si se inició el proceso en ese estado. Matriz de probabilidades de transición de un paso (P): Matriz cuadrada de orden n. 2002. y el módulo 3 de 11 es 2. Los valores posibles del módulo z van de 0 a z – 1. Usando la normalización. donde n es igual al número de estados del proceso. aunque en este módulo sólo se trata el último caso. donde n es igual al número de estados del proceso. Estado descendiente: Un estado i es descendiente de j si cuando iniciamos el proceso en i existe una probabilidad no nula de que el proceso llegue a j. Estados comunicados: Decimos que dos estados i y j se comunican cuando i es descendiente de j y j es descendiente de i. También puede ser continua o discreta. Normalización: Técnica utilizada en la iteración en el espacio de los estados.2 para una definición en su contexto. para obtener la remuneración esperada por transición en el largo plazo.Cadenas de Markov 97 Estado: Variable descriptiva de la situación en que se encuentra el proceso en un momento del tiempo. 2002 . Sus componentes son las remuneraciones rij. © Los autores. Un estado absorbente constituye una clase final de un único estado. Iteración en el espacio de las políticas: Obtención de la remuneración esperada a largo plazo para una política determinada. simétrica y transitiva. donde n es igual al número de estados del proceso. puesto que es reflexiva. Por ejemplo. Longitud de un ciclo: Número mínimo de transiciones necesarias para volver al estado i en un ciclo. Sus componentes son las probabilidades estacionarias . © Edicions UPC. podemos llegar la obtener la remuneración esperada por transición a largo plazo después de operar para un número de transiciones lo bastante elevado. Periodo de una clase final: Máximo común divisor de las longitudes de ciclo que pueden encontrarse en una clase final. Puede ser una variable cuantitativa o cualitativa. Módulo z: El módulo z de un número n es el resto de la división de n por z.

Es usual que una transición se produzca a intervalos regulares de tiempo. Su significado dependerá de la situación modelizada. negativo o nulo. Suele conocerse la ley de probabilidad que rige la transición de un estado a otro. En una cadena de Markov de orden uno. Los valores propios pueden encontrarse resolviendo el sistema det(A – hallados los valores . si en este momento se encuentra en el estado i. Probabilidad de transición de k pasos (pij(k)): Probabilidad de que el proceso evolucione al estado j dentro de k transiciones. podremos encontrar un conjunto de escalares complejos y otro de  un valor propio de la vectores tal que A·v = ·v. ij Puede ser un valor positivo. un proceso markoviano de decisión se convierte en una cadena de Markov. Una vez fijada una política. Valor propio y vector propio: Para una matriz cuadrada A. 2002 . Una vez matriz A. © Edicions UPC. Proceso estocástico: Proceso que evoluciona de manera no determinista a lo largo del tiempo. si en este momento se encuentra en el estado i. Remuneración (r ij): Valor numérico asociado a la transición de i a j con probabilidad de transición p diferente de cero. Diremos entonces que v es un vector propio y ·I) = 0. 2002. si el sistema comenzó su evolución en el estado i. © Los autores. tomando cada vez valores de entre un conjunto de estados. Transición: Momento en que una cadena de Markov puede cambiar de estado. las probabilidades de transición de un paso no varían con el tiempo y no dependen de la evolución seguida en etapas anteriores.98 Métodos cuantitativos de organización industrial II Política: Se obtiene una política para una transición escogiendo una variable de decisión para cada uno de los estados. Probabilidades estacionarias (): i j Probabilidad de que el proceso se encuentre en el estado j después de un número elevado de transiciones (una vez alcanzado el régimen permanente). Probabilidad de transición de un paso (pij): Probabilidad de que el proceso evolucione al estado j en la siguiente transición. pueden hallarse los v correspondientes resolviendo el sistema (compatible indeterminado) A – ·I = 0.

Sign up to vote on this title
UsefulNot useful