P. 1
Cadenas de Markov

Cadenas de Markov

|Views: 76|Likes:
Publicado porAngelo Ceron

More info:

Published by: Angelo Ceron on May 06, 2012
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PDF, TXT or read online from Scribd
See more
See less

11/24/2012

pdf

text

original

Cadenas de Markov

51
3 Cadenas de Markov
3.1 Cadenas de Markov: Introducción
3.1.1 Concepto de cadena de Markov
Las cadenas de Markov son una herramienta para analizar el comportamiento y el gobierno de
determinados tipos de procesos estocásticos, esto es, procesos que evolucionan de forma no
determinista a lo largo del tiempo en torno a un conjunto de estados.
Una cadena de Markov, por tanto, representa un sistema que varía su estado a lo largo del tiempo,
siendo cada cambio una transición del sistema. Dichos cambios no están predeterminados, aunque sí lo
está la probabilidad del próximo estado en función de los estados anteriores, probabilidad que es
constante a lo largo del tiempo (sistema homogéneo en el tiempo). Eventualmente, en una transición,
el nuevo estado puede ser el mismo que el anterior y es posible que exista la posibilidad de influir en
las probabilidades de transición actuando adecuadamente sobre el sistema (decisión).
En este módulo nos ocuparemos de las llamadas cadenas de Markov finitas, caracterizadas porque el
número de estados del sistema es finito.
Formalmente, para definir una cadena de Markov finita hace falta determinar por lo tanto los
siguientes elementos:
a) Un conjunto de estados del sistema.
b) La definición de transición.
c) Una ley de probabilidad condicional, que defina la probabilidad del nuevo estado en función de los
anteriores.
Los estados son una caracterización de la situación en que se halla el sistema en un instante dado,
dicha caracterización puede ser tanto cuantitativa como cualitativa. Desde un punto de vista práctico
probablemente, la mejor definición de qué debe entenderse por estado es la respuesta que se daría a la
pregunta "¿cómo están las cosas?".
Formalmente, el estado de un sistema en un instante t es una variable cuyos valores sólo pueden
pertenecer al conjunto de estados del sistema. El sistema modelizado por la cadena, por lo tanto, es
una variable que cambia de valor en el tiempo, cambio al que llamamos transición.
Dicho de otro modo, se trata de una colección indexada de variables E , donde t denota intervalos
t
temporales significativos para el fenómeno estudiado. Los posibles valores de E se toman de un
t
© Los autores, 2002; © Edicions UPC, 2002


Métodos cuantitativos de organización industrial II
52
conjunto de categorías mutuamente excluyentes, denominadas estados del sistema. Por ser el sistema
estocástico, no se conocerá con certeza el estado del sistema en un determinado instante, sino tan solo
la probabilidad asociada a cada uno de los estados. Este hecho puede expresarse en términos de
probabilidad condicional:
p{E = j
t
| E
t- 1
= i, E
t- 2
= e , E
t-2 t- 3
= e , ... , E = e } = p{E = j
t-3 0 0 t
| E
t- 1
= i, E
t-2
= e , E
t-2 t- 3
= e , ..., E
t-3 t-k
= e }
t- k
donde i, j, e pertenecen al conjunto de estados posibles del sistema.
i
Para el caso particular de una cadena de Markov de orden 1, tenemos:
p{E = j
t
| E
t-1
= i, E
t-2
= e , E
t-2 t-3
= e , ... , E = e } = p{E = j
t-3 0 0 t
| E
t-1
= i} = p
ij
Donde p recibe el nombre de probabilidad de transición del estado i al estado j. En una cadena de
ij
Markov de orden 1, el estado del sistema en el futuro j sólo depende del estado presente i.
En este módulo sólo estudiaremos cadenas de Markov que tengan las propiedades siguientes:
Con un número n finito de estados (en oposición a cadenas de Markov de infinitos estados
posibles).
De orden 1 (si bien veremos cómo transformar las de orden superior en cadenas de orden 1).
Para este tipo de cadenas, tendremos que la ley de probabilidad condicional es de la forma:
p{E
t+s
= j | E
t+s-1
= i} = p{E = j
t
| E
t-1
= i}
3.1.2 Matrices de probabilidades de transición
En las cadenas finitas de orden 1 (es decir las que estudiamos aquí), la forma más cómoda de expresar
la ley de probabilidad condicional de la misma es mediante la llamada matriz de probabilidades de
transición P, o más sencillamente, matriz de la cadena.
Dicha matriz es cuadrada con tantas filas y columnas como estados tiene el sistema, y los elementos de
la matriz representan la probabilidad de que el estado próximo sea el correspondiente a la columna si
el estado actual es el correspondiente a la fila.
Como el sistema debe evolucionar a t a alguno de los n estados posibles, las probabilidades de
transición cumplirán la propiedad siguiente:
Además, por definición de probabilidad, cada una de ellas ha de ser no negativa:
0
ij
p c
Cuando las p cumplen las propiedades arriba indicadas, la matriz P es una matriz estocástica: la suma
ij
de valores de las filas de la matriz será siempre igual a 1 (la suma de valores de las columnas no tiene
ninguna propiedad especial).
1
1
n
ij
j
p

© Los autores, 2002; © Edicions UPC, 2002


Cadenas de Markov
53
Para más adelante, es interesante recordar dos propiedades de este tipo de matrices:
Si P, Q son matrices estocásticas, su producto P· Q también lo es.
Los valores propios de una matriz estocástica tienen siempre módulo inferior o igual a 1.
3.1.3 Matrices de orden superior
La condición antes expresada de que únicamente se tratarán en este módulo las matrices de orden 1
puede parecer una limitación a las posibilidades de modelización de procesos estocásticos, pero en
realidad no lo es, ya que es posible estudiar las cadenas de orden superior (k > 1) mediante las de
orden 1, transformándolas adecuadamente.
Dada una cadena de orden k con n estados, se puede definir una cadena equivalente de orden 1 de la
siguiente forma:
Los estados de la cadena de orden 1 se definen como los diferentes conjuntos (ordenados) en los que
puede estar la cadena superior en las k últimas transiciones. Así los estados de la cadena de orden 1 se
definirán por:
X = {E , E , E , .... E }
t t t-1 t-2 t-k
De esta forma, la nueva cadena tiene x = n estados.
k
Naturalmente, no todas las transiciones serán posibles en la nueva cadena: solamente aquellas en que
los estados correspondientes para la cadena superior sean coherentes con la definición anterior. Dicho
de otro modo:
Si X = {E , E , E , .... E } y X'
t t t-1 t-2 t-k t- 1
= {E' , E' , .... E'
t-1 t-2 t-k -1
} la probabilidad de transición P'{X | X'
t t-
1
}podrá ser distinta de cero si y sólo si E
t-1
= E' , E
t-1 t- 2
= E' , etc.
t-2
y en este caso:
P' { X | X'
t t-1
}= P {E | E , E , .... E
t t-1 t-2 t-k
, E
t- k- 1
}
Ejemplo 3.1.3.a: cadena de Markov de orden 2
Después de analizar en profundidad la evolución de la cotización de un valor bursátil de renta variable,
un inversor ha llegado a la conclusión de que la probabilidad de que dicho valor suba su cotización
(estado A), la mantenga (estado B) o baje (estado C) durante una semana de cotización depende de su
comportamiento en las dos semanas anteriores. Las probabilidades se indican en la siguiente tabla:
E
t-1
E
t
p(A) p(B) p(C)
A A 0,7 0,1 0,2
A B 0,3 0,5 0,2
A C 0,5 0,3 0,2
B A 0,4 0,1 0,5
B B 0,2 0,7 0,1
B C 0,1 0,3 0,6
C A 0,3 0,3 0,4
C B 0,3 0,1 0,6
C C 0,2 0,1 0,7
© Los autores, 2002; © Edicions UPC, 2002


Métodos cuantitativos de organización industrial II
54
Atendiendo a las definiciones que hemos indicado antes, nos encontramos ante una cadena de Markov
de n = 3 estados y de orden k = 2. Pero, definiendo los estados como (E , E ) podemos convertir la
t-1 t-2
cadena de orden 2 en cadena de orden 1. Contaremos con 3 = 9 estados posibles. Como cada estado
2
puede evolucionar sólo a otros 3 en el instante siguiente, tendremos 27 transiciones posibles. En
definitiva, tendremos la matriz de transición que se muestra a continuación, en la que los orígenes son
(E , E ) y los destinos (E , E ). En cada celda, se ha indicado el valor de E , y la probabilidad
t-1 t-2 t t-1 t
correspondiente.
AA AB AC BA BB BC CA CB CC
AA A/0,7 B/0,1 C/0,2
AB A/0,3 B/0,5 C/0,2
AC A/0,5 B/0,3 C/0,2
BA A/0,4 B/0,1 C/0,5
BB A/0,2 B/0,7 C/0,1
BC A/0,1 B/0,3 C/0,6
CA A/0,3 B/0,3 C/0,4
CB A/0,3 B/0,1 C/0,6
CC A/0,2 B/0,1 C/0,7
3.1.4 Probabilidades de transición de k pasos. Teorema de Chapman – Kolmogorov
Puesto que las probabilidades de transición son estables en el tiempo, podemos interesarnos en
conocer las propiedades de transición después de k pasos, definidas formalmente como:
p{E
t+k
= j | E = i} = p{E = j
t k
| E = i} = p
0 ij
(k)
Esto es, la probabilidad de que el proceso se encuentre en el estado j si k etapas antes se encontraba en
el estado i.
Si conocemos las p , podemos calcular las p
ij ij
(k)
haciendo el siguiente razonamiento: si al cabo de m < k
pasos, nos encontramos en el estado e, la probabilidad de alcanzar el estado j despues de k – e pasos
será:
Como el estado intermedio e puede ser cualquiera, podemos determinar una expresión para la
probabilidad de transición de k pasos:
Haciendo m = 1, y m = k-1 obtenemos las ecuaciones de Chapman – Kolmogorov, que permiten
obtener las expresiones de las propiedades de transición en el estado k a partir de las de k-1.
( ) ( ) mkm
ie ej
p p

©
( ) ( ) ( )
1
n
kmk m
ij ie ej
e
ppp

©

( ) ( 1 )
1
n
k k
ij ie ej
e
ppp

©

© Los autores, 2002; © Edicions UPC, 2002


Cadenas de Markov
55
Lo que indican las ecuaciones es que pueden obtenerse las matrices P
(k)
de transición de k pasos a
partir de las potencias de la matriz P.
P
(2)
= P· P = P
2
P
(3)
= P · P = P· P = P · P = P
(2 ) 2 2 3
P
(k)
= P
(k-1)
· P= P· P
k- 1
= P
k- 1
· P = P
k
Es decir, que las sucesivas potencias de la matriz P indican las probabilidades de transición en tantas
transiciones como se indica en el índice de la potencia. Esto puede generalizarse aún más observando
que la P
1
representa la probabilidad de una transición y que P
0
= I es la probabilidad en cero
transiciones: si no ha habido transición, el estado es el mismo y por lo tanto la matriz que representa la
no- transición es la matriz identidad.
3.1.5 Probabilidades estacionarias y tipos de cadenas de Markov
Nos interesamos ahora por conocer la probabilidad de hallar el sistema en un estado determinado
cuando lleva funcionando un tiempo indefinidamente largo. Tales probabilidades se denominan
probabilidades estacionarias. El estudio de las probabilidades estacionarias puede entenderse, por lo
tanto, como el estudio del comportamiento a largo plazo de las cadenas de Markov.
Dichas probabilidades se denotan como
ij
, y la matriz de probabilidades de estado estable como P*.
Puesto que, como hemos visto, las potencias de P definen las probabilidades en un número cualquiera
de transiciones, podemos aproximarnos al estudio de las probabilidades estacionarias viendo qué
ocurre si calculamos potencias elevadas de algunas matrices P. Veremos que el comportamiento del
sistema puede tender a estabilizarse, en el sentido de que el sistema pasará por cada uno de los estados
con una frecuencia regular, esto es, independiente del número de transiciones transcurridas.
3.1.5.1 Cadenas ergódicas
La cadena de Markov C1, de dos estados, tiene la matriz de probabilidades de transición:
Calculemos la potencia decimosexta de esa matriz para aproximar la matriz de probabilidades
estacionarias:
Se observa que las probabilidades de estado estable de los diferentes estados son independientes del
estado de origen, razón por la que la matriz de probabilidades estacionarias tiene todas las filas
( ) ( 1 )
1
n
k k
ij ie ej
e
ppp

©

0,2 0,8
0,6 0 ,4
1
P
0 ,429 0 ,571
0 ,429 0 ,571
16
1
P
© Los autores, 2002; © Edicions UPC, 2002


Métodos cuantitativos de organización industrial II
56
iguales. Tenemos entonces una cadena de Markov regular, en la que las probabilidades estacionarias
no dependen del estado inicial. Además, ninguna de las probabilidades vale cero. Tenemos entonces
una cadena de Markov ergódica.
3.1.5.2 Cadenas semiergódicas
Tenemos ahora una cadena C2 de cuatro estados, de matriz de probabilidades de transición.
Si se observa la matriz de la transición decimosexta, se observa cómo todas las filas tienden a ser
iguales (aunque no completamente, especialmente las dos primeras), con una diferencia respecto de las
cadenas ergódicas: existen estados cuya probabilidad de estado estable tiende a ser cero (esto es, que
no aparecerán en el comportamiento a largo plazo). Por lo tanto, no se trata de una cadena ergódica.
Sin embargo, sigue siendo cierto que todas las filas tienden hacia un mismo valor, por lo que sigue
siendo regular. Las cadenas de Markov regulares (y también otras que veremos más adelante) con
algunas de las columnas de la matriz de probabilidades estacionarias igual a cero se llaman
semiergódicas. Las cadenas ergódicas pueden considerarse como un caso particular de las cadenas
semiergódicas, en las que no existen probabilidades de estado estable iguales a cero.
3.1.5.3 Cadenas no ergódicas
La cadena C3, de cuatro estados, tiene la siguiente matriz de transición:
0,5 0 ,4 0 ,1 0
0 1 0 0
0 0 0 ,2 0 ,8
0 0 0 ,6 0 ,4
3
P
Si observamos la matriz de la transición 16, podemos ver que, mientras algunas filas tienen el mismo
comportamiento que las de los casos anteriores, vemos que otras tienden a ciertos valores, diferentes
de los de las otras filas. Ello quiere decir que, al contario de lo que sucede con el caso regular, las
probabilidades de estado estable sí dependen de cuál ha sido el estado inicial de la cadena. Se trata de
una cadena semirregular.
0,5 0 ,4 0 ,1 0
0,3 0 ,3 0,4 0
0 0 0 ,2 0 ,8
0 0 0 ,6 0 ,4
2
P
0 ,005 0 ,007 0 ,475 0 ,563
0 ,002 0 ,005 0 ,426 0 ,567
0 0 0 ,429 0 ,571
0 0 0 ,429 0 ,571
16
2
P
© Los autores, 2002; © Edicions UPC, 2002


Cadenas de Markov
57
0 ,000 0 ,800 0 ,086 0 ,114
0 1 0 0
0 0 0 ,429 0 ,571
0 0 0 ,429 0 ,571
16
3
P
3.1.5.4 Cadenas cíclicas
La cadena C4, cuya matriz de probabilidades de transición se muestra a continuación, después de un
número elevado de transiciones presenta un comportamiento diferente del de las cadenas anteriores.
0,5 0 ,4 0 ,1 0
0 0 1 0
0 0 , 2 0 0 , 8
0 0 1 0
4
P
Al ir obteniendo matrices de transición, se observa que éstas no convergen a un valor concreto, sino
que muestran un comportamiento cíclico. En este caso, las transiciones impares tienden a un valor y
las pares a otro:
0 0 ,08 0 ,60 0 ,32
0 0 ,2 0 0 ,8
0 0 1 0
0 0 ,2 0 0 ,8
2k
4
P
0 0 ,2 0 , 4 0 , 4 8
0 0 1 0
0 0 ,2 0 0 ,8
0 0 1 0
+ 2k 1
4
P
Este tipo de cadenas son cadenas cíclicas. En este caso particular, nos encontramos ante una cadena de
periodo p=2.
Obsérvese que la primera columna es siempre cero, por lo que el estado 1 no aparecerá en las
probabilidades a largo plazo; quiere ello decir que la cadena considerada no es ergódica, aunque es
claro que pueden existir cadenas cíclicas ergódicas, como veremos en ejemplos posteriores.
También debemos preguntarnos qué ocurre con las probabilidades estacionarias en las cadena cíclicas,
ya que si las sucesivas potencias de P no tienden hacia unos valores determinados. Más adelante,
cuando estudiemos el cálculo sistemático de P*, daremos una respuesta a esta pregunta.
3.1.5.5 Clasificación de cadenas de Markov
Los distintos casos examinados son sólo algunos (los más importantes) de las diferentes situaciones
que se pueden dar en cuanto a la clasificación de las cadenas de Markov. En el apartado 3.2.4 se darán
de forma completa y sistematizada todas las definiciones.
© Los autores, 2002; © Edicions UPC, 2002


Métodos cuantitativos de organización industrial II
58
De lo expuesto hasta ahora, si queremos analizar el comportamiento a largo plazo de un proceso
estocástico que cumpla la propiedad markoviana, necesitamos:
Una metodología para poder clasificar la cadena como ergódica o no ergódica por una parte, y como
regular, semirregular o cíclica por otra, examinando la matriz de probabilidades de transición.
Una metodología que permita el cálculo de la matriz de probabilidades estacionarias.
La clasificación de las cadenas de Markov puede realizarse mediante dos metodologías:
El análisis topológico, examinando las propiedades de los estados de la cadena y estableciendo
clases de equivalencia entre los estados.
El análisis espectral, examinando los valores propios de la matriz de probabilidades de transición
de un paso.
Una vez clasificada la cadena, puede obtenerse información acerca de la forma que presente la matriz
de probabilidades estacionarias, lo cual facilita su obtención.
3.2 Análisis topológico de las cadenas de Markov
El análisis de topológico de las cadenas de Markov permite la clasificación de las cadenas a partir de
la información suministrada por la matriz P utilizando propiedades relativas a la relación entre estados
(propiedades de estado). Estas propiedades permiten, a su vez, definir subconjuntos de estados
denominados clases. También podremos definir, entonces, las propiedades de clase.
3.2.1 Propiedades de estado
Dados dos estados de una cadena, pueden establecerse dos tipos de relaciones entre ellos:
El estado i es descendiente de j si cuando iniciamos el proceso en i existe una probabilidad no nula
de que el proceso llegue a j. En este caso, diremos que existe un camino entre los estados i y j.
Los estados i y j se comunican si i es descendiente de j y j es descendiente de i.
Existirá un ciclo dentro de una cadena de Markov si existe un camino en la cadena que comunique
al estado i consigo mismo. Dicho circuito se caracterizará por el número mínimo de transiciones
que necesitará el sistema para volver al estado i, si se inició el proceso en ese estado. Dicho
número constituirá la longitud del ciclo.
Obsérvese que, con las definiciones dadas, la existencia de un circuito implica que todos los estados
que lo forman están comunicados. Se conviene que todo estado está comunicado consigo mismo, ya
que se al menos puede acceder a él en cero transiciones (circuito de longitud cero), con independencia
de que además existan otros circuitos de longitud mayor.
Para analizar estas relaciones entre estados, es útil recordar que, según la teoría de grafos, toda matriz
cuadrada tiene asociado un grafo, cuya representación gráfica se puede elaborar a partir de la matriz de
probabilidades de transición, el diagrama de transiciones de estados.
Cada estado de la cadena se representa por un vértice del grafo y cada transición con probabilidad no
nula se representa por una relación entre les vértices que representan los estados anterior y posterior de
la misma. De esta manera en el diagrama se representan todas las situaciones en las que un estado i es
descendiente respecto de j. En la figura 3.2.1.a se muestra el diagrama de transición de una cadena de
Markov, junto con su matriz de transición.
© Los autores, 2002; © Edicions UPC, 2002


Cadenas de Markov
59
Fig. 3.2.1.a Propiedades de estado en cadenas de Markov
3.2.2 Propiedades de clase
Dado que, por convenio, hemos establecido que un estado está siempre comunicado consigo mismo, la
relación entre estados estar comunicado es reflexiva, simétrica y transitiva, por lo que se trata de una
relación de equivalencia. Por este motivo, podemos decir que un conjunto de estados comunicados
entre sí constituye una clase de equivalencia. De esta manera, podemos clasificar en diversas clases
los estados de una cadena de Markov.
A su vez, podemos definir la propiedad de clase siguiente para las clases de equivalencia que se hayan
establecido:
Una clase de equivalencia será una clase final si cuando el proceso llega a uno de los estados de la clase,
en las transiciones siguientes el proceso evoluciona siempre dentro de los estados de la clase.
Aquellas clases de equivalencia que no sean clases finales serán clases de paso. Las clases de paso
tienen un interés muy limitado en el estudio de las cadenas de Markov.
Es claro que, puesto que el sistema debe ser capaz de evolucionar indefinidamente entre un número
finito de estados, toda cadena debe tener al menos una clase final. Si en su evolución a lo largo de
infinitas transiciones el sistema puede pasar por todos los estados, entonces habrá una única clase final
que los englobará a todos ellos. Este caso es el que hemos definido anteriormente como cadena
ergódica.
La figura 3.2.2.a muestra, sobre una cadena de Markov, una clase final y una clase de paso.
PROPIEDADES DE ESTADO EN CADENAS DE MARKOV
7 ,0 3 ,0 0 0
2 ,0 0 8 ,0 0
1 0 0 0
0 4 ,0 5 ,0 1 ,0
P
1
4
2
3
ALGUNAS PROPIEDADES DE ESTADO:
1 es descendiente de 4 (y no al revés)
3 y 4 se comunican
Pueden observarse los ciclos {2 4 3 2}, {3 4 3}, {4 4}
© Los autores, 2002; © Edicions UPC, 2002


Métodos cuantitativos de organización industrial II
60
Fig. 3.2.2.a Propiedades de clase en una cadena de Markov
3.2.3 PERIODICIDAD DE UNA CLASE FINAL
Para una clase final, se puede obtener el periodo de una clase como el máximo común divisor de las
longitudes de los ciclos que pueden encontrarse en esa clase. Tendremos entonces dos tipos de clases
finales:
Clases cíclicas (o periódicas): aquellas que tengan un periodo de valor p > 1.
Clases acíclicas (o aperiódicas): aquellas que tengan un periodo de valor p = 1.
La figura 3.2.3.a muestra varias cadenas de Markov. La primera tiene ciclos de longitud 2 y 3, por lo
que es aperiódica, ya que MCD(2,3) = 1. En la segunda se pueden observar ciclos de longitud 2 y 4,
por lo que su periodo es p = 2. Obsérvese que la existencia de estos ciclos no impide la de otros
mayores (por ejemplo 1-2-4-3-4-3-4-2-1, que tiene longitud ocho. Sin embargo, todos estos ciclos
serán múltiplos de dos). La última, similar a la anterior, tiene sin embargo ciclos de longitud 1, 2 y 4,
por lo que es también aperiódica. La mera existencia de un ciclo de longitud uno (en este caso el 1-1)
implica que la clase es aperiódica.
Fig. 3.2.3.a Ciclicidad en clases finales de las cadenas de Markov
CLASES DE EQUIVALENCIA
0 4 ,0 7 ,0 0 0
5 ,0 0 5 ,0 0 0
0 1 0 0 0
0 2 ,0 1 ,0 4 ,0 3 ,0
0 0 0 7 ,0 3 ,0
P
1 2
5
4 3
CLASES DE EQUIVALENCIA:
La clase de equivalencia {1 2} es una clase de paso.
La clase de equivalencia {3 4 5} es una clase final.
CLASES FINALES PERIÓDICAS
2
3 1
4
2
3
1
4
2
3
1
p = 1
p = 2
p = 1
© Los autores, 2002; © Edicions UPC, 2002


Cadenas de Markov
61
3.2.4 Clasificación de las cadenas a partir del análisis topológico
Con las propiedades que se han definido, podemos establecer dos clasificaciones distintas de las
cadenas de Markov según su número de clases finales y la periodicidad o no de sus clases finales:
Clasificación según el número de clases finales
Podemos tener las siguientes situaciones en relación con las clases finales de una cadena de Markov:
La cadena tiene una única clase final y no tiene clases de paso. Se trata de una cadena ergódica.
La cadena tiene una única clase final, pero tiene clases de paso. Tenemos entonces una cadena
semiergódica.
La cadena tiene más de una clase final y una o varias clases de paso. La cadena es entonces no
ergódica.
Otra situación que podemos encontrar es la de varias clases de finales, sin que existan clases de paso.
Entonces, más que una única cadena, tenemos varias cadenas ergódicas sin relación entre ellas. Por
esta razón, no se ha incluido en la clasificación.
Clasificación según la periodicidad de las clases finales
Según el número y la periodicidad de las clases finales, tenemos diversas situaciones:
Si tenemos una sola clase final aperiódica, tendremos una cadena de Markov regular. Una cadena
regular puede ser ergódica o semiergódica, según tenga clases de paso o no.
Si tenemos varias clases finales, todas ellas aperiódicas, tendremos una cadena de Markov
semirregular.
Si tenemos varias clases finales, y todas ellas son periódicas, se trata entonces de una cadena
policíclica.
Finalmente, si tenemos varias clases finales, y algunas son cíclicas y otras no, hablaremos de una
cadena mixta.
Las cadenas semirregulares, policíclicas y mixtas son por tanto los tres casos posibles de cadenas no
ergódicas. En la tabla 3.2.4.a se muestran las diversas posibilidades derivadas de esta doble
clasificación:
Tabla 3.2.4.a. Clasificación cadenas de Markov
Ergódica Semiergódica No ergódica
Regular Regular positiva Regular (No posible)
Cíclica Cíclica Cíclica (No posible)
Semirregular (No posible) (No posible) Semirregular
Policíclica (No posible) (No posible) Policíclica
Mixta (No posible) (No posible) Mixta
En las figuras 3.2.4.a y 3.2.4.b se procede a clasificar las cadenas C1, C2, C3 y C4 a partir del análisis
topológico, mostrando las clases finales y las clases de paso.
© Los autores, 2002; © Edicions UPC, 2002


Métodos cuantitativos de organización industrial II
62
Fig. 3.2.4.a Ejemplos de clasificación de las cadenas de Markov
Fig. 3.2.4.b Ejemplos de clasificación de las cadenas de Markov
3.2.5 Significado de la ergodicidad
El concepto de cadena ergódica tiene relación con el comportamiento a largo plazo del sistema. En
una cadena ergódica, todos los estados se pueden dar a largo plazo, es decir, que en régimen
permanente todos los estados tienen una probabilidad no nula de aparecer: se trata de cadenas cuyo
comportamiento no varía de forma cualitativa a lo largo del tiempo. En una cadena ergódica es lo
mismo el largo plazo que el corto plazo, salvo que se conserva la memoria del estado inicial.
CLASIFICACIÓN DE LAS CADENAS DE MARKOV (1)
1 2
CADENA C1
Una sola clase final, de p = 1
® CADENA REGULAR ERGÓDICA
(REGULAR POSITIVA)
2
4 3
1
CADENA C2
Una clase final, de p = 1: { 3 4 }
Una clase de paso: {1 2 }
® CADENA REGULAR SEMIERGÓDICA
CLASIFICACIÓN DE LAS CADENAS DE MARKOV (2)
2
4 3
1
2
4 3
1
Dos clases finales, de p = 1: { 2 } { 3 4 }
Una clase de paso: {1 }
® CADENA SEMIRREGULAR
Una clase final, de p = 2: { 2 3 4 }
Una clase de paso: {1 }
® CADENA CÍCLICA SEMIERGÓDICA,
DE p = 2
© Los autores, 2002; © Edicions UPC, 2002


Cadenas de Markov
63
En las cadenas semiergódicas, el comportamiento a largo y a corto plazo es cualitativamente distinto.
Existen unos estados transitorios, que a largo plazo desaparecerán y por tanto sólo pueden aparecer
mientras el sistema no haya alcanzado su régimen permanente. Una vez alcanzado éste, el
comportamiento de la cadena no difiere del caso ergódico, si se hace abstracción de los estados que ya
no pueden aparecer.
Finalmente, en las cadenas no ergódicas el comportamiento a largo plazo depende de la situación
inicial. Al revés de lo que ocurre en los dos casos anteriores, el comportamiento a largo plazo no está
definido cualitativamente, sino que será distinto según la clase final a la que vaya a parar el sistema.
Ello significa que la probabilidad estacionaria de cada estado depende de la situación inicial, que
puede llegar a determinar que ciertos estados no se pueden alcanzar jamás si se parte de un cierto
conjunto de estados.
3.2.6 Significado de la periodicidad o ciclicidad
Una clase final acíclica representa una situación en la que la cadena evoluciona entre los distintos
estados de la misma de forma completamente aleatoria, descrita según las probabilidades indicadas por
la ley condicional (o matriz P). Podríamos decir que se trata de un sistema estocástico “puro”, en el
sentido que no se puede hacer una descripción de su comportamiento más precisa que las meras
probabilidades. El significado de las probabilidades estacionarias representa en estas clases finales la
probabilidad real de que en una transición cualquiera el sistema se halle en uno u otro estado.
Las cadenas regulares y semiregulares, por tanto, representan sistemas que acaban yendo a parar a una
situación de este tipo, sea ésta única o no.
Un caso particular interesante dentro de las clases finales acíclicas es el de los llamados estados
absorbentes: se trata de estados que constituyen por sí mismos una sola clase final, puesto que la única
transición posible es ir otra vez al mismo. Matemáticamente significa que la fila correspondiente de P
estará toda a ceros excepto un 1 en la diagonal principal; el significado de este tipo de situaciones
suele ser el de un sistema que ha llegado a una situación de degradación, que ya no puede evolucionar
más, etc.
En las clases finales cíclicas se puede establecer una partición de sus estados en p subclases, de
manera que la evolución de la cadena dentro de ésta clase consistirá en que pasará sucesivamente por
un estado de la subclase 1, luego uno de la subclase 2, etc. hasta llegar a la subclase p, después del
cual volverá a un estado de la subclase 1; en el caso de C4 (p = 2) estas dos subclases son {2,4} y {3}.
Las clases finales cíclicas, pues, son un caso intermedio entre un sistema estocástico puro en el que no
se puede predecir nada de su evolución más allá de la mera descripción probabilística y el caso
determinista en que la evolución es conocida y por lo tanto predecible y calculable: en este caso no se
conoce cuál será el estado siguiente con exactitud, pero sí que forma parte de un subconjunto bien
determinado.
Ello quiere decir que la interpretación de las probabilidades estacionarias es ligeramente distinta del
caso acíclico. Si se observa el sistema en un momento cualquiera, la probabilidad de hallarlo en uno u
otro estado es efectivamente la probabilidad estacionaria, pero ello es sólo fruto de nuestra ignorancia
del número de transiciones realizadas. Si conociéramos este número (o mas precisamente su módulo
p), las probabilidades serían distintas, puesto que las potencias de P evolucionan cíclicamente.
© Los autores, 2002; © Edicions UPC, 2002


Métodos cuantitativos de organización industrial II
64
3.3 Análisis espectral de las cadenas de Markov
Si conocemos los valores propios de una matriz de probabilidades de transición, podemos conocer
ciertas propiedades de su cadena de Markov asociada mediante el análisis espectral.
Se parte de la siguiente propiedad general de las matrices estocásticas:
Los valores propios complejos de una matriz estocástica tienen módulo inferior o igual a uno.
Para detectar el número de clases finales y su periodicidad, el análisis espectral parte de este hecho y
de la siguiente propiedad:
Cada clase final de periodo p genera p valores propios de valor igual a las raíces p –ésimas de
1. El resto de valores propios serán de módulo inferior a 1.
En consecuencia, el número de clases finales será igual a la multiplicidad de 1 como valor
propio.
De este modo, a partir del examen de los valores propios de la matriz de probabilidades de transición
podemos llegar a las conclusiones siguientes, según el análisis espectral:
Una cadena de Markov, regular, tanto ergódica como semiergódica, tendrá un único valor
propio de valor 1. El resto de valores propios serán de módulo inferior a 1.
Una cadena de Markov semirregular, tendrá un valor propio 1 múltiple, y el resto de valores
propios serán de módulo inferior a 1. La multiplicidad del valor propio 1 será igual al número
de clases finales de la cadena.
Una cadena de Markov cíclica (o policíclica) se caracterizará por tener, entre sus valores
propios, uno o varios conjuntos de raíces p –ésimas de 1. Cada uno de esos conjuntos revelará
la presencia en la cadena de una clase cíclica de periodo p.
El análisis espectral no dice nada, sin embargo, sobre las clases de paso y por ello tampoco informa
sobre si se trata de una cadena ergódica o no. Únicamente se puede deducir que si el valor propio +1
es múltiple, se tratará de una cadena no ergódica, y en caso contrario será ergódica o semiergódica.
A modo de ejemplo, podemos tener situaciones como las siguientes:
Ejemplo 3.3.a:
Una cadena de Markov con el conjunto de valores propios siguiente:
{ -0,8 0,4 +1 -1 +1 -0,3 0,01 0 }
Es una cadena de Markov cíclica: cuenta con una clase final de periodo 1 y con una clase final de
periodo 2.
Dado que existen ocho valores propios, la cadena debe tener precisamente ocho estados, pero no
sabemos cuáles pertenecen a cada una de las dos clases finales, ni si hay alguno en clases de paso o no.
Sí sabemos que por tratarse de una cadena mixta se trata de un caso no ergódico.
© Los autores, 2002; © Edicions UPC, 2002


Cadenas de Markov
65
Ejemplo 3.3.b
Una cadena de Markov con el conjunto de valores propios siguiente:
{ -0,4 0,3 0,2 -i +i - 1 +1 -1 +1 }
Ahora tenemos una cadena de Markov con dos clases finales, puesto que, como en la cadena anterior, la
multiplicidad de 1 es doble: una de las clases es de periodo 4, mientras que la segunda es de periodo 2. En
consecuencia, se trata de una cadena policíclica. Obsérvese que las filas correspondientes a la clase de período
2 se repetirán alternativamente en las potencia pares e impares de P, mientras que en la clase de período 4 se
repetirán cada 4 potencias; por lo tanto, la matriz P se repetirá cada 4 potencias.
k
3.4 Cálculo de las probabilidades estacionarias
La clasificación de la cadena de Markov permite identificar la forma de la matriz de probabilidades
estacionarias P*, y así facilitar su cálculo exacto, sin necesidad de obtener una potencia elevada de la
matriz P (procedimiento desaconsejable, por otra parte, porque puede dar lugar a confusiones, como
veremos).
Dado que la matriz de probabilidades de estado estable identifica las probabilidades de transición
después de un número de pasos suficientemente grande, si la matriz P es de una cadena ergódica o
semiergódica, P* es una matriz con todas las filas iguales, hecho que facilita notablemente su cálculo.
Para las cadenas no ergódicas, al ser algunas de las filas de P* diferente del resto, su cálculo será más
complejo.
Para todas las clases de cadenas que no tengan clases finales cíclicas, podemos escribir la siguiente
identidad:
lim
n
n
P* P
con lo que basta hallar este límite para conocer P* si la cadena no tiene clases finales cíclicas.
En consecuencia, en las cadenas cíclicas, la relación de P* con su comportamiento a largo plazo
requerirá alguna aclaración adicional. Para aclarar estas cuestiones se procederá, mediante ejemplos, a
mostrar cómo se calcula P* para diferentes tipos de cadenas de Markov.
3.4.1. Probabilidades estacionarias para cadenas regulares ergódicas
Dado que se trata de una cadena regular y ergódica, al cabo de un cierto número de transiciones
suficientemente elevado se habrá perdido la información del estado inicial, por lo que la probabilidad
de que el sistema se halle en uno u otro estado no dependerá de dicho estado. Todas las filas de P* en
una cadena regular son iguales, por lo que la matriz adopta la forma:
1 2
1 2
1 2
*
n
n
n



P
© Los autores, 2002; © Edicions UPC, 2002


Métodos cuantitativos de organización industrial II
66
Sabiendo que la matriz P* cumple la ecuación:
P* · P = P*· P = P*
Desarrollando esta ecuación matricial para una cualquiera de las filas de las matrices, obtenemos el
siguiente conjunto de ecuaciones:
1
n
kik i
k
p ©

para i =1, 2, ..., n
Al que hemos de añadir la ecuación, propia de toda matriz estocástica:
1
1
n
i
i


Tenemos entonces n+1 ecuaciones para n incógnitas. Sin embargo, las ecuaciones procedentes del
producto de matrices están indeterminadas, puesto que podemos tener otras soluciones a partir de un
conjunto de soluciones inicial, multiplicando todos los valores de ésta por un escalar. Es la última
ecuación la que hace a P* estocástica. En consecuencia, deberá eliminarse alguna de las procedentes
del producto de matrices, y nunca la que hace la suma de las
i
igual a 1.
Ejemplo 3.4.1.a Probabilidades de transición para una cadena regular ergódica
La cadena C1, de matriz de probabilidades de transición:
Tiene una matriz de probabilidades estacionarias de la forma:
Dichas probabilidades pueden obtenerse con las ecuaciones siguientes, derivadas de la ecuación
matricial P*· P=P*:
0,2·
1
+ 0,6·
2
=
1
0,8·
1
+ 0,4·
2
=
2

1
+
2
= 1
Eliminando una de las dos primeras ecuaciones, encontramos los valores:

1
= 3/7 = 0,429

2
= 4/7 = 0,571
0,2 0,8
0,6 0 ,4
1
P
1 2
1 2
*


P
© Los autores, 2002; © Edicions UPC, 2002


Cadenas de Markov
67
3.4.2 Probabilidades estacionarias para cadenas regulares no ergódicas
Las matrices de probabilidades estacionarias de este tipo de cadenas regulares tendrán la misma forma
que las matrices de las cadenas regulares ergódicas, con el rasgo distintivo de que las
clases de paso
= 0,
dado que después de infinitas transiciones el sistema se encontrará en una clase final con toda
seguridad.
Ejemplo 3.4.2.a Probabilidades de transición para una cadena regular no ergódica
La matriz de probabilidades estacionarias de la cadena C2, es:
Y la matriz de probabilidades estacionarias será de la forma:
1 2 3 4
1 2 3 4
*


P
Haciendo de nuevo P*· P = P* tenemos el conjunto de ecuaciones:
0,5·
1
+ 0,3·
2
=
1
0,4·
1
+ 0,3·
2
=
2
0,1·
1
+ 0,4·
2
+ 0,2·
3
+ 0,6·
4
=
3
0,8·
3
+ 0,4·
4
=
4

1
+
2
+
3
+
4
= 1
Eliminando una de las cuatro primeras ecuaciones, obtenemos los siguientes valores:

1
= 0

2
= 0

3
= 3/7 = 0,429

4
= 4/7 = 0,571
Los estados 1 y 2, cada uno de ellos clase de paso, tienen probabilidades estacionarias iguales a cero:
en el largo plazo, no encontraremos el proceso en ninguno de estos dos estados.
Aunque los resultados
1
=
2
= 0 se obtienen del sistema anterior, es obvio que si sabemos ya que
estos estados son de paso, podemos eliminarlos directamente dos ecuaciones y dos incógnitas del
sistema, con lo que el cálculo resultará más sencillo.
0,5 0 ,4 0 ,1 0
0,3 0 ,3 0,4 0
0 0 0 ,2 0 ,8
0 0 0 ,6 0 ,4
2
P
© Los autores, 2002; © Edicions UPC, 2002


Métodos cuantitativos de organización industrial II
68
3.4.3 Probabilidades estacionarias para cadenas semirregulares
Aunque las cadenas semirregulares presentan mayor complejidad, la naturaleza de las distintas clases
facilita también el cálculo de la matriz P*:
Las columnas de P* pertenecientes a estados de paso serán todas cero.
Las filas de los estados de una misma clase final serán todas iguales, con los valores de las
columnas correspondientes a estados no pertenecientes a la clase final considerada iguales a cero.
Por supuesto, cada clase final dará lugar a un "formato" distinto de fila.
Las filas de los estados de las clases de paso serán de la forma siguiente: los valores de las
i
de
las transiciones con destino en estados pertenecientes a clases de paso serán cero, y diferentes de
cero los
j
de las transiciones con destino en las clases finales. Cada estado perteneciente a una
clase de paso tendrá una fila diferente en P*.
Se trata entonces de proceder en dos pasos:
Se hallan las matrices P* correspondientes a las cadenas regulares positivas definidas por cada una de
las clases finales (según el procedimiento descrito en 3.4.1) y se componen con ellas las
correspondientes filas de sus estados.
Para hallar las filas de los estados de paso, se resuelven tantos sistemas de ecuaciones
0
n
kki i
k
p ©

para i =1, 2, ..., n
1
1
n
i
i


como clases finales y estados de las clases de paso tenga la cadena.
Ejemplo 3.4.3.a Matriz P* para una cadena semirregular
Sea la cadena de Markov definida por la siguiente matriz de probabilidades de transición:
0.7 0.1 0.1 0 0 0 0 0.1
0.4 0.3 0.1 0 0.2 0 0 0
0 0 0.7 0.3 0 0 0 0
P = 0 0 0.6 0.4 0 0 0 0
0 0 0.1 0.3 0.3 0.1 0.2 0
0 0 0 0 0 0.5 0.5 0
0 0 0 0 0 0.4 0.6 0
0 0 0 0 0 0 0 1
El análisis topológico nos dice que hay tres clases finales acíclicas: {3,4}, {6,7} y {8}, así como dos
clases de paso: {1,2} y {5} Se trata por tanto de una cadena semirregular.
© Los autores, 2002; © Edicions UPC, 2002


Cadenas de Markov
69
Fig. 3.4.3.a Cadena de Markov semirregular
Analizando las matrices ergódicas regulares de las tres clases finales, podemos hallar buena parte de
los valores de P*:
0 0 a b 0 c d e
0 0 i j 0 k l m
0 0 2/3 1/3 0 0 0 0
P* = 0 0 2/3 1/3 0 0 0 0
0 0 p q 0 r s t
0 0 0 0 0 4/9 5/9 0
0 0 0 0 0 4/9 5/9 0
0 0 0 0 0 0 0 1
donde se han representado con letras los valores aún no conocidos y se han recuadrado las submatrices
correspondientes a las clases finales.
Sin embargo, del diagrama de transiciones se puede deducir fácilmente que desde el estado 5 no se
puede ir a la clase {8} por lo que t = 0.
Obsérvese que aunque la transición 2-8 tiene probabilidad cero, lo mismo que las 1-6 y 1-7, no se
puede deducir de ello que, por ejemplo, c = 0, ya que el estado 6 sí es descendente del 1, a través del 2
y del 5.
Nos quedan por lo tanto 14 incógnitas, por lo que debemos ahora establecer 14 ecuaciones para hallar
estos valores. Escribimos en primer lugar las siempre obligadas:
a + b + c + d + e = 1
i + j + k + l +m = 1
p + q + r + s = 1
El resto de ecuaciones se deben establecer a partir de las expresiones ya conocidas:
1
8
2
5
3
6 7
4
© Los autores, 2002; © Edicions UPC, 2002


Métodos cuantitativos de organización industrial II
70
P P* = P* P = P*
Esta doble igualdad matricial nos permite, en teoría, escribir (2 ) = 128 igualdades, de entre las cuales
n 2
deberemos elegir las 11 que faltan. Muchas de estas igualdades serán simples identidades que no
sirven para nuestro propósito; también existen combinaciones lineales entre ellas que no podemos
utilizar.
La tarea, por tanto, parece complicada; sin embargo, de las propiedades de estas matrices se pueden
deducir algunas relaciones que permiten establecer fácilmente algunas de las ecuaciones necesarias.
Hay que decir que todas ellas se pueden hallar a partir de las expresiones matriciales indicadas, pero
de esta manera es mucho más sencillo hallarlas sin tener que buscar en la maraña de 128 igualdades
posibles.
Consideremos en primer lugar los valores a y b: representan las probabilidades de hallar el sistema en
los estados 3 y 4 sabiendo que ha empezado su evolución en el 1. Pero ello quiere decir que el sistema
ha ido a parar a la clase {3,4} lo cual tiene una probabilidad que llamaremos P
1,34
. U na vez el sistema
ha ido a parar a dicha clase, la probabilidad que se halle en uno u otro estado es justamente la
probabilidad estacionaria de la clase final, en nuestro caso, 2/3 y 1/3. De ello se deduce que a = P
1,34
*
2/3 y b = P
1,34
* 1/3, de lo que se concluye que a y b son proporcionales a 2/3 y 1/3. Por supuesto la
probabilidad P
1,34
es desconocida, aunque sí sabemos que vale precisamente a + b.
Esta propiedad, que se cumple siempre para todas las clases finales, nos permite establecer
inmediatamente seis ecuaciones más:
a / b = i / j = p / q = (2/3) / (1/3) = 2
c / d = k / l = r / s = 4 / 5
En este caso existe además otra propiedad (que no se da siempre) que también nos facilita escribir
algunas de las ecuaciones. En el estado 5, la cadena sólo puede hacer dos cosas: o bien se mantiene en
él, o bien va directamente a una clase final. Si seguimos la notación anteriormente establecida, es
evidente que P
5,34
+ P
5,67
= 1 – 0,3 = 0,7 y como p + q = P
5,34
= (0,1 + 0,3) / 0,7 y análogamente para
P
5,67
= r + s, esto supone que podemos escribir:
p + q = 4/7
r + s = 3 / 7
Desgraciadamente, estas igualdades no proporcionan dos ecuaciones más, sino sólo una, ya que hay
combinación lineal con las anteriores; no obstante, basta con ella para hallar los valores que permiten
completar la fila 5:
p = 8/21; q = 4/21; r = 4/21; s = 5/21; t = 0
Téngase en cuenta que esto no se puede escribir para los estados 1 y 2, ya que de ellos no se va
directamente sólo a clases finales. Tampoco vale el hecho de que {1,2} sea una misma clase de paso:
los estados de la misma clase de paso no tienen por qué tener las mismas probabilidades estacionarias.
Por supuesto, un análisis probabilístico parecido nos permitiría establecer expresiones semejantes para
los estados 1 y 2, pero ello generalmente conduce a situaciones más complejas que no suele valer la
pena acometer.
Así pues, en este momento tenemos ya 5 valores calculados y otras 6 ecuaciones para hallar los 15
valores desconocidos de la matriz escrita más arriba. Pero no hay que preocuparse demasiado por el
sistema de ecuaciones resultante: usualmente se puede reducir con cierta facilidad.
© Los autores, 2002; © Edicions UPC, 2002


Cadenas de Markov
71
Para ello lo más productivo suele ser desarrollar las expresiones para el cálculo de los valores
desconocidos mediante la expresión P* = P· P* en grupos de la misma columna:
Empecemos por la pareja a, i:
a = 0,7a + 0,1i + 0,1 · (2/3) ® 3 a – i = 2/3
i = 0,4a + 0,3i + 0,1 · (2/3) + 0,2p ® 7 i – 4a = 1/7
Como p es conocido, queda tan solo un sistema de dos ecuaciones y dos incógnitas, que se resuelve
fácilmente y permite además obtener inmediatamente los valores de b y j:
a = 128/357; b = 64/357; i = 146/357; j = 73/357
Repitamos la técnica con c y k:
c = 0,7 c + 0,1 k ® 3 c - k = 0
k = 0,4 c + 0,3 k + 0,2 r ® 7 k- 4c = 8/21
con lo que c = 8/357; d = 10/357; k = 8/119; l = 10/119
Y finalmente, para e y m:
e = 0,7 e + 0,1 m + 0.1· 1 ® 3 e – m = 1
m = 0.4 e + 0.3 m ® 7 m – 4e = 0
con lo cual e = 7/17; m= 4/17
Se puede comprobar que, efectivamente, la suma de los valores de cada fila es 1, y la matriz de
probabilidades estacionarias resulta ser:
0 0 128/357 64 / 357 0 8 / 357 10 / 357 7 / 17
0 0 146/357 73 / 357 0 24 / 357 30 357 4 / 17
0 0 2/3 1/3 0 0 0 0
P* = 0 0 2/3 1/3 0 0 0 0
0 0 8/21 4/21 0 5/21 4/21 0
0 0 0 0 0 4/9 5/9 0
0 0 0 0 0 4/9 5/9 0
0 0 0 0 0 0 0 1
De esta matriz es inmediato deducir las probabilidades de que el sistema vaya a una u otra clase final
según el estado inicial:
P
1,34
= 64/119; P
1,67
= 6/119; P
1,8
= 7/17
P
2,34
= 73/119; P
2,67
=18/119; P
2,8
= 4/17
P
5,34
= 4/7; P
5,67
= 3/7; P
5,8
= 0
Tres observaciones finales:
Primera: en este caso la existencia de un estado de paso del cual sólo se puede salir para ir a
alguna clase final permite el cálculo directo de la fila correspondiente; por supuesto eso no tiene
por qué ocurrir en general.
Segunda: la utilización en cada paso de los valores ya obtenidos permite la reducción de los
sistemas de ecuaciones resultantes y por tanto también facilita el cálculo incluso manual.
© Los autores, 2002; © Edicions UPC, 2002


Métodos cuantitativos de organización industrial II
72
Tercera: la técnica de escribir las ecuaciones para los elementos de la misma columna permite en
general trocear el sistema en otros más pequeños y con ello reducir notablemente la dificultad del
cálculo.
Ejemplo 4.3.b Matriz P* para una cadena de Markov semirregular
Sea la cadena de Markov cuya matriz de transición de un paso es:
0,1 0,4 0 ,3 0 ,2 0 0
0 , 3 0 0 0 ,6 0 , 1 0
0 0 0 1 0 0
0 0 0 ,5 0 ,5 0 0
0 0 0 0 0 1
0 0 0 0 0 ,5 0 ,5
P
El lector puede comprobar fácilmente, mediante análisis topológico, que se trata de una cadena
semirregular, en la que existe una clase de paso {1,2}, y dos clases finales {3,4} y {5,6}. Según lo
expuesto anteriormente, la matriz de probabilidades estacionarias tiene el aspecto siguiente:
1 2
1 2
3 4
3 4
0 0
0 0
0 0 0 0
0 0 0 0
0 0 0 0
0 0 0 0
abc d
efg h




P*
Los valores no nulos de los estados pertenecientes a clases finales pueden hallarse resolviendo la clase
final concreta. En el caso que nos ocupa, tenemos:

1
=
3
= 1/3

2
=
4
= 2/3
Para las dos primeras filas, se trata de plantear, para las dos primeras filas de P, la ecuación matricial:
P· P* = P*
El resultado es la matriz:
0 0 0 ,3162 0 ,6324 0 ,0171 0 ,0342
0 0 0 ,2949 0 ,5897 0 ,0385 0 ,0769
0 0 0 ,3333 0 ,6667 0 0
0 0 0 ,3333 0 ,6667 0 0
0 0 0 0 0 ,3333 0 ,6667
0 0 0 0 0 ,3333 0 ,6667
P*
© Los autores, 2002; © Edicions UPC, 2002


Cadenas de Markov
73
3.4.4 Probabilidades estacionarias para cadenas con clases finales cíclicas
En las cadenas regulares y semirregulares se cumple que:
lim
n
P* P
En las cadenas cíclicas, por su naturaleza, no existe este límite. La cadena evoluciona hacia tantas
matrices de transición a largo plazo como el periodo p de la cadena, por lo que tendremos un conjunto
de matrices:
P*
(1)
, P* , ..., P*
(2 ) (p)
Sin embargo, el hecho de que no exista un límite de las potencias de P no significa que no exista P*
entendida como la matriz de probabilidades estacionarias. Afortunadamente, el proceso indicado para
las cadenas regulares y semirregulares sirve también aquí, por lo que no hace falta repetirlo. La
diferencia es que el significado es ahora diferente: en lugar del límite de las potencias de P es el
promedio de las matrices de evolución a largo plazo de cada uno de los periodos.
(1) (2) ( )
1
...
p
p
¹ ( © + +=+
¸
P* P* P * P*
Ejemplo 3.4.4.a Matriz P* para una clase final cíclica
Como se ha visto anteriormente, la cadena C4, cuya matriz de probabilidades de transición de un paso
se muestra a continuación, cuenta con una clase cíclica de p=2.
0,5 0 ,4 0 ,1 0
0 0 1 0
0 0 , 2 0 0 , 8
0 0 1 0
4
P
Para hallar la matriz de probabilidades estacionarias de P procedemos formalmente como si la clase
4
final no fuese cíclica; entonces tendría las filas iguales: se trata de una cadena regular semiergódica.
La diferencia es que ahora no se trata del límite de las potencias de P , sino del promedio de las dos
4
matrices de probabilidades a las que tiende el comportamiento del sistema:
(2 ) (2 1 )
1 1
2 2
k k +
© +=© P* P* P*
0 0 ,1 0 ,5 0 ,4 0 0 ,08 0 ,6 0 ,32 0 0 ,12 0 ,4 0 ,48
0 0,1 0 ,5 0 ,4 0 0 ,2 0 0 ,8 0 0 1 0
1 1
0 0,1 0 ,5 0 ,4 0 0 1 0 0 0 ,2 0 0 ,8 2 2
0 0,1 0 ,5 0 ,4 0 0 ,2 0 0 ,8 0 0 1 0
© +=©
Para determinar las matrices P
nk
basta tener en cuenta las igualdades:
P* = 1/p ( P + P
k k+1
+ .... +P
k- 1
)
P
k+1
= P · P; P
k k+2
= P
k+1
· P; ... ; P = P
k k- 1
· P
© Los autores, 2002; © Edicions UPC, 2002


Métodos cuantitativos de organización industrial II
74
Hay que darse cuenta aquí de la posibilidad de error que existe si se clasifica la cadena simplemente
calculando potencias de P, tentación en la que es fácil de caer disponiendo de un ordenador con una
hoja de cálculo. Lo más fácil es elevar P al cuadrado, luego hacer lo mismo con P
2
y así
sucesivamente. Entonces no se verá la aparición de ciclos de longitud 2, como en este caso.
Compruébese que en la potencia P
16
ya se obtiene P , por lo que esta matriz se puede confundir con
2k
P* , cosa evidentemente errónea.
Ejemplo 3.4.4.b Matriz P* para una cadena mixta
Sea la cadena de Markov definida por la siguiente matriz de probabilidades de transición:
0.7 0.2 0.1 0 0 0 0 0 0 0 0 0 0 0 0
0.9 1/20 0 0 1/20 0 0 0 0 0 0 0 0 0 0
0 0 0,8 0,1 0,1 0 0 0 0 0 0 0 0 0 0
0 0 0 3/4 0 0.1 0 0 0 0 0.1 0 1/20 0 0
0 0 0 0 1 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 2/3 1/6 1/6 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 1 0 0 0 0 0
P= 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0
0 0 0 0 0 0 0 0 0 1 0 0 0 0 0
0 0 0 0 0 1 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 1 0 0 0
0 0 0 0 0 0 0 0 0 0 0,7 0,3 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0,4 0,6
0 0 0 0 0 0 0 0 0 0 0 0 1 0 0
0 0 0 0 0 0 0 0 0 0 0 0 1 0 0
Se observa que se trata de una cadena mixta (se han recuadrado las submatrices ergódicas
correspondientes a les cuatro clases finales).
Obsérvese que el estado 5 es un estado absorbente, y la clase {11,12} es aperiódica, mientras que las
otras dos tienen ciclos de longitud 3 y 2 respectivamente.
El lector debe hacer por su cuenta los cálculos para determinar los valores de P* y comprobará que
obtiene los siguientes valores (se han suprimido las columnas de clases de paso):
23/42 19/315 38/945 19/1990 19/1990 19/315 19/255 38/357 19/420 19/1050 19/700
4/7 2/35 4/105 1/105 1/105 2/35 6/85 12/119 3/70 3/175 3/350
1/2 1/15 2/45 1/90 1/90 1/15 7/85 2/17 1/20 1/50 3/100
0 2/15 4/45 1/45 1/45 2/15 14/85 4/17 1/10 1/25 3/50
1 0 0 0 0 0 0 0 0 0 0
0 1/3 2/9 1/18 1/18 1/3 0 0 0 0 0
0 1/3 2/9 1/18 1/18 1/3 0 0 0 0 0
P= 0 1/3 2/9 1/18 1/18 1/3 0 0 0 0 0
0 1/3 2/9 1/18 1/18 1/3 0 0 0 0 0
0 1/3 2/9 1/18 1/18 1/3 0 0 0 0 0
0 0 0 0 0 0 7/17 10/17 0 0 0
0 0 0 0 0 0 7/17 10/17 0 0 0
0 0 0 0 0 0 0 0 1/2 1/5 3/10
0 0 0 0 0 0 0 0 1/2 1/5 3/10
0 0 0 0 0 0 0 0 1/2 1/5 3/10
© Los autores, 2002; © Edicions UPC, 2002


Cadenas de Markov
75
Sin embargo, el significado de estas probabilidades es diferente según el estado (fila) de la que se
trate.
Si se introduce la matriz P en una hoja de cálculo y se eleva al cuadrado unas cuantas veces (con seis
veces será suficiente) se observará como la fila 5 no varía, las filas 11 y 12 tienden hacia los valores
finales más o menos rápidamente, mientras que en las filas 13-15 se repiten los mismos valores ya
desde P . En cambio, en las filas 6-10 se observa como los mismos valores se van "moviendo"
2
cíclicamente de unas filas a otras sin que sin embargo se lleguen a observar todos los valores en todas
las filas.
Esto es un efecto de los ciclos de las clases finales, que no se observan fácilmente si nos limitamos a
calcular potencias muy elevadas de P simplemente elevando al cuadrado. Solamente si se multiplica
por P para obtener la potencia siguiente se puede ver como en efecto los valores de las clases {6-10} y
{13-15} se repiten cada tres y cada dos potencias, como corresponde a su naturaleza. De ahí la
advertencia hecha al principio de no intentar clasificar la cadena mediante la "fuerza bruta" del
ordenador, ya que ello puede llevar fácilmente a engaño.
También se ve ahora como el significado de P* es distinto: en la clase {11-12} son efectivamente
probabilidades una vez perdida la memoria del estado inicial, mientras que en las dos clases cíclicas es
un promedio de tres y dos potencias sucesivas respectivamente. Para los estados de paso se trata de
una combinación según las leyes del cálculo de probabilidades de las diferentes situaciones finales que
se pueden dar. Véase que si se inicia la evolución del sistema en el estado 4, la probabilidad de caer en
el estado absorbente 5 es nula.
3.5 Cadenas de Markov con remuneración
Decimos que a una cadena de Markov definida por una matriz P se le ha asociado una remuneración
cuando a cada transición posible (esto es, con p >0) se le ha asociado un valor numérico arbitrario, r .
ij ij
De esta forma, junto a la matriz P ya conocida, tenemos ahora una matriz R de remuneraciones.
11 1
1
n
nnn
p p
p p
P
11 1
1
n
nnn
r r
r r
R
La palabra remuneración no debe hacer presuponer nada sobre la naturaleza de este valor, que puede
ser cualquier cosa según convenga al modelo: puede tener, en efecto, un significado de ganancias,
beneficios etc. pero también puede tenerlo de costes, pérdidas o cualquier otra cosa. De hecho, es un
modelo bastante habitual definirla de manera que su valor sirva para contar el número de veces que
han sucedido determinadas transiciones, por ejemplo.
El problema al que nos enfrentamos ahora es el de encontrar la remuneración esperada de un proceso
estocástico representable por una cadena de Markov, tanto a largo plazo como a corto plazo.
3.5.1 Remuneración esperada a corto plazo
En esta sección, estudiaremos cómo obtener la remuneración total esperada a corto plazo de un
proceso estocástico que pueda ser representado por una cadena de Markov. Se trata de determinar
dicha remuneración cuando el número de transiciones N es fijo, mediante la iteración en el espacio de
© Los autores, 2002; © Edicions UPC, 2002


Métodos cuantitativos de organización industrial II
76
los estados. También se introducirá la normalización, procedimiento que ayuda a simplificar el
proceso de cálculo.
3.5.1.1 Iteración en el espacio de los estados
Si v (N) representa la remuneración total esperada cuando quedan N transiciones para finalizar el
i
proceso, y si partimos del estado i, podemos escribir:
1 1
( ) · ( 1 ) ( 1 )
n n
iij ij j i ij j
j j
v N p r v N q p v N ¹ ( + + ©
¸

1
n
iij ij
j
qpr ©

En las dos expresiones, j representa los n estados posibles que podrá tomar el sistema en la siguiente
transición, en la que faltarán N –1 transiciones para acabar. En cuanto a la q , nótese que se obtiene
i
como producto de la fila i de las matrices de probabilidad de transición P y de remuneraciones R (no
se trata, entonces del producto de matrices P· R, sino que matricialmente se escribiría P· R ).
T
Representa la remuneración esperada de la transición del estado N al estado N – 1 y es función del
estado actual i.
Si queremos obtener todos los v (N), es decir, las remuneraciones esperadas para el sistema cuando
i
queden N iteraciones para acabar partiendo desde cualquier estado i inicial, podemos utilizar la misma
ecuación, pero esta vez en forma vectorial:
( ) ( 1 ) N N +=© vqP v
Esta expresión recursiva (se obtiene el valor del estado N a partir del valor para N–1) nos permite
obtener las remuneraciones esperadas del sistema para valores cada vez más alejados del instante final
conociendo unas condiciones de contorno que definen la remuneración esperada después del final del
proceso v(0).
La aplicación de esta ecuación constituye la iteración en el espacio de los estados.
3.5.1.2 Normalización
La técnica de la normalización consiste en restar sistemáticamente al valor obtenido en cada transición
una cantidad determinada y operar en lo sucesivo con la diferencia. Por ello las ecuaciones de
recurrencia quedan la forma siguiente:
( ) '( 1 ) N N +=© vqP v
'( ) ( )
N
N N vvg
donde g es un vector con todas las componentes iguales.
N
Obsérvese que una vez hechos los cálculos con normalización, obtener el valor verdadero de la
remuneración esperada es muy sencillo:
© Los autores, 2002; © Edicions UPC, 2002


Cadenas de Markov
77
1 1
( ) '( ) ...
R
N N
N n

+ + +=+ vvg g g
Esta técnica tiene dos ventajas: en primer lugar evita que los valores de v(N) crezcan de forma
desmesurada, lo cual tiene ventajas indiscutibles para el cálculo, y en segundo lugar permite observar
con más facilidad la llegada del régimen permanente, puesto que en el momento que en dos
transiciones (consecutivas o no) se repitan los valores tanto de la g
N
como de v(N) podemos afirmar
que se ha superado el régimen transitorio y se ha alcanzado el régimen permanente.
Queda por determinar como se fija la g , valor que tendrán todas las componentes de g : en principio
N N
dicho valor es arbitrario, y lo importante es que se determine según una regla fija. Las dos más
habituales son:
Regla 1: { } min ( )
N i
i
gvN
Regla 2: ( )
N k
gvN , donde k es un estado elegido previamente.
Ambas reglas conducen a largo plazo a los mismos resultados (salvo unas diferencias constantes),
pues en régimen permanente el estado de mínimo valor será siempre el mismo. La Regla 1 tiene la
ventaja de que se asegura que los valores de v'(N) son siempre mayores o iguales a cero, lo cual evita
errores en los cálculos manuales, mientras que la Regla 2 facilita la comparación de los vectores v'
Ejemplo 3.5.1.2.a Iteración en el espacio de los estados y normalización
La tabla siguiente muestra las sucesivas iteraciones realizadas para determinar el comportamiento de
la cadena C1, con las matrices de probabilidades de transición P y de remuneraciones R siguientes:
0,2 0,8
0,6 0 ,4
P
10 2 0
40 2 0
R
Las filas segunda y tercera muestran el vector v, obtenido a través de sucesivas normalizaciones, y la
quinta y sexta v’. La última fila es la correspondiente a g , obtenida siempre como el valor más
N
pequeño de v.
0 1 2 3 4 5 6 7 8 9 10 11
v
1
0.00 18.00 18.40 18.24 18.30 18.28 18.29 18.28 18.29 18.29 18.29 18.29
v
2
0.00 16.00 17.20 16.72 16.91 16.84 16.87 16.85 16.86 16.86 16.86 16.86
0 1 2 3 4 5 6 7 8 9 10 11
v'
1
0 2.00 1.20 1.52 1.39 1.44 1.42 1.43 1.43 1.43 1.43 1.43
v'
2
0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
g
N
0 16.00 17.20 16.72 16.91 16.84 16.87 16.85 16.86 16.86 16.86 16.86
Como se ve fácilmente en la tabla normalizada, a partir de la séptima transición aparece ya el régimen
permanente. Dicha observación no es en absoluto evidente si sólo disponemos de la tabla sin
normalizar.
3.5.2 Remuneración esperada a largo plazo
Mediante la iteración en el espacio de los estados se puede calcular la remuneración esperada en un
número cualquiera de transiciones, de manera que teóricamente basta repetir dicha iteración hasta
llegar al número deseado; sin embargo, las propiedades que se obtuvieron en la primera parte del
© Los autores, 2002; © Edicions UPC, 2002


Métodos cuantitativos de organización industrial II
78
módulo hacen pensar que el sistema tenderá a tener una remuneración promedio (remuneración
esperada dividida por el número de transiciones) estable a largo plazo.
Dicha remuneración dependerá fundamentalmente de la remuneración obtenida en la clase final a la
que finalmente vaya a parar la evolución del sistema, ya que es en ella donde se producirán la mayoría
de las transiciones (supuesto el número de estas suficientemente grande); sin embargo, es obvio que
dicho valor promedio ha de venir afectado por un factor de corrección que dependa del estado i en el
que se inicie el proceso. Podremos representar este hecho haciendo que, para un número de
transiciones lo bastante elevado:
v *(N)
i
Ng + w
i i
v* (N) Ng + w
En estas expresiones, g representa la ganancia media por transición, y w un factor de corrección
i
función del estado inicial i.
Si sustituimos las v (N) por estas expresiones en las ecuaciones de iteración en el espacio de los
i
estados, encontramos el siguiente resultado:
1
( ) ( 1 )
n
iiij j
j
v N q p v N + ©

1 1 1
(1) ( 1 )
nnn
i i iij j j i ij jij j
jjj
Ng w q p N g w q N p g p w ¹ ( +=+ © + + =© © + ©
¸

La ganancia media por transición para el estado inicial i puede obtenerse a partir de las ganancias
medias del estado siguiente:
1
n
iij j
j
gpg ©

Esto nos permite obtener la siguiente ecuación, para cada uno de los estados:
1
n
iii ij j
j
wgq p w +=+ ©

La ecuación puede expresarse también en forma vectorial, para el conjunto de estados i:
+=+ w g q P w
En principio, tenemos un sistema altamente indeterminado, puesto que tenemos n ecuaciones para 2n
incógnitas. Sin embargo, hemos de tener en cuenta dos cosas:
La indeterminación afecta a las w , puesto que dichas variables no tienen sentido por ellas mismas,
i
sino que lo tienen sus diferencias. Efectivamente, podemos escribir:
* *
( ) ( )
iji j
ww v N v N
© Los autores, 2002; © Edicions UPC, 2002


Cadenas de Markov
79
La estructura del vector g depende del tipo de la cadena de Markov. Puede deducirse la forma de g
a partir de la matriz de probabilidades estacionarias:
g = P*· q = P· g
No resulta ventajoso obtener g de esta manera, puesto que puede obtenerse a partir de las ecuaciones
obtenidas anteriormente con menos esfuerzo. Sin embargo, a través de esta ecuación podemos conocer
cuántas componentes diferentes tendrá el vector g.
3.5.2.1 Remuneración esperada a largo plazo en cadenas regulares
Consideraremos por el momento el caso sin actualización (o con ( = 1 si se prefiere) . El caso con
actualización se trata al final para todos los tipos de cadenas conjuntamente.
Si la cadena es regular, todas las filas de P* son iguales, por lo que todos los componentes del vector g
son iguales:
Cadena regular ® g = g = ... = g = g
1 2 n
Por lo tanto, para una cadena regular tendremos un sistema de n ecuaciones con n+1 incógnitas (la g y
las w ), es decir, con un grado de libertad que nos permite fijar arbitrariamente el valor de una de las
i
w . Lo más conveniente es hacer una w = 0 para simplificar los cálculos, y así obtener el resto de
i i
ecuaciones.
El hecho de fijar a cero uno u otro de los valores no tiene una significación arbitraria, ya que equivale
a la determinación del estado para el cual se hace cero el valor v'(N) al normalizar. En efecto, aunque
los valores de w no están determinados debido al grado de libertad del sistema, sí lo están sus
i
diferencias:
{ }
' '
lim ( ) ( )
i j i j
N
w w v N v N


Además, como que:
v *(N)
i
Ng + w
i i
esto puede entenderse de la siguiente forma:
Como ya se ha dicho, g representa el valor promedio de la remuneración obtenida en las diferentes
i
transiciones de la cadena dentro de la clase final.
Aceptemos ahora que se ha fijado un estado k de la cadena tal que w =0, y que k pertenece a la clase
k
final (si la cadena es ergódica tal cosa es obligada). Si la evolución del sistema parte de un estado i,
habrá un cierto número de transiciones ( ´ ) h asta que pase por primera vez por el estado k durante las
cuales se obtendrá una remuneración esperada v (
i
´ ). Pues bien, w representa la diferencia entre esta
i
remuneración y la que correspondería según el valor medio:
w = v (
i i
´ ) - ´ .g
i
Evidentemente, si tomamos el estado k fuera de la clase final o el valor fijado en uso del grado de
libertad del sistema, ello no significa más que un simple corrimiento del "nivel de referencia".
© Los autores, 2002; © Edicions UPC, 2002


Métodos cuantitativos de organización industrial II
80
Todo lo expuesto en este apartado es válido para toda cadena regular, sea ergódica o semiergódica.
Ejemplo 3.5.2.1.a.:
Se desea obtener la ganancia media que se obtendrá con la cadena ergódica de matriz P que a
continuación se indica, si las remuneraciones asociadas a cada transición se indican en la matriz R. En
este caso, la matriz R se ha obtenido del siguiente modo:
Si el proceso permanece en el mismo estado i, se remunera con una cantidad igual a i.
Si el proceso pasa de un estado i a otro j, se remunera o penaliza con una cantidad igual a j – i.
0 0 ,2 0,4 0 ,3 0,1
0,5 0 ,5 0 0 0
0 0 , 2 0 ,4 0 0 , 4
0 0 ,7 0 0 0 ,3
0 0 0 ,8 0 ,1 0 ,1
P
1 1 2 3 4
1 2 1 2 3
2 1 3 1 2
3 2 1 4 1
4 3 2 1 5




R
El vector q se obtiene multiplicando las filas de P y R (una vez más debemos insistir en el hecho de
que no se trata del producto de ambas matrices). Para el caso que nos ocupa, el valor de este vector es:
2,3
0,5
1, 8
1,1
1, 2


q
Finalmente, a partir de la ecuación matricial:
+=+ w g q P w
obtenemos el conjunto de ecuaciones siguiente, en el que todos los valores de las componentes de g
son iguales a un valor g:
w + g = 2,3 + 0,2w + 0,4w + 0,3w + 0,1w
1 2 3 4 5
w + g = 0,5 + 0,5w + 0,5w
2 1 2
w + g = 1,8 + 0,2w + 0,4w + 0,4w
3 2 3 5
w + g = -1,1 + 0,7w + 0,3w
4 2 5
w + g = -1,2 + 0,8w + 0,1w + 0,1w
5 3 4 5
Tenemos cinco ecuaciones y seis incógnitas. Por lo tanto, podemos hacer w
2
= 0, y entonces
tendremos los siguientes valores:
© Los autores, 2002; © Edicions UPC, 2002


Cadenas de Markov
81
w = 0,5545
1
w = 0
2
w = 0,1178
3
w = -2,5913
4
w = -2,3801
5
g = 0,7772
Los resultados indican que la ganancia obtenida en el largo plazo, tras N transiciones, es
aproximadamente de 0,7772N (téngase en cuenta que como N es muy grande, cualquier variación
finita es irrelevante ante este valor: para un número lo suficientemente grande de transiciones, la
ganancia media es igual a g = 0,7772). En cambio, si empezamos en el estado 4 el valor esperado de
dicha ganancia es 2,5913 unidades menor que si empezamos en el estado 2.
3.5.2.3 Remuneración esperada en cadenas cíclicas
El cálculo para una cadena cíclica es formalmente idéntico al de una cadena regular, si bien el
significado de los resultados es diferente. Los valores obtenidos son promedios de los valores que se
presentan de forma cíclica con el número de transiciones.
Ejemplo 3.5.2.3.a Remuneración esperada para una cadena cíclica de p =2
Consideremos ahora una cadena cíclica, de p = 2, tal como:
0 0 ,5 0 0 ,5
0 , 5 0 0 , 5 0
0 0 ,5 0 0 ,5
0 , 5 0 0 , 5 0
P
Planteemos el problema de obtener g y w con la matriz de remuneraciones:
1 3
4 6
2 0
2 8




R
Para estas P y R, tenemos que q vale:
2
1
1
3

q
De manera que, prescindiendo del hecho de que la cadena sea cíclica, y dado que tiene una única clase
final, podemos plantear las ecuaciones:
w + g = 2 + (w + w )/2
1 2 4
w + g = –1 + (w + w )/2
2 1 3
© Los autores, 2002; © Edicions UPC, 2002


Métodos cuantitativos de organización industrial II
82
w + g = 1 + (w + w )/2
3 2 4
w + g = 3 + (w + w )/2
4 1 3
De donde obtenemos:
g = 5/4
w = 0
1
w = -11/4
2
w = -1
3
w = 5/4
4
Estos valores describen el comportamiento promedio del sistema en el largo plazo, exactamente del
mismo modo que P* describe las propiedades estacionarias para una cadena periódica. Podemos
conocer con más detalle el comportamiento del sistema si realizamos iteraciones en el espacio de las
políticas, a partir de la ecuación:
( ) ( 1 ) N N +=© vqP v
El lector puede comprobar, por inducción, que la ganancia total del sistema cuando faltan N etapas
para terminar tiene el comportamiento siguiente:
N = 2k N = 2k+1
v
1
(5/4)N + 1/2 (5/4)N + 3/4
v
2
(5/4)N + 2 (5/4)N – 9/4
v
3
(5/4)N – 1/2 (5/4)N – 1/4
v
4
(5/4)N + 2 (5/4)N + 7/4
De la tabla se deduce que, tal como habíamos hallado, g = 5/4. Las diferencias entre componentes de v
se comportan de modo diferente en periodos pares que en periodos impares, y las w obtenidas con las
i
ecuaciones muestran el comportamiento promedio:
N = 2k N = 2k +1 w – w
i 1
v – v
1 1
0 0 0
v – v
2 1
-5 /2 -3 -1 1 /4
v – v
3 1
-1 -1 -1
v – v
4 1
3/2 5/4 5/4
3.5.2.4 Remuneración esperada en cadenas no ergódicas
En general, una cadena no ergódica tendrá:
CF , CF ,. .. , CF clases finales (sean cíclicas o acíclicas)
1 2 m
ecp , ecp , ... , ecp estados pertenecientes a clases de paso
1 2 r
Entonces el vector g tendrá m + r componentes diferentes. Todos los estados de una misma clase final
tendrán el mismo valor de g, y los estados de las clases de pasos tendrán un valor de g diferente cada
uno:
Cadena no ergódica ® g
CF1
, g
CF2
, ... g
CFm
, g
ecp1
, g
ecp2
, ..., g
ecpr
valores distintos
© Los autores, 2002; © Edicions UPC, 2002


Cadenas de Markov
83
Tenemos entonces un sistema con n ecuaciones y n + m + r incógnitas. El sistema quedará
determinado si se hacen m + r valores de w =0.
i
Ejemplo 3.5.2.4.a Remuneración esperada para una cadena semirregular
Consideremos la matriz de transición P de una cadena semirregular y las componentes activas de la
matriz de remuneraciones R siguientes:
0,1 0,2 0 ,3 0,4 0
0 0 ,4 0 ,6 0 0
0 0 ,7 0 ,3 0 0
0 0 0 0 ,3 0 ,7
0 0 0 0 ,8 0 ,2
P
4 7 8 9
8 3
2 1 3
6 4
6 4



=
=
R
En este caso, el vector de ganancias medias por transición g tendrá tres componentes diferentes:
Un componente g asociado a la clase de paso 1.
1
Un componente g asociado a la clase final A = {2,3}.
A
Un componente g asociado a la clase final B = {4,5}.
B
En primer lugar, multiplicando las filas de P y R obtenemos el vector q:
3
5
2,5
1
4


q
Podemos, por ejemplo, plantear las ecuaciones g + w = q + Pw para la clase final A:
w + g = 5 + 0,4w + 0,6w
2 A 2 3
w + g = -2,5 + 0,7w + 0,3w
3 A 2 3
De estas ecuaciones obtenemos:
g = 20/13
A
w = 0
2
w = -75/13
3
Planteando las ecuaciones para la clase final B, tenemos:
© Los autores, 2002; © Edicions UPC, 2002


Métodos cuantitativos de organización industrial II
84
w + g = -1 + 0,3w + 0,7w
4 B 4 5
w + g = 4 + 0,8w + 0,2w
5 B 4 5
g = 4/3
B
w = 0
4
w = 10/3
5
Ahora quedan por encontrar los valores de la clase de paso, g
1
y w . Para ello contamos con la
1
ecuación:
w + g = 3 + 0,1w + 0,2w + 0,3w + 0,4w
1 1 1 2 3 4
Ahora no podemos encontrar g haciendo w = 0. Ambos valores están determinados, porque hemos
1 1
agotado los grados de libertad del sistema al hacer w =0 y w =0. Por lo tanto, necesitamos otra
2 4
ecuación. Dicha ecuación puede encontrarse a partir de las ecuaciones matriciales que g satisface:
P* · q = g
P· g = g
La opción más económica es la segunda, que nos exonera de obtener P*. Desarrollando para la
primera fila, tenemos:
0,1g + 0,2g + 0,3g + 0,4g = g
1 A A B 1
De donde obtenemos de manera directa que g
1
= 508/351. Volviendo a la ecuación g
1
+ w
1
= ..
obtenemos que w = 625/3159.
1
El significado de los valores de g y w para los estados de paso se puede deducir de las expresiones
utilizadas para hallarlos: en primer lugar g en la ecuación anterior resulta ser un promedio de los
1
valores g , g
A B
de las diferentes clases finales; ello proviene del hecho que, a largo plazo, lo que
contará como remuneración de la cadena es precisamente el valor de g que corresponda a la clase final
donde vaya a parar; por ello, la g de los estados de paso es la esperanza matemática de dichos valores,
de modo que si en la ecuación anterior aislamos g1 resulta:
g = 5/9 g + 4/9 g , lo cual nos dice que las probabilidades de que el sistema acabe yendo a la clase
1 A B
final A o a la clase final B si inicia su evolución en el estado1 son 5/9 y 4/9 respectivamente.
Por lo que respecta a las w , su significado es el mismo ya visto en las cadenas ergódicas y
i
semiergódicas; la única diferencia es que en este caso, al depender de dos grados de libertad, es un
valor referido a los niveles fijados en cada clase final; recuérdese que ello no significa que el valor real
de la remuneración sea exactamente v = Ng + w , sino solamente que v - v = w -w .
i i i j i j
3.6 Cadenas de Markov con remuneración y decisión
Se dice que un proceso markoviano tiene decisión si en cada transición se puede fijar una variable
(llamada de decisión) mediante la cual se puede elegir entre diferentes juegos de probabilidades de
transición, y eventualmente entre diferentes valores de la remuneración asociada. De esta forma, tanto
la matriz de probabilidades P como la de remuneraciones R, tienen tres índices o dimensiones: el
estado anterior, el posterior y la decisión. Por ello notamos sus elementos como p
iju
y r , donde u
ij u
representa la variable de decisión. Así, los valores posibles que podrán tomar los subíndices serán:
© Los autores, 2002; © Edicions UPC, 2002


Cadenas de Markov
85
Subíndice i (estados de origen): i = 1, 2, ..., n
Subíndice j (estados de destino): j = 1, 2, ..., n
Subíndice u (decisiones): u =1, 2, ..., d
i
Como sucede a lo largo del texto, n es el número de estados de la cadena. El valor d es el número de
i
decisiones posibles, que depende del estado de partida i.
Se llama política a una regla que fija para cada estado de la cadena el valor de la decisión a adoptar.
Podrá expresarse entonces de forma vectorial:
p = {u , u , ..., u , ..., u }
T
1 2 i n
donde las u es el valor de la variable de decisión fijado por la política para el estado i.
i
Una vez determinada una política, el sistema se transforma en una cadena de Markov con
remuneración como las que se han visto en el apartado anterior. Es importante tener en cuenta que
mientras no se ha fijado una política de hecho el sistema no responde propiamente al modelo de las
cadenas tal como se ha visto, ya que ni las probabilidades de transición ni las remuneraciones están
determinadas. Por ello, hasta que no se haya fijado una política, no tiene sentido hablar de su
clasificación ni de probabilidades estacionarias ni de remuneraciones esperadas.
Si existe capacidad de decisión es porque se pretende que la remuneración obtenida sea lo mejor
posible, lo cual puede significar máxima o mínima según la naturaleza de la remuneración: de esta
manera se puede hablar de política óptima, que es aquella que permite obtener la mejor remuneración
esperada. Téngase en cuenta que por la naturaleza aleatoria del sistema no se puede optimizar la
remuneración obtenida realmente (que es una magnitud aleatoria), sino tan sólo el valor esperado de la
misma.
La política óptima no tiene sentido si no es con relación a un horizonte determinado. Se habla así de
política óptima a corto plazo (esto es con un horizonte finito y determinado) o política óptima a largo
plazo, es decir, con un horizonte ilimitado o con un horizonte finito pero desconocido.
3.6.1 Procesos markovianos de decisión
Algunos procesos polietápicos de decisión pueden modelizarse como cadenas de Markov con
remuneración y decisión. Para que esto sea posible, deben tener las características siguientes:
El sistema puede evolucionar dentro de un número finito de estados n.
La evolución del estado en el futuro depende exclusivamente de:
- El estado i en el que se encuentra en el momento presente (esto es, el sistema cumple la
propiedad markoviana).
- Del valor de la variable de decisión escogido para el estado i, de entre los d valores posibles
i
de dicha variable de decisión.
La evolución del sistema, pues, puede definirse como una secuencia de evolución (E) según un
proceso markoviano y decisión (D) que condiciona la evolución a la etapa siguiente: este tipo se
sistemas pueden caracterizarse como sistemas E / D.
Los datos de partida para resolver el sistema son:
© Los autores, 2002; © Edicions UPC, 2002


Métodos cuantitativos de organización industrial II
86
La matriz de probabilidades de transición, para cada una de las políticas P
(p)
. Sus componentes
serán del tipo p , que no es más que la probabilidad de transición del estado i al estado j, una vez
iju
se ha tomado la decisión u desde el estado i.
La matriz de remuneraciones R
(p)
, cuyos componentes son r , definidos como la remuneración
iju
(ganancia o pérdida) obtenida al pasar del estado i al estado j, una vez se ha tomado la decisión u
desde el estado i.
Definido el problema en estos términos, es importante destacar que sólo cuando hayamos establecido
una política determinada, tendremos un proceso markoviano con remuneración.
El objetivo es ahora el de establecer la política óptima, de manera que se encuentre la política que
optimiza la ganancia esperada. Existen para ello dos métodos:
La iteración en el espacio de los estados consiste en encontrar la política que nos da la v(N) óptima,
esto es, v*(N), a partir de v*(N-1). Este método puede emplearse para obtener la política óptima para
un número finito de etapas (problema de horizonte infinito), y si se observa que el sistema converge a
una determinada política después de un número determinado de etapas, la política óptima a largo plazo
(problema de horizonte finito).
La exploración del espacio de las políticas, consistente en encontrar las g y las w para cada una de las
posibles políticas del sistema. Por su propia naturaleza, se trata de una metodología para resolver el
problema de horizonte infinito.
Seguidamente se describirán cada una de estas técnicas usando diversos ejemplos prototipo.
3.6.2 Iteración en el espacio de los estados
Como se ha expuesto anteriormente, se trata de encontrar v*(N), una vez obtenida v*(N-1). Para ello,
se hará uso de la ecuación de recurrencia definida para las cadenas de Markov con remuneración,
1
teniendo en cuenta ahora que, para cada uno de los estados origen i, hemos de valorar las políticas
posibles. En primer lugar, calcularemos la remuneración esperada si partimos del estado i y tomamos
la decisión u:
*
1
( ) ( 1 )
n
iu iu iju j
j
vN q p v N + ©

Una vez calculados todos estos valores, podremos encontrar el valor óptimo (máximo o mínimo, según
convenga) para el estado i. Una vez hayamos obtenido las decisiones óptimas para todos los estados,
quedará definida la política óptima para esa etapa:
¸ ¸ { }
*
( )
iiu
u
vN OPT v N
Con esta ecuación de recurrencia, obtendremos, para la etapa N, la política óptima a seguir si en ese
momento nos encontramos en el estado i.
1
La iteración en el espacio de los estados es, de hecho, un caso particular de programación dinámica aleatoria.
En el siguiente módulo, se desarrollará con detalle la problemática de la programación dinámica, en un
contexto más general.
© Los autores, 2002; © Edicions UPC, 2002


Cadenas de Markov
87
También podemos estudiar el comportamiento a largo plazo, si normalizamos los resultados en cada
iteración, tal como se describe en la sección 5.2.2. Podremos obtener conclusiones acerca del
comportamiento del sistema a largo plazo con este sistema si se cumplen las siguientes condiciones:
Se observa que, para un número suficientemente elevado de estados, la política óptima es siempre la
misma.
Se observa que el sistema converge, esto es:
g *
N
g
N- 1
*
v’*(N) v’*(N-1)
Entonces podremos decir que hemos encontrado la política óptima p*, teniendo además:
g
(p)
N
g*
v’ (N)
*
w*
Si no observamos una convergencia clara, o bien el sistema escoge diversas políticas, podemos
recurrir a la exploración del espacio de las políticas.
Ejemplo 3.6.2.a
Un taxista trabaja en una ciudad dividida en tres zonas: A, B y C. Situado en una zona determinada,
puede seguir tres políticas:
Política 1: circular por la calle en busca de clientes.
Política 2: permanecer estacionado en una parada de taxis en espera del cliente.
Política 3: captar clientes por un servicio de radio taxi, al que el taxista está abonado. Dicho
servicio no cubre la zona B.
La zona en que se encuentre el taxi en este momento y la política seguida, determinarán:
Las probabilidades de que el destino de su próximo servicio sea la zona A, B o C.
La remuneración (que depende de las características de los clientes captados con una
política u otra, las comisiones a pagar al servicio de radio taxi, el combustible
gastado circulando en busca de cliente, etc) obtenida al partir de una zona i y llegar a
una zona j.
Dichas probabilidades, y remuneraciones, así como la ganancia esperada q
i
(p)
(obtenidas a partir de
las p
ij
(p)
y las r
ij
(p)
) , se detallan en la tabla adjunta:
ZONA política A B C A B C q
i
(p)
A 1 0,5 0,2 0,3 10 3 8 8
2 0,1 0,7 0,2 8 2 4 3
3 0,3 0,1 0,6 3 7 4 4
B 1 0,5 0 0,5 14 0 18 16
2 0,1 0,8 0,1 6 16 6 14
C 1 0,2 0,3 0,5 12 2 8 7
2 0,1 0,8 0,1 6 4 2 4
3 0,7 0,1 0,2 4 0 6 4
Se pide determinar la política óptima para el taxista a largo plazo.
© Los autores, 2002; © Edicions UPC, 2002


Métodos cuantitativos de organización industrial II
88
Resolución:
Claramente nos encontramos dentro del marco de los modelos de Markov con remuneración y
decisión, dado que la evolución del sistema en la siguiente transición depende de:
La zona (que será el estado del sistema) en la que se encuentre el taxista en el momento actual:
el sistema es de tipo markoviano.
La política seguida por el taxista.
Lo que deseamos obtener es la política a seguir si nos encontramos en un estado determinado. Así, por
ejemplo, la política p’ = {1, 2, 3} significa que el taxista debe circular por la calle en busca de clientes
si se encuentra en la zona A, estacionarse en la parada si se encuentra en la zona B y atender al radio
taxi si se encuentra en la zona C.
Tenemos entonces 3 · 2 · 3 = 18 políticas posibles, por lo que no resulta operativo explorarlas todas.
Se trata, entonces, de llevar a cabo una exploración en el espacio de las políticas. La operativa de la
exploración se detalla en la página siguiente.
N 0 1 2 3 4 5 6 7
v
1
(1)
0 8 10,3 10,5 11 11 11 11
v
1
(2)
0 3 9,4 10,9 11,8 11,8 11,8 11,8
v
1
(3)
0 4 5,2 5,7 6,4 6,4 6,4 6,4
v
2
(1)
0 16 16,5 16,5 17 17 17 17
v
2
(2)
0 14 21,3 22,9 23,8 23,8 23,8 23,8
v
3
(1)
0 7 9,9 10,8 11,6 11,6 11,6 11,6
v
3
(2)
0 4 11,3 12,9 13,8 13,8 13,8 13,8
v
3
(3)
0 4 5,6 5,3 5,6 5,6 5,6 5,6
v *
1
0 8 10,3 10,9 11,8 11,8 11,8 11,8
v *
2
0 16 21,3 22,9 23,8 23,8 23,8 23,8
v *
3
0 7 11,3 12,9 13,8 13,8 13,8 13,8
v *'
1
0 1 0 0 0 0 0 0
v *'
2
0 9 11 12 12 12 12 12
v *'
3
0 0 1 2 2 2 2 2
g 0 7 10,3 10,9 11,8 11,8 11,8 11,8
política
A 1 1 2 2 2 2 2
B 1 2 2 2 2 2 2
C 2 2 2 2 2 2 2
Nótese que las políticas óptimas (marcadas en rojo en la tabla en cada caso) se han obtenido como:
v * = max { v
1 1
(1)
, v
1
(2)
, v
1
(3)
}
v * = max { v
2 2
(1)
, v
2
(2)
}
v * = max { v
3 3
(1)
, v
3
(2)
, v
3
(3)
}
La normalización se ha llevado a cabo según las expresiones:
g = min { v *, v *, v * }
1 2 3
v *' = v * – g
i i
© Los autores, 2002; © Edicions UPC, 2002


Cadenas de Markov
89
Nótese como el sistema evoluciones de las políticas {1, 1, 1} a la {1, 2, 2} y finalmente converge a la
{2, 2, 2}. Por tanto, podemos decir que el taxista deberá esperar siempre en la parada de taxis,
obteniendo así una ganancia media de 11,8.
3.6.3 Iteración del espacio de las políticas
La iteración del espacio de las políticas nos da la política óptima para el sistema a largo plazo para
cada uno de los posibles i estados de partida. Dicha iteración no es más que determinar g y w para
cada una de las políticas. Formalmente, consiste en resolver, para cada política p:
( ) ( ) ( ) ( ) ( ) pp p p p
+=+ w g q P w
La iteración en el espacio de las políticas tiene la ventaja de considerar comportamientos anómalos
(semirregulares o periódicos) de las diferentes cadenas de Markov asociadas a una política, pero tiene
el serio inconveniente de que supone resolver un sistema de n ecuaciones con n incógnitas para cada
una de las posibles políticas, y frecuentemente resulta más laborioso que la iteración en el espacio de
los estados. Por ejemplo, para el ejemplo 3.6.2.a debemos resolver 18 sistemas de tres ecuaciones. Es
frecuente utilizar esta exploración como confirmación de los resultados obtenidos mediante la
iteración en los estados.
El ejemplo siguiente, que representa una situación con solamente dos estados, permite mostrar las
posibilidades de la exploración del espacio de las políticas.
Ejemplo 3.6.3.a
Un profesor de Métodos Cuantitativos de la Universitat Politècnica de Catalunya (U.P.C.) debe decidir, dos
veces cada trimestre, si pone un examen fácil o difícil. Lo ideal sería poner un examen difícil, y que hubieran
muchos aprobados: esto mostraría que los alumnos han estudiado y han aprendido muchas cosas de la
asignatura. Por el contrario, si hay pocos aprobados, a pesar de que el examen ha sido fácil, significa que no
han estudiado lo suficiente. Las otras dos situaciones (examen difícil y pocos aprobados, y muchos
aprobados con un examen fácil) el profesor las considera de valor intermedio.
Ahora bien, los alumnos estudian más o menos según si en el examen anterior ha habido pocos o
muchos aprobados: si han aprobado muchos estudian poco, y si ha habido muchos suspensos estudian
mucho. Esto afecta a la probabilidad de aprobar: si después de un examen con muchos aprobados el
profesor pone un examen fácil, sólo tres de cada cinco veces habrá muchos aprobados. Si después de
una situación con pocos aprobados pone un examen difícil, habrá muchos o pocos aprobados con igual
probabilidad. Por descontado, si pone un examen difícil después de uno con muchos aprobados habrá
pocos aprobados con toda seguridad, mientras que si después de haber habido pocos aprobados pone
un examen fácil, estima que la probabilidad de que haya muchos aprobados es del 90%.
a) ¿Cuál es la política más adecuada para asegurar a largo plazo el máximo nivel medio de
conocimientos de los alumnos?
b) La Universidad ha fijado unas normas para valorar la calidad de la docencia de los
profesores, en las que el parámetro principal es directamente proporcional a la frecuencia
con que hay muchos aprobados. ¿Modificará esto la política del profesor? ¿Cuál será la
valoración de los conocimientos de los alumnos que hará el profesor si aplica esta política?
RESOLUCIÓN:
© Los autores, 2002; © Edicions UPC, 2002


Métodos cuantitativos de organización industrial II
90
a) ¿Cuál es la política más adecuada para asegurar a largo plazo el máximo nivel medio de
conocimientos de los alumnos?
Este ejemplo está menos estructurado que el del caso anterior, aunque resulta relativamente sencillo
establecer los estados y las decisiones:
El sistema (es decir, el conjunto de los alumnos) puede encontrarse en dos estados: con
muchos aprobados (M) o con pocos (P). El hecho de que el comportamiento de los alumnos se
vea condicionado exclusivamente por el último examen hace que nos encontremos con una (o
varias, puesto que variarán en función de la política) cadenas de Markov de orden 1.
Antes de la siguiente evolución, el profesor toma la decisión de que el examen sea fácil (F) o
difícil (D). Dado que el profesor debe establecer cuál es su comportamiento en función de que
haya habido muchos o pocos aprobados, podemos definir en este caso la política como:
{comportamiento si M, comportamiento si P}
Siendo así posibles cuatro políticas:
{F, F}
{F, D}
{D, F}
{D, D}
Cada política tendrá sus propias matrices P y R. Dichas matrices pueden obtenerse de la lectura atenta
del enunciado, y se muestran en la siguiente tabla: la matriz de la izquierda muestra las probabilidades,
y la de la derecha las remuneraciones. También se han obtenido los valores de q
i
(p)
para cada caso.
ESTADOS política M P M P q
i
(p)
M F 0,6 0,4 0 -2 - 0,8
D 0 1 2 0 0
P F 0,9 0,1 0 -2 -0,2
D 0,5 0,5 2 0 1
En este caso, el enunciado da cierta libertad para la determinación de los valores de R , dado que se
(p )
trata de funciones de utilidad. En este caso se ha optado por asignar a la situación más deseada
(muchos aprobados con examen difícil) una utilidad de +2, a la menos deseada (pocos aprobados con
examen fácil) una utilidad de –2, y al resto de casos (situados en un término medio en el enunciado) un
valor intermedio de cero. Pueden darse formulaciones alternativas a la matriz R , que darán lugar a
(p )
diferentes valores de q .
(p )
La siguiente tabla muestra los resultados de la iteración en el espacio de los estados:
N 0 1 2 3 4 5 6
v
M
(F)
0 - 0,8 -0,4 -0,6 -0,5 -0,55 -0,525
v
M
(D)
0 0 1 0,5 0,75 0,625 0,6875
v
P
(F)
0 - 0,2 -0,1 -0,15 -0,125 -0,1375 -0,13125
v
P
(D)
0 1 1,5 1,25 1,375 1,3125 1,34375
v *
M
0 0 1 0,5 0,75 0,625 0,6875
v *
P
0 1 1,5 1,25 1,375 1,3125 1,34375
v *'
M
0 0 0 0 0 0 0
v *'
P
0 1 0,5 0,75 0,625 0,6875 0,65625
g 0 0 1 0,5 0,75 0,625 0,6875
© Los autores, 2002; © Edicions UPC, 2002


Cadenas de Markov
91
Del examen de los resultados, obtenemos:
Parece que el sistema converge a la política {D, D} desde un primer momento.
Sin embargo, no podemos asegurar que el sistema converja, dado que tanto g como v *'
M
H w
P
no
convergen con las iteraciones dadas en la tabla .
2
Por este motivo, podemos realizar una exploración en el espacio de las políticas, evaluando el
comportamiento a largo plazo del sistema si establecemos la política {D, D}. De la primera tabla
podemos ver que:
0 1
0,5 0 ,5
P
2 0
2 0
R
Un examen de P muestra rápidamente que la cadena de Markov asociada a esta política es ergódica,
por lo que el vector g tiene todas sus componentes iguales. Realizada esta precisión, podemos plantear
el sistema:
g + w
M
= w
P
g + w = 1 +0,5w
P M
+ 0,5w
P
Para comparar con facilidad los resultados obtenidos con lo obtenido en la iteración en el espacio de
los estados, haremos w
M
= 0. Entonces se obtiene:
g = w
M
= 2/3 = 0,6667
Resultado que confirma lo obtenido con la iteración en el espacio de las políticas. Ahora podemos
decir que la política óptima es {D, D} .
3
b) La Universidad ha fijado unas normas para valorar la calidad de la docencia de los
profesores, en las que el parámetro principal es directamente proporcional a la frecuencia
con que hay muchos aprobados. ¿Modificará esto la política del profesor? ¿Cuál será la
valoración de los conocimientos de los alumnos que hará el profesor si aplica esta política?
Ahora la matriz de remuneraciones cambia (las preferencias del profesor son diferentes a las de la
Universidad), y tenemos la siguiente situación:
ESTADOS política M P M P q
M F 0,6 0,4 2 0 1,2
D 0 1 2 0 0
P F 0,9 0,1 2 0 1,8
D 0,5 0,5 2 0 1
2
De hecho sí acaba convergiendo, pero bastante despacio: podemos afirmar que w
M
= g = 0,666 después de 11
iteraciones.
3
Para poder asegurarlo completamente, deberíamos calcular g y w para las cuatro políticas. La de mayor g sería
la política óptima.
0
1
q
© Los autores, 2002; © Edicions UPC, 2002


Métodos cuantitativos de organización industrial II
92
Iterando en el espacio de los estados, tenemos:
N 0 1 2 3 4 5 6
v
M
(F)
0 1,2 1,44 1,368 1,3896 1,38312 1,385064
v
M
(D)
0 0 1,2 0 0 0 0
v
P
(F)
0 1,8 1,86 1,842 1,8474 1,84578 1,846266
v
P
(D)
0 1 1,3 1,21 1,237 1,2289 1,23133
v *
M
0 1,2 1,44 1,368 1,3896 1,38312 1,385064
v *
P
0 1,8 1,86 1,842 1,8474 1,84578 1,846266
v *'
M
0 0 0 0 0 0 0
v *'
P
0 0,6 0,42 0,474 0,4578 0,46266 0,461202
g 0 1,2 1,44 1,368 1,3896 1,38312 1,385064
Efectivamente, vemos que la política escogida ahora es {F, F}. Si juzgamos la política escogida por la
Universidad a partir de los criterios del profesor, debemos evaluar esta política {F, F} a largo plazo
con los datos del apartado a).
Tenemos ahora que:
0,6 0,4
0,9 0 ,1
P
0 2
0 2


R
0,8
0,2


q
Podemos plantear el sistema:
g + w
M
= -0,8 + 0,6w
M
+ 0,4w
P
g + w = -0,2 + 0,9w
P M
+ 0,1w
P
Si hacemos w
M
= 0, obtenemos los siguientes resultados:
g = -0,615
w = 0,4615
P
De donde cabe deducir que esta política de la Universidad da como resultado una obtención de
conocimientos por parte de los alumnos subóptima: la política {D, D} es claramente mejor que la {F,
F}.
3.7 Problemas resueltos
3.7.1 Servicio en tenis
Es bien conocido que en el deporte de tenis, el jugador que sirve tiene dos oportunidades para que la
pelota entre en el cuadrado de servicio. Si falla las dos veces, pierde el punto.
© Los autores, 2002; © Edicions UPC, 2002


Cadenas de Markov
93
En cada servicio, el tenista puede optar por sacar fuerte o flojo. Si saca fuerte, tiene una probabilidad
de que la pelota entre en el cuadro de 0,5. Si saca flojo, la probabilidad de entrar la pelota en el cuadro
es de 0,8. Ahora bien, si entra el servicio fuerte, su probabilidad de ganar el punto es de 0,7, y si entra
el servicio flojo su probabilidad de ganar el punto es de 0,4. La ganancia por punto ganado es de +10,
y la ganancia por punto perdido de –10.
Se desea conocer la estrategia a seguir para maximizar la ganancia esperada por servicio en el largo
plazo.
Se pregunta:
a) Formule el problema como un proceso markoviano con remuneración y decisión, definiendo los
estados posibles del sistema, la variable de decisión y las matrices P y R para todas las
posibilidades.
b) Mediante iteración en el espacio de los estados, identifique una posible política de servicio óptima.
c) Determine la ganancia esperada por servicio a largo plazo, si el tenista opta siempre por el servicio
fuerte.
Solución problema del tenis
La forma más adecuada de resolver el problema es definir sus parámetros del siguiente modo:
Etapas: cada servicio es una etapa en la evolución del sistema. Si se trata de un primer
servicio, puede ser que el servicio dé lugar a un punto (si entra en el cuadro) o a un segundo
servicio (si no entra). El segundo servicio dará lugar, en todos los casos, a un punto, que podrá
ser ganado o perdido.
Estados: por lo que se acaba de exponer, la información que necesitamos saber para conocer la
evolución del sistema consiste en saber si estamos en el primer servicio (estado 1) o en el
segundo servicio (estado 2). Por lo tanto, se trata de un sistema dinámico con dos estados.
Variable de decisión: el tenista puede, en parte, controlar con sus acciones la evolución del
sistema. En este caso, puede hacerlo sirviendo fuerte (FU) o sirviendo flojo (FL). El tenista
puede sacar fuerte o flojo tanto en el primer servicio como en el segundo.
Por lo tanto, nos encontramos ante un sistema de Markov con remuneración y decisión (caso particular
de los modelos de programación dinámica aleatoria homogénea en el tiempo), del que nos interesa
conocer el comportamiento a largo plazo (esto es, el problema de horizonte infinito).
Las reglas del juego del tenis, junto con las probabilidades que expresan las capacidades del jugador,
nos permitirán determinar las matrices de probabilidades de transición y de remuneración, para todos
los valores de estados del sistema y de variables de decisión.
Primer servicio
Si estamos en el primer servicio y lo entramos en el cuadro, se disputará el punto y el sistema
evolucionará al estado 1 (volveremos al primer servicio). Veamos qué probabilidades y qué
remuneraciones obtenemos para cada una de las variables de decisión.
Si saca fuerte, la probabilidad de entrar el servicio es de 0,5. Ésta será, entonces, la probabilidad de
transición. Dado que el tenista tiene una probabilidad de ganar el punto de 0,7 (y de perderlo de 0,3),
la remuneración será:
© Los autores, 2002; © Edicions UPC, 2002


Métodos cuantitativos de organización industrial II
94
0,7· (+10) + 0,3· (-10) = +4
Si, en cambio, saca flojo, la probabilidad de entrar el servicio es de 0,8. Ésta será, una vez más, la
probabilidad de transición al estado 1. Sin embargo, las probabilidades de ganar el punto en estas
condiciones no son tan halagüeñas como en el caso anterior, y tenemos:
0,4· (+10) + 0,6· (-10) = -2
Si no entra el primer servicio, no se disputa el punto y pasamos al segundo servicio: en términos del
problema, evolucionamos al estado 2. Al no disputarse el punto, la remuneración es cero. Las
probabilidades de que esto suceda dependen de la variable de decisión:
Si saca fuerte, la probabilidad de fallar el servicio es de 0,5.
Si saca flojo, la probabilidad de fallar el servicio es de 0,2.
Segundo servicio
En el segundo servicio, el punto está en juego, y si el tenista falla el servicio pierde el punto. Pase lo
que pase, el próximo saque será un primer servicio. Por lo tanto, en el estado 2 la probabilidad de
transición al estado 1 es de 1, y en consecuencia la probabilidad de transición al estado 2 es de 0.
¿Cómo puede ganar el punto el tenista en el segundo servicio? Entrando el servicio y ganando el
punto. Por el contrario, el tenista pierde el punto si falla el servicio, o si entra el servicio y pierde el
punto. En consecuencia, las remuneraciones valdrán:
Si saca fuerte: 0,5· 0,7· (+10) + {0,5· 0,3 + 0,5}· (-10) = -3
Si saca flojo: 0,8· 0,4· (+10) + {0,8· 0,6 + 0,}· (-10) = -3,6
Matrices de transición y remuneración
Ahora ya podemos formular el problema como un sistema markoviano de remuneración y decisión.
Las matrices de remuneración y decisión quedan como:
Estado 1 Estado 2 Estado 1 Estado 2
Estado 1 FU 0,5 0,5 +04 0 +2
FL 0,8 0,2 -2 0 -1,6
Estado 2 FU 1 0 - 3 - 3
FL 1 0 -3,6 - 3,6
Matriz P Matriz R Vector q
En la tabla adjunta se muestra la iteración para el espacio de los estados, que muestra que la política
óptima a largo plazo es la {FU, FU}, esto es, sacar siempre fuerte.
© Los autores, 2002; © Edicions UPC, 2002


Cadenas de Markov
95
0 1 2 3 4 5 6 7 8 9 10 11 12 13
f (1,FU) 0.0 00 2.000 4.500 3.250 3.875 3.563 3.719 3.641 3.680 3.660 3.670 3.665 3.667 3.666
f (1, FL) 0.000 -1.600 2.400 0.400 1.400 0.900 1.150 1.025 1.088 1.056 1.072 1.064 1.068 1.066
f (0, FU) 0.000 -3.000 2.000 -0.500 0.750 0.125 0.438 0.281 0.359 0.320 0.340 0.330 0.335 0.333
f (0, FL) 0.000 -3.600 -3.600 -3.600 -3.600 -3.600 -3.600 -3.600 -3.600 -3.600 -3.600 -3.600 -3.600 -3.600
f*(1) 0.0 00 2.000 4.500 3.250 3.875 3.563 3.719 3.641 3.680 3.660 3.670 3.665 3.667 3.666
f*(0) 0.0 00 -3.000 2.000 -0.500 0.750 0.125 0.438 0.281 0.359 0.320 0.340 0.330 0.335 0.333
f'(1) 0.0 00 5.000 2.500 3.750 3.125 3.438 3.281 3.359 3.320 3.340 3.330 3.335 3.333 3.334
f'(0) 0.0 00 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000
g 0.0 00 -3.000 2.000 -0.500 0.750 0.125 0.438 0.281 0.359 0.320 0.340 0.330 0.335 0.333
Podemos determinar de manera exacta el comportamiento del sistema a largo plazo planteando para la
política {FU, FU}:
g + w1 = 2 + 0,5· w1 + 0,5· w2
g + w2 = -3 + w1
Haciendo w1 = 0, obtenemos: g = 0,33 y w2 = 3,33.
En definitiva, adoptando la política{FU, FU} el tenista puede ganar su servicio a largo plazo, puesto
que la ganancia por servicio a largo plazo es positiva.
En la resolución manual, basta con iterar dos o tres etapas y resolver el sistema para la política
obtenida (como puede verse, la convergencia es bastante lenta en este caso).
3.8 Glosario de términos
Cadena de Markov:
Una cadena de Markov de orden k es un proceso estocástico cuyas probabilidades de transición están
determinadas por los valores de los estados alcanzados en las k transiciones anteriores. Dichas
probabilidades de transición se mantienen inalterables a lo largo del tiempo (de otro modo, son
independientes de la transición en que nos encontremos). Cualquier cadena de Markov puede reducirse
a una cadena de orden 1.
Cadena de Markov cíclica:
Cadena de Markov con una única clase final cíclica. Puede tener clases de paso (cadena semiergódica
cíclica) o no tenerlas (cadena ergódica cíclica).
Cadena de Markov ergódica:
Cadena de Markov en la que todas las filas de la matriz de probabilidades estacionarias de P* son
iguales, de manera que ninguno de los elementos de P* es igual a cero. Se trata de una cadena con una
sola clase final y sin clases de paso.
Cadena de Markov mixta:
Cadena de Markov no ergódica con clases finales cíclicas y acíclicas.
© Los autores, 2002; © Edicions UPC, 2002


Métodos cuantitativos de organización industrial II
96
Cadena de Markov no ergódica:
Cadena de Markov cuyas probabilidades estacionarias dependen del estado inicial, por lo que las filas
de P* pueden ser diferentes entre si. Se trata de una cadena con dos o más clases finales y al menos
una clase de paso.
Cadena de Markov regular:
Cadena de Markov semiergódica cuya única clase final es acíclica.
Cadena de Markov regular positiva:
Cadena de Markov ergódica cuya única clase final es acíclica.
Cadena de Markov semiergódica:
Cadena de Markov en la que todas las filas de la matriz de probabilidades estacionarias de P* son
iguales, de manera que alguno de los elementos de P* es igual a cero. Se trata de una cadena con una
sola clase final y al menos una clases de paso.
Cadena de Markov semirregular:
Cadena de Markov no ergódica con todas sus clases finales acíclicas.
Cadena de Markov policíclica:
Cadena de Markov no ergódica con todas sus clases finales cíclicas.
Camino:
Decimos que existe un camino entre los estados i y j si i es descendiente de j.
Ciclo:
Decimos que existe un ciclo en una cadena de Markov si existe un camino que comunique a un estado
i consigo mismo.
Clase final:
Conjunto de estados comunicados entre sí tal que si en algún momento el proceso llega a alguno de los
estados de la clase final, en las transiciones siguientes el estado evoluciona entre los estados de la clase
final.
Clase final acíclica (o aperiódica):
Clase final de una cadena de Markov de periodo superior a uno.
Clase final cíclica (o periódica):
Clase final de una cadena de Markov de periodo igual a uno.
Clase de paso:
Conjunto de estados comunicados entre sí tal que si en algún momento el proceso llega a alguno de los
estados de la case de paso, en las transiciones siguientes puede evolucionar a algún estado diferente.
Decisión:
Variable de un proceso estocástico que puede ser gobernada por el observador. Cada estado tiene
definido un número de decisiones d . Cada una de ellas da lugar a diferentes probabilidades de
i
transición y remuneraciones para ese estado.
© Los autores, 2002; © Edicions UPC, 2002


Cadenas de Markov
97
Estado:
Variable descriptiva de la situación en que se encuentra el proceso en un momento del tiempo. Puede
ser una variable cuantitativa o cualitativa. También puede ser continua o discreta, aunque en este
módulo sólo se trata el último caso.
Estado absorbente:
Estado cuya única transición posible es volver al mismo estado. Un estado absorbente constituye una
clase final de un único estado.
Estado descendiente:
Un estado i es descendiente de j si cuando iniciamos el proceso en i existe una probabilidad no nula de
que el proceso llegue a j.
Estados comunicados:
Decimos que dos estados i y j se comunican cuando i es descendiente de j y j es descendiente de i. La
comunicación entre estados es una relación de equivalencia, puesto que es reflexiva, simétrica y
transitiva.
Iteración en el espacio de las políticas:
Obtención de la remuneración esperada a largo plazo para una política determinada.
Iteración en el espacio de los estados:
Obtención de la remuneración esperada cuando faltan N etapas para finalizar el proceso, operando
transición a transición. Usando la normalización, podemos llegar la obtener la remuneración esperada
por transición a largo plazo después de operar para un número de transiciones lo bastante elevado.
Longitud de un ciclo:
Número mínimo de transiciones necesarias para volver al estado i en un ciclo, si se inició el proceso
en ese estado.
Matriz de probabilidades de transición de un paso (P):
Matriz cuadrada de orden n, donde n es igual al número de estados del proceso. Sus componentes son
las probabilidades de transición de un paso p .
ij
Matriz de probabilidades estacionarias (P*):
Matriz cuadrada de orden n, donde n es igual al número de estados del proceso. Sus componentes son
las probabilidades estacionarias
ij
.
Matriz de remuneraciones (R):
Matriz cuadrada de orden n, donde n es igual al número de estados del proceso. Sus componentes son
las remuneraciones r .
ij
Módulo z:
El módulo z de un número n es el resto de la división de n por z. Los valores posibles del módulo z van
de 0 a z – 1. Por ejemplo, el módulo 2 de 7 es 1, y el módulo 3 de 11 es 2.
Normalización:
Técnica utilizada en la iteración en el espacio de los estados, para obtener la remuneración esperada
por transición en el largo plazo. Véase la sección 5.1.2 para una definición en su contexto.
Periodo de una clase final:
Máximo común divisor de las longitudes de ciclo que pueden encontrarse en una clase final.
© Los autores, 2002; © Edicions UPC, 2002


Métodos cuantitativos de organización industrial II
98
Política:
Se obtiene una política para una transición escogiendo una variable de decisión para cada uno de los
estados. Una vez fijada una política, un proceso markoviano de decisión se convierte en una cadena de
Markov.
Probabilidad de transición de k pasos (p
ij
(k)
):
Probabilidad de que el proceso evolucione al estado j dentro de k transiciones, si en este momento se
encuentra en el estado i.
Probabilidad de transición de un paso (p ):
ij
Probabilidad de que el proceso evolucione al estado j en la siguiente transición, si en este momento se
encuentra en el estado i. En una cadena de Markov de orden uno, las probabilidades de transición de
un paso no varían con el tiempo y no dependen de la evolución seguida en etapas anteriores.
Probabilidades estacionarias (
ij
):
Probabilidad de que el proceso se encuentre en el estado j después de un número elevado de
transiciones (una vez alcanzado el régimen permanente), si el sistema comenzó su evolución en el
estado i.
Proceso estocástico:
Proceso que evoluciona de manera no determinista a lo largo del tiempo, tomando cada vez valores de
entre un conjunto de estados. Suele conocerse la ley de probabilidad que rige la transición de un estado
a otro.
Remuneración (r ):
ij
Valor numérico asociado a la transición de i a j con probabilidad de transición p diferente de cero.
ij
Puede ser un valor positivo, negativo o nulo. Su significado dependerá de la situación modelizada.
Transición:
Momento en que una cadena de Markov puede cambiar de estado. Es usual que una transición se
produzca a intervalos regulares de tiempo.
Valor propio y vector propio:
Para una matriz cuadrada A, podremos encontrar un conjunto de escalares complejos y otro de
vectores tal que A· v = ¸ · v. Diremos entonces que v es un vector propio y ¸ un valor propio de la
matriz A. Los valores propios pueden encontrarse resolviendo el sistema det(A – ¸ · I) = 0. Una vez
hallados los valores ¸ , pueden hallarse los v correspondientes resolviendo el sistema (compatible
indeterminado) A – ¸ · I = 0.
© Los autores, 2002; © Edicions UPC, 2002

52

Métodos cuantitativos de organización industrial II

conjunto de categorías mutuamente excluyentes, denominadas estados del sistema. Por ser el sistema estocástico, no se conocerá con certeza el estado del sistema en un determinado instante, sino tan solo la probabilidad asociada a cada uno de los estados. Este hecho puede expresarse en términos de probabilidad condicional: p{Et = j  Et-1 = i, Et-2 = et-2 E ,
t-3

= et-3 ... , E 0 e } = p{E = j  Et-1 = i, Et-2 = et-2 E t-3 = et-3 ..., E t-k = et-} , = 0 , , t k

donde i, j, ei pertenecen al conjunto de estados posibles del sistema. Para el caso particular de una cadena de Markov de orden 1, tenemos: p{Et = j  Et-1 = i, Et-2 = et-2 E ,
t-3

= et-3 ... , E = e } 0= p{E =t j , 0

 Et-1 = i} = pij

Donde p ijrecibe el nombre de probabilidad de transición del estado i al estado j. En una cadena de Markov de orden 1, el estado del sistema en el futuro j sólo depende del estado presente i. En este módulo sólo estudiaremos cadenas de Markov que tengan las propiedades siguientes:  Con un número n finito de estados (en oposición a cadenas de Markov de infinitos estados  posibles).  De orden 1 (si bien veremos cómo transformar las de orden superior en cadenas de orden 1).  Para este tipo de cadenas, tendremos que la ley de probabilidad condicional es de la forma: p{Et+s = j  Et+s-1 = i} = p{Et = j  Et-1 = i}

3.1.2 Matrices de probabilidades de transición En las cadenas finitas de orden 1 (es decir las que estudiamos aquí), la forma más cómoda de expresar la ley de probabilidad condicional de la misma es mediante la llamada matriz de probabilidades de transición P, o más sencillamente, matriz de la cadena. Dicha matriz es cuadrada con tantas filas y columnas como estados tiene el sistema, y los elementos de la matriz representan la probabilidad de que el estado próximo sea el correspondiente a la columna si el estado actual es el correspondiente a la fila. Como el sistema debe evolucionar a t a alguno de los n estados posibles, las probabilidades de transición cumplirán la propiedad siguiente:

p 
j 1

n

ij

1

Además, por definición de probabilidad, cada una de ellas ha de ser no negativa: pij  0 Cuando las pijcumplen las propiedades arriba indicadas, la matriz P es una matriz estocástica: la suma de valores de las filas de la matriz será siempre igual a 1 (la suma de valores de las columnas no tiene ninguna propiedad especial).

© Los autores, 2002; © Edicions UPC, 2002

Cadenas de Markov

53

Para más adelante, es interesante recordar dos propiedades de este tipo de matrices:  Si P, Q son matrices estocásticas, su producto P·Q también lo es.   Los valores propios de una matriz estocástica tienen siempre módulo inferior o igual a 1. 

3.1.3 Matrices de orden superior La condición antes expresada de que únicamente se tratarán en este módulo las matrices de orden 1 puede parecer una limitación a las posibilidades de modelización de procesos estocásticos, pero en realidad no lo es, ya que es posible estudiar las cadenas de orden superior (k > 1) mediante las de orden 1, transformándolas adecuadamente. Dada una cadena de orden k con n estados, se puede definir una cadena equivalente de orden 1 de la siguiente forma: Los estados de la cadena de orden 1 se definen como los diferentes conjuntos (ordenados) en los que puede estar la cadena superior en las k últimas transiciones. Así los estados de la cadena de orden 1 se definirán por: Xt = {E t, E t-1E , t-2 E } t-k , .... De esta forma, la nueva cadena tiene x = nkestados. Naturalmente, no todas las transiciones serán posibles en la nueva cadena: solamente aquellas en que los estados correspondientes para la cadena superior sean coherentes con la definición anterior. Dicho de otro modo: Si X t= {E ,t E ,t-1 , .... E } y t-k E t-2 X' , .... t-1 = {E' t-1E' , t-2 E' t-k-1} la probabilidad de transición P'{X | tX' }podrá ser distinta de cero si y sólo si E = E't-1 E t-2 = E't-2 etc. , , 1 t-1 y en este caso: P' { Xt | X' t-1 }= P {Et | Et-1 E ,t-2 E , ....
t-k t-

, Et-k-1}

Ejemplo 3.1.3.a: cadena de Markov de orden 2 Después de analizar en profundidad la evolución de la cotización de un valor bursátil de renta variable, un inversor ha llegado a la conclusión de que la probabilidad de que dicho valor suba su cotización (estado A), la mantenga (estado B) o baje (estado C) durante una semana de cotización depende de su comportamiento en las dos semanas anteriores. Las probabilidades se indican en la siguiente tabla: Et-1 A A 0,7 0,1 0,2 A B 0,3 0,5 0,2 A C 0,5 0,3 0,2 B A 0,4 0,1 0,5 B B 0,2 0,7 0,1 B C 0,1 0,3 0,6 C A 0,3 0,3 0,4 C B 0,3 0,1 0,6 C C 0,2 0,1 0,7
© Los autores, 2002; © Edicions UPC, 2002

Et

p(A) p(B) p(C)

54

Métodos cuantitativos de organización industrial II

Atendiendo a las definiciones que hemos indicado antes, nos encontramos ante una cadena de Markov de n = 3 estados y de orden k = 2. Pero, definiendo los estados como (E , E ) podemos convertir la t-1 t-2 cadena de orden 2 en cadena de orden 1. Contaremos con 3 =2 9 estados posibles. Como cada estado puede evolucionar sólo a otros 3 en el instante siguiente, tendremos 27 transiciones posibles. En definitiva, tendremos la matriz de transición que se muestra a continuación, en la que los orígenes son (Et-1 E )t-2 los destinos (E , E ). En cada celda, se ha indicado el valor de E , y la probabilidad , y t t-1 t correspondiente. AA AB AC BA BB BC CA CB CC B/0,1 B/0,5 B/0,3 A/0,4 A/0,2 A/0,1 A/0,3 A/0,3 A/0,2

AA A/0,7 AB A/0,3 AC A/0,5 BA BB BC CA CB CC

C/0,2 C/0,2 C/0,2 B/0,1 B/0,7 B/0,3 B/0,3 B/0,1 B/0,1 C/0,5 C/0,1 C/0,6 C/0,4 C/0,6 C/0,7

3.1.4 Probabilidades de transición de k pasos. Teorema de Chapman – Kolmogorov Puesto que las probabilidades de transición son estables en el tiempo, podemos interesarnos en conocer las propiedades de transición después de k pasos, definidas formalmente como: p{Et+k = j  Et = i} = p{E = j  E0= i} = p k
(k) ij

Esto es, la probabilidad de que el proceso se encuentre en el estado j si k etapas antes se encontraba en el estado i. Si conocemos las pij, podemos calcular las p ij(k) haciendo el siguiente razonamiento: si al cabo de m < k pasos, nos encontramos en el estado e, la probabilidad de alcanzar el estado j despues de k – e pasos será:
( )  (  piemkm pej  )

Como el estado intermedio e puede ser cualquiera, podemos determinar una expresión para la probabilidad de transición de k pasos:
( kmk ) ppp ij

 
e 1

n

( ) ie

 ( m ej  )

Haciendo m = 1, y m = k-1 obtenemos las ecuaciones de Chapman – Kolmogorov, que permiten obtener las expresiones de las propiedades de transición en el estado k a partir de las de k-1.
(k ) ppp ij

 
e 1

n

ie

 ( 1 ejk )

© Los autores, 2002; © Edicions UPC, 2002

podemos aproximarnos al estudio de las probabilidades estacionarias viendo qué ocurre si calculamos potencias elevadas de algunas matrices P. 3. el estado es el mismo y por lo tanto la matriz que representa la no-transición es la matriz identidad.1. P(2) = P·P = P2 2 2 ·P P(3) = P(2) = P·P = P ·P = P 3 de transición de k pasos a P(k) = P(k-1)·P= P·Pk-1 = Pk-1·P = Pk Es decir.429 0.571 0.429 0. que las sucesivas potencias de la matriz P indican las probabilidades de transición en tantas transiciones como se indica en el índice de la potencia. 3. esto es.2 0. y la matriz de probabilidades de estado estable como P*. razón por la que la matriz de probabilidades estacionarias tiene todas las filas © Los autores. en el sentido de que el sistema pasará por cada uno de los estados con una frecuencia regular.571 P116 Se observa que las probabilidades de estado estable de los diferentes estados son independientes del estado de origen. de dos estados.Cadenas de Markov 55 (k ) ppp ij   e 1 n  ( k ) 1 ie ej (k) Lo que indican las ecuaciones es que pueden obtenerse las matrices P partir de las potencias de la matriz P. tiene la matriz de probabilidades de transición: P1 0. 2002 . 2002.1.1 Cadenas ergódicas La cadena de Markov C1. las potencias de P definen las probabilidades en un número cualquiera de transiciones. i j Puesto que.5 Probabilidades estacionarias y tipos de cadenas de Markov Nos interesamos ahora por conocer la probabilidad de hallar el sistema en un estado determinado cuando lleva funcionando un tiempo indefinidamente largo.4 Calculemos la potencia decimosexta de esa matriz para aproximar la matriz de probabilidades estacionarias: 0. como hemos visto.5. Dichas probabilidades se denotan como . como el estudio del comportamiento a largo plazo de las cadenas de Markov. Tales probabilidades se denominan probabilidades estacionarias. Esto puede generalizarse aún más observando 0 que la P 1 representa la probabilidad de una transición y que P = I es la probabilidad en cero transiciones: si no ha habido transición. Veremos que el comportamiento del sistema puede tender a estabilizarse. por lo tanto. independiente del número de transiciones transcurridas. © Edicions UPC.6 0. El estudio de las probabilidades estacionarias puede entenderse.8 0.

las probabilidades de estado estable sí dependen de cuál ha sido el estado inicial de la cadena. de matriz de probabilidades de transición.429 0.007 0.4 Si observamos la matriz de la transición 16.3 0.571 16 P2 3.56 Métodos cuantitativos de organización industrial II iguales.8 0 0 0. vemos que otras tienden a ciertos valores.475 0.005 0. Tenemos entonces una cadena de Markov ergódica.6 0. Se trata de una cadena semirregular.5 0. © Los autores.1. Sin embargo.2 0.567 0.1 0 0. Las cadenas ergódicas pueden considerarse como un caso particular de las cadenas semiergódicas.2 0.4 P2 Si se observa la matriz de la transición decimosexta.5. Ello quiere decir que. Además. Tenemos entonces una cadena de Markov regular. en la que las probabilidades estacionarias no dependen del estado inicial. con una diferencia respecto de las cadenas ergódicas: existen estados cuya probabilidad de estado estable tiende a ser cero (esto es. tiene la siguiente matriz de transición: 0.429 0.005 0 0 0 0 0. diferentes de los de las otras filas. Las cadenas de Markov regulares (y también otras que veremos más adelante) con algunas de las columnas de la matriz de probabilidades estacionarias igual a cero se llaman semiergódicas. podemos ver que.3 0.571 0.5.1 0 0. 2002. de cuatro estados. 0.426 0.8 0. © Edicions UPC.4 0. se observa cómo todas las filas tienden a ser iguales (aunque no completamente.1. mientras algunas filas tienen el mismo comportamiento que las de los casos anteriores. por lo que sigue siendo regular. en las que no existen probabilidades de estado estable iguales a cero. ninguna de las probabilidades vale cero.4 P3 0 0 0 1 0 0 0. 0.6 0 0 0. no se trata de una cadena ergódica. que no aparecerán en el comportamiento a largo plazo). 2002 . 3. Por lo tanto.4 0 0 0 0.002 0.5 0.563 0. especialmente las dos primeras).2 Cadenas semiergódicas Tenemos ahora una cadena C2 de cuatro estados.3 Cadenas no ergódicas La cadena C3. al contario de lo que sucede con el caso regular. sigue siendo cierto que todas las filas tienden hacia un mismo valor.

2002.1.Cadenas de Markov 57 0. 2 0 0 . como veremos en ejemplos posteriores.60 0 0.1.08 0.429 0. 3. quiere ello decir que la cadena considerada no es ergódica.8 0 0 0 0 0.000 16 P3 0.571 0 0 0 3. 2002 . cuya matriz de probabilidades de transición se muestra a continuación. Más adelante.2 0 0 0 1 0 0.4 Cadenas cíclicas La cadena C4.4 se darán de forma completa y sistematizada todas las definiciones.2 1 P42k  P42k 0. por lo que el estado 1 no aparecerá en las probabilidades a largo plazo.2 0 0 Este tipo de cadenas son cadenas cíclicas. sino que muestran un comportamiento cíclico.4 P4 0 0 0 0. En este caso particular. También debemos preguntarnos qué ocurre con las probabilidades estacionarias en las cadena cíclicas.429 0.5. cuando estudiemos el cálculo sistemático de P*.800 0. 8 0 1 0 Al ir obteniendo matrices de transición.8 0. En este caso. aunque es claro que pueden existir cadenas cíclicas ergódicas.1 0 0 1 0 0. 4 8 1 0 1 0 0. 4 0 . daremos una respuesta a esta pregunta. © Edicions UPC.8 0 0. En el apartado 3. después de un número elevado de transiciones presenta un comportamiento diferente del de las cadenas anteriores.086 1 0 0 0 0. © Los autores.2.5. las transiciones impares tienden a un valor y las pares a otro: 0 0. nos encontramos ante una cadena de periodo p=2. se observa que éstas no convergen a un valor concreto.5 0.5 Clasificación de cadenas de Markov Los distintos casos examinados son sólo algunos (los más importantes) de las diferentes situaciones que se pueden dar en cuanto a la clasificación de las cadenas de Markov.571 0.2 0 0 0.32 0.114 0 0. 0. Obsérvese que la primera columna es siempre cero. ya que si las sucesivas potencias de P no tienden hacia unos valores determinados.

En este caso.58 Métodos cuantitativos de organización industrial II De lo expuesto hasta ahora. examinando la matriz de probabilidades de transición. cuya representación gráfica se puede elaborar a partir de la matriz de probabilidades de transición. De esta manera en el diagrama se representan todas las situaciones en las que un estado i es descendiente respecto de j. examinando los valores propios de la matriz de probabilidades de transición  de un paso. con las definiciones dadas. pueden establecerse dos tipos de relaciones entre ellos:  El estado i es descendiente de j si cuando iniciamos el proceso en i existe una probabilidad no nula  de que el proceso llegue a j. En la figura 3. 3. necesitamos:  Una metodología para poder clasificar la cadena como ergódica o no ergódica por una parte.  El análisis espectral. © Edicions UPC. diremos que existe un camino entre los estados i y j. 2002 . Estas propiedades permiten. definir subconjuntos de estados denominados clases. es útil recordar que.a se muestra el diagrama de transición de una cadena de Markov. puede obtenerse información acerca de la forma que presente la matriz de probabilidades estacionarias. lo cual facilita su obtención.1.  La clasificación de las cadenas de Markov puede realizarse mediante dos metodologías:  El análisis topológico. las propiedades de clase. según la teoría de grafos. y como  regular.2 Análisis topológico de las cadenas de Markov El análisis de topológico de las cadenas de Markov permite la clasificación de las cadenas a partir de la información suministrada por la matriz P utilizando propiedades relativas a la relación entre estados (propiedades de estado). Dicho circuito se caracterizará por el número mínimo de transiciones que necesitará el sistema para volver al estado i.2. 3.1 Propiedades de estado Dados dos estados de una cadena.  Los estados i y j se comunican si i es descendiente de j y j es descendiente de i.   Existirá un ciclo dentro de una cadena de Markov si existe un camino en la cadena que comunique  al estado i consigo mismo. Se conviene que todo estado está comunicado consigo mismo. Una vez clasificada la cadena.2. toda matriz cuadrada tiene asociado un grafo. Cada estado de la cadena se representa por un vértice del grafo y cada transición con probabilidad no nula se representa por una relación entre les vértices que representan los estados anterior y posterior de la misma. entonces. Dicho número constituirá la longitud del ciclo. ya que se al menos puede acceder a él en cero transiciones (circuito de longitud cero). si queremos analizar el comportamiento a largo plazo de un proceso estocástico que cumpla la propiedad markoviana. También podremos definir. semirregular o cíclica por otra. si se inició el proceso en ese estado. 2002. con independencia de que además existan otros circuitos de longitud mayor. el diagrama de transiciones de estados. Para analizar estas relaciones entre estados. la existencia de un circuito implica que todos los estados que lo forman están comunicados. Obsérvese que.  Una metodología que permita el cálculo de la matriz de probabilidades estacionarias. examinando las propiedades de los estados de la cadena y estableciendo  clases de equivalencia entre los estados. junto con su matriz de transición. a su vez. © Los autores.

hemos establecido que un estado está siempre comunicado consigo mismo. A su vez. podemos clasificar en diversas clases los estados de una cadena de Markov.a Propiedades de estado en cadenas de Markov 3. sobre una cadena de Markov.2.0 5 0 .Cadenas de Markov 59 PROPIEDADES DE ESTADO EN CADENAS DE MARKOV 1 2 .0 3 0 1 .0 7 3 4 ALGUNAS PROPIEDADES DE ESTADO: 1 es descendiente de 4 (y no al revés) 3 y 4 se comunican Pueden observarse los ciclos {2 4 3 2}. Si en su evolución a lo largo de infinitas transiciones el sistema puede pasar por todos los estados. Las clases de paso  tienen un interés muy limitado en el estudio de las cadenas de Markov. 2002 . podemos decir que un conjunto de estados comunicados entre sí constituye una clase de equivalencia.0 2 .1. 3. Es claro que.0 4 0 0 . Por este motivo. 2002. De esta manera. una clase final y una clase de paso.2.  en las transiciones siguientes el proceso evoluciona siempre dentro de los estados de la clase. puesto que el sistema debe ser capaz de evolucionar indefinidamente entre un número finito de estados.2 Propiedades de clase Dado que. La figura 3. Este caso es el que hemos definido anteriormente como cadena ergódica. podemos definir la propiedad de clase siguiente para las clases de equivalencia que se hayan establecido:  Una clase de equivalencia será una clase final si cuando el proceso llega a uno de los estados de la clase.2.0 1 P 0 0 0 . {3 4 3}. {4 4} Fig.a muestra. © Los autores. entonces habrá una única clase final que los englobará a todos ellos. © Edicions UPC. por lo que se trata de una relación de equivalencia.0 8 0 .2. por convenio.  Aquellas clases de equivalencia que no sean clases finales serán clases de paso. la relación entre estados estar comunicado es reflexiva. simétrica y transitiva. toda cadena debe tener al menos una clase final.

3.3) = 1.   Clases acíclicas (o aperiódicas): aquellas que tengan un periodo de valor p = 1. CLASES FINALES PERIÓDICAS 2 1 2 1 3 3 4 p=1 1 2 p=2 3 4 p=1 Fig. por lo que es también aperiódica. Fig.2. © Edicions UPC. Tendremos entonces dos tipos de clases finales:  Clases cíclicas (o periódicas): aquellas que tengan un periodo de valor p > 1.a Ciclicidad en clases finales de las cadenas de Markov © Los autores. por lo que su periodo es p = 2. similar a la anterior. todos estos ciclos serán múltiplos de dos).0 4 0 0 0 0 .0 7 .  La figura 3. tiene sin embargo ciclos de longitud 1. La mera existencia de un ciclo de longitud uno (en este caso el 1-1) implica que la clase es aperiódica.2. 2 y 4. La clase de equivalencia {3 4 5} es una clase final. La última. por lo que es aperiódica.3.0 4 0 0 0 .0 7 0 .60 Métodos cuantitativos de organización industrial II CLASES DE EQUIVALENCIA 1 2 . 2002. Sin embargo. 3.2.0 2 1 0 . ya que MCD(2.0 3 0 0 0 . que tiene longitud ocho. Obsérvese que la existencia de estos ciclos no impide la de otros mayores (por ejemplo 1-2-4-3-4-3-4-2-1. 3.a muestra varias cadenas de Markov.0 1 0 .3 PERIODICIDAD DE UNA CLASE FINAL Para una clase final.2.0 3 P .2. En la segunda se pueden observar ciclos de longitud 2 y 4.0 5 0 3 4 5 CLASES DE EQUIVALENCIA: La clase de equivalencia {1 2} es una clase de paso.a Propiedades de clase en una cadena de Markov 3.0 5 . se puede obtener el periodo de una clase como el máximo común divisor de las longitudes de los ciclos que pueden encontrarse en esa clase. 2002 . La primera tiene ciclos de longitud 2 y 3.

todas ellas aperiódicas.4. tenemos diversas situaciones:  Si tenemos una sola clase final aperiódica. © Los autores. Entonces. © Edicions UPC. En la tabla 3. C2. 2002 . Una cadena  regular puede ser ergódica o semiergódica.a.  La cadena tiene más de una clase final y una o varias clases de paso. La cadena es entonces no  ergódica. hablaremos de una  cadena mixta.2. tenemos varias cadenas ergódicas sin relación entre ellas.   La cadena tiene una única clase final.2. según tenga clases de paso o no. y todas ellas son periódicas.4.Cadenas de Markov 61 3. Se trata de una cadena ergódica. Clasificación cadenas de Markov Ergódica Regular positiva Cíclica (No posible) (No posible) (No posible) Semiergódica Regular Cíclica (No posible) (No posible) (No posible) No ergódica (No posible) (No posible) Semirregular Policíclica Mixta Regular Cíclica Semirregular Policíclica Mixta En las figuras 3. Clasificación según la periodicidad de las clases finales Según el número y la periodicidad de las clases finales. podemos establecer dos clasificaciones distintas de las cadenas de Markov según su número de clases finales y la periodicidad o no de sus clases finales: Clasificación según el número de clases finales Podemos tener las siguientes situaciones en relación con las clases finales de una cadena de Markov:  La cadena tiene una única clase final y no tiene clases de paso.4. no se ha incluido en la clasificación. y algunas son cíclicas y otras no. Tenemos entonces una cadena  semiergódica. C3 y C4 a partir del análisis topológico.2.  Si tenemos varias clases finales. Otra situación que podemos encontrar es la de varias clases de finales. policíclicas y mixtas son por tanto los tres casos posibles de cadenas no ergódicas. se trata entonces de una cadena  policíclica. pero tiene clases de paso. si tenemos varias clases finales.  Finalmente. mostrando las clases finales y las clases de paso. tendremos una cadena de Markov  semirregular.4 Clasificación de las cadenas a partir del análisis topológico Con las propiedades que se han definido.  Si tenemos varias clases finales. Las cadenas semirregulares.b se procede a clasificar las cadenas C1.a se muestran las diversas posibilidades derivadas de esta doble clasificación: Tabla 3.a y 3. más que una única cadena. 2002. sin que existan clases de paso.2. tendremos una cadena de Markov regular.4.2. Por esta razón.

© Edicions UPC. DE p = 2 Fig.4.5 Significado de la ergodicidad El concepto de cadena ergódica tiene relación con el comportamiento a largo plazo del sistema. es decir. 2002 .4. 2002. de p = 2: { 2 3 4 } Una clase de paso: {1 }  CADENA CÍCLICA SEMIERGÓDICA. 3.b Ejemplos de clasificación de las cadenas de Markov 3. de p = 1  CADENA REGULAR ERGÓDICA (REGULAR POSITIVA) 3 4 Una clase final. En una cadena ergódica es lo mismo el largo plazo que el corto plazo. En una cadena ergódica.62 Métodos cuantitativos de organización industrial II CLASIFICACIÓN DE LAS CADENAS DE MARKOV (1) CADENA C1 1 1 2 CADENA C2 2 Una sola clase final. 3.a Ejemplos de clasificación de las cadenas de Markov CLASIFICACIÓN DE LAS CADENAS DE MARKOV (2) 1 2 1 2 3 4 3 4 Dos clases finales. todos los estados se pueden dar a largo plazo. que en régimen permanente todos los estados tienen una probabilidad no nula de aparecer: se trata de cadenas cuyo comportamiento no varía de forma cualitativa a lo largo del tiempo. de p = 1: { 3 4 } Una clase de paso: {1 2 }  CADENA REGULAR SEMIERGÓDICA Fig. © Los autores.2.2. de p = 1: { 2 } { 3 4 } Una clase de paso: {1 }  CADENA SEMIRREGULAR Una clase final.2. salvo que se conserva la memoria del estado inicial.

Ello quiere decir que la interpretación de las probabilidades estacionarias es ligeramente distinta del caso acíclico. puesto que la única transición posible es ir otra vez al mismo. El significado de las probabilidades estacionarias representa en estas clases finales la probabilidad real de que en una transición cualquiera el sistema se halle en uno u otro estado. 2002 . pero ello es sólo fruto de nuestra ignorancia del número de transiciones realizadas. pues. © Los autores. hasta llegar a la subclase p. después del cual volverá a un estado de la subclase 1. descrita según las probabilidades indicadas por la ley condicional (o matriz P). Si se observa el sistema en un momento cualquiera. el significado de este tipo de situaciones suele ser el de un sistema que ha llegado a una situación de degradación. 2002. Una vez alcanzado éste. son un caso intermedio entre un sistema estocástico puro en el que no se puede predecir nada de su evolución más allá de la mera descripción probabilística y el caso determinista en que la evolución es conocida y por lo tanto predecible y calculable: en este caso no se conoce cuál será el estado siguiente con exactitud. en las cadenas no ergódicas el comportamiento a largo plazo depende de la situación inicial. que a largo plazo desaparecerán y por tanto sólo pueden aparecer mientras el sistema no haya alcanzado su régimen permanente. Al revés de lo que ocurre en los dos casos anteriores. Existen unos estados transitorios.6 Significado de la periodicidad o ciclicidad Una clase final acíclica representa una situación en la que la cadena evoluciona entre los distintos estados de la misma de forma completamente aleatoria.4} y {3}. de manera que la evolución de la cadena dentro de ésta clase consistirá en que pasará sucesivamente por un estado de la subclase 1. Las clases finales cíclicas. Si conociéramos este número (o mas precisamente su módulo p). en el sentido que no se puede hacer una descripción de su comportamiento más precisa que las meras probabilidades. que ya no puede evolucionar más. Las cadenas regulares y semiregulares. Podríamos decir que se trata de un sistema estocástico “puro”.Cadenas de Markov 63 En las cadenas semiergódicas. la probabilidad de hallarlo en uno u otro estado es efectivamente la probabilidad estacionaria. representan sistemas que acaban yendo a parar a una situación de este tipo. en el caso de C4 (p = 2) estas dos subclases son {2. etc. el comportamiento a largo y a corto plazo es cualitativamente distinto. etc. Matemáticamente significa que la fila correspondiente de P estará toda a ceros excepto un 1 en la diagonal principal. el comportamiento a largo plazo no está definido cualitativamente. sino que será distinto según la clase final a la que vaya a parar el sistema. las probabilidades serían distintas. © Edicions UPC.2. puesto que las potencias de P evolucionan cíclicamente. 3. Ello significa que la probabilidad estacionaria de cada estado depende de la situación inicial. por tanto. En las clases finales cíclicas se puede establecer una partición de sus estados en p subclases. luego uno de la subclase 2. pero sí que forma parte de un subconjunto bien determinado. sea ésta única o no. Un caso particular interesante dentro de las clases finales acíclicas es el de los llamados estados absorbentes: se trata de estados que constituyen por sí mismos una sola clase final. si se hace abstracción de los estados que ya no pueden aparecer. el comportamiento de la cadena no difiere del caso ergódico. que puede llegar a determinar que ciertos estados no se pueden alcanzar jamás si se parte de un cierto conjunto de estados. Finalmente.

El análisis espectral no dice nada. pero no sabemos cuáles pertenecen a cada una de las dos clases finales.3 0. A modo de ejemplo. El resto de valores propios serán de módulo inferior a 1. Una cadena de Markov cíclica (o policíclica) se caracterizará por tener. podemos conocer ciertas propiedades de su cadena de Markov asociada mediante el análisis espectral. Dado que existen ocho valores propios. La multiplicidad del valor propio 1 será igual al número de clases finales de la cadena. y en caso contrario será ergódica o semiergódica. Se parte de la siguiente propiedad general de las matrices estocásticas: Los valores propios complejos de una matriz estocástica tienen módulo inferior o igual a uno. © Edicions UPC. El resto de valores propios serán de módulo inferior a 1. se tratará de una cadena no ergódica.a: Una cadena de Markov con el conjunto de valores propios siguiente: { -0. podemos tener situaciones como las siguientes: Ejemplo 3. según el análisis espectral: Una cadena de Markov. el número de clases finales será igual a la multiplicidad de 1 como valor propio. la cadena debe tener precisamente ocho estados. tendrá un único valor propio de valor 1. a partir del examen de los valores propios de la matriz de probabilidades de transición podemos llegar a las conclusiones siguientes. 2002 . uno o varios conjuntos de raíces p –ésimas de 1. ni si hay alguno en clases de paso o no.01 0} Es una cadena de Markov cíclica: cuenta con una clase final de periodo 1 y con una clase final de periodo 2. Para detectar el número de clases finales y su periodicidad.3 Análisis espectral de las cadenas de Markov Si conocemos los valores propios de una matriz de probabilidades de transición. Cada uno de esos conjuntos revelará la presencia en la cadena de una clase cíclica de periodo p. Únicamente se puede deducir que si el valor propio +1 es múltiple. © Los autores.8 0. Una cadena de Markov semirregular. y el resto de valores propios serán de módulo inferior a 1. el análisis espectral parte de este hecho y de la siguiente propiedad: Cada clase final de periodo p genera p valores propios de valor igual a las raíces p –ésimas de 1. sin embargo. entre sus valores propios. En consecuencia. 2002. Sí sabemos que por tratarse de una cadena mixta se trata de un caso no ergódico.64 Métodos cuantitativos de organización industrial II 3. tendrá un valor propio 1 múltiple.3. regular. tanto ergódica como semiergódica. De este modo. sobre las clases de paso y por ello tampoco informa sobre si se trata de una cadena ergódica o no.4 +1 -1 +1 -0.

4 Cálculo de las probabilidades estacionarias La clasificación de la cadena de Markov permite identificar la forma de la matriz de probabilidades estacionarias P*.1. por lo que la matriz adopta la forma:  1  1 P*  1   2  n   2   2  n  n © Los autores. como veremos). En consecuencia. a mostrar cómo se calcula P* para diferentes tipos de cadenas de Markov. mientras que la segunda es de periodo 2. podemos escribir la siguiente identidad: P* lim P n  n  con lo que basta hallar este límite para conocer P* si la cadena no tiene clases finales cíclicas. 2002. Para aclarar estas cuestiones se procederá. 3. 2002 . y así facilitar su cálculo exacto. porque puede dar lugar a confusiones. la relación de P* con su comportamiento a largo plazo requerirá alguna aclaración adicional. Todas las filas de P* en una cadena regular son iguales. En consecuencia. mediante ejemplos. P* es una matriz con todas las filas iguales. al ser algunas de las filas de P* diferente del resto. se trata de una cadena policíclica.3 0.4 0. si la matriz P es de una cadena ergódica o semiergódica. por lo que la probabilidad de que el sistema se halle en uno u otro estado no dependerá de dicho estado. hecho que facilita notablemente su cálculo. © Edicions UPC. Dado que la matriz de probabilidades de estado estable identifica las probabilidades de transición después de un número de pasos suficientemente grande.b Una cadena de Markov con el conjunto de valores propios siguiente: { -0. Obsérvese que las filas correspondientes a la clase de período 2 se repetirán alternativamente en las potencia pares e impares de P. Probabilidades estacionarias para cadenas regulares ergódicas Dado que se trata de una cadena regular y ergódica. puesto que. al cabo de un cierto número de transiciones suficientemente elevado se habrá perdido la información del estado inicial.3.Cadenas de Markov 65 Ejemplo 3. mientras que en la clase de período 4 se repetirán cada 4 potencias. la matriz Pkse repetirá cada 4 potencias. 3. por lo tanto.2 -i +i -1 +1 -1 +1 } Ahora tenemos una cadena de Markov con dos clases finales. como en la cadena anterior. sin necesidad de obtener una potencia elevada de la matriz P (procedimiento desaconsejable. Para todas las clases de cadenas que no tengan clases finales cíclicas. la multiplicidad de 1 es doble: una de las clases es de periodo 4. Para las cadenas no ergódicas. su cálculo será más complejo. por otra parte.4. en las cadenas cíclicas.

8· + 0. propia de toda matriz estocástica:   i i 1 n 1 Tenemos entonces n+1 ecuaciones para n incógnitas. Sin embargo.. 2002 . Es la última ecuación la que hace a P* estocástica. de matriz de probabilidades de transición: 0. obtenemos el siguiente conjunto de ecuaciones:   k 1 n kik  p i para i =1.2· + 0.4 P1 Tiene una matriz de probabilidades estacionarias de la forma: P*  1  1   2   2 Dichas probabilidades pueden obtenerse con las ecuaciones siguientes.8 0.. n Al que hemos de añadir la ecuación.6· =  1 2 1    0.4.66 Métodos cuantitativos de organización industrial II Sabiendo que la matriz P* cumple la ecuación: P*·P = P*·P = P* Desarrollando esta ecuación matricial para una cualquiera de las filas de las matrices. i Ejemplo 3.a Probabilidades de transición para una cadena regular ergódica La cadena C1. multiplicando todos los valores de ésta por un escalar. puesto que podemos tener otras soluciones a partir de un conjunto de soluciones inicial. y nunca la que hace la suma de las igual a 1. 2002. .571  2 © Los autores.429  1  = 4/7 = 0. deberá eliminarse alguna de las procedentes del producto de matrices. En consecuencia. derivadas de la ecuación matricial P*·P=P*:    0.2 0. las ecuaciones procedentes del producto de matrices están indeterminadas.6 0.. © Edicions UPC.4· =  1 2 2 + = 1   1 2 Eliminando una de las dos primeras ecuaciones. encontramos los valores:  = 3/7 = 0. 2.1.

cada uno de ellos clase de paso. obtenemos los siguientes valores: = 0  1 = 0  2  = 3/7 = 0. © Los autores.429  3  = 4/7 = 0. 2002.a Probabilidades de transición para una cadena regular no ergódica La matriz de probabilidades estacionarias de la cadena C2.4 0 0 0.1· + 0. 2002 . Ejemplo 3.5 0. con lo que el cálculo resultará más sencillo.4 0. tienen probabilidades estacionarias iguales a cero: en el largo plazo.4. © Edicions UPC.4 P2 0. podemos eliminarlos directamente dos ecuaciones y dos incógnitas del sistema.1 0 0 0.8· + 0.2 Probabilidades estacionarias para cadenas regulares no ergódicas Las matrices de probabilidades estacionarias de este tipo de cadenas regulares tendrán la misma forma  que las matrices de las cadenas regulares ergódicas.4· + 0.2 0 0 0. c dado que después de infinitas transiciones el sistema se encontrará en una clase final con toda seguridad.571  4 Los estados 1 y 2.6 Y la matriz de probabilidades estacionarias será de la forma:   2 1 P*   2 1 3 3  4  4 Haciendo de nuevo P*·P = P* tenemos el conjunto de ecuaciones:    0. no encontraremos el proceso en ninguno de estos dos estados. es: 0.2. es obvio que si sabemos ya que 1 2 estos estados son de paso.4.4· + 0.3 0.2· + 0.   Aunque los resultados  =  = 0 se obtienen del sistema anterior.Cadenas de Markov 67 3.3 0.5· + 0.3· =  1 2 1    0.4· =  3 4 4 + + + = 1     1 2 3 4 Eliminando una de las cuatro primeras ecuaciones.6· =  1 2 3 4 3    0. con el rasgo distintivo de que las lases de paso = 0.3· =  1 2 2      0.8 0.

.5 0.4. © Edicions UPC.2} y {5} Se trata por tanto de una cadena semirregular.4.3.3 0. y diferentes de cero los  de las transiciones con destino en las clases finales.2 0 0 0 0 0 0 0.7 0.7 0. se resuelven tantos sistemas de ecuaciones   k 0 n kki  p i para i =1.1 0.5 0 0 0 0 0 0 0.7} y {8}.3 0. 2002 .4. 2002. cada clase final dará lugar a un "formato" distinto de fila.1 0 0. así como dos clases de paso: {1..4 0. Cada estado perteneciente a una j clase de paso tendrá una fila diferente en P*.4}. Por supuesto.1 0.2 0 0 0 0 0 0.1 0 0 0 0 0.6 0 00000001 El análisis topológico nos dice que hay tres clases finales acíclicas: {3. n   i i 1 n 1 como clases finales y estados de las clases de paso tenga la cadena. Se trata entonces de proceder en dos pasos: Se hallan las matrices P* correspondientes a las cadenas regulares positivas definidas por cada una de las clases finales (según el procedimiento descrito en 3. la naturaleza de las distintas clases facilita también el cálculo de la matriz P*:  Las columnas de P* pertenecientes a estados de paso serán todas cero. {6.3 Probabilidades estacionarias para cadenas semirregulares Aunque las cadenas semirregulares presentan mayor complejidad.68 Métodos cuantitativos de organización industrial II 3. Ejemplo 3. Para hallar las filas de los estados de paso.  Las filas de los estados de las clases de paso serán de la forma siguiente: los valores de las de  i las transiciones con destino en estados pertenecientes a clases de paso serán cero.4 0 0 0 0 0 0 0..3 0. con los valores de las  columnas correspondientes a estados no pertenecientes a la clase final considerada iguales a cero.a Matriz P* para una cadena semirregular Sea la cadena de Markov definida por la siguiente matriz de probabilidades de transición: 0.1) y se componen con ellas las correspondientes filas de sus estados.. © Los autores.6 0.1 0. 2.1 0.   Las filas de los estados de una misma clase final serán todas iguales.4 0.3 0 0 0 0 P = 0 0 0.

Nos quedan por lo tanto 14 incógnitas.a Cadena de Markov semirregular Analizando las matrices ergódicas regulares de las tres clases finales. c = 0. ya que el estado 6 sí es descendente del 1. 3. Sin embargo. por ejemplo.Cadenas de Markov 69 8 1 2 5 6 7 3 4 Fig. a través del 2 y del 5. no se puede deducir de ello que. 2002. lo mismo que las 1-6 y 1-7. 2002 . Escribimos en primer lugar las siempre obligadas: a+b+c+d+e=1 i + j + k + l +m = 1 p+q+r+s=1 El resto de ecuaciones se deben establecer a partir de las expresiones ya conocidas: © Los autores. © Edicions UPC.3. Obsérvese que aunque la transición 2-8 tiene probabilidad cero. del diagrama de transiciones se puede deducir fácilmente que desde el estado 5 no se puede ir a la clase {8} por lo que t = 0. podemos hallar buena parte de los valores de P*: 00ab0cde 00i j0k 0 0 2/3 1/3 0 0 0 0 P* = 0 0 2/3 1/3 0 0 0 0 00pq0rs t 0 0 0 0 0 4/9 5/9 0 0 0 0 0 0 4/9 5/9 0 00000001 lm donde se han representado con letras los valores aún no conocidos y se han recuadrado las submatrices correspondientes a las clases finales.4. por lo que debemos ahora establecer 14 ecuaciones para hallar estos valores.

t = 0 Téngase en cuenta que esto no se puede escribir para los estados 1 y 2.67 = r + s. sin embargo. también existen combinaciones lineales entre ellas que no podemos utilizar. ya que de ellos no se va directamente sólo a clases finales. pero de esta manera es mucho más sencillo hallarlas sin tener que buscar en la maraña de 128 igualdades posibles. La tarea. En el estado 5.67 = 1 – 0. Pero no hay que preocuparse demasiado por el sistema de ecuaciones resultante: usualmente se puede reducir con cierta facilidad. de lo que se concluye que a y b son proporcionales a 2/3 y 1/3. por tanto. basta con ella para hallar los valores que permiten completar la fila 5: p = 8/21. no obstante. Hay que decir que todas ellas se pueden hallar a partir de las expresiones matriciales indicadas. sino sólo una. Una vez el sistema ha ido a parar a dicha clase. que se cumple siempre para todas las clases finales. pero ello generalmente conduce a situaciones más complejas que no suele valer la pena acometer.34 * 1/3. parece complicada. Por supuesto la probabilidad P1. 2/3 y 1/3. la probabilidad que se halle en uno u otro estado es justamente la probabilidad estacionaria de la clase final.4} lo cual tiene una probabilidad que llamaremos P 1.34 es desconocida.7 y análogamente para P5. esto supone que podemos escribir: p + q = 4/7 r+s=3/7 Desgraciadamente. en este momento tenemos ya 5 valores calculados y otras 6 ecuaciones para hallar los 15 valores desconocidos de la matriz escrita más arriba. es evidente que P 5. en teoría. Pero ello quiere decir que el sistema ha ido a parar a la clase {3. de entre las cuales = deberemos elegir las 11 que faltan. r = 4/21. s = 5/21. 2002 . © Edicions UPC.3 = 0. Si seguimos la notación anteriormente establecida. en nuestro caso.34 + P5.3) / 0.7 y como p + q = P 5. Muchas de estas igualdades serán simples identidades que no sirven para nuestro propósito. de las propiedades de estas matrices se pueden deducir algunas relaciones que permiten establecer fácilmente algunas de las ecuaciones necesarias. Esta propiedad. escribir (2 n) 2 128 igualdades. aunque sí sabemos que vale precisamente a + b. Así pues. estas igualdades no proporcionan dos ecuaciones más. ya que hay combinación lineal con las anteriores.2} sea una misma clase de paso: los estados de la misma clase de paso no tienen por qué tener las mismas probabilidades estacionarias. o bien va directamente a una clase final. Tampoco vale el hecho de que {1. De ello se deduce que a = P 1. un análisis probabilístico parecido nos permitiría establecer expresiones semejantes para los estados 1 y 2. Consideremos en primer lugar los valores a y b: representan las probabilidades de hallar el sistema en los estados 3 y 4 sabiendo que ha empezado su evolución en el 1.34.34 = (0. q = 4/21.70 Métodos cuantitativos de organización industrial II P P* = P* P = P* Esta doble igualdad matricial nos permite. © Los autores. la cadena sólo puede hacer dos cosas: o bien se mantiene en él. 2002. nos permite establecer inmediatamente seis ecuaciones más: a / b = i / j = p / q = (2/3) / (1/3) = 2 c/d=k/l=r/s=4/5 En este caso existe además otra propiedad (que no se da siempre) que también nos facilita escribir algunas de las ecuaciones. Por supuesto.34 * 2/3 y b = P 1.1 + 0.

3 k + 0.8 = 0 Tres observaciones finales:  Primera: en este caso la existencia de un estado de paso del cual sólo se puede salir para ir a  alguna clase final permite el cálculo directo de la fila correspondiente.3 m con lo cual e = 7/17. 2002 .34 = 64/119. P5. P2.4a + 0. P1. d = 10/357.Cadenas de Markov 71 Para ello lo más productivo suele ser desarrollar las expresiones para el cálculo de los valores desconocidos mediante la expresión P* = P·P* en grupos de la misma columna: Empecemos por la pareja a. P1.  Segunda: la utilización en cada paso de los valores ya obtenidos permite la reducción de los  sistemas de ecuaciones resultantes y por tanto también facilita el cálculo incluso manual. efectivamente.4 e + 0.1·1 m = 0. i: a = 0.34 = 4/7.3i + 0. l = 10/119 Y finalmente.67 = 6/119. 2002.k = 0 7k.7 e + 0.2p  3a – i = 2/3  7i – 4a = 1/7 Como p es conocido.1 k k = 0. © Edicions UPC. P2.4c = 8/21 con lo que c = 8/357. i = 146/357. j = 73/357 Repitamos la técnica con c y k: c = 0.67 = 3/7. para e y m: e = 0. y la matriz de probabilidades estacionarias resulta ser: 0 0 128/357 64 / 357 0 0 146/357 73 / 357 0 0 2/3 1/3 0 0 0 0 P* = 0 0 2/3 1/3 0 0 0 0 0 0 8/21 4/21 0 5/21 4/21 0 0 0 0 0 0 4/9 5/9 0 0 0 0 0 0 4/9 5/9 0 00000001 0 0 8 / 357 24 / 357 10 / 357 30 357 7 / 17 4 / 17   3e – m = 1 7m – 4e = 0 De esta matriz es inmediato deducir las probabilidades de que el sistema vaya a una u otra clase final según el estado inicial: P1.1i + 0. P5.8 = 7/17 P2.7a + 0. la suma de los valores de cada fila es 1. k = 8/119. que se resuelve fácilmente y permite además obtener inmediatamente los valores de b y j: a = 128/357.1 m + 0.2 r   3c . b = 64/357.34 = 73/119.1 · (2/3) + 0.8 = 4/17 P5. por supuesto eso no tiene por qué ocurrir en general.4 c + 0. m= 4/17 Se puede comprobar que. © Los autores.1 · (2/3) i = 0.7 c + 0. queda tan solo un sistema de dos ecuaciones y dos incógnitas.67 =18/119.

mediante análisis topológico.0769 0 0 0 0 0.6 1 0.6324 0 0 0.1 0. tenemos:  =  = 1/3   1 3  =  = 2/3   2 4 Para las dos primeras filas.6667 P* © Los autores. 1 0 0 0 0 0 0 1 0. En el caso que nos ocupa.3333 0. Ejemplo 4. © Edicions UPC. 2002.3333 0.6667 0.3 0.3.3162 0. la ecuación matricial: P·P* = P* El resultado es la matriz: 0 0 0.2949 0. Según lo expuesto anteriormente. que se trata de una cadena semirregular.5 0.2 0.5 0 0 0 0 P 0.6}.0342 0.0385 0.6667 0 0 0 0 0 0 0 0 0. la matriz de probabilidades estacionarias tiene el aspecto siguiente: 0 0 0 0 0 0 0 abc 0 efg 0  1 0  1 0 0 0 0 d h 0 0   4   4 P*  0 2  0 2 0  3 0  3 Los valores no nulos de los estados pertenecientes a clases finales pueden hallarse resolviendo la clase final concreta.72 Métodos cuantitativos de organización industrial II  Tercera: la técnica de escribir las ecuaciones para los elementos de la misma columna permite en  general trocear el sistema en otros más pequeños y con ello reducir notablemente la dificultad del cálculo.3333 0.3333 0.5 0 0 0.5 El lector puede comprobar fácilmente.5897 0 0 0. 2002 . para las dos primeras filas de P. en la que existe una clase de paso {1.6667 0 0 0. se trata de plantear.2}. y dos clases finales {3.0171 0.b Matriz P* para una cadena de Markov semirregular Sea la cadena de Markov cuya matriz de transición de un paso es: 0.4 0. 3 0 0 0 0 0 0 0 0 0 0 0 0.4} y {5.

5 0.4 1 1  *(2 k)  *(2 k 1) P P 2 2 0.4 Probabilidades estacionarias para cadenas con clases finales cíclicas En las cadenas regulares y semirregulares se cumple que: P* lim P  n  En las cadenas cíclicas.4 0.1 0. P*(2).2  0 1 2 0 0 0.2 0 Para determinar las matrices Pnk basta tener en cuenta las igualdades: kP* = 1/p ( P k+ P k+1 + . P*(1). la cadena C4. 0.5 0..5 0. cuya matriz de probabilidades de transición de un paso se muestra a continuación.. p   Ejemplo 3. .08 0.48 0 0. P* (p) Sin embargo. sino del promedio de las dos 4 matrices de probabilidades a las que tiende el comportamiento del sistema: P* 0 0 0 0 0. 2002. La diferencia es que ahora no se trata del límite de las potencias de P .1 0. 2002 .. © Edicions UPC. entonces tendría las filas iguales: se trata de una cadena regular semiergódica. P = P ·P.32 0 0. P* 1  P *(1) P *(2)  P *( p )   .8 0 0 0. 2 0 0 ..2 0..6 0 1 0 0..5 0. por su naturaleza. por lo que no hace falta repetirlo.4.4..5 0.Cadenas de Markov 73 3.a Matriz P* para una clase final cíclica Como se ha visto anteriormente.1 0.4 0. 8 0 0 1 0 P4 Para hallar la matriz de probabilidades estacionarias de P procedemos formalmente como si la clase 4 final no fuese cíclica.. .1 0 0 0 1 0 0 0. no existe este límite. Afortunadamente.4 0.1 0.8 0 0 1 0.4 0. Pk = P k-1·P © Los autores.8 0 1 1 0  0 0 2 0 0. La cadena evoluciona hacia tantas matrices de transición a largo plazo como el periodo p de la cadena.12 0. cuenta con una clase cíclica de p=2. +P 1) k+1 k k+2 k+1 P = P ·P.. La diferencia es que el significado es ahora diferente: en lugar del límite de las potencias de P es el promedio de las matrices de evolución a largo plazo de cada uno de los periodos. el hecho de que no exista un límite de las potencias de P no significa que no exista P* entendida como la matriz de probabilidades estacionarias. el proceso indicado para las cadenas regulares y semirregulares sirve también aquí. por lo que tendremos un conjunto de matrices: .4 0..4.

2002 . como en este caso.6 00 00000000001 00 00 00000000001 00 Se observa que se trata de una cadena mixta (se han recuadrado las submatrices ergódicas correspondientes a les cuatro clases finales).9 1/20 0 0 1/20 0 0 0 0 0 0 0 0 0 0 0 0 0. © Edicions UPC.4. mientras que las otras dos tienen ciclos de longitud 3 y 2 respectivamente.1 0 0 0 0 0.b Matriz P* para una cadena mixta Sea la cadena de Markov definida por la siguiente matriz de probabilidades de transición: 0. El lector debe hacer por su cuenta los cálculos para determinar los valores de P* y comprobará que obtiene los siguientes valores (se han suprimido las columnas de clases de paso): 23/42 19/315 38/945 19/1990 19/1990 19/315 19/255 38/357 19/420 19/1050 19/700 4/7 2/35 4/105 1/105 1/105 2/35 6/85 12/119 3/70 3/175 3/350 1/2 1/15 2/45 1/90 1/90 1/15 7/85 2/17 1/20 1/50 3/100 0 2/15 4/45 1/45 1/45 2/15 14/85 4/17 1/10 1/25 3/50 100 0 0 0000 0 0 0 1/3 2/9 1/18 1/18 1/3 0 0 0 0 0 1/3 2/9 1/18 1/18 1/3 0 0 0 0 P= 0 1/3 2/9 1/18 1/18 1/3 0 0 0 0 0 1/3 2/9 1/18 1/18 1/3 0 0 0 0 0 1/3 2/9 1/18 1/18 1/3 0 0 0 0 0 0 0 0 0 0 7/17 10/17 0 0 0 0 0 0 0 0 0 7/17 10/17 0 0 0 0 0 0 0 0 0 0 0 1/2 1/5 3/10 0 0 0 0 0 0 0 0 1/2 1/5 3/10 0 0 0 0 0 0 0 0 1/2 1/5 3/10 0 0 0 0 0 © Los autores. Obsérvese que el estado 5 es un estado absorbente. Lo más fácil es elevar P al cuadrado. y la clase {11.1 0.3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.8 0. cosa evidentemente errónea.4 0.1 0 0 0 0 0 0 0 0 0 0 0 0 0.12} es aperiódica.7 0. 2002.2 0. Entonces no se verá la aparición de ciclos de longitud 2.1 0 1/20 0 0 00 00100000000 00 0 0 0 0 0 0 2/3 1/6 1/6 0 0 0 0 0 0 00 00000001000 00 P= 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 00 00000001000 00 00 00010000000 00 00 00000000010 00 0 0 0 0 0 0 0 0 0 0 0. tentación en la que es fácil de caer disponiendo de un ordenador con una 2 hoja de cálculo. Compruébese que en la potencia P 16 ya se obtiene P 2kpor lo que esta matriz se puede confundir con .7 0.74 Métodos cuantitativos de organización industrial II Hay que darse cuenta aquí de la posibilidad de error que existe si se clasifica la cadena simplemente calculando potencias de P. Ejemplo 3. P*. luego hacer lo mismo con P y así sucesivamente.4.1 0 0 0 0 0 0 0 0 0 0 0 0 0 3/4 0 0.

un significado de ganancias. De hecho. Véase que si se inicia la evolución del sistema en el estado 4. es un modelo bastante habitual definirla de manera que su valor sirva para contar el número de veces que han sucedido determinadas transiciones. p11 P pnnn 1 p p1n R rnnn 1 r r11 r1n La palabra remuneración no debe hacer presuponer nada sobre la naturaleza de este valor. estudiaremos cómo obtener la remuneración total esperada a corto plazo de un proceso estocástico que pueda ser representado por una cadena de Markov.Cadenas de Markov 75 Sin embargo. 3. cíclicamente de unas filas a otras sin que sin embargo se lleguen a observar todos los valores en todas las filas. ij ij De esta forma. 3. el significado de estas probabilidades es diferente según el estado (fila) de la que se trate. pero también puede tenerlo de costes. Esto es un efecto de los ciclos de las clases finales.1 Remuneración esperada a corto plazo En esta sección. junto a la matriz P ya conocida. pérdidas o cualquier otra cosa. El problema al que nos enfrentamos ahora es el de encontrar la remuneración esperada de un proceso estocástico representable por una cadena de Markov. la probabilidad de caer en el estado absorbente 5 es nula. ya que ello puede llevar fácilmente a engaño. Solamente si se multiplica por P para obtener la potencia siguiente se puede ver como en efecto los valores de las clases {6-10} y {13-15} se repiten cada tres y cada dos potencias. De ahí la advertencia hecha al principio de no intentar clasificar la cadena mediante la "fuerza bruta" del ordenador. en las filas 6-10 se observa como los mismos valores se van "moviendo" . Si se introduce la matriz P en una hoja de cálculo y se eleva al cuadrado unas cuantas veces (con seis veces será suficiente) se observará como la fila 5 no varía. mientras que en las filas 13-15 se repiten los mismos valores ya desde P 2 En cambio. 2002. r . beneficios etc. Para los estados de paso se trata de una combinación según las leyes del cálculo de probabilidades de las diferentes situaciones finales que se pueden dar. que no se observan fácilmente si nos limitamos a calcular potencias muy elevadas de P simplemente elevando al cuadrado. tanto a largo plazo como a corto plazo. mientras que en las dos clases cíclicas es un promedio de tres y dos potencias sucesivas respectivamente. mediante la iteración en el espacio de © Los autores. las filas 11 y 12 tienden hacia los valores finales más o menos rápidamente. en efecto. como corresponde a su naturaleza. con p >0) se le ha asociado un valor numérico arbitrario. © Edicions UPC. que puede ser cualquier cosa según convenga al modelo: puede tener. 2002 . tenemos ahora una matriz R de remuneraciones. por ejemplo.5 Cadenas de Markov con remuneración Decimos que a una cadena de Markov definida por una matriz P se le ha asociado una remuneración cuando a cada transición posible (esto es. También se ve ahora como el significado de P* es distinto: en la clase {11-12} son efectivamente probabilidades una vez perdida la memoria del estado inicial. Se trata de determinar dicha remuneración cuando el número de transiciones N es fijo.5.

en la que faltarán N –1 transiciones para acabar. La aplicación de esta ecuación constituye la iteración en el espacio de los estados. © Edicions UPC. es Obsérvese que una vez hechos los cálculos con normalización. 2002 . es decir. las remuneraciones esperadas para el sistema cuando i queden N iteraciones para acabar partiendo desde cualquier estado i inicial. 3. Por ello las ecuaciones de recurrencia quedan la forma siguiente:  (N 1 vqP )v  '( N  )  '( N (N )  N vvg ) donde gN un vector con todas las componentes iguales. procedimiento que ayuda a simplificar el proceso de cálculo.1.2 Normalización La técnica de la normalización consiste en restar sistemáticamente al valor obtenido en cada transición una cantidad determinada y operar en lo sucesivo con la diferencia. y si partimos del estado i.1 Iteración en el espacio de los estados Si v i(N) representa la remuneración total esperada cuando quedan N transiciones para finalizar el proceso. podemos utilizar la misma ecuación. En cuanto a la q . nótese que se obtiene i como producto de la fila i de las matrices de probabilidad de transición P y de remuneraciones R (no T se trata. pero esta vez en forma vectorial: (N vqP )v  ( N  )  1 Esta expresión recursiva (se obtiene el valor del estado N a partir del valor para N–1) nos permite obtener las remuneraciones esperadas del sistema para valores cada vez más alejados del instante final conociendo unas condiciones de contorno que definen la remuneración esperada después del final del proceso v(0). sino que matricialmente se escribiría P·R ). 2002.5.76 Métodos cuantitativos de organización industrial II los estados. También se introducirá la normalización.1. j representa los n estados posibles que podrá tomar el sistema en la siguiente transición.5. obtener el valor verdadero de la remuneración esperada es muy sencillo: © Los autores. podemos escribir: viij( ) N p j 1 n  ·rij v j ( N  )   qi  1  n j 1  p  v 1   ( N ) ij j  qpr iij   j 1 n  ij En las dos expresiones. Si queremos obtener todos los v (N). Representa la remuneración esperada de la transición del estado N al estado N – 1 y es función del estado actual i. entonces del producto de matrices P·R. 3.

Dicha observación no es en absoluto evidente si sólo disponemos de la tabla sin normalizar.43 1.1. mientras que la Regla 2 facilita la comparación de los vectores v' Ejemplo 3.85 16.72 16.00 18. y en segundo lugar permite observar con más facilidad la llegada del régimen permanente.72 16.20 1.4 R 10 20  40  0 2 Las filas segunda y tercera muestran el vector v.29 18.29 18.84 16.  1 Esta técnica tiene dos ventajas: en primer lugar evita que los valores de v(N) crezcan de forma desmesurada. Queda por determinar como se fija la g .86 v1 v2 v'1 v'2 gN Como se ve fácilmente en la tabla normalizada.44 1. sin embargo.43 1.00 17.85 16. de manera que teóricamente basta repetir dicha iteración hasta llegar al número deseado.86 16.39 1.20 16.00 0.00 0. Las dos más habituales son: Regla 1: Regla 2: gvN min  i ( ) N i  gvN .43 1. lo cual evita errores en los cálculos manuales.20 16.29 18. obtenida siempre como el valor más N pequeño de v. a partir de la séptima transición aparece ya el régimen permanente.00 0.Nvalor que tendrán todas las componentes de g : en principio N dicho valor es arbitrario.2 Remuneración esperada a largo plazo Mediante la iteración en el espacio de los estados se puede calcular la remuneración esperada en un número cualquiera de transiciones. La última fila es la correspondiente a g .00 0. 2002.86 16.87 16.86 16.00 0 16.00 0.86 16.6 0.43 1. 3.2.91 16.00 0. donde k es un estado elegido previamente.84 16.00 0.52 1.. y la quinta y sexta v’. pues en régimen permanente el estado de mínimo valor será siempre el mismo. 2002 .86 16.5. N k( ) Ambas reglas conducen a largo plazo a los mismos resultados (salvo unas diferencias constantes)..00 1. puesto que en el momento que en dos transiciones (consecutivas o no) se repitan los valores tanto de la g N como de v(N) podemos afirmar que se ha superado el régimen transitorio y se ha alcanzado el régimen permanente. 0 1 2 3 4 5 6 7 8 9 10 11 0.43 0 0.42 1. las propiedades que se obtuvieron en la primera parte del © Los autores.29 18.Cadenas de Markov 77 R ( vvgN ) '(n  ) N g N   g1 .8 0.29 0.40 18.00 17.30 18.86 16.00 0.91 16.28 18.28 18.24 18. lo cual tiene ventajas indiscutibles para el cálculo.5.00 0. y lo importante es que se determine según una regla fija. obtenido a través de sucesivas normalizaciones.00 0.87 16.00 16.a Iteración en el espacio de los estados y normalización La tabla siguiente muestra las sucesivas iteraciones realizadas para determinar el comportamiento de la cadena C1. © Edicions UPC.2 0. La Regla 1 tiene la ventaja de que se asegura que los valores de v'(N) son siempre mayores o iguales a cero.00 18. con las matrices de probabilidades de transición P y de remuneraciones R siguientes: P 0.86 0 1 2 3 4 5 6 7 8 9 10 11 0 2.

puesto que dichas variables no tienen sentido por ellas mismas. y w un factor de corrección i función del estado inicial i. encontramos el siguiente resultado:  viiij N ) q p j ( N  ) ( 1  v j 1 n Ngi  qiij wi p (1)     N  jjj 1 nnn  g j w j   qi ( N  )  pij  jij 1 g 1 p  j w 1 La ganancia media por transición para el estado inicial i puede obtenerse a partir de las ganancias medias del estado siguiente: gpg   j  iij j 1 n Esto nos permite obtener la siguiente ecuación. Si sustituimos las v (N) por estas expresiones en las ecuaciones de iteración en el espacio de los i estados. 2002 . Efectivamente. Dicha remuneración dependerá fundamentalmente de la remuneración obtenida en la clase final a la que finalmente vaya a parar la evolución del sistema. puesto que tenemos n ecuaciones para 2n incógnitas. Podremos representar este hecho haciendo que. para un número de transiciones lo bastante elevado:  vi *(N)  Ngi + w i  v*(N)  Ng + w En estas expresiones.78 Métodos cuantitativos de organización industrial II módulo hacen pensar que el sistema tenderá a tener una remuneración promedio (remuneración esperada dividida por el número de transiciones) estable a largo plazo. para cada uno de los estados: wgq iii p  j 1 n ij  j w La ecuación puede expresarse también en forma vectorial. hemos de tener en cuenta dos cosas:  La indeterminación afecta a las w i.  sino que lo tienen sus diferencias. Sin embargo. podemos escribir: ww v iji  * v j (N )  *(N ) © Los autores. para el conjunto de estados i: w P w gq En principio. © Edicions UPC. sin embargo. g representa la ganancia media por transición. 2002. ya que es en ella donde se producirán la mayoría de las transiciones (supuesto el número de estas suficientemente grande). tenemos un sistema altamente indeterminado. es obvio que dicho valor promedio ha de venir afectado por un factor de corrección que dependa del estado i en el que se inicie el proceso.

g representa el valor promedio de la remuneración obtenida en las diferentes i transiciones de la cadena dentro de la clase final. con un grado de libertad que nos permite fijar arbitrariamente el valor de una de las wi .5. habrá un cierto número de transiciones (  h asta que pase por primera vez por el estado k durante las ) cuales se obtendrá una remuneración esperada v (i  . como que:  vi *(N)  Ngi + w i esto puede entenderse de la siguiente forma: Como ya se ha dicho. w representa la diferencia entre esta ) i remuneración y la que correspondería según el valor medio: wi = v i(  . El hecho de fijar a cero uno u otro de los valores no tiene una significación arbitraria. puesto que puede obtenerse a partir de las ecuaciones obtenidas anteriormente con menos esfuerzo. © Los autores.Cadenas de Markov 79  La estructura del vector g depende del tipo de la cadena de Markov. Pues bien. para una cadena regular tendremos un sistema de n ecuaciones con n+1 incógnitas (la g y las w i). aunque los valores de w no están determinados debido al grado de libertad del sistema. a través de esta ecuación podemos conocer cuántas componentes diferentes tendrá el vector g. por lo que todos los componentes del vector g son iguales: Cadena regular  g1= g = . Lo más conveniente es hacer una w = i 0 para simplificar los cálculos. El caso con actualización se trata al final para todos los tipos de cadenas conjuntamente. todas las filas de P* son iguales. ya que equivale a la determinación del estado para el cual se hace cero el valor v'(N) al normalizar.2. Aceptemos ahora que se ha fijado un estado k de la cadena tal que w =0. y que k pertenece a la clase k final (si la cadena es ergódica tal cosa es obligada). Si la evolución del sistema parte de un estado i. Puede deducirse la forma de g  a partir de la matriz de probabilidades estacionarias: g = P*·q = P·g No resulta ventajoso obtener g de esta manera. Evidentemente. sí lo están sus i diferencias: v wi  j  lim vi' N )  'j ( N ) w (  N   Además. 2002.. © Edicions UPC. y así obtener el resto de ecuaciones. 3. si tomamos el estado k fuera de la clase final o el valor fijado en uso del grado de libertad del sistema. Sin embargo. En efecto. gi ) . = g =n g 2 Por lo tanto. 2002 . ello no significa más que un simple corrimiento del "nivel de referencia". es decir.. Si la cadena es regular.1 Remuneración esperada a largo plazo en cadenas regulares Consideraremos por el momento el caso sin actualización (o con  = 1 si se prefiere) .

© Edicions UPC.1w 5 3 Tenemos cinco ecuaciones y seis incógnitas.1 0.   Si el proceso pasa de un estado i a otro j.a.5. Por lo tanto.5 0 0 0 0. En este caso. en el que todos los valores de las componentes de g son iguales a un valor g: w1+ g = 2. Para el caso que nos ocupa. q Finalmente.1 0.4 0. sea ergódica o semiergódica.5 1.1w +4 0.7 0 0 0.3 + 0. y entonces © Los autores. 8   1.4w +3 0.1w 2 w2+ g = 0.4w +3 0.4 0 0. a partir de la ecuación matricial: w P w gq obtenemos el conjunto de ecuaciones siguiente. se remunera con una cantidad igual a i.5 0 0 0 0. Ejemplo 3.7w + 0. la matriz R se ha obtenido del siguiente modo:  Si el proceso permanece en el mismo estado i.3 0.2.5 + 0.3w + 4 0. el valor de este vector es: 2.3 0 0.8w + 0.1 2 1 3 1  2 3 4 2 3 1 2 4 1  15 P R 1 1  2  1   2 1  3  2    4 3 El vector q se obtiene multiplicando las filas de P y R (una vez más debemos insistir en el hecho de que no se trata del producto de ambas matrices).1 + 0.8 0. 2002.80 Métodos cuantitativos de organización industrial II Todo lo expuesto en este apartado es válido para toda cadena regular.4w 5 2 w4+ g = -1.2 0.4 0.8 + 0.: Se desea obtener la ganancia media que se obtendrá con la cadena ergódica de matriz P que a continuación se indica. si las remuneraciones asociadas a cada transición se indican en la matriz R.2w + 0.3 0.2 0.2 + 0.3w 5 2 w5+ g = -1.5w 2 1 w3+ g = 1. 2002 .1  2  1.1. podemos hacer w tendremos los siguientes valores: 5 2 = 0.2w + 0.5w + 0. se remunera o penaliza con una cantidad igual a j – i.  0 0.

si empezamos en el estado 4 el valor esperado de dicha ganancia es 2. 5 0 Planteemos el problema de obtener g y w con la matriz de remuneraciones:  1 4   2 2  3    R 6  0  8  Para estas P y R.7772N (téngase en cuenta que como N es muy grande.a Remuneración esperada para una cadena cíclica de p =2 Consideremos ahora una cadena cíclica. podemos plantear las ecuaciones: w1+ g = 2 + (w + w )/2 2 4 w2+ g = –1 + (w + w )/2 1 3 © Los autores. Los valores obtenidos son promedios de los valores que se presentan de forma cíclica con el número de transiciones. tal como: 0 P 0.5 0 0.2.3801 g = 0. tenemos que q vale: 2   1 1 3 q De manera que. 5 0 0 .2.1178 w4= -2. 2002 . © Edicions UPC. es aproximadamente de 0.5.5 0.5 0.7772 Los resultados indican que la ganancia obtenida en el largo plazo. En cambio. 5 0 0 0.3 Remuneración esperada en cadenas cíclicas El cálculo para una cadena cíclica es formalmente idéntico al de una cadena regular.5. tras N transiciones.5 0 0. 3.5913 w5= -2. de p = 2.7772). 2002.5913 unidades menor que si empezamos en el estado 2. prescindiendo del hecho de que la cadena sea cíclica. la ganancia media es igual a g = 0.5545 w2= 0 w3= 0.3.Cadenas de Markov 81 w1= 0. cualquier variación finita es irrelevante ante este valor: para un número lo suficientemente grande de transiciones. y dado que tiene una única clase final. 5 0 0 . Ejemplo 3. si bien el significado de los resultados es diferente.

por inducción. . . gecpr valores distintos © Los autores. .. Las diferencias entre componentes de v se comportan de modo diferente en periodos pares que en periodos impares. . gecp2. CF 2. 2002. gCF2. exactamente del mismo modo que P* describe las propiedades estacionarias para una cadena periódica. y los estados de las clases de pasos tendrán un valor de g diferente cada uno: Cadena no ergódica  gCF1. que la ganancia total del sistema cuando faltan N etapas para terminar tiene el comportamiento siguiente: v1 v2 v3 v4 N = 2k (5/4)N + 1/2 (5/4)N + 2 (5/4)N – 1/2 (5/4)N + 2 N = 2k+1 (5/4)N + 3/4 (5/4)N – 9/4 (5/4)N – 1/4 (5/4)N + 7/4 De la tabla se deduce que... 2002 . una cadena no ergódica tendrá: CF1. gCFm. a partir de la ecuación: (N vqP )v  ( N  )  1 El lector puede comprobar. © Edicions UPC.82 Métodos cuantitativos de organización industrial II w3+ g = 1 + (w + w )/2 2 4 w4+ g = 3 + (w + w )/2 1 3 De donde obtenemos: g = 5/4 w1= 0 w2= -11/4 w3= -1 w4= 5/4 Estos valores describen el comportamiento promedio del sistema en el largo plazo.. CF m clases finales (sean cíclicas o acíclicas) ecp1.5...4 Remuneración esperada en cadenas no ergódicas En general... y las w obtenidas con las i ecuaciones muestran el comportamiento promedio: v1– v v2– v v3– v v4– v N = 2k 0 -5/2 -1 3/2 N = 2k +1 0 -3 -1 5/4 5/4 wi – w 1 0 -11/4 -1 1 1 1 1 3. Todos los estados de una misma clase final tendrán el mismo valor de g. ecp 2.2. Podemos conocer con más detalle el comportamiento del sistema si realizamos iteraciones en el espacio de las políticas. gecp1. ecp restados pertenecientes a clases de paso Entonces el vector g tendrá m + r componentes diferentes. g = 5/4. . tal como habíamos hallado.. .

por ejemplo.5 + 0.6w A w3+ g = -2.7 0 0 0 0 0.  Un componente gBasociado a la clase final B = {4.5}. tenemos: 3 3 © Los autores.7 0 0.6 0 0 0. Ejemplo 3.4 0 0.4.2  P R  4 7  9 8  3  8  13    2     6  4     6  4 En este caso.2 0 0. el vector de ganancias medias por transición g tendrá tres componentes diferentes:  Un componente g1asociado a la clase de paso 1.Cadenas de Markov 83 Tenemos entonces un sistema con n ecuaciones y n + m + r incógnitas.7w +20.3 0 0 0 0.8 0.  En primer lugar.2. © Edicions UPC. 2002.3}.   Un componente gA  asociado a la clase final A = {2.3 0.1 0.3w A De estas ecuaciones obtenemos: gA 20/13 = w2= 0 w3= -75/13 Planteando las ecuaciones para la clase final B.4 0 0.3 0.5. multiplicando las filas de P y R obtenemos el vector q: 3 5   2. plantear las ecuaciones g + w = q + Pw para la clase final A: w2+ g = 5 + 0.a Remuneración esperada para una cadena semirregular Consideremos la matriz de transición P de una cadena semirregular y las componentes activas de la matriz de remuneraciones R siguientes: 0. El sistema quedará determinado si se hacen m + r valores de w i=0. 2002 .4w +20.5   1 4 q Podemos.

iju y r ij udonde u representa la variable de decisión.3w +40. lo que . por ello.3g +A0. tenemos: 0.v = w -w . Dicha ecuación puede encontrarse a partir de las ecuaciones matriciales que g satisface: P*·q = g P·g = g La opción más económica es la segunda. Ambos valores están determinados.4g = g A B De donde obtenemos de manera directa que g obtenemos que w1= 625/3159. Por lo que respecta a las w . Así. al depender de dos grados de libertad. necesitamos otra 4 ecuación. a largo plazo.. sino solamente que v i. es un valor referido a los niveles fijados en cada clase final.2g + 0. la única diferencia es que en este caso. tanto la matriz de probabilidades P como la de remuneraciones R.2w B gB= 4/3 w4= 0 w5= 10/3 Ahora quedan por encontrar los valores de la clase de paso. su isignificado es el mismo ya visto en las cadenas ergódicas y semiergódicas.84 Métodos cuantitativos de organización industrial II w4+ g = -1 + 0. 2002 . la g de los estados de paso es la esperanza matemática de dichos valores. Por lo tanto.6 Cadenas de Markov con remuneración y decisión Se dice que un proceso markoviano tiene decisión si en cada transición se puede fijar una variable (llamada de decisión) mediante la cual se puede elegir entre diferentes juegos de probabilidades de transición. De esta forma. los valores posibles que podrán tomar los subíndices serán: © Los autores. g ecuación: 5 5 1 y w 1 Para ello contamos con la . el posterior y la decisión.2w + 2 0. j j i 3. Por ello notamos sus elementos como p .4w 1 3 4 Ahora no podemos encontrar g haciendo w = 10. y eventualmente entre diferentes valores de la remuneración asociada.7w B w5+ g = 4 + 0.1g1+ 0. © Edicions UPC.1w +1 0. porque hemos 1 agotado los grados de libertad del sistema al hacer w =0 y2 w =0. tienen tres índices o dimensiones: el estado anterior. w1+ g = 3 + 0. contará como remuneración de la cadena es precisamente el valor de g que corresponda a la clase final donde vaya a parar. ello proviene del hecho que. El significado de los valores de g y w para los estados de paso se puede deducir de las expresiones utilizadas para hallarlos: en primer lugar g en la ecuación anterior resulta ser un promedio de los 1 valores g A gB de las diferentes clases finales. 2002. recuérdese que ello no significa que el valor real de la remuneración sea exactamente vi = Ng + w i. que nos exonera de obtener P*. de modo que si en la ecuación anterior aislamos g1 resulta: g1= 5/9 g + 4/9 g . Desarrollando para la primera fila.3w + 0. lo cual nos dice que las probabilidades de que el sistema acabe yendo a la clase A B final A o a la clase final B si inicia su evolución en el estado1 son 5/9 y 4/9 respectivamente.8w +40. 1 1 = 508/351. Volviendo a la ecuación g 1 + w 1 = .

n j = 1. . Es importante tener en cuenta que mientras no se ha fijado una política de hecho el sistema no responde propiamente al modelo de las cadenas tal como se ha visto. di Como sucede a lo largo del texto. Si existe capacidad de decisión es porque se pretende que la remuneración obtenida sea lo mejor posible. 3. 2. Se habla así de política óptima a corto plazo (esto es con un horizonte finito y determinado) o política óptima a largo plazo. 2002. el sistema cumple la propiedad markoviana). n es el número de estados de la cadena.. n u =1. 2002 . Para que esto sea posible.. pues. Una vez determinada una política. Téngase en cuenta que por la naturaleza aleatoria del sistema no se puede optimizar la remuneración obtenida realmente (que es una magnitud aleatoria). deben tener las características siguientes:  El sistema puede evolucionar dentro de un número finito de estados n.i . Podrá expresarse entonces de forma vectorial: pT= {u .El estado i en el que se encuentra en el momento presente (esto es.. El valor d es el número de i decisiones posibles. es decir. u ... de entre los d valores posibles i de dicha variable de decisión. . con un horizonte ilimitado o con un horizonte finito pero desconocido. sino tan sólo el valor esperado de la misma. 2.1 Procesos markovianos de decisión Algunos procesos polietápicos de decisión pueden modelizarse como cadenas de Markov con remuneración y decisión.. La evolución del sistema. Se llama política a una regla que fija para cada estado de la cadena el valor de la decisión a adoptar.. 2. el sistema se transforma en una cadena de Markov con remuneración como las que se han visto en el apartado anterior. lo cual puede significar máxima o mínima según la naturaleza de la remuneración: de esta manera se puede hablar de política óptima. u } n donde las ui es el valor de la variable de decisión fijado por la política para el estado i. Los datos de partida para resolver el sistema son: © Los autores. . La política óptima no tiene sentido si no es con relación a un horizonte determinado.2.   La evolución del estado en el futuro depende exclusivamente de:  ... que depende del estado de partida i.. © Edicions UPC.... hasta que no se haya fijado una política.Del valor de la variable de decisión escogido para el estado i.6. ..1 u . que es aquella que permite obtener la mejor remuneración esperada. puede definirse como una secuencia de evolución (E) según un proceso markoviano y decisión (D) que condiciona la evolución a la etapa siguiente: este tipo se sistemas pueden caracterizarse como sistemas E / D. ya que ni las probabilidades de transición ni las remuneraciones están determinadas. no tiene sentido hablar de su clasificación ni de probabilidades estacionarias ni de remuneraciones esperadas.Cadenas de Markov 85 Subíndice i (estados de origen): Subíndice j (estados de destino): Subíndice u (decisiones): i = 1. Por ello..

Definido el problema en estos términos. Existen para ello dos métodos: La iteración en el espacio de los estados consiste en encontrar la política que nos da la v(N) óptima. para cada una de las políticas P (p). en un contexto más general. cuyos componentes son r . Para ello. se trata de una metodología para resolver el problema de horizonte infinito. una vez obtenida v*(N-1). Una vez hayamos obtenido las decisiones óptimas para todos los estados. quedará definida la política óptima para esa etapa: * vN OPT v ( ) iiu u  N    Con esta ecuación de recurrencia. para la etapa N. de hecho. 1 La iteración en el espacio de los estados es. la política óptima a seguir si en ese momento nos encontramos en el estado i.iju  definidos como la remuneración (ganancia o pérdida) obtenida al pasar del estado i al estado j. de manera que se encuentre la política que optimiza la ganancia esperada. En el siguiente módulo. Este método puede emplearse para obtener la política óptima para un número finito de etapas (problema de horizonte infinito). 3.86 Métodos cuantitativos de organización industrial II  La matriz de probabilidades de transición. y si se observa que el sistema converge a una determinada política después de un número determinado de etapas. © Los autores. la política óptima a largo plazo (problema de horizonte finito). 2002 . teniendo en cuenta ahora que. esto es. un caso particular de programación dinámica aleatoria. podremos encontrar el valor óptimo (máximo o mínimo. se ha tomado la decisión u desde el estado i. La exploración del espacio de las políticas. se trata de encontrar v*(N).2 Iteración en el espacio de los estados Como se ha expuesto anteriormente. 2002. tendremos un proceso markoviano con remuneración. En primer lugar. según convenga) para el estado i. El objetivo es ahora el de establecer la política óptima. Seguidamente se describirán cada una de estas técnicas usando diversos ejemplos prototipo. Sus componentes  serán del tipo p ijuque no es más que la probabilidad de transición del estado i al estado j. © Edicions UPC.6. 1 se hará uso de la ecuación de recurrencia definida para las cadenas de Markov con remuneración.  La matriz de remuneraciones R (p). es importante destacar que sólo cuando hayamos establecido una política determinada. obtendremos. para cada uno de los estados origen i. a partir de v*(N-1). consistente en encontrar las g y las w para cada una de las posibles políticas del sistema. se desarrollará con detalle la problemática de la programación dinámica. calcularemos la remuneración esperada si partimos del estado i y tomamos la decisión u: vN(q ) iu piju * ( N  )  v j 1 j 1 n iu Una vez calculados todos estos valores. v*(N). una vez . hemos de valorar las políticas posibles. una vez se ha tomado la decisión u desde el estado i. Por su propia naturaleza.

determinarán:  Las probabilidades de que el destino de su próximo servicio sea la zona A.2 4 0 6 4 CAB (p) i (obtenidas a partir de Cq (p) i Se pide determinar la política óptima para el taxista a largo plazo.1 6 16 6 14 C 1 0.1 0. Política 2: permanecer estacionado en una parada de taxis en espera del cliente. al que el taxista está abonado. Dicho servicio no cubre la zona B. o bien el sistema escoge diversas políticas. esto es: gN  gN-1* *   v’*(N)  v’*(N-1) Entonces podremos decir que hemos encontrado la política óptima p*.6.1 0. así como la ganancia esperada q las pij(p) y las rij(p)).a Un taxista trabaja en una ciudad dividida en tres zonas: A. para un número suficientemente elevado de estados.2 8 2 4 3 3 0. si normalizamos los resultados en cada iteración. B o C. la política óptima es siempre la misma. La zona en que se encuentre el taxi en este momento y la política seguida. Política 3: captar clientes por un servicio de radio taxi. Se observa que el sistema converge.2. el combustible gastado circulando en busca de cliente. Situado en una zona determinada. etc) obtenida al partir de una zona i y llegar a una zona j. Podremos obtener conclusiones acerca del comportamiento del sistema a largo plazo con este sistema si se cumplen las siguientes condiciones: Se observa que.5 14 0 18 16 2 0.2. se detallan en la tabla adjunta: ZONA política AB A 1 0.5 0 0.   La remuneración (que depende de las características de los clientes captados con una  política u otra.1 6 4 2 4 3 0.5 12 2 8 7 2 0.5 0. B y C.6 3 7 4 4 B 1 0. tal como se describe en la sección 5.8 0.2 0.7 0.3 0.8 0. 2002.2 0.2.1 0. podemos recurrir a la exploración del espacio de las políticas.7 0.3 10 3 8 8 2 0.1 0. las comisiones a pagar al servicio de radio taxi. puede seguir tres políticas: Política 1: circular por la calle en busca de clientes. © Edicions UPC. y remuneraciones. © Los autores. 2002 . Dichas probabilidades.1 0.3 0. teniendo además:  g(p)N  g*  v’*(N)  w* Si no observamos una convergencia clara.Cadenas de Markov 87 También podemos estudiar el comportamiento a largo plazo. Ejemplo 3.

7 6. la política p’ = {1.8 23. N v1(1) v1(2) v1(3) v2(1) v2(2) v3(1) v3(2) v3(3) v1* v2* v3* v1*' v2*' v3*' g política A B C 1122222 1222222 2222222 01234567 0 8 10.9 11.  Lo que deseamos obtener es la política a seguir si nos encontramos en un estado determinado.6 5.4 0 16 16.8 13. v3(3) } La normalización se ha llevado a cabo según las expresiones: g = min { v1*. © Edicions UPC.8 23. Tenemos entonces 3  2  3 = 18 políticas posibles.5 16. 3} significa que el taxista debe circular por la calle en busca de clientes si se encuentra en la zona A.3 22.8 11. 2002 . Así.3 12. v1(3) } v2* = max { v 2(1).5 17 17 17 17 0 14 21.9 13.8 0 16 21. v 2*.8 23.88 Métodos cuantitativos de organización industrial II Resolución: Claramente nos encontramos dentro del marco de los modelos de Markov con remuneración y decisión.6 5.9 11. entonces. La operativa de la exploración se detalla en la página siguiente.8 11.3 10. v1(2).  La política seguida por el taxista.8 13.8 11.8 11.9 13.6 11.8 Nótese que las políticas óptimas (marcadas en rojo en la tabla en cada caso) se han obtenido como: v1* = max { v 1(1).8 11. por ejemplo.4 6. v2(2) } v3* = max { v 3(1).3 5.6 11.8 23.8 01000000 0 9 11 12 12 12 12 12 00122222 0 7 10.9 23. dado que la evolución del sistema en la siguiente transición depende de:  La zona (que será el estado del sistema) en la que se encuentre el taxista en el momento actual:  el sistema es de tipo markoviano.8 11. 2002.4 6.3 10.8 11.8 13.8 0 4 5.8 0 7 11.8 0 4 5. 2.8 13.8 11.8 13.6 5. v3(2).6 0 4 11.8 11.8 07 9.9 11.3 22.8 11. por lo que no resulta operativo explorarlas todas.5 11 11 11 11 0 3 9. de llevar a cabo una exploración en el espacio de las políticas. estacionarse en la parada si se encuentra en la zona B y atender al radio taxi si se encuentra en la zona C.9 23.2 5.8 23.6 5. v 3 } * vi *' = vi * – g © Los autores.3 12.3 10.4 10. Se trata.4 6.9 10.6 11.6 0 8 10.8 23.8 13.

a) ¿Cuál es la política más adecuada para asegurar a largo plazo el máximo nivel medio de conocimientos de los alumnos? La Universidad ha fijado unas normas para valorar la calidad de la docencia de los profesores. Formalmente. para el ejemplo 3. 2}.P. para cada política p: ) w ( pp p q ( P w ( g  ) ) ( p) ( p) La iteración en el espacio de las políticas tiene la ventaja de considerar comportamientos anómalos (semirregulares o periódicos) de las diferentes cadenas de Markov asociadas a una política. © Edicions UPC. 2002. 3. Es frecuente utilizar esta exploración como confirmación de los resultados obtenidos mediante la iteración en los estados. que representa una situación con solamente dos estados.C.a debemos resolver 18 sistemas de tres ecuaciones. podemos decir que el taxista deberá esperar siempre en la parada de taxis. Dicha iteración no es más que determinar g y w para cada una de las políticas. El ejemplo siguiente. habrá muchos o pocos aprobados con igual probabilidad. y que hubieran muchos aprobados: esto mostraría que los alumnos han estudiado y han aprendido muchas cosas de la asignatura. 2. 1. Por el contrario. dos veces cada trimestre. si hay pocos aprobados. Por tanto. los alumnos estudian más o menos según si en el examen anterior ha habido pocos o muchos aprobados: si han aprobado muchos estudian poco. Por descontado. significa que no han estudiado lo suficiente.6. Ahora bien. pero tiene el serio inconveniente de que supone resolver un sistema de n ecuaciones con n incógnitas para cada una de las posibles políticas. Ejemplo 3. 2002 . Lo ideal sería poner un examen difícil.8.) debe decidir. Las otras dos situaciones (examen difícil y pocos aprobados. y muchos aprobados con un examen fácil) el profesor las considera de valor intermedio. permite mostrar las posibilidades de la exploración del espacio de las políticas. y frecuentemente resulta más laborioso que la iteración en el espacio de los estados. Esto afecta a la probabilidad de aprobar: si después de un examen con muchos aprobados el profesor pone un examen fácil. 1} a la {1. sólo tres de cada cinco veces habrá muchos aprobados.6.Cadenas de Markov 89 Nótese como el sistema evoluciones de las políticas {1. Por ejemplo. 2. 2} y finalmente converge a la {2. estima que la probabilidad de que haya muchos aprobados es del 90%. y si ha habido muchos suspensos estudian mucho. mientras que si después de haber habido pocos aprobados pone un examen fácil. en las que el parámetro principal es directamente proporcional a la frecuencia con que hay muchos aprobados. obteniendo así una ganancia media de 11. si pone un examen difícil después de uno con muchos aprobados habrá pocos aprobados con toda seguridad.3 Iteración del espacio de las políticas La iteración del espacio de las políticas nos da la política óptima para el sistema a largo plazo para cada uno de los posibles i estados de partida. ¿Modificará esto la política del profesor? ¿Cuál será la valoración de los conocimientos de los alumnos que hará el profesor si aplica esta política? b) RESOLUCIÓN: © Los autores. si pone un examen fácil o difícil.3.6.a Un profesor de Métodos Cuantitativos de la Universitat Politècnica de Catalunya (U. a pesar de que el examen ha sido fácil.2. consiste en resolver. Si después de una situación con pocos aprobados pone un examen difícil.

2 -0.5 0. comportamiento si P} Siendo así posibles cuatro políticas: {F.75 0.6 0. el profesor toma la decisión de que el examen sea fácil (F) o  difícil (D).375 1. Dado que el profesor debe establecer cuál es su comportamiento en función de que haya habido muchos o pocos aprobados.  Antes de la siguiente evolución.1 0 -2 -0. El hecho de que el comportamiento de los alumnos se vea condicionado exclusivamente por el último examen hace que nos encontremos con una (o varias.75 0.625 0. En este caso se ha optado por asignar a la situación más deseada (muchos aprobados con examen difícil) una utilidad de +2.13125 0 1 1. También se han obtenido los valores de qi(p) para cada caso.5 2 0 1 Pq (p) i -0. dado que se trata de funciones de utilidad. el conjunto de los alumnos) puede encontrarse en dos estados: con  muchos aprobados (M) o con pocos (P).625 0. F} {D. D} {D. el enunciado da cierta libertad para la determinación de los valores de R . 2002 . y se muestran en la siguiente tabla: la matriz de la izquierda muestra las probabilidades. ESTADOS política M PM M F 0.3125 1.34375 0000000 0 1 0.4 -0. a la menos deseada (pocos aprobados con examen fácil) una utilidad de –2.15 -0.5 -0.8 -0.5 1. 2002.6875 0 1 1.5 0.125 -0.5 0.75 0.1 -0.6 -0.4 0 -2 D 01200 PF 0.5 0. que darán lugar a (p) diferentes valores de q .25 1.65625 0 0 1 0. © Edicions UPC.2 D 0.8 (p) En este caso.1375 -0.6875 00. F} {F.5 0.90 Métodos cuantitativos de organización industrial II a) ¿Cuál es la política más adecuada para asegurar a largo plazo el máximo nivel medio de conocimientos de los alumnos? Este ejemplo está menos estructurado que el del caso anterior. podemos definir en este caso la política como: {comportamiento si M. La siguiente tabla muestra los resultados de la iteración en el espacio de los estados: N (F) vM (D) vM (F) vP (D) vP vM * vP* vM *' vP*' g 0123456 00. y al resto de casos (situados en un término medio en el enunciado) un (p) valor intermedio de cero. puesto que variarán en función de la política) cadenas de Markov de orden 1. Dichas matrices pueden obtenerse de la lectura atenta del enunciado.3125 1.55 -0.75 0. D} Cada política tendrá sus propias matrices P y R.34375 0 0 1 0.9 0.525 0 0 1 0.625 0. aunque resulta relativamente sencillo establecer los estados y las decisiones:  El sistema (es decir. Pueden darse formulaciones alternativas a la matriz R .6875 0.5 1.25 1. y la de la derecha las remuneraciones.625 0.375 1.6875 © Los autores.

no podemos asegurar que el sistema converja. dado que tanto g como v *' convergen con las iteraciones dadas en la tabla2. pero bastante despacio: podemos afirmar que w M = g = 0. en las que el parámetro principal es directamente proporcional a la frecuencia con que hay muchos aprobados.5wP Para comparar con facilidad los resultados obtenidos con lo obtenido en la iteración en el espacio de los estados. Realizada esta precisión. podemos realizar una exploración en el espacio de las políticas.666 después de 11 iteraciones.5w M + 0.6667 Resultado que confirma lo obtenido con la iteración en el espacio de las políticas. D} desde un primer momento. por lo que el vector g tiene todas sus componentes iguales. © Edicions UPC. D}.2 D 01200 P F 0.5 2 0 1 2 M P q De hecho sí acaba convergiendo. wP no M Por este motivo.6 0.1 2 0 1.4 2 0 1. evaluando el comportamiento a largo plazo del sistema si establecemos la política {D. b) La Universidad ha fijado unas normas para valorar la calidad de la docencia de los profesores. podemos plantear el sistema: g + wM = wP g + wP= 1 +0. D}3.5 0.9 0. obtenemos: Parece que el sistema converge a la política {D.5 R 2 0 2 0 q 0 1 Un examen de P muestra rápidamente que la cadena de Markov asociada a esta política es ergódica. 2002. La de mayor g sería la política óptima.8 D 0. Ahora podemos decir que la política óptima es {D. © Los autores. 2002 .5 0. De la primera tabla podemos ver que: P 0 1 0. Entonces se obtiene: g = wM = 2/3 = 0. deberíamos calcular g y w para las cuatro políticas. Sin embargo. ¿Modificará esto la política del profesor? ¿Cuál será la valoración de los conocimientos de los alumnos que hará el profesor si aplica esta política? Ahora la matriz de remuneraciones cambia (las preferencias del profesor son diferentes a las de la Universidad). y tenemos la siguiente situación: ESTADOS política M P MF 0.Cadenas de Markov 91 Del examen de los resultados. 3 Para poder asegurarlo completamente. haremos wM = 0.

1wP Si hacemos wM = 0.7.8 + 0.8 1.86 1.21 1. © Los autores.8 1. F} a largo plazo con los datos del apartado a).3 1.2289 1.42 0.23133 1.846266 000 0.4578 0.44 1. debemos evaluar esta política {F.38312 1.237 1.368 456 1.84578 1. obtenemos los siguientes resultados: g = -0. © Edicions UPC.368 1.4wP g + wP= -0.8474 1. Si juzgamos la política escogida por la Universidad a partir de los criterios del profesor.842 1 1.4615 De donde cabe deducir que esta política de la Universidad da como resultado una obtención de conocimientos por parte de los alumnos subóptima: la política {D.38312 1.1 Servicio en tenis Es bien conocido que en el deporte de tenis.842 000 0. tenemos: N vM(F) vM(D) vP(F) vP(D) vM * vP* vM *' vP*' g 0 0 0 0 0 0 0 0 0 0 123 1.9w M + 0.2 0 1. el jugador que sirve tiene dos oportunidades para que la pelota entre en el cuadrado de servicio.3896 1.1  0  2  0  2   0.385064 1.385064 Efectivamente. Si falla las dos veces.7 Problemas resueltos 3.3896 1.6 0.385064 0 00 1.615 wP= 0.8   0.84578 1. 2002. Tenemos ahora que: P 0.9 0.2 1.4 0. 3.2 R q Podemos plantear el sistema: g + wM = -0.2 1.6 0. D} es claramente mejor que la {F.8474 1. vemos que la política escogida ahora es {F.461202 1.2 + 0.38312 1. F}.86 1. 2002 .92 Métodos cuantitativos de organización industrial II Iterando en el espacio de los estados.3896 1.2 1.44 1.6wM + 0.46266 0.474 1.368 0 1. F}. pierde el punto.44 1.846266 1.

4. Se pregunta: a) Formule el problema como un proceso markoviano con remuneración y decisión. Solución problema del tenis La forma más adecuada de resolver el problema es definir sus parámetros del siguiente modo:  Etapas: cada servicio es una etapa en la evolución del sistema. en parte. Veamos qué probabilidades y qué remuneraciones obtenemos para cada una de las variables de decisión.7.5. el problema de horizonte infinito). En este caso.  Variable de decisión: el tenista puede. si entra el servicio fuerte. Si se trata de un primer  servicio. la información que necesitamos saber para conocer la  evolución del sistema consiste en saber si estamos en el primer servicio (estado 1) o en el segundo servicio (estado 2). El tenista puede sacar fuerte o flojo tanto en el primer servicio como en el segundo. puede ser que el servicio dé lugar a un punto (si entra en el cuadro) o a un segundo servicio (si no entra). Si saca flojo. Si saca fuerte. La ganancia por punto ganado es de +10. se disputará el punto y el sistema evolucionará al estado 1 (volveremos al primer servicio). la probabilidad de entrar la pelota en el cuadro es de 0. su probabilidad de ganar el punto es de 0. junto con las probabilidades que expresan las capacidades del jugador. la probabilidad de entrar el servicio es de 0. © Edicions UPC.5. a un punto. nos permitirán determinar las matrices de probabilidades de transición y de remuneración. el tenista puede optar por sacar fuerte o flojo. se trata de un sistema dinámico con dos estados. entonces. Se desea conocer la estrategia a seguir para maximizar la ganancia esperada por servicio en el largo plazo. c) Determine la ganancia esperada por servicio a largo plazo. en todos los casos. Ahora bien. Las reglas del juego del tenis.Cadenas de Markov 93 En cada servicio. b) Mediante iteración en el espacio de los estados. controlar con sus acciones la evolución del  sistema.3). y la ganancia por punto perdido de –10. puede hacerlo sirviendo fuerte (FU) o sirviendo flojo (FL). identifique una posible política de servicio óptima. Ésta será. para todos los valores de estados del sistema y de variables de decisión. y si entra el servicio flojo su probabilidad de ganar el punto es de 0. 2002 . tiene una probabilidad de que la pelota entre en el cuadro de 0. la variable de decisión y las matrices P y R para todas las posibilidades. la remuneración será: © Los autores. Por lo tanto. 2002. definiendo los estados posibles del sistema. que podrá ser ganado o perdido. Dado que el tenista tiene una probabilidad de ganar el punto de 0.  Estados: por lo que se acaba de exponer. nos encontramos ante un sistema de Markov con remuneración y decisión (caso particular de los modelos de programación dinámica aleatoria homogénea en el tiempo). del que nos interesa conocer el comportamiento a largo plazo (esto es. Primer servicio Si estamos en el primer servicio y lo entramos en el cuadro. El segundo servicio dará lugar. si el tenista opta siempre por el servicio fuerte.8. Si saca fuerte. la probabilidad de transición.7 (y de perderlo de 0. Por lo tanto.

en cambio.2.94 Métodos cuantitativos de organización industrial II 0.5}·(-10) = -3 0. las probabilidades de ganar el punto en estas condiciones no son tan halagüeñas como en el caso anterior. Si saca flojo. las remuneraciones valdrán: Si saca fuerte: Si saca flojo: 0. © Los autores.7·(+10) + 0. el tenista pierde el punto si falla el servicio. Sin embargo. Las matrices de remuneración y decisión quedan como: Estado 1 Estado 2 FU FL FU FL Estado 1 Estado 2 0. © Edicions UPC.5·0. evolucionamos al estado 2. la probabilidad de entrar el servicio es de 0.6 Matrices de transición y remuneración Ahora ya podemos formular el problema como un sistema markoviano de remuneración y decisión. saca flojo. Ésta será. 2002 . ¿Cómo puede ganar el punto el tenista en el segundo servicio? Entrando el servicio y ganando el punto. no se disputa el punto y pasamos al segundo servicio: en términos del problema. En consecuencia. y si el tenista falla el servicio pierde el punto.3 + 0.6·(-10) = -2 Si no entra el primer servicio. Pase lo que pase.6 + 0.6 Matriz P Estado 1 +04 -3 Estado 2 0 0 -1. Por el contrario. Por lo tanto.8·0. Al no disputarse el punto. y tenemos: 0. el punto está en juego. Segundo servicio En el segundo servicio. la probabilidad de fallar el servicio es de 0.2 -2 1 0 1 0 -3. y en consecuencia la probabilidad de transición al estado 2 es de 0.8·0.4·(+10) + 0.5·0. FU}.3·(-10) = +4 Si.8. que muestra que la política óptima a largo plazo es la {FU. o si entra el servicio y pierde el punto. esto es. la probabilidad de fallar el servicio es de 0.4·(+10) + {0.6 +2 -3 -3.6 Vector q Matriz R En la tabla adjunta se muestra la iteración para el espacio de los estados.5 0.5 0.}·(-10) = -3. una vez más. en el estado 2 la probabilidad de transición al estado 1 es de 1. el próximo saque será un primer servicio. la probabilidad de transición al estado 1.5. 2002. la remuneración es cero.8 0. sacar siempre fuerte. Las probabilidades de que esto suceda dependen de la variable de decisión: Si saca fuerte.7·(+10) + {0.

056 1.000 4.000 2.600 -3.750 0.900 1.000 -0.641 3.8 Glosario de términos Cadena de Markov: Una cadena de Markov de orden k es un proceso estocástico cuyas probabilidades de transición están determinadas por los valores de los estados alcanzados en las k transiciones anteriores.400 1.000 0.719 3.340 0.125 3.600 -3.000 0.000 0.600 f*(1) f*(0) f'(1) f'(0) g 0.600 -3.150 1.665 3.667 3.667 3.250 3.000 -3.600 -3. Cualquier cadena de Markov puede reducirse a una cadena de orden 1.066 f (0.5·w1 + 0.000 0. Cadena de Markov ergódica: Cadena de Markov en la que todas las filas de la matriz de probabilidades estacionarias de P* son iguales. obtenemos: g = 0.670 3.FU) 0.000 0.340 0.000 -3.000 0.563 3. FL) 0.600 -3.333 0.400 0.000 -0.000 2. son independientes de la transición en que nos encontremos).500 3.438 0.600 -3.000 -3.600 -3. En la resolución manual.359 0.000 4.600 -3.500 0.125 0.660 3. FU}: g + w1 = 2 + 0.000 2.000 -0.000 0.000 -1.641 3.330 0.438 0.359 0.5·w2 g + w2 = -3 + w1 Haciendo w1 = 0.000 0.750 3.000 0.335 0. Se trata de una cadena con una sola clase final y sin clases de paso.33.335 0.Cadenas de Markov 95 0 1 2 3 4 5 6 7 8 9 10 11 12 13 f (1.660 3.000 0.125 0.500 3.500 0.335 3.600 -3.000 -3. la convergencia es bastante lenta en este caso). de manera que ninguno de los elementos de P* es igual a cero.000 2.665 3.000 2. © Edicions UPC.000 0.320 3. Dichas probabilidades de transición se mantienen inalterables a lo largo del tiempo (de otro modo.340 3.600 -3. Puede tener clases de paso (cadena semiergódica cíclica) o no tenerlas (cadena ergódica cíclica).600 2. 2002. adoptando la política{FU.068 1.500 3. 2002 .875 3. 3. FU} el tenista puede ganar su servicio a largo plazo. puesto que la ganancia por servicio a largo plazo es positiva.333 Podemos determinar de manera exacta el comportamiento del sistema a largo plazo planteando para la política {FU.719 3.438 0.359 0.680 3.064 1.750 0.333 3.438 3.000 5.680 3.088 1.330 3. Cadena de Markov mixta: Cadena de Markov no ergódica con clases finales cíclicas y acíclicas.400 0. basta con iterar dos o tres etapas y resolver el sistema para la política obtenida (como puede verse. FU) 0.000 0.600 -3.340 0.333 f (0.000 2.500 0.025 1.250 3.33 y w2 = 3.666 f (1.281 0.334 0.281 3.320 0.281 0.875 3. Cadena de Markov cíclica: Cadena de Markov con una única clase final cíclica.670 3. FL) 0.666 0.281 0.320 0.750 0.335 0.330 0.000 0. © Los autores.563 3.359 3.000 0.125 0. En definitiva.072 1.330 0.600 -3.320 0.

Cada estado tiene definido un número de decisiones d . de manera que alguno de los elementos de P* es igual a cero. por lo que las filas de P* pueden ser diferentes entre si. Clase final acíclica (o aperiódica): Clase final de una cadena de Markov de periodo superior a uno. Cadena de Markov semirregular: Cadena de Markov no ergódica con todas sus clases finales acíclicas.96 Métodos cuantitativos de organización industrial II Cadena de Markov no ergódica: Cadena de Markov cuyas probabilidades estacionarias dependen del estado inicial. Se trata de una cadena con dos o más clases finales y al menos una clase de paso. Cada una de ellas da lugar a diferentes probabilidades de i transición y remuneraciones para ese estado. Cadena de Markov policíclica: Cadena de Markov no ergódica con todas sus clases finales cíclicas. en las transiciones siguientes puede evolucionar a algún estado diferente. 2002 . Ciclo: Decimos que existe un ciclo en una cadena de Markov si existe un camino que comunique a un estado i consigo mismo. Clase de paso: Conjunto de estados comunicados entre sí tal que si en algún momento el proceso llega a alguno de los estados de la case de paso. Clase final cíclica (o periódica): Clase final de una cadena de Markov de periodo igual a uno. Cadena de Markov semiergódica: Cadena de Markov en la que todas las filas de la matriz de probabilidades estacionarias de P* son iguales. Decisión: Variable de un proceso estocástico que puede ser gobernada por el observador. 2002. en las transiciones siguientes el estado evoluciona entre los estados de la clase final. Camino: Decimos que existe un camino entre los estados i y j si i es descendiente de j. Clase final: Conjunto de estados comunicados entre sí tal que si en algún momento el proceso llega a alguno de los estados de la clase final. © Los autores. Cadena de Markov regular positiva: Cadena de Markov ergódica cuya única clase final es acíclica. Se trata de una cadena con una sola clase final y al menos una clases de paso. Cadena de Markov regular: Cadena de Markov semiergódica cuya única clase final es acíclica. © Edicions UPC.

Un estado absorbente constituye una clase final de un único estado. puesto que es reflexiva. Matriz de probabilidades estacionarias (P*): Matriz cuadrada de orden n. © Los autores. el módulo 2 de 7 es 1. 2002. La comunicación entre estados es una relación de equivalencia.1. operando transición a transición. 2002 . Longitud de un ciclo: Número mínimo de transiciones necesarias para volver al estado i en un ciclo. Normalización: Técnica utilizada en la iteración en el espacio de los estados. Sus componentes son las probabilidades estacionarias . donde n es igual al número de estados del proceso. Módulo z: El módulo z de un número n es el resto de la división de n por z. i j Matriz de remuneraciones (R): Matriz cuadrada de orden n. simétrica y transitiva. Sus componentes son las remuneraciones rij.Cadenas de Markov 97 Estado: Variable descriptiva de la situación en que se encuentra el proceso en un momento del tiempo. Estados comunicados: Decimos que dos estados i y j se comunican cuando i es descendiente de j y j es descendiente de i. Matriz de probabilidades de transición de un paso (P): Matriz cuadrada de orden n. Puede ser una variable cuantitativa o cualitativa. Usando la normalización. Por ejemplo. Estado descendiente: Un estado i es descendiente de j si cuando iniciamos el proceso en i existe una probabilidad no nula de que el proceso llegue a j. donde n es igual al número de estados del proceso. Iteración en el espacio de los estados: Obtención de la remuneración esperada cuando faltan N etapas para finalizar el proceso. Periodo de una clase final: Máximo común divisor de las longitudes de ciclo que pueden encontrarse en una clase final. Los valores posibles del módulo z van de 0 a z – 1. Sus componentes son las probabilidades de transición de un paso pij. y el módulo 3 de 11 es 2. © Edicions UPC. También puede ser continua o discreta. si se inició el proceso en ese estado. Véase la sección 5. para obtener la remuneración esperada por transición en el largo plazo. Estado absorbente: Estado cuya única transición posible es volver al mismo estado.2 para una definición en su contexto. donde n es igual al número de estados del proceso. aunque en este módulo sólo se trata el último caso. Iteración en el espacio de las políticas: Obtención de la remuneración esperada a largo plazo para una política determinada. podemos llegar la obtener la remuneración esperada por transición a largo plazo después de operar para un número de transiciones lo bastante elevado.

negativo o nulo. Probabilidades estacionarias (): i j Probabilidad de que el proceso se encuentre en el estado j después de un número elevado de transiciones (una vez alcanzado el régimen permanente). Una vez matriz A. Los valores propios pueden encontrarse resolviendo el sistema det(A – hallados los valores . si en este momento se encuentra en el estado i. 2002. podremos encontrar un conjunto de escalares complejos y otro de  un valor propio de la vectores tal que A·v = ·v.98 Métodos cuantitativos de organización industrial II Política: Se obtiene una política para una transición escogiendo una variable de decisión para cada uno de los estados. Transición: Momento en que una cadena de Markov puede cambiar de estado. Diremos entonces que v es un vector propio y ·I) = 0. Probabilidad de transición de un paso (pij): Probabilidad de que el proceso evolucione al estado j en la siguiente transición. Probabilidad de transición de k pasos (pij(k)): Probabilidad de que el proceso evolucione al estado j dentro de k transiciones. pueden hallarse los v correspondientes resolviendo el sistema (compatible indeterminado) A – ·I = 0. un proceso markoviano de decisión se convierte en una cadena de Markov. Proceso estocástico: Proceso que evoluciona de manera no determinista a lo largo del tiempo. ij Puede ser un valor positivo. las probabilidades de transición de un paso no varían con el tiempo y no dependen de la evolución seguida en etapas anteriores. tomando cada vez valores de entre un conjunto de estados. © Edicions UPC. En una cadena de Markov de orden uno. Una vez fijada una política. Suele conocerse la ley de probabilidad que rige la transición de un estado a otro. si en este momento se encuentra en el estado i. 2002 . Su significado dependerá de la situación modelizada. si el sistema comenzó su evolución en el estado i. © Los autores. Es usual que una transición se produzca a intervalos regulares de tiempo. Valor propio y vector propio: Para una matriz cuadrada A. Remuneración (r ij): Valor numérico asociado a la transición de i a j con probabilidad de transición p diferente de cero.

You're Reading a Free Preview

Descarga
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->