Terre

Introducción
Una cadena de Markov oculta dada sus siglas en ingles HMMs (Hidden Markov Chains) es un
proceso estocástico en el cual se asume que el sistema que está siendo modelado es un proceso
de Markov que posee estados no observables. En una Cadena de Markov corriente los estados
son directamente visibles, por lo que también lo son las probabilidades de transición entre ellos.
En una Cadena de Markov Oculta, los estados no son visibles, sin embargo, los resultados
visibles dependen directamente de los estados ocultos. Al igual que las Cadenas de Markov,
posee la propiedad de Markov, que indica que el resultado obtenido para un período sólo
depende de lo ocurrido en el período anterior, no considerando lo ocurrido en periodos
anteriores a este.
A lo largo del presente trabajo vamos a estudiar la presencia de una cadena de Markov oculta
en una serie de datos recolectados por el International Seismological Centre, datos que abarcan
un periodo histórico desde el 1904 hasta el 2014.
Cadenas de Markov
Definición
Las cadenas de Markov son una serie de variables aleatorias {𝐶𝑡 : 𝑡 ∈ ℕ} que satisfacen la
propiedad de Markov:
Pr(𝐶𝑡+1 |𝐶𝑡 , … , 𝐶1 ) = Pr(𝐶𝑡+1 |𝐶𝑡 ).
Esto quiere decir que la probabilidad de que ocurra 𝐶𝑡+1 solamente depende de lo ocurrido en
el pasado inmediato 𝐶𝑡 y no de todo el historial pasado 𝐶 (𝑡) = (𝐶1 , 𝐶2 , … , 𝐶𝑡 ) :
Pr(𝐶𝑡+1 |𝐶 (𝑡) ) = Pr(𝐶𝑡+1 |𝐶𝑡 ).
Gráficamente:
Probabilidades de transición
Sean 𝑖 𝑦 𝑗 dos estados de una cadena de Markov, se define la probabilidad
Pr(𝐶𝑠+𝑡 = 𝑗|𝐶𝑠 = 𝑖)
Si esta probabilidad no depende de “s”, la cadena es llamada Homogénea, en otro caso no

homogénea. Si la cadena es homogénea las probabilidades de transición se denotan de la
siguiente manera:
𝛾𝑖𝑗 (𝑡) = Pr(𝐶𝑠+𝑡 = 𝑗|𝐶𝑠 = 𝑖)
Notar que 𝛾𝑖𝑗 (𝑡) no contempla “s”. La matriz Γ(𝑡) se define como la matriz de (𝑖, 𝑗) elementos
𝛾𝑖𝑗 (𝑡).
Ecuación Chapman-Kolmogorov y matriz de transición

Es una formula sencilla y de mucha utilidad que permite descomponer la probabilidad de pasar
del estado 𝑖 𝑎 𝑗 en 𝑛 pasos, en la suma de trayectorias:
Γ(𝑡 + 𝑢) = Γ(𝑡)Γ(𝑢)
Para la matriz de t pasos Γ(𝑡), solamente es la potencia t de la matriz a un paso Γ(1) o matriz de
transición :
𝛾11 ⋯ 𝛾1𝑚
Γ=( ⋮ ⋱ ⋮ )
𝛾𝑚1 ⋯ 𝛾𝑚𝑚
Donde m es el número de estados. Además las filas de la matriz Γ suman 1:
Γ1′ = 1′
Donde 1′ es un vector de 1.
Probabilidades condicionales
Las probabilidades de una cadena de Markov están dadas por:
Pr(𝐶𝑡 = 𝑗)
Donde las podemos agrupar en un vector 𝑢(𝑡):
𝑢(𝑡) = (Pr(𝐶𝑡 = 1) , … , Pr(𝐶𝑡 = 𝑚))
En donde 𝑢(1) es la distribución inicial de una cadena de Markov. Para poder determinar
cualquier distribución solo es necesario seguir la siguiente formula:
𝑢(𝑡 + 1) = 𝑢(𝑡)Γ
Distribución Estacionaria
Una cadena de Markov con matriz de transición Γ se dice que tiene una distribución estacionaria
𝛿 si:
𝛿Γ = 𝛿
Y
𝛿1´ = 1
Cadenas de Markov ocultas
Es un modelo estocástico en el cual se asume que el sistema que está siendo modelado es un
proceso de Markov que posee estados no observados, la característica que tienen las cadenas
de markov ocultas a diferencia de cadenas de markov es que tiene estados no visibles, no
obstante, los resultados visibles dependen directamente de los estados ocultos
Al igual que las Cadenas de Markov, posee la propiedad markoviana, que indica que los
resultados obtenidos para un periodo dependen solo de lo ocurrido durante el periodo
anterior, no considerando lo ocurrido en periodos pasados.
En la figura “” se puede ver el proceso oculto de la cadena
Cuando se tiene observaciones de recuentos ilimitados, es común asociarlo a una distribución

Poisson, sin embargo, hay ocasiones donde la varianza muestral de las observaciones es
sustancialmente mayor que la media muestral, lo que indica una sobre dispersión relativa
Poisson (tener su varianza superior a su media) , esto se puede solucionar con un modelo mixto,
usando una mezcla de distribuciones Poisson para la serie. Supongamos que cada conteo es
generado por m distribuciones de Poisson, con medias 𝜆1 , 𝜆2 ,. . . , 𝜆𝑚 , donde la elección de la
media se realiza mediante un segundo mecanismo aleatorio, el proceso de parámetros. La
media 𝜆𝑖 se selecciona con probabilidad δ𝑖 , donde i = 1, 2, ..., m y ∑𝑚
𝑖=1 δ𝑖 = 1. La varianza del
modelo de mezcla es mayor que su expectativa, lo que resuelve el problema de la sobre
dispersión.
Un modelo de mixto independiente por definición, no permite la dependencia en serie en las

observaciones., donde bastará con ver la función de auto correlación de los datos, de forma muy
categórica solo se ocupará para saber si los datos presentan alguna dependencia y si no
presentan dependencia ocupar un modelo mixto independiente
Definición
Un modelo de Markov oculto {𝑋𝑡 : t ∈ ℕ } es un tipo particular de mezcla dependiente. Con 𝑋 (𝑇)
y 𝐶 (𝑇) representando desde el tiempo 1 hasta el tiempo t, se puede resumir el modelo más
simple de este tipo mediante:
Pr( 𝐶𝑡 | 𝐶 (𝑇−1) ) = Pr( 𝐶𝑡 | 𝐶𝑡−1 ), t = 2,3 …
Pr( 𝑋𝑡 | 𝑋 (𝑇−1) , 𝐶 (𝑇) ) = Pr( 𝑋𝑡 | 𝐶𝑡 ), t ∈ ℕ
El modelo consta de dos partes: en primer lugar, un “parámetro” no observado {𝐶𝑡 : t = 1,2, ...}
que satisface la propiedad de Markov, y en segundo lugar el proceso dependiente del estado
{𝑋𝑡 : t = 1 , 2,. . . } de modo que, cuando se conoce 𝐶𝑡 , la distribución de 𝑋𝑡 depende solo del
estado actual 𝐶𝑡 y no de los estados u observaciones anteriores
En el caso de observaciones discretas definimos, para i = 1,2, ..., m,
𝑝𝑖 (𝑥) = Pr( 𝑋𝑡 = 𝑥 | 𝐶𝑡 = i)
Es decir, 𝑝𝑖 es la función de probabilidad de 𝑋𝑡 si la cadena de Markov está en el estado i en el

tiempo t.
Distribución marginal
Frecuentemente necesitaremos la distribución de 𝑋𝑡 y también las distribuciones marginales
de orden superior, como la de (𝑋𝑡 , 𝑋𝑡+𝑘 ). Derivaremos los resultados para el caso en que la
cadena de Markov sea homogénea pero no necesariamente estacionaria, y luego los daremos
también para el caso especial en el que la cadena de Markov sea estacionaria. Por conveniencia,
la derivación se da solo para distribuciones discretas dependientes del estado; El caso continuo
se puede derivar de forma análoga.
Distribución univariante
Para las observaciones de valores discretos 𝑋𝑡 , definiendo 𝑢𝑖 (t) = Pr (𝐶𝑡 = i) para t = 1,..., T.
Tenemos
Pr(𝑋𝑡 = 𝑥) = ∑𝑚
𝑖=1 𝑃𝑟 (𝐶𝑡 = i)𝑃𝑟( 𝑋𝑡 = 𝑥 | 𝐶𝑡 = i)
=. ∑𝑚
𝑖=1 𝑢𝑖 (t) 𝑝𝑖 (x)
Esta expresión puede convenientemente se reescrita en notación matricial

𝑝1 (x) ⋯ 0 1
Pr(𝑋𝑡 = 𝑥) = (𝑢1 (t),…, 𝑢𝑚 (t)) ( ⋮ ⋱ ⋮ ) (⋮)
0 ⋯ 𝑝𝑚 (x) 1
= u(t)P(x)1'
Donde P(x) se define como la matriz diagonal con i elemento diagonal 𝑝𝑖 (x). De la ecuación se
desprende que u (t) = u (1) Γ t − 1 , y por lo tanto eso
Pr(𝑋𝑡 = 𝑥) = u(t)Γ t − 1 P(x)1' (1)
La ecuación (1) es verdadera si la cadena de Markov es meramente homogénea y no

necesariamente estacionaria. Si, suponemos a menudo, la cadena de Markov es estacionaria,
con distribución estacionariaδ, entonces el resultado es más simple: en ese caso δΓ t − 1, = δ
para todo t ∈ ℕ, y así
Pr(𝑋𝑡 = 𝑥) = δΓ t − 1 P(x)1'
Momentos
Notemos que:
E(𝑋𝑡 ) = ∑𝑚 𝑚
𝑖=1 𝐸 ( 𝑋𝑡 = 𝑥 | 𝐶𝑡 = i)Pr(𝐶𝑡 = i ) = ∑𝑖=1 𝑢𝑖 (t)𝐸 (𝑋𝑡 = 𝑥 | 𝐶𝑡 = i)
El cual en el caso estacionario se reduce
E(𝑋𝑡 ) = ∑𝑚
𝑖=1 δ𝑖 𝐸 (𝑋𝑡 = 𝑥 | 𝐶𝑡 = i)
Mas generalmente, los resultados análogos se mantienen para E (g (𝑋𝑡 )) y E (g (𝑋𝑡 , 𝑋𝑡+𝑘 )), para
cualquier función g para la cual existan expectativas relevantes dependientes del estado. En el
caso estacionario
E (g (𝑋𝑡 )) = ∑𝑚
𝑖=1 δ𝑖 𝐸 (g (𝑋𝑡 ) | 𝐶𝑡 = i)
E (g (𝑋𝑡 , 𝑋𝑡+𝑘 )) = ∑𝑚
𝑖,𝑗=1 𝐸 (g (𝑋𝑡 , 𝑋𝑡+𝑘 )| 𝐶𝑡 = i, 𝐶𝑡+𝑘 = j)δ𝑖 𝛾𝑖𝑗 (𝑘)
Donde 𝛾𝑖𝑗 (𝑘) = (Γ 𝑘 )𝑖𝑗 , para k ∈ ℕ.
Estas expresiones nos permiten, por ejemplo, encontrar covarianzas y correlaciones sin
demasiados problemas; Las expresiones explícitas convenientes existen en muchos casos. Por
ejemplo, las siguientes conclusiones resultan en el caso de una Poisson – HMM estacionaria de
dos estados:
 E(𝑋𝑡 ) = δ1 𝜆1 + δ2 𝜆2
 Var (𝑋𝑡 ) = E(𝑋𝑡 ) + δ1 δ2 (𝜆2 − 𝜆1 )2 ≥ E(𝑋𝑡 )
 Cov(𝑋𝑡 , 𝑋𝑡+𝑘 ) = δ1 δ2 (𝜆2 − 𝜆1 )2 (1 − 𝛾12 − 𝛾21 )𝑘
Observe que la fórmula resultante para la correlación de 𝑋𝑡 y 𝑋𝑡+𝑘 es de la forma ρ(k) =

A(1 − 𝛾12 − 𝛾21 )𝑘 con A ∈ [0,1), y que A = 0 si 𝜆1 = 𝜆2 .
Verosimilitud en general
Aquí consideramos la probabilidad de un HMM en general. Suponemos que hay una secuencia
de observación 𝑥1 , 𝑥2 , ..., 𝑥𝑇 generada por un modelo. Buscamos la probabilidad 𝐿𝑡 de observar
esa secuencia, calculada en un HMM de estado m que tiene una distribución inicial δ y t.p.m. Γ
para la cadena de Markov, y las funciones de probabilidad (densidad) dependientes del estado
p𝑖 . En muchas de nuestras aplicaciones, supondremos que δ es la distribución estacionaria que
está dada por Γ, pero no es necesario hacer esa suposición en general.
La verosimilitud está dada por
𝐿𝑡 = δP(𝑥1 )ΓP(𝑥2 )ΓP(𝑥3 ) … ΓP(𝑥𝑇 )1' (2)
Si δ, la distribución de 𝐶1 , es la distribución estacionaria de la cadena de Markov, entonces
𝐿𝑡 = δΓP(𝑥1 )ΓP(𝑥2 )ΓP(𝑥3 ) … ΓP(𝑥𝑇 )1' (3)
Antes de probar la proposición anterior, reescribimos las conclusiones en una notación que a
veces es útil. Para t = 1,…, T, la matriz 𝐵𝑡 definida por 𝐵𝑡 = ΓP (𝑥𝑡 ). Las ecuaciones (2) y (3) se
pueden escribir como:
𝐿𝑡 = δP(𝑥1 )𝐵2 𝐵3 … 𝐵𝑇 1'
𝐿𝑡 = δ𝐵1 𝐵2 𝐵3 … 𝐵𝑇 1'
Tener en cuenta que en la primera de estas ecuaciones δ representa la distribución inicial de la

cadena de Markov, y en la segunda, la distribución estacionaria. Primera notar que
(𝑇)
𝐿𝑡 = Pr (𝑋 (𝑇) = 𝑥 (𝑇) ) = ∑𝑚
𝑐1, 𝑐2 ,..,𝑐𝑇 =1 Pr (𝑋 = 𝑥 (𝑇) , 𝐶 (𝑇) = 𝑐 (𝑇) )
Y que por ecuación
Pr (𝑋 (𝑇) = 𝐶 (𝑇) ) = Pr (𝑐1, ) ∏𝑇𝑘=2 Pr(𝐶𝑘 | 𝐶𝑘−1 ) ∏𝑇𝑘=1 Pr(𝑋𝑘 | 𝐶𝑘 )
Resulta que
𝐿𝑡 = ∑𝑚
𝑐1, 𝑐2 ,..,𝑐𝑇 =1(δ𝑖 𝛾𝑐1, 𝑐2 𝛾𝑐2, 𝑐3 … 𝛾𝑐𝑇−1, 𝑐𝑇 )(p𝑐1 (𝑥1 )p𝑐2 (𝑥2 ) … p𝑐𝑇 (𝑥 𝑇 ))
= ∑𝑚
𝑐1, 𝑐2 ,..,𝑐𝑇 =1(δ𝑐1, 𝛾𝑐1, 𝑐2 𝛾𝑐2, 𝑐3 … 𝛾𝑐𝑇−1, 𝑐𝑇 )(p𝑐1 (𝑥1 )p𝑐2 (𝑥2 ) … p𝑐𝑇 (𝑥 𝑇 ))
= δΓP(𝑥1 )ΓP(𝑥2 )ΓP(𝑥3 ) … ΓP(𝑥𝑇 )1'
Para establecer el cálculo de probabilidad en forma de un algoritmo, ahora definamos el vector

α𝑡 , para t = 1, 2, ..., T, por
α𝑡 = δP(𝑥1 )ΓP(𝑥2 )ΓP(𝑥3 ) … ΓP(𝑥𝑇 ) = δP(𝑥1 ) ∏𝑡𝑠=2 ΓP(𝑥𝑠 )
De esta definición se deduce inmediatamente que
𝐿𝑡 = α𝑡 1' y α𝑡 = α𝑡−1 ΓP(𝑥𝑇 ) para 𝑡 ≥ 2
En consecuencia, podemos establecer convenientemente los cálculos involucrados en la

fórmula de probabilidad
α1 = δP(𝑥1 )
α𝑡 = α𝑡−1 ΓP(𝑥𝑇 ) Para 𝑡 = 2,3, … , 𝑇
𝐿𝑡 = α𝑡 1'
Que el número de operaciones involucradas sea de orden T𝑚2 se puede deducir así. Para cada
uno de los valores de t en el bucle, hay m elementos de α𝑡 que deben calcularse, y cada uno de
esos elementos es una suma de m productos de tres cantidades: un elemento de α𝑡−1 , una
probabilidad de transición 𝛾𝑖𝑗 y una probabilidad (o densidad) dependiente del estado p𝑗 (x𝑡 ).
El esquema correspondiente para el cálculo de (3) (es decir, si, la distribución de C1 , es la

distribución estacionaria de la cadena de Markov) es decir:
α0 = δ
α𝑡 = α𝑡−1 ΓP(𝑥𝑇 ) para 𝑡 = 1,2, … , 𝑇
𝐿𝑡 = α𝑡 1'
Estimación por maximización directa de la
verosimilitud
En la siguiente ecuación vemos que la verosimilitud para una cadena de Markov oculta está
dada por:
𝐿 𝑇 = 𝑃(𝑋 (𝑇) = 𝑥 (𝑇) ) = 𝛿𝑃(𝑥1 )Γ𝑃(𝑥2 ) … Γ𝑃(𝑥𝑇 )1′
Donde 𝛿 es la distribución inicial de 𝐶1 y 𝑃(𝑥) la matriz diagonal 𝑚𝑥𝑚 con i-ésimos elementos
en la diagonal la probabilidad o densidad dependiente del estado 𝑝𝑖 (𝑥). En el inicio nosotros
calculamos 𝐿 𝑇 = 𝛼 𝑇 1′ recursivamente mediante:
𝛼1 = 𝛿𝑃(𝑥1 )
𝛼 𝑇 = 𝛼 𝑇−1 Γ𝑃(𝑥𝑡 ) 𝑝𝑎𝑟𝑎 𝑡 = 2,3, … , 𝑇
Si la cadena de Markov es asumida estacionaria (en el caso de 𝛿 = 𝛿Γ), podemos elegir en lugar:
𝛼0 = 𝛿
𝛼 𝑇 = 𝛼 𝑇−1 Γ𝑃(𝑥𝑡 ) 𝑝𝑎𝑟𝑎 𝑡 = 1,2,3, … , 𝑇
Deberíamos considerar primero el caso estacionario.
El número de operaciones involucradas es de orden 𝑇𝑚2 , haciendo la evaluación de la

verosimilitud bastante factible incluso para un largo 𝑇. El parámetro de estimación puede ser
realizado por lo tanto por una maximización numérica de la verosimilitud con respecto a los
parámetros.
Pero existen algunos problemas que necesitan ser dirigidos cuando la verosimilitud es
calculada en esta manera y maximizada numéricamente en orden para estimar los parámetros.
Los principales problemas son de subdesbordamientos numéricos, contrastando sobre los

parámetros, y los máximos locales múltiples en la función de verosimilitud.
Escalando el cálculo de la verosimilitud

En el caso de las distribuciones dependientes de estado discretas, los elementos de 𝛼 𝑇 , se han
dado por el producto de las probabilidades, volviéndose progresivamente más pequeño a
medida que 𝑡 aumenta y son eventualmente aproximadamente cero. De hecho, con
probabilidad 1 la verosimilitud se acerca a 0 o ∞ exponencialmente rápido. Por lo tanto, el
problema no está relacionado con el caso discreto y el subdesbordamiento numérico. El sobre-
desbordamiento podría ocurrir en el caso continuo. El remedio, sin embargo, es lo mismo para
el sub y sobre-desbordamiento, y enfocaremos nuestra atención en el sub-desbordamiento.
Ya que la verosimilitud es un producto de matrices, y no de escalares, no es posible evitar el
sub-desbordamiento numérico simplemente calculando la log-verosimilitud como la suma de
los logaritmos de estos factores. En este sentido, el cálculo de la verosimilitud de un modelo
mixto independiente es más simple que el de una cadena de Markov oculta.
Para calcular el logaritmo 𝐿 𝑇 usando una estrategia de escalamiento del vector de

probabilidades futuras 𝛼 𝑇 . Definimos, para 𝑡 = 0,1, … , 𝑇 el vector
𝜙𝑡 = 𝛼𝑡 /𝑤𝑡
Donde 𝑤𝑡 =∑𝑖 𝛼𝑡 (𝑖) = 𝛼𝑡 1′.
En primer lugar notaremos ciertas consecuencias de las definiciones de 𝜙𝑡 y 𝑤𝑡 :
𝑤0 = 𝛼0 1′ = 𝛿1′ = 1;
𝜙0 = 𝛿;
𝑤𝑡 𝜙𝑡 = 𝑤𝑡−1 𝜙𝑡−1 𝐵𝑡 ; ∗
𝐿 𝑇 = 𝛼 𝑇 1′ = 𝑤𝑡 (𝜙𝑇 1′ ) = 𝑤𝑡
Entonces 𝐿 𝑇 = 𝑤𝑡 = ∏𝑇𝑡=1(𝑤𝑡 /𝑤𝑡−1 ). Desde * sigue que:
𝑤𝑡 = 𝑤𝑡−1 (𝜙𝑡−1 𝐵𝑡 1′ )
Entonces concluimos que:

𝑇 𝑇
𝑙𝑜𝑔𝐿 𝑇 = ∑ log(𝑤𝑡 /𝑤𝑡−1 ) = ∑ log(𝜙𝑡−1 𝐵𝑡 1′ )

𝑡=1 𝑡=1
Maximización de la verosimilitud sujeta a restricciones

Reparametrización para evitar restricciones
Los elementos de Γ y aquellos de 𝜆, el vector de medias dependientes al estado en una Poisson-
cadena de Markov oculta, No se extienden por todos los reales, el conjunto de todos los reales
números. Por lo tanto, ninguna estimación sensata de los parámetros. En particular, las sumas
de la fila de, y cualquier estimación de la misma, deben ser igual a uno Así, al maximizar la
verosimilitud tenemos un problema de restricción de optimización para resolver, no uno sin
restricciones.
En general, tenemos dos grupos de restricciones: aquellas que la aplicación de los parámetros
de las distribuciones dependientes de estado, y aquellas que aplicamos a los parámetros de la
cadena de Markov. El primer grupo de restricciones depende sobre qué distribución de estados
escogimos; la probabilidad de éxito de una distribución binomial está entre 0 y 1.
En el caso de un modelo oculto de Markov Poisson, las restricciones relevantes son:
 Las medias 𝜆𝑖 de las distribuciones dependientes del estado deben ser no

negativas, para 𝑖 = 1, … , 𝑚 ;
 Las filas de la matriz de probabilidad de transición Γ deben sumar 1, y todos los
parámetros 𝛾𝑖𝑗 deben ser no negativos.
Aquí las restricciones pueden ser evitadas haciendo ciertas transformaciones. La

transformación de los parámetros 𝜆𝑖 , es relativamente fácil. Definimos 𝜂𝑖 = 𝑙𝑜𝑔𝜆𝑖 , 𝑝𝑎𝑟𝑎 𝑖 =
1, … , 𝑚. Entonces 𝜂𝑖 pertenece a los reales. Después tenemos que maximizar la verosimilitud
respecto a los parámetros sin restricción. Los parámetros restringidos pueden ser obtenidos
por la transformación inversa: 𝜆̂𝑖 = 𝑒𝑥𝑝𝜂̂𝑖
La reparametrización de la matriz Γ requiere más trabajo.Notemos que Γ tiene entradas 𝑚2

pero solo 𝑚(𝑚 − 1) parámetros libres, como hay 𝑚 filas que suman restricciones
𝛾𝑖1 + 𝛾𝑖2 + ⋯ + 𝛾𝑖𝑚 = 1 (𝑖 = 1, … , 𝑚).
Deberíamos mostrar una posible transformación entre las probabilidades 𝛾𝑖𝑗 con restricción
𝑚2 y 𝑚(𝑚 − 1) con números reales sin restricciones 𝜏𝑖𝑗 , 𝑖 ≠ 𝑗. Por el motivo de legibilidad
mostraremos el caso 𝑚 = 3. Empezaremos definiendo la matriz:
− 𝜏12 𝜏13
𝑇 = [𝜏21 − 𝜏23 ] una matriz con 𝑚(𝑚 − 1) entradas 𝜏𝑖𝑗 que pertenecen a los reales.
𝜏31 𝜏32 −
Tenemos 𝑔: ℝ → ℝ+ una función estrictamente positiva

𝑒𝑥 . 𝑥 ≤ 0
𝑔(𝑥) = 𝑒 𝑥 o 𝑔(𝑥) = {
𝑥 + 1, 𝑥 ≥ 0
Definimos
𝑔(𝜏𝑖𝑗 ), 𝑝𝑎𝑟𝑎 𝑖 ≠ 𝑗
𝜚𝑖𝑗 = {
1, 𝑝𝑎𝑟𝑎 𝑖 = 𝑗
Luego fijamos 𝛾𝑖𝑗 = 𝜚𝑖𝑗 / ∑3𝑘=1 𝜚𝑖𝑘 𝑝𝑎𝑟𝑎 𝑖, 𝑗 = 1,2,3 y Γ = (𝛾𝑖𝑗 ). Debemos referirnos a los
parámetros 𝜂𝑖𝑗 y 𝜏𝑖𝑗 como los parámetros de trabajo, y a los parámetros 𝜆𝑖𝑗 y 𝛾𝑖𝑗 como
parámetros naturales.
Otros problemas
Máximos múltiples en la verosimilitud

La verosimilitud de un modelo de Markov ocultos es una función complicada de varios
parámetros y frecuentemente varios máximos locales. El objetivo es encontrar un máximo
global, pero no hay un método simple de determinación, en un algoritmo de maximización
numérico general que ha alcanzado el máximo global. Dependiendo de los valores iniciales,
puede ocurrir fácilmente que el algoritmo identifique un local, pero no el máximo global.
Valores iniciales para las iteraciones
A menudo es fácil encontrar un valor inicial razonable para alguno de los parámetros de un
modelo de Markov oculto. Por ejemplo, si uno busca ajustar un modelo Poisson oculto con dos
estados, y la media muestral es 10, uno podría intentar 8 y 12, o 5 y 15, para los valores de dos
medias dependientes de estado. Estrategias más sistemáticas están basadas sobre los cuantiles
de las observaciones son posibles, sin embargo, si el modelo tiene tres estados, usamos como
valores iniciales de las medias dependientes de estado, el cuartil menor, el mediano y el cuartil
superior de los conteos observados.
Métodos de selección
En las cadenas de Markov ocultas aumentar el tamaño de los estados m siempre mejorara el
ajuste del modelo. Pero junto con la mejora viene un aumento cuadrático de parámetros, por lo
tanto, la mejora del ajuste debe compensarse con este aumento.
Un problema natural que surge en el estudio de cadenas de Markov ocultas es elegir el modelo
apropiado para una cantidad m de estados, o como se dice en reiteradas veces, escoger el orden
de la cadena. También surgen problemas si es conveniente trabajar con un modelo mixto
Poisson o con otro en base a otra distribución. Dado lo anterior es necesario tener criterios que
nos ayuden a comparar modelos y a escoger uno.
1. Criterio de información de Akaike (AIC):

−2 log 𝐿 + 2𝑝
Donde 𝑙𝑜𝑔𝐿 es la probabilidad logarítmica del modelo ajustado y p denota el número de
parámetros del modelo. El primer término es una medida de ajuste y disminuye a
medida que aumenta el número de estados m. el segundo término es una penalización
y aumenta con el tamaño de m.
2. Criterio de información Bayesiana (BUC):

−2 log 𝐿 + 𝑝 log 𝑇
donde log L y p son análogos al criterio de Akaike y T es el número de observaciones.
En comparación el AIC, el termino de penalización del BIC tiene más peso para T>𝑒 2 , que se
mantiene en la mayoría de las aplicaciones. Así el BIC suele favorecer más en la elección de
modelos con menos parámetros que el AIC.
Aplicación
Motivación
En este capítulo aplicaremos lo estudiado hasta el momento en el ámbito de terremotos,
intentaremos encontrar un modelo mixto adecuado para el conteo de terremotos.
Teniendo como interrogante principal ¿Por qué ocupar cadenas de markov ocultas en serie de
tiempos de conteos? Más allá de pensar en utilizar una serie de tiempo que se especial para
conteos
##### formular una pregunta pero sin caer en que las series de tiempo son mejores
Para aplicar lo estudiado se tomó una base de datos del catálogo ISC-GEM de sismos que
cubre el periodo de 1904-2014, producida por el International Seismological Centre (Reino
Unido). Los catálogos son utilizados en muchas actividades por la comunidad sismológica
Por lo general estas listan parámetros focales básicos de eventos sísmicos (por ejemplo,
ubicación, tiempo de origen, profundidad). El catalogo ISC-GEM esta es la versión más
actual del Catálogo (diciembre 2017). El proyecto se realizó durante 4 años que actualizo y
reviso la primera versión del Catálogo ISC-GEM de sismos que cubre el periodo de 1900-
2009 (enero 2013). Este proyecto de extensión y revisión del catálogo tenía dos objetivos
1- incorporar los sismos con grado 5.5 o superior ocurridos después de 2009 y 2- revisar e
incorporar más sismos de grado menor que 6.25 para el periodo anterior a 1960.
Los datos anteriores del 1960 son más problemáticos, ya que las fuentes de los sismos son
menos confiables (era pre-digital, menos aparatos de medición y la segunda guerra
mundial también tuvo un impacto negativo en las mediciones en parte de este periodo)
además influye la conversión de mediciones a escala de magnitud de momento (Mw)
escala sucesora a la escala Richter,
Se eliminaron los terremotos durante los primeros 4 años (1900–1903) debido a la falta de
una estación confiable en los datos
Nosotros ocuparemos los datos del catálogo del ISC-GEM, poniendo limites al seleccionar el
lugar a estudiar, para esta aplicación elegiremos Sudamérica con el fin de ver el
comportamiento de la placa sudamericana, para ello haremos conteos de terremotos por
año, es decir se contarán los terremotos por año para ver el comportamiento de estos. Se
considerará
 La cadena de markov oculta como

 El proceso
En la figura “” corresponde a la serie de terremotos entre 1094-2014 en Sudamérica,
teniendo un alza de terremotos posterior al año 1960 #### En el grafico podemos apreciar
un periodo inicial con una baja cantidad de terremotos y después un periodo con alta
cantidad, este problema puede ser trabajado de buena manera por una cadena de Markov
oculta, ya que puede acomodar de mejor manera la dispersión de los conteos
Figura 1 ACF de los datos de terremotos
Al ver la figura 3 notamos un decrecimiento exponencial y claramente hay dependencia.
Una forma de permitir la dependencia en serie en las observaciones es relajar la suposición de

que el proceso de parámetros es independiente en serie. Una forma sencilla y matemáticamente
conveniente de hacerlo es asumir que se trata de una cadena de Markov. El modelo resultante
para las observaciones se denomina modelo de Markov oculto de Poisson (HMM).
En primera instancia se trata con un modelo independiente Poisson:

Como se dijo anteriormente el modelo independiente no contempla la sobre dispersión de los
datos y que falla con los argumentos teóricos de una distribución Poisson. Para eso
formularemos 3 modelos mixtos Poisson que pretenden explicar de mejor manera la
naturaleza de los datos. La generación de los modelos se dio mediante una función recursiva
en el software R, que será adjuntado al final del trabajo.
 m=2
 m=3
 m=4
Tabla resumen
Modelo i 𝛿𝑖 𝜆𝑖 -log L
m=1 1 1 10.280 370
m=2 1 0.45 6.100 355.1082
2 0.55 13.500
m=3 1 0.092 1.041 335.0889
2 0.584 7.829
3 0.324 16.445
m=4 1 0.227 2.7 318.818
2 0.287 7.814
3 0.4307 11.730
4 0.0553 25.3
Criterios de Información
Modelo AIC BIC
m=2 720 734
m=3 692 722
m=4 676 727
Con color azul BIC y con color rojo AIC

Terre

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Terre

Cargado por

Copyright:

Formatos disponibles

Introducción

Pr(𝐶𝑡+1 |𝐶𝑡 , … , 𝐶1 ) = Pr(𝐶𝑡+1 |𝐶𝑡 ).

Pr(𝐶𝑡+1 |𝐶 (𝑡) ) = Pr(𝐶𝑡+1 |𝐶𝑡 ).

Si esta probabilidad no depende de “s”, la cadena es llamada Homogénea, en otro caso no

𝛾𝑖𝑗 (𝑡) = Pr(𝐶𝑠+𝑡 = 𝑗|𝐶𝑠 = 𝑖)

Ecuación Chapman-Kolmogorov y matriz de transición

Donde m es el número de estados. Además las filas de la matriz Γ suman 1:

Donde las podemos agrupar en un vector 𝑢(𝑡):

𝑢(𝑡) = (Pr(𝐶𝑡 = 1) , … , Pr(𝐶𝑡 = 𝑚))

En la figura “” se puede ver el proceso oculto de la cadena

Cuando se tiene observaciones de recuentos ilimitados, es común asociarlo a una distribución

Un modelo de mixto independiente por definición, no permite la dependencia en serie en las

Pr( 𝑋𝑡 | 𝑋 (𝑇−1) , 𝐶 (𝑇) ) = Pr( 𝑋𝑡 | 𝐶𝑡 ), t ∈ ℕ

En el caso de observaciones discretas definimos, para i = 1,2, ..., m,

Es decir, 𝑝𝑖 es la función de probabilidad de 𝑋𝑡 si la cadena de Markov está en el estado i en el

Esta expresión puede convenientemente se reescrita en notación matricial

Pr(𝑋𝑡 = 𝑥) = u(t)Γ t − 1 P(x)1' (1)

La ecuación (1) es verdadera si la cadena de Markov es meramente homogénea y no

El cual en el caso estacionario se reduce

Donde 𝛾𝑖𝑗 (𝑘) = (Γ 𝑘 )𝑖𝑗 , para k ∈ ℕ.

Observe que la fórmula resultante para la correlación de 𝑋𝑡 y 𝑋𝑡+𝑘 es de la forma ρ(k) =

La verosimilitud está dada por

𝐿𝑡 = δP(𝑥1 )ΓP(𝑥2 )ΓP(𝑥3 ) … ΓP(𝑥𝑇 )1' (2)

Si δ, la distribución de 𝐶1 , es la distribución estacionaria de la cadena de Markov, entonces

𝐿𝑡 = δΓP(𝑥1 )ΓP(𝑥2 )ΓP(𝑥3 ) … ΓP(𝑥𝑇 )1' (3)

𝐿𝑡 = δP(𝑥1 )𝐵2 𝐵3 … 𝐵𝑇 1'

Tener en cuenta que en la primera de estas ecuaciones δ representa la distribución inicial de la

Y que por ecuación

Pr (𝑋 (𝑇) = 𝐶 (𝑇) ) = Pr (𝑐1, ) ∏𝑇𝑘=2 Pr(𝐶𝑘 | 𝐶𝑘−1 ) ∏𝑇𝑘=1 Pr(𝑋𝑘 | 𝐶𝑘 )

= δΓP(𝑥1 )ΓP(𝑥2 )ΓP(𝑥3 ) … ΓP(𝑥𝑇 )1'

Para establecer el cálculo de probabilidad en forma de un algoritmo, ahora definamos el vector

α𝑡 = δP(𝑥1 )ΓP(𝑥2 )ΓP(𝑥3 ) … ΓP(𝑥𝑇 ) = δP(𝑥1 ) ∏𝑡𝑠=2 ΓP(𝑥𝑠 )

De esta definición se deduce inmediatamente que

𝐿𝑡 = α𝑡 1' y α𝑡 = α𝑡−1 ΓP(𝑥𝑇 ) para 𝑡 ≥ 2

En consecuencia, podemos establecer convenientemente los cálculos involucrados en la

α𝑡 = α𝑡−1 ΓP(𝑥𝑇 ) Para 𝑡 = 2,3, … , 𝑇

El esquema correspondiente para el cálculo de (3) (es decir, si, la distribución de C1 , es la

α𝑡 = α𝑡−1 ΓP(𝑥𝑇 ) para 𝑡 = 1,2, … , 𝑇

𝐿 𝑇 = 𝑃(𝑋 (𝑇) = 𝑥 (𝑇) ) = 𝛿𝑃(𝑥1 )Γ𝑃(𝑥2 ) … Γ𝑃(𝑥𝑇 )1′

𝛼 𝑇 = 𝛼 𝑇−1 Γ𝑃(𝑥𝑡 ) 𝑝𝑎𝑟𝑎 𝑡 = 2,3, … , 𝑇

𝛼 𝑇 = 𝛼 𝑇−1 Γ𝑃(𝑥𝑡 ) 𝑝𝑎𝑟𝑎 𝑡 = 1,2,3, … , 𝑇

Deberíamos considerar primero el caso estacionario.

El número de operaciones involucradas es de orden 𝑇𝑚2 , haciendo la evaluación de la

Los principales problemas son de subdesbordamientos numéricos, contrastando sobre los

Escalando el cálculo de la verosimilitud

Para calcular el logaritmo 𝐿 𝑇 usando una estrategia de escalamiento del vector de

Donde 𝑤𝑡 =∑𝑖 𝛼𝑡 (𝑖) = 𝛼𝑡 1′.

En primer lugar notaremos ciertas consecuencias de las definiciones de 𝜙𝑡 y 𝑤𝑡 :

Entonces 𝐿 𝑇 = 𝑤𝑡 = ∏𝑇𝑡=1(𝑤𝑡 /𝑤𝑡−1 ). Desde * sigue que:

Entonces concluimos que:

𝑙𝑜𝑔𝐿 𝑇 = ∑ log(𝑤𝑡 /𝑤𝑡−1 ) = ∑ log(𝜙𝑡−1 𝐵𝑡 1′ )

Maximización de la verosimilitud sujeta a restricciones

En el caso de un modelo oculto de Markov Poisson, las restricciones relevantes son:

 Las medias 𝜆𝑖 de las distribuciones dependientes del estado deben ser no

Aquí las restricciones pueden ser evitadas haciendo ciertas transformaciones. La

La reparametrización de la matriz Γ requiere más trabajo.Notemos que Γ tiene entradas 𝑚2

𝛾𝑖1 + 𝛾𝑖2 + ⋯ + 𝛾𝑖𝑚 = 1 (𝑖 = 1, … , 𝑚).

Tenemos 𝑔: ℝ → ℝ+ una función estrictamente positiva

Máximos múltiples en la verosimilitud

1. Criterio de información de Akaike (AIC):

2. Criterio de información Bayesiana (BUC):

 La cadena de markov oculta como

Al ver la figura 3 notamos un decrecimiento exponencial y claramente hay dependencia.