Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Una cadena de Markov oculta dada sus siglas en ingles HMMs (Hidden Markov Chains) es un
proceso estocástico en el cual se asume que el sistema que está siendo modelado es un proceso
de Markov que posee estados no observables. En una Cadena de Markov corriente los estados
son directamente visibles, por lo que también lo son las probabilidades de transición entre ellos.
En una Cadena de Markov Oculta, los estados no son visibles, sin embargo, los resultados
visibles dependen directamente de los estados ocultos. Al igual que las Cadenas de Markov,
posee la propiedad de Markov, que indica que el resultado obtenido para un período sólo
depende de lo ocurrido en el período anterior, no considerando lo ocurrido en periodos
anteriores a este.
A lo largo del presente trabajo vamos a estudiar la presencia de una cadena de Markov oculta
en una serie de datos recolectados por el International Seismological Centre, datos que abarcan
un periodo histórico desde el 1904 hasta el 2014.
Cadenas de Markov
Definición
Las cadenas de Markov son una serie de variables aleatorias {𝐶𝑡 : 𝑡 ∈ ℕ} que satisfacen la
propiedad de Markov:
Esto quiere decir que la probabilidad de que ocurra 𝐶𝑡+1 solamente depende de lo ocurrido en
el pasado inmediato 𝐶𝑡 y no de todo el historial pasado 𝐶 (𝑡) = (𝐶1 , 𝐶2 , … , 𝐶𝑡 ) :
Gráficamente:
Probabilidades de transición
Sean 𝑖 𝑦 𝑗 dos estados de una cadena de Markov, se define la probabilidad
Pr(𝐶𝑠+𝑡 = 𝑗|𝐶𝑠 = 𝑖)
Notar que 𝛾𝑖𝑗 (𝑡) no contempla “s”. La matriz Γ(𝑡) se define como la matriz de (𝑖, 𝑗) elementos
𝛾𝑖𝑗 (𝑡).
Γ(𝑡 + 𝑢) = Γ(𝑡)Γ(𝑢)
Para la matriz de t pasos Γ(𝑡), solamente es la potencia t de la matriz a un paso Γ(1) o matriz de
transición :
𝛾11 ⋯ 𝛾1𝑚
Γ=( ⋮ ⋱ ⋮ )
𝛾𝑚1 ⋯ 𝛾𝑚𝑚
Γ1′ = 1′
Donde 1′ es un vector de 1.
Probabilidades condicionales
Las probabilidades de una cadena de Markov están dadas por:
Pr(𝐶𝑡 = 𝑗)
En donde 𝑢(1) es la distribución inicial de una cadena de Markov. Para poder determinar
cualquier distribución solo es necesario seguir la siguiente formula:
𝑢(𝑡 + 1) = 𝑢(𝑡)Γ
Distribución Estacionaria
Una cadena de Markov con matriz de transición Γ se dice que tiene una distribución estacionaria
𝛿 si:
𝛿Γ = 𝛿
Y
𝛿1´ = 1
Cadenas de Markov ocultas
Es un modelo estocástico en el cual se asume que el sistema que está siendo modelado es un
proceso de Markov que posee estados no observados, la característica que tienen las cadenas
de markov ocultas a diferencia de cadenas de markov es que tiene estados no visibles, no
obstante, los resultados visibles dependen directamente de los estados ocultos
Al igual que las Cadenas de Markov, posee la propiedad markoviana, que indica que los
resultados obtenidos para un periodo dependen solo de lo ocurrido durante el periodo
anterior, no considerando lo ocurrido en periodos pasados.
Definición
Un modelo de Markov oculto {𝑋𝑡 : t ∈ ℕ } es un tipo particular de mezcla dependiente. Con 𝑋 (𝑇)
y 𝐶 (𝑇) representando desde el tiempo 1 hasta el tiempo t, se puede resumir el modelo más
simple de este tipo mediante:
Pr( 𝐶𝑡 | 𝐶 (𝑇−1) ) = Pr( 𝐶𝑡 | 𝐶𝑡−1 ), t = 2,3 …
El modelo consta de dos partes: en primer lugar, un “parámetro” no observado {𝐶𝑡 : t = 1,2, ...}
que satisface la propiedad de Markov, y en segundo lugar el proceso dependiente del estado
{𝑋𝑡 : t = 1 , 2,. . . } de modo que, cuando se conoce 𝐶𝑡 , la distribución de 𝑋𝑡 depende solo del
estado actual 𝐶𝑡 y no de los estados u observaciones anteriores
𝑝𝑖 (𝑥) = Pr( 𝑋𝑡 = 𝑥 | 𝐶𝑡 = i)
Distribución marginal
Frecuentemente necesitaremos la distribución de 𝑋𝑡 y también las distribuciones marginales
de orden superior, como la de (𝑋𝑡 , 𝑋𝑡+𝑘 ). Derivaremos los resultados para el caso en que la
cadena de Markov sea homogénea pero no necesariamente estacionaria, y luego los daremos
también para el caso especial en el que la cadena de Markov sea estacionaria. Por conveniencia,
la derivación se da solo para distribuciones discretas dependientes del estado; El caso continuo
se puede derivar de forma análoga.
Distribución univariante
Para las observaciones de valores discretos 𝑋𝑡 , definiendo 𝑢𝑖 (t) = Pr (𝐶𝑡 = i) para t = 1,..., T.
Tenemos
Pr(𝑋𝑡 = 𝑥) = ∑𝑚
𝑖=1 𝑃𝑟 (𝐶𝑡 = i)𝑃𝑟( 𝑋𝑡 = 𝑥 | 𝐶𝑡 = i)
=. ∑𝑚
𝑖=1 𝑢𝑖 (t) 𝑝𝑖 (x)
= u(t)P(x)1'
Donde P(x) se define como la matriz diagonal con i elemento diagonal 𝑝𝑖 (x). De la ecuación se
desprende que u (t) = u (1) Γ t − 1 , y por lo tanto eso
Pr(𝑋𝑡 = 𝑥) = δΓ t − 1 P(x)1'
Momentos
Notemos que:
E(𝑋𝑡 ) = ∑𝑚 𝑚
𝑖=1 𝐸 ( 𝑋𝑡 = 𝑥 | 𝐶𝑡 = i)Pr(𝐶𝑡 = i ) = ∑𝑖=1 𝑢𝑖 (t)𝐸 (𝑋𝑡 = 𝑥 | 𝐶𝑡 = i)
E(𝑋𝑡 ) = ∑𝑚
𝑖=1 δ𝑖 𝐸 (𝑋𝑡 = 𝑥 | 𝐶𝑡 = i)
Mas generalmente, los resultados análogos se mantienen para E (g (𝑋𝑡 )) y E (g (𝑋𝑡 , 𝑋𝑡+𝑘 )), para
cualquier función g para la cual existan expectativas relevantes dependientes del estado. En el
caso estacionario
E (g (𝑋𝑡 )) = ∑𝑚
𝑖=1 δ𝑖 𝐸 (g (𝑋𝑡 ) | 𝐶𝑡 = i)
E (g (𝑋𝑡 , 𝑋𝑡+𝑘 )) = ∑𝑚
𝑖,𝑗=1 𝐸 (g (𝑋𝑡 , 𝑋𝑡+𝑘 )| 𝐶𝑡 = i, 𝐶𝑡+𝑘 = j)δ𝑖 𝛾𝑖𝑗 (𝑘)
Estas expresiones nos permiten, por ejemplo, encontrar covarianzas y correlaciones sin
demasiados problemas; Las expresiones explícitas convenientes existen en muchos casos. Por
ejemplo, las siguientes conclusiones resultan en el caso de una Poisson – HMM estacionaria de
dos estados:
E(𝑋𝑡 ) = δ1 𝜆1 + δ2 𝜆2
Var (𝑋𝑡 ) = E(𝑋𝑡 ) + δ1 δ2 (𝜆2 − 𝜆1 )2 ≥ E(𝑋𝑡 )
Cov(𝑋𝑡 , 𝑋𝑡+𝑘 ) = δ1 δ2 (𝜆2 − 𝜆1 )2 (1 − 𝛾12 − 𝛾21 )𝑘
Verosimilitud en general
Aquí consideramos la probabilidad de un HMM en general. Suponemos que hay una secuencia
de observación 𝑥1 , 𝑥2 , ..., 𝑥𝑇 generada por un modelo. Buscamos la probabilidad 𝐿𝑡 de observar
esa secuencia, calculada en un HMM de estado m que tiene una distribución inicial δ y t.p.m. Γ
para la cadena de Markov, y las funciones de probabilidad (densidad) dependientes del estado
p𝑖 . En muchas de nuestras aplicaciones, supondremos que δ es la distribución estacionaria que
está dada por Γ, pero no es necesario hacer esa suposición en general.
Antes de probar la proposición anterior, reescribimos las conclusiones en una notación que a
veces es útil. Para t = 1,…, T, la matriz 𝐵𝑡 definida por 𝐵𝑡 = ΓP (𝑥𝑡 ). Las ecuaciones (2) y (3) se
pueden escribir como:
𝐿𝑡 = δ𝐵1 𝐵2 𝐵3 … 𝐵𝑇 1'
(𝑇)
𝐿𝑡 = Pr (𝑋 (𝑇) = 𝑥 (𝑇) ) = ∑𝑚
𝑐1, 𝑐2 ,..,𝑐𝑇 =1 Pr (𝑋 = 𝑥 (𝑇) , 𝐶 (𝑇) = 𝑐 (𝑇) )
Resulta que
𝐿𝑡 = ∑𝑚
𝑐1, 𝑐2 ,..,𝑐𝑇 =1(δ𝑖 𝛾𝑐1, 𝑐2 𝛾𝑐2, 𝑐3 … 𝛾𝑐𝑇−1, 𝑐𝑇 )(p𝑐1 (𝑥1 )p𝑐2 (𝑥2 ) … p𝑐𝑇 (𝑥 𝑇 ))
= ∑𝑚
𝑐1, 𝑐2 ,..,𝑐𝑇 =1(δ𝑐1, 𝛾𝑐1, 𝑐2 𝛾𝑐2, 𝑐3 … 𝛾𝑐𝑇−1, 𝑐𝑇 )(p𝑐1 (𝑥1 )p𝑐2 (𝑥2 ) … p𝑐𝑇 (𝑥 𝑇 ))
α1 = δP(𝑥1 )
𝐿𝑡 = α𝑡 1'
Que el número de operaciones involucradas sea de orden T𝑚2 se puede deducir así. Para cada
uno de los valores de t en el bucle, hay m elementos de α𝑡 que deben calcularse, y cada uno de
esos elementos es una suma de m productos de tres cantidades: un elemento de α𝑡−1 , una
probabilidad de transición 𝛾𝑖𝑗 y una probabilidad (o densidad) dependiente del estado p𝑗 (x𝑡 ).
α0 = δ
𝐿𝑡 = α𝑡 1'
Estimación por maximización directa de la
verosimilitud
En la siguiente ecuación vemos que la verosimilitud para una cadena de Markov oculta está
dada por:
Donde 𝛿 es la distribución inicial de 𝐶1 y 𝑃(𝑥) la matriz diagonal 𝑚𝑥𝑚 con i-ésimos elementos
en la diagonal la probabilidad o densidad dependiente del estado 𝑝𝑖 (𝑥). En el inicio nosotros
calculamos 𝐿 𝑇 = 𝛼 𝑇 1′ recursivamente mediante:
𝛼1 = 𝛿𝑃(𝑥1 )
Si la cadena de Markov es asumida estacionaria (en el caso de 𝛿 = 𝛿Γ), podemos elegir en lugar:
𝛼0 = 𝛿
Pero existen algunos problemas que necesitan ser dirigidos cuando la verosimilitud es
calculada en esta manera y maximizada numéricamente en orden para estimar los parámetros.
𝜙𝑡 = 𝛼𝑡 /𝑤𝑡
𝑤0 = 𝛼0 1′ = 𝛿1′ = 1;
𝜙0 = 𝛿;
𝑤𝑡 𝜙𝑡 = 𝑤𝑡−1 𝜙𝑡−1 𝐵𝑡 ; ∗
𝐿 𝑇 = 𝛼 𝑇 1′ = 𝑤𝑡 (𝜙𝑇 1′ ) = 𝑤𝑡
𝑤𝑡 = 𝑤𝑡−1 (𝜙𝑡−1 𝐵𝑡 1′ )
En general, tenemos dos grupos de restricciones: aquellas que la aplicación de los parámetros
de las distribuciones dependientes de estado, y aquellas que aplicamos a los parámetros de la
cadena de Markov. El primer grupo de restricciones depende sobre qué distribución de estados
escogimos; la probabilidad de éxito de una distribución binomial está entre 0 y 1.
Deberíamos mostrar una posible transformación entre las probabilidades 𝛾𝑖𝑗 con restricción
𝑚2 y 𝑚(𝑚 − 1) con números reales sin restricciones 𝜏𝑖𝑗 , 𝑖 ≠ 𝑗. Por el motivo de legibilidad
mostraremos el caso 𝑚 = 3. Empezaremos definiendo la matriz:
− 𝜏12 𝜏13
𝑇 = [𝜏21 − 𝜏23 ] una matriz con 𝑚(𝑚 − 1) entradas 𝜏𝑖𝑗 que pertenecen a los reales.
𝜏31 𝜏32 −
Definimos
𝑔(𝜏𝑖𝑗 ), 𝑝𝑎𝑟𝑎 𝑖 ≠ 𝑗
𝜚𝑖𝑗 = {
1, 𝑝𝑎𝑟𝑎 𝑖 = 𝑗
Luego fijamos 𝛾𝑖𝑗 = 𝜚𝑖𝑗 / ∑3𝑘=1 𝜚𝑖𝑘 𝑝𝑎𝑟𝑎 𝑖, 𝑗 = 1,2,3 y Γ = (𝛾𝑖𝑗 ). Debemos referirnos a los
parámetros 𝜂𝑖𝑗 y 𝜏𝑖𝑗 como los parámetros de trabajo, y a los parámetros 𝜆𝑖𝑗 y 𝛾𝑖𝑗 como
parámetros naturales.
Otros problemas
Un problema natural que surge en el estudio de cadenas de Markov ocultas es elegir el modelo
apropiado para una cantidad m de estados, o como se dice en reiteradas veces, escoger el orden
de la cadena. También surgen problemas si es conveniente trabajar con un modelo mixto
Poisson o con otro en base a otra distribución. Dado lo anterior es necesario tener criterios que
nos ayuden a comparar modelos y a escoger uno.
En comparación el AIC, el termino de penalización del BIC tiene más peso para T>𝑒 2 , que se
mantiene en la mayoría de las aplicaciones. Así el BIC suele favorecer más en la elección de
modelos con menos parámetros que el AIC.
Aplicación
Motivación
En este capítulo aplicaremos lo estudiado hasta el momento en el ámbito de terremotos,
intentaremos encontrar un modelo mixto adecuado para el conteo de terremotos.
Teniendo como interrogante principal ¿Por qué ocupar cadenas de markov ocultas en serie de
tiempos de conteos? Más allá de pensar en utilizar una serie de tiempo que se especial para
conteos
##### formular una pregunta pero sin caer en que las series de tiempo son mejores
Para aplicar lo estudiado se tomó una base de datos del catálogo ISC-GEM de sismos que
cubre el periodo de 1904-2014, producida por el International Seismological Centre (Reino
Unido). Los catálogos son utilizados en muchas actividades por la comunidad sismológica
Por lo general estas listan parámetros focales básicos de eventos sísmicos (por ejemplo,
ubicación, tiempo de origen, profundidad). El catalogo ISC-GEM esta es la versión más
actual del Catálogo (diciembre 2017). El proyecto se realizó durante 4 años que actualizo y
reviso la primera versión del Catálogo ISC-GEM de sismos que cubre el periodo de 1900-
2009 (enero 2013). Este proyecto de extensión y revisión del catálogo tenía dos objetivos
1- incorporar los sismos con grado 5.5 o superior ocurridos después de 2009 y 2- revisar e
incorporar más sismos de grado menor que 6.25 para el periodo anterior a 1960.
Los datos anteriores del 1960 son más problemáticos, ya que las fuentes de los sismos son
menos confiables (era pre-digital, menos aparatos de medición y la segunda guerra
mundial también tuvo un impacto negativo en las mediciones en parte de este periodo)
además influye la conversión de mediciones a escala de magnitud de momento (Mw)
escala sucesora a la escala Richter,
Se eliminaron los terremotos durante los primeros 4 años (1900–1903) debido a la falta de
una estación confiable en los datos
Nosotros ocuparemos los datos del catálogo del ISC-GEM, poniendo limites al seleccionar el
lugar a estudiar, para esta aplicación elegiremos Sudamérica con el fin de ver el
comportamiento de la placa sudamericana, para ello haremos conteos de terremotos por
año, es decir se contarán los terremotos por año para ver el comportamiento de estos. Se
considerará
m=2
m=3
m=4
Tabla resumen
Modelo i 𝛿𝑖 𝜆𝑖 -log L
m=1 1 1 10.280 370
m=2 1 0.45 6.100 355.1082
2 0.55 13.500
m=3 1 0.092 1.041 335.0889
2 0.584 7.829
3 0.324 16.445
m=4 1 0.227 2.7 318.818
2 0.287 7.814
3 0.4307 11.730
4 0.0553 25.3
Criterios de Información
Modelo AIC BIC
m=2 720 734
m=3 692 722
m=4 676 727
Con color azul BIC y con color rojo AIC