Documentos de Académico
Documentos de Profesional
Documentos de Cultura
CONTENIDO
Introducción
Introducción al HTK
Modelos de Markov
Bases de datos usadas
Resultados y trabajos futuros
Introducción
Para llevar a cabo este entrenamiento, la Universidad Nacional Autónoma de México (UNAM),
en colaboración con la Universidad de Granada, España, desarrollaron un software cuyo objetivo
es clasificar manualmente las señales volcánicas y generar archivos .mlf y .bin, que fueron
usados como base de entrenamiento en el programa HTK. En total se clasificaron 300 eventos de
cada tipo (LPs, VTs, tremor armónico, explosiones y sismos regionales), la mitad de ellos fueron
empleados para entrenar al sistema y los eventos restantes se utilizaron para probar al sistema.
1
Introducción al HTK
El HTK es un grupo de herramientas para construir Modelos Ocultos de Markov o HMM (por
sus siglas en inglés) que pueden ser usados para modelar cualquier serie de tiempo. Los HMM
son modelos estadísticos en los que se asume que el sistema a modelar es un proceso de Markov
de parámetros desconocidos; un proceso de Markov es aquel en que la probabilidad de que
ocurra un estado sólo depende del estado inmediato anterior (Norris, J.R, 1998). El objetivo es
determinar los parámetros desconocidos (u ocultos, de ahí el nombre) de dicha cadena, a partir
de los parámetros observables. Los parámetros extraídos se pueden emplear para llevar a cabo
sucesivos análisis, por ejemplo aplicaciones de reconocimiento de patrones (Yung, S. et al,
2006).
En un modelo de Markov normal, el estado es visible directamente para el observador, por lo que
las probabilidades de transición entre estados son los únicos parámetros. En un modelo oculto
de Markov, el estado no es visible directamente, sino que sólo lo son las variables influidas por el
estado. Cada estado tiene una distribución de probabilidad sobre los posibles símbolos de salida.
Consecuentemente, la secuencia de símbolos generada por un HMM proporciona cierta
información acerca de la secuencia de estados.
Existen dos principales procesos que se utilizan en el HTK: en el primero, las herramientas de
entrenamiento son usadas para estimar los parámetros de un conjunto de HMMs, utilizando las
formas de onda y sus transcripciones asociadas. En el segundo los datos desconocidos son
decodificados, usando las herramientas de reconocimiento del HTK.
2
Modelos de Markov
Dada una secuencia de eventos sísmicos w = w1, w2, ……..,wl, estos pueden ser representados
como una secuencia de vectores característicos u observaciones O, los cuales son definidos como:
O = o1, o2, o3,…………, ot (1)
Por lo tanto, para un determinado conjunto de probabilidades a priori P(w i), la probabilidad de
que se reconozca un evento sólo depende de la probabilidad condicional de P(O׀wi). Teniendo en
cuenta la dimensionalidad de la secuencia de observaciones O, la estimación conjunta directa de
la probabilidad condicionada P(o1, o2,…… ׀w) no es práctica. Sin embargo, si se asume al sismo
como la salida de un modelo de Markov, entonces la estimación es más sencilla, ya que el
problema de la obtención de la probabilidad condicional P(O׀wi) es sustituida por los parámetros
de los modelos de Markov. Un reconocedor basado en HMMs, supone que la secuencia de
vectores característicos observados correspondiente a cada sismo son generados por un modelo
de Markov (Figura 2).
Un modelo de Markov es una máquina de estados finitos, que cambia de estado una vez cada
unidad de tiempo; en cada tiempo t, un estado j se introduce, y un vector característico o t es
generado a partir de una función de densidad de probabilidad bj(Ot), que es determinada
durante el proceso de entrenamiento. Por otra parte, la transición del estado i al estado j es
también probabilístico y se rige por la probabilidad discreta aij., la cual es usada para modelar el
retraso de los estados y las transiciones a través del modelo entero.
3
La figura 3 muestra un ejemplo de este proceso en el que un modelo de 6 estados se mueve a
través de la secuencia X = 1, 2, 2, 3, 4, 4, 5, 6, a fin de generar la secuencia de vectores
observables del 1 al 6. Se debe de tomar en cuenta que en el HTK, las entradas y salidas de
estados de un HMM no se emiten, esto es para facilitar la construcción de modelos compuestos.
La probabilidad conjunta de O es generada por el modelo M, moviéndose a través de la
secuencias de estados X, esto es calculado simplemente como el producto de las probabilidades
de transición y de las probabilidades de salida. Por lo tanto, para el estado X en la figura 3
Modelo
de
Markov
M
Secuencia de
observaciones
a) Entrenamiento
Ejemplos de entrenamiento
Estimación
de los
Modelos
b) Reconocimiento
Desconocido O=
El software para la segmentación y clasificación de señales sísmicas está escrito con Matlab,
versión 7.0.4; además cuenta con interfaces gráficas muy amigables con el usuario. Para obtener
una buena base de entrenamiento se clasificaron 300 eventos de cada tipo, de los cuales 150 se
utilizaron para la fase de entrenamiento del sistema y los 150 restantes para las pruebas de
reconocimiento. La estación sísmica utilizada para la clasificación de los eventos fue la estación
Chiquipixtle de periodo corto en su componente vertical, esto es conveniente para el debido
funcionamiento del programa de segmentación y clasificación de señales, además se localiza
sobre las laderas del volcán y registra una cantidad importante de eventos.
Una base de datos de sismos de origen volcánico debe de contener los eventos que generalmente
ocurren en el volcán, ya sea de origen interno (LP, VT, Tremor, etc.) o eventos superficiales
(Lahares, Derrumbes etc.). Para el volcán Popocatépetl se usaron los diferentes eventos sísmicos
observados durante diferentes periodos de actividad y su clasificación estuvo basada tanto en su
forma de onda como en sus espectros y su origen.
Los eventos volcanotectónicos, también llamados eventos de alta frecuencia o eventos tipo A, son
eventos que se asocian con el fracturamiento de la roca en respuesta a los esfuerzos asociados y
se caracterizan por tener una señal de duración variable, con un arribo de la onda P más o menos
impulsiva y se puede identificar el arribo de la onda S (Ibáñez, 2000); tienen una gran variedad
de frecuencias, desde 1 hasta 15 Hz aproximadamente (Figura 5) y su decaimiento generalmente
es de tipo exponencial.
Explosiones
Este tipo de evento, al igual que los LPs, son procesos de fuente no destructiva de tipo
persistente; se caracteriza por producir señales sísmicas que conservan una amplitud constante
por largos periodo de tiempo, que van desde los pocos minutos hasta varias horas o incluso
varios días, con contenido espectral centrado en bandas de frecuencia relativamente estrechas.
El tremor volcánico está asociado a eventos de movimiento de gases o cenizas en el interior del
volcán. El tremor de tipo armónico tiene una frecuencia fundamental y sus ‘armónicos’ bien
definidos (Figura 8). En algunas etapas de actividad se ha registrado tremor espasmódico, que
no mantiene frecuencias fundamentales y presenta amplitudes variables. Algunas explosiones
terminan con este tipo de tremor.
Figura 8 Segmentación de evento de tipo tremor armónico registrado el 1° de abril del 2001
Sismos regionales
Los sismos regionales que se registran en la red de monitoreo del volcán Popocatépetl, provienen
principalmente de las costas del Pacífico; estos sismos se generan en la zona de subducción. Otra
contribución no menos importante son los sismos intraplaca, que por la cercanía con el volcán
pudieran confundirse con sismos volcanotectónicos (Figura 9).
Figura 9 Segmentación de evento de tipo sismo tectónico registrado el 7 de enero del 2001;
se puede observar que previo a este sismo se registró un volcanotectónico
8
Resultados y trabajos futuros
En total se segmentaron 1,550 eventos (300 de cada tipo) y una vez instalado el HTK, se
conformaron las bases de entrenamiento y reconocimiento con los archivos .mlf y .bin que se
obtuvieron de la segmentación.
Una vez que el programa terminó de clasificar y entrenar al sistema, realizó la etapa de
reconocimiento y arrojó una tabla de resultados, como la que se muestra en la figura 11.
9
Esta tabla de resultados es muy importante, ya que nos dice la exactitud y eficiencia del sistema,
los parámetros más importantes que se deben tomar en cuenta son: %Corr, Acc o 'Accuracy', que
es la eficiencia del sistema; H, que es el número de eventos reconocidos correctamente; D es el
número de eventos borrados, I es el número de inserciones o sismos que fueron agregados sin
que existieran y N es el número de eventos totales. La matriz que se observa por debajo de estos
valores es llamada “matriz de confusión”, que nos dice cómo clasifica nuestros eventos, por
ejemplo la EXP, tiene 28 EXP, esto quiere decir que efectivamente está reconociendo 28
explosiones, aunque si miramos el renglón correspondiente a Ins se observa que existen 169
inserciones en las explosiones, esto significa que está clasificando 169 explosiones que no
existen.
Para obtener mejores resultados es necesario realizar diversas pruebas moviendo y/o cambiando
los parámetros que el HTK utiliza para encontrar los mejores HMM y con esto mejorar la
exactitud de reconocimiento.
Dentro del trabajo futuro a realizar, está la implementación del sistema decodificador en tiempo
real; para ello se tendrán que mejorar los modelos hasta encontrar el que mejor nos clasifique
nuestras señales. De igual forma se debe seguir aumentando la base de datos, para que se tengan
mejores modelos. Con la implementación en tiempo real se necesitará empatar el sistema de
adquisición de datos, que en nuestro caso es el EARTHWORM, con el HTK.
Referencias:
Norris, J. R., Markov Chains, 1997, Cambridge University Press, ISBN 0-521-63396-6, Pag. xiii.
Ruiz Jiménez, M. J., Medrano Llorente, J., González García, C., sin fecha, Matemáticas 1
Bachillerato, Editorial Editex S. A., ISBN: 978-84-9771-345. Pag. 378
Yung, S., Evermann, G., Gales, M., Hain, T., Kershaw, D., Liu, X., Moore, G., Odell, J., Ollason,
D., Povey, D., Valtchev, V., Woodland, P., The HTK Book (Version 3.4), 2006, Cambridge
University Engineering Department.
10