Está en la página 1de 4

Scientia et Technica Ao XI No 28 Octubre de 2005 UTP.

ISSN 0122-1701

65

SELECCIN DE CARACTERSTICAS USANDO HMM PARA LA IDENTIFICACIN DE PATOLOGAS DE VOZ


RESUMEN Aunque se conocen diversos mtodos de seleccin de caractersticas, orientados al mejor rendimiento de clasificacin, en el caso de los procesos aleatorios markovianos, la reduccin en la dimensionalidad del hiperespacio inicial de entrenamiento es compleja, por cuanto cada caracterstica corresponde a un vector con dinmica de cambio propia. En el presente trabajo se analizan dos alternativas para seleccin de las caractersticas: Anlisis de Componentes Principales y Anlisis Discriminante Lineal. Los resultados obtenidos muestran un rendimiento de clasificacin entre 76.25% y 91.45%. PALABRAS CLAVES: Procesos markovianos, Anlisis de Componentes Principales, Anlisis Discriminante Lineal. ABSTRACT Eventhough several feature selection methods oriented to better classification performance are known, in the case of random markovian processes, dimensional reduction is complicated since each feature corresponds to a vector with its own dynamics of change. In this work, two different alternatives for feature selection are analyzed: Principal Component Analysis and Linear Discriminant Analysis. Results show correct classification rates between 76.25% and 91.45%. KEYWORDS: Markovian processes, Principal Component Analysis, Linear Discriminant Analysis. 1. INTRODUCCIN Los modelos ocultos de Markov (HMM Hidden Markov Models) han sido usados de manera amplia en aplicaciones relacionadas al procesamiento de voz. Por ejemplo, en el reconocimiento de voz, los HMM se han utilizado en tareas que incluyen el reconocimiento de palabras aisladas, el reconocimiento de voz continua y la identificacin de patologas [4]. De otra parte, un problema frecuente en las tareas de clasificacin es el referido a la dimensionalidad, entendida como la cantidad de variables a considerar, que puede ser enorme, comparable con la cantidad de realizaciones de entrenamiento del sistema, generando consigo alta variabilidad en el modelo discriminante. La seleccin de caractersticas corresponde a la reduccin de la dimensionalidad de las caractersticas de voz que alimentan el clasificador, manteniendo un nivel tal de discriminacin, que permita el reconocimiento de las diferentes clases de voz. Entre los mtodos de anlisis discriminante ms comnmente utilizados estn [8], [9], [10]: Anlisis de Componentes Principales (PCA) y el Anlisis Discriminante Lineal (LDA). Diversos mtodos de seleccin se han utilizado en el reconocimiento de voz para obtener las caractersticas con la ms alta capacidad discriminante, [1], [2]. Y aunque los HMM se han usado para el reconocimiento de
Fecha de Recepcin: 31 Mayo de 2005 Fecha de Aceptacin: 16 Agosto de 2005

MAURICIO LVAREZ Ingeniero Electrnico, Estudiante de la maestra en Ingeniera Elctrica. Universidad Tecnolgica de Pereira malvarez@ohm.utp.edu.co GERMN CASTELLANOS Ph.D. en Telecomunicaciones Docente de planta Universidad Nacional de Colombia, s. Manizales gcastell@ieee.org

patologas de voz [4], el reconocimiento de patologas de voz usando HMM y diferentes tcnicas de reduccin de dimensionalidad para la seleccin de caractersticas de manera simultnea, no se ha formulado con anterioridad. En el artculo, se presenta la aplicacin de las tcnicas antes mencionadas de reduccin de dimensin para la seleccin de caractersticas en el reconocimiento de patologas de voz sobre muestras de labio y paladar hendido usando HMM y patologas de voz. Las caractersticas de voz analizadas son los coeficientes MFCC, as como las caractersticas acsticas (el pitch y el HNR). Con el fin de obtener una mejor representacin de la seal de voz, se incluyen las caractersticas dinmicas que relacionan la dependencia entre los marcos. As, las caractersticas dinmicas de primer orden y segundo orden se concatenan con las caractersticas estticas para obtener un vector conjunto inicial de representacin de las seales de voz. En el caso particular, por cada clase se disea un HMM, cuyos parmetros se estiman mediante el criterio de Mxima Verosimilitud, usando el algoritmo EM (ExpectationMaximization).

66 2. ENTRENAMIENTO DE OCULTOS DE MARKOV 2.1 Extraccin de Caractersticas Se consideran los coeficientes cepstrum sobre la escala de frecuencias Mel (MFCC Mel-Frecuency Cepstrum Coefficients) [5]. As mismo, se usan las caractersticas acsticas [1], entre las cuales estn el pitch, definido como la frecuencia fundamental percibida, que corresponde a la tasa a la cual se abren y cierran las cuerdas vocales y la razn logartmica de energa entre el ruido y los armnicos (HNR) [6]. Se incluyen adems, caractersticas dinmicas de primer y segundo orden. 2.2 Reduccin de Dimensionalidad La reduccin del espacio inicial de caractersticas de voz se realiza empleando mtodos de anlisis multivariado [8]: 2.2.1 Anlisis de Componentes Principales (PCA) Corresponde a la transformacin lineal de las caractersticas originales, que genera el espacio modificado, de acuerdo a
v' = Av (1) donde v es el vector de caractersticas original, v es el vector de caractersticas transformado y A es la matriz de transformacin. La matriz A se determina de forma tal, que todos los elementos individuales de v queden incorrelacionados, es decir, que la matriz de covarianza de los datos transformados tenga elementos diferentes de cero, nicamente, en su diagonal principal. Esto se logra usando los autovectores de la matriz de covarianza de los datos originales, como las filas de la matriz A [8], [9], [10].

Scientia et Technica Ao XI, No 28, Octubre de 2005. U.T.P

LOS

MODELOS

medios de su propia clase, mientras la matriz SB muestra la dispersin de los valores medios de cada clase con respecto a una media generalizada. Las matrices SW y SB se usan para calcular el criterio J [3]:
J = tr(S -1 W SB )

(2)

donde tr() quiere decir la traza de SW-1SB. Se busca maximizar el criterio de la ec. (2) para encontrar el nuevo espacio de caractersticas. Se puede demostrar [12] que la maximizacin de (2) se obtiene encontrando los autovalores y autovectores de la matriz SW-1SB. Al igual que en PCA, existen diferentes criterios relacionados con los autovalores para escoger m, la dimensionalidad del nuevo espacio [3]. El clculo de la matriz intra- clases presenta el problema de como definir apropiadamente estas clases [3]. En este trabajo, en el HMM continuo, los estados se definieron como las clases [12]. 3. MARCO EXPERIMENTAL 3.3.1 Modelos Ocultos de Markov Un HMM es bsicamente una cadena de Markov en la que cada observacin de salida es una variable aleatoria X generada de acuerdo a una funcin de probabilidad asociada a cada estado [14]. Formalmente hablando un modelo oculto de Markov est definido por:
O = {o1 , o 2 , , o M } Observaciones de salida, que pueden ser discretas o continuas. = {1, 2, , N} Conjunto de estados que representa el espacio de estados. A = {a ij } Matriz de transicin de probabilidades,

donde a ij es la probabilidad de que se haga la

transicin desde el estado i al estado j . B = {bi (k)} Matriz de probabilidad de salida, donde
bi (k) es la probabilidad de emitir el smbolo

ok en

La reduccin de dimensionalidad se obtiene al incluir en la matriz A nicamente un nmero m < n de los autovectores, donde m representa la dimensionalidad del nuevo espacio. El valor de m se obtiene de acuerdo a diferentes criterios sobre los autovalores de la matriz de covarianza de los datos originales [8]. 2.2.2 Anlisis Discriminante Lineal (LDA) Al igual que PCA, el anlisis discriminante lineal es una transformacin lineal sobre el espacio de caractersticas original. Mientras PCA busca un nuevo espacio de caractersticas en el cual la correlacin entre ellas sea la menor, LDA busca un espacio en el cual se maximice alguna medida de separabilidad entre las clases [12]. En LDA se definen las matrices intra-clases SW e interclases SB, respectivamente [12]. La matriz SW muestra la dispersin de las muestras alrededor de los valores

el estado i . Las probabilidades de salida tambin pueden modelarse con funciones de densidad de probabilidad continua [13]. = {i } Distribucin de estados inicial donde i es la probabilidad de empezar en el estado i . Por conveniencia se usa la siguiente notacin
= ( A , B, )

(3)

para indicar el conjunto total de parmetros de un HMM. Los parmetros anteriores se estiman mediante el algoritmo de Baum-Welch [14], que equivale al algoritmo EM cuando se aplica a modelos ocultos de Markov [5].

Scientia et Technica Ao XI, No 28, Octubre de 2005. U.T.P

67 4.4.6 Reduccin del hiperespacio inicial de entrenamiento Los resultados obtenidos usando PCA y LDA y el conjunto de caractersticas estticas y dinmicas concatenado, se muestran en las figuras 1, 2 para la base de datos BD1. En la tabla 1 se resumen los mejores resultados.

3.3.2 Modelos de Mezclas de Gaussianas Los modelos de mezclas de Gaussianas (GMM Gaussian Mixtures Models) han mostrado ser una herramienta poderosa para distinguir fuentes acsticas con diferentes propiedades generales. En reconocimiento de hablante, esta habilidad se ha explotado comnmente, modelando cada hablante con un GMM [15]. Los GMM no se sustentan en la segmentacin de la seal de voz, con lo cual no estn en capacidad de modelar las dependencias temporales [15]. Un GMM est compuesto, bsicamente, de una superposicin de M funciones de densidad de probabilidad (fdp) gaussianas, donde cada fdp est ponderada por un coeficiente de peso cm. Por cada clase se estiman los parmetros de los GMM, que incluyen los coeficientes de ponderacin, y las medias y matrices de covarianza de cada fdp gaussiana. 4. PRUEBAS Y RESULTADOS 4.4.1 Base de datos La base de datos BD1 est conformada 160 muestras de la vocal sostenida /a/, pronunciada por 80 nios con voz normal y 80 nios con labio-paladar hendido. La base de datos BD2 est conformada por 320 muestras de la vocal sostenida /a/ pronunciada por 160 pacientes con voz normal y 160 pacientes con algn tipo de patologa de voz (ndulos, plipos, edemas y carcinomas). 4.4.2 Extraccin de Caractersticas Las caractersticas calculadas por marco son: 12 coeficientes MFCC, la energa, el pitch y el HNR. Se calculan adems, las caractersticas dinmicas (derivadas de primer y segundo orden) para obtener un vector final de caractersticas de 45 variables por marco. 4.4.3 Parmetros del HMM y del GMM El HMM usado tiene 5 estados y 1 GMM de 5 componentes por estado (5 gaussianas multivariadas por estado), con topologa derecha-izquierda. El GMM usado tiene 20 fdp gaussianas. 4.4.4 Esquema de Validacin. La validacin del clasificador se hace por el mtodo validacin cruzada con cuatro particiones, en ambas pruebas. 4.4.5 Definicin de las clases para LDA. Para realizar el anlisis LDA, se definen 5 clusters por estado de los HMM, con el fin de representar las clases (cada cluster corresponde a una componente del GMM). Para los GMM, se definen 20 clusters, uno por cada componente de cada GMM (las fdp gaussianas) para representar las clases.

Figura 1. Porcentajes de clasificacin usando HMM sobre la base de datos BD1

Figura 2. Porcentajes de clasificacin usando GMM sobre la base de datos BD1.

Modelo HMM GMM HMM GMM

E. de Reduccin PCA PCA LDA LDA

Componentes 40/45 45/45 30/45 45/45

PC (%) 89.47 92.99 91.45 90.30

Tabla 1. Mejores resultados usando la base de datos BD1.

Los resultados obtenidos usando PCA y LDA sobre la base de datos BD2, se muestran en las figuras 3,4. En la tabla 2 se resumen los mejores resultados.

68 Modelo HMM GMM HMM GMM E. de Reduccin PCA PCA LDA LDA Componentes 40/45 35/45 45/45 45/45 PC (%) 73.31 73.75 76.25 79.17

Scientia et Technica Ao XI, No 28, Octubre de 2005. U.T.P

logran obtener factores de reduccin mayores que usando GMM. El empleo de caractersticas dinmicas aumenta el rendimiento del clasificador en promedio, para ambos esquemas de reduccin. Como trabajo futuro se propone incluir otros esquemas de reduccin de dimensionalidad como ICA [7] o PCA dinmico [10]. 5. BIBLIOGRAFA
[1] VARGAS, J. F., Seleccin de caractersticas en el anlisis acstico de voces, Tesis de Maestra, Universidad Nacional de Colombia Sede Manizales, 2003. [2] NOUZA, J., Feature selection methods for hidden Markov model based speech recognition, en Proceedings of the 13th International Conference on Pattern Recognition, 1996. [3] K. BEULEN, et al, Experiments with linear feature extraction in speech recognition, 1995. [Online]. Disponible:citeseer.ist.psu.edu/beulen95experiments.html [4] DIBAZAR, A. A. y NARAYANAN, S., A system for automatic detection of pathological speech, en Proceedings of the 36th Asilomar Conf. Signals, Systems Computers. 2002. [5] HUANG, X., ACERO, A., y HON, H. W., Spoken Language Processing. Upper Saddle River, New Jersey: Prentice Hall, 2001. [6] CHILDERS, D. G., Speech Processing and Synthesis Toolboxes. John Wiley & Sons, INC, 2000. [7] HYVARINEN, A. y OJA, E., Independent Component Analysis: A Tutorial, http://www.cis.hut.fi/projects/ica/NN00.pdf, Abril 1999. [8] DOLTSINIS, I., et al , Stochastic Analysis of Multivariate Systems in Computational Mechanics and Engineering, 1st ed. International Center for Numerical Methods in Engineering, September 1999. [9] JOHNSON, R. A. y WICHERN, D. W., Applied Multivariate Statistical Analysis .Prentice Hall, Upper Saddle River, NJ.07458, 2002. [10] I. JOLLIFFE, Principal Component Analysis. Springer Verlag, 2002 [11] DUDA, R. O., HART, P. E., y STORK, D. G., Pattern Classification, Segunda ed. John Wiley & Sons, INC, 2001. [12] JIN, Q. et al Application of LDA to Speaker Recognition. Disponible: http://www.is.cs.cmu.edu/papers/speech/ICSLP2000/ICSLP200 0-qin2.pdf, Octubre 2000. [13] JUANG, B.-H. y RABINER, L., Mixture autoregressive hidden Markov models for speech signals, IEEE Transactions on Acoustics, Speech and Signal Processing, vol. 33, no. 6, Diciembre 1985. [14] RABINER, L. R., A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition, Proceedings of The IEEE, vol. 77, no. 2, Febrero 1989. [15] FALTHAUSER R., PFAU, T. y RUSKE G., On-line speaking rate estimation using Gaussian mixture models. Proceedings of the International Conference in Acoustics, Speech and Signal Processing, 2000, pp. 1355 1358.

Tabla 2. Mejores resultados usando la base de datos BD2.

Figura 3. Porcentajes de clasificacin usando HMM sobre la base de datos BD2.

Figura 4. Porcentajes de clasificacin usando GMM sobre la base de datos BD2.

4. CONCLUSIONES El empleo de mtodos de anlisis discriminante entre las clases, puede ser una buena aproximacin en la reduccin del espacio inicial de entrenamiento, para el caso en que se realice el reconocimiento empleando HMM. En el caso particular, los mtodos comparados (Anlisis de Componentes Principales y el Anlisis Discriminante Lineal) muestran un rendimiento de clasificacin similar, aunque ambos divergen en el factor de reduccin. Los resultados usando GMM se aproximan a los obtenidos usando HMM. Sin embargo, usando HMM se