Está en la página 1de 8

Verificación de Hablantes usando

Información de Pitch y Melspec


E. Simancas, M. Nakano y H. Pérez

Sección de Estudios de Posgrado e Investigación, ESIME Culhuacan


Instituto Politécnico Nacional
Escuela Superior de Ingeniería Mecánica y Eléctrica Unidad Culhuacan
Av. Santa Ana No. 1000, Col. San Francisco Culhuacan, 04430 México D.F.
Tel /Fax: 656-20-58 email hmpm@prodigy.net.mx

RESUMEN

Recientemente la investigación en el campo de biométrica adquirió gran interés debido al


crecimiento de la necesidad de seguridad al acceso a algunos lugares exclusivos, donde no
únicamente se reconozca una palabra clave que un hablante dice si no que también reconozca
al hablante que dice dicha palabra clave. En este articulo se propone un sistema de
verificación de hablante, el cual esta diseñado para verificar a las personas a través de la voz.
El sistema consiste de dos etapas; la etapa de la extracción de las características usando
información de pitch y la etapa de verificación del hablante usando una red de retro-
propagación. En la etapa de extracción de características, las partes vocales que nos
proporcionan mayor información del hablante se han detectado por medio de la información
del pitch, y los datos del melspec se obtienen usando FFT y filtro de Gabor. Los resultados
obtenidos por simulación computacional muestran un buen funcionamiento del sistema, ya que
el porcentaje de acierto es aproximadamente el 95%.

ABSTRACT

Recently the investigation in the biometrics field acquired great interest due to the growth of the
needs of security of access to some exclusive places, where the system not only recognize a
keyword that a speaker tells, but also recognizes who is the speaker. This paper proposed a
speaker verification system that is designed to verify through the voice. The system has two
stages: the feature extraction stage using pitch and melspec information and the speaker
verification stage using a back-propagation neural network. In the feature extraction stage the
voiced parts that give us more speakers information have been detected by the pitch
information and the melspec’s data are obtained using FFT and Gabor filter. The results by
computer simulation show a very performance and obtaining 95% rate of recognition.

1. INTRODUCCIÓN

Debido al incremento de la necesidad de seguridad para el acceso a ciertos lugares


exclusivos, la importancia sobre la investigación del campo de biométrica ha crecido
exponencialmente. El objetivo de la investigación en el campo de la biométrica es verificar o
identificar personas usando características biométricas de la persona, tales como huellas
digitales, rostros, patrones del iris de los ojos, características de la señal de voz, etc. Cada
característica biométrica tiene ventajas y desventajas comparadas con otras, por ejemplo: El
patrón de huellas digitales es la característica mas utilizada para la identificación de personas,
sin embargo, existe cierto rechazo a la hora de la captura de este patrón en algunas
sociedades [1].

La identificación o verificación de personas usando su patrón de voz es un tema relativamente


nuevo, sin embargo tiene una ventaja sobre otras características biométricas, por ejemplo;
usando esta característica se puede realizar la identificación o verificación de personas vía
algún medio de comunicación como el teléfono. Aunque en ese caso se introduce cierta
distorsión a la señal de voz. Recientemente han sido reportados algunos trabajos realizados
sobre este tema, en la mayoría de ellos se utiliza el cepstrum, los coeficientes de LPC como
características extraídas de la señal de voz para la identificación y verificación del hablante [2],
[3],[4], sin embargo ninguno de ellos todavía llega a ser un sistema suficientemente confiable.

En este artículo se propone un sistema de verificación de hablante usando características de


patrón de voz. El sistema consiste de dos etapas, los cuales son: La etapa de extracción de
las características usando información de pitch, y la etapa de verificación de hablante usando
una red neuronal de tipo retro-propagación. Con las características extraídas se forma un
conjunto de datos llamado Melspec, la cual contiene información tanto de tiempo como de
frecuencia, y se introduce a la red neuronal de retro-propagación para verificación de hablante.
El sistema se ha enfocado a una aplicación de seguridad, tal como acceso a un lugar exclusivo
usando la señal de voz, por lo tanto, la decisión tomada respecto a la identidad del hablante
por el sistema depende de las palabras, las cuales se determinan de antemano como palabras
claves.

2. SISTEMA PROPUESTO

La figura 1 muestra el sistema propuesto, el cual consiste de dos etapas: la etapa de


extracción de las características y la etapa de la verificación del hablante usado las
características extraídas en la primera etapa.

En la extracción de las características, primero detecta la posición y duración del pitch, debido
a que el pitch aparece únicamente en la parte vocal de señal de voz, y la mayoría de la
información sobre las características del hablante se concentra en la parte vocal y no en la
parte de las consonantes. Usando la parte vocal de la señal de voz, se calcula la Transformada
de Fourier con 128 puntos para obtener el espectrograma de dicha señal, después aplicando 5
wavelets de Gabor como ventana, se obtiene el conjunto de datos Melspec. La figura 2
muestra la etapa de extracción de las características de la señal de voz.

Verificación usando Redes Neuronales


Melspec

Melspec
FFT de 128 puntos
Ventana del Filtor de Gabor
Extracción de características

Detección del periodo de pitch usando


Señal de Voz método de Autocorrelación
Fig.1.- Sistema Propuesto Fig.2.- Extracción de Características

2.1 Detección de periodo del pitch

Existen varios algoritmos para la detección del pitch, tales como el método de autocorrelación,
el método de cepstrum, el método de Filtro inverso, etc. [5]. En el sistema propuesto, se usa
el método de autocorrelación para la detección de pitch, el cual pertenece a los métodos de
dominio del tiempo y la información de autocorrelación de la propia señal de voz. Usando la
información del pitch determina el punto de inicio y final de la vocal. La figura 3 muestra la
señal correspondiente a la palabra "casa", y el punto de inicio y final de los dos vocales 'a' de
'ca' y 'sa'.
Fig.3.- Señal de voz correspondiente a la palabra "casa", con el punto de inicio de las dos
vocales,'a' de 'ca' y 'a' de 'sa'.

2.2 Melspec

Una vez determinado el punto de inicio y el punto final de las vocales que aparecen en la
palabra, se extraen únicamente los segmentos que contienen información útil para la
verificación de hablante como se muestra en la figura 4.

Figura 4. Obtención de los segmentos de la palabra casa con mayor información .


De los segmentos extraídos de la palabra, se calcula la Transformada de Fourier de 128
puntos, para obtener el espectrograma. El espectrograma contiene información tanto de
tiempo como de frecuencia, sin embargo el número de datos todavía es bastante grande para
la verificación. El Melspec mantiene la información del espectrograma, sobre todo la
información de baja frecuencia, por lo que se reduce el número de datos considerablemente.
Para calcular el Melspec, se utilizan 5 wavelets de Gabor que se calculan con la ecuación. (1)

  x  
2
2  
G m ( x)  (2 ) 1 / 4 exp  m

  (1)
m 
 
 m  

Donde

 m  3 ( m 1)

 ( m 1)
m 2
ln 2

m = significa el número de filtros de Gabor.

La figura 5 muestra los 5 wavlets del filtro de Gabor calculados para cada segmento que
contiene la información útil de la señal de voz.

Fig.5.- 5 wavlets del filtro de Gabor.

2.3 Verificación del hablante

La etapa de la verificación del hablante consiste de una red neuronal de retro-propagación con
una capa oculta de 20 neuronas. El vector de entrada de la red neuronal consiste de datos del
Melspec extraídos anteriormente. La longitud del vector de entrada es 55, esto es 5
componentes de frecuencia por 11 componentes de tiempo. El número de neuronas de salida
es igual que el número de hablantes que queremos identificar, en la evaluación del sistema
usamos 4 hablantes (2 hablantes masculinos, 2 hablantes femeninos), por lo tanto el número
de neuronas de salida es 4. El número de neuronas de capa oculta no se puede definir de
antemano, cuando se aumenta el número de neuronas ocultas, la red verifica con mayor
facilidad, aunque la complejidad computacional se aumenta.

3. RESULTADOS OBTENIDOS
Para evaluar el sistema propuesto, diseñamos un sistema de verificación de 4 hablantes, los
cuales son 2 hablantes masculinos, y 2 hablantes femeninos. Cada hablante pronuncia 40
veces la palabra "casa", y son almacenadas y capturadas cada señal de voz en formato de 8
bit PCM con una frecuencia de muestreo de 11 KHz.

Para la reducción de información de los Melspec se toma la parte con mayor frecuencia como
se muestra en la figura 6 ya que en algunos casos los segmentos con información útil varia en
tiempo y solo se obtiene información no deseada, además, de esta manera se simplifica el
proceso de entrenamiento. La figura 7 muestra los Melspec de 4 hablantes, en la cual
podemos observar la diferencia de los patrones entre los hablantes.

Fig. 6.- Reducción de datos para simplificar el proceso de entrenamiento.

Hablante 1 Hablante 2 Hablante 3 Hablante4


(Masculino) (Femenino) (Masculino) (Femenino)

Fig. 7 Datos de Melspec de 4 hablantes

Para el entrenamiento de los patrones característicos de la señal de voz de la palabra ‘CASA’


se implemento una red neuronal de retro-propagación con 20 neuronas ocultas como se
muestra en la figura 8., se prefirió este número de neuronas ya que el sistema presenta un
mejor funcionamiento en la verificación del hablante , si se utiliza un número menor de
neuronas ocultas el funcionamiento en cuanto a los cálculos computacionales es mejor pero no
así en el funcionamiento de reconocimiento del sistema, y si se utilizan mayor número de
neuronas ocultas la complejidad computacional aumenta y para esta aplicación no mejoraría el
porcentaje de reconocimiento.
Fig. 8.- Red Neuronal de Retropropagación utilizada para el sistema propuesto.

Para el porcentaje de reconocimiento de los hablantes utilizando por separado los melspec de
‘A’ de ‘CA’ y usando la red neuronal de retro-propagación con 20 neuronas ocultas es de
93.13%, 88.75%, 73.75%, 90.63% y 86.88% respectivamente, como se observa en la gráfica
1. El resultado de la verificación del Hablante para ‘A’ de ‘CA’ usando los 5 melspec muestra un
porcentaje de reconocimiento de 96.25% de acierto, como se observa en la gráfica 2. Los
resultados de reconocimiento de los hablantes usando cada uno de los melspec por separado
se muestran él la gráfica 3. El resultado obtenido para los hablantes con los 5 melspec de ‘A’
de ‘CA’ se muestra en la gráfica 4. La gráfica 5 muestra una comparación del porcentaje de
reconocimiento que se obtuvo analizando los segmentos con información más útil de la
palabra CASA.

100
90
80
70
60
50
40
30
20
10
0
Melspec's
Melspec 1 93.13
Melspec 2 88.75
Melspec 3 73.75
Melspec 4 90.63
Melspec 5 86.88

Gráfica 1.- Resultados de reconocimiento con cada Melspec de ‘A’ de ‘CA’.


100
90
80
70
60
50
40
30
20
10
0
Hablantes
Hablante 1 100
Hablante 2 100
Hablante 3 92.5
Hablante 4 100

Gráfica 2.- Resultados de reconocimiento para cada hablante usando los 5 Melspec de ‘A’ de

100
90
80
70
60
50
40
30
20
10
0
Melspec's
Melspec 1 93.13
Melspec 2 88.75
Melspec 3 80
Melspec 4 88.75
Melspec 5 86.88

‘CA’.
Gráfica 3.- Resultados de reconocimiento con cada Melspec de ‘A’ de ‘SA’.
Gráfica 4.- Resultados de reconocimiento para cada hablante usando los 5 Melspec de ‘A’ de
‘SA’.
Gráfica 5.- Comparación del porcentaje de reconocimiento de los 2 segmentos con información
más útil de la palabra CASA.
4. CONCLUSIONES

Existen diversas características de la señal de voz como cepstrum, coeficientes LPC, etc. con
las que se han desarrollado diversos sistemas de verificación del hablante pero no son tan
confiables como requiere una aplicación de seguridad, con el sistema propuesto mostrado en
la figura 1 se tiene un buen funcionamiento para estas aplicaciones ya que en promedio se
tiene un reconocimiento de acierto del 97% como se da a notar en las gráficas de resultados.

100
90
96.2580
70
% 98.13 %
60
50
100 40
30
90 20
10
80 0
Hablantes
70 100
Hablante 1
60 Porcentaje de 5Melspec
Hablante 2 100
de A de CA
50 Hablante 3 87.5
40 Porcentaje de 5Melspec
Hablante 4 97.5
30 de A de SA
20
10
0
Segmentos con información del
Hablante
El sistema propuesto presenta una estructura fácil de desarrollar y su complejidad matemática
es mínima, para este sistema en la etapa de verificación del hablante se utiliza una red
neuronal de retro-propagación con 20 neuronas en la capa oculta que es un número óptimo
para la aplicación de reconocimiento de 4 hablantes, por lo que el sistema propuesto puede
tener diversas aplicaciones en el campo de la identificación y verificación del hablante.

5. REFERENCIAS

[1] Anil K. Jain,"An ldentify-Authentication System Using Fingerprints, Proceedings of the


IEEE, vol.85 No. 9, 1997
[2] J.P.Campbeli, "Speaker Recognition: A Tutorial", Proceedings of the IEEE, vol. 85, No. 9,
1997
[3] S. Furui, "Cepstral analysis technique for automatic speaker verification”, IEEE Trans.
Acoust. Speech, Signal Processing, Vol. ASSP-29, pag..254-272,1981.
[4] A. Higgins, L. Bahier, and J. Porter, "Speaker verification using randomaized phrase
prompting", Digital Signal Processing, Vol. 1, No.2, pag. 89-106,1991.
[5] L. R. Rabiner, M.J. Cheng, A. E. Rosenberg, C.A. McGonegal, “A Comparative Performance
Study of Several Pitch Detection Algorithms”, IEEE Trans. Acoust. Speech, Signal Processing,
Vol. ASSP-24, No.5, pag. 399-418,1976.

También podría gustarte