Documentos de Académico
Documentos de Profesional
Documentos de Cultura
RESUMEN
ABSTRACT
Recently the investigation in the biometrics field acquired great interest due to the growth of the
needs of security of access to some exclusive places, where the system not only recognize a
keyword that a speaker tells, but also recognizes who is the speaker. This paper proposed a
speaker verification system that is designed to verify through the voice. The system has two
stages: the feature extraction stage using pitch and melspec information and the speaker
verification stage using a back-propagation neural network. In the feature extraction stage the
voiced parts that give us more speakers information have been detected by the pitch
information and the melspec’s data are obtained using FFT and Gabor filter. The results by
computer simulation show a very performance and obtaining 95% rate of recognition.
1. INTRODUCCIÓN
2. SISTEMA PROPUESTO
En la extracción de las características, primero detecta la posición y duración del pitch, debido
a que el pitch aparece únicamente en la parte vocal de señal de voz, y la mayoría de la
información sobre las características del hablante se concentra en la parte vocal y no en la
parte de las consonantes. Usando la parte vocal de la señal de voz, se calcula la Transformada
de Fourier con 128 puntos para obtener el espectrograma de dicha señal, después aplicando 5
wavelets de Gabor como ventana, se obtiene el conjunto de datos Melspec. La figura 2
muestra la etapa de extracción de las características de la señal de voz.
Melspec
FFT de 128 puntos
Ventana del Filtor de Gabor
Extracción de características
Existen varios algoritmos para la detección del pitch, tales como el método de autocorrelación,
el método de cepstrum, el método de Filtro inverso, etc. [5]. En el sistema propuesto, se usa
el método de autocorrelación para la detección de pitch, el cual pertenece a los métodos de
dominio del tiempo y la información de autocorrelación de la propia señal de voz. Usando la
información del pitch determina el punto de inicio y final de la vocal. La figura 3 muestra la
señal correspondiente a la palabra "casa", y el punto de inicio y final de los dos vocales 'a' de
'ca' y 'sa'.
Fig.3.- Señal de voz correspondiente a la palabra "casa", con el punto de inicio de las dos
vocales,'a' de 'ca' y 'a' de 'sa'.
2.2 Melspec
Una vez determinado el punto de inicio y el punto final de las vocales que aparecen en la
palabra, se extraen únicamente los segmentos que contienen información útil para la
verificación de hablante como se muestra en la figura 4.
x
2
2
G m ( x) (2 ) 1 / 4 exp m
(1)
m
m
Donde
m 3 ( m 1)
( m 1)
m 2
ln 2
La figura 5 muestra los 5 wavlets del filtro de Gabor calculados para cada segmento que
contiene la información útil de la señal de voz.
La etapa de la verificación del hablante consiste de una red neuronal de retro-propagación con
una capa oculta de 20 neuronas. El vector de entrada de la red neuronal consiste de datos del
Melspec extraídos anteriormente. La longitud del vector de entrada es 55, esto es 5
componentes de frecuencia por 11 componentes de tiempo. El número de neuronas de salida
es igual que el número de hablantes que queremos identificar, en la evaluación del sistema
usamos 4 hablantes (2 hablantes masculinos, 2 hablantes femeninos), por lo tanto el número
de neuronas de salida es 4. El número de neuronas de capa oculta no se puede definir de
antemano, cuando se aumenta el número de neuronas ocultas, la red verifica con mayor
facilidad, aunque la complejidad computacional se aumenta.
3. RESULTADOS OBTENIDOS
Para evaluar el sistema propuesto, diseñamos un sistema de verificación de 4 hablantes, los
cuales son 2 hablantes masculinos, y 2 hablantes femeninos. Cada hablante pronuncia 40
veces la palabra "casa", y son almacenadas y capturadas cada señal de voz en formato de 8
bit PCM con una frecuencia de muestreo de 11 KHz.
Para la reducción de información de los Melspec se toma la parte con mayor frecuencia como
se muestra en la figura 6 ya que en algunos casos los segmentos con información útil varia en
tiempo y solo se obtiene información no deseada, además, de esta manera se simplifica el
proceso de entrenamiento. La figura 7 muestra los Melspec de 4 hablantes, en la cual
podemos observar la diferencia de los patrones entre los hablantes.
Para el porcentaje de reconocimiento de los hablantes utilizando por separado los melspec de
‘A’ de ‘CA’ y usando la red neuronal de retro-propagación con 20 neuronas ocultas es de
93.13%, 88.75%, 73.75%, 90.63% y 86.88% respectivamente, como se observa en la gráfica
1. El resultado de la verificación del Hablante para ‘A’ de ‘CA’ usando los 5 melspec muestra un
porcentaje de reconocimiento de 96.25% de acierto, como se observa en la gráfica 2. Los
resultados de reconocimiento de los hablantes usando cada uno de los melspec por separado
se muestran él la gráfica 3. El resultado obtenido para los hablantes con los 5 melspec de ‘A’
de ‘CA’ se muestra en la gráfica 4. La gráfica 5 muestra una comparación del porcentaje de
reconocimiento que se obtuvo analizando los segmentos con información más útil de la
palabra CASA.
100
90
80
70
60
50
40
30
20
10
0
Melspec's
Melspec 1 93.13
Melspec 2 88.75
Melspec 3 73.75
Melspec 4 90.63
Melspec 5 86.88
Gráfica 2.- Resultados de reconocimiento para cada hablante usando los 5 Melspec de ‘A’ de
100
90
80
70
60
50
40
30
20
10
0
Melspec's
Melspec 1 93.13
Melspec 2 88.75
Melspec 3 80
Melspec 4 88.75
Melspec 5 86.88
‘CA’.
Gráfica 3.- Resultados de reconocimiento con cada Melspec de ‘A’ de ‘SA’.
Gráfica 4.- Resultados de reconocimiento para cada hablante usando los 5 Melspec de ‘A’ de
‘SA’.
Gráfica 5.- Comparación del porcentaje de reconocimiento de los 2 segmentos con información
más útil de la palabra CASA.
4. CONCLUSIONES
Existen diversas características de la señal de voz como cepstrum, coeficientes LPC, etc. con
las que se han desarrollado diversos sistemas de verificación del hablante pero no son tan
confiables como requiere una aplicación de seguridad, con el sistema propuesto mostrado en
la figura 1 se tiene un buen funcionamiento para estas aplicaciones ya que en promedio se
tiene un reconocimiento de acierto del 97% como se da a notar en las gráficas de resultados.
100
90
96.2580
70
% 98.13 %
60
50
100 40
30
90 20
10
80 0
Hablantes
70 100
Hablante 1
60 Porcentaje de 5Melspec
Hablante 2 100
de A de CA
50 Hablante 3 87.5
40 Porcentaje de 5Melspec
Hablante 4 97.5
30 de A de SA
20
10
0
Segmentos con información del
Hablante
El sistema propuesto presenta una estructura fácil de desarrollar y su complejidad matemática
es mínima, para este sistema en la etapa de verificación del hablante se utiliza una red
neuronal de retro-propagación con 20 neuronas en la capa oculta que es un número óptimo
para la aplicación de reconocimiento de 4 hablantes, por lo que el sistema propuesto puede
tener diversas aplicaciones en el campo de la identificación y verificación del hablante.
5. REFERENCIAS