Está en la página 1de 10

VOICE RECOGNITION THROUGH LSP COEFFICIENTS TO

CONTROL AN ELEVATOR
RECONOCIMIENTO DE VOZ MEDIANTE COEFICIENTES LSP
PARA EL CONTROL DE UN ASCENSOR

Franklin Iván Gualan Carchi


Estudiante de VI modulo

UNIVERSIDAD NACIONAL DE LOJA


AREA DE LA ENERGIA, LAS INDUSTRIAS Y LOS RECURSOS NATURALES NO
RENOVABLES
Carrera de Ingeniería en Electrónica y Telecomunicaciones
samotvirus@hotmail.com
Loja-Ecuador

Abstract: The present article approaches in a concise way the main basics to identify voice
commands based on the knowledge acquired in the matter of Signals and Systems, therefore, the
problem is analyzed in the domain of the time like in that of the frequency, and their final result will
be applied to the control of an elevator of 10 levels.

Resumen: El presente artículo aborda de una manera concisa los fundamentos principales para
identificar comandos de voz en base a los conocimientos adquiridos en la materia de Señales y
Sistemas, por lo que se analiza el problema tanto en el dominio del tiempo como en el de la
frecuencia, y su resultado final será aplicado al control de un ascensor de 10 niveles.

Keywords: Automatic Speech Recognition, Signals and Systems, Linear Prediction Coding (LPC),
Linear Spectral Pair (LSP).

Palabras Clave: Reconocimiento Automático de Voz, Señales y Sistemas, Codificación Predictiva


Lineal (LPC), Par Espectral Lineal (LSP)

1. INTRODUCCION

En las últimas cinco décadas el creciente avance El reconocimiento automático de la voz, llega a tal
de la tecnología digital ha permitido plasmar ideas nivel de importancia que en la actualidad es un
en las que la interacción humano-maquina tiende campo de especialización para áreas relacionadas
a niveles normales de interacción entre personas, con las señales y los sistemas, debido a que para
dado por hecho que el nivel de interacción más la comprensión y desarrollo de sistemas de
común entre personas es la comunicación reconocimiento automático de la voz se requiere el
mediante el habla, el desarrollo de sistemas con conocimiento de conceptos relacionados con
los que se pueda interactuar mediante la voz
resulta un área en el cual los avances han sido  Procesamiento de señales
de relevante importancia por las diferentes  Reconocimiento de patrones
aplicaciones que se les puede dar, tales como :  Teoría de la información y comunicación
control, seguridad, comunicaciones, salud , entre  Programación
otras.  Acústica
Además de conceptos básicos de lingüística y características de la voz al pronunciar una
fisiología, ya que gracias a estos dos últimos se palabra, pudiéndolo personalizar para un usuario
puede elaborar modelos matemáticos tanto de la único o para varios usuarios, lo podemos hallar
generación como de la percepción de la voz. implementado en instalaciones militares y
financieras estratégicas, sistemas de identificación
2. TIPOS DE SISTEMAS PARA EL de personas peligrosas en lugares públicos o
RECONOCIMIENTO DE VOZ. aeropuertos, sistemas de encendido de vehículos
y dispositivos electrónicos portátiles.
El problema de reconocimiento de voz de forma
general se lo puede enfocar como el 3. CONSIDERACIONES GENERALES DE
reconocimiento de patrones que se han obtenido LOS SISTEMAS DE
mediante el mismo método, donde el número de RECONOCIMIENTOS DE VOZ.
patrones que se consideran como referencias
están en función de la necesidad de la aplicación Para alcanzar los niveles deseados de eficiencia
como de la capacidad de memoria y en un proceso de reconocimiento de voz es
procesamiento del software y hardware de la común el uso de técnicas de procesamiento de
plataforma usada para implementar el sistema, señales con el fin de, muestrear la señal de forma
esto es preponderante a la hora de clasificar estos apropiada eliminar el ruido de fondo que se pudo
sistemas sin embargo también se lo suele hacer captar a la entrada del sistema, analizar las
en función de la necesidad de reconocimiento de características en tiempo y frecuencia de las
manera continua del habla, reconocimiento de señales, descomposición de una señal en sumas
palabras aisladas o comandos. de otras señales, extracción y codificación de la
información contenida en la señal de voz, para
2.1. SISTEMA DE RECONOCIMIENTO DE posteriormente pasar a la etapa de comparación
VOZ CON INDEPENDENCIA DEL de patrones.
HABLANTE.
3.1. MUESTREO
Común en aplicaciones en la que cualquier
usuario puede acceder a la aplicación de interés Para generar una señal digital de voz se debe
sin ninguna implicación de seguridad, se lo puede muestrear una señal analógica obtenida mediante
implementar en aplicaciones dirigidas a personas un micrófono en intervalos de T segundos,
con deficiencias auditivas (conversión de voz a entonces se obtendrán un numero 1/T de
texto), y control de sistemas industriales, juguetes muestras por segundo, este número corresponde
interactivos, sistemas de manos libres, sistemas a la frecuencia de muestreo de la señal de voz, si
de intercomunicación (seguridad o emergencias esta frecuencia es demasiado lenta se presenta
médicas). un fenómeno indeseable llamado aliasing, esto se
minimiza cumpliendo con el teorema de muestreo
2.2. SISTEMA DE RECONOCIMIENTO DE de Nyquist el cual dice:
VOZ CON DEPENDENCIA DEL
HABLANTE. ‘’La frecuencia mínima de muestreo de una señal
debe ser mayor que 2 veces la frecuencia de
En este tipo de sistemas la aplicación final está cualquier componente de la señal’’
dirigida para un usuario específico, por ende los
patrones de referencia son obtenidos de la voz del Dado que el espectro de una señal de voz se
usuario de la aplicación, generalmente es menos aproxima a cero para valores superiores a 10KHz
complicado que el sistema de usuario entonces:
independiente, se lo ha implementado en sistemas
de control de automóviles, máquinas de
transcripción (en salas forenses donde el medico
necesite llevar notas del proceso).

2.3. SISTEMA DE IDENTIFICACION DEL


HABLANTE

Usado como seguridad biométrica para Entonces el intervalo de muestreo T es .


identificación de la persona, basado en
3.2 FILTRADO.

Es necesario en una etapa de adquisición de 3.4. DETECCION DE ACTIVIDAD DE


señal usar una etapa de filtrado en la cual se VOZ (VAD)
puede descartar ruidos de fondo que podrían
causar demoras en el procesado de la señal o Aunque la detección de actividad de voz es de uso
incluso errores, para el procesamiento de señales más generalizado en sistemas de reconocimiento
digitales de voz es más común el uso de filtros FIR continuo del habla, su uso en los diversos
tipo 1. sistemas de reconocimiento de voz reduce el
3.3 SEGMENTACION Y ENVENTANADO consumo de recursos de software y hardware en
la plataforma en la que se ha implementado el
La segmentación en tramos es una necesidad sistema, su principio se basa en la detección de
básica para la extracción de la información niveles de energía a lo largo de un conjunto de
contenida en una señal, suponiendo que una muestras de señales de voz
característica de interés en una señal de voz está
contenida en un vector de muestras esta 4. SISTEMA DE RECONOCIMINETO DE
característica se la puede ubicar de manera
VOZ POR EL METODO DE BANCOS
óptima mediante la segmentación en tramos
traslapados es decir un nuevo tramo contiene una DE FILTROS.
parte del tramo anterior, el grado de traslape es
usualmente expresado en porcentajes y sus Este sistema se basa en hacer pasar la señal de
valores están entre 25% y 50%, sin embargo en voz s(n), por un sistema de bancos de filtros los
este proceso de segmentación crea cuales cubren el ancho de banda de interés para
discontinuidades entre los tramos. el procesamiento de la señal de voz, (entre 100 y
3500 Hz), y donde se requiere que la respuesta
individual de los filtros se encuentre traslapada en
frecuencia. El propósito del banco de filtros es la
medición de los niveles de energía que la señal de
voz contiene en una banda de frecuencia
específica, el tipo más común de banco de filtros
usados para el reconocimiento de voz es el banco
de filtro uniforme donde f-esima frecuencia central
del n-esimo filtro pasabanda está dada por:

Fig.1. Segmentación de la señal, donde se puede ver Donde, es la mayor frecuencia de la señal de
las discontinuidades provocadas por la voz (3200-4000 Hz), es el número de divisiones
segmentación. uniformemente espaciadas del ancho banda de la
señal de voz, el filtro en la n-esima posición debe
Para minimizar el efecto de estas discontinuidades
cumplir con
en el análisis en frecuencia (fenómeno de Gibbs)
se usa la técnica de enventanado.

Fig.3. Respuestas en frecuencia de los filtros del


banco.

Para la implementación del banco de filtros


digitales se puede hacer mediante filtros de tipo
IIR o FIR, teniendo presente las ventajas y
desventajas de cada uno, por ejemplo la
implementación de filtros tipo IIR es simple para
diferentes estructuras, sin embargo tienen la
desventaja de no tener una respuesta lineal en
Fig.2. Tipos de ventanas más comunes.
fase, en cambio los filtros FIIR tienen una Posteriormente, las señales ( )
respuesta lineal en fase sin comprometer su correspondientes a cada una de las salidas de los
aproximación a una respuesta ideal, sin embargo filtros del banco ,son pasadas por una no
su implementación es algo complicada, en linealidad (rectificacion de onda completa), con el
especial en sistemas embebidos. proposito de concentrar el espectro de la señal
( ) a frecuencias bajas, obteniendo asi una
Además del banco de filtros con distribución señal ( ), la cual al ser pasada por un filtro
uniforme, también es posible la construcción de un pasabajas para eliminar las imágenes creadas en
banco de filtro con distribución no uniforme, pero alta frecuencia obtenemos una señal ( ), de la
este caso el criterio para elegir el espaciamiento cual mediante resampleo obtenemos un conjunto
de la respuesta en frecuencia de cada filtro es una de señales ( ) para que representan
escala logarítmica en frecuencia. un estimado de la energia contenida en cada de
las bandas de paso.

Fig.6. Diagrama general del banco de filtros.

5. SISTEMA DE RECONOCIMIENTO
DE VOZ POR CODIFICACION
LINEAL PREDICTIVA (LPC)
Fig.4. Respuesta en frecuencia, individual y colectiva
para un banco de filtros con distribución uniforme. La predicción lineal, ha sido por varios años
el soporte para sistemas de comunicación de
voz, su concepción se basa en las
características que generan la voz en el
tracto vocal donde los músculos tienen una
velocidad máxima de movimiento para
generar los sonidos que la componen, donde
según estudios alcanzan un estado pseudo-
estacionario en aproximadamente 30ms, el
cual implica que para una señal de voz
muestreada a 8 KHz un conjunto de 240
muestras (30ms) pueden ser parametrizadas
por un conjunto pequeño de valores,
típicamente 8 o10, llamados, coeficientes de
predicción lineal.

Los coeficientes de predicción lineal son


polinomios generadores de filtros digitales,
los cuales al ser estimulados por alguna
señal de entrada, recrean las características
Fig.5. Respuesta en frecuencia de un banco de filtros de las muestras originales con las que se
con distribución no uniforme (logarítmica).
obtuvieron los coeficientes, esta recreación Luego cada segmento deberá ser
no tiene mucha similitud en el dominio del enventanado para minimizar las
tiempo, pero su respuesta en frecuencia tiene discontinuidades al inicio y al fin de cada
mucha similitud con la original. Por tanto la segmento, la ventana más usada para este
codificación lineal predictiva (LPC) es un fines la ventana Hamming. La cual tiene la
método efectivo para codificar o identificar forma:
señales de voz
( ) ( )
Enfocando el concepto de LPC hacia la
identificación de voz conviene estructurar
5.3. ANALISIS DE
algoritmos según la secuencia.
AUTOCORREALACION.
 Pre-énfasis
Posteriormente a cada segmento
 Segmentación en bloques y enventanado se realiza la autocorrelación
enventanado. según la ecuación:
 Análisis de Autocorrelación.
 Análisis LPC
 Conversión de parámetros LPC ( ) ∑ ̌( )̌( )

5.1 PRE-ENFASIS.

La etapa de pre-énfasis corresponde al Donde p constituye el orden del análisis LPC


tratamiento previo de la señal a ser que generalmente es 8 o 10.
parametrizada, comprende una etapa de
filtrado para eliminar ruido aleatorio y si 5.4 ANALISIS LPC.
resulta conveniente la normalización de la
señal. Una vez obtenida las matrices ( ) con
coeficientes de autocorrelación, el
5.2. SEGMENTACION EN BLOQUES Y método más común para obtener los
ENVENTANADO. coeficientes LPC, es la recursión de
Levinson-Durbin, a través del cual también es
Para la segmentación de la señal se debe posible obtener los coeficientes PARCOR
tener en cuenta que la longitud del bloque no (PARtial CORrelation), también llamados
afecte el estado estacionario de las coeficientes de reflexión.
componentes de la voz.
( )
( )

( )
( () ∑ ( ))
⁄ ( )

()
Fig.7. Proceso de segmentación de la señal.
() ( )
Para segmentar la señal, tomamos N
muestras de la señal y a continuación el
() ( )
siguiente segmento comienza M muestras ( )
después del inicio del primero, es
( )
aconsejable que se cumpla con:
Donde son los coeficientes LPC, y son Para un polinomio LPC de orden p de la
los coeficientes PARCOR forma:

5.5. CONVERSION DE PARAMETROS ( )


LPC.
Si definimos dos polinomios de orden
Una vez obtenidos los coeficientes LPC se (p+1), relacionados con ( ), llamados
puede optar por una por una representación ( ) y ( ) los cuales describen la
en coeficientes cepstrales o LSP (línea condición de conexión completamente
espectral par). abierta o completamente cerrada,
respectivamente, entre la glotis y el resto
5.5.1. CONVERSION DE LPC A del tracto vocal, además ( ) y ( )
COEFICIENTES CEPSTRALES.
debido a sus coeficientes son;
Los coeficientes cepstrales son inversamente simétrico y simétrico,
coeficientes de la representación respectivamente. Ambas condiciones
están contenidas en ( ) mediante la
logarítmica de la magnitud de la
transformada de Fourier, y es posible siguiente relación lineal:
obtenerlos mediante la recursión:
( ) ( )
( )

( )
( ) ( ) ( )
∑( )
( )
( ) ( ) ( )
∑( )
Las raíces de estos polinomios
determinan el conjunto de líneas
Donde es el termino de ganancia del espectrales pares, y pueden ser
modelo LPC calculadas mediante métodos numéricos,
evaluándolos alrededor del círculo unitario
para observar cambios de signo o
mediante software. Si designamos por
el conjunto de raíces complejas entonces
las líneas espectrales pares están
dadas por:
{ }
( )
{ }

Fig.8. Obtención del formante mediante análisis


cepstral.

5.5.2. CONVERSION DE LPC A LSP.

Las líneas espectrales pares son otra


derivación matemática de los coeficientes
LPC cuyo es popular debido a sus
excelentes características de
cuantización, y representan condiciones
de resonancia del tracto vocal Fig.9. Grafica de los coeficientes cepstrales, donde
(básicamente la boca y la cavidad nasal). se puede ver que conserva las características
principales del formante.
6. CUANTIZACION Y COMPARASION Banco de filtros con

Los resultados obtenidos mediante los


modelos de banco de filtros o LPC, pueden
ser caracterizados mediante vectores de
cuantización, que en el caso del banco de
filtros la dimensión del vector estará en
función del número de filtros del banco y del
número de muestras que se consideran en la
etapa de resampleo, mientras que para los
métodos basados en LPC las dimensiones
del vector estarán en función de p y del
número de segmentos que se obtuvieron en
la etapa de segmentación.
Fig.11. Respuesta colectiva en frecuencia de los
Estos vectores pueden ser comparados con filtros implementados.
otros obtenidos mediante el mismo método Filtro pasa bajas con
de señales de voz tomadas como referencias
a fin de identificar a que patrón (vector de
cuantización) de referencia corresponde o se
aproxima el patrón de entrada.

El proceso de comparación de patrones


puede efectuarse mediante mínimos
cuadrados, distancias euclidianas,
correlación o redes neuronales.

7. IMPLEMENTACION
7.1. BANCO DE FILTROS

Con la ayuda de MATLAB se


procede a la construcción de los
Fig.12.Respuesta en frecuencia del filtro pasa bajas.
filtros que se estiman necesarios
para la aplicación, siguiendo los
lineamientos teóricos tratados.

Filtro de entrada tipo FIR1:

Fig.13. Señal de entrada (2 segundos de una señal


muestreada a 8KHz), s(n).

Fig.10. Respuesta en frecuencia del filtro de entrada. A continuación se disponen los elementos
según el diagrama de bloques de la figura 6,
entonces el flujo de la señal de voz a través
del sistema arroja los siguientes resultados:

La señal de Fig.13 muestra la señal pasada


por el filtro principal a continuación el VAD
da como resultado el tramo de interés
(palabra aislada) Fig.14, la Fig.15 muestra la
señal de salida del filtro 10 (Q), la cual pasa Fig.16. Señal de decimo filtro pasada por la no
por la no linealidad para obtener la señal de linealidad.
la Fig.16 de la cual a través de su espectro
(Fig.17) podemos ver que la mayor parte de
los componentes de la señal se han
concentrado en bajas frecuencias, por lo que
al pasarla por un filtro pasa bajas se obtiene
la señal Fig.18, la cual al no tener
componentes de frecuencia superior a los 40
Hz puede ser muestreada a 80 Hz sin tener
Fig.17. Espectro de la señal después de aplicar la no
perdida de información como se puede linealidad.
observar en la figura Fig.19. Si anteriormente
se registraron en una matriz las muestras
obtenidas cuando se hizo el muestreo final
en cada salida del banco entonces tenemos
como resultado el vector de cuantización de
Fig.20. Aquí quedan en evidencia las
regiones importantes a la hora de iniciar el
proceso de comparación, con vectores de
cuantizacion establecidos como referencias y
creados con el mismo proceso. Fig.18. señal de salida del filtro pasa bajas.

Fig.19. Señal nuevamente muestreada a 80 Hz.


Fig.14. Señal de salida del VAD.

Fig.15. Señal de salida del filtro Q del banco de Fig.20. Vector de cuantización para una palabra.
filtros.
7.2. COEFICIENTES LSP

Para la etapa de pre-énfasis se puede usar


el filtro pasa banda principal diseñado para la
prueba anterior, así como el VAD, a
continuación se hace el proceso de
segmentado con una relación M=100 y
N=300 Fig.21, a lo que posteriormente se lo
multiplica por una ventana Hamming. De
cada segmento se obtienen los coeficientes
de autocorrelación y posteriormente se aplica
el algoritmo recursivo de Levinson-Durbin
para obtener los coeficientes LPC. De igual
manera por cada segmento se obtienen los Fig.23. vector de cuantización de los coeficientes LSP,
coeficientes LSP, estos valores son las líneas el cual registra la trayectoria de estos coeficientes a
través de cada segmento.
azules de Fig.21. En este punto una vez más
se deben guardar los valores de los
coeficientes LSP en una matriz Fig.23, la
cual refleja una trayectoria única para cada
palabra.

Fig.24. Trayectoria de los coeficientes LSP para la


Fig.21.Segmentacion de la señal de voz. misma palabra usada para el banco de filtros.

Cabe indicar que al para palabras que son


dichas a distinta velocidad se hace necesario
el uso de la interpolación para distribuir
valores de manera uniforme en el patrón de
entrada a fin de poder realizar el proceso de
comparación

Fig.22. Línea roja formante, líneas azules


coeficientes LSP.
8. RESULTADOS

Pal\Hab 1 2 3  Mediante la técnica de LSP es


B L B L B L posible el desarrollo de sistemas
F S F S F S tanto independientes del hablante
P P P
primero x x x x como dependiente del hablante.
 La técnica de LSP es mas fácil de
segundo x x x realizar que el banco de filtros, sin
tercero x x x x embargo requiere un software capaz
cuarto x x x x de realizar los complicados procesos
quinto x x x x de autocorrelación y el algoritmo de
sexto x x x x x Levinson-Durbin.
séptimo x x
octavo x x x x 10. BIBLIOGRAFIA
noveno x x x x x RABINER-HWANG,1993, “Fundamentals
decimo x x of Speech Recognition”, Prentice Hall-Ed,
Cap 3.

Establecidas las palabras de interés para el MCLOUGHLIN, 2009,” Applied Speech


control del ascensor, se prueba el sistema and Audio Processing With MATLAB
con tres personas Hab1 es la persona que Examples”, Cambridge University Press-
grabo los patrones,Hab2 en un hablante Ed, Cap 5.
masculino, y Hab3 una hablante femenina, él
proceso de comparación de patrones es la RABINER-SCHAFER, 1978,” Digital
correlación, los datos tabulados en la tabla Processing of Speech Signals”, ,Prentice
1muestran un desempeño inadecuado del Hall-Ed, Cap 7 y 8.
banco de filtros frente al LSP incluso para la
persona que grabo los señales de voz de SINHA, 2010, “Speech Processing in
referencia, con el hablante masculino los Embedded Systems”, Springer-Ed. Cap
resultados son parecidos, sin embargo con la 10.
hablante femenina se puede evidenciar que
OPPENHEIM-SCHAFER, 2009,
la comparación de patrones debe ser por un
“Tratamiento de Señales en Tiempo
método más efectivo ya que aunque los
Discreto”, ,Prentice Hall, 3ra Ed, Cap 11.
resultados son alentadores no son los
esperados. ETTER, 1997, “Solución de problemas de
Ingeniería con MATLAB”, Prentice Hall-
9. CONCLUSIONES.
Ed.Cap 5 y 10.
 El sistema de bancos de filtros
aunque obtiene características
determinísticas de la voz en un
ancho de banda específico es
vulnerable a variaciones de velocidad
y volumen.
 El método del LSP ofrece
características excelentes para el
procesamiento de la voz ya que sus
fundamentos se basan en modelos
matemáticos del tracto vocal.

También podría gustarte