Documentos de Académico
Documentos de Profesional
Documentos de Cultura
CONTROL AN ELEVATOR
RECONOCIMIENTO DE VOZ MEDIANTE COEFICIENTES LSP
PARA EL CONTROL DE UN ASCENSOR
Abstract: The present article approaches in a concise way the main basics to identify voice
commands based on the knowledge acquired in the matter of Signals and Systems, therefore, the
problem is analyzed in the domain of the time like in that of the frequency, and their final result will
be applied to the control of an elevator of 10 levels.
Resumen: El presente artículo aborda de una manera concisa los fundamentos principales para
identificar comandos de voz en base a los conocimientos adquiridos en la materia de Señales y
Sistemas, por lo que se analiza el problema tanto en el dominio del tiempo como en el de la
frecuencia, y su resultado final será aplicado al control de un ascensor de 10 niveles.
Keywords: Automatic Speech Recognition, Signals and Systems, Linear Prediction Coding (LPC),
Linear Spectral Pair (LSP).
1. INTRODUCCION
En las últimas cinco décadas el creciente avance El reconocimiento automático de la voz, llega a tal
de la tecnología digital ha permitido plasmar ideas nivel de importancia que en la actualidad es un
en las que la interacción humano-maquina tiende campo de especialización para áreas relacionadas
a niveles normales de interacción entre personas, con las señales y los sistemas, debido a que para
dado por hecho que el nivel de interacción más la comprensión y desarrollo de sistemas de
común entre personas es la comunicación reconocimiento automático de la voz se requiere el
mediante el habla, el desarrollo de sistemas con conocimiento de conceptos relacionados con
los que se pueda interactuar mediante la voz
resulta un área en el cual los avances han sido Procesamiento de señales
de relevante importancia por las diferentes Reconocimiento de patrones
aplicaciones que se les puede dar, tales como : Teoría de la información y comunicación
control, seguridad, comunicaciones, salud , entre Programación
otras. Acústica
Además de conceptos básicos de lingüística y características de la voz al pronunciar una
fisiología, ya que gracias a estos dos últimos se palabra, pudiéndolo personalizar para un usuario
puede elaborar modelos matemáticos tanto de la único o para varios usuarios, lo podemos hallar
generación como de la percepción de la voz. implementado en instalaciones militares y
financieras estratégicas, sistemas de identificación
2. TIPOS DE SISTEMAS PARA EL de personas peligrosas en lugares públicos o
RECONOCIMIENTO DE VOZ. aeropuertos, sistemas de encendido de vehículos
y dispositivos electrónicos portátiles.
El problema de reconocimiento de voz de forma
general se lo puede enfocar como el 3. CONSIDERACIONES GENERALES DE
reconocimiento de patrones que se han obtenido LOS SISTEMAS DE
mediante el mismo método, donde el número de RECONOCIMIENTOS DE VOZ.
patrones que se consideran como referencias
están en función de la necesidad de la aplicación Para alcanzar los niveles deseados de eficiencia
como de la capacidad de memoria y en un proceso de reconocimiento de voz es
procesamiento del software y hardware de la común el uso de técnicas de procesamiento de
plataforma usada para implementar el sistema, señales con el fin de, muestrear la señal de forma
esto es preponderante a la hora de clasificar estos apropiada eliminar el ruido de fondo que se pudo
sistemas sin embargo también se lo suele hacer captar a la entrada del sistema, analizar las
en función de la necesidad de reconocimiento de características en tiempo y frecuencia de las
manera continua del habla, reconocimiento de señales, descomposición de una señal en sumas
palabras aisladas o comandos. de otras señales, extracción y codificación de la
información contenida en la señal de voz, para
2.1. SISTEMA DE RECONOCIMIENTO DE posteriormente pasar a la etapa de comparación
VOZ CON INDEPENDENCIA DEL de patrones.
HABLANTE.
3.1. MUESTREO
Común en aplicaciones en la que cualquier
usuario puede acceder a la aplicación de interés Para generar una señal digital de voz se debe
sin ninguna implicación de seguridad, se lo puede muestrear una señal analógica obtenida mediante
implementar en aplicaciones dirigidas a personas un micrófono en intervalos de T segundos,
con deficiencias auditivas (conversión de voz a entonces se obtendrán un numero 1/T de
texto), y control de sistemas industriales, juguetes muestras por segundo, este número corresponde
interactivos, sistemas de manos libres, sistemas a la frecuencia de muestreo de la señal de voz, si
de intercomunicación (seguridad o emergencias esta frecuencia es demasiado lenta se presenta
médicas). un fenómeno indeseable llamado aliasing, esto se
minimiza cumpliendo con el teorema de muestreo
2.2. SISTEMA DE RECONOCIMIENTO DE de Nyquist el cual dice:
VOZ CON DEPENDENCIA DEL
HABLANTE. ‘’La frecuencia mínima de muestreo de una señal
debe ser mayor que 2 veces la frecuencia de
En este tipo de sistemas la aplicación final está cualquier componente de la señal’’
dirigida para un usuario específico, por ende los
patrones de referencia son obtenidos de la voz del Dado que el espectro de una señal de voz se
usuario de la aplicación, generalmente es menos aproxima a cero para valores superiores a 10KHz
complicado que el sistema de usuario entonces:
independiente, se lo ha implementado en sistemas
de control de automóviles, máquinas de
transcripción (en salas forenses donde el medico
necesite llevar notas del proceso).
Fig.1. Segmentación de la señal, donde se puede ver Donde, es la mayor frecuencia de la señal de
las discontinuidades provocadas por la voz (3200-4000 Hz), es el número de divisiones
segmentación. uniformemente espaciadas del ancho banda de la
señal de voz, el filtro en la n-esima posición debe
Para minimizar el efecto de estas discontinuidades
cumplir con
en el análisis en frecuencia (fenómeno de Gibbs)
se usa la técnica de enventanado.
5. SISTEMA DE RECONOCIMIENTO
DE VOZ POR CODIFICACION
LINEAL PREDICTIVA (LPC)
Fig.4. Respuesta en frecuencia, individual y colectiva
para un banco de filtros con distribución uniforme. La predicción lineal, ha sido por varios años
el soporte para sistemas de comunicación de
voz, su concepción se basa en las
características que generan la voz en el
tracto vocal donde los músculos tienen una
velocidad máxima de movimiento para
generar los sonidos que la componen, donde
según estudios alcanzan un estado pseudo-
estacionario en aproximadamente 30ms, el
cual implica que para una señal de voz
muestreada a 8 KHz un conjunto de 240
muestras (30ms) pueden ser parametrizadas
por un conjunto pequeño de valores,
típicamente 8 o10, llamados, coeficientes de
predicción lineal.
5.1 PRE-ENFASIS.
( )
( () ∑ ( ))
⁄ ( )
()
Fig.7. Proceso de segmentación de la señal.
() ( )
Para segmentar la señal, tomamos N
muestras de la señal y a continuación el
() ( )
siguiente segmento comienza M muestras ( )
después del inicio del primero, es
( )
aconsejable que se cumpla con:
Donde son los coeficientes LPC, y son Para un polinomio LPC de orden p de la
los coeficientes PARCOR forma:
( )
( ) ( ) ( )
∑( )
( )
( ) ( ) ( )
∑( )
Las raíces de estos polinomios
determinan el conjunto de líneas
Donde es el termino de ganancia del espectrales pares, y pueden ser
modelo LPC calculadas mediante métodos numéricos,
evaluándolos alrededor del círculo unitario
para observar cambios de signo o
mediante software. Si designamos por
el conjunto de raíces complejas entonces
las líneas espectrales pares están
dadas por:
{ }
( )
{ }
7. IMPLEMENTACION
7.1. BANCO DE FILTROS
Fig.10. Respuesta en frecuencia del filtro de entrada. A continuación se disponen los elementos
según el diagrama de bloques de la figura 6,
entonces el flujo de la señal de voz a través
del sistema arroja los siguientes resultados:
Fig.15. Señal de salida del filtro Q del banco de Fig.20. Vector de cuantización para una palabra.
filtros.
7.2. COEFICIENTES LSP