DSP4

Análisis LPC en Tiempo Corto
Nicolás Andrés Fresneda — Código N.o 20151005009*

Andrey Pinzón Rodrı́guez — Código N.o 20142005139**
1 de junio de 2019
Resumen
¿Cómo se puede caracterizar la cavidad bucal humana al momento de pronunciar ciertos fonemas
y en especial las vocales del abecedario?. Este trabajo presenta una serie de procesos que nos permiten
solucionar este problema mediante la aplicación de herramientas matemáticas tales como la codificación
predictiva lineal(LPC), la autocorrelación y el análisis de filtros lineales, entre otras1 . Se graba una señal de
audio con las vocales del abecedario, y se realizan una serie de procesos de análisis de señales para extraer
la información relevante para este trabajo. Una vez obtenidos estos datos, se diseña un filtro lineal que
permite modelar el comportamiento de la cavidad bucal humana y se introducen estos datos en este filtro
para obtener la respuesta en frecuencia de las vocales grabadas. Se crea un arreglo gráfico bidimensional,
donde se muestran los polos del filtro y estos corresponden a las frecuencias donde deberı́an estar las vocales
en el arreglo de los formantes2 .
Palabras clave: Codificación predictiva lineal, ventana de Hamming, formante, polos, autocorrelación.
* Estudiante de la carrera de ingenierı́a electrónica de la Universidad Distrital Francisco José de Caldas. Correo Electrónico: nafresne-
dab@correo.udistrital.edu.co.
** Estudiante de la carrera de ingenierı́a electrónica de la Universidad Distrital Francisco José de Caldas. Correo Electrónico: miapin-
zonr@correo.udistrital.edu.co.
1 Las definiciones para LPC y autocorrelación, se encuentran en la sección Introducción y en la sección Resultados en el orden que ya se
mencionó
2 Un formante es el pico de intensidad en el espectro de un sonido; se trata de concentración de energı́a
1
1. Introducción Este es el objeto de estudio de este trabajo. También
se desea identificar las vocales pronunciadas por una voz
Se ha grabado un audio en el cual se pronuncian las voca- humana y grabadas en un audio. Al decir: ’identificar’, nos
les a,e,i,o y u, y se ha convertido a un formato reconocible referimos a observar las trayectorias de los formantes (en
por el software Matlab. ¿Será posible, que mediante obser- Hz) a medida que transcurre el tiempo.
var una gráfica elaborada con un determinado código en Dado que el tracto vocal evoluciona en el tiempo para
Matlab, se puede identificar de qué vocal se trata? Este tra- producir los distintos sonidos, la caracterización espectral
bajo pretende dar respuesta a este problema, tal y como se de la señal de voz también es variante en el tiempo. Esta
ha mencionado anteriormente. evolución temporal puede representarse mediante un espec-
Esta práctica es de gran interés, ya que al poder determi- trograma de la señal de voz o sonograma. Esta es una repre-
nar vocales y fonemas mediante un código escrito, se puede sentación bidimensional que muestra la evolución temporal
crear una aplicación que permita reconocer un mensaje de de la caracterización espectral.
audio mediante su análisis gráfico. ¿Cómo se aborda la solución para este problema?
El sistema de resonancia vocal es el que proporciona al Se diseña un programa en Matlab empleando la herra-
sonido el timbre, el color y la riqueza armónica. Es el refor- mienta de LPC anteriormente mencionada. Partimos de una
zamiento del sonido. También permite la colocación de la hipótesis: El aparato fonador puede modelarse por un filtro
voz y el alcance. Está compuesto por los resonadores y las lineal. Ası́ que el objetivo de hacer el tratamiento LPC, es
cavidades de resonancia. Anteriormente hicimos un análisis estimar la transferencia del filtro en función de las muestras
de las caracterı́sticas de la voz humana mediante el uso de de entrada y salida. Se empleará un filtro de preénfasis
espectrogramas.3
G(z) = (1 + 0,63 ∗ z −1 )−1
Para este trabajo nos hemos valido de una herramienta
vista en clase que presentamos a continuación. En la siguiente parte, se describen todas las ecuaciones
Análisis por Codificación Lineal Predictiva LPC y procesos que se llevaron a cabo para dar solución a este
La predicción lineal es una buena herramienta para análisis objetivo.
de señales de habla. La predicción lineal modela el tracto
vocal humano como un sistema de respuesta al impulso infi-
nito (IIR) que produce la señal de voz. Para sonidos vocales 3. Resultados
y otras regiones con voz, que tienen una estructura resonan-
te y un alto grado de similaridad sobre cambios de tiempo A continuación se muestran las soluciones planteadas pa-
que son múltiplos de su periodo tonal, este modelo predice ra este trabajo y los resultados obtenidos.
una representación eficiente del sonido4 . Partimos mostrando la sustentación matemática.
Aunque esta es la herramienta apropiada, es necesario Ya que el aparato fonador puede modelarse por un filtro
mencionar que hay algunas dificultades al tratar la señal lineal, podemos recurrir al siguiente modelo matemático:
de audio. Una de estas, es el ruido que se introduce al mo-
mento de hacer la grabación, ya que no se cuenta con un
entorno adecuado para realizarla. También se esperan pro-
blemas en la identificación de algunas vocales, que por su
forma de pronunciar, van a ser un poco parecidas o van a
estar cercanas en su representación gráfica.
En general, se presentará un análisis del problema, junto
con los resultados obtenidos y unas conclusiones que podrán Figura 1: Modelo matemático del filtro lineal.
ser útiles para aquellos que quieran replicar este trabajo.
El valor de la muestra de salida actual del filtro está
determinado por la diferencia de la suma de la muestra ac-
2. Formulación del problema tual y las (q) muestras pasadas de entrada con la suma de
(p) muestras pasadas de la salida, tal como se aprecia en la
La cavidad vocal humana se puede asemejar a un filtro, siguiente gráfica.
que puede hacer una aproximación de respuesta en frecuen-
cia de ciertos fonema estacionario. ¿Cómo podemos para-
metrizar dicho filtro y verificar su comportamiento en el
tiempo? ¿Cómo será la respuesta en frecuencia de la cavi-
dad vocal humana en función del tiempo?
3 Rescatado del documento: RECONOCIMIENTO DE CARAC-
Figura 2: Modelo lineal en el dominio del tiempo.
TERÍSTICAS VOCALES ENFOCADO A LA IDENTIFICACIÓN
DE HABLANTES. http://web.usbmed.edu.co
4 Consejo nacional de ciencia, tecnologı́a e innovación de Ahora surge un problema, y es que no conocemos la señal
Perú.https://alicia.concytec.gob.pe de excitación u(n). Para empezar, en una función de trans-
2
ferencia, los ceros son las raı́ces del numerador y los polos
son las raı́ces del denominador. Los polos y los ceros nos
dan indicación del comportamiento en frecuencia del siste-
ma. Para este problema hallamos los polos. Se consideran
nulos los coeficientes del numerador.
Figura 3: Representación en el dominio Z y dominio t. Figura 5: Señales para la vocal a.
Aún hay que conocer la muestra actual de la entrada

u(n). Se deriva una estimación estadı́stica de los coeficientes más significativos que son los que se muestran en la figura
a partir de el conocimiento de la estadı́stica de u(n). 6, son los que se van a tomar en cuenta para ubicar esta
La autocorrelación5 de un impulso y de ruido gaussiano vocal a en los respectivos formantes.
son idénticas. Los sonidos sonoros y sordos pueden conside-
rarse estadı́sticamente equivalentes. Puede derivarse un úni-
co modelo para los dos tipos de sonidos. La excitación para
sonidos sordos es estrictamente ruido gaussiano. Se consi-
dera un tren de impulsos estadı́sticamente equivalente a un
único impulso.
Ahora se procede a hacer le calculo de los coeficientes
con el métodos de mı́nimos cuadrados. Una vez obtenidos
los coeficientes, puede calcularse la transferencia del aparato
fonador y su respuesta al impulso.
Figura 6: Envolvente y picos para formantes de la vocal a.
En la figura 6 se puede apreciar que se emplean dos

formantes para los picos más significativos. El valor de la
Figura 4: Función de transferencia y respuesta al impulso (IIR). frecuencia para cada pico es de aproximadamente 860Hz
para el formante 1 y 960Hz para el formante 2.
Calculando la DFT (Discrete Fourier Transform) de la Se muestra en la siguiente figura el resultado total de
respuesta al impulso se obtiene la respuesta en frecuencia hacer todos los anteriores análisis y procesos a la grabación
del aparato fonador. continua de voz de las vocales a,e,i,o y u.
A continuación se muestra el resultado de el análisis rea-
lizado para la vocal (a).
Se ha tomado la muestra del momento de la grabación
donde se pronuncia la vocal (a), y se ha realizado su respec-
tivo filtrado. Una vez se pasa por la ventana de Hamming6
se hace su predicción lineal que se muestra en la figura 5.
Ahora se muestra otro análisis realizado a esta señal de
la vocal (a). Se lleva a cabo el proceso de envolver la señal
de entrada y se analizan los picos de dicha señal. Los picos
5 La función de autocorrelación se define como la correlación cruza-
da de la señal consigo misma. La función de autocorrelación resulta de

gran utilidad para encontrar patrones repetitivos dentro de una señal,
como la periodicidad de una señal enmascarada bajo el ruido, entre
otras.
6 Función matemática usada con frecuencia en el análisis y el pro-
Figura 7: Formantes para las señales de las vocales.
cesamiento de señales para evitar las discontinuidades al principio y al
final de los bloques analizados.
3
4. Discusión 6. Referencias bibliográficas
¿Que revelan estos resultados obtenidos? Efectivamente [1] John G. Proakis y Dimitris Manolakis, Tratamiento di-
se puede apreciar en las figuras de la sección anterior, que gital de señales . Pearson, Prentice Hall.
la cavidad bucal humana se puede modelar como un filtro
[2] Dag Stranneby, Digital Signal Processing. DSP and Ap-
de frecuencias, mediante el cual se puede interpretar con su
plication. Publisher: Newnes, Year: 2001
función de transferencia, de qué frecuencia se trata y por
ende, de qué vocal se trata. [3] Juan Luis Navarro Mesa, Procesador Acústico: El Blo-
Es interesante notar que las frecuencias en los forman- que de Extracción de Caracterı́sticas. Universidad de
tes para las vocales o y u, se encuentran muy próximas a Las Palmas de Gran Canaria. Rescatado de la página:
diferencia de las demás vocales. http://www2.ulpgc.es/hege/almacen/download/25/25296/
La vocal que tuvo mayor valor frecuencial con respecto apuntesextraccioncaracterisitcas.pdf
al formante 1 fue la vocal a, mientras que en el formante 2
la vocal con mayor valor de frecuencia fue la i. No se sabı́an
estos comportamientos entes de realizar este trabajo, por lo
que para nuestro aprendizaje es de gran interés.
Realizando varias pruebas de este trabajo con diferentes
grabaciones, los puntos de las vocales que se observan en la
figura 7, referente a los formantes, no dieron siempre en el
mismo valor. Estuvieron próximos pero se presenta siempre
un desface. Claro, creemos que se deben a muchos facto-
res, tales como la entonación de las nuevas grabaciones, los
problemas de ruido, entre otros.
¿Son satisfactorios los resultados obtenidos? Para un
análisis rápido y académico de estas señales de audio de
las vocales, creemos que si. Para una implementación mas
rigurosa y de alta calidad se deberı́an hacer más análisis y
procesos que mejoren la calidad de los resultados.
5. Conclusiones
Como se pudo apreciar en la sección de resultados, las
vocales o y u son las que mas cerca se encuentran en las
coordenadas de los formantes(Figura 7), en relación a las
demás vocales. Creeremos que es debido a que la apertura
vocal y la entonación de estas vocales es muy similar.
No se puede hacer una referencia exacta acerca de la fre-
cuencia en la que se encontrara cada vocal, y mucho menos
pensando en que existen millones de voces humanas dife-
rentes en el planeta. Mas bien lo que se puede es hacer una
aproximación acerca de la frecuencia, referente a los forman-
tes, en la que se encontrara una vocal determinada.
Serı́a mucho mejor contar con un estudio de grabación
para poder realizar los audios empleados para este proyec-
to. Se contarı́a con los elementos adecuados para eliminar
ruidos indeseables.
Se verifica que efectivamente la predicción lineal, se basa
en la redundancia de las señales habladas, ya que los puntos
obtenidos posteriormente para los formantes, se centraron
en zonas alrededor de los valores esperados, y no en un punto
especı́fico.
Como se aprecia en la figura 6, es una gran ventaja ver
que aunque la señal tenga bastantes picos, existen algunos
que son sobresalientes con relación a los demás, lo que per-
mite tomarlos como referencia para realizar los formante.

DSP4

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

DSP4

Cargado por

Copyright:

Formatos disponibles

Análisis LPC en Tiempo Corto

Nicolás Andrés Fresneda — Código N.o 20151005009*

Figura 3: Representación en el dominio Z y dominio t. Figura 5: Señales para la vocal a.

Aún hay que conocer la muestra actual de la entrada

Figura 6: Envolvente y picos para formantes de la vocal a.

En la figura 6 se puede apreciar que se emplean dos

da de la señal consigo misma. La función de autocorrelación resulta de

También podría gustarte