Está en la página 1de 4

Análisis LPC en Tiempo Corto

Nicolás Andrés Fresneda — Código N.o 20151005009*


Andrey Pinzón Rodrı́guez — Código N.o 20142005139**
1 de junio de 2019

Resumen
¿Cómo se puede caracterizar la cavidad bucal humana al momento de pronunciar ciertos fonemas
y en especial las vocales del abecedario?. Este trabajo presenta una serie de procesos que nos permiten
solucionar este problema mediante la aplicación de herramientas matemáticas tales como la codificación
predictiva lineal(LPC), la autocorrelación y el análisis de filtros lineales, entre otras1 . Se graba una señal de
audio con las vocales del abecedario, y se realizan una serie de procesos de análisis de señales para extraer
la información relevante para este trabajo. Una vez obtenidos estos datos, se diseña un filtro lineal que
permite modelar el comportamiento de la cavidad bucal humana y se introducen estos datos en este filtro
para obtener la respuesta en frecuencia de las vocales grabadas. Se crea un arreglo gráfico bidimensional,
donde se muestran los polos del filtro y estos corresponden a las frecuencias donde deberı́an estar las vocales
en el arreglo de los formantes2 .
Palabras clave: Codificación predictiva lineal, ventana de Hamming, formante, polos, autocorrelación.

* Estudiante de la carrera de ingenierı́a electrónica de la Universidad Distrital Francisco José de Caldas. Correo Electrónico: nafresne-
dab@correo.udistrital.edu.co.
** Estudiante de la carrera de ingenierı́a electrónica de la Universidad Distrital Francisco José de Caldas. Correo Electrónico: miapin-

zonr@correo.udistrital.edu.co.
1 Las definiciones para LPC y autocorrelación, se encuentran en la sección Introducción y en la sección Resultados en el orden que ya se

mencionó
2 Un formante es el pico de intensidad en el espectro de un sonido; se trata de concentración de energı́a

1
1. Introducción Este es el objeto de estudio de este trabajo. También
se desea identificar las vocales pronunciadas por una voz
Se ha grabado un audio en el cual se pronuncian las voca- humana y grabadas en un audio. Al decir: ’identificar’, nos
les a,e,i,o y u, y se ha convertido a un formato reconocible referimos a observar las trayectorias de los formantes (en
por el software Matlab. ¿Será posible, que mediante obser- Hz) a medida que transcurre el tiempo.
var una gráfica elaborada con un determinado código en Dado que el tracto vocal evoluciona en el tiempo para
Matlab, se puede identificar de qué vocal se trata? Este tra- producir los distintos sonidos, la caracterización espectral
bajo pretende dar respuesta a este problema, tal y como se de la señal de voz también es variante en el tiempo. Esta
ha mencionado anteriormente. evolución temporal puede representarse mediante un espec-
Esta práctica es de gran interés, ya que al poder determi- trograma de la señal de voz o sonograma. Esta es una repre-
nar vocales y fonemas mediante un código escrito, se puede sentación bidimensional que muestra la evolución temporal
crear una aplicación que permita reconocer un mensaje de de la caracterización espectral.
audio mediante su análisis gráfico. ¿Cómo se aborda la solución para este problema?
El sistema de resonancia vocal es el que proporciona al Se diseña un programa en Matlab empleando la herra-
sonido el timbre, el color y la riqueza armónica. Es el refor- mienta de LPC anteriormente mencionada. Partimos de una
zamiento del sonido. También permite la colocación de la hipótesis: El aparato fonador puede modelarse por un filtro
voz y el alcance. Está compuesto por los resonadores y las lineal. Ası́ que el objetivo de hacer el tratamiento LPC, es
cavidades de resonancia. Anteriormente hicimos un análisis estimar la transferencia del filtro en función de las muestras
de las caracterı́sticas de la voz humana mediante el uso de de entrada y salida. Se empleará un filtro de preénfasis
espectrogramas.3
G(z) = (1 + 0,63 ∗ z −1 )−1
Para este trabajo nos hemos valido de una herramienta
vista en clase que presentamos a continuación. En la siguiente parte, se describen todas las ecuaciones
Análisis por Codificación Lineal Predictiva LPC y procesos que se llevaron a cabo para dar solución a este
La predicción lineal es una buena herramienta para análisis objetivo.
de señales de habla. La predicción lineal modela el tracto
vocal humano como un sistema de respuesta al impulso infi-
nito (IIR) que produce la señal de voz. Para sonidos vocales 3. Resultados
y otras regiones con voz, que tienen una estructura resonan-
te y un alto grado de similaridad sobre cambios de tiempo A continuación se muestran las soluciones planteadas pa-
que son múltiplos de su periodo tonal, este modelo predice ra este trabajo y los resultados obtenidos.
una representación eficiente del sonido4 . Partimos mostrando la sustentación matemática.
Aunque esta es la herramienta apropiada, es necesario Ya que el aparato fonador puede modelarse por un filtro
mencionar que hay algunas dificultades al tratar la señal lineal, podemos recurrir al siguiente modelo matemático:
de audio. Una de estas, es el ruido que se introduce al mo-
mento de hacer la grabación, ya que no se cuenta con un
entorno adecuado para realizarla. También se esperan pro-
blemas en la identificación de algunas vocales, que por su
forma de pronunciar, van a ser un poco parecidas o van a
estar cercanas en su representación gráfica.
En general, se presentará un análisis del problema, junto
con los resultados obtenidos y unas conclusiones que podrán Figura 1: Modelo matemático del filtro lineal.
ser útiles para aquellos que quieran replicar este trabajo.
El valor de la muestra de salida actual del filtro está
determinado por la diferencia de la suma de la muestra ac-
2. Formulación del problema tual y las (q) muestras pasadas de entrada con la suma de
(p) muestras pasadas de la salida, tal como se aprecia en la
La cavidad vocal humana se puede asemejar a un filtro, siguiente gráfica.
que puede hacer una aproximación de respuesta en frecuen-
cia de ciertos fonema estacionario. ¿Cómo podemos para-
metrizar dicho filtro y verificar su comportamiento en el
tiempo? ¿Cómo será la respuesta en frecuencia de la cavi-
dad vocal humana en función del tiempo?
3 Rescatado del documento: RECONOCIMIENTO DE CARAC-
Figura 2: Modelo lineal en el dominio del tiempo.
TERÍSTICAS VOCALES ENFOCADO A LA IDENTIFICACIÓN
DE HABLANTES. http://web.usbmed.edu.co
4 Consejo nacional de ciencia, tecnologı́a e innovación de Ahora surge un problema, y es que no conocemos la señal
Perú.https://alicia.concytec.gob.pe de excitación u(n). Para empezar, en una función de trans-

2
ferencia, los ceros son las raı́ces del numerador y los polos
son las raı́ces del denominador. Los polos y los ceros nos
dan indicación del comportamiento en frecuencia del siste-
ma. Para este problema hallamos los polos. Se consideran
nulos los coeficientes del numerador.

Figura 3: Representación en el dominio Z y dominio t. Figura 5: Señales para la vocal a.

Aún hay que conocer la muestra actual de la entrada


u(n). Se deriva una estimación estadı́stica de los coeficientes más significativos que son los que se muestran en la figura
a partir de el conocimiento de la estadı́stica de u(n). 6, son los que se van a tomar en cuenta para ubicar esta
La autocorrelación5 de un impulso y de ruido gaussiano vocal a en los respectivos formantes.
son idénticas. Los sonidos sonoros y sordos pueden conside-
rarse estadı́sticamente equivalentes. Puede derivarse un úni-
co modelo para los dos tipos de sonidos. La excitación para
sonidos sordos es estrictamente ruido gaussiano. Se consi-
dera un tren de impulsos estadı́sticamente equivalente a un
único impulso.
Ahora se procede a hacer le calculo de los coeficientes
con el métodos de mı́nimos cuadrados. Una vez obtenidos
los coeficientes, puede calcularse la transferencia del aparato
fonador y su respuesta al impulso.

Figura 6: Envolvente y picos para formantes de la vocal a.

En la figura 6 se puede apreciar que se emplean dos


formantes para los picos más significativos. El valor de la
Figura 4: Función de transferencia y respuesta al impulso (IIR). frecuencia para cada pico es de aproximadamente 860Hz
para el formante 1 y 960Hz para el formante 2.
Calculando la DFT (Discrete Fourier Transform) de la Se muestra en la siguiente figura el resultado total de
respuesta al impulso se obtiene la respuesta en frecuencia hacer todos los anteriores análisis y procesos a la grabación
del aparato fonador. continua de voz de las vocales a,e,i,o y u.
A continuación se muestra el resultado de el análisis rea-
lizado para la vocal (a).
Se ha tomado la muestra del momento de la grabación
donde se pronuncia la vocal (a), y se ha realizado su respec-
tivo filtrado. Una vez se pasa por la ventana de Hamming6
se hace su predicción lineal que se muestra en la figura 5.
Ahora se muestra otro análisis realizado a esta señal de
la vocal (a). Se lleva a cabo el proceso de envolver la señal
de entrada y se analizan los picos de dicha señal. Los picos
5 La función de autocorrelación se define como la correlación cruza-

da de la señal consigo misma. La función de autocorrelación resulta de


gran utilidad para encontrar patrones repetitivos dentro de una señal,
como la periodicidad de una señal enmascarada bajo el ruido, entre
otras.
6 Función matemática usada con frecuencia en el análisis y el pro-
Figura 7: Formantes para las señales de las vocales.
cesamiento de señales para evitar las discontinuidades al principio y al
final de los bloques analizados.

3
4. Discusión 6. Referencias bibliográficas
¿Que revelan estos resultados obtenidos? Efectivamente [1] John G. Proakis y Dimitris Manolakis, Tratamiento di-
se puede apreciar en las figuras de la sección anterior, que gital de señales . Pearson, Prentice Hall.
la cavidad bucal humana se puede modelar como un filtro
[2] Dag Stranneby, Digital Signal Processing. DSP and Ap-
de frecuencias, mediante el cual se puede interpretar con su
plication. Publisher: Newnes, Year: 2001
función de transferencia, de qué frecuencia se trata y por
ende, de qué vocal se trata. [3] Juan Luis Navarro Mesa, Procesador Acústico: El Blo-
Es interesante notar que las frecuencias en los forman- que de Extracción de Caracterı́sticas. Universidad de
tes para las vocales o y u, se encuentran muy próximas a Las Palmas de Gran Canaria. Rescatado de la página:
diferencia de las demás vocales. http://www2.ulpgc.es/hege/almacen/download/25/25296/
La vocal que tuvo mayor valor frecuencial con respecto apuntesextraccioncaracterisitcas.pdf
al formante 1 fue la vocal a, mientras que en el formante 2
la vocal con mayor valor de frecuencia fue la i. No se sabı́an
estos comportamientos entes de realizar este trabajo, por lo
que para nuestro aprendizaje es de gran interés.
Realizando varias pruebas de este trabajo con diferentes
grabaciones, los puntos de las vocales que se observan en la
figura 7, referente a los formantes, no dieron siempre en el
mismo valor. Estuvieron próximos pero se presenta siempre
un desface. Claro, creemos que se deben a muchos facto-
res, tales como la entonación de las nuevas grabaciones, los
problemas de ruido, entre otros.
¿Son satisfactorios los resultados obtenidos? Para un
análisis rápido y académico de estas señales de audio de
las vocales, creemos que si. Para una implementación mas
rigurosa y de alta calidad se deberı́an hacer más análisis y
procesos que mejoren la calidad de los resultados.

5. Conclusiones
Como se pudo apreciar en la sección de resultados, las
vocales o y u son las que mas cerca se encuentran en las
coordenadas de los formantes(Figura 7), en relación a las
demás vocales. Creeremos que es debido a que la apertura
vocal y la entonación de estas vocales es muy similar.
No se puede hacer una referencia exacta acerca de la fre-
cuencia en la que se encontrara cada vocal, y mucho menos
pensando en que existen millones de voces humanas dife-
rentes en el planeta. Mas bien lo que se puede es hacer una
aproximación acerca de la frecuencia, referente a los forman-
tes, en la que se encontrara una vocal determinada.
Serı́a mucho mejor contar con un estudio de grabación
para poder realizar los audios empleados para este proyec-
to. Se contarı́a con los elementos adecuados para eliminar
ruidos indeseables.
Se verifica que efectivamente la predicción lineal, se basa
en la redundancia de las señales habladas, ya que los puntos
obtenidos posteriormente para los formantes, se centraron
en zonas alrededor de los valores esperados, y no en un punto
especı́fico.
Como se aprecia en la figura 6, es una gran ventaja ver
que aunque la señal tenga bastantes picos, existen algunos
que son sobresalientes con relación a los demás, lo que per-
mite tomarlos como referencia para realizar los formante.

También podría gustarte