Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Vozz PDF
Vozz PDF
Seminario de Audio
2005
Ernesto Lpez
Martn Rocamora
Produccindelhabla
Aparato fonador
Corte transversal
de la laringe
Sonidossonorosysordos
Sonidos sonoros
Forma de onda
casi peridica
Vocales, fonemas nasales
Sonidos sordos
Forma de onda
parece aleatoria
Consonantes
como /s/, /f/, /z/
Modelodeproduccindelavoz
Aproximacin lineal
Filtro
lineal
Excitacin:
Tren de impulos
Rudio gaussiano
Propiedadesdelasealdevoz
Estacionariedad:
Seal fuertemente no estacionaria, pero se puede asmuir que para pequeos bloques de muestras la seal
es localmente estacionaria
Propiedadesdelasealdevoz
Ancho de banda y fs
La mayor parte de la
potencia de la seal
se encuentra por
debajo de los 4 kHz
En muchos casos
fs=8kHz es suficiente (ej. telefona).
Otro tipo de aplicaciones requieren fs
mayores (ej. 16Khz).
Representacinespectral
Sonidos sonoros
Armnicos igualmente espaciados
modulados por la
transferenica del
aparato fonador
Sonidos sordos
Secuencia aleatoria
Al reducir la varianza de la seal no se
obtiene slo la
transferencia del
aparato fonador
Formantes
La envolvente espectral tiene un conjunto de picos y valles
Los picos se denominan: formantes
La cantidad de
formantes y su
ubicacin son
caractersticas
distintivas de
cada sonido
Las vocales tiene estructuras
de formantes
bien definidas
Teoradelaprediccinlineal
Modelo lineal de mecanismo de produccin de la voz
Objetivo de LPC
Estimar la transferencia del filtro en funcin de las muestras
de entrada y salida.
Teoradelaprediccinlineal
Modelo lineal en el dominio del tiempo
Modelotodopolos
Se consideran nulos los coeficientes del numerador
Dominio z
Modelodelaexcitacin
La autocorrelacin y por lo tanto la DEP de un impulso y
de ruido gaussiano son idnticas. Los sonidos sonoros y
sordos pueden considerarse estadsticamente equivalentes.
Puede derivarse un nico modelo para los dos tipos de
sonidos.
Aproximaciones
La excitacin para sonidos sordos es estrictamente ruido
gaussiano.
Se considera un tren de impulsos estadsticamente
equivalente a un nico impulso.
Clculodeloscoeficientes
Aproximacin de s(n)
Error de estimacin
EnvolventeEspectral
Una vez obtenidos los coeficientes puede calcularse
la Transferencia del aparato fonador y su respuesta al
impulso.
Funcin de Transferencia
RespuestaalImpulso
Sonido sonoro. Modelo LPC de orden 12.
EnvolventeEspectral
Sonido sonoro. Modelo LPC de orden 12.
El modelo aproxima bien las formantes.
Polos dominanates
en 500, 1650,
2600 y 3800 Hz.
Se pierde detalle
entre las formantes (informacin
de los ceros).
EnvolventeEspectral
Sonido sordo. Modelo LPC de orden 12.
El modelo funciona
tambin para sonidos sordos.
Los sonidos sordos
tienen formantes
mas dbiles.
FiltradoInverso
S(z) = H(z).U(z) U(z) = H-1(z).S(z)
Modelo razonable
de la excitacin
como tren de
pulsos.
La excitacin
provee informacin sobre la
condicin
sonoro/sordo.
Limitantes
No se modelan
los ceros de la
tranferencia.
El modelo falla
para voces muy
agudas.
Aplicaciones
Sntesis de sonido.
Reconocimiento automtico
de voz (A travs de la amplitud y posicin de las formantes).
Estimacin robusta de la frecuencia fundamental utilizando la excitacin.
Codificacin de voz a baja
tasa de bits.
DeconvolucinCepstral
Objetivo: Estimar la funcin de transferencia del aparato
fonador.
Ventaja: No se realiza ninguna de las hiptesis necesarias en LPC.
Procedimiento: Transformacin no lineal para transformar la convolucin en suma de secuencias.
Cepstrum
Separacin de la excitacin y transferencia
Modelo lineal: convolucin de excitacin y respuesta del aparato fonador
Espectro: producto del espectro de la
excitacin y transferencia.
Cepstrum
Las variaciones rpidas
de la DEP (armnicos)
se encuentran en la
zona alta de las quefrency.
Las variaciones lentas
(envolvente espectral)
se encuentran en la
zona de las bajas quefrency.
LiftradodelCepstrum
EnvolventeEspectral
El cepstrum aproxima mejor el detalle entre las formantes.
Limitantes
Para voces de
frecuencia fundamental alta, la
envolvente espectral aparece
muestreada en
pocos puntos.
No es posible separar la excitacin de la envolvente espectral.
Aplicaciones
Reconocimiento automtico de voz.
Estimacin de la frecuencia fundamental a partir de la deteccin de picos en el cepstrum.
Referencias