Está en la página 1de 28

Procesamientodigitaldevoz

Seminario de Audio
2005
Ernesto Lpez
Martn Rocamora

Produccindelhabla
Aparato fonador
Corte transversal
de la laringe

Sonidossonorosysordos
Sonidos sonoros
Forma de onda
casi peridica
Vocales, fonemas nasales
Sonidos sordos
Forma de onda
parece aleatoria
Consonantes
como /s/, /f/, /z/

Modelodeproduccindelavoz
Aproximacin lineal
Filtro
lineal
Excitacin:
Tren de impulos
Rudio gaussiano

Propiedadesdelasealdevoz
Estacionariedad:
Seal fuertemente no estacionaria, pero se puede asmuir que para pequeos bloques de muestras la seal
es localmente estacionaria

Largo del bloque de anlisis:


Corto - puede no ser suficiente para el algoritmo
Largo - estimaciones son promedios a largo plazo
En general bloques de 20 a 30 ms son adecuados para la
mayora de las aplicaciones (160 a 240 muestras @ 8kHz).

Propiedadesdelasealdevoz
Ancho de banda y fs
La mayor parte de la
potencia de la seal
se encuentra por
debajo de los 4 kHz
En muchos casos
fs=8kHz es suficiente (ej. telefona).
Otro tipo de aplicaciones requieren fs
mayores (ej. 16Khz).

Representacinespectral
Sonidos sonoros
Armnicos igualmente espaciados
modulados por la
transferenica del
aparato fonador
Sonidos sordos
Secuencia aleatoria
Al reducir la varianza de la seal no se
obtiene slo la
transferencia del
aparato fonador

Formantes
La envolvente espectral tiene un conjunto de picos y valles
Los picos se denominan: formantes
La cantidad de
formantes y su
ubicacin son
caractersticas
distintivas de
cada sonido
Las vocales tiene estructuras
de formantes
bien definidas

Teoradelaprediccinlineal
Modelo lineal de mecanismo de produccin de la voz

Hiptesis: El aparato fonador puede modelarse


por un filtro lineal.

Objetivo de LPC
Estimar la transferencia del filtro en funcin de las muestras
de entrada y salida.

Teoradelaprediccinlineal
Modelo lineal en el dominio del tiempo

El valor de la muestra de salida actual est determinado por la


diferencia de la suma de la muestra actual y las q muestras
pasadas de entrada con la suma de p muestras pasadas de la
salida.

Problema: No conocemos la seal excitacin u(n).

Modelotodopolos
Se consideran nulos los coeficientes del numerador
Dominio z

Dominio del tiempo

An hay que conocer la muestra actual de la entrada u(n).


Se deriva una estimacin estadstica de los coeficientes a
partir de el conocimiento de la estadstica de u(n).

Modelodelaexcitacin
La autocorrelacin y por lo tanto la DEP de un impulso y
de ruido gaussiano son idnticas. Los sonidos sonoros y
sordos pueden considerarse estadsticamente equivalentes.
Puede derivarse un nico modelo para los dos tipos de
sonidos.

Aproximaciones
La excitacin para sonidos sordos es estrictamente ruido
gaussiano.
Se considera un tren de impulsos estadsticamente
equivalente a un nico impulso.

Clculodeloscoeficientes
Aproximacin de s(n)

Error de estimacin

Clculo de los coeficientes (Mnimos Cuadrados)

EnvolventeEspectral
Una vez obtenidos los coeficientes puede calcularse
la Transferencia del aparato fonador y su respuesta al
impulso.
Funcin de Transferencia

Respuesta al impulso (IIR)

Calculando la DFT de la respuesta al impulso se obtiene


la respuesta en frecuencia del aparato fonador.

RespuestaalImpulso
Sonido sonoro. Modelo LPC de orden 12.

EnvolventeEspectral
Sonido sonoro. Modelo LPC de orden 12.
El modelo aproxima bien las formantes.
Polos dominanates
en 500, 1650,
2600 y 3800 Hz.
Se pierde detalle
entre las formantes (informacin
de los ceros).

EnvolventeEspectral
Sonido sordo. Modelo LPC de orden 12.

El modelo funciona
tambin para sonidos sordos.
Los sonidos sordos
tienen formantes
mas dbiles.

FiltradoInverso
S(z) = H(z).U(z) U(z) = H-1(z).S(z)
Modelo razonable
de la excitacin
como tren de
pulsos.
La excitacin
provee informacin sobre la
condicin
sonoro/sordo.

Limitantes

No se modelan
los ceros de la
tranferencia.
El modelo falla
para voces muy
agudas.

Aplicaciones
Sntesis de sonido.
Reconocimiento automtico
de voz (A travs de la amplitud y posicin de las formantes).
Estimacin robusta de la frecuencia fundamental utilizando la excitacin.
Codificacin de voz a baja
tasa de bits.

DeconvolucinCepstral
Objetivo: Estimar la funcin de transferencia del aparato
fonador.
Ventaja: No se realiza ninguna de las hiptesis necesarias en LPC.
Procedimiento: Transformacin no lineal para transformar la convolucin en suma de secuencias.

Cepstrum
Separacin de la excitacin y transferencia
Modelo lineal: convolucin de excitacin y respuesta del aparato fonador
Espectro: producto del espectro de la
excitacin y transferencia.

Densidad Espectral de Potencia

Cepstrum: suma del cepstrum de


la excitacin y la transferencia

Cepstrum
Las variaciones rpidas
de la DEP (armnicos)
se encuentran en la
zona alta de las quefrency.
Las variaciones lentas
(envolvente espectral)
se encuentran en la
zona de las bajas quefrency.

LiftradodelCepstrum

Para obtener la envolvente espectral


se elimina la informacin de los armnicos y se aplica
el proceso inverso
(DFT).

EnvolventeEspectral
El cepstrum aproxima mejor el detalle entre las formantes.

Limitantes
Para voces de
frecuencia fundamental alta, la
envolvente espectral aparece
muestreada en
pocos puntos.
No es posible separar la excitacin de la envolvente espectral.

Aplicaciones
Reconocimiento automtico de voz.
Estimacin de la frecuencia fundamental a partir de la deteccin de picos en el cepstrum.

Referencias

Speech Analysis E. Chilton


La voz humana F. Miyara
Processing Singing Voice for Music Retrieval E. Pollastri
Discrete-time signal processing A.V. Oppenhiem
R.W. Schafer

También podría gustarte