Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Banco Filtros BW PDF
Banco Filtros BW PDF
Seales de Voz
Transparencias:
Procesamiento de Seales y Mtodos de Anlisis
para reconocimiento de Voz
Autor: Dr. Juan Carlos Gmez
Introduccin
Como ya vimos, los Sistemas de Reconocimiento de Voz
comprenden diferentes disciplinas :
Reconocimiento de patrones Estadsticos
Teora de las Comunicaciones
Procesamiento de Seales
Matemtica Combinatoria
Lingstica
El denominador comn de todo sistema de reconocimiento
de voz es la etapa inicial (front-end) de procesamiento de
seales, que convierte la seal de voz en alguna
representacin paramtrica para su posterior anlisis y
procesamiento. 2
Existe una amplia gama de posibilidades para la represen-
tacin paramtrica de seales:
Energa en tiempo corto (short-time energy)
Tasa de cruce por cero (zero-crossing rate)
Tasa de cruce por nivel (level-crossing rate)
Envolvente del espectro en tiempo corto (short-time
spectral envelope)
Est ltima forma de representacin es la ms importante
por su difundido uso; y los mtodos de anlisis espectral
son considerados como el ncleo del procesamiento de
seales
x(n)
Filtro jQ
Pasabanda X n (e )
Q
1 2 3 Q
....
1I 1S 3I 3S QI QS
2I 2S 6
Modelo LPC
N M
Seal
de Voz Anlisis Conversin de
Dividir
Espectral Parmetros
x(n) en Frames
LPC an LPC cn
....
....
Reduccin
Filtro Filtro Compresin
Nolinealidad Tasa de
PBnd Q PBajo de Amplitud
Muestreo
sQ(n) vQ(n) tQ(n) uQ(n) xQ(n)
M 1
si (n ) = s (n ) hi (n ) = hi (k ) s (n k ) 1 i Q
k =0 8
si(n) se pasa luego por un rectificador de onda completa
(o de 1/2 onda). Esto desdobla el espectro de la seal
pasabanda a un espectro en la banda de baja frecuencia y
otra en la banda de alta frecuencia, que luego se elimina
mediante un filtro pasabajos, obtenindose ui(n) que
representa una estimacin de la energa de la seal de voz
en cada una de la Q bandas de frecuencia.
Suponiendo que la salida de i-simo filtro es una seal
del tipo senoidal pura:
si(n) = i.sen(i.n)
El ancho de banda del filtro es lo suficientemente angosto
para dejar pasar un nico armnico. As:
vi(n) = si(n).w(n)
Vi() = Si()W()
9
10
A pesar de que el anlisis anterior es estrictamente
correcto para seales senoidales puras, es un modelo
razonablemente vlido para sonidos tonales cuasi-
peridicos siempre que el filtro pasabanda no deje pasar 2
o ms armnicos de la seal.
La naturaleza de variacin en el tiempo de las seales de
voz (cuasi-periodicidad) hace que el espectro de la seal
ubicado en la banda de baja frecuencia no sea un impulso
puro, sino que la informacin este contenida en una
banda.
A continuacin se muestra una seccin de 20mseg de voz
tonal procesada por un canal angosto centrado en 500Hz
(y con una Fs=10KHz).
11
500 Hz
12
El espectro de la seal resultante Vi (e ) muestra la deseada
j
16
B) No Uniforme: Se disean segn algn criterio particu-
lar de espaciamiento en frecuencia. Un criterio comn es
distribuir las frecuencias en forma logartmica.
As, para Q filtros pasabanda, la frecuencia central fi y el
ancho de banda bi del i-simo filtro se define como:
b1 = C
bi = . bi 1 2iQ
i 1
f i = f1 + b j +
(b b )
i j
j =1 2
donde C y f1 se definen arbitrariamente.
Los valores de usados ms frecuentemente son =2 que
determina un espaciamiento de una octava y =4/3 que
determina un espaciamiento de 1/3 de octava. 17
12 canales
3 octavas
f1=225 Hz
C=50 Hz
7 canales
Escala crtica
18
La escala crtica est basada en estudios de percepcin del odo
humano. La escala es prcticamente lineal hasta frecuencias de
aproximadamente 1000 Hz, y para frecuencias superiores es
logartmica (es decir el ancho de banda de los filtros es exponencial
en funcin de la frecuencia).
Ancho de Banda
Crtico
0 1000 Hz
19
L 1 L 1
xi (n ) = w(k ) e s (n k ) = s (k ) w(n k ) e
j i k j i ( n k )
k =0 k =0
L 1
s (k ) w(n k )e S n ( )
j i n j i k j i n
=e =e
k =0
k =0
Para un n fijo n=n0
L 1
S n 0 ( ) = s (k ) w(n0 k )e
j i k
k =0
obtenemos la FT convencional de la seal truncada,
s(k)w(n0-k), evaluada en la frecuencia =i. A
continuacin se muestran las seales s(m) y w(n0-m)
para n0= 50, 100 y 200
22
Dado que w(n) es un filtro FIR, siendo L el nmero de muestras,
podemos establecer que:
1. Si L es grande, comparado con la periodicidad de la seal (pitch),
entonces Sn() tiene buena resolucin en frecuencia (podemos
visualizar pitchs armnicos individuales) pero slo se ve a grandes
rasgos la envolvente del espectro total en la seccin de voz cubierta
por la ventana.
2. Si L es chico, comparado con la periodicidad de la seal, Sn()
tiene una resolucin en frecuencia pobre, pero provee una buena
estima de la envolvente del espectro total.
23
24
STFT (de 500 y 50 muestras) de una Seal
No Tonal usando Ventana de Hamming
25
m =
Obtenindose entonces:
2 2
i n N 1 j i (N r +k )
xi (n ) = e s (N r + k ) e
j
N N
n un(k)
k =0 r =
2 2
i n N 1 j N ik
sn ( N r + k ) e
j
=e N
k = 0 r =
2 2
j i n N 1 j ik
=e u n ( k ) e
N N
k =0
Donde puede verse que xi(n) es una versin modulada de la
DFT de la secuencia un(k)
28
As, los pasos bsicos en el clculo del banco de filtros
uniforme a partir de la FFT son:
1. Obtener la seal truncada sn(m)=s(m).w(n-m) con
m=n-L+1,...,n donde w(n) es causal y tiene FIR de L
muestras
2. Formar un(k)= sn(N r + k) con 0 k N-1. Es decir,
separa la seal sn(m) en porciones de N muestras y sumar
estas para obtener una seal de N muestras
3. Calcular la DFT de N puntos de un(k)
4. Modular la DFT usando la secuencia e j 2 i n / N Este paso
puede evitarse desplazando en forma circular la secuencia
un(k) la cantidad n+N muestras para obtener un((k-n))N,
con 0 k N-1 antes de calcular la DFT
29
30
La cantidad de clculos para la implementacin del banco
de filtros es:
C FBFFT ~
= 2 N log N multiplicaciones y sumas
Si consideramos a R como la tasa entre las cantidades de
clculos para la implementacin directa del banco de
filtros y la implementacin mediante FFT:
C LQ
R = DFFIR =
C FBFFT 2 N log N
Asumiendo N=32 (un banco de filtro de 16 canales) con
L=128 (es decir una FIR de 12,8 mseg a una tasa de
muestreo de 10KHz) y Q=16 canales, tenemos entonces:
128 . 16
R= = 6,4
2 . 32 . 5
La implementacin via FFT es 6,4 veces ms eficiente. 31
35
Ejemplos Prcticos de
Bancos de Filtros para
Reconocimiento de Voz
36
Banco de Filtros uniforme de 15 canales
El filtro bsico pasaba-
jos fue diseado me-
diante la tcnica de
ventana usando una de
Kaiser de 101 puntos.
En a) se ve la IR del
filtro ideal pasabajos
multiplicado por la
ventana de Kaiser.
En b) se ve la IR de los
filtros individuales en
la banda de filtrado.
En c) se ve la respuesta
en frecuencia total. 37
39