Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Seales de Voz
Transparencias:
Procesamiento de Seales y Mtodos de Anlisis
para reconocimiento de Voz
Autor: Dr. Juan Carlos Gmez
Basado en: Rabiner, L. and Juang, B-H.. Fundamentals of Speech Recognition,
Prentice Hall, N.J., 1993.
1
Introduccin
Como ya vimos, los Sistemas de Reconocimiento de Voz
comprenden diferentes disciplinas :
Reconocimiento de patrones Estadsticos
Teora de las Comunicaciones
Procesamiento de Seales
Matemtica Combinatoria
Lingstica
El denominador comn de todo sistema de reconocimiento
de voz es la etapa inicial (front-end) de procesamiento de
seales, que convierte la seal de voz en alguna
representacin paramtrica para su posterior anlisis y
2
procesamiento.
Seal
de Voz
Medicin de
parmetros
Comparacin
de patrones
Palabra
reconocida
Lgica de
Decisin
Lgica de
Decisin del
Combinador
Caract.
Diccionario
Testeo
Hipotesis
4
....
Seal de
Voz
X n (e j1 )
x(n)
Filtro
Pasabanda
Q
X n (e
jQ
....
1I
2I
1S
3I
2S
3S QI
QS
6
Modelo LPC
N
Seal
de Voz
x(n)
M
Anlisis
Espectral
LPC
Dividir
en Frames
an
Conversin de
Parmetros
LPC
cn
Filtro
PBnd Q
Nolinealidad
sQ(n)
Filtro
PBajo
vQ(n)
u1(n)
Reduccin
Tasa de
Muestreo
Reduccin
Tasa de
Muestreo
tQ(n)
M 1
si (n ) = s (n ) hi (n ) = hi (k ) s (n k )
k =0
x1(n)
Compresin
de Amplitud
....
Filtro
PBajo
t1(n)
....
....
s(n)
Nolinealidad
....
Filtro
PBnd 1
v1(n)
....
s1(n)
Compresin
de Amplitud
uQ(n)
xQ(n)
1 i Q
8
10
500 Hz
12
muestras
bits
Kbits
12
= 240
seg
muestra
seg
muestras
bits
bits
7
= 5600
seg. canal
muestra
seg
B) No Uniforme: Se disean segn algn criterio particular de espaciamiento en frecuencia. Un criterio comn es
distribuir las frecuencias en forma logartmica.
As, para Q filtros pasabanda, la frecuencia central fi y el
ancho de banda bi del i-simo filtro se define como:
b1 = C
bi = . bi 1
i 1
f i = f1 + b j
j =1
2iQ
(
b b )
+
i
12 canales
3 octavas
f1=225 Hz
C=50 Hz
7 canales
Escala crtica
18
1000 Hz
19
xi (n ) = s (n ) hi (n ) = hi (k ) s (n k )
1 i Q
k =0
hi (n ) = w(n ) e
L 1
xi (n ) = w(k ) e
k =0
=e
j i n
L 1
j i k
j i n
L 1
s (n k ) = s (k ) w(n k ) e
j i ( n k )
k =0
s (k ) w(n k )e
j i k
=e
j i n
k =0
S n ( )
S n ( ) = s (k ) w(n k )e
k =0
Para un n fijo n=n0
L 1
j i k
S n 0 ( ) = s (k ) w(n0 k )e
j i k
k =0
24
25
S n (i ) = s (n )e
j i n
w(n)
s(n )
~s (n )
w(n)
Sn (i )
j i
e
~
Como S ( ) = S ( + i ) S n (i ) = S ( + i ).W ( )
Para una i fija la STFT da una representacin del espectro
26
de la seal en una banda alrededor de i.
xi (n ) = e
banco
fi =
2
in
N
de
FS
i
N
filtros
uniformemente
1 i Q
s(m) w(n m) e
2
im
N
m =
m= Nr+k
y llamando:
0 k N 1
sn(m)=s(m).w(n-m)
27
Obtenindose entonces:
xi (n ) = e
2
i n N 1
N
s (N r + k ) e
k =0
2
i n N 1
N
r =
2
i (N r +k )
N
un(k)
j N ik
=e
sn ( N r + k ) e
k = 0 r =
2
2
j
i n N 1
j
ik
N
N
=e
u n ( k ) e
k =0
k =1
k =1
k =1
X k = x(n ) e
2
nk
N
0 k N 1
n =0
X k + X k +1 = x(n ) (e
2
nk
N
+e
2
n ( k +1)
N
n =0
N 1
= [ x(n ) 2 e
n =0
n
N
cos( n / N ) ] e
2
nk
N
34
n
N
cos( n / N )
35
Ejemplos Prcticos de
Bancos de Filtros para
Reconocimiento de Voz
36
37
38
39