Está en la página 1de 6

DETECTOR DE ACTIVIDAD DE VOZ BASADO EN LA DISTANCIA DE

´

KULLBACK-LEIBLER CON APLICACI ON A RECONOCIMIENTO

ROBUSTO DE VOZ

´

Javier Ram´ırez, Jose´ C. Segura, Carmen Ben´ıtez, Angel de la Torre, Antonio J. Rubio

Departamento de Electronica´

y Tecnolog´ıa de Computadores

Universidad de Granada

{javierrp,

segura,

carmen,

atv,

rubio}@ugr.es

Resumen

En este art´ıculo se presenta un nuevo detector de activi- dad de voz (VAD) basado en la entrop´ıa relativa o diver- gencia de Kullback-Leibler (KL). El algoritmo procesa las energ´ıas de salida de un banco de filtros (FBE) en escala Mel y modela sus distribuciones de probabilidad mediante Gaussianas. El detector KL-FBE toma la de- cision´ promediando la distancia KL simetrizada en cada una de las bandas y comparando este promedio con un umbral fijo. El detector propuesto fue comparado con los detectores mas´ representativos estandarizados por la UIT

y ETSI demostrando un mejor comportamiento discrimi-

nando los periodos de voz y de silencio en ruido. Estos resultados se corroboraron cuando se considero´ el detec- tor KL-FBE como parte de un sistema de reconocimiento de voz basado en sustraccion´ espectral. La deteccion´ pre- cisa de las pausas de voz no solo´ permitio´ realizar una mejor estimacion´ del espectro de ruido y una mejor apli- cacion´ de los algoritmos de supresion´ sino que ademas´ permitio´ reducir el numero´ de errores de insercion´ del re- conocedor.

1. Introduccion´

Las condiciones de operacion´ de las nuevas aplica- ciones relacionadas con las tecnolog´ıas de comunicacion´ movil,´ el reconocimiento robusto de voz y de ayuda a la audicion´ han impulsado el estudio y desarrollo de nuevos algoritmos de reduccion´ de ruido en tiempo real. En la bibliograf´ıa se pueden encontrar tecnicas´ bien conocidas

de supresion´ de ruido tales como la sustraccion´ espectral

o el filtrado de Wiener. Estos algoritmos estiman la mag-

nitud del espectro de ruido y obtienen una estimacion´ de la senal˜ limpia. De este modo, uno de los factores que mayor incide la calidad de la senal˜ reconstruida es la esti- macion´ del ruido. Normalmente y puesto que la mayor´ıa

de los entornos ruidos son no estacionarios es necesario actualizar la estimacion´ del espectro de ruido tan frecuen- temente como sea posible para conseguir reducir el ruido de forma efectiva. Aunque normalmente el ruido se es- tima durante los periodos en los que no esta´ presente la

senal˜ de voz, se han propuesto algoritmos que actualizan de forma continua el espectro de ruido [1, 2, 3]. Estos al- goritmos tratan de evitar la deteccion´ precisa de las pau- sas de voz para estimar el ruido y son mas´ rapidos´ en la adaptacion.´ Sin embargo, la adaptacion´ continua del rui-

do suele capturar de forma erronea´ la energ´ıa de la senal˜

y deteriorar la senal˜ de voz en el proceso de supresion´ de

ruido [4]. De este modo, es preferible realizar la estima- cion´ del espectro de ruido durante los periodos de silencio siendo esencial para muchos algoritmos de procesamien- to de voz en condiciones de ruido un detector de actividad de voz (VAD) de elevada precision.´

Los sistemas de reconocimiento sufren una importan-

te degradacion´ en su rendimiento cuando operan en entor-

nos ruidosos. Esta degradacion´ se encuentra motivada por la diferencia entre las condiciones de entrenamiento y las de reconocimiento. Con objeto de hacer mas´ robustos los sistemas de reconocimiento se emplean tecnicas´ de su- presion´ de ruido y parametrizaciones robustas de la senal˜ de voz. Por otro lado, para reducir el numero´ de insercio- nes se suele eliminar los segmentos de silencio (tecnica´ conocida como ”frame-dropping”). Por todas estas razo- nes el rendimiento de un sistema de reconocimiento se encuentra fuertemente ligado a la precision´ del detector de actividad de voz.

En las dos ultimas´ decadas´ se han propuesto nu- merosos algoritmos de deteccion´ de actividad de voz

[5, 6, 7, 8, 9]. Sin embargo, en contadas ocasiones se ana- lizan de forma exhaustiva sus prestaciones y aplicaciones

o se compara con los VADs mas´ representativos. En este

art´ıculo se propone un nuevo VAD basado en la distancia de Kullback-Leibler que opera en el dominio del banco de filtros en escala Mel. Ademas´ se realiza una completa comparacion´ con los estandares´ mas´ representativos exis- tentes en el campo y se analizan sus prestaciones cuando se utiliza en un sistema de reconocimiento de voz. Los re- sultados se han obtenido para la base de datos AURORA [10, 11].

2. Distancia de Kullback-Leibler

Def .: Sea x una variable aleatoria que toma valores con- tinuos en el intervalo y sean f (x) y g(x) las densida- des de probabilidad de dos procesos aleatorios. Se defi- ne la entrop´ıa relativa de g respecto a f , el numero´ de Kullback-Leibler o la discriminacion´ entre los dos proce- sos como [12]:

H(f ||g) =

x

f (x) log f(x) g(x) dx

(1)

La entrop´ıa relativa entre dos distribuciones de pro- babilidad es no negativa, siendo nula unicamente´ si las dos distribuciones son identicas.´ De este modo, se puede considerar como una medida de la divergencia entre dos distribuciones de probabilidad. Cuando se consideran distribuciones de tipo Gaussia- no, la entrop´ıa relativa se puede calcular como una fun- cion´ de las medias y las desviaciones t´ıpicas. Sean p 1 (x) y p 2 (x) dos distribuciones de probabilidad Gaussianas de medias µ 1 y µ 2 y desviaciones t´ıpicas σ 1 y σ 2 , respecti- vamente. La entrop´ıa relativa de p 2 (x) respecto a p 1 (x) se calcula como:

+

H(p 1 (x)||p 2 (x)) =

−∞

p 1 (x) log

p 1 (x)

p 2 (x)

dx

(2)

Considerando H(p 1 (x)||p 2 (x)) como el valor esperado de la funcion´ log(p 1 (x)/p 2 (x)) sobre p 1 (x), es decir, E 1 [log(p 1 (x)/p 2 (x))], se obtiene:

H(p 1 (x)||p 2 (x)) =

E 1 log

σ

σ

2

1

+

(xµ 2 ) 2 (xµ 1 ) 2

2σ

2

2

2σ 2

1

(3)

Finalmente, desarrollando cada uno de los terminos´ de la ecuacion´ anterior se llega a que la entrop´ıa relativa se puede calcular como:

H(p 1 (x)||p 2 (x)) =

2 log

1

σ

2

2

σ

2

1

1 +

σ

σ

2

1

2

2

+

(µ 1 µ 2 ) 2

σ

2

2

(4)

Dada la definicion´ de entrop´ıa relativa de la ecuacion´ (1), resulta claro que no es una medida de distancia puesto que no es simetrica.´ Sin embargo, se puede redefinir una distancia simetrizada como:

DS(p 1 (x)||p 2 (x)) = H(p 1 (x)||p 2 (x)) + H(p 2 (x)||p 1 (x))

que para distribuciones de tipo Gaussiano como las que se han considerado anteriormente, adquiere la forma:

(5)

1

2

σ

2

1

σ

2

2

+

σ

2

2

σ

2

1

DS(p 1 (x)||p 2 (x)) =

2 + (µ 1 µ 2 ) 2

1

σ

2

1

+

1

σ

2

2

(6)

y(n) Segmentación DFT NFFT= 256 Banco de filtros en escala Mel E y ( n
y(n)
Segmentación
DFT
NFFT= 256
Banco de filtros
en escala Mel
E y (
n k
,
)
Figura 1: Banco de filtros en escala MEL.
3. Algoritmo de deteccion´
KL-FBE

El algoritmo de deteccion´ de actividad de voz KL- FBE procesa las energ´ıas logar´ıtmicas de salida del banco de filtros en escala Mel por medio de una ventana desli- zante de 2N +1 segmentos de senal˜ centrada en el punto en el que se toma la decision.´ La Fig. 1 muestra el proce- samiento realizado sobre la senal˜ de voz y(n) para obte-

ner las energ´ıas logar´ıtmicas E y (n, k)(k = 0, 1,

1) en las K = 23 bandas de frecuencia. La senal˜ y(n) se procesa en bloques solapados de 25 ms muestras con

un desplazamiento de 10 ms. El banco de filtros se aplica sobre la DFT de la ventana de senal˜ considerada en cada instante. Esta descomposicion´ de la senal˜ de voz es la que comunmente´ se emplea en los sistemas de reconocimien- to y, en concreto, en el estandar´ ETSI ES 201 108 [10] en relacion´ con el proyecto AURORA. En el instante en el que se procesa la tra- ma n, se construye la ventana de datos {E y (n

N, k),

E y (n+N, k)} para cada banda de

, K

, E y (n, k),

, energ´ıa. A continuacion´ se calculan las medias µ 1 y µ 2 y las desviaciones t´ıpicas σ 1 y σ 2 de las ventanas inferior y superior de N muestras mediante:

µ 1 (n, µ 2 (n,

k) =

k) =

1

N

1

N

N

j=1 E y (n j, k) j=1 E y (n + j, k)

N

σ 1 (n, k) =

1

N1

N

j=1 [E y (n j, k) µ 1 (n, k)] 2

σ 2 (n, k) =

1

N1

j=1 N [E y (n + j, k) µ 2 (n, k)] 2

(7)

Estos valores son promediados en el tiempo por me- dio de un filtro de primer orden para mejorar la estabi-

lidad del detector y disminuir la probabilidad de que se produzcan falsos disparos:

µˆ 1 (n,

k)

=

αµˆ 1 (n 1, k) + (1 α)µ 1 (n, k)

µˆ 2 (n,

k)

=

αµˆ 2 (n 1, k) + (1 α)µ 2 (n, k)

σˆ 1 (n,

k)

=

ασˆ 1 (n 1, k) + (1 α)σ 1 (n, k)

(8)

σˆ 2 (n, k) = ασˆ 2 (n 1, k) + (1 α)σ 2 (n, k)

Dado que el detector asume que las energ´ıas lo- gar´ıtmicas en cada banda tienen distribuciones Gaussia- nas, la distancia entre la distribucion´ de probabilidad de la senal˜ y la distribucion´ del ruido en cada banda de energ´ıa se calcula mediante la ecuacion´ (6). Con objeto de po-

der anticipar la decision,´ la media y desviacion´ t´ıpica de

la senal˜ se calcula utilizando la ventana superior de N muestras. Finalmente, la medida que se utiliza para clasi-

3 x 10 4 2 1 0 −1 −2 0 1 2 3 4 5
3 x 10 4
2
1
0
−1
−2
0
1
2
3
4
5
6
7
n
x 10 4
y(n)
2 1 0 −1 −2 −3 0 100 200 300 400 500 600 700 800
2
1
0
−1
−2
−3
0
100
200
300
400
500
600
700
800
Distancia

ˆ

Ventana

Figura 2: Operacion´

del VAD.

ficar D(n) es el promedio de la distancia D(n, k) sobre

cada una de las bandas:

D(n, k) =

1

2 σ σˆ

N (n,k)

2

2

(n,k)

2

+

σˆ

2

2

(n,k)

σ

2

N

(n,k)

+(µ N (n, k) µˆ 2 (n, k)) 2

1

σ N (n,k) +

2

ˆ

D(n) =

K K

1

k=1 D(n, k)

2+

(n,k)

1

σˆ

2

2

(9)

El detector considera las N primeras ventanas de senal˜ como de silencio y calcula un valor inicial para la media µ N y la desviacion´ t´ıpica σ N del ruido durante es- te periodo. Estos parametros´ se van actualizando durante los periodos de silencio para adaptarse a ruidos que ten- gan un comportamiento no estacionario. El algoritmo de actualizacion´ del ruido en cada banda de energ´ıa es el si- guiente:

µ N (n, k) = αµ N (n 1, k)+ +(1 α) m´ın[µˆ 1 (n, k), µˆ 2 (n, k), med(n, k)] σ N (n, k) = ασ N (n 1, k)+ +(1 α) m´ın[σˆ 1 (n, k), σˆ 2 (n, k)]

(10)

siendo med(n, k) la mediana de la ventana de 2N + 1 va-

lores de la energ´ıa logar´ıtmica de la banda k en el instante

n.

La Fig. 2 muestra un ejemplo de operacion´ del detec- tor de actividad de voz. El detector toma la decision´ cada 80 muestras. La longitud optima´ de la ventana movil´ es

de 21 muestras de energ´ıa. En la parte superior se muestra la senal˜ y(n) junto con la salida del VAD. En la grafica´ inferior se traza el nivel de deteccion´ junto con la distan- cia de Kullback-Leibler promediada sobre las 23 bandas

ˆ

del banco de filtros en escala Mel ( D(n)). En la figura

100 95 90 85 KL-FBE (N=10) KL-FBE (N=12) G.729 80 AMR (opt.1) AMR (opt. 2)
100
95
90
85
KL-FBE (N=10)
KL-FBE (N=12)
G.729
80
AMR (opt.1)
AMR (opt. 2)
75
70
Clean
20 dB
15 dB
10 dB
5 dB
0 dB
-5 dB
HR1 (%)

SNR

Figura 3: Tasa de aciertos de la voz.

100 90 KL-FBE (N=10) 80 KL-FBE (N=12) G.729 70 AMR (opt.1) AMR (opt. 2) 60
100
90
KL-FBE (N=10)
80
KL-FBE (N=12)
G.729
70
AMR (opt.1)
AMR (opt. 2)
60
50
40
30
20
10
0
Clean
20 dB
15 dB
10 dB
5 dB
0 dB
-5 dB
HR0 (%)

SNR

Figura 4: Tasa de aciertos del silencio.

tambien´

limitacion´

se observa que el detector realiza una buena de-

de los segmentos de voz y de silencio.

4.

Analisis´

y resultados

El VAD propuesto se ha comparado con los estanda-´ res G.729 [13] y AMR [14] de la UIT y ETSI, respectiva- mente. En 1996 la UIT estandarizo´ un VAD (anexo B de la recomendacion´ G.729) para un esquema de codifica- cion´ de voz. El algoritmo realiza la decision´ cada 10 ms basandose´ en parametros´ diferenciales de la energ´ıa, el numero´ de cruces por cero y una medida de la distorsion´ espectral. Por otro lado, el estandar´ AMR de ETSI, que se utiliza en transmision´ discontinua entre estaciones base y estaciones moviles´ GSM, presenta dos variantes. Ambos realizan la decision´ cada 20ms. La primera variante u op- cion´ 1 (AMR1) emplea el nivel de energ´ıa de la senal˜ en 9 bandas de frecuencia, el pitch y un detector de tonos para separar voz y silencio. La segunda variante (AMR2) utiliza parametros´ del codificador de voz para realizar la decision.´ Estos dos detectores se utilizan frecuentemente como referencia [5, 6, 7] puesto que, al encontrarse es- tandarizados por la UIT y ETSI, se asume que tienen un

buen comportamiento en un amplio margen de condicio-

nes de operacion.´

Tabla 1: Tasas de aciertos promedio para la voz y el si- lencio.

 

G.729

AMR1

AMR2

KL-FBE

HR0

31.77

%

31.31

%

42.77

%

46.83

%

HR1

93.00

%

98.18

%

93.76

%

96.96

%

4.1. Bases de datos utilizadas

El analisis´ se ha realizado sobre las bases de datos AURORA 2 y AURORA 3. AURORA 2 considera 8 rui- dos mezclados artificialmente sobre la base de datos lim- pia TIDIGITs a SNRs desde 20 hasta -5 dB. AURORA 3 contiene grabaciones realizadas en coche con microfo-´ nos de proximidad y manos libres en diferentes situacio- nes. Por ejemplo, la base datos SpeechDat-Car finlandesa contiene grabaciones con el coche parado, en carretera a velocidades entre 40 y 60 Km/h y entre 100 y 120 Km/h, con la ventana abierta y con la radio encendida.

4.2.

Analisis´

de discriminacion´

de voz y silencio

En primer lugar se evaluo´ la eficiencia de la decision´ en terminos´ de la tasa de aciertos de los segmentos de silencio y de voz definidas como la fraccion´ de los seg- mentos reales de silencio o de voz que son detectados correctamente como pausas o silencios, respectivamente. En el analisis´ se ha utilizado la base de datos limpia pa- ra etiquetar a modo de referencia los segmentos de voz y silencio. Los parametros´ optimos´ del VAD KL-FBE fue- ron N = 12, α = 0,9 y un nivel de deteccion´ de 0.4. En las Figs. 3 y 4 se muestran los resultados de detec- cion´ promediados para estos 8 ruidos como funcion´ de la SNR tanto para el detector KL-FBE propuesto como para el G.729 y el AMR (opciones 1 y 2). La Fig. 3 muestra la tasa de aciertos de los segmentos de voz (HR1) y la Fig. 4 la de los segmentos de silencio (HR0). Aunque el detector G.729 tiene la menor degradacion´ en la detec- cion´ de voz con la disminucion´ de la SNR, se comporta demasiado conservativamente por debajo de 15 dB y solo´ consigue detectar entre un 20 % y un 25 % de los segmen- tos de silencio. Un comportamiento similar aunque mas´ acentuado lo tiene el detector AMR1 por debajo de 5 dB siendo inferior al 10 % la correcta deteccion´ del silencio. El VAD propuesto no solo´ mejora la deteccion´ de acti- vidad de voz sobre el AMR2 sino que ademas´ mejora la deteccion´ del silencio en el rango de SNR de 20 a -5 dB. La tabla 1 muestra el valor promedio de HR0 y HR1 para los diferentes detectores considerados como referencia y para el detector KL-FBE. Los resultados demuestran que el VAD propuesto es el que mejor discrimina los segmen- tos de voz y de silencio.

Sustracción y(n) espectral Eliminación de segmentos de silencio Extracción de características VAD
Sustracción
y(n)
espectral
Eliminación de
segmentos
de silencio
Extracción de
características
VAD
Estimación
del espectro
de ruido
Sistema de
reconocimiento
Figura 5: Sistema de reconocimiento empleado para eva-
luar el rendimiento del detector de actividad de voz.

4.3. Insercion´ en un sistema de reconocimiento de voz

Para corroborar los resultados obtenidos y la eficien- cia del detector propuesto se ha considerado su inclu- sion´ en el sistema de reconocimiento de voz mostrado en la Fig. 5. Como tecnica´ de compensacion´ de ruido se ha empleado sustraccion´ espectral (SS: Spectral sub- traction) siendo el VAD utilizado para actualizar la es- timacion´ del espectro de ruido durante los periodos de silencio. Con objeto de eliminar las largas pausas entre palabras, que provocan numerosos errores de insercion,´ se ha estudiado la eliminacion´ de la entrada del recono- cedor de aquellos segmentos etiquetados como silencio (”frame-dropping”). De esta manera, el comportamien- to del VAD tiene una marcada influencia en la eficiencia del reconocedor. Por ultimo,´ la extraccion´ de caracter´ısti- cas se realiza por medio de un banco de filtros en escala Mel siendo considerados 13 coeficientes cepstrales y la energ´ıa logar´ıtmica como entradas al reconocedor. Como sistema de reconocimiento se ha utilizado HTK (Hidden Markov Model Tool Kit) [15]. Las tablas 2 y 3 muestran los resultados de recono- cimiento promediados para los 8 ruidos considerados en funcion´ de la SNR. En la tabla se da la precision´ de re- conocimiento de palabra (”word accuracy”) que tiene en cuenta los errores de borrado, sustitucion´ e insercion.´ Co- mo consecuencia de la mejor delimitacion´ de los segmen- tos de voz y de silencio que se consigue con el detector propuesto se obtiene una importante mejora en el rendi- miento del sistema de reconocimiento. La tabla 4 muestra la mejora que introduce el VAD KL-FBE propuesto sobre las prestaciones del sistema de reconocimiento basado en los VAD considerados como referencia. Si se considera la tecnica´ de eliminacion´ de segmentos de silencio y, cuando el sistema de reconoci- miento se entrena con voz limpia, se obtiene una mejora en la precision´ del reconocedor del 13.80 %, 24.08 % y 12.37 % sobre el sistema de reconocimiento equivalente que emplea los detectores G.729, AMR1 y AMR2, res- pectivamente. Por otro lado, si se utiliza senal˜ de voz contaminada con diferentes tipos de ruido para entrenar el sistema de reconocimiento (entrenamiento multicondi- cion),´ la mejora en la precision´ del sistema de reconoci- miento cuando se utiliza el detector KL-FBE propuesto es del 24.60 %, 13.34 %, y 16.15 %. La tabla 5 muestra los resultados del analisis´ reali-

Tabla 2: Resultados de reconocimiento para la base de datos AURORA 2 (entrenamiento en limpio).

 

Base

 

Base + SS

 

Base + SS + Frame-dropping

G.729

AMR1

AMR2

KL FBE

G.729

AMR1

AMR2

KL FBE

Clean

99.03

98.49

98.31

98.50

98.55

98.35

97.86

98.63

99.15

20

dB

94.19

94.15

94.40

91.38

94.19

96.87

96.66

96.54

97.64

15

dB

85.41

88.68

88.19

82.52

88.00

93.92

93.40

93.07

94.94

10

dB

66.19

76.61

74.96

68.48

75.15

86.28

83.95

84.93

88.19

5

dB

39.28

54.48

52.21

48.70

53.76

68.77

62.85

69.12

72.58

0

dB

17.38

25.50

23.80

24.93

27.26

37.88

31.09

41.95

46.39

-5 dB

8.65

5.19

3.55

9.31

9.53

11.32

7.90

16.69

21.01

Promedio [20,0] dB

60.49

67.89

66.71

63.20

67.67

76.74

73.59

77.12

79.95

Tabla 3: Resultados de reconocimiento para la base de datos AURORA 2 (entrenamiento multicondicion).´

 

Base

 

Base + SS

 

Base + SS + Frame-dropping

G.729

AMR1

AMR2

KL FBE

G.729

AMR1

AMR2

KL FBE

Clean

98.48

97.55

97.66

97.66

97.89

98.05

96.83

97.96

98.80

20

dB

97.39

97.57

97.63

97.64

97.79

97.48

97.64

97.80

98.39

15

dB

96.34

96.77

96.73

96.79

96.90

96.08

96.67

96.83

97.61

10

dB

93.88

94.46

94.37

94.38

94.64

92.89

94.45

94.32

95.39

5

dB

85.70

87.55

87.85

87.80

88.09

84.82

87.49

87.12

89.03

0

dB

59.02

66.46

67.37

67.02

68.35

63.68

67.18

65.41

70.54

-5 dB

24.47

31.43

31.95

30.29

32.31

31.10

32.49

29.44

35.79

Promedio [20,0] dB

86.47

88.56

88.79

88.72

89.15

86.99

88.68

88.30

90.19

Tabla 4: Mejora en las prestaciones del reconocedor para la base de datos AURORA 2.

 

Entrenamiento en limpio

 

G.729

AMR1

AMR2

Base+SS

-0.69 %

2.88

%

12.15

%

Base+SS+FD

13.80

%

24.08

%

12.37

%

 

Entrenamiento multicondicion´

G.729

AMR1

AMR2

Base+SS

5.16 %

3.21

%

3.81 %

Base+SS+FD

24.60

%

13.34

%

16.15

%

zado con la bases de datos SpeechDat-Car. Se dan los

resultados para las bases de datos finlandesa, espanola˜

y alemana y para las tres condiciones diferentes de en-

trenamiento y test: (i) WM (Well-matched), (ii) MM (Medium-mismatch) y (iii) HM (High-mismatch). Del mismo modo, se ha incluido en la tabla los resultados

de reconocimiento obtenidos para el estandar´ base [11]

y para el esquema de reduccion´ de ruido mostrado en la

Fig. 5. La tabla 6 muestra la mejoras obtenidas sobre los

VADs G.729 y AMR. El VAD propuesto es el que obtiene mejores resultados de reconocimiento para todas las ba- ses de datos consideradas. Si se emplea “frame-dropping”

la mejora es del 51.18 %, 17.25 % y 9.31 % sobre los de-

tectores G.729, AMR1 y AMR2, respectivamente.

5. Conclusiones

En este art´ıculo se ha presentado un nuevo detector de actividad de voz basado en la distancia de Kullback- Leibler. El algoritmo descompone la senal˜ de voz por me- dio de un banco de filtros en escala Mel y la procesa en cada canal de forma independiente. La medida de discri- minacion´ es la distancia de Kullback-Leibler simetrizada y promediada para todas las bandas. Se ha realizado una exhaustiva comparacion´ del detector propuesto con los estandares´ G.729 y AMR utilizando las bases de datos AURORA 2 y SpeechDat-Car. En el analisis´ se ha cuan- tificado la discriminacion´ de los segmentos de voz y de silencio y la influencia del VAD en un sistema de recono- cimiento de voz. El detector KL-FBE ha demostrado una importante mejora sobre los detectores G.729 y AMR en diferentes condiciones de ruido siendo el que mejor dis- crimina los segmentos de voz y silencio. Del mismo mo- do, se demostro´ que el detector propuesto obtiene el me- jor rendimiento en un sistema de reconocimiento basado en sustraccion´ espectral.

6. Agradecimientos

Este trabajo ha sido financiado por el Ministerio de Ciencia y Tecnolog´ıa (MCyT) con el proyecto de investi- gacion´ TIC2001-3323.

Tabla 5: Resultados de reconocimiento para la base de datos AURORA 3.

 

Base

 

Base + SS

 

Base + SS + Frame-dropping

G.729

AMR1

AMR2

KL FBE

G.729

AMR1

AMR2

KL FBE

 

WM

92.74

93.84

94.53

94.57

93.10

88.93

95.40

95.84

95.49

MM

80.51

68.47

64.36

64.43

67.85

60.53

72.30

71.48

78.23

Finnish

HM

40.53

51.87

49.93

50.14

51.91

58.02

74.10

74.98

77.06

Promedio

71.26

71.39

69.61

69.71

70.95

69.16

80.60

80.77

83.59

 

WM

92.94

90.65

90.74

90.70

90.60

89.31

96.51

96.19

95.85

MM

83.31

79.71

79.09

79.29

80.50

71.30

85.76

91.70

91.13

Spanish

HM

51.55

67.13

60.66

62.08

68.03

56.78

73.50

80.78

82.35

Promedio

75.93

79.16

76.83

77.36

79.71

72.46

85.26

89.56

89.78

 

WM

91.20

92.13

92.47

92.87

92.57

88.20

92.89

92.69

92.83

MM

81.04

84.81

85.58

86.02

84.77

71.16

85.80

83.94

85.03

German

HM

73.17

82.93

84.23

84.09

84.23

75.25

81.82

82.83

84.59

Promedio

81.80

86.62

87.43

87.66

87.19

78.20

86.84

86.49

87.48

 

Promedio

76.33

79.06

77.95

78.24

79.28

73.27

84.23

85.61

86.95

Tabla 6: Mejora en las prestaciones del reconocedor para la base de datos AURORA 3.

 

G.729

AMR1

AMR2

Base+SS

1.05 %

6.03 %

4.78

%

Base+SS+FD

51.18 %

17.25 %

9.31

%

7. Referencias

[1]

Martin, R., “An efficient algorithm to estimate the instantaneous SNR ofspeech signals”, Proc. EU- ROSPEECH 93, vol. 1, 1993.

[2]

Paul, D. B., “The spectral envelope estimation vo- coder”, IEEE Trans. Acoust., Speech, Signal Pro- cessing, vol. ASSP-29, pags.´ 786-794, 1981.

[3]

H. G. Hirsch and C. Ehrlicher, “Noise estimation techniques for robust speech recognition”, Proc. IEEE Int. Conf. Acoustics, Speech, Signal Proces- sing, vol. 1, 1995, pags.´ 153-156.

[4] Fischer A., Stahl, V., “On improvement measu- res for spectral subtraction applied to robust auto- matic speech recognition in car environments”, Proc.Workshop Robust Methods Speech Recogni- tion Adverse Conditions, Tampere, Finland, May 1999, pags.´ 75-78.

[5] Stegmann, J., and Schroder¨ , G., “Robust voice- activity detection based on the wavelet transform”, Proc. 1997 IEEE Workshop Speech Coding Tele- communications , New York, 1997, pags.´ 99-100.

[6]

Sohn, J., Kim, N. S., and Sung, W., “A statistical model-based voice activity detection”, IEEE Signal Processing Lett., vol. 6, pags.´ 1-3, Jan. 1999.

[7]

Marzinzik, M., and Kollmeier, B., “Speech Pause Detection for Noise Spectrum Estimation by Trac- king Power Envelope Dynamics”, IEEE Transac- tions on Speech and Audio Processing , vol. 10 (2), pags.´ 109-118, Feb. 2002.

[8]

McKinley, B. L., Whipple, G. H., “Model based speech pause detection”, IEEE Int. Conf. Acoustics, Speech, Signal Processing, pags.´ 1179-1182, 1997.

[9]

Van Gerven, S., Xie, F., “A comparative study of

speech detection methods”,

Proc. 5th Eur. Conf.

Speech Communication Technology, EUROSPEE-

CH’97, 1997.

[10] Hirsch, H. G., Pearce, D., “The AURORA Experi- mental Framework for the Performance Evaluations of Speech Recognition Systems under Noisy Con- ditions”, Proc. of the ISCA ITRW ASR2000, 2000.

[11] ETSI, “ETSI ES 201 108 v1.1.2 Distributed Spee- ch Recognition; Front-end Feature Extraction Algo- rithm; Compression Algorithm”, April 2000.

[12] Gray, R. M., Source coding theory. Kluwer Acade- mic Publishers, Boston, 1990.

[13] ITU, “ITU-T Recommendation G.729-Annex B: A silence compression scheme for G.729 optimized

for terminals conforming to recommendation V.70”,

1996.

[14] ETSI, “Voice activity detector (VAD) for adaptive multi-rate (AMR) speech traffic channels. General description”, 1999.

[15] Young, S., Kershaw, D., Odell, J., Ollason, D., Valt- chev, V., Woodland, P. “The HTK book. V 2.2”, En- tropic, 1999.