Documentos de Académico
Documentos de Profesional
Documentos de Cultura
[1]
Departamento de Informtica Aplicada
Universidad Politcnica de Madrid
Ctra. De Valencia Km. 7, 28031 Madrid
Tfn: +34.913367860, Fax: +34.913367527
e-mail: jbernal@eui.upm.es.jbobi@eui.upm.es
[2]
Departamento de Arquitectura y Tecnologa de Sistemas Informticos
Universidad Politcnica de Madrid
Campus de Montegancedo, s/n, Boadilla del Monte, 28660 Madrid
Tfn: +34.913367384, Fax: +34.913367412
e-mail: pedro@pino.datsi.fi.upm.es
77
RESUMEN
The majority ofthe actual spectra analysis tools use computers, then
it is possible to change the Fourier Transform main parameters.
This article studies the parameters used in the Fourier Transform,
including graphics showing the effects obtained varying the main
variables. The studied parameters are: sampling frequency, windows
size, type windows, number of zeros in the window and the
representation formo
Finally, the article references different methods used in order to
enhance the spectra, describing the covered filters.
78
1. INTRODUCCIN
Con el presente artculo queremos mostrar una visin prctica en la
utilizacin de la Transformada de Fourier (TF) como una herramienta
til para el estudio de la fontica acstica.
La Transformada de Fourier [Bri88] es una herramienta de anlisis
muy utilizada en el campo cientfico (acstica, ingeniera biomdica,
mtodos numricos, procesamiento de seal, radar, electromagnetismo,
comunicaciones, etc.). Transforma una seal representada en el dominio
del tiempo al dominio de la frecuencia pero sin alterar su contenido de
informacin, slo es una forma diferente de representarla. La potencia
del anlisis de Fourier radica en que nos permite descomponer una seal
compleja en un conjunto de componentes de frecuencia nica; sin
embargo, no nos indica el instante en que han ocurrido. Por ello, esta
descomposicin es til para seales estacionarias: las componentes de las
frecuencia que forman la seal compleja no cambian a lo largo del
tiempo.
Aunque se han realizado estudios fonticos utilizando el anlisis
espectral mediante la distribucin de WIGNER [Ran95], lo cierto es que
la mayora de los fonlogos utilizan los espectrogramas para la
realizacin de sus investigaciones.
Para seales no estacionarias nos vemos obligados a tomar tramos o
ventanas en donde se pueda considerar estacionaria y as poder aplicar la
Transformada de Fourier. Para realizar el anlisis completo debemos
tomar una secuencia de ventanas para observar la evolucin de la
frecuencias de la seal original. Nos podemos plantear una pregunta
fundamental: Cul es tamao ideal de una ventana?
La TF debe aplicarse de - 00 a + 00; para tomar tramos debemos
multiplicar la seal por una ventana temporal que nos asle la parte
requerida. Este hecho nos provoca una distorsin en el espectro obtenido,
ya que el resultado es la convolucin de la transformada de la seal con
la transformada de la ventana. Nos podemos plantear una segunda
pregunta: Cul es el mejor tipo de ventana?
79
2. LA TRANSFORMADA DE FOURIER
Se parte de la base de que toda seal genrica, por compleja que sea
se puede descomponer en una suma de funciones peridicas simples de
distinta frecuencia. En definitiva, la Transformada de Fourier visualiza
los coeficientes de las funciones sinusoidales que foiman la seal
original.
".DD,~"U-~
-r-'\]
\/--~\j
:f"J\APv
-p": V1\V1\VlJ
D1\ il
VlJ
:~WM
.........
o 1
02 _ _ _
_0 - -
_01
80
La
Transformada
de
Fourier
se
defme
como:
X(f) =
.c
x(t)e j21ift dt .
X(f) = A sen(2nTof)
81
~ 2ATo
nf
o.
~.
TF
02
.(J.s
-1'0
00
0.5,
1To
1
X(j) =-
o.
o.
n
L S(j --)
T
~
Tn;~
00
0.6
TF
o.
0.4
o>
-,
00
-,
00
1 t
jkjx(;)
<=> X(lif).
82
x(kt)
!x({).
x(t) y(t) =
fIlO x(-r:)y(t--r:)dr,
se
cumple
que
si
83
TF
*
TF
.2
TF
J1Ji ilit
15
_1
.(I.~
L ............. .i
0.6
15
.!.
T
84
La
Transfonnada
de
Fourier
discreta
se
define
85
como:
G(~) = ~g(kT)e-j~1mk ,n =O
. N-1, donde ~ es la frecuencia
NT
k=O
NT
'YNT'
siendo el rango
86
2fmax
hasta n = parte
-1
N
_2_ _
NT
2T
87
i.
,11!m1
;i~
""."L,,,,,,
,1,
'
:~m
~:k
1f!h
11m
88
Tipos de ventana
Hasta ahora hemos hablado de ventanas rectangulares. Se define
y;
corno: h(t) =
l~ltl:::;;~
O~ltl>~
2
Hammmg: h(t) =
Hanning: h(t)
Parzen: h(t) =
{0154 + O'46co
\ 1'0
1:
O~ Itl >-2
(27rt)]
-1 [ 1 + cos 2
1'0
~ 11
t
1:
O~ Itl >-2
1'0
:::;2
/~\
....:/
\ .....
..
..~
,..
,,\
/,...
.......
...
...
\'"
...
"
...
"
ti en db.
89
90
NT
91
10:1093361
1000Hz
ir)
lOOOHz
lU: l09J5'J4
.,',a., , ,
2000Hz
,OOUR:
2000Hz
3000Hz
4000Hz
i i
3000Hz
i i i
4000Hz
3000Hz
4000Hz
..
5000Hz
i i
5000Hz
i ;
5000Hz
92
l..1. .
l.! ,
10:1100024
,
1000Hz
10:1011268
1000Hz
i
2000Hz
...........
2000Hz
3000Hz
4000Hz
'I,."a,
,
3000Hz
4000Hz
1 0:752668
1 OOOHz
2000Hz
.....
3000Hz
.......
4000Hz
93
s.
Hasta ahora hemos visto el espectro de una sola ventana. Pero para
observar la evolucin de la seal de voz debemos visualizar una
secuencia de espectros, uno por cada ventana.
. Existen dos alternativas bsicas:
l. Utilizar una tercera dimensin que represente el tiempo,
presentando grficos en tres dimensiones (la tercera dimensin
sera la secuencia de ventanas).
2. Utilizar el color como tercera dimensin, presentando grficos
en color y en dos dimensiones.
Consideramos que la segunda solucin es ms fcil de interpretar y
ser la que tomemos. En la figura siguiente tenemos un ejemplo general
de cmo se va formando el espectro variante en el tiempo.
l'
t
-AV
l'
..t
l'
l'
tv
______________________ t
94
95
96
CHEUNG,
X(n,v)
X'(n,v)
h(n;v)
n=1
n=O
v=O v=l
Figura 13. Imagen de dos dimensiones.
97
1/9 *
1 ~O 1
1 1 1
Presenta el ejemplo con la frase "red and blue shoes". Se aprecia que
la imagen mejora, pero consideramos que sigue teniendo excesivo ruido
de fondo.
Ms interesante nos parece la aportacin de V. R. CHARI [Cha95].
Plantea un mtodo adaptativo para mejorar el espectro de Fourier. Se
basa en que el cambio de frecuencias y amplitud de los formantes se
produce de forma lenta (en rangos de tiempo entre 2ms y 8ms). Describe
un algoritmo que enfatiza los formantes, no los extrae. El procedimiento
que describe est formado por tres etapas:
1. Asla las zonas que corresponden a sonido de voz.
2. Determina las regiones donde existen cambios bruscos. Se
pretende aplicar el algoritmo a las regiones que no contengan
cambios bruscos.
3. Se aplica el algoritmo de suavizado que se describe a
continuacin.
Se trabaja con el espectro como un esquema bidimensional, donde el
eje x es el tiempo yel eje y las frecuencias. Por cada punto se define un
rectngulo
(w'(r)
de
longitud
R,
y
se
calcula
98
1
dnk(B) = - a(n + entero(rcos(B,k + entero(rsen(B)w'(r)
,
R r=-oo
00
t =t-
1 8</J(t,j)
2n 8f
j'= _1 8</J(t,j)
2n
8t
t' (
t,ro) =t- R{STF~h(t,ro )STFT*2h(t,ro)}
ISTF~ (t ,ro)1
)
I{STFTDh (t ,ro )STFT* h(t ,ro)}'
ro ' (
t,ro = ro +
2
ISTF~(t,ro )1
99
100
5000
4000
3000
2000
1000
(A):
se9
0,1
0,2
0,3
0,4
se9
0,1
0.2
0,3
0,4
3000
2000
1000
(B):
0,1
101
5000 Hz
(C):
5e9
0,1
0,2
0,3
0,4
(D):
Figura 15. Comparacin de espectros de distinto tamao de ventana.
Corresponde a la secuencia 'ia '. Figura A: 37 muestras, figura B: 245
muestras, figura C: 90 muestras. Figura D: p aleta de colores utilizada.
102
5000Hz
4000Hz
3000Hz
2000Hz
lOOOH
103
seg .
7. CONCLUSIONES
Hemos descrito de una fonna general y prctica la Transfonnada de
Fourier para su uso correcto mediante la implementacin con ordenador,
mencionando el efecto que nos produce los distintos parmetros que
intervienen en el clculo de los espectros variantes en el tiempo.
Prcticamente en todas las referencias se habla de espectros en
banda ancha (300Hz) y banda estrecha(40Hz); algunos autores proponen
la combinacin de ambas. Pensamos que son herencia de los
espectrgrafos y recomendamos un tamao equivalente al periodo del
fundamental. Dependera de la voz en cuestin, pero sera vlido
considerar, despus de un conjunto de pruebas empricas, que 110Hz
104
podra ser una media vlida. Ello nos lleva a ventanas de 100 muestras
para un periodo de muestreo de 11025Hz. El nmero de ceros que
recomendamos es rellenar hasta 256. Elegimos esta cifra por se
fcilmente computable mediante la Transformada Rpida de Fourier.
La ventana tipo Hamming es la que mejores resultados nos ha dado
y es la utilizada en general por todas la publicaciones.
El aspecto general de los espectros es muy ruidoso, y los mtodos
utilizados para realzarlos no consiguen el nivel de calidad deseable.
Consideramos que este es un tema importante y que existen muchos
aspectos por investigar. El espectro es una herramienta muy importante
para el estudio de la fontica acstica y por lo tanto es un campo de
inters para una mayor investigacin.
8. REFERENCIAS
[Aug94] F. Auger & P. Flandrin, "Then Why and How of TimeFrequency Reassignment", IEEE Symp. On Time-Frequency and
Time-ScaleAnalysis, octubre 1994, pp. 197-200.
[Bri88] E. O. Brigham, The Fast Fourier Translorm and it{; Applications,
Prentice-Hall, Gran Bretaa, 1988.
[Bri95] R. Briston-Johnson, "A detailed Analysis of a time-domain
format-corrected pitch-shifting algorithm", 1. Audio Eng. Soc., vol.
43(5), mayo 1995, pp. 340-352.
[Coh89] L. Cohen, "Time-Frequency Distributions - A Review", Proc.
IEEE, vol. 77(7), julio 1989, pp. 941-981.
[Coo93] M. Cooke, S. Beet & M. Crawford, Visual Representations 01
Speech Signals, Wiley, Inglaterra, 1993.
[Cha95] V. R. Chari & C. Y. Espy-Wilson, "Adaptative Enhancement o
Fourier Spectra", IEEE Trans. Speech and Audio Processing, vol.
3(1), enero 1995, pp. 35-39.
105