Está en la página 1de 14

Anlisis espectrogrfico

Juan Byron

Resumen
En principio se presenta una descripcin escueta de la fontica y su objeto de estudio.
A seguida se establece una clasificacin de esta disciplina. Posteriormente, se define,
tambin de forma escueta, la fontica articulatoria y la perceptiva. Luego se define la
fontica acstica y algunos de los programas informticos que se emplean para los
anlisis acsticos. Despus se presentan los medios de almacenamiento de los sonidos
del habla. Finalmente, se describen el espectrograma y sus clases.

Palabras clave: fontica acstica, espectrograma, armnico, formante.

Introduccin
La fontica es la disciplina que se encarga del estudio de los sonidos lingsticos
(fonos), sin tomar en cuenta su carcter distintivo, lo que corresponde a la fonologa. El inters de la fontica es el estudio de los sonidos desde el punto de vista fsico y fisiolgico.
La fontica se encuentra dividida en tres ramas: la articulatoria o fisiolgica, la
acstica y la perceptiva. La primera se encarga del estudio de los rganos articulatorios, de la descripcin de los sonidos que resultan de la actividad de estos
rganos y de la clasificacin de los sonidos lingsticos, en tanto que la perceptiva es una rama ligada a la psicologa y se encarga del estudio de los sonidos
desde el punto de vista del oyente.

Por otro lado, la fontica acstica se encarga del estudio de las propiedades fsicas de los sonidos lingsticos, de su estructura acstica. Para ello se apoya en
un conjunto de conceptos de la fsica acstica y se vale de dispositivos electrnicos, que en aos recientes han sido sustituidos por programas informticos,
como el Speech Analyzer, el WaveSurfer, el Speech Filing System y el Praat,
que pueden instalarse en cualquier computadora con al menos 1 GB de memoria
RAM y un procesador, como, por ejemplo, Athlon II x2 de AMD o core 2 duo
de Intel.
En la actualidad, los sonidos lingsticos, como todos los sonidos, pueden grabarse, guardarse o almacenarse en memorias USB, en discos compactos o
DVDs, en grabadoras digitales, en los antiguos casetes, en el disco duro de una
computadora o en un disco duro externo. Luego estos archivos fnicos, a travs
de uno de los programas de anlisis del habla (el Speech Analyzer es muy recomendable), deben convertirse en ficheros Wav en caso de que ya no estn convertidos para que puedan recuperarse, modificarse y analizarse por medio de
estos programas de anlisis del habla. Algunos programas reconocen ficheros
Mp3, aiff, voc, au, wma, entre otros.
Actualmente, la fontica acstica se vale de una serie de anlisis para el estudio
de los fonos o sonidos del habla. Uno de los anlisis ms utilizados es el espectrogrfico o sonogrfico.

1. Espectrograma
Un espectrograma o sonograma se puede definir como una sucesin de espectros. Es la representacin de las variaciones de la frecuencia en la ordenada (eje
vertical: abajo-arriba) de la seal sonora a lo largo del tiempo en la abscisa (eje
horizontal: izquierda-derecha). Tambin se puede decir que el espectrograma
corresponde a la distribucin frecuencial (espectro) de la seal (eje vertical) registrada en funcin del tiempo (eje horizontal).
La escala de la frecuencia, medida en Hz o KHz (hercios o kilohercios), puede
variarse generalmente desde los 3500 Hz (para un estudio ms detallado de las
vocales) hasta los 11,000 Hz (para estudiar las consonantes). En relacin con el
tiempo, la escala puede estar dividida en segundos o milisegundos.

El anlisis espectrogrfico o sonogrfico involucra en todo caso una ventana


temporal. Esta ventana es la parte de la onda lingstica objeto de observacin
en un momento dado con el propsito de determinar sus componentes frecuenciales.
Los espectrogramas se clasifican en espectrogramas de banda estrecha (con filtro de 45 Hz) y de banda ancha (con filtro de 300 Hz). Incluso el programa de
anlisis del habla Speech Analyzer permite un espectrograma de banda media
(con filtro de 172 Hz), en tanto que el WaveSurfer permite una variacin continua del ancho de los formantes. Otro tanto sucede con el Praat, pero la variacin
del ancho de banda se realiza, en este caso, mediante la asignacin de un valor
numrico (por ejemplo, 0.004 o 4 ms) a la longitud de la ventana (window
length).
A diferencia del espectro, el anlisis espectrogrfico o sonogrfico es un anlisis
de las propiedades dinmicas de los sonidos del habla, puesto que se desarrollan
a travs del tiempo.

2. Espectrograma de banda estrecha


En el anlisis de banda estrecha se usa un ancho de banda de 45 Hz y una ventana de aproximadamente 100 milisegundos. Por tanto, en esta clase de espectrogramas se observan lneas negras muy finas que corren de izquierda a derecha y
que corresponden a los armnicos o sobretonos, que son mltiplos de la frecuencia fundamental.
La modificacin de la amplitud de los armnicos est determinada por el fenmeno de la resonancia. Todo cuerpo tiene una frecuencia de vibracin propia
(frecuencia de resonancia) y tiende a resonar cuando recibe una onda que coincide con su frecuencia de vibracin natural. En el caso de las cavidades, como la
cavidad bucal o la farngea, la forma y la dimensin de estas producen una modificacin del tono larngeo mediante el fenmeno de la resonancia. Una cavidad
pequea refuerza los armnicos de alta frecuencia, en tanto que una cavidad
grande refuerza los armnicos de baja frecuencia.

Los sonidos que se producen por la vibracin de las cuerdas vocales presentan
una estructura armnica. Esta estructura generalmente se muestra con claridad
en los espectrogramas de banda estrecha.
En el espectrograma de banda estrecha, al igual que en el de banda ancha, en la
dimensin vertical se muestra la frecuencia, que parte desde el fondo del grfico
y corresponde a la frecuencia cero. Como se sabe, la unidad de medida de la frecuencia en el Sistema Internacional es el hercio o hertcio (Hz), que se define
como un ciclo por segundo o una vibracin por segundo.
En la dimensin horizontal (de izquierda a derecha) se presenta el tiempo, medido actualmente en milsimas de segundo o milisegundos. Generalmente, la duracin de los segmentos oscila entre unos pocos milisegundos y 200 milisegundos para los sonidos ms largos, como, por ejemplo, las vocales.
En la figura 2.1 se muestra un espectrograma de banda estrecha de la palabra
tremendo [tremdo], pronunciada por un hablante dominicano de sexo
masculino. El espectrograma se obtuvo con el programa Speech Analyzer, de
SIL International, de Estados Unidos. En el grfico es posible observar una serie
de lneas finas negras que corren de izquierda a derecha. Estas lneas son los
armnicos o mltiplos del tono fundamental. El armnico ms bajo es el
fundamental o primer armnico (F0). El fundamental de una onda peridica
compleja es igual al mximo comn denominador de sus componentes
frecuenciales.
Tambin se observa que algunas lneas son ms oscuras que otras. Estas lneas
ms oscuras son los armnicos reforzados por las resonancias del tracto vocal.
Asimismo, se observan variaciones de las lneas o armnicos. La razn de estos
cambios es la variacin del tono larngeo.

Fig. 2.1. Espectrograma de banda estrecha de tremendo.

En la figura 2.2 se muestra el espectrograma o sonograma de banda estrecha de


la palabra cosa [ksa]. En este caso, el programa utilizado para lograr el
espectrograma es el Speech Filing System (SFS), del Colegio Universitario de
Londres.

Fig. 2.2. Espectrograma de banda estrecha de la palabra cosa.

Las vibraciones de las cuerdas vocales desarrollan una estructura armnica


claramente visible, que se observa como un conjunto de lneas finas negras.
Estas lineas finas negras corresponden a los armnicos de los sonidos
peridicos. Los armnicos del primer sonido peridico (segundo en el grfico)
corresponden a la vocal posterior media [o], mientras que los del segundo
sonido peridico (el ltimo segmento) corresponden a la vocal central baja [a].
Pero tambin es posible observar dos zonas inarmnicas, en las que no aparecen
lneas horizontales separadas. La razn de esta falta de armonicidad es la
presencia de toda clase de frecuencias, no solo mltiplos del fundamental. La

primera zona inarmnica corresponde a la explosiva velar sorda o fona [k], en


tanto que la segunda corresponde a la fricativa predorsoalveolar sorda [s].

En la figura 2.3 se presenta el espectrograma de banda estrecha de la secuencia


un sancocho [un sako]. Esta vez el programa utilizado para obtener el
espectrograma es el Praat, de la Universidad de Amsterdam. Los primeros
armnicos son los que ms se destacan, ya que son los de mayor intensidad.

Fig. 2.3. Espectrograma de banda estrecha de un sancocho.

3. Espectrograma de banda ancha

En el anlisis de banda ancha se emplea un filtro de 300 Hz y una ventana de


cerca de 5 milisegundos, lo que permite una buena resolucin temporal, pero no
frecuencial. De ah que los espectrogramas de banda ancha se vean como bandas
de frecuencia mucho ms anchas que las de los armnicos. Estas bandas horizontales oscuras se denominan formantes.
Los formantes son las frecuencias que caracterizan el timbre de una vocal. Son
las resonancias asociadas con las cavidades del tracto vocal. Constituyen el reforzamiento de la amplitud de grupos de armnicos situados alrededor de una
determinada frecuencia, lo que significa que el formante, que generalmente posee un ancho de banda de 300 Hz (espectrograma de banda ancha) no es una frecuencia nica, sino un conjunto de frecuencias. Por tanto, las mediciones de los
formantes no son absolutas, sino estadsticas, y en todo caso, se procura obtener
la frecuencia central del formante.
Los sonidos que son producidos por la vibracin de las cuerdas vocales presentan una estructura formntica. Adems de las vocales existen otros sonidos con
estructura formntica, como las nasales, las aproximantes, las laterales y las rticas.
La caracterizacin de las vocales se realiza mediante los tres primeros formantes. En espaol bastan los dos primeros, debido a que las vocales posteriores
siempre son bemolizadas o redondeadas.
En los espectrogramas de banda ancha tambin es posible distinguir los pulsos
glotales, que se ven como lneas verticales oscuras que ocurren una detrs de
otra durante la realizacin de las vocales y los sonidos peridicos.
Un espectrograma de banda ancha de la secuencia es a la tcnica [es a la
tnika], realizada por un comunicador dominicano, se presenta en la figura 3.1.
En el espectrograma, logrado mediante el programa WaveSurfer, es posible
observar los formantes de los sonidos peridicos y las estras que caracterizan a
estos sonidos. Se observa que el segundo segmento, la consonante fricativa
predorsoalveolar fona [s] carece de estas lneas verticales porque en su
realizacin no se producen pulsos glotales.

En este espectrograma, el primer segmento corresponde a la vocal [e], y


claramente se distinguen los tres primeros formantes. Despus de la [s] se
observan los formantes de la vocal central baja [a], que se encuentra solapada
con la lateral [l] y la segunda vocal [a]

Fig. 3.1. Espectrograma de banda ancha de es a la tcnica.

En la figura 3.2 se muestra un espectrograma de banda ancha de la secuencia de


lleno en lo que es [de yno en lo ke es], realizada por un profesor universitario
dominicano. El programa empleado para la obtencin del espectrograma es el

WaveSurfer. En el grfico es posible observar 14 segmentos, la mayora peridicos. Solo la interrupta velar fona [k] y la fricativa predorsoalveolar fona [s]
son aperidicos. Es importante destacar la fase oclusiva y la fase explosiva
barra de explosin del segmento velar fono, as como la turbulencia de la fricativa, cuya frecuencia de inicio se sita a unos 3,500 hercios.

Fig. 3.2. Espectrograma de banda ancha de la secuencia de lleno en lo que es.

Otro espectrograma o sonograma, en este caso obtenido mediante el programa


WaveSurfer, de la Universidad de Estocolmo, se presenta en la figura 3.3. En el
grfico es posible observar las estras verticales, que representan los pulsos glotales de los sonidos peridicos, que constituyen casi todos los segmentos de la

10

secuencia acerca del mtodo [aska el mtoo], realizada por un comunicador


dominicano de sexo masculino. Solo la fricativa predorsoalveolar fona [s] y la
interrupta dental fona [t] son aperidicas y, en consecuencia, carecen de pulsos
glotales. Es una caracterstica de la fricativa el inicio de la concentracin de la
energa por encima de los 3,500 hercios. En el caso de la interrupta es posible
observar la fase oclusiva, al inicio de la consonante, y la barra de explosin, que
sigue a la oclusin.

Fig. 3.3.

Finalmente, en la figura 3.4 se presenta un espectrograma de banda ancha de la


secuencia corteza terrestre [kotsa terste], realizada por un comunicador dominicano. Esta secuencia, que se obtuvo mediante el programa Speech Filing
System (SFS), consta de 15 segmentos: 9 consonnticos y 6 voclicos. Es importante sealar que cuatro de los segmentos consonnticos son interruptos: el

11

primero es una consonante velar fona [k] y tres son consonantes dentales fonas [t]. Estas consonantes presentan durante su tensin una fase oclusiva. Estas
oclusiones se manifiestan en el espectrograma como trechos carentes de energa
o zonas carentes de formantes, que estn sealadas con flechas en el grfico.
Adems, hay tres rticas: una vibrante simple y dos vibrantes mltiples. Asimismo, es importante indicar que se observan dos fricativas predorsoalveolares
fonas [s]. Al igual que en los casos anteriores, la frecuencia de inicio de la
turbulencia de estas consonantes se encuentra por encima de los 3,500 hercios.
En el caso de las vocales, cabe sealar que en la secuencia aparecen una
posterior media [o], tres anteriores medias [e] y una central baja [a].

Fig. 3.4 Espectrograma de banda ancha de la secuencia corteza terrestre

12

Conclusin

El anlisis espectrogrfico o sonogrfico es una de las herramientas de la fontica acstica ms empleadas. Complementado con el anlisis oscilogrfico, el anlisis espectrogrfico permite la medicin de la duracin de los segmentos, de su
intensidad y de sus valores frecuenciales. Asimismo, permite observar las transiciones, que son los movimientos que se producen en los formantes o los cambios
de frecuencia de estos.
Bsicamente hay dos tipos de espectrogramas: el de banda estrecha y el de banda ancha. Sin embargo, existen programas que permiten la obtencin de un espectrograma de banda media o una variacin continua del ancho de los formantes.
Una caracterstica importante del anlisis espectrogrfico es su carcter dinmico, ya que se desarrolla a travs del tiempo. En cambio, el anlisis espectral presenta un carcter esttico, es decir, no toma en cuenta el tiempo.

13

Referencias

Baart, Joan. 2010. A Field Manual of Acoustic Phonetic. SIL International, Dallas, Texas.
Byron, J. 2012. Manual de fontica acstica. Ed. Somos Literatura, Santo Domingo.
Denes, P. y Pinson, E. 1973. The Speech Chain: The Physics and Biology of
Spoken Language. Anchor Books, New York.
Malmberg, B. 1964. La fontica. EUDEBA, Buenos Aires.
Malmberg, Bertil. 1974. Lingstica estructural y comunicacin humana. Gredos, Madrid.
Martnez, E. 2007. Anlisis espectrogrfico de los sonidos del habla. Ariel, Barcelona.
Quilis, A. 1981. Fontica acstica de la lengua espaola. Ed. Gredos, Madrid.

14

También podría gustarte