Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Fonética acústica
Introducción
El ánimo de ofrecer un manual básico sobre fonética acústica que incluya ejemplos de
lenguas peruanas nació del gran trabajo de Aída Mendoza y María C. Chavarría en su
libro Manual de fonética (1988). En ese texto, aunque su fin no era tipológico, se
incluyó distintos tipos de sonidos de lenguas peruanas para la enseñanza de la
producción articulatoria de estos. Las lecciones que presentaremos comparten ese
mismo espíritu de las investigadoras, pero enfocado en el aspecto acústico del habla1.
En esta primera lección, hemos elaborado una presentación suscinta sobre fonética
acústica. Aquí exponemos conceptos claves y terminología que se utiliza en este campo.
Además, presentamos las herramientas que nos ayudan a extraer e interpretar la
información acústica. Además, hemos diseñado esta lección en un formato pregunta-
respuesta para facilitar la búsqueda de conceptos que probablemente no sean familiares
si recién se empieza a indagar sobre esta área. Esta lección es solo de consulta básica.
Para profundizar sobre los temas, se recomienda recurrir a la bibliografía que
presentamos al final.
1
Estamos infinitamente agradecidos con nuestros amigos Edgar Pastor, Guillermo Mogoma, Ignacia
Villafranca, Pablo Andrade, Rosa Andrade, Emperatriz Torres y José Mamani. Sin ustedes, no
hubiésemos podido realizar estas lecciones. Por otro lado, agradecemos al Ministerio de Educación por
permitirnos usar los datos que recopilamos durante el proceso de normalización del alfabeto ocaina
(MINEDU, 2016); además, un especial agradecimiento a nuestros colegas que nos proporcionaron sus
datos, pues han sido muy valiosos para la formulación de estas lecciones. María C. Chavarría (ese eja),
Jairo Valqui (nomatsiguenga) y Erika Shicshi (quechua collao y aimara sureño). Los datos del castellano
hablado en Lima, resígaro y el quechua de Áncash nos pertenecen.
Esta es una rama de la Física que estudia la producción (o generación), transmisión y
percepción del sonido. Según Miyara (1999), dentro de esta área existen subdisciplinas
como la psicoacústica, acústica musical, acústica fonética, etc.
Es una rama de la fonética que se encarga del estudio de las propiedades físicas de los
sonidos del habla. Martínez y Fernández (2013) dicen que «si se estudian las
modificaciones establecidas en el medio elástico [el aire] en que se transmiten los
sonidos articulados por el emisor, se tratará de la fonética acústica» (p. 13).
Existe una relación entre la articulación y el aspecto físico de los sonidos del habla;
por lo tanto, podemos interpretar la información articulatoria en términos acústicos. Esta
práctica es recurrente en las descripciones fonéticas en la actualidad, por ser una fuente
más confiable y objetiva ya que se prescinde del oído del investigador.
Probablemente, usted haya acertado; sin embargo, también, corre el riesgo de que el
símbolo no corresponda al sonido en cuestión. Elías-Ulloa (2011), tras un análisis
acústico riguroso, halló que el shipibo posee una consonante bilabial africada [b β] (un
sonido muy raro en las lenguas del mundo) que tradicionalmente se representaba como
una consonante fricativa bilabial [β].
¿Qué es el sonido?
2
Es aquel espacio que permite el paso de energía.
La onda sonora es una perturbación que se propaga a través de un medio elástico de
modo que las moléculas se mueven de manera oscilante (Gonzales, 1971). El medio
elástico que nos interesa es el aire. Este está compuesto por pequeñas partículas que se
juntan y se separan cuando el movimiento de la onda sonora fluctúa a través de este
medio.
Existen dos tipos ondas sonoras: longitudinales y transversales. Las primeras son
llamadas así porque las vibraciones de las partículas del medio oscilan paralelamente en
la dirección de la propagación de la onda (Van der Merwe, 1970; Sears y Zemansky,
1972). Las ondas transversales se realizan cuando el movimiento de las partículas es de
manera perpendicular. Debemos agregar que el sonido no puede existir sin un medio
elástico, pues las ondas sonoras no pueden transportarse en el vacío.
Ahora bien, imaginemos un tubo cuyo interior está lleno de pequeñas partículas de
aire. Estas se encuentran en un estado de reposo3, pero dinámico, en otras palabras, las
moléculas no están quietas, sino están moviéndose por todas las direcciones 4. La Figura
1 nos ofrece una ilustración ideal del comportamiento de las partículas en un tubo.
Figura 1
Figura 2
3
Miraya (1999, p. 2) explica que es más un estado de equilibrio dinámico ya que las partículas están
moviéndose caóticamente, pero homogéneamente dentro del tubo.
4
Es debido a la agitación térmica (Rocamora, 2006, p. 1).
Comportamiento de partículas de aire perturbadas por ondas sonoras
Figura 3
Cresta
A B Eje temporal
Valle
La onda sonora está sobre un eje temporal y el tiempo que se emplea para completar una
oscilación completa (A-B) se denomina periodo (T). La unidad física que se usa para
5
Los puntos que se exponen en este apartado están basados en los trabajos de Martínez (1986), Quilis
(2010) y Obediente (2007).
medir el periodo es el segundo (s). Asimismo, existe una relación matemática
importante entre la frecuencia y el periodo que se resume en las siguientes fórmulas:
(i)
1
F=
T
(ii)
1
T=
F
Figura 4
Figura 5
Existe dos tipos de ondas: periódicas y aperiódicas. Las ondas periódicas son aquellas
que tienen ciclos repetitivos. Estas tienen subclases: simples (puras) y complejas. Las
ondas sonoras simples son oscilaciones senoidales sencillas. Una fuente que genera este
tipo de onda es un péndulo o un diapasón de horquilla. En cambio, las ondas complejas
están formadas por varias ondas simples superpuestas de distintas frecuencias. La
fonación, por ejemplo, genera esta clase de ondas. Finalmente, las ondas aperiódicas o
ruido se caracterizan por presentar ciclos irregulares sin ningún patrón; por ejemplo, una
turbina de un avión o los sonidos fricativos como [s].
Figura 6
Ondas simples
Figura 7
Ondas
complejas
periódicas
Ondas
aperiódicas
¿Qué es un armónico?
Según el teorema de Fourier, una onda compleja está formada por una serie de ondas
simples superpuestas (Ladefoged, 1995; Miyara, 1999; Obediente, 2007). Estas tienen el
nombre de armónicos. Además, el primer armónico tiene el nombre de frecuencia
fundamental.
Tabla 1
¿Qué es la resonancia?
La teoría de la fuente y filtro, desarrollada por Gunner Fant, postula que la señal
acústica tiene su origen en una fuente, es decir, el lugar donde se origina el sonido
básico, para luego ser modificada (modulada) por un filtro (Lieberman, 1984;
Lieberman y Blumstein, 1988; Harrington y Cassidy, 1999). En plano de la articulación,
las cuerdas vocales serían la fuente donde se origina el sonido básico y este es
modulado por un filtro el cual es la configuración que adopta el tracto oral.
La interacción entre el flujo del aire emitido por el pulmón y las cuerdas vocales
origina que estas se abran y se cierren. Es en esta sucesión de apertura y cierre que se
genera un tren de pulsos glóticos, es decir, una señal (cuasi) periódica [sonido básico].
En la Figura 8, se presenta las oscilaciones que generan las cuerdas vocales.
Figura 8
Luego, el tren de pulsos glóticos llega al tracto vocal. Este funciona como amplificador
de ciertas regiones de la señal y también como filtro que deja pasar algunas frecuencias
y atenúa a otras. Ahora bien, estas dos funciones dependen de cómo se configure todo el
tracto vocal incluyendo a la lengua al momento de emitir cualquier sonido, por ejemplo,
[i], [ɨ], [u], etc.
En la Figura 9, en (A), se muestra el espectro de la fuente cuya frecuencia
fundamental es de 100 Hz. Obsérvese que la amplitud disminuye a lo largo de las
frecuencias6; en (B), un filtro que representa la configuración del tracto vocal para una
vocal neutra cuyos formantes ideales son 500 Hz, 1500 Hz y 2500 Hz. Finalmente, en
(C), el espectro de (A) aparece modificado si el filtro es aplicado. Nótese que se han
formado picos [formantes] y algunas zonas de frecuencias han disminuido debido al
filtro aplicado.
Figura 9
Hasta aquí hemos presentado un tipo de fuente llamada periódica donde interviene la
vibración de las cuerdas vocales. En este grupo, se encuentran las vocales y consonantes
sonoras, pero ¿dónde estarían ubicados los sonidos sordos? Esta clase de sonidos no
tienen su fuente en los pliegues vocales, sino en un punto específico del tracto vocal.
En estos sonidos, por tanto, no existe un tren de pulsos glotales, sino una señal
aleatoria (ruido blanco). Al llegar a algún punto del tracto vocal, se genera un sonido no
periódico. A este tipo de fuente se le conoce como aperiódica porque genera ruido.
Existen dos tipos: impulsional, donde hay una explosión y continua donde hay
turbulencia.
Las fuentes y los filtros se pueden combinar de distintas maneras generando así toda
la gama de sonidos del habla que conocemos. En la Tabla 2, se muestra un resumen de
las combinaciones. Para finalizar este apartado, la teoría de la fuente y el filtro es el
sostén de toda la fonética acústica.
6
Esta puede explicarse mediante la siguiente premisa: la amplitud es inversamente proporcional a 1/F 2.
Tabla 2
¿Qué es un formante?
¿Cuáles son las herramientas para analizar a los sonidos del habla acústicamente?
Por ejemplo, las oscilaciones de la Figura 10 nos indica que la vocal [a], pronunciada
por un hablante del castellano hablado en Lima, posee ondas periódicas complejas.
Además, podemos extraer información como, la duración de un sonido, la intensidad,
etc., aunque tiene limitaciones ya que no podemos obtener datos de otros constituyentes
del sonido complejo, por ejemplo, armónicos, formantes, etc. En este caso, se recurre al
análisis espectral.
Figura 10
Figura 11
Primer armónico
Sexto armónico
Décimo armónico
7
Transformada rápida de Fourier
Figura 12
El FTT de banda estrecha (Figura 11) nos muestra a todos los armónicos a manera de
ondas simple de una onda compleja, incluyendo sus amplitudes y frecuencias. En
cambio, el FTT de banda ancha (Figura 12) nos provee la forma que han adoptado los
armónicos a lo largo de las frecuencias mediante una línea envolvente. Podemos
combinar a ambas:
Figura 13
F3
F4
Aunque los espectros FFT nos den una idea muy clara sobre dónde están ubicados los
formantes (véase la Figura 13), no son adecuados para obtener sus medidas precisas
(Ladefoged, 2003). En este caso, se recurre a otro tipo de espectro que se encarga de
esta tarea.
El espectro LPC (Linear Predictive Coding)8 consiste en una línea curva (o
envolvente) que predice los picos de mayor amplitud que representan al centro de los
formantes (Martínez, 2007). En la Figura 14, se muestra un espectro LPC donde se
señalan los formantes y sus valores correspondientes.
Figura 14
F1= 708 Hz
F2= 1239 Hz
F3= 2585 Hz
F4= 3495 Hz
El espectro LPC no es indiferente a los espectros FFT. En las Figuras 15 y 16, hemos
superpuesto a la Figura 14 en las Figuras 11 y 12 para observar la relación entre estos
espectros.
Figura 15
8
Codificación por predicción lineal
Figura 16
Según Ladefoged (2003), la primera es de ayuda para observar a los formantes. Estos
se muestran como líneas gruesas que representan la concentración de energía en una
frecuencia determinada. La segunda es adecuada para observar los armónicos por
separado.
F2
F1
En cambio, en la Figura 18, se observa cada uno de los armónicos como líneas
horizontales en su frecuencia, a diferencia de los gráficos FFT de banda estrecha que
presentan a los armónicos de manera vertical. En adición, también podemos visualizar a
los formantes, pero no con precisión.
Figura 18
F2
F1
Nosotros recomendamos que realice sus estudios acústicos a través del programa Praat
porque es completamente gratuito y por su capacidad extraordinaria de analizar,
procesar y graficar los datos con mucha precisión. Una prueba son los gráficos que
hemos presentado en estas dos lecciones sobre fonética acústica.
¿Qué es Praat?
Praat9 es un programa creado por Paul Boersma y David Weenik para el análisis
acústico del habla. Este software es fácil de transportar ya que podemos llevarlo y
ejecutarlo desde un ordenador hasta en una memoria; es multiplataforma ya que hay
versiones para los diversos sistemas operativos; es gratuito y es actualizado
constantemente.
Este software tiene muchas funcionalidades como, por ejemplo, análisis acústico,
etiquetado y segmentación (por medio de objetos TextGrids), experimentos perceptuales
(para trabajos de fonética auditiva), aprendizaje de algoritmos, estadística, síntesis de
habla, scripts, manipulación del habla y gráficos.
9
Se puede descargar desde a siguiente dirección: http://www.fon.hum.uva.nl/praat/
AUTOEVALUACIÓN
I. Complete:
a. Física acústica + sonidos del habla =
b. Fuente aperiódica continua + periódica =
c. Cuerdas vocales + forma del tracto vocal =
1. El sonido consiste en
a. Vibraciones
b. Ondas
c. Variaciones de presión
2. No se visualiza en el osciligrama
d. Formantes
e.Tiempo
f. Intensidad
3. No es un resonador
a. Cavidad oral
b. Cuerdas vocales
c. Cavidad nasal
III. Complete las siguientes oraciones
VI. Señale los formantes 1 y 2 del siguiente espectrograma y si es posible indique a qué
vocal del español corresponde:
Lección 2
Introducción
Ahora bien, los valores obtenidos se pueden representar de distintas formas. Las dos
más comunes son en una tabla de formantes (formant table) o en una carta de formantes
(formant chart). Los valores que se presentan en ambas son los promedios de los
formantes de cada vocal.
Antes de ordenar los datos en un cuadro, el lector debe saber que hay factores que
influyen en los valores formánticos. Si se está trabajando con colaboradores hombres y
mujeres, se debe separar los promedios por género como lo muestra el Tabla 3. Esto se
debe a que los valores formánticos varían ligeramente debido a sus cavidades orales.
Tabla 3
Vocal Sexo F1 F2
Nota. Según Martínez, en torno a las vocales del español: análisis y reconocimiento (1995).
Interpretaremos los valores del Tabla 3. En los hombres, la vocal que posee el F1 más
bajo es [i] con 313 Hz y la vocal que posee el F1 más alto es [a] con 699 Hz. A partir de
aquí, se crean dos extremos en cuanto la altura; por tanto, la vocal [i] es alta (la más
alta) y la vocal [a] es baja (la más baja).
Veamos otro ejemplo. En las mujeres, la vocal que posee el F2 más alto es [i] con
2685 Hz y la vocal que tiene el F2 más bajo es [u] con 937 Hz. Nuevamente, se crean
dos extremos, en cuanto la posición horizontal de la lengua; por lo tanto, [i] es una vocal
anterior y [u] es una vocal posterior.
En cuanto las vocales [e] y [o], el F1 de estas no se aproximan a los valor de [i] ni de
[a] para ser considerados altas o bajas; por ello, se las cataloga como vocales medias. El
F2 de [e], en ambos sexos, indica que se trata de una vocal anterior. Finalmente, el F2
de [o], en ambos sexos, señala que se trata de una vocal posterior.
Figura 19
HOMBRES
MUJERES
Por otro lado, podemos observar las diferencias entre las vocales emitidas por
hombres y mujeres debido a que sus cavidades orales son distintas (las vocales
pronunciadas por las mujeres ocupan mayor espacio que las de los varones).
Finalmente, nótese que se ha podido caracterizar a las vocales del español con solo la
información de los dos primeros formantes; sin embargo, hay lenguas donde se
necesitaría del tercer formante.
Hemos analizado de dos maneras los formantes de las vocales; sin embargo, existen
otros métodos que se usan para presentar estudios más detallados. Estos son los
espectros FFT, LPC y espectrogramas que ya hemos presentado en la lección 1:
Fonética acústica.
El espectro LPC nos ayuda a observar la estructura formántica mediante picos. Toda
vocal posee una forma de la línea curva en particular. Hemos visto cómo son los picos
de la vocal [a] en la Figura 14, ahora presentaremos a los formantes como picos de
mayor amplitud de la vocal [i] en la Figura 20.
Figura 20
El espectrograma también es una herramienta útil para observar los formantes y los
movimientos (transiciones) que estos presentan al estar en contacto con las consonantes
que las rodean. Pueden ser identificados fácilmente pues son partes muy oscuras
debido a la concentración de energía. En la Figura 21, señalamos el F1 y F2 de cada
vocal:
Figura 21
F2
F2
F2
F1 F2 F2
F1 F1 F1 F1
Hasta aquí solo hemos trabajado con una clase de vocales; sin embargo, las lenguas
pueden presentar otras que tienen distinta fonación, por ejemplo, vocales sordas, vocales
laringalizadas, entre otras. También podemos hallar vocales nasales. Pero ¿cómo las
identificamos acústicamente?
Las vocales sordas se producen sin la vibración de las cuerdas vocales y en términos
acústicos es ausencia de energía. En lenguas como el ese eja (Chavarría, 1973) y el
asháninka de El Gran Pajonal (Romani, 2004), encontramos vocales ensordecidas no
distintivas a diferencia de las lenguas Ik (kuliak) y Dafla (tibetano) (Maddieson, 1984).
Las vocales laringalizadas se realizan con una vibración lenta y aperiódica. Esta
característica se refleja como estrías verticales anchas en el espectrograma. El ocaina
(huitoto) presenta estas vocales, pero no son fonológicas, sino debido al contacto que
estas tienen con la oclusiva glotal [ʔ].
En la Figura 23, observamos la diferencia entre una vocal laringalizada y una vocal
con fonación modal. La vocal [ḭ] se ha realizado con pulsos glotales lentos, por ello,
observamos estrías verticales un poco más anchas. En cambio, la otra vocal [ì]10 no
presenta anomalía alguna debido a que ha sido realizada como cualquier otra vocal
normal (modal).
Ahora bien, la vocal [ḭ] en [bḭ.t͡sì.ɾi.ko] fue producto de la fusión entre /i/ y /ʔ/, pero
también podemos encontrar una forma donde ambos segmentos mantienen su
independencia: /biʔt͡sìɾiko/ → [biʔ.t͡sì.ɾi.ko]. Esta interacción entre vocales y la glotal
también se observa en lenguas como el shipibo y el capanahua (lenguas pano) (Elías-
Ulloa, 2016).
10
El diacrítico [`] indica tono bajo.
Figura 23
Las vocales nasales se producen con el velo hacia abajo donde la resonancia fluye
tanto por la cavidad oral como la cavidad nasal. Las lenguas pueden presentar contrastes
entre vocales orales y vocales nasales, como también vocales nasalizadas a causa de
procesos fonológicos como la lengua arabela (Rich, 1963).
En la Figura 24, observamos una elevación del F1 de la vocal [ã], pronunciada por un
hablante del arabela (záparo), que está adyacente a la consonante nasal alveolar; sin
embargo, el F1 de la [a] no ha sufrido alteración al estar junto a una consonante
oclusiva. Entonces, a partir de aquí tenemos el indicio para reconocer una vocal
nasalizada.
Figura 24
F1
F1
Para terminar esta sección, es necesario advertir que no existen valores absolutos en
los análisis acústicos. Por ejemplo, los valores de la Tabla 3 solo son promedios
referenciales y no quiere decir que las otras variedades del castellano tengan que
coincidir. Eso no es solo para las vocales, sino también para los demás sonidos del
habla.
Si el lector desea realizar un estudio completo y preciso sobre las vocales debe
considerar que el tracto vocal no es el único factor que afecta a los valores formánticos,
sino también el acento, la posición silábica (inicio de palabra, intermedio de palabra o
final de palabra), la nasalidad, el tipo de fonación, etc.
Las consonantes oclusivas se caracterizan por presentar un cierre completo entre los
articuladores, obstruyendo el paso del aire para luego liberarlo. Presentan tres fases:
implosión (los articuladores activos se dirigen hacia al punto de articulación); oclusión
(cerrazón total de los articuladores) y explosión (salida abrupta del aire).
De las tres fases articulatorias señaladas, se tiende a analizar las dos últimas fases.
Podemos identificar la oclusión y la explosión de una consonante oclusiva mediante un
oscilograma, así, también, a través de un espectrograma. Veamos el oscilograma de
Figura 25 de una palabra que contiene consonantes oclusivas bilabiales sordas: las
oclusivas bilabiales no presentan sonoridad en la fase del cierre total; por tanto, no hay
oscilaciones y lo notamos como una línea horizontal sin ninguna perturbación. Podemos
identificar la explosión ya que se muestra como la primera alteración (aperiódica) en
forma de pico, como lo señalamos arriba.
Figura 25
Explosión
Explosión
Oclusión
Oclusión
Silencio Silencio
Las vibraciones de las cuerdas vocales de las oclusivas sonoras están reflejadas en el
oscilograma como oscilaciones periódicas regulares (véase Figura 27). En el
espectrograma, la sonoridad está representada como la llamada barra de sonoridad
(véase Figura 27): un componente armónico que aparece en bajas frecuencias (Herrera,
1997)
Figura 27
En los gráficos, las consonantes oclusivas sordas y sonoras son muy parecidas
aparentemente. En la Figura 28, se muestra dos consonantes oclusivas [t̪ ] y [k] que
poseen silencio y barra de explosión, pero no tenemos algún indicio que nos advierta
que una es dental y otra es velar.
Figura 28
Las oclusivas se pueden diferenciar unas con otras con parámetros acústicos. Estos son
la duración de la oclusión, duración la barra de explosión, la frecuencia del pico de
mayor amplitud de la barra de la explosión, VOT (Voice Onset Time) y las transiciones.
En adelante, solo nos centraremos en el VOT.
El VOT (Voice Onset Time), propuesto por Lisker y Abramson (1964), es el intervalo
de tiempo entre la explosión y el comienzo de la vibración de las cuerdas vocales (Lin y
Hang, 2011).
Lisker y Abramson (1964), en un estudio donde analizaron 11 lenguas, demostraron
que el VOT es una característica que diferencia las consonantes oclusivas sordas y
sonoras. Además de ello, dieron pautas para el análisis del VOT como también otros
factores que influyen cuando se analice una lengua determinada.
En el caso del español, las consonantes sonoras tendrán un VOT negativo y las
consonantes sordas, un VOT positivo. Por ejemplo, en la Figura 29, la sonoridad de la
consonante [d̪], pronunciada por un hablante del castellano hablado en Lima, empezó -
58 ms antes de la barra de explosión, pero en [t̪ ], las cuerdas vocales comenzaron a
vibrar 13 ms después de la explosión.
Figura 29
VOT de las consonantes oclusivas dentales [d̪] y [t̪ ] en la palabra [ˈda.to] ‘dato’
VOT VOT
Barra de Barra de
explosión explosión
13 ms
-58 ms
Por otro lado, en el español, la sonoridad de las oclusivas sonoras empieza en el mismo
momento de la fase de oclusión (véase las Figuras 27 y 29), pero en lenguas como el
inglés, las cuerdas vibran mucho después de esta fase. Este factor y otros se toman en
cuenta cuando se analiza el VOT (Lisker y Abramson, 1964; Ladefoged y Cho, 1999).
Figura 30
Aspiración
Barra de explosión
Las oclusivas eyectivas se realizan con una corriente de aire glotal egresivo. En estas, el
aire se encuentra atrapado entre la oclusión en la cavidad oral y la glotis cerrada. Luego,
la laringe se eleva comprimiendo el aire aproximadamente el doble de la presión
pulmonar normal para luego ser liberado fuertemente (Ladefoged y Maddieson, 1996).
Como la producción de una consonante eyectiva implica dos cierres totales, habrá,
por ende, dos explosiones y entre ellas un vacío. El aimara, una lengua andina hablada
en Bolivia, Perú y Chile, presenta tres series de oclusivas: simples, aspiradas y eyectivas
fonológicas (Huayhua, 2001). Presentamos el siguiente ejemplo:
Figura 31
Segunda explosión
Primera explosión
En la Figura 31, la consonante eyectiva [pʼ], pronunciada por un hablante del aimara
hablado en Puno-Perú, presenta dos explosiones: la primera corresponde a la que se
desató en la zona anterior, es decir, bilabial, alveolar, etc. y la segunda, a la que ocurrió
en la zona glotal. También, se evidencia un vacío entre las dos explosiones. Compárese
con la oclusiva glotal [ʔ] del ocaina (Agnew y Pike, 1956) en la Figura 32.
Figura 32
Una primera división para este grupo tiene que ver con la sonoridad. Mientras que las
fricativas sordas se producen mediante una fuente aperiódica continua (fricción
producida en el tracto vocal), las fricativas sonoras combinan a aquella fuente con otra
periódica (vibración de las cuerdas vocales) simultáneamente.
Figura 34
Turbulencia
Barra de sonoridad
Las consonantes fricativas, también se pueden dividir entre estridentes y no estridentes.
Para Ladefoged y Maddieson (1996) y Johnson (2003), los sonidos sibilantes o
estridentes se producen debido al chorro de aire originado por la estrecha constricción
que choca contra los dientes superiores.
Podemos considerar a [s], [z], [ʃ], [ʒ] como sibilantes o estridentes. Contrariamente,
las fricativas no estridentes son las bilabiales, labiodentales, interdentales, palatales,
velares, uvulares, faríngeas y glotales (Ladefoged y Maddieson, 1996). Acústicamente,
las fricativas estridentes poseen mayor energía que las no estridentes.
Figura 35
Los siguientes parámetros ayudan a describir a las fricativas: frecuencia del pico más
alto, intensidad, transiciones, duración, centro de gravedad y la configuración espectral.
Para nuestros propósitos, sólo trabajaremos con la frecuencia del pico más alto de
intensidad. Este parámetro se puede estudiar mediante gráficos FFT y LPC.
Hemos dicho que la energía acústica de las consonantes fricativas aparece dispersa o
aleatoria, aparentemente sin ningún orden como pasa en las vocales; pero el lugar
donde esta clase de sonidos concentra su energía presenta un patrón regular. Para
obtener esta información, se recurre al análisis espectral para hallar la frecuencia del
pico más alto.
Por ejemplo, en los espectros de la Figura 36 y Figura 37 los picos más altos de
intensidad de la fricativa alveolar sibilante sorda [s] y la fricativa labiodental no
sibilante sorda [f] se encuentran cerca a los 7300 Hz y 3400 Hz respectivamente. Cabe
señalar que la frecuencia del pico más alto nos provee información del punto de
articulación en esta clase de sonidos (Johnson, 2003).
Figura 36
Figura 37
Espectro LPC superpuesto al espectro FFT (banda estrecha) de [f] en la palabra [fu.
ˈt̪ u.ɾo] ‘futuro’
2.4. Características acústicas de las consonantes africadas
Para Ladefoged y Johnson (2010, p. 67), una africada es una oclusiva seguida por una
fricativa homorgánica. Esta clase de sonidos posee tres fases: oclusión, explosión y
fricción. Maddieson (1984) precisa que la africada [t͡ʃ] es la más común en las lenguas
del mundo seguida por la africada alveolar [t͡s].
Figura 38
Barra de explosión
Turbulencia
Silencio
Barra de explosión
Turbulencia
Silencio
Las africadas sonoras presentan una fuente periódica, es decir, vibración de las cuerdas
vocales y a esta la podemos visualizar como la barra de sonoridad en el espectrograma.
El ocaina presenta africadas sordas y sonoras (Agnew y Pike, 1956). Entre las sonoras,
están la alveolar y la palatoalveolar las cual presentamos a continuación en la Figura 40:
Figura 40
Barra de
sonoridad
2.5. Características acústicas de las consonantes nasales
Las consonantes nasales se producen cuando el velo del paladar desciende y hay un
cierre total en algún punto de la cavidad oral de modo que el aire pasa a través de las
fosas nasales (Ladefoged y Johnson, 2010; Catford, 2001). A pesar de que esta clase de
sonidos se parece a las oclusivas y aproximantes, es un modo articulación distinta a
aquellas.
Desde el punto de vista acústico, estos sonidos presentan formantes al igual que las
vocales, pero con menor intensidad pues se realizan mediante una fuente periódica; es
decir, la vibración de las cuerdas vocales. Las consonantes nasales poseen un F1 bajo
que las caracteriza y este es llamado formante nasal (en adelante Fn1) (Johnson, 2003).
Los gráficos LPC son de gran ayuda para identificar la frecuencia del formante nasal.
En la Figura 41, se muestran los picos de mayor intensidad de las consonantes nasales.
Los F1 de estos sonidos presentan frecuencias bajas (por debajo de los 300 Hz) en
comparación con la vocales (véase la Tabla 3).
El Fn1 de las tres nasales presenta valores muy parecidos esto es así porque no hay
ninguna obstrucción en la cavidad nasal; por este motivo, el F n1 de cualquier
consonante nasal «… permanece virtualmente invariable…» (Elías-Ulloa, 2011, p. 137).
Aparte del caso del castellano que presentamos aquí, puede verse en el shipibo (Elías-
Ulloa, 2011) y el arabela (Jiménez, 2018).
Figura 41
Fn1= 258 Hz
A las consonantes nasales se les puede identificar a través de un espectrograma por el
murmullo nasal o sonido nasal. Este es una consecuencia que corresponde a la fase de la
consonante nasal donde el tracto oral está cerrado y el aire pasa por la cavidad nasal
(Harrington, 2010, p.113).
Elías-Ulloa (2011, p. 136) dice que el murmullo nasal presenta menor energía debido
la estructura de la cavidad nasal pues esta absorbe principalmente las frecuencias más
altas de modo que existe una pérdida de energía que se presenta como manchas blancas
en el espectrograma a partir de los 1000 Hz.
En la Figura 42, las nasales [m], [ɲ] y [n] aparecen con menor energía acústica que
las vocales que están adyacentes. Por otro lado, las consonantes nasales se caracterizan
por presentar antiresonancias (reflexión de las resonancias de la cavidad oral hacia la
cavidad principal laríngeo-nasal) o ceros que son picos negativos en el espectro.
Figura 42
Formante
Formante
nasal
nasal Formante nasal
Fn1
En la Figura 43, hemos superpuesto al espectro LPC al espectro FFT para observar el
contraste entre los formantes y antiformantes de la consonante nasal. El primer formante
aparece como pico en el LPC y el primer antiformante aparece como valle que forma al
espectro FFT entre los 500 y 1000 Hz como lo señala la flecha gruesa. Cabe señalar que
el primer antiformante provee información del punto de articulación en las consonantes
nasales (Harrington, 2010).
Existen otros gráficos que nos ayudan a localizar con mayor precisión a los
antiformantes. Por ejemplo, Johnson (2003) aplica un método llamado autoregressive
moving average analysis y Martínez (2007) utiliza el espectro cepstrum11. En adición,
podemos observar a los antiformantes como líneas blancas horizontales en un
espectrograma en la Figura 44:
11
Jiménez (2018) aplica este método para la identificación de los antiformantes de las consonantes
nasales del arabela.
Figura 44
Las lenguas del mundo presentan una variedad de nasales con distinto tipo de fonación
entre ellas están las sonoras, sordas, laringalizadas y con voz murmurada. El resígaro
(Arawak) es una lengua peruana que posee una distinción entre consonantes nasales
sonoras y sordas (Allin, 1976). Veamos un ejemplo en la Figura 45: la consonante [m̥ ]
presenta escasa energía. Además, no existe barra de sonoridad puesto que las cuerdas
vocales no vibraron, ni estriaciones que representan a los pulsos glotales que son
comunes en los sonidos sonantes (véase las nasales y vocales de la Figura 42).
Figura 45
Estas consonantes se realizan con una oclusión parcial en el centro de la cavidad oral de
manera que el aire escapa por un lado, o por ambos, de la boca. Esta clase de sonidos
presentan varios tipos, entre ellas, aproximantes, fricativas, africadas, laringalizadas,
etc. (Maddieson, 1984).
En la Figura 46, los F1, F2 y F3 de las consonantes laterales presentan menor negror
(tonalidad gris) a comparación de los formantes de las vocales adyacentes. Los F1 y F2
de las laterales se encuentran en frecuencias relativamente cercanas a los dos primeros
formantes de las vocales. Además, el F3 de las [l] concuerda con el F3 de las vocales.
Figura 46
F3
F3
F3
F3 Antiformantes
F2 Antiformantes
F2
F2 F2
F1
F1
F1
F1
Asimismo, en la Figura 46, las laterales presentan antiformantes. Estos son originados
por la oclusión parcial en el centro de la cavidad oral (similar a las nasales) y los
podemos observar como líneas blancas horizontales entre el F2 y F3. Ahora veamos el
antiformante de [l] mediante el siguiente gráfico en la Figura 47 (la flecha señala la
zona del antiformante):
Figura 47
Esta variedad del quechua también posee otra consonante lateral la cual es palatal. En la
Figura 48, [ʎ] posee las mismas características de una consonante lateral, pero ¿cómo
diferenciarla de [l] acústicamente? La clave está en el F2 y en sus transiciones con las
vocales: [l] posee un F2 menor (1641 Hz) a diferencia de [ʎ] (2560 Hz).
Figura 48
F2
F1
Estos sonidos, también llamados r-sounds, se producen con una o varias oclusiones muy
breves de modo que el contacto se vuelve como un golpe (o golpes) rápido entre el
articulador activo y pasivo. Tradicionalmente, las consonantes laterales y las róticas
forman un grupo llamado líquidas.
La [ɾ], en el la Figura 49, presenta una fase cerrada y un elemento vocálico que no
podemos visualizar con exactitud. En cambio, en la Figura 50, sí se puede visualizar tal
elemento cuando [ɾ] está en posición coda. Adicionalmente, se puede visualizar los
formantes de este elemento vocálico
Figura 49
Figura 50
Formantes
Finalmente, [r] presenta tres fases cerradas y tres elementos vocálicos como lo muestra
la Figura 51. El último elemento vocálico posee formantes que se encuentran en
distintas frecuencias que las de las vocales. Por último, se observa que cada oclusión de
la vibrante posee barra de explosión a excepción de la primera.
Figura 51
Barras de explosiones
Formantes
Cabe resaltar que las semiconsonantes son sonidos «…transitorios de y hacia una
vocal adyacente» (Olive et al, 1993 y Raphael et al, 2007 como se cita en Elías-Ulloa,
2011). Ahora bien, se llaman transitorios porque son producto del paso de una
articulación de un sonido a otro rápidamente12.
12
Esta explicación es complementaria a lo que Gil (1988, p. 92) dice: «la semiconsonante es una
articulación a medio camino entre consonántica y vocálica».
en contraste a los de las vocales, a consecuencia de la constricción. Asimismo, las
glides se caracterizan por tener estrías verticales como cualquier otro sonido sonante.
Las Figuras 52 y 53 muestran a tres semiconsonantes del español [j], [w] y [β̞] que
son alófonos de /i/, /u/ y /b/ respectivamente. Para empezar, es complicado realizar una
segmentación adecuada para esta clase de sonidos (Harrington y Cassidy, 1999) así que
hemos tratado de colocar fronteras que no necesariamente coindicen con el inicio o
final.
Figura 52
F1
F2
Figura 53
F2
F2
F1 F1
Las tres semiconsonantes presentan menos energía que las vocales adyacentes, pero
tienen las mismas características, por ejemplo, formantes, estrías verticales y la ausencia
de fricción. El F1 de todas es bajo, en cambio, el F2 de [j] es alto (semejante a [i]) en
comparación de [w] y [β̞]. A partir del F2, se puede identificar al punto de articulación.
BIBLIOGRAFÍA