Está en la página 1de 53

Lección 1

Fonética acústica

Introducción

El ánimo de ofrecer un manual básico sobre fonética acústica que incluya ejemplos de
lenguas peruanas nació del gran trabajo de Aída Mendoza y María C. Chavarría en su
libro Manual de fonética (1988). En ese texto, aunque su fin no era tipológico, se
incluyó distintos tipos de sonidos de lenguas peruanas para la enseñanza de la
producción articulatoria de estos. Las lecciones que presentaremos comparten ese
mismo espíritu de las investigadoras, pero enfocado en el aspecto acústico del habla1.

En las lecciones anteriores de este libro, se ha tratado lo concerniente a la fonética


articulatoria donde se presenta la configuración de los órganos que intervienen para la
producción de los sonidos del habla en distintas lenguas; no obstante, la información
articulatoria también puede ser interpretada desde el punto de vista físico. Por ello,
hemos visto necesario agregar dos lecciones para presentar algunos conceptos básicos
acerca de la fonética acústica y cómo es que por medio de esta podemos analizar la
estructura física de los sonidos del habla.

En esta primera lección, hemos elaborado una presentación suscinta sobre fonética
acústica. Aquí exponemos conceptos claves y terminología que se utiliza en este campo.
Además, presentamos las herramientas que nos ayudan a extraer e interpretar la
información acústica. Además, hemos diseñado esta lección en un formato pregunta-
respuesta para facilitar la búsqueda de conceptos que probablemente no sean familiares
si recién se empieza a indagar sobre esta área. Esta lección es solo de consulta básica.
Para profundizar sobre los temas, se recomienda recurrir a la bibliografía que
presentamos al final.

¿Qué es la física acústica?

1
Estamos infinitamente agradecidos con nuestros amigos Edgar Pastor, Guillermo Mogoma, Ignacia
Villafranca, Pablo Andrade, Rosa Andrade, Emperatriz Torres y José Mamani. Sin ustedes, no
hubiésemos podido realizar estas lecciones. Por otro lado, agradecemos al Ministerio de Educación por
permitirnos usar los datos que recopilamos durante el proceso de normalización del alfabeto ocaina
(MINEDU, 2016); además, un especial agradecimiento a nuestros colegas que nos proporcionaron sus
datos, pues han sido muy valiosos para la formulación de estas lecciones. María C. Chavarría (ese eja),
Jairo Valqui (nomatsiguenga) y Erika Shicshi (quechua collao y aimara sureño). Los datos del castellano
hablado en Lima, resígaro y el quechua de Áncash nos pertenecen.
Esta es una rama de la Física que estudia la producción (o generación), transmisión y
percepción del sonido. Según Miyara (1999), dentro de esta área existen subdisciplinas
como la psicoacústica, acústica musical, acústica fonética, etc.

¿Qué es la fonética acústica?

Es una rama de la fonética que se encarga del estudio de las propiedades físicas de los
sonidos del habla. Martínez y Fernández (2013) dicen que «si se estudian las
modificaciones establecidas en el medio elástico [el aire] en que se transmiten los
sonidos articulados por el emisor, se tratará de la fonética acústica» (p. 13).

Existe una relación entre la articulación y el aspecto físico de los sonidos del habla;
por lo tanto, podemos interpretar la información articulatoria en términos acústicos. Esta
práctica es recurrente en las descripciones fonéticas en la actualidad, por ser una fuente
más confiable y objetiva ya que se prescinde del oído del investigador.

¿Por qué usar su oído no sería confiable?

Le recordamos que usted ya tiene un sistema fonológico interiorizado y este va a


intervenir cuando analice los sonidos de otra lengua auditivamente. Supongamos que
durante su análisis escuche un sonido parecido a uno de los suyos y decide asignarle el
mismo símbolo fonético que usa frecuentemente para representar al suyo.

Probablemente, usted haya acertado; sin embargo, también, corre el riesgo de que el
símbolo no corresponda al sonido en cuestión. Elías-Ulloa (2011), tras un análisis
acústico riguroso, halló que el shipibo posee una consonante bilabial africada [b β] (un
sonido muy raro en las lenguas del mundo) que tradicionalmente se representaba como
una consonante fricativa bilabial [β].

¿Qué es el sonido?

El sonido es el objeto de estudio de la física acústica como también el de la fonética


acústica, pero enfocado a los sonidos que sirven para la comunicación humana. Hay
varias definiciones sobre este fenómeno, pero asumiremos uno que es recurrente en los
estudios de esta índole. El sonido consiste en variaciones de presión en un medio
elástico2 causadas por las vibraciones de un cuerpo (Martínez, 1986; Hansen, 2013).

¿Qué es una onda sonora?

2
Es aquel espacio que permite el paso de energía.
La onda sonora es una perturbación que se propaga a través de un medio elástico de
modo que las moléculas se mueven de manera oscilante (Gonzales, 1971). El medio
elástico que nos interesa es el aire. Este está compuesto por pequeñas partículas que se
juntan y se separan cuando el movimiento de la onda sonora fluctúa a través de este
medio.

Existen dos tipos ondas sonoras: longitudinales y transversales. Las primeras son
llamadas así porque las vibraciones de las partículas del medio oscilan paralelamente en
la dirección de la propagación de la onda (Van der Merwe, 1970; Sears y Zemansky,
1972). Las ondas transversales se realizan cuando el movimiento de las partículas es de
manera perpendicular. Debemos agregar que el sonido no puede existir sin un medio
elástico, pues las ondas sonoras no pueden transportarse en el vacío.

Ahora bien, imaginemos un tubo cuyo interior está lleno de pequeñas partículas de
aire. Estas se encuentran en un estado de reposo3, pero dinámico, en otras palabras, las
moléculas no están quietas, sino están moviéndose por todas las direcciones 4. La Figura
1 nos ofrece una ilustración ideal del comportamiento de las partículas en un tubo.

Figura 1

Partículas de aire en reposo dinámico dentro de un tubo

Si el medio elástico es perturbado por vibraciones, véase la Figura 2, las moléculas se


moverán hacia misma dirección de la onda sonora; en este caso, hacia la derecha. El
movimiento oscilatorio provocará un empuje y este será la causa de que en ciertas
regiones las moléculas se acumulen mucho entre ellas y en otras estén esparcidas.

A la acumulación de moléculas se le denomina compresión (o condensación) que es


una zona de alta presión. Por otra parte, en las áreas donde las moléculas están
esparcidas se le conoce como rarefacción (enrarecimiento o dilatación) que corresponde
una zona de baja presión.

Figura 2
3
Miraya (1999, p. 2) explica que es más un estado de equilibrio dinámico ya que las partículas están
moviéndose caóticamente, pero homogéneamente dentro del tubo.
4
Es debido a la agitación térmica (Rocamora, 2006, p. 1).
Comportamiento de partículas de aire perturbadas por ondas sonoras

¿Cuáles son las características de la onda sonora?5

A partir de una onda simple representada en el oscilograma de la Figura 3, podemos


extraer las cualidades más importantes de una onda sonora. Para empezar, a la posición
más alta de una onda se le conoce como cresta y la más baja como valle.

La ida y la vuelta (A-B) corresponden a una oscilación completa. A partir de aquí


podemos hablar sobre la frecuencia (F), el número total de oscilaciones (como A-B) por
una unidad de tiempo. La unidad física que se utiliza para medir la frecuencia es el
Hercio (Hz) que es un ciclo por segundo.

Figura 3

Características de la onda sonora

Cresta

A B Eje temporal

Valle
La onda sonora está sobre un eje temporal y el tiempo que se emplea para completar una
oscilación completa (A-B) se denomina periodo (T). La unidad física que se usa para

5
Los puntos que se exponen en este apartado están basados en los trabajos de Martínez (1986), Quilis
(2010) y Obediente (2007).
medir el periodo es el segundo (s). Asimismo, existe una relación matemática
importante entre la frecuencia y el periodo que se resume en las siguientes fórmulas:

(i)

1
F=
T

(ii)

1
T=
F

Donde F es frecuencia y T es tiempo

Supongamos que el tiempo de un número de oscilaciones es 0.002272727 s. Si


reemplazamos este valor en la fórmula (i), tendremos la frecuencia que es 440 Hz. De la
misma manera, si tenemos la frecuencia que es 440 Hz y queremos hallar el tiempo,
reemplazamos los valores de la fórmula (ii), el tiempo será 0.002272727 s.

Otro elemento de la onda es la amplitud, también llamada, valor de pico. Esta es la


distancia máxima alcanzada entre el punto más estable (o de reposo) y la parte más
alejada de la onda. Además, la amplitud se expresa en decibelios (dB), una unidad física
relacionada a la intensidad del sonido. En la Figura 4, presentamos un gráfico donde se
señala la amplitud como ejemplo.

Figura 4

Amplitud de una onda

La última propiedad que presentaremos es la longitud de onda (λ). Esta es la distancia


real entre dos crestas o dos valles (también en otros puntos de la oscilación)
consecutivas que están en la misma posición relativa, tal como se muestra en la Figura
5.

Figura 5

Longitud de una onda

¿Cuáles son los tipos de ondas sonoras?

Existe dos tipos de ondas: periódicas y aperiódicas. Las ondas periódicas son aquellas
que tienen ciclos repetitivos. Estas tienen subclases: simples (puras) y complejas. Las
ondas sonoras simples son oscilaciones senoidales sencillas. Una fuente que genera este
tipo de onda es un péndulo o un diapasón de horquilla. En cambio, las ondas complejas
están formadas por varias ondas simples superpuestas de distintas frecuencias. La
fonación, por ejemplo, genera esta clase de ondas. Finalmente, las ondas aperiódicas o
ruido se caracterizan por presentar ciclos irregulares sin ningún patrón; por ejemplo, una
turbina de un avión o los sonidos fricativos como [s].

Figura 6

Ondas simples
Figura 7

Ondas complejas periódicas y ondas aperiódicas

Ondas
complejas
periódicas

Ondas
aperiódicas

¿Qué es un armónico?

Según el teorema de Fourier, una onda compleja está formada por una serie de ondas
simples superpuestas (Ladefoged, 1995; Miyara, 1999; Obediente, 2007). Estas tienen el
nombre de armónicos. Además, el primer armónico tiene el nombre de frecuencia
fundamental.

Las frecuencias de los armónicos son múltiplos enteros de la frecuencia fundamental


de la onda. La relación matemática que siguen es la siguiente: f, 2f, 3f, 4f. 5f, etc. Para
ofrecer un ejemplo, tomaremos las ondas del diapasón (Martínez, 1986, p. 43). Este
posee una frecuencia fundamental de 440 Hz.

Tabla 1

Frecuencias de los cinco primeros armónicos de un diapasón

Primer armónico 440 Hz

Segundo armónico 880 Hz

Tercer armónico 1320 Hz

Cuarto armónico 1760 Hz

Quinto armónico 2200 Hz

¿Qué es la resonancia?

Según Gil (1988), la resonancia es un «fenómeno por el cual un cuerpo, denominado


resonador y que posee una tendencia natural a vibrar a determinada frecuencia,
experimentará vibraciones de mayor amplitud cuando es puesto es movimiento por otro
cuerpo vibrante a una frecuencia similar» (p. 150).
En el plano articulatorio, las cuerdas vocales son la fuente donde se origina la
vibración y esta tiene la propiedad de hacer vibrar o excitar, según sus condiciones,
otros cuerpos que están ubicados en el tracto vocal: cavidad oral, nasal y faríngea. Estos
tres tienen el nombre de resonadores.

La principal función de un resonador es amplificar y atenuar frecuencias de un


determinado sonido. Gracias a ello, obtenemos la gama de sonidos humanos que
conocemos (Crystal, 2008). Sin embargo, un resonador, también, cumple una función
de filtro que disminuye la intensidad de algunas frecuencias.

¿Qué es una fuente y un filtro?

La teoría de la fuente y filtro, desarrollada por Gunner Fant, postula que la señal
acústica tiene su origen en una fuente, es decir, el lugar donde se origina el sonido
básico, para luego ser modificada (modulada) por un filtro (Lieberman, 1984;
Lieberman y Blumstein, 1988; Harrington y Cassidy, 1999). En plano de la articulación,
las cuerdas vocales serían la fuente donde se origina el sonido básico y este es
modulado por un filtro el cual es la configuración que adopta el tracto oral.

La interacción entre el flujo del aire emitido por el pulmón y las cuerdas vocales
origina que estas se abran y se cierren. Es en esta sucesión de apertura y cierre que se
genera un tren de pulsos glóticos, es decir, una señal (cuasi) periódica [sonido básico].
En la Figura 8, se presenta las oscilaciones que generan las cuerdas vocales.

Figura 8

Onda de la señal (cuasi) periódica emitida por la glotis

Nota. Tomado de Lieberman y Blumstein (1988).

Luego, el tren de pulsos glóticos llega al tracto vocal. Este funciona como amplificador
de ciertas regiones de la señal y también como filtro que deja pasar algunas frecuencias
y atenúa a otras. Ahora bien, estas dos funciones dependen de cómo se configure todo el
tracto vocal incluyendo a la lengua al momento de emitir cualquier sonido, por ejemplo,
[i], [ɨ], [u], etc.
En la Figura 9, en (A), se muestra el espectro de la fuente cuya frecuencia
fundamental es de 100 Hz. Obsérvese que la amplitud disminuye a lo largo de las
frecuencias6; en (B), un filtro que representa la configuración del tracto vocal para una
vocal neutra cuyos formantes ideales son 500 Hz, 1500 Hz y 2500 Hz. Finalmente, en
(C), el espectro de (A) aparece modificado si el filtro es aplicado. Nótese que se han
formado picos [formantes] y algunas zonas de frecuencias han disminuido debido al
filtro aplicado.

Figura 9

Modelo de la fuente y el filtro en la producción del habla.

(A) (B) (C)

Nota. Tomado de Haskins Laboratories (2008)

Hasta aquí hemos presentado un tipo de fuente llamada periódica donde interviene la
vibración de las cuerdas vocales. En este grupo, se encuentran las vocales y consonantes
sonoras, pero ¿dónde estarían ubicados los sonidos sordos? Esta clase de sonidos no
tienen su fuente en los pliegues vocales, sino en un punto específico del tracto vocal.

En estos sonidos, por tanto, no existe un tren de pulsos glotales, sino una señal
aleatoria (ruido blanco). Al llegar a algún punto del tracto vocal, se genera un sonido no
periódico. A este tipo de fuente se le conoce como aperiódica porque genera ruido.
Existen dos tipos: impulsional, donde hay una explosión y continua donde hay
turbulencia.

Dependiendo de la configuración que adopte el tracto vocal, existen cuatro tipos de


filtros: fijo, donde no hay ninguna modificación, por ejemplo, las vocales; variable,
donde sí existe, por ejemplo, las oclusivas que tienen una fase cierre y explosión; oral,
resonancia solo en la cavidad oral y nasal, resonancia solo en la cavidad nasal.

Las fuentes y los filtros se pueden combinar de distintas maneras generando así toda
la gama de sonidos del habla que conocemos. En la Tabla 2, se muestra un resumen de
las combinaciones. Para finalizar este apartado, la teoría de la fuente y el filtro es el
sostén de toda la fonética acústica.

6
Esta puede explicarse mediante la siguiente premisa: la amplitud es inversamente proporcional a 1/F 2.
Tabla 2

Clasificación acústica de los sonidos del habla

Fuente Filtro Clase de sonido


Periódica Fijo, oral Vocales orales
Periódica Fijo, oral + nasal Vocales nasales
Periódica Variable, oral Diptongos
Aperiódica continua Fijo, oral Fricativas sordas
Aperiódica impulsional Variable, oral Oclusivas sordas
Aperiódica continua +
Fijo, oral Fricativa sonoras
periódica
Aperiódica impulsional +
Variable, oral oclusivas sonoras orales
periódica
Aperiódica impulsional +
Variable, oral + nasal Nasales sonoras
periódica
Aperiódica continua + Semivocales
Variable, oral
periódica laterales y róticas

Nota. Según Landercy y Renard (1977) como se cita en Llisterri (s.f).

¿Qué es un formante?

Un formante es una concentración de energía de los armónicos en una frecuencia


determinada (Gil, 1988, p. 148) ocasionada por las resonancias en el tracto vocal
(resonadores). También se le conoce como los picos más altos de intensidad en un
espectro. Los formantes 1, 2, y 3 son determinantes para los estudios sobre fonética
acústica.

¿Cuáles son las herramientas para analizar a los sonidos del habla acústicamente?

Empezaremos por presentar al oscilograma. Este es un gráfico que representa al sonido


como oscilaciones. Aquí podemos observar a las variaciones de la amplitud en función
del tiempo. El gráfico está constituido por dos ejes: la abscisa (horizontal) representa el
tiempo y la ordenada (vertical), la amplitud.

Por ejemplo, las oscilaciones de la Figura 10 nos indica que la vocal [a], pronunciada
por un hablante del castellano hablado en Lima, posee ondas periódicas complejas.
Además, podemos extraer información como, la duración de un sonido, la intensidad,
etc., aunque tiene limitaciones ya que no podemos obtener datos de otros constituyentes
del sonido complejo, por ejemplo, armónicos, formantes, etc. En este caso, se recurre al
análisis espectral.
Figura 10

Oscilograma de la vocal [a] en posición acentuada

Un espectro es una representación de la amplitud en función de la frecuencia cuyo


objetivo es descomponer el sonido en sus diversos componentes, armónicos, dentro del
dominio de la frecuencia. Ahora bien, como el tiempo no interviene aquí, se debe
seleccionar solo un punto específico de la onda compleja.

El gráfico de un espectro consiste en dos ejes: la abscisa representa a la frecuencia


(Hz) y la ordenada, la amplitud (dB). Un tipo de espectro es el FFT (Fast Fourier
Transform)7. Este muestra la composición de las amplitudes y frecuencias de los
armónicos del sonido complejo. Las Figuras 11 y 12 muestran dos tipos del espectro
FFT.

Figura 11

Espectro FFT de banda estrecha de la vocal [a] en posición acentuada

Primer armónico

Sexto armónico
Décimo armónico

7
Transformada rápida de Fourier
Figura 12

Espectro FFT de banda ancha de la vocal [a] en posición acentuada

El FTT de banda estrecha (Figura 11) nos muestra a todos los armónicos a manera de
ondas simple de una onda compleja, incluyendo sus amplitudes y frecuencias. En
cambio, el FTT de banda ancha (Figura 12) nos provee la forma que han adoptado los
armónicos a lo largo de las frecuencias mediante una línea envolvente. Podemos
combinar a ambas:

Figura 13

Espectros FFT de banda estrecha y ancha superpuestas


F1 F2

F3
F4

Aunque los espectros FFT nos den una idea muy clara sobre dónde están ubicados los
formantes (véase la Figura 13), no son adecuados para obtener sus medidas precisas
(Ladefoged, 2003). En este caso, se recurre a otro tipo de espectro que se encarga de
esta tarea.
El espectro LPC (Linear Predictive Coding)8 consiste en una línea curva (o
envolvente) que predice los picos de mayor amplitud que representan al centro de los
formantes (Martínez, 2007). En la Figura 14, se muestra un espectro LPC donde se
señalan los formantes y sus valores correspondientes.

Figura 14

Espectro LPC de la vocal [a] en posición acentuada

F1= 708 Hz

F2= 1239 Hz

F3= 2585 Hz
F4= 3495 Hz

El espectro LPC no es indiferente a los espectros FFT. En las Figuras 15 y 16, hemos
superpuesto a la Figura 14 en las Figuras 11 y 12 para observar la relación entre estos
espectros.

Figura 15

LPC superpuesto un espectro FTT de banda estrecha

8
Codificación por predicción lineal
Figura 16

LPC superpuesto a un espectro FTT de banda ancha

Los espectros nos ayudan a observar la representación frecuencial en un momento


específico de toda la onda sonora; sin embargo, ¿qué podría ocurrir si ubicamos al
tiempo en el dominio de la frecuencia? El resultado es una herramienta muy usada por
todos los fonetistas.

El espectrograma es un gráfico que representa las variaciones de la frecuencia (eje


de las ordenadas) en función del tiempo (eje de las abscisas). Este consiste en un
encadenamiento de espectros sucesivos, calculados por un método llamado Short-time
Fourier transform (Fulop, 2011), en pequeñas ventanas o tramos que se indexan.

El contenido del espectrograma representa la energía de la señal sonora en escalas de


grises; por tanto, si hay mayor energía, observaremos partes más oscuras y si hay menor
energía, partes más claras. Por otra parte, los espectrogramas más usados para el análisis
fonético son dos: banda ancha y de banda estrecha.

Según Ladefoged (2003), la primera es de ayuda para observar a los formantes. Estos
se muestran como líneas gruesas que representan la concentración de energía en una
frecuencia determinada. La segunda es adecuada para observar los armónicos por
separado.

En la Figura 17, no se muestran los armónicos, pero sí se puede observar energía


concentrada como líneas gruesas horizontales que son los formantes. Además, podemos
observar estrías verticales que representan a los pulsos glotales: las líneas negras indican
que las cuerdas están abiertas; en cambio, si las líneas son blancas, las cuerdas vocales
están cerradas.
Figura 17

Espectrograma de banda ancha de la vocal [a] en posición acentuada

F2

F1

En cambio, en la Figura 18, se observa cada uno de los armónicos como líneas
horizontales en su frecuencia, a diferencia de los gráficos FFT de banda estrecha que
presentan a los armónicos de manera vertical. En adición, también podemos visualizar a
los formantes, pero no con precisión.

Figura 18

Espectrograma de banda estrecha de la vocal [a] en posición acentuada

F2

F1

¿Hay programas que permitan realizar análisis acústicos?

En realidad, existen muchos. Algunos pueden comprarse; por ejemplo,


MacquirerX/PCquirerX de Scicon R y D. inc, CSL (Computerized Speech Laboratory)
de Kay Elem. S.A de New Jersey. Otros son libres como EMU, Speech Analizer (SIL),
los programas de University College London, Praat, entre otros.

¿Qué programa le recomendaríamos?

Nosotros recomendamos que realice sus estudios acústicos a través del programa Praat
porque es completamente gratuito y por su capacidad extraordinaria de analizar,
procesar y graficar los datos con mucha precisión. Una prueba son los gráficos que
hemos presentado en estas dos lecciones sobre fonética acústica.

¿Qué es Praat?

Praat9 es un programa creado por Paul Boersma y David Weenik para el análisis
acústico del habla. Este software es fácil de transportar ya que podemos llevarlo y
ejecutarlo desde un ordenador hasta en una memoria; es multiplataforma ya que hay
versiones para los diversos sistemas operativos; es gratuito y es actualizado
constantemente.

Este software tiene muchas funcionalidades como, por ejemplo, análisis acústico,
etiquetado y segmentación (por medio de objetos TextGrids), experimentos perceptuales
(para trabajos de fonética auditiva), aprendizaje de algoritmos, estadística, síntesis de
habla, scripts, manipulación del habla y gráficos.

9
Se puede descargar desde a siguiente dirección: http://www.fon.hum.uva.nl/praat/
AUTOEVALUACIÓN

I. Complete:
a. Física acústica + sonidos del habla =
b. Fuente aperiódica continua + periódica =
c. Cuerdas vocales + forma del tracto vocal =

II. Seleccione la opción correcta:

1. El sonido consiste en

a. Vibraciones
b. Ondas
c. Variaciones de presión

2. No se visualiza en el osciligrama
d. Formantes
e.Tiempo
f. Intensidad
3. No es un resonador
a. Cavidad oral
b. Cuerdas vocales
c. Cavidad nasal
III. Complete las siguientes oraciones

a. La acumulación de moléculas en una zona se denomina……………………….


b. La dispersión de moléculas en una zona se
llama…………………………………
c. Un onda simple es………………… y una onda
compuesta……………………….
d. El oscilograma es…………………………………………………………………

IV. Responda las siguientes preguntas

a. ¿Qué es la fonética acústica?


b. ¿Qué tipo de información ofrecen los espectrogramas de banda ancha y estrecha
c. ¿Cuáles son las características más importantes de la onda?
d. ¿Cuál es el periodo de una onda cuya frecuencia es de 1000 Hz?
e. Determine la frecuencia de una onda cuyo periodo es 0.01 s
f. Explique la diferencia entre onda periódica y onda aperiódica
g. Qué tipo de onda y por consiguiente a qué tipo de sonido (modo de articulación)
del habla correspondería el siguiente gráfico:

V. Escriba (V) si la proposición es verdadera y (F) si es falsa.

a. En el espectro FFT de banda estrecha, observamos a una envolvente ( )


b. En el LPC, podemos visualizar a todos los armónicos ( )
c. Podemos extraer información formántica a partir de un oscilograma ( )
d. Un espectrograma de banda estrecha nos facilita ver a los armónicos ( )

VI. Señale los formantes 1 y 2 del siguiente espectrograma y si es posible indique a qué
vocal del español corresponde:
Lección 2

Características acústicas de los sonidos del habla

Introducción

En esta lección, presentaremos la información articulatoria de los sonidos del habla


interpretada en términos acústicos haciendo uso de todas las herramientas expuestas en
la Lección 1: Fonética Acústica. Aquí buscamos (1) que el lector se familiarice con los
términos usados para los análisis acústicos; (2) presentarle la estructura acústica de los
sonidos; (3) que el lector pueda leer e interpretar los gráficos; (4) que pueda reconocer a
los sonidos del habla en un análisis espectrográfico con facilidad y (5) mostrarle la
gama de sonidos particulares que las lenguas peruanas presentan.

Ahora bien, hemos dividido en secciones según el modo de articulación, como lo


hacen los estudios tipológicos (Maddieson, 1984; Ladefoged y Maddieson, 1996), con
datos de lenguas originarias del Perú y del castellano hablado en Lima. En cada sección,
presentamos las definiciones articulatorias y, seguidamente, las relacionamos con el
aspecto físico. Además, se presentarán los puntos principales de cada sonido del habla
que son de interés para el análisis acústico. Finalmente, los ejemplos de lenguas
peruanas solo tienen un fin ilustrativo para generar el interés del investigador.

2.1. Características acústicas de las vocales

Las vocales se describen articulatoriamente bajo tres criterios: a) altura de la lengua, b)


posición horizontal de la lengua y c) redondeamiento de los labios. No obstante, la
mejor manera de realizar una caracterización de las vocales es describir sus propiedades
en términos acústicos. Estos criterios presentan correlatos acústicos llamados formantes.

Para una adecuada caracterización de las vocales, necesitamos la información de los


tres primeros formantes. Según Johnson (2003), la altura vocálica posee una correlación
inversamente proporcional con el Formante 1 (en adelante F1). Las vocales altas poseen
un F1 bajo; sin embargo, las vocales bajas, un F1 alto. Siguiendo al mismo autor, la
posición horizontal de la lengua, es decir, si la lengua se dirige hacia el paladar duro o
hacia el velo del paladar, está correlacionado con el Formante 2 (en adelante F2). Para
este caso, las vocales anteriores tienen un F2 alto y las vocales posteriores, un F2 bajo.

El redondeamiento de las vocales está correlacionado con el Formante 3 (en adelante


F3). Martínez (2007) explica que si una lengua distingue entre vocales redondeadas y no
redondeadas, recurriríamos a la información del F3. Ladefoged (2003) presenta un
estudio sobre las vocales en el sueco donde se hace uso de este formante.
El programa para el análisis acústico Praat nos permite extraer los valores de cada
formante que presenta una vocal determinada. Se puede realizar manualmente mediante
una serie de pasos o desde un script que automatice la extracción de los valores
masivamente. Posteriormente, se deberá obtener los promedios de cada formante.

Ahora bien, los valores obtenidos se pueden representar de distintas formas. Las dos
más comunes son en una tabla de formantes (formant table) o en una carta de formantes
(formant chart). Los valores que se presentan en ambas son los promedios de los
formantes de cada vocal.

Antes de ordenar los datos en un cuadro, el lector debe saber que hay factores que
influyen en los valores formánticos. Si se está trabajando con colaboradores hombres y
mujeres, se debe separar los promedios por género como lo muestra el Tabla 3. Esto se
debe a que los valores formánticos varían ligeramente debido a sus cavidades orales.

A continuación, presentamos un cuadro con los valores promediados del F1 y F2 de


las vocales del español de un estudio elaborado por Martínez (1995). Asimismo, cabe
resaltar que en este estudio participaron cinco varones y cinco mujeres universitarios
entre 20 y 30 que hablan castellano estándar.

Tabla 3

Tabla de formantes de las vocales del castellano

Vocal Sexo F1 F2

Hombres 313 Hz 2200 Hz


[i]
Mujeres 369 Hz 2685 Hz

Hombres 457 Hz 1926 Hz


[e]
Mujeres 576 Hz 2367 Hz

Hombres 699 Hz 1471 Hz


[a]
Mujeres 886 Hz 1712 Hz

Hombres 495 Hz 1070 Hz


[o]
Mujeres 586 Hz 1201 Hz

Hombres 349 Hz 877 Hz


[u]
Mujeres 390 Hz 937 Hz

Nota. Según Martínez, en torno a las vocales del español: análisis y reconocimiento (1995).
Interpretaremos los valores del Tabla 3. En los hombres, la vocal que posee el F1 más
bajo es [i] con 313 Hz y la vocal que posee el F1 más alto es [a] con 699 Hz. A partir de
aquí, se crean dos extremos en cuanto la altura; por tanto, la vocal [i] es alta (la más
alta) y la vocal [a] es baja (la más baja).

Veamos otro ejemplo. En las mujeres, la vocal que posee el F2 más alto es [i] con
2685 Hz y la vocal que tiene el F2 más bajo es [u] con 937 Hz. Nuevamente, se crean
dos extremos, en cuanto la posición horizontal de la lengua; por lo tanto, [i] es una vocal
anterior y [u] es una vocal posterior.

En cuanto las vocales [e] y [o], el F1 de estas no se aproximan a los valor de [i] ni de
[a] para ser considerados altas o bajas; por ello, se las cataloga como vocales medias. El
F2 de [e], en ambos sexos, indica que se trata de una vocal anterior. Finalmente, el F2
de [o], en ambos sexos, señala que se trata de una vocal posterior.

Probablemente, analizar los promedios de las vocales de la Tabla 3 en términos


numéricos, como lo hemos hecho, resulte complicado para quienes estén empezando.
Sin embargo, existe otra manera de interpretar los datos de esta tabla. Para ello, nosotros
podemos recurrir a la carta de formantes.

Esta es una representación de la relación entre el F1 y F2 en un gráfico. Consiste


básicamente en dos ejes de coordenadas donde la ordenada está representada por el F1 y
la abscisa por el F2. El espacio que la ordenada y la abscisa generan se le denomina
espacio acústico que es una representación de la cavidad oral.

La carta de formantes de la Figura 19 (gráfico creado desde Praat) nos provee de


una mejor interpretación de los promedios de los formantes. Los símbolos fonéticos
dentro del espacio acústico representan el punto donde se cortan las coordenadas. De
este modo, se hace más fácil la lectura de la posición de cada vocal.

Figura 19

Carta de formantes de los valores formánticos de la Tabla 3

HOMBRES
MUJERES
Por otro lado, podemos observar las diferencias entre las vocales emitidas por
hombres y mujeres debido a que sus cavidades orales son distintas (las vocales
pronunciadas por las mujeres ocupan mayor espacio que las de los varones).
Finalmente, nótese que se ha podido caracterizar a las vocales del español con solo la
información de los dos primeros formantes; sin embargo, hay lenguas donde se
necesitaría del tercer formante.

Hemos analizado de dos maneras los formantes de las vocales; sin embargo, existen
otros métodos que se usan para presentar estudios más detallados. Estos son los
espectros FFT, LPC y espectrogramas que ya hemos presentado en la lección 1:
Fonética acústica.

El espectro LPC nos ayuda a observar la estructura formántica mediante picos. Toda
vocal posee una forma de la línea curva en particular. Hemos visto cómo son los picos
de la vocal [a] en la Figura 14, ahora presentaremos a los formantes como picos de
mayor amplitud de la vocal [i] en la Figura 20.

Figura 20

Espectro LPC de la vocal [i] en posición acentuada

El espectrograma también es una herramienta útil para observar los formantes y los
movimientos (transiciones) que estos presentan al estar en contacto con las consonantes
que las rodean. Pueden ser identificados fácilmente pues son partes muy oscuras
debido a la concentración de energía. En la Figura 21, señalamos el F1 y F2 de cada
vocal:
Figura 21

F1 y F2 de las vocales del castellano limeño en un espectrograma

F2
F2

F2

F1 F2 F2
F1 F1 F1 F1

Hasta aquí solo hemos trabajado con una clase de vocales; sin embargo, las lenguas
pueden presentar otras que tienen distinta fonación, por ejemplo, vocales sordas, vocales
laringalizadas, entre otras. También podemos hallar vocales nasales. Pero ¿cómo las
identificamos acústicamente?

Las vocales sordas se producen sin la vibración de las cuerdas vocales y en términos
acústicos es ausencia de energía. En lenguas como el ese eja (Chavarría, 1973) y el
asháninka de El Gran Pajonal (Romani, 2004), encontramos vocales ensordecidas no
distintivas a diferencia de las lenguas Ik (kuliak) y Dafla (tibetano) (Maddieson, 1984).

En el nomatsiguenga (Arawak) hablado en la zona de Pangoa, se ha evidenciado que


la vocal [i] se ensordece cuando le precede [t͡s] (Jairo Valqui, comunicación personal,
07 de setiembre de 2017). En la Figura 22, presentamos a la vocal [i̥ ], pronunciada por
un hablante del nomatsiguenga. A pesar de que solo esté la fase de fricción de la
africada y no haya alguna estría vertical, se percibe auditivamente.
Figura 22

Espectrograma de la palabra [piɣ̞et͡si̥ ] ‘tu nariz’

Las vocales laringalizadas se realizan con una vibración lenta y aperiódica. Esta
característica se refleja como estrías verticales anchas en el espectrograma. El ocaina
(huitoto) presenta estas vocales, pero no son fonológicas, sino debido al contacto que
estas tienen con la oclusiva glotal [ʔ].

En la Figura 23, observamos la diferencia entre una vocal laringalizada y una vocal
con fonación modal. La vocal [ḭ] se ha realizado con pulsos glotales lentos, por ello,
observamos estrías verticales un poco más anchas. En cambio, la otra vocal [ì]10 no
presenta anomalía alguna debido a que ha sido realizada como cualquier otra vocal
normal (modal).

Ahora bien, la vocal [ḭ] en [bḭ.t͡sì.ɾi.ko] fue producto de la fusión entre /i/ y /ʔ/, pero
también podemos encontrar una forma donde ambos segmentos mantienen su
independencia: /biʔt͡sìɾiko/ → [biʔ.t͡sì.ɾi.ko]. Esta interacción entre vocales y la glotal
también se observa en lenguas como el shipibo y el capanahua (lenguas pano) (Elías-
Ulloa, 2016).

10
El diacrítico [`] indica tono bajo.
Figura 23

Espectrograma de la palabra /biʔt͡sìɾiko/ → [bḭ.t͡sì.ɾi.ko] ‘libélula’

Vocal voz modal


Vocal laringalizada

Las vocales nasales se producen con el velo hacia abajo donde la resonancia fluye
tanto por la cavidad oral como la cavidad nasal. Las lenguas pueden presentar contrastes
entre vocales orales y vocales nasales, como también vocales nasalizadas a causa de
procesos fonológicos como la lengua arabela (Rich, 1963).

En la Figura 24, observamos una elevación del F1 de la vocal [ã], pronunciada por un
hablante del arabela (záparo), que está adyacente a la consonante nasal alveolar; sin
embargo, el F1 de la [a] no ha sufrido alteración al estar junto a una consonante
oclusiva. Entonces, a partir de aquí tenemos el indicio para reconocer una vocal
nasalizada.
Figura 24

Espectrograma de la palabra /napa/ → [nã.pa] ‘papagayo’

F1
F1

Elías-Ulloa (2011) realizó un estudio exhaustivo acerca de la nasalización en shipibo. Él


sostiene que este proceso tiende a elevar el F1 de la vocal adyacente, por tanto, las
vocales nasales son más bajas que las vocales orales. En cuanto al arabela, la vocal [ã]
tiene un F1 de 843 Hz y la vocal [a], un F1 de 656 Hz. En conclusión, [ã] es más baja
que [a].

Para terminar esta sección, es necesario advertir que no existen valores absolutos en
los análisis acústicos. Por ejemplo, los valores de la Tabla 3 solo son promedios
referenciales y no quiere decir que las otras variedades del castellano tengan que
coincidir. Eso no es solo para las vocales, sino también para los demás sonidos del
habla.

Si el lector desea realizar un estudio completo y preciso sobre las vocales debe
considerar que el tracto vocal no es el único factor que afecta a los valores formánticos,
sino también el acento, la posición silábica (inicio de palabra, intermedio de palabra o
final de palabra), la nasalidad, el tipo de fonación, etc.

2.2. Características acústicas consonantes oclusivas

Las consonantes oclusivas se caracterizan por presentar un cierre completo entre los
articuladores, obstruyendo el paso del aire para luego liberarlo. Presentan tres fases:
implosión (los articuladores activos se dirigen hacia al punto de articulación); oclusión
(cerrazón total de los articuladores) y explosión (salida abrupta del aire).

De las tres fases articulatorias señaladas, se tiende a analizar las dos últimas fases.
Podemos identificar la oclusión y la explosión de una consonante oclusiva mediante un
oscilograma, así, también, a través de un espectrograma. Veamos el oscilograma de
Figura 25 de una palabra que contiene consonantes oclusivas bilabiales sordas: las
oclusivas bilabiales no presentan sonoridad en la fase del cierre total; por tanto, no hay
oscilaciones y lo notamos como una línea horizontal sin ninguna perturbación. Podemos
identificar la explosión ya que se muestra como la primera alteración (aperiódica) en
forma de pico, como lo señalamos arriba.

Figura 25

Oscilograma de la palabra [ˈpa.pa] ‘papa’

Explosión
Explosión

Oclusión
Oclusión

Podemos identificar las mismas fases que se hallan en la Figura 25 en el espectrograma


de la Figura 26. Como la oclusión no viene acompañada por la vibración de las cuerdas
vocales, entonces existe silencio (ausencia de sonoridad). Lo podemos notar como
espacios blancos. La tercera fase (explosión) la identificamos como la barra de
explosión, una zona muy pequeña de ruido. La oclusión puede estar acompañada con
sonoridad (vibración de las cuerdas vocales), una propiedad importante para esta clase
de sonidos ya que aquí podemos diferenciar las oclusivas sordas de las sonoras:
mientras las primeras presentan ausencia de sonoridad, las segundas no.
Figura 26

Espectrograma de la palabra [ˈpa.pa] ‘papa’

Barra explosión Barra explosión

Silencio Silencio

Las vibraciones de las cuerdas vocales de las oclusivas sonoras están reflejadas en el
oscilograma como oscilaciones periódicas regulares (véase Figura 27). En el
espectrograma, la sonoridad está representada como la llamada barra de sonoridad
(véase Figura 27): un componente armónico que aparece en bajas frecuencias (Herrera,
1997)

Figura 27

Oscilograma y espectrograma de palabra [ˈba.ba] ‘baba’

Barra de explosión Barra de explosión

Barra de sonoridad Barra de sonoridad


En la Figura 27, presentamos dos oclusivas bilabiales sonoras (pronunciación
controlada por un hablante del castellano hablado en Lima). Las características descritas
anteriormente se cumplen. Las barras de sonoridad de estas oclusivas sonoras están
aproximadamente por debajo de los 1000 Hz. También, en el espectrograma, podemos
hallar la barra de explosión de ambas consonantes aunque ligeramente más débil.

En los gráficos, las consonantes oclusivas sordas y sonoras son muy parecidas
aparentemente. En la Figura 28, se muestra dos consonantes oclusivas [t̪ ] y [k] que
poseen silencio y barra de explosión, pero no tenemos algún indicio que nos advierta
que una es dental y otra es velar.

Figura 28

Espectrograma de la palabra [ˈt̪ o.ka] ‘toca’

Las oclusivas se pueden diferenciar unas con otras con parámetros acústicos. Estos son
la duración de la oclusión, duración la barra de explosión, la frecuencia del pico de
mayor amplitud de la barra de la explosión, VOT (Voice Onset Time) y las transiciones.
En adelante, solo nos centraremos en el VOT.

El VOT (Voice Onset Time), propuesto por Lisker y Abramson (1964), es el intervalo
de tiempo entre la explosión y el comienzo de la vibración de las cuerdas vocales (Lin y
Hang, 2011).
Lisker y Abramson (1964), en un estudio donde analizaron 11 lenguas, demostraron
que el VOT es una característica que diferencia las consonantes oclusivas sordas y
sonoras. Además de ello, dieron pautas para el análisis del VOT como también otros
factores que influyen cuando se analice una lengua determinada.

Para medir el VOT, necesitaremos algunas pautas. El punto de referencia para


realizar las medidas es la explosión. Si la sonoridad inicia antes de la barra de
explosión, se dice que el VOT es negativo. En caso contrario, si la sonoridad comienza
después de la explosión, se dice que el VOT es positivo.

En el caso del español, las consonantes sonoras tendrán un VOT negativo y las
consonantes sordas, un VOT positivo. Por ejemplo, en la Figura 29, la sonoridad de la
consonante [d̪], pronunciada por un hablante del castellano hablado en Lima, empezó -
58 ms antes de la barra de explosión, pero en [t̪ ], las cuerdas vocales comenzaron a
vibrar 13 ms después de la explosión.

Figura 29

VOT de las consonantes oclusivas dentales [d̪] y [t̪ ] en la palabra [ˈda.to] ‘dato’

VOT VOT

Barra de Barra de
explosión explosión

13 ms
-58 ms

Por otro lado, en el español, la sonoridad de las oclusivas sonoras empieza en el mismo
momento de la fase de oclusión (véase las Figuras 27 y 29), pero en lenguas como el
inglés, las cuerdas vibran mucho después de esta fase. Este factor y otros se toman en
cuenta cuando se analiza el VOT (Lisker y Abramson, 1964; Ladefoged y Cho, 1999).

Para finalizar, queremos presentar algunas características de las oclusivas aspiradas y


eyectivas (glotales). Las primeras se caracterizan por presentar un breve soplo luego de
la explosión, sin embargo, Martínez (2016, p. 10), tras una minuciosa reflexión, define a
estas consonantes de la siguiente manera:

Lo que verdaderamente constituye la esencia de las oclusivas aspiradas,


sean sordas o sonoras, es el retraso en el comienzo de la voz modal o
normal (VOT) tras la abertura brusca de los órganos que se manifiesta en
la explosión y que, según el punto de articulación, puede retrasar el
comienzo de la vocal entre 50 y 100 ms en las ligeramente aspiradas,
como las del inglés.

De la cita anterior, se desprende que el VOT es el causante de la aspiración, por ello, se


dice que entre más larga sea la duración de este, la aspiración será más fuerte. Entre las
lenguas peruanas, el quechua de Cusco-Collao presenta una serie de consonantes
oclusivas aspiradas (Cusihuamán, 2001).

En la Figura 30, presentamos la estructura acústica de la consonante [pʰ] de esta


variedad del quechua. Notamos que después de la explosión, se encuentra la aspiración.
Esta aparece como ruido turbulento (Martínez, 2007) en el espectrograma. Por último,
la fuerte aspiración es consecuencia del largo VOT de 166 ms.

Figura 30

Espectrograma de la palabra [ˈpʰalaj] ‘hablar’

Aspiración
Barra de explosión
Las oclusivas eyectivas se realizan con una corriente de aire glotal egresivo. En estas, el
aire se encuentra atrapado entre la oclusión en la cavidad oral y la glotis cerrada. Luego,
la laringe se eleva comprimiendo el aire aproximadamente el doble de la presión
pulmonar normal para luego ser liberado fuertemente (Ladefoged y Maddieson, 1996).

Como la producción de una consonante eyectiva implica dos cierres totales, habrá,
por ende, dos explosiones y entre ellas un vacío. El aimara, una lengua andina hablada
en Bolivia, Perú y Chile, presenta tres series de oclusivas: simples, aspiradas y eyectivas
fonológicas (Huayhua, 2001). Presentamos el siguiente ejemplo:

Figura 31

Espectrograma de la palabra [qʰɪˈpʼaɲa] ‘tañerla’

Segunda explosión
Primera explosión

En la Figura 31, la consonante eyectiva [pʼ], pronunciada por un hablante del aimara
hablado en Puno-Perú, presenta dos explosiones: la primera corresponde a la que se
desató en la zona anterior, es decir, bilabial, alveolar, etc. y la segunda, a la que ocurrió
en la zona glotal. También, se evidencia un vacío entre las dos explosiones. Compárese
con la oclusiva glotal [ʔ] del ocaina (Agnew y Pike, 1956) en la Figura 32.
Figura 32

Espectrograma de la palabra [òʔa] ‘caer’

2.3. Características acústicas de las consonantes fricativas

Según Ladefoged y Johnson (2010) y Ladefoged y Maddieson (1996), las consonantes


fricativas se producen con una constricción muy cercana entre dos articuladores (activo
y pasivo) de modo que la corriente del aire está parcialmente obstruida generando así un
flujo de aire turbulento (fricción) dentro de la cavidad oral.

Toda consonante catalogada como fricativa debe presentar turbulencia


obligatoriamente, pues, esta es la característica fundamental de esta clase de sonidos.
Acústicamente, la turbulencia es ruido aleatorio que podemos identificar fácilmente
tanto en un oscilograma y un espectrograma.

En el oscilograma de la Figura 33, mostramos las ondas aperiódicas de la fricativa


alveolar [s] frente a las ondas periódicas de la vocal [a]. En el espectrograma de la
Figura 33, el ruido se evidencia como energía aleatoria a lo largo del segmento [s], a
diferencia de las estrías regulares de los pulsos glotales de la vocal [a].
Figura 33

Oscilograma y espectrograma de la sílaba [sa]

Oscilaciones aperiódicas Oscilaciones periódicas

Una primera división para este grupo tiene que ver con la sonoridad. Mientras que las
fricativas sordas se producen mediante una fuente aperiódica continua (fricción
producida en el tracto vocal), las fricativas sonoras combinan a aquella fuente con otra
periódica (vibración de las cuerdas vocales) simultáneamente.

En el espectrograma de la Figura 34, la fricativa sorda [ʃ] y la fricativa sonora [ʒ]


poseen ruido como una característica en común ya que se producen mediante la misma
fuente, pero [ʒ] es la única que presenta barra de sonoridad (por debajo de los 1500 Hz),
puesto que las cuerdas vocales vibraron.

Figura 34

Espectrograma de las consonantes fricativas [ʃ] y [ʒ] del ocaina

Turbulencia

Barra de sonoridad
Las consonantes fricativas, también se pueden dividir entre estridentes y no estridentes.
Para Ladefoged y Maddieson (1996) y Johnson (2003), los sonidos sibilantes o
estridentes se producen debido al chorro de aire originado por la estrecha constricción
que choca contra los dientes superiores.

Podemos considerar a [s], [z], [ʃ], [ʒ] como sibilantes o estridentes. Contrariamente,
las fricativas no estridentes son las bilabiales, labiodentales, interdentales, palatales,
velares, uvulares, faríngeas y glotales (Ladefoged y Maddieson, 1996). Acústicamente,
las fricativas estridentes poseen mayor energía que las no estridentes.

Ahora bien, las fricativas estridentes concentran su energía en frecuencias altas y en


tales zonas hay una zona negra más acentuada mayor en el espectrograma. En cambio,
la energía acústica de las fricativas no estridentes se encuentra mejor distribuida a lo
largo del segmento. En la Figura 35, señalamos estas características:

Figura 35

Espectrograma de las fricativas [x], [s] y [f] del castellano Limeño

Concentración de energía en frecuencias altas en la fricativa


alveolar [s]

Los siguientes parámetros ayudan a describir a las fricativas: frecuencia del pico más
alto, intensidad, transiciones, duración, centro de gravedad y la configuración espectral.
Para nuestros propósitos, sólo trabajaremos con la frecuencia del pico más alto de
intensidad. Este parámetro se puede estudiar mediante gráficos FFT y LPC.
Hemos dicho que la energía acústica de las consonantes fricativas aparece dispersa o
aleatoria, aparentemente sin ningún orden como pasa en las vocales; pero el lugar
donde esta clase de sonidos concentra su energía presenta un patrón regular. Para
obtener esta información, se recurre al análisis espectral para hallar la frecuencia del
pico más alto.

Por ejemplo, en los espectros de la Figura 36 y Figura 37 los picos más altos de
intensidad de la fricativa alveolar sibilante sorda [s] y la fricativa labiodental no
sibilante sorda [f] se encuentran cerca a los 7300 Hz y 3400 Hz respectivamente. Cabe
señalar que la frecuencia del pico más alto nos provee información del punto de
articulación en esta clase de sonidos (Johnson, 2003).

Figura 36

Espectro LPC superpuesto al espectro FFT (banda estrecha) de [s] en la palabra


[ˈsa.po] ‘sapo’

Figura 37

Espectro LPC superpuesto al espectro FFT (banda estrecha) de [f] en la palabra [fu.
ˈt̪ u.ɾo] ‘futuro’
2.4. Características acústicas de las consonantes africadas

Para Ladefoged y Johnson (2010, p. 67), una africada es una oclusiva seguida por una
fricativa homorgánica. Esta clase de sonidos posee tres fases: oclusión, explosión y
fricción. Maddieson (1984) precisa que la africada [t͡ʃ] es la más común en las lenguas
del mundo seguida por la africada alveolar [t͡s].

Podemos identificar a las tres fases de estos sonidos mediante un espectrograma. En


las Figura 38 y 39, presentamos dos africadas que posee el quechua de Áncash (Parker,
1976). Ambas presentan silencio en la fase de oclusión; seguido por una barra de
explosión y, por último, turbulencia (ruido aleatorio).

Figura 38

Espectrograma de la palabra [ˈku.t͡ʃi] ‘cerdo’ (quechua ancashino)

Barra de explosión
Turbulencia

Silencio

Acústicamente, ambas se pueden diferenciar a través de la fase de fricción. En la Figura


38, la africada palatoalveolar [t͡ʃ] concentra su energía entre los 3000 y 5000 Hz (véase
el negror en tales frecuencias); en cambio, la africada alveolar [t͡s] concentra su energía
entre los 6000 y 8000 Hz (véase el negror en tales frecuencias).
Figura 39

Espectrograma de la palabra [ˈhu.t͡sa] ‘pecador’ (quechua ancashino)

Barra de explosión
Turbulencia

Silencio

Las africadas sonoras presentan una fuente periódica, es decir, vibración de las cuerdas
vocales y a esta la podemos visualizar como la barra de sonoridad en el espectrograma.
El ocaina presenta africadas sordas y sonoras (Agnew y Pike, 1956). Entre las sonoras,
están la alveolar y la palatoalveolar las cual presentamos a continuación en la Figura 40:

Figura 40

Espectrograma de la palabra [d͡ʒíʒi] ‘pihuicho’ (lengua ocaina)

Explosión Turbulencia o ruido

Barra de
sonoridad
2.5. Características acústicas de las consonantes nasales

Las consonantes nasales se producen cuando el velo del paladar desciende y hay un
cierre total en algún punto de la cavidad oral de modo que el aire pasa a través de las
fosas nasales (Ladefoged y Johnson, 2010; Catford, 2001). A pesar de que esta clase de
sonidos se parece a las oclusivas y aproximantes, es un modo articulación distinta a
aquellas.

Desde el punto de vista acústico, estos sonidos presentan formantes al igual que las
vocales, pero con menor intensidad pues se realizan mediante una fuente periódica; es
decir, la vibración de las cuerdas vocales. Las consonantes nasales poseen un F1 bajo
que las caracteriza y este es llamado formante nasal (en adelante Fn1) (Johnson, 2003).

Los gráficos LPC son de gran ayuda para identificar la frecuencia del formante nasal.
En la Figura 41, se muestran los picos de mayor intensidad de las consonantes nasales.
Los F1 de estos sonidos presentan frecuencias bajas (por debajo de los 300 Hz) en
comparación con la vocales (véase la Tabla 3).

El Fn1 de las tres nasales presenta valores muy parecidos esto es así porque no hay
ninguna obstrucción en la cavidad nasal; por este motivo, el F n1 de cualquier
consonante nasal «… permanece virtualmente invariable…» (Elías-Ulloa, 2011, p. 137).
Aparte del caso del castellano que presentamos aquí, puede verse en el shipibo (Elías-
Ulloa, 2011) y el arabela (Jiménez, 2018).

Figura 41

LPC de las consonantes [m], [ɲ] y [n] en la palabra [ma.ˈɲa.na] ‘mañana’

Fn1= 213 Hz Fn1= 262 Hz

Fn1= 258 Hz
A las consonantes nasales se les puede identificar a través de un espectrograma por el
murmullo nasal o sonido nasal. Este es una consecuencia que corresponde a la fase de la
consonante nasal donde el tracto oral está cerrado y el aire pasa por la cavidad nasal
(Harrington, 2010, p.113).

Elías-Ulloa (2011, p. 136) dice que el murmullo nasal presenta menor energía debido
la estructura de la cavidad nasal pues esta absorbe principalmente las frecuencias más
altas de modo que existe una pérdida de energía que se presenta como manchas blancas
en el espectrograma a partir de los 1000 Hz.

En la Figura 42, las nasales [m], [ɲ] y [n] aparecen con menor energía acústica que
las vocales que están adyacentes. Por otro lado, las consonantes nasales se caracterizan
por presentar antiresonancias (reflexión de las resonancias de la cavidad oral hacia la
cavidad principal laríngeo-nasal) o ceros que son picos negativos en el espectro.

Figura 42

Espectrograma de la palabra [ma.ˈɲa.na]

Formante
Formante
nasal
nasal Formante nasal

Las resonancias nasales y antiresonancias orales se cancelan mutuamente (Johnson,


2003) y debido a esta interacción se generan antiformantes; es decir, zonas de
frecuencias donde la intensidad del sonido disminuye considerablemente. A diferencia
de los formantes que son picos, los antiformantes son valles en el espectro y lo
presentamos en la Figura 43.
Figura 43

Espectro LPC superpuesto al espectro FFT (banda estrecha) de la primera [m] en la


palabra [ma.ˈma]

Fn1

En la Figura 43, hemos superpuesto al espectro LPC al espectro FFT para observar el
contraste entre los formantes y antiformantes de la consonante nasal. El primer formante
aparece como pico en el LPC y el primer antiformante aparece como valle que forma al
espectro FFT entre los 500 y 1000 Hz como lo señala la flecha gruesa. Cabe señalar que
el primer antiformante provee información del punto de articulación en las consonantes
nasales (Harrington, 2010).

Existen otros gráficos que nos ayudan a localizar con mayor precisión a los
antiformantes. Por ejemplo, Johnson (2003) aplica un método llamado autoregressive
moving average analysis y Martínez (2007) utiliza el espectro cepstrum11. En adición,
podemos observar a los antiformantes como líneas blancas horizontales en un
espectrograma en la Figura 44:

11
Jiménez (2018) aplica este método para la identificación de los antiformantes de las consonantes
nasales del arabela.
Figura 44

Espectrograma de la palabra [ˈma. no]

Las lenguas del mundo presentan una variedad de nasales con distinto tipo de fonación
entre ellas están las sonoras, sordas, laringalizadas y con voz murmurada. El resígaro
(Arawak) es una lengua peruana que posee una distinción entre consonantes nasales
sonoras y sordas (Allin, 1976). Veamos un ejemplo en la Figura 45: la consonante [m̥ ]
presenta escasa energía. Además, no existe barra de sonoridad puesto que las cuerdas
vocales no vibraron, ni estriaciones que representan a los pulsos glotales que son
comunes en los sonidos sonantes (véase las nasales y vocales de la Figura 42).

Figura 45

Espectrograma de palabra [m̥e.po.ko] ‘piraña’ (lengua resígaro)


La energía que está por debajo de los 1000 Hz es ruido o turbulencia originada en las
fosas nasales. Dantsuji (1984) llama a este efecto como fricción nasal. Asimismo,
Ladefoged y Maddieson (1996) dicen que las consonantes nasales sordas se realizan con
la glotis abierta; por ello, se pueden caracterizar como aspiradas.

2.6. Características acústicas de las consonantes laterales

Estas consonantes se realizan con una oclusión parcial en el centro de la cavidad oral de
manera que el aire escapa por un lado, o por ambos, de la boca. Esta clase de sonidos
presentan varios tipos, entre ellas, aproximantes, fricativas, africadas, laringalizadas,
etc. (Maddieson, 1984).

En las lenguas peruanas como el quechua (Parker, 1976), es común encontrar


laterales de tipo aproximante. Acústicamente, estas poseen dos fuente: periódica y
aperiódica continua; por estos motivos, poseen una estructura formántica semejante a
las vocales, pero con menor intensidad. En adición, las consonantes laterales presentan
antiformantes.

En la Figura 46, los F1, F2 y F3 de las consonantes laterales presentan menor negror
(tonalidad gris) a comparación de los formantes de las vocales adyacentes. Los F1 y F2
de las laterales se encuentran en frecuencias relativamente cercanas a los dos primeros
formantes de las vocales. Además, el F3 de las [l] concuerda con el F3 de las vocales.

Figura 46

Espectrograma de la palabra [a.la.ˈlaːy] (quechua ancashino)

F3
F3
F3
F3 Antiformantes

F2 Antiformantes
F2
F2 F2
F1
F1
F1
F1
Asimismo, en la Figura 46, las laterales presentan antiformantes. Estos son originados
por la oclusión parcial en el centro de la cavidad oral (similar a las nasales) y los
podemos observar como líneas blancas horizontales entre el F2 y F3. Ahora veamos el
antiformante de [l] mediante el siguiente gráfico en la Figura 47 (la flecha señala la
zona del antiformante):

Figura 47

Espectro LPC superpuesto al espectro FFT (banda estrecha) de la segunda [l] en la


palabra [a.la.ˈlaːy] (quechua ancashino)

Esta variedad del quechua también posee otra consonante lateral la cual es palatal. En la
Figura 48, [ʎ] posee las mismas características de una consonante lateral, pero ¿cómo
diferenciarla de [l] acústicamente? La clave está en el F2 y en sus transiciones con las
vocales: [l] posee un F2 menor (1641 Hz) a diferencia de [ʎ] (2560 Hz).
Figura 48

Espectrograma de la palabra [ˈki.ʎa] ‘luna’ (quechua ancashino)

F2

F1

2.7. Características acústicas de las consonantes róticas

Estos sonidos, también llamados r-sounds, se producen con una o varias oclusiones muy
breves de modo que el contacto se vuelve como un golpe (o golpes) rápido entre el
articulador activo y pasivo. Tradicionalmente, las consonantes laterales y las róticas
forman un grupo llamado líquidas.

Esta clase de sonidos presentan tipos (Maddieson, 1984; Ladefoged y Maddieson,


1996), pero nosotros solo presentaremos dos catalogadas como interrumpidas: vibrante
simple (tap/flap) [ɾ] y vibrante múltiple (trills) [r]. Estos se diferencian según la
cantidad de golpes entre los articuladores: simple, un golpe y múltiple, varios golpes.

Acústicamente, estas vibrantes presentan una fuente periódica (por la sonoridad) y


una fuente aperiódica (impulsional o continua). En el español, Martínez y Fernández
(2011, p. 157) dice que las vibrantes presentan dos fases: la primera es denominada
cerrada (oclusión) y la segunda fase presenta un elemento vocálico que presenta
estructura formántica.

La [ɾ], en el la Figura 49, presenta una fase cerrada y un elemento vocálico que no
podemos visualizar con exactitud. En cambio, en la Figura 50, sí se puede visualizar tal
elemento cuando [ɾ] está en posición coda. Adicionalmente, se puede visualizar los
formantes de este elemento vocálico
Figura 49

Espectrograma de la palabra [ˈpe.ɾo]

Figura 50

Espectrograma de la palabra [ˈaɾ.bol]

Formantes
Finalmente, [r] presenta tres fases cerradas y tres elementos vocálicos como lo muestra
la Figura 51. El último elemento vocálico posee formantes que se encuentran en
distintas frecuencias que las de las vocales. Por último, se observa que cada oclusión de
la vibrante posee barra de explosión a excepción de la primera.

Figura 51

Espectrograma de la palabra [ˈra.ta]

Barras de explosiones

Formantes

2.8. Características acústicas de las glides

Estos sonidos, llamados también aproximantes o semiconsonantes, se realizan con una


constricción cercana entre los dos articuladores, pero cuando el flujo de aire pasa no se
genera turbulencia o fricción. En las lenguas del mundo, la glide más frecuente es la
palatal [j], le sigue la labio velar [w] y otras que son poco comunes (Maddieson, 1984).

Cabe resaltar que las semiconsonantes son sonidos «…transitorios de y hacia una
vocal adyacente» (Olive et al, 1993 y Raphael et al, 2007 como se cita en Elías-Ulloa,
2011). Ahora bien, se llaman transitorios porque son producto del paso de una
articulación de un sonido a otro rápidamente12.

Es por su carácter transitorio que, en lenguas como el castellano, no pueden


considerarse núcleos de sílabas a diferencia de las vocales plenas, por eso, las glides
siempre estarán ligadas a un vocal. Esta combinación es llamada diptongo
tradicionalmente por los lingüistas.

Acústicamente, estos sonidos poseen una fuente periódica, es decir, la vibración de


las cuerdas vocales y por ello presentan formantes. Estos últimos, son menos intensos

12
Esta explicación es complementaria a lo que Gil (1988, p. 92) dice: «la semiconsonante es una
articulación a medio camino entre consonántica y vocálica».
en contraste a los de las vocales, a consecuencia de la constricción. Asimismo, las
glides se caracterizan por tener estrías verticales como cualquier otro sonido sonante.

Las Figuras 52 y 53 muestran a tres semiconsonantes del español [j], [w] y [β̞] que
son alófonos de /i/, /u/ y /b/ respectivamente. Para empezar, es complicado realizar una
segmentación adecuada para esta clase de sonidos (Harrington y Cassidy, 1999) así que
hemos tratado de colocar fronteras que no necesariamente coindicen con el inicio o
final.

Figura 52

Espectrograma de la palabra [a.ˈyeɾ] ‘ayer’

F1
F2

Figura 53

Espectrograma de la palabra [ˈwe.β̞o] ‘huevo’

F2
F2
F1 F1
Las tres semiconsonantes presentan menos energía que las vocales adyacentes, pero
tienen las mismas características, por ejemplo, formantes, estrías verticales y la ausencia
de fricción. El F1 de todas es bajo, en cambio, el F2 de [j] es alto (semejante a [i]) en
comparación de [w] y [β̞]. A partir del F2, se puede identificar al punto de articulación.
BIBLIOGRAFÍA

Agnew, A. y Pike, E. G. (1957). Phonemes of ocaina (Huitoto). International Journal of


American Linguistics, 23, 24-27.
Allin, T. R. (1976). A grammar of Resígaro. [Tesis doctoral]. University of St.
Andrews.
Asensi, L., Portalés, S. y Del Río, A. (1997). Barra de explosión, VOT, y frecuencia de
las oclusivas sordas del castellano. Estudios de fonética experimental, 9, 221-242.
Catford, J. C. (2001). A practical introduction to phonetics (2 ed.). Oxford University
Press.
Chavarría Mendoza, M. C. (1973). Esbozo fonológico del ese eja o "huarayo"
(Tacana). CILA-UNMSM.
Cho, T. y Ladefoged, P. (1999). Universals and variation in VOT: evidence from 18
Languages. Journal of Phonetics, 27, 207-229.
Crystal, D. (2008). A dictionary of linguistics and phonetics (6 ed.). Blackwell
Publishing.
Cusihuamán, A. (2001). Gramática quechua Cuzco-Collao (2 ed.). Bartolomé de Las
Casas.
Dantsuji, M. (1984). A Study on Voiceless Nasals in Burmese. Studia phonologica, 18,
1-14.
Elías-Ulloa, J. (2011). Una documentación acústica de la lengua shipibo-conibo
(pano). (Con un bosquejo fonológico). PUCP.
Elías-Ulloa, J. (2016). The role of prominent prosodic positions in governing
laryngealization in vowels: a case study of two panoan languages. En H. Avelino, M.
Coler, y W. L. Wetzels (Eds.) The Phonetics and Phonology of Laryngeal Features
in Native American Languages (pp. 180-202). Brill.
Fant, G. (2004). Speech acoustic and phonetics. Kluwer Academic.
Fry, D. (1976). Acoustic phonetics. Cambridge University Press.
Fulop, S. A. (2011). Speech spectrum analysis. Springer-Verlag.
Gil Fernández, J. (2005). Los sonidos del lenguaje (3 ed.). Síntesis.
González Cabrera, V. M. (1971). Física fundamental. Progreso.
Hansen, C. H. (2013). Fundamental of acoustics. Recuperado el 25 de Abril de 2017, de
http://www.portal.pmnch.org/occupational_health/publications/noise1.pdf
Harrington, J. (2010). Acoustic Phonetics. En W. J. Hardcastle, J. Laver, y F. E. Gibbon
(Eds.) The Handbook of Phonetic Sciences (pp. 81-129). Wiley-Blackwell.
Harrington, J. y Cassidy, S. (1999). Techniques in speech acoustics. Kluwer Academic
Publishers.
Haskins Laboratories. (2008).
http://www.haskins.yale.edu/featured/heads/mmsp/acoustic.html
Herrera Santana, J. (s.f.). Estudio acústico de /p, t, ĉ, k/ y /b, d, g/ en gran canaria.
Contribuciones al estudio de la lingüística hispánica, 1, 73-86.
Herrera Zendejas, E. (2014). Mapa fónico de las lenguas mexicanas: formas sonoras 1
y 2. El Colegio de México.
Herrera, E. y Butragueño, P. M. (2008). Fonología instrumental: patrones fónicos y
variación. El Colegio de México.
Huayhua Pari, F. (2001). Gramática descriptiva de la lengua aimara (Aymara aru
yatiwi). Arco Iris.
Jimenez Peña, J. (2018). Los sonidos de la lengua arabela: un bosquejo fonológico.
[Tesis de licenciatura]. UNMSM.
Johnson, K. (2003). Acoustic and Auditory Phonetics (2 ed.). Blackwell Publishing.
Ladefoged, P. (1995). Elements of acoustic phonetics (2 ed.). University of Chicago
Press.
Ladefoged, P. (2003). Phonetic data analysis. An introduction to fieldwork and
instrumental techniques. Blackwell Publishing.
Ladefoged, P. y Johnson, K. (2010). A Course in Phonetics (6 ed.). Wadsworth.
Ladefoged, P. y Maddieson, I. (1996). The Sounds of the World's Languages. Blackwell
Publishers.
Lieberman, P. (1984). The biology and evolution of language. Harvard University Press.
Lieberman, P. y Blumstein, S. E. (1988). Speech physiology, speech perception, and
acoustic phonetics. Cambridge University Press.
Lin, C.Y. y Wang, H.C. (2011). Automatic estimation of voice onset time for word-
initial stops by applying random forest to onset detection. The Journal of the
Acoustical Society of America, 130, 514-525.
Lindblom, B. y Maddieson, I. (1988). Phonetic universals in consonant systems.
Language, Speech and Mind, 2-78.
Lisker, L. y Abramson, A. (1964). A cross-language study of voicing in initial stops:
Acoustical measurements. Word, 20, 527-565.
Llisterri, J. (s.f.). Las características acústicas de los sonidos del habla.
http://liceu.uab.es/~joaquim/phonetics/fon_anal_acus/fon_acust.html
Maddieson, I. (1984). Patterns of sounds. Cambridge University Press.
Martínez Celdrán, E. (1986). Fonética. Teide.
Martínez Celdrán, E. (1995). En torno a las vocales del español: análisis y
reconocimiento. Estudios de fonética experimental, VII, 195-218.
Martínez Celdrán, E. (2007). Análisis espectrográfico de los sonidos del habla. Ariel.
Martínez Celdrán, E. (2016). En torno al concepto de aspiración o sonido aspirado. En
W. Elvira-García y P. Roseano (Eds.) Lectio Magistralis de Eugenio Martínez
Celdrán (pp. 9-23). Laboratori de Fonètica de la Universitat de Barcelona.
Martínez Celdrán, E. y Fernández Planas, A. M. (2013). Manual de fonética española (2
ed.). Ariel.
Mendoza, A. y Chavarría, M. C. (1988). Manual de fonética. UNMSM-CONCYTEC.
Ministerio de Educación (2016). Resolución Ministerial Nº 434-2016-MINEDU. Lima,
9 de Setiembre
Ministerio de Educación (2017). Resolución Ministerial Nº 040-2017-MINEDU. Lima,
11 de Enero
Miyara, F. (1999). Acústica y Sistemas de Sonido. Universidad Nacional de Rosario.
Obediente, E. (2007). Fonética y fonología (3 ed.). Universidad de Los Andes.
Ohala, J. y Ohala, M. (1993). The phonetics of nasal phonology: theorems and data.
Phonetics and Phonology, (5), 225-249.
Parker, G. J. (1976). Gramática Quechua Áncash-Huailas. Ministerio de Educación.
Quilis, A. (2010). Principios de fonología y fonética española (Décima ed.). Lavel.
Raphael, L. J., Borden, G. J. y Harris, K. (2007). Speech science primer: Physiology,
Acoustics, and Perception of Speech. Williams & Wilkins.
Reetz, H. y Jongman, A. (2011). Phonetics: transcription, production, acoustics, and
perception. Wiley-Blackwell.
Rich, F. (1963). Arabela phonemes and high-level phonology. En B. Elson (Ed.) Studies
in Peruvian Indian Languages I (pp. 193-206). SIL.
Rocamora, M. (2006). Apuntes de fonética musical. Universidad de la República
Oriental del Uruguay.
Rocha, R. (2009). La velarización en shipibo. Escritura y pensamiento, 12, 91-134.
Romani, M. (2004). Toponimia en el Gran Pajonal con Especial Atención a los
Topónimos de Afiliación Ashaninka. [Tesis de licenciatura]. UNMSM.
Sears, F. W. y Zemansky, M. W. (1972). Física. Aguilar.
Solís, G. (2003). Lenguas de la amazonía peruana. Visual Service.
Valqui, J. (2004). Reconstrucción de la lengua chacha mediante un estudio toponímico
en la Jalca Grande (Chachapoyas, Amazonas). [Tesis de licenciatura]. UNMSM.
Valqui, J. (07 de 09 de 2017). Vocales ensordecidas en nomatsiguenga. (J. Jimenez,
Entrevistador)
Van der Werme, C. W. (1970). Física general. Colección Schaum's. Mc Graw-Hill.

También podría gustarte