02 Tema 2 p4XYUH-2. FonÃ©tica Acãºstica. FonÃ©tica Perceptiva

TEMA 2. FONÉTICA ACÚSTICA.
FONÉTICA PERCEPTIVA
Miguel Martín Echarri
2. 1. El sonido y la onda
El oído nos permite reconocer las perturbaciones y movimientos a nuestro
alrededor. Es un sistema de alerta frente a peligros y oportunidades. Hemos
evolucionado para protegernos de esas contingencias que pueden delatar su
cercanía por las turbulencias transmitidas por el aire. Llamamos «sonido» a la
percepción humana de las vibraciones, que en la mayor parte de los casos
tiene al aire por medio de transmisión.
El sonido es la sensación percibida por el oído cuando las partículas de un medio

elástico, que funciona como transmisor, sufren cambios de presión provocados por el
movimiento vibratorio de un cuerpo determinado, la fuente de sonido (RAE, 2011: 32).
Un golpe entre dos piedras provoca un repentino desplazamiento del aire

que estaba entre ellas en todas las direcciones del espacio. Inmediatamente
después, las moléculas de ese aire chocan con las moléculas de aire contiguas
y ese choque tiene una doble consecuencia: las primeras son rechazadas
mientras las segundas se desplazan y empujan a su vez a unas terceras. Así,
la energía se transmite de unas moléculas a otras en forma de una única onda
esférica que va aumentando en tamaño y disminuyendo en intensidad. La onda
es, entonces, transporte de energía sin transporte de materia: el sonido se
desplaza pero el aire permanece.
Esa onda esférica originada en un punto recorre todo el aire de los
alrededores. Si el medio aéreo en el que se expande fuera ilimitado, la
transmisión sería también ilimitada, ampliándose con una intensidad
decreciente hasta el infinito (en la realidad, encuentra obstáculos que absorben
This obra by UBUCEV is licensed under a Creative Commons Reconocimiento-NoComercial-

CompartirIgual 3.0 Unported License.
o rechazan parte de la energía). Sin embargo, cada molécula de aire
experimenta solo un violento vaivén antes de quedar otra vez en reposo1.
Figura 1. Esquema de una onda generada en un émbolo

(https://sites.google.com/site/angelfiq/home/energias/las-ondas-y-sus-tipos).
Una onda es un movimiento oscilante de las partículas: la energía que se

les aplica las desplaza, pero luego tienden a recuperar su posición original, de
manera que retornan con una fuerza que puede ser suficiente para provocar un
movimiento casi simétrico en sentido contrario antes de volver a repetir el ciclo
(fig. 2).
1
Puede verse cómo los péndulos de este experimento vuelven pronto a la posición inicial después del
paso de la onda: Onda transmitida de un péndulo a una sucesión de péndulos.
https://www.youtube.com/watch?v=1Vu051YgcPA. Si consideramos una porción del espacio que se
encuentre muy alejada del foco, puede llegar a parecerse a la animación interactiva que aparece en este
enlace: https://musiclab.chromeexperiments.com/Sound-Waves. En principio, un único golpe (como el
de las dos piedras) produce una única onda, mientras que aquí encontramos varias porque la nota
resuena, es decir, sigue vibrando después del golpe, con lo que produce otras ondas. Cuando pulsamos
cualquier tecla, la perturbación se transmite por las partículas, pero cada una de ellas se mueve solo un
poco. Otra animación (la primera que aparece en el siguiente enlace) se centra en el pequeño
movimiento que realiza cada una de las partículas:
http://www.acs.psu.edu/drussell/Demos/waves/wavemotion.html.

Figura 2. Esquema del vaivén de una partícula en un medio elástico. La vertical representa el paso del
tiempo, y la horizontal el movimiento de la partícula
(https://joaquimllisterri.cat/phonetics/fon_anal_acus/fon_acust.html).
Teniendo en cuenta que el movimiento de la partícula provoca un

aumento en la presión (el del choque con la partícula vecina) y que es esa
presión la que después provoca el desplazamiento inverso y por lo tanto una
rarefacción (la que se da cuando las partículas están más separadas que en la
situación de reposo), es posible representar la onda como en la figura 3:
Figura 3. Esquema de una onda simple

(https://es.wikipedia.org/wiki/Onda#/media/Archivo:Wave_characteristics.svg)
Esta representación coincide con la propia de las ondas transversales

(como las que se dan en la superficie del agua, o en los latigazos de una
cuerda), pero puede traducir también las diferencias de presión que tienen
lugar en ondas longitudinales como las del sonido en el aire: la cresta

corresponde al momento de máxima presión, y el valle el momento de menor
presión. En las ondas transversales, el movimiento de una partícula concreta
se separa de la línea de la dirección de la onda y dibuja un círculo o una elipse
antes de volver a la posición de reposo (como ocurre con una boya que es
movida por una ola en el agua); en las ondas longitudinales, en cambio, la
partícula se desplaza por una única línea, que es la misma de la dirección de la
onda.
Se llama «fuente» al desplazamiento inicial provocado al aplicar una
energía que genera perturbaciones en el medio, es decir, en los otros objetos y
materiales que lo rodean. Son ejemplos de fuentes de sonido las dos piedras
que chocan, una palmada, la vibración de las cuerdas vocales, la explosión de
los labios en una [p], etc. Cuando las moléculas del medio material en que se
manifiesta la fuente presentan determinadas condiciones de consistencia,
densidad y flexibilidad, la energía se transmite por él a partir del foco en forma
de ondas sin que se desplace su materia.
La energía va consumiéndose en la transmisión: por eso, la amplitud del
movimiento va disminuyendo con el tiempo y al alejarse del foco. La distancia a
la que llega la onda es teóricamente infinita, pero se va debilitando hasta
volverse imperceptible al oído humano y a los medios de registro.
La velocidad de la transmisión, en cambio, depende de la composición
material del medio, y es constante mientras esta sea constante (independiente
de la intensidad). En el caso del aire (que es el medio común del habla
humana), la velocidad de transmisión es de unos 343 m/s (aunque varía con
algunos parámetros como la temperatura, la humedad, la presión, etc.). En el
caso de materiales más densos puede ser muy superior, como el agua (1500
m/s).
2. 2. Pulsos y ondas compuestas y vibratorias

Hasta ahora hemos hablado de la onda producida por una perturbación
puntual, que se llama «pulso». Pero es posible y frecuente que varios pulsos
sean sucesivos o simultáneos, con lo que la onda se vuelve vibratoria o

compuesta. Es lo que ocurre en la superficie del agua si tiramos
simultáneamente dos pequeñas piedras a un estanque.
Por otro lado, además de la posibilidad de que dos ondas sean
simultáneas, existe la posibilidad de que sean sucesivas: de hecho, es muy
frecuente que sea así, dado que el movimiento de retorno de la partícula a la
posición de reposo suele implicar la inercia suficiente como para que
sobrepase ese punto y continúe de manera casi simétrica (figura 4).
Figura 4. Interferencias entre las ondas producidas por dos fuentes

(https://douglasphillipsbooks.com/blog/the-double-slit-experiment y
https://en.wikipedia.org/wiki/Wave_interference).
Pero además, a veces la propia fuente entra en vibración: entonces

transmite una variación periódica de presión que incluye fases alternas de
compresión (en que la presión es máxima) y de rarefacción (en que la presión
es mínima): una sucesión de pulsos separados por lapsos de tiempo
constantes.
2. 3. La percepción de los fenómenos acústicos

Desde el punto de vista de la percepción humana, los pulsos
independientes son ruidos secos, como los del ejemplo de las dos piedras; por
su parte, los pulsos combinados de manera irregular se perciben como ruidos
complejos, roces, explosiones, etc.; por último, las vibraciones (ondas
periódicas) se perciben como sonidos afinados. Así, cuando un ruido repetido y
periódico tiene lugar más de 20 veces por segundo, en lugar de un tamborileo
sordo empezamos a interpretar un sonido muy grave (con variaciones y
diferencias entre las distintas personas).
Si el umbral inferior está en los 20 hercios (Hz) o ciclos por segundo, al
aumentar la frecuencia el sonido es cada vez más agudo, hasta que, a partir de

los 20.000 ciclos por segundo (en los casos óptimos), resulta inaudible. Es
posible experimentar con las posibilidades de cada individuo en este enlace:
http://onlinetonegenerator.com/
Podemos señalar que otros seres vivos tienen umbrales de audición
diferentes: los elefantes captan como sonido afinado una vibración periódica de
solo 5 hercios (esto es, 5 golpes por segundo), mientras que los perros pueden
identificar sonidos de hasta 45.000 Hz, que para nosotros son inaudibles
(independientemente de que sean intensos o suaves), los gatos hasta 85.000
Hz, los murciélagos hasta 120.000 Hz y los delfines hasta 200.000 Hz.
2. 4. Parámetros de medición
Podemos encontrar tres parámetros para medir cualquier vibración:
La duración es el tiempo durante el cual se mantiene la vibración, lo cual
puede implicar una cantidad enorme de ciclos simples o compuestos. Por
ejemplo, el tiempo que dura el sonido de la trompeta cuando un trompetista
sopla por la boquilla. En el caso del habla, una fuente sonora (que podemos
llamar un segmento, o simplemente un sonido) concluye en el momento en que
empezamos a generar otro sonido, o bien cuando terminamos nuestra
intervención.
Obviamente, un segmento puede ser más largo o más breve, diferencia
que en lenguas como el inglés o el latín clásico puede distinguir significados.
En español, esta variable está ligada al acento de intensidad, pero también a la
expresión y al tempo. En principio, los sonidos acentuados son más largos,
como ocurre normalmente en la primera [a] de «casa», aunque también se
alargan algunas sílabas por otras razones (la sílaba final de un enunciado
suele ser muy larga y suave, por ejemplo).
La media de segmentos por segundo en el habla suele estar en torno a 7,
de ahí que merezca la pena medir este parámetro en milisegundos (ms).
El segundo parámetro que puede medirse en la onda es la frecuencia, es
decir, el número de ciclos o periodos que se producen en un tiempo dado:
como ya hemos visto, se mide en ciclos por segundo o hercios (Hz), y el sonido
suena tanto más agudo cuanto mayor es la frecuencia. La longitud de onda es

inversamente proporcional a ella (siempre que el medio sea constante y no
influya la velocidad de propagación), de manera que la frecuencia y la longitud
de onda reflejan la misma variable desde dos perspectivas contrarias. El
parámetro perceptivo correspondiente se llama tonía.
La frecuencia fundamental de un sonido afinado puede ser fonológica, y
lenguas tonales como el mandarín la aprovechan para distinguir fonemas. En
español, la entonación es un fenómeno prosódico, con capacidad de señalar la
relación entre grandes pasajes, o la prominencia acentual de algunas sílabas
frente a otras (aspecto en que aparece combinado con otros rasgos), pero
también la modalidad oracional (enunciativa, interrogativa total, dubitativa, etc.)
y, finalmente, las focalizaciones, es decir, la importancia relativa del significado
aportado por un determinado pasaje.
Aparte de estos valores de la frecuencia fundamental (el ciclo más largo y
menos frecuente que se puede registrar en una vibración periódica
compuesta), la frecuencia se manifiesta también de otra manera: en las ondas
compuestas, aparecen vibraciones subordinadas que tienen frecuencias más
altas que la fundamental. Como veremos pronto, las diferencias de intensidad
de esas distintas frecuencias conforman el espectro de frecuencias, un
parámetro acústico correlativo en términos perceptivos al timbre, que distingue
la percepción de muchos fonemas, como /a/ y /o/, por ejemplo.
Por último, la amplitud o elongación es la distancia máxima de las
partículas con respecto al eje de reposo. Esta magnitud depende de la fuerza
del impulso de la onda y de las variaciones de presión en las moléculas de aire,
y corresponde en la percepción a la intensidad del sonido o sonía. Se mide en
decibelios (dB).
En relación con la lengua, este parámetro está relacionado con el acento,
que en español sí tiene valor fonológico, ya que permite distinguir pares de
palabras como canto y cantó.
2. 5. Las ondas compuestas, la resonancia y el timbre

Como hemos adelantado, las ondas pueden ser simples (sinusoidales),
como las que se producen por ordenador cuando se desea un sonido unívoco y

claro: es el caso de las que hemos escuchado en la web
http://onlinetonegenerator.com/ al accionar el punto sine. Pero en la naturaleza
lo normal es que unas ondas interfieran con otras y conformen patrones
complejos, las ondas compuestas o complejas (figura 5).
Figura 5. La combinación de tres ondas sinusoidales da lugar a una onda compuesta. Este
ejemplo está tomado de
http://clas.mq.edu.au/speech/acoustics/waveforms/adding_waveforms.html, donde hay muchos
otros ejemplos interesantes de adición de ondas.
En este tipo de ondas, hay un ciclo compuesto que se repite (la vibración
fundamental), y dentro de él encontramos un patrón que incluye vibraciones
que se repiten más veces con una menor longitud de onda. La vibración
principal se llama primer armónico o frecuencia fundamental (F0), y las demás
están numeradas: el segundo armónico vibra el doble de veces por segundo; el
tercero, tres veces más; y así sucesivamente. Los primeros 16 pueden
analizarse experimentalmente, pero la serie armónica continúa hasta el infinito,
y la intensidad diferenciada que presentan algunos rangos de armónicos (los
formantes) es fundamental para entender las diferencias de timbre.

Cuando las vibraciones compuestas se aplican a cuerpos concretos, las
características de estos cuerpos (tamaño, forma, material, etc.) imponen sus
condiciones a la onda: algunas de las frecuencias resultan amplificadas
mientras que otras son amortiguadas. Si la energía periódica que se aplica a
ese cuerpo iguala o se acerca a su frecuencia natural de vibración, sucede que
la amplitud de la onda se refuerza 2 : en el caso del sonido, se vuelve más
audible y robusto, como es posible experimentar con nuestra voz al pasar por
el interior de un túnel, o en los auditorios bien diseñados; en otros casos la
resonancia de las vibraciones (la adición de nueva energía a una energía que
rebota en resonancia) puede llegar a superar la resistencia de la materia. Es lo
que ocurre cuando impulsamos a alguien en un columpio: después de cada
impulso, la inercia de la caída se suma al nuevo impulso, con lo que va
aumentando la amplitud. Si seguimos empujando, podemos provocar la caída
de quien está sentado en él. En los casos extremos, la amplitud puede vencer
la consistencia del objeto y romperlo. Es lo que ocurre cuando el sonido rompe
un vaso de vino3; algo parecido ocurrió cuando un viento moderado hizo entrar
en resonancia el puente de Tacoma Narrows4.
En lo que respecta específicamente al timbre del sonido, podemos decir
que una determinada configuración de la caja de resonancia puede amplificar
algunas de las frecuencias y mitigar otras, en un diseño sonoro que es
exclusivo de cada cuerpo. Así, un tubo abierto por los dos extremos, aplicado
por uno de ellos al oído, puede seleccionar los sonidos cuya frecuencia es
múltiplo de su longitud: cuanto más largo sea seleccionará frecuencias más
amplias, es decir, más graves.
La forma del objeto transforma el sonido de maneras particulares: un
violín, un clarinete, una guitarra, una persona, otra persona, presentan
2
Encontramos otro ejemplo muy claro en el vídeo
https://www.youtube.com/watch?time_continue=56&v=q7Jh0zu8xUY
3
Hay una explicación en este vídeo: https://www.youtube.com/watch?v=Ory4XB9SmkY
4
Este acontecimiento se grabó cinematográficamente: https://www.youtube.com/watch?v=j-zczJXSxnw

patrones distintos (timbres) y el cerebro puede reconocer la fuente del sonido a
partir de esa configuración particular.
De la misma manera, al modificarse la forma de una boca por las
diferentes posiciones de la lengua, las mandíbulas o los labios, se amplifican
algunos de los armónicos y el timbre varía, lo que nos permite reconocer los
diferentes sonidos sonoros (en español, esta es la clave para reconocer las
vocales y las nasales).
Hidalgo y Quilis (2012: 83-84) lo explican así:
La resonancia, fenómeno físico que tiene lugar en las cavidades supraglóticas,

consiste en la modificación de la amplitud de los armónicos de un sonido complejo según
la cavidad donde dicho sonido vibre. […] De este modo, cuanto más reducida sea una
cavidad más se refuerza la amplitud de los armónicos de frecuencia alta, lo que se
traduce en sonidos más agudos (por ejemplo en el caso del violín).
El timbre corresponde entonces al espectro armónico, es decir, a la

relación entre las frecuencias de una vibración compuesta y las intensidades
diferenciadas de cada una de esas frecuencias. El espectro de un sonido es la
distribución particular de una onda que está compuesta por varias ondas que
pueden ser analizadas y medidas, de manera que consiente una
representación gráfica a partir de determinados sistemas y técnicas (figura 6).
Figura 6. Espectro de las vocales [i, u, e, o] (en inglés canadiense). Como puede verse, se analiza un
instante, o bien la media de un segmento, pero no los espectros a lo largo del tiempo. La frecuencia
aparece en el eje horizontal (los valores más altos a la derecha) y la intensidad en vertical (los valores
más altos arriba) (http://tuninst.net/HUMAN-VOICE/Snd-hear/snd-hear.htm).

La caja de resonancia (las cavidades supraglóticas en el caso de la
fonación humana) otorga a cada armónico una particular intensidad (amplitud
de onda) en la estructura particular de un sonido (función de filtro). Algunas
zonas espectrales concentran más energía que otras porque es en torno a
ellas donde se concentran los armónicos más amplificados.
Con los medios de análisis disponibles, las frecuencias se agrupan en
esas zonas, que reciben el nombre de «formantes». En los sonidos sonoros,
los formantes son rangos de armónicos reforzados por la acción de los filtros-
resonadores a que hemos aludido previamente, de manera que cada sonido
posee unos formantes derivados de las características específicas de la
cavidad articulatoria que los ha generado. A la inversa, las zonas del espectro
que resultan más mitigadas en las resonancias de un determinado sonido se
llaman «antiformantes».
Los formantes se identifican convencionalmente por los ordinales y
empiezan a contarse desde las frecuencias más bajas, aunque hay un
formante 0 que puede aparecer en los sonidos nasalizados y que incluye las
vibraciones más bajas, incluyendo la fundamental. En el espectrograma, que
es una técnica que añade el tiempo a los dos parámetros incluidos en el
espectro (frecuencias e intensidades), las frecuencias más agudas aparecen
en lo alto de la imagen, de manera que los formantes se ordenan de abajo
hacia arriba (figura 7).

Figura 7. Ejemplo de espectrograma (de la palabra «murciélago») realizado con el programa PRAAT. En
las vocales se han superpuesto los números «1» y «2» para aclarar qué aspecto tienen los formantes y
cómo se cuentan ordenándolos a partir del más grave. Respecto al segmento [m], deberíamos haber
sobreimpreso un «0» para señalar el formante de nasalidad, que resulta todavía un poco más grave que
el formante más grave de las vocales orales.
2. 6. Circunstancias acústicas que distinguen sonidos

Podemos empezar por hacer una distinción entre los sonidos que se
realizan por medio de filtros fijos y aquellos que requieren un movimiento en los
resonadores (los órganos articulatorios). En el primer caso, se mantiene una
única posición a lo largo de todo el sonido, como puede ocurrir en las vocales
puras. Un modelo artificial puede reproducir esos filtros para explicar el aparato
fonador humano (como puede verse en
http://liceu.uab.es/~joaquim/phonetics/fon_anal_acus/Resonancia.mp4).
Por el contrario, los filtros variables sufren cambios durante la articulación,
con lo que se transforma la disposición de los formantes, como ocurre cuando
la contigüidad de una consonante oclusiva obliga a pasar del cierre a la
abertura: cuando articulamos la palabra «paño», la posición de la boca durante
la [p] no es fija, sino que pasa del cierre inicial provocado por la bilabial [p] a
una apertura máxima en la [a]. Efectivamente, la posibilidad de combinar
sucesivamente los sonidos provoca que en la realidad cada uno de ellos se
distorsione al ser incluido en la cadena del habla. En el caso de un discurso
muy cuidado, puede decirse que solo los segmentos con filtro fijo (como las

vocales o las fricativas) presentan una fase central estable entre dos zonas de
transición, si bien en el habla espontánea son pocos los segmentos que
presentan una zona realmente estable.
Aparte de esta diferencia entre sonidos de filtro fijo y variable, los sonidos
nasales emplean un filtro que los orales excluyen: la cavidad nasal. Unas veces
el velo del paladar se libera y permite que el aire pase por la nariz además de
por la boca (oronasales), pero otras veces la boca queda cerrada mientras se
permite la salida del aire por la nariz (nasales).
Los filtros modifican las resonancias, lo que tiene una importancia
decisiva en los sonidos sonoros, pero cuando la onda sonora es aperiódica, de
manera que el cerebro no reconoce ninguna afinación, la función de filtro no es
determinante para distinguir sonidos.
En el caso de las consonantes obstruyentes la fuente puede ser
impulsional o continua: la fuente es impulsional cuando la vibración está
provocada por un cierre seguido de una explosión de aire, como el que se
percibe en las consonantes oclusivas [p, t, k, b, d, g]; por el contrario, la fuente
es continua cuando las perturbaciones las provoca la salida del aire por una
abertura de manera constante, como se percibe ejemplarmente en las
consonantes fricativas [f, θ, x, s, z].
2. 7. Clasificación acústica de los sonidos del español

En español hay sonidos periódicos, las vocales, en los que no se
encuentra ninguna fuente de sonido aperiódico. En el otro extremo,
encontramos los sonidos estrictamente aperiódicos: las consonantes sordas.
Estas pueden ser impulsionales como [p, t, k], continuas como [f, θ, s, x], pero
también pueden articularse mediante una sucesión de ambas posibilidades,
como ocurre con la consonante africada [t ], y también como una combinación
simultánea de esas dos fuentes. Una fuente periódica combinada con
cualquiera de los tipos de fuentes aperiódicas produce las consonantes
sonoras: [b, d, , , ð, ɣ, ʝ, m, n, ɲ, ɾ, r]; en todos ellos oímos la fuente periódica
del sonido producido en las cuerdas vocales y otro sonido superpuesto, sea la

explosión de las oclusivas sonoras (orales o nasales), la fricción de las
fricativas sonoras, o los golpes de las róticas.
Es posible una clasificación acústica sucinta de los sonidos del español,
con las distintas fuentes de sonido y los tipos de sonidos que las utilizan (pero
en la realidad los sonidos permiten muchas más variantes y procedimientos):
Fuente Filtro Clase de sonido
Periódica Aperiódica Aperiódica Oral fijo Oral variable Nasal fijo

continua impulsional
X X Vocales orales
X X X Vocales nasalizadas
X X Fricativas sordas
X X Oclusivas sordas orales

X X X Fricativas sonoras
X X X Oclusivas sonoras orales

X X X X Oclusivas sonoras nasales
X X Laterales
X X X X Róticas
2. 8. Medios de análisis acústico:

Entre los instrumentos que sirven para registrar y analizar el sonido,
podemos distinguir varios grupos según el parámetro en el que se centran.
a) Los que miden la melodía de un segmento sonoro, es decir, la
frecuencia de la vibración fundamental.
b) Los que miden su intensidad. El oscilograma es capaz de medir la
amplitud (en el eje vertical) y el tiempo (en el horizontal), y puede
ayudar a medir el ritmo y las pausas. Para los fines de la fonética y la
fonología españolas su interés es mucho menor que el análisis del
espectro.
c) Los que analizan el espectro sonoro. La técnica llamada «espectro»
recoge la frecuencia y la amplitud, de modo que permite estructurar
una onda sonora y entender su sonoridad y timbre como en un retrato,
pero no la variable temporal.
El espectrograma es una técnica que recoge los factores de frecuencia y
amplitud en el eje vertical y el de tiempo en el horizontal. La intensidad viene

distinguida por la escala de grises, con lo que permite reunir en una sola
técnica las ventajas de las otras dos. Esta técnica, de la que ya hemos visto un
ejemplo, permite además describir cada sonido y reconocer a partir del
resultado gráfico las palabras grabadas; describir las características tímbricas
de cada persona, o la intensidad con que habla, etc., De ahí su uso para la
identificación en contextos judiciales, y también para el dictado automático en
programas como Invoice o, inversamente, para la lectura automática de textos.
Un programa gratuito pone a nuestra disposición esta técnica en
http://www.fon.hum.uva.nl/praat/. Es posible grabar segmentos hablados y
luego acceder a su representación gráfica, entre otras posibilidades.
2.9. Cómo analizar espectrogramas

El espectrograma es una técnica muy útil para visualizar las diferencias
sonoras entre los segmentos de la lengua, razón por la cual vamos a dedicarle
una explicación básica sobre algunas de las figuras más llamativas y claras que
podemos encontrar en esta forma de representación de los sonidos a partir de
sus características físicas. En temas posteriores daremos algunos detalles más
sobre el análisis con este instrumento, pero de momento nos conformaremos
con distinguir los tipos principales de sonidos.
En un espectrograma encontramos una representación gráfica de los
sonidos que se realiza de manera mecánica. La línea horizontal representa el
tiempo (solo aparece el espectrograma si se seleccionan fragmentos de menos
de 10 segundos), ordenado de izquierda a derecha según la convención de la
escritura. En vertical aparecen representadas las vibraciones sonoras
(periódicas o aperiódicas), medidas en hercios (vibraciones o ciclos por
segundo). Los sonidos del habla no son simples, de manera que pueden
presentar manchas a distintas alturas, que corresponden a las distintas
vibraciones que se superponen.
El siguiente (figura 8) es un espectrograma que recoge el ruido de fondo
en una habitación: como se ve, no aparecen en él objetos definidos, sino solo
un gris general. La posición relativamente ordenada de algunas manchas

grises un poco más oscuras corresponde seguramente a ruidos constantes
como la electricidad, un frigorífico, el propio ruido del ordenador, etc.
Figura 8. Ruido de fondo
Cuando aparecen sonidos específicos sobre el ruido de fondo, se

superponen a él, como veremos en el siguiente ejemplo, que recoge la palabra
«vienes» (figura 9). Aunque pueden aparecer también otros pequeños objetos,
en lo fundamental se ve la representación del ruido de fondo a la izquierda y la
derecha, y una representación concreta en grises oscuros en el centro.
Figura 9. «Vienes»
Si nos fijamos en la anterior imagen, podemos descubrir algunas cosas: lo

primero que aparece (considerando siempre el orden de izquierda a derecha)
es el ruido de fondo, que corresponde al silencio anterior a la emisión de
sonido. Luego aparecen manchas claramente más oscuras, y finalmente esas
manchas se disuelven y desaparecen, de modo que vuelve a quedar solo el
gris claro del principio. Lo siguiente que podemos tener en cuenta es la
distinción entre esas manchas, es decir, la representación gráfica de cada
sonido. Cada articulación tiene unas características acústicas que nos permiten
distinguirla perceptivamente de las demás, por lo que pueden denominarse

«segmentos», aunque algunas veces los límites pueden ser difusos, o
solaparse en las distintas frecuencias. El espectrograma recoge visualmente
esos rasgos, por lo que permite reconstruir un discurso oral.
2.9.1. Vocales
Hay una distinción básica para identificar cada segmento: los sonidos
afinados (que en las lenguas se llaman «sonoros», es decir, aquellos en los
que vibran las cuerdas vocales) presentan formantes. Como ya hemos
adelantado, estos formantes son las vibraciones periódicas que se dan a
distintas frecuencias (alturas) según la amplificación y resonancia debida a la
posición que adopten en cada caso las cavidades supraglóticas (oral, nasal y
orofaríngea) funcionando como filtros fijos. Los formantes aparecen en el
espectrograma como manchas oscuras ordenadas en horizontal. Una vocal
permite ver varias de estas manchas horizontales superpuestas (figura 10).
Figura 10. Sonido vocálico [e]
En la figura 10 encontramos el espectrograma de una [e] muy alargada. A

su izquierda vemos el gris correspondiente al silencio anterior, y a su derecha
el posterior. En la larga parte central, vemos una disposición particular de
manchas ordenadas en posición horizontal: los formantes. Concretamente, las
5 vocales del español se diferencian fundamentalmente por las alturas de las
dos primeras de esas manchas. Aunque las frecuencias pueden cambiar
relativamente, hay unas coordenadas típicas para los fonemas /i/, la /e/, la /a/,
la /o/ y la /u/ que permiten reconocerlas (figura 11).

Figura 11. Alturas de los formantes en las vocales del español
Para facilitar la interpretación del espectrograma, el programa PRAAT
permite sobreimprimir líneas o puntos rojos que se superponen a las manchas

grises oscuras de los formantes (en inglés, en PRAAT: formants) y aclaran
mecánicamente la altura de vibración. En realidad, el programa sobreimprime
un punto rojo en los picos más intensos del espectro en cada corte temporal, y
es posible cambiar el número de picos que identifica, aunque por defecto
recoge 5, como en la figura 12 (que corresponde al mismo sonido que la figura
10).
Figura 12. Sonido [e] con los formantes sobreimpresos mecánicamente
Las líneas de puntos rojos representan los formantes de manera más

evidente, aunque a veces pueden llevar a error y requieren ajustes: el primero
(F1) es el que está más cerca del borde inferior de la imagen; el segundo (F2)
es el que está inmediatamente por encima del primero. Los otros no suelen
tener especial importancia para definir las vocales.
Obviamente, para poder identificar una vocal es necesario tener un punto
de referencia: o bien se nos dan las alturas precisas en hercios (Hz), o bien se
nos ofrece un punto de comparación con otras vocales. La figura 13 muestra
una [u] y una [i].

Figura 13. [u, i]
Puede verse una vez más el gris claro correspondiente al silencio a la

izquierda, en el centro y a la derecha; y entre los tres intervalos de silencio, las
dos vocales. Aunque el programa no detalla las frecuencias en hercios en una
regleta (hay que pinchar en cada localización, o realizar otras acciones), la
diferencia de posición de los formantes 1 y 2 permite reconocer estas dos
vocales.
2.9.2. Consonantes
Aparte de las vibraciones periódicas sin modificar que caracterizan a las
vocales, el espectrograma recoge también otros fenómenos sonoros, como los
que pueden producir las consonantes. Naturalmente, solo vamos a presentar
algunos de los grupos más característicos.
Las nasales se caracterizan por el hecho de que son también sonoras y
bastante largas, de manera que aparecen casi como vocales. Sin embargo,
tienen un timbre característico que se debe a la resonancia de la cavidad nasal,
y que se manifiesta en el espectrograma en el hecho de que los formantes en
altura son más suaves, y en cambio aparece otro formante añadido mucho más
bajo, en contacto con el extremo inferior de la imagen (Fig. 14).
Figura 14. «Mañana»

Esta palabra contiene los tres fonemas consonánticos nasales del
español: puede notarse la diferencia con las tres vocales [a] que se intercalan.
Lo que rompe el silencio es la [m], en la que ya se ve el formante de nasalidad
junto a la línea de los 0 hercios. Este formante nasal (F0) se mantiene en toda
la palabra porque las vocales se nasalizan cuando se pronuncian entre
consonantes nasales. El resto de los formantes aparece muy debilitado en los
tres sonidos consonánticos, y fuerte en los vocálicos.
Diferencias más concretas entre las tres nasales se verán en el tema 5.
Las oclusivas sordas son fáciles de reconocer porque se caracterizan

por la interrupción del flujo de aire, con lo que aparece una columna de silencio
entre dos sonidos. A la derecha de esa columna puede notarse con mayor o
menor claridad la presencia de una finísima columna que representa la
explosión que se produce tras la oclusión. La figura 15 representa la palabra
«petaca», que contiene las tres oclusivas sordas del español.
Figura 15. «Petaca» (oclusivas sordas)
Como se ve, la interrupción del sonido es total, y la columna de la

explosión puede verse con cierta claridad, sobre todo en la última: el sonido [k].
De paso, podemos volver a ver la diferencia de altura de los formantes
correspondientes a la [e] y las dos [a]. En este sentido, puede verse que la
posición horizontal se mantiene perfectamente en la parte central de los tres
sonidos, pero no siempre en sus extremos: esa es la consecuencia del cambio
(rápido, pero real) que se produce en la cavidad oral para pasar de la posición
de la consonante a la de la vocal; esa transición se debe a la coarticulación, las
condiciones que la articulación de cada sonido imponen a la de sus vecinos.
De hecho, como veremos en su momento, una parte importante de la

información que permite identificar las distintas oclusivas está en las
modificaciones que imponen a las vocales.
Frente a las oclusivas sordas, las oclusivas sonoras no son tan obvias:
se mantiene la vibración periódica, que a veces no es lo suficientemente
intensa como para que el programa reconozca en ella formantes, pero que el
ojo sí puede interpretar. La razón es que, mientras dura la oclusión o bloqueo
de la boca, una mínima cantidad de aire sigue atravesando la glotis y haciendo
que vibren las cuerdas vocales para ir almacenándose en la cavidad oral (ya
que el velo del paladar también está bloqueado).
En la figura 16 aparece el espectrograma relativo a la palabra «bodega»,
que contiene las tres oclusivas sonoras del español.
Figura 16. «Bodega» (oclusivas sonoras)
También aquí hay una interrupción de la salida del aire, pero se mantiene
un pequeño formante gris claro en la línea inferior (similar al formante de
nasalidad, pero en un gris un poco más suave, que varía según la articulación).
Esa sonoridad es la que marca el inicio de la primera oclusiva sonora, la [b] que
aparece señalada con una línea negra vertical.
Sin embargo, una palabra como «bodega» aparece de esta manera solo
cuando se realiza una articulación extremadamente cuidada; lo normal es que
las oclusivas sonoras intervocálicas se debiliten hasta el punto de no ser más
que aproximantes: los órganos articulatorios se acercan un poco, marcan la
posición, pero no se tocan. El resultado es el que vemos en la figura 17.
Figura 17. «Bodega» (aproximantes)

Puede verse que, mientras la primera consonante [b] sigue siendo
oclusiva, en la /d/ y la /g/ la articulación se ha relajado: la vibración y los
formantes se mantienen, y la aproximación de los órganos se limita a provocar
una mínima pérdida de fuerza en los límites entre las tres vocales, que además
ven modificadas las alturas de sus formantes en la posición en la que les
correspondería estar en el caso de haberse realizado la oclusión total. No se
produce la fricción correspondiente a las fricativas y que se manifestaría en la
imagen como manchas muy oscuras y desordenadas en las frecuencias más
altas.
Fricativas sordas
Las fricativas se caracterizan por la aparición de una importante cantidad
de vibración que no es periódica y que tiene bastante intensidad en las
frecuencias más elevadas (en lo alto del gráfico). Además, en la articulación de
las fricativas sordas [f, θ, x, s], se detiene también la vibración de las cuerdas
vocales, de manera que esa mancha en lo alto se superpone al silencio en la
parte baja del gráfico. Es lo que vemos en el siguiente espectrograma, donde
se suceden las palabras «fosa ceja» (fig. 18).
Figura 18. «Fosa ceja» (fricativas)
Hay que interpretar que la [f] empieza a la altura de los primeros matices
gris oscuro en lo alto del espectro, aproximadamente en el punto en el que está
superpuesta manualmente una línea vertical. A partir de ahí, las vocales
presentan los formantes que les corresponden pero son más suaves en la
parte superior, mientras que las fricativas sordas se aclaran en la parte inferior
y se oscurecen en lo alto.
Puede añadirse, aunque es difícil ver esta diferencia con claridad, que la
[f] y sobre todo la [s] son más estridentes, es decir, la intensidad lograda en las

frecuencias más altas es mayor que en las otras dos fricativas. Esto se refleja
en los grises casi negros de la [s] en lo alto del espectrograma. Por otro lado,
los sonidos estridentes tienen un desarrollo más agudo que el resto de los
sonidos del español, por lo que podría ser conveniente analizar un espectro
más amplio, hasta los 10.000 Hz.
El único fonema cuyas realizaciones suelen ser africadas en español, /t /,

se caracteriza por la sucesión de dos imágenes un poco diferenciadas: la de la
oclusión y la de la fricción que la continúa. Lo vemos en este gráfico que
representa la palabra «eche» (Fig. 19).
Figura 19. «Eche» (africado)
Las tres líneas verticales marcan los límites entre la vocal y la oclusión,
entre esta y la fricción, y entre la fricción y la otra vocal. Como puede verse, el
resultado es muy similar al que tendríamos si combinásemos cualquier oclusiva
con cualquier fricativa sorda, como ocurre en palabras como «opción»,
«objeto», «laxo», etc. La razón por la que puede considerarse que una africada
es un único segmento a pesar de su realización en dos fases es que esas dos
articulaciones comparten necesariamente el lugar: así, en [t ] se pasa de una
oclusiva palatal a una fricativa palatal; además, hay pruebas fonológicas que
demuestran que para el hablante de español esas dos fases constituyen una
única entidad lingüística.
Las consonantes laterales no se distinguen por una imagen

especialmente vistosa, sino que se parecen bastante a las vocales, dado que la
posición de la lengua estorba pero no impide la salida del aire. Encontramos,
por tanto, un debilitamiento de la intensidad durante un tiempo relativamente
breve, y esa fase debilitada presenta un perfil particular. En el caso de la [l], la

duración es menor, y también es menor su influencia sobre las vocales vecinas,
mientras que en la [ʎ], por su realización casi africada, la duración es mayor y
también la deformación que impone a las vocales (Fig. 20). Por otro lado, la
lateral [l] presenta un F1 tan grave como el de la [u], y un F2 en torno a 1500
Hz, mientras que [ʎ] llega en este segundo formante a unos 2000 Hz (lo que
hace que se parezca más a [i]).
Figura 20. «Olalla»
Por el contrario, las róticas sí presentan una imagen espectrográfica

llamativa, al menos en la articulación más cuidada. Frente al correlato rótico
simple (o percusivo), la rótica múltiple o vibrante se caracteriza visualmente en
el espectrograma por la aparición de un conglomerado de mínimas oclusiones
que se alternan con mínimas vocales (llamadas esvarabáticas), como lo que se
ve en la figura 21. Para que se aprecie bien la diferencia entre una articulación
esmerada y una normal, aparece repetida la palabra «erre», la primera vez en
una realización mucho más cuidadosa.
Figura 21. «Erre erre» (róticas vibrantes o múltiples)
Como se ve, en el segundo caso encontramos también esa vibración,

pero mucho más difuminada en una consonante casi continua, mientras que en
el primer caso tenemos la posibilidad de reconocer el número exacto de

oclusiones que se han producido. Se puede apreciar también que las
oclusiones no impiden la vibración de las cuerdas vocales, de manera que
entre las mínimas columnas de la [r] se mantiene la continuidad de los
formantes propios de las vocales.
Por su parte, en la rótica percusiva o simple [ɾ] nos encontramos con uno
solo de esos golpes, tanto cuando aparece entre dos vocales como cuando
está en un grupo consonántico (figura 22).
Figura 22. Espectrograma de la secuencia «Para hartarse». Pueden observarse las tres
brevísimas interrupciones del sonido vocálico que corresponden a las róticas percusivas, tanto
cuando aparecen entre vocales («para») como cuando están junto a una consonante
(«hartarse»); por lo demás, es importante observar que en el discurso hablado no se realiza en
español ninguna pausa entre vocales de distintas palabras (como en [paɾaɾtáɾse]); si
atendemos a los otros sonidos estudiados, encontramos las dos oclusivas sordas,
perfectamente silenciosas hasta el momento de la explosión final que da paso al siguiente
sonido, y la fricativa sorda [s], con su masa de gris difuso en la parte más aguda del espectro.
Si recogemos ahora la imagen del espectrograma de la palabra «vienes»

(figura 23), podremos señalar en él los segmentos.
[b j e n e s]
Figura 23. «Vienes»
En este espectrograma puede verse la sonoridad grave del sonido

oclusivo sonoro [b], que se abre en una explosión para dar lugar al fonema /i/,

que por formar parte de un diptongo se pronuncia un poco de paso, breve y sin
estabilidad horizontal en los formantes (la semiconsonante [j]). Estas dos
vocales del diptongo interactúan de manera que los formantes dejan de ser
horizontales durante un tramo bastante amplio, aunque finalmente se
estabilizan en la [e]. La nasal [n] presenta las características habituales: un
formante de nasalidad pegado al límite inferior y algo de sonoridad, pero más
suave, en el resto de las frecuencias. La otra [e] tiene las mismas alturas que la
primera. Por último, el sonido [s] se caracteriza por la falta de frecuencias bajas
(un gris claro en la parte inferior del gráfico) y la aparición paulatina de una
mancha bastante informe en lo más agudo, que además es de un color muy
oscuro (estridencia).
2.9.3. Entonación
El espectrograma permite mostrar las vibraciones en escala de grises,
pero también pueden superponerse sobre él algunos elementos que sirven de
ayuda: ya hemos visto la posibilidad de remarcar las alturas exactas de los
formantes por medio de líneas y puntos rojos, y ahora veremos que la
entonación, es decir, las variaciones en la frecuencia de la vibración
fundamental, puede aparecer como una línea azul (en inglés, en PRAAT: pitch).
Los siguientes son espectrogramas que recogen una línea musical simple
(monódica): puede verse que la línea azul se sitúa en posiciones exactamente
horizontales, es decir, que la frecuencia de la vibración fundamental se
mantiene constante (figuras 24 y 25).
Figura 24. Arpegio en la sección de los violonchelos

Figura 25. Un violín solo tocando notas muy breves
Esto es muy útil para analizar la entonación en el habla (como veremos

en el Tema 6). Por ejemplo, el siguiente espectrograma recoge el enunciado
«¿vienes?» con entonación de interrogativa total (figura 26).
Figura 26. «¿Vienes?» La línea azul refleja la entonación. Al ser sorda, la [s] no permite
ninguna entonación.
Hay que entender que la frecuencia fundamental no aparece recogida en

el espectrograma normal (solo en esta línea azul superpuesta). Lo que muestra
el espectrograma son las texturas de las ondas sonoras. La razón fundamental
es la escala: el espectrograma recoge frecuencias que van de 0 a 5000 Hz o
más, mientras que las frecuencias de la fundamental en la voz humana solo
excepcionalmente llegan desde los 82 Hz de un bajo profundo hasta los 1046
Hz de una soprano, y suelen limitarse mucho más en la voz hablada, de
manera que en un espectrograma de estas características la frecuencia

fundamental es prácticamente indistinguible. La línea azul es la superposición
muy exagerada en otra escala de esa frecuencia fundamental5.
2. 10. La fonética perceptiva

Podemos hacer un breve resumen del proceso de la percepción de los
sonidos: las vibraciones periódicas y aperiódicas producidas por el habla (de
las que hemos hablado antes) viajan por el aire o por otros medios hasta el
oído del receptor, donde son recogidas y modificadas por el pabellón auricular
(oreja), que las dirige concentradas hacia el tímpano, una membrana tensa y
muy sensible. El tímpano es capaz de transformar las diferencias de presión
del aire en una vibración que se transmite a una cadena de huesecillos
conectados que la amplifica y la transmite al caracol, un órgano que traduce
esos movimientos en señales eléctricas muy específicas que se transmiten por
el sistema nervioso hasta la corteza cerebral, donde se integran en el conjunto
de funciones que organiza nuestra conciencia.
Esta descripción es válida para todos los sonidos a que está expuesto un
individuo, al menos entre unos determinados límites de frecuencia, amplitud y
duración. Entre todos esos sonidos se encuentran los que podemos integrar en
el habla, que al parecer reciben un tratamiento privilegiado por parte del
cerebro, que emplea una enorme cantidad de recursos en su recepción,
transmisión y descodificación. A la fonética perceptiva le interesa el conjunto de
ese proceso, hasta el momento en que las señales nerviosas llegan a las áreas
cerebrales encargadas de darles un sentido en el ámbito del lenguaje.
La fonética perceptiva estudia la percepción de las ondas sonoras por el
oído, incluyendo la recepción de los estímulos, su transmisión y transformación
en impulsos eléctricos que se transmiten al cerebro y que son asimilados como
sonidos lingüísticos conocidos por los hablantes. La neuropsicología ha
avanzado mucho en los últimos años gracias a las técnicas de imagen (como la
5
Puedes ampliar algunos aspectos interesantes sobre la voz humana en estos sitios:
http://www.ehu.eus/acustica/espanol/musica/vohues/vohues.html;
https://es.wikipedia.org/wiki/Se%C3%B1al_de_voz

resonancia magnética), pero quedan todavía muchas incógnitas en lo que
respecta a la manera en que el cerebro descodifica el lenguaje.
2. 12. El oído
El modo en que el sonido se transmite desde las vibraciones del aire
hasta las señales neuronales puede esquematizarse como en la figura 27.
Figura 27. Anatomía del sistema auditivo (https://es.wikipedia.org/wiki/O%C3%ADdo)
2. 12. 1. El oído externo

El oído externo está formado por todos los componentes que se
encuentran entre el pabellón auricular y el tímpano. Se caracteriza por estar
expuesto al exterior y en contacto con el aire, si bien la peculiaridad de su
forma de embudo es la clave de la amplificación de las ondas sonoras.
El pabellón auricular recoge, concentra y dirige la onda acústica
(deflexión), aumentando su intensidad, y también proporciona información
sobre el origen de las vibraciones, lo que ofrece información sobre la posición
de la fuente del sonido. El cerebro gestiona la información recogida por los dos
oídos de un modo diferenciado (oído bilateral): compara el tiempo que tarda en
llegar la información desde un oído y otro.
El conducto auditivo externo actúa como resonador y filtro,
amortiguando los sonidos más agudos.
2. 12. 2. El oído medio

La función principal del oído medio es adaptar y transformar las
vibraciones gaseosas en un movimiento mecánico que recoja la inmensa
complejidad de las ondas aéreas. Esas vibraciones perderían mucha
intensidad en el caso de que tuvieran que ser transmitidas directamente al oído
interno, al pasar de un medio aéreo a uno líquido. La cadena de huesos, por el
contrario, sirve para asegurar una transmisión suficiente al mismo tiempo que
protege al oído interno de los sonidos excesivamente intensos.
El tímpano es una membrana rodeada de una cámara de aire que
permite que vibre. Dado que toda su superficie está en tensión (porque sus
bordes están adheridos a las paredes del conducto auditivo) es
extremadamente sensible a las diferencias de presión entre el exterior y el
interior, así como a los más mínimos cambios de presión que se suceden en el
exterior como consecuencia de las vibraciones.
En contacto con el tímpano está el martillo, cuya sensibilidad le permite
entrar en acción con cada mínima vibración de la membrana. Así, ese
movimiento del tímpano se transforma en un vaivén del hueso, que a su vez lo
transmite al yunque, que funciona como una palanca en cuyo extremo se
encuentra un minúsculo huesecillo llamado estribo, que acciona la ventana
oval. Aunque en lo fundamental estos tres huesos vibran de manera pasiva,
también están gestionados por unos pequeños músculos que amortiguan
algunos movimientos violentos.
2. 12. 3. El oído interno

La ventana oval a la que se transmite la vibración de los huesecillos es el
extremo de la cóclea o caracol, un órgano que tiene la forma de una cavidad
alargada (el conducto coclear, de unos 35 mm de longitud), pero dispuesta en
espiral, lo que le da la característica forma de caracol de que recibe su nombre.
Esa cavidad alargada está dividida en tres canales superpuestos que están
rellenos de un líquido (perilinfa) en el que flota la membrana basilar y el órgano
de Corti, de la misma longitud que la cóclea. El sonido transmitido a través de
la ventana oval hace vibrar toda la membrana basilar, pero de maneras
diferenciadas según las características de cada zona.

En lo fundamental, el funcionamiento de este órgano y su capacidad de
diferenciar los agudos de los graves y las intensidades relativas de unos y otros
se basa en el hecho de que las frecuencias más altas vibran al principio y las
más bajas al final. Es lo mismo que ocurre cuando se sacude una toalla o
cuando se hace ondear una bandera: muchas frecuencias muy altas (las
vibraciones más pequeñas) no llegan a transmitirse hasta el final de la
bandera, donde solo alcanzan las sacudidas más importantes. En
consecuencia, el centro del caracol, que es el ápice de la cóclea, recoge la
información sobre las vibraciones más graves, incluyendo la fundamental. Pero
este efecto se amplifica por las características de las partes de la cóclea.
Primero, la membrana basilar (que divide la cóclea en dos a lo largo de la
espiral) varía en masa y rigidez en toda su longitud, con lo que su frecuencia
de resonancia varía según la zona: la base es más rígida, por lo que es más
sensible a las frecuencias agudas, mientras que el vértice es más flexible, y por
tanto más sensible a las frecuencias graves. Además, la base es más ancha
que el ápice, lo que también la hace más sensible a los agudos. Finalmente,
las dos principales cavidades separadas por la membrana basilar a lo largo de
la cóclea están conectadas en su extremo, de manera que las vibraciones
transmitidas por la ventana coclear se alejan por la rampa vestibular hasta ese
extremo pero vuelven hasta la base por la rampa timpánica, de tal manera que
se cruzan en un punto del órgano y resuenan, intensificando esa frecuencia en
concreto.
El órgano de Corti está dispuesto a todo lo largo de la membrana basilar y
es sensible a los movimientos que se dan en esta al vibrar. Toda su longitud
está conectada a receptores nerviosos que lanzan impulsos eléctricos al
cerebro. Dado que las zonas de la membrana que vibran son diferentes según
la frecuencia de la vibración, el caracol consigue reflejar una vibración compleja
en un mapa localizado de las distintas frecuencias, es decir, analiza el espectro
del sonido (figura 28).

Figura 28: El caracol desenrollado muestra la disposición de las zonas sensibles a las distintas
frecuencias. (https://www.centroauditivo-valencia.es/2016/01/27/fisiolog%C3%ADa-de-la-
audici%C3%B3n-o%C3%ADdo-interno-c%C3%B3clea-y-transducci%C3%B3n/)
2. 13. Fases del proceso auditivo

El proceso de la audición puede resumirse así: las vibraciones que
provocan en el aire las ondas sonoras al propagarse son recogidas por el
pabellón auditivo y recorren el conducto auditivo hasta el tímpano, produciendo
vibraciones en él. Estas vibraciones son amplificadas y transmitidas mediante
movimientos mecánicos por la cadena de huesecillos hasta alcanzar la ventana
oval: entonces el estribo pone en movimiento los líquidos laberínticos y
transmite la vibración a la perilinfa de la rampa vestibular. La vibración del
perilinfo se comunica a la membrana basilar y activa los cilios del órgano de
Corti, que captan estos cambios de presión y los convierten en estímulos
eléctricos que se transmiten al cerebro (figura 29). Las células ciliadas
conectan en su base con las fibras nerviosas y se generan, mediante cambios
electroquímicos, los impulsos nerviosos que a través del nervio acústico llegan
al cerebro, donde son descifrados6.
6
Este proceso está bastante claro en el vídeo:
https://www.youtube.com/watch?v=6PyTwy65pLQ.

Figura 29. Esquema electro-mecánico del oído humano (adaptado de Durá Doménech, Antonio
(2005): Temas de acústica, Alicante, Universidad de Alicante, p. 284).
2. 14. Percepción de los componentes sonoros

Este complejo sistema nos permite percibir los componentes sonoros,
aspectos físicos (objetivos) como la cantidad, intensidad, frecuencia del
armónico fundamental y estructura formántica de las ondas sonoras. Pero la
percepción no se limita a sumar estos factores entre sí y con el resto de las
percepciones, sino que construimos una impresión unitaria a partir de todos
ellos y en relación con las categorías que hemos ido generando en la memoria.
En la percepción del sonido hay muchos factores interconectados y en
gran medida estadísticos: las características acústicas de la frecuencia,
intensidad y longitud tienen correlatos perceptivos que son la tonía, sonía y
duración. Pero la percepción humana de las variables físicas depende en gran
medida de la imperfecta y heterogénea sensibilidad de los órganos y de la
capacidad del cerebro para reintegrar los datos recogidos en una interpretación
coherente y verosímil de los fenómenos del mundo. Así, ninguno de los
parámetros físicos que componen la onda es percibido de manera pura, sino
que todos ellos están interconectados, se influyen entre sí de maneras
complejas y variables, que dependen también de las capacidades perceptivas
de cada individuo.

La tonía depende fundamentalmente de la frecuencia de la vibración, tal
como la percibe el oído del receptor: el oído medio humano tiene unos límites
situados en frecuencias entre 20 y 20.000 Hz (hercios o ciclos por segundo),
aunque con la edad la sensibilidad al sonido disminuye, afectando sobre todo a
las frecuencias superiores: a los 60 años, el límite superior no suele superar los
12.000 Hz. Por otro lado, las personas utilizan registros más agudos o más
graves. Los bajos profundos pueden llegar a los 80 Hz; las sopranos ligeras
alcanzan los 1.150 Hz. Pero cada persona tiene unas cuerdas vocales de
distinto grosor y longitud que configuran su tono fundamental peculiar. En los
hombres, suele estar en torno a 120 Hz; en las mujeres, en torno a 220 Hz.
Dentro de los límites de esas tesituras, la cadena hablada recorre
distintas alturas de una manera bastante caprichosa pero sometida a algunas
convenciones que en algunos casos forman parte de la lengua y en otros casos
no pasa de un recurso expresivo. La prosodia se basa parcialmente en las
curvas melódicas. Al nivel de la palabra, se aplica con carácter fonológico en
las lenguas tonales (como el mandarín o el griego clásico), pero también el
español recurre a la altura del sonido para señalar la posición del acento, que
no depende solo de la intensidad.
Pero la tonía, impresión auditiva o percepción de la altura no coincide
exactamente con el tono (frecuencia fundamental de las vibraciones o primer
armónico), sino que depende de características intrínsecas y del contexto.
Entre las primeras está el hecho de que se reconocen mejor las diferencias de
frecuencia en las frecuencias más bajas. También forma parte de las
características intrínsecas el fenómeno por el que el cerebro identifica la altura
del sonido a partir de sus armónicos 3º a 6º incluso aunque la frecuencia
fundamental esté muy mitigada o no se perciba (como ocurre por teléfono), es
decir, las relaciones entre las distintas vibraciones subordinadas a la frecuencia
fundamental son constantes, de manera que somos capaces de reconocer la
frecuencia fundamental incluso sin oírla. Respecto a las vibraciones con
frecuencias mucho mayores, las que superan los límites del individuo cuyas
capacidades se van reduciendo con la edad, suelen ser redundantes desde el

punto de vista del habla, ya que son meramente armónicos de vibraciones
fundamentales más graves, que sí pueden ser percibidas.
Las condiciones contextuales son circunstancias que se ha comprobado
que tienen repercusiones sobre la percepción de la altura: fundamentalmente,
encontramos contextos segmentales que provocan cambios perceptivos.
Podemos citar el fenómeno por el que la vocal que sigue a una oclusiva sorda
suena más aguda, por causas que se discute que sean aerodinámicas o
articulatorias (Gil, 2007: 57).
La intensidad es la amplitud de las ondas que forman parte de las

vibraciones. La sonía (impresión perceptiva de la energía) tampoco coincide
exactamente con la intensidad o amplitud de onda: depende de la amplitud,
pero también de la frecuencia, del espectro y de la duración.
Los seres humanos tenemos límites en lo que respecta a la intensidad: el
mínimo se confunde con el silencio en aquellos casos en que la onda no
alcanza una determinada amplitud de onda. Llamamos umbral absoluto de
intensidad al que permite distinguir un sonido del silencio. El máximo en
cambio es el límite entre la percepción indolora y el dolor. Sin embargo, ambos
están condicionados por la frecuencia: los límites no son iguales en las
frecuencias altas y en las bajas. El campo de audición se encuentra entre la
intensidad sonora más débil capaz de suscitar una sensación y el umbral del
dolor, que se manifiesta cuando el sonido es excesivamente intenso.
La curva de Wegel (figura 30) muestra los límites desde lo inaudible hasta
lo doloroso, es decir, los límites perceptivos en cuanto a frecuencia e
intensidad:

Figura 30: Curva de Wegel
(https://paginaspersonales.deusto.es/airibar/fonetica/apuntes/04.html)
Además, no percibimos igual un ruido constante al que nos hemos

acostumbrado que un ruido recién aparecido: y es que la duración influye en la
sonía de manera directamente proporcional cuando el sonido es muy breve,
pero inversamente cuando es largo (Gil, 2007: 63). En ese sentido, se habla
del umbral diferencial de intensidad, que es el cambio más pequeño
producido en un estímulo que puede distinguir un oyente y que permite
reconocer sonidos como iguales o discriminarlos como diferentes.
La «duración» es el tiempo que dura el sonido (aunque algunos autores

hablan de «longitud», que más frecuentemente se refiere a la longitud de
onda). En todo caso, la percepción de la duración de un sonido tampoco es
exactamente fiel a la realidad física, sino que depende de varios factores,
internos y externos. Para empezar, algunos límites entre segmentos contiguos
son difíciles de establecer (como los de los diptongos, o como la sonoridad de
un segmento que se mantiene durante una parte del segmento sordo que la
sigue, o como la nasalidad de una consonante que puede contaminar a la vocal
siguiente) y por tanto su duración también lo es. Por otro lado, hay límites a la
percepción humana: la longitud mínima perceptible es de entre 10 y 40 ms.

Pero la sonía (la percepción de la intensidad) modifica la percepción de la
duración (a diferencia de la tonía, que no parece influir decisivamente). Entre
los factores externos encontramos: la coarticulación, por la que las
consonantes sonoras tienden a provocar un alargamiento en la vocal
precedente; la estructura silábica, por la que la coda silábica influye sobre la
vocal; la posición del segmento en la sílaba o de la sílaba en la palabra y el
enunciado: por un lado, el segmento final tiende a alargarse, mientras que un
mayor número de sílabas postónicas acorta la sílaba tónica.
Por último, en lo que atañe a la percepción del timbre (la cualidad

acústica propia de cada sonido, que depende, como hemos visto, del espectro
armónico), es lo que permite al cerebro reconocer la identidad del cuerpo
fuente del sonido gracias a la peculiar distribución de las vibraciones complejas
procedentes de él. La cóclea envía un análisis del espectro tal como se ha
manifestado en sus diferentes longitudes, y el cerebro construye con la
información obtenida un modelo que resulta comparable con categorías
conocidas.
Se pueden reconocer timbres característicos según la fuente (el viento, el
mar, la hojarasca, un claxon, un instrumento musical, un ser humano, un
individuo en concreto, o bien características asociadas al timbre como el sexo,
la edad, la lengua o el dialecto). Del mismo modo, la lengua incorpora esas
categorías tímbricas al reconocimiento de los fonemas vocálicos y de los
nasalizados.
2. 15. La percepción del habla

Nuestro sistema auditivo parece estar preparado de una manera
específica para percibir diferentes patrones de sonido. Aunque hay teorías que
señalan las diferencias intrínsecas entre el habla y la música (consideran que
el discurso hablado es mucho más rápido), parece haber otras diferencias que
exigen la intervención de áreas cerebrales especializadas.
Por un lado, el habla únicamente requiere el análisis los tres primeros
formantes, mientras que somos capaces de percibir muchísimos más en los

sonidos de la naturaleza o en la música. Por otro lado, la velocidad requerida
para la percepción diferenciada y ordenada de los sonidos del habla es mucho
mayor que la que parece necesaria o simplemente útil en los demás ámbitos:
identificamos con normalidad una media de unos 8 a 10 segmentos lingüísticos
por segundo, mientras que en la naturaleza esa misma velocidad produce
sensaciones de ruido o zumbido.
Pero, sobre todo, el cerebro tiene un mecanismo que no es estrictamente
auditivo que le permite categorizar muchos sonidos diferentes como variantes
de un único fonema. Ese mecanismo tiene la flexibilidad suficiente como para
verse modificado por la experiencia de adquisición de una lengua, si bien se va
perdiendo flexibilidad con el paso de los años, que es donde radica la dificultad
creciente de aprender lenguas extranjeras en la vida adulta, y especialmente la
de su estructura fonético-fonológica.
Es posible que esos mecanismos específicos que el cerebro desarrolla
para gestionar la lengua se encuentren localizados en una zona especializada
en el lóbulo temporal izquierdo (y esto permitiría relacionarlo con la importancia
de la captación de una rápida sucesión de sonidos): las lesiones que algunos
pacientes presentan en esa zona se han relacionado con trastornos como la
afasia (como ya describió Wernicke), una alteración en el reconocimiento de las
palabras a pesar de mantenerse intacta la capacidad perceptiva del sonido y
del tono.
Para la lingüística, esa autonomía del lenguaje frente al sonido es
fundamental, porque explica la importancia de las diferencias entre la
naturaleza del sonido (y de su articulación y percepción) y la categorización
fonológica.
Como veremos en el próximo tema, el estudio fonológico de la lengua
(frente al estudio fonético, que corresponde al habla) debe centrarse en los
rasgos mínimos que permiten al hablante caracterizar cada fonema de manera
que sea posible identificar correctamente sus palabras y así el sentido de lo
que trata de decir; por el contrario, debe dejar a un lado todos esos otros
rasgos que caracterizan esta o aquella realización del fonema pero que no
pueden considerarse imprescindibles.


02 Tema 2 p4XYUH-2. FonÃ©tica Acãºstica. FonÃ©tica Perceptiva

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

02 Tema 2 p4XYUH-2. FonÃ©tica Acãºstica. FonÃ©tica Perceptiva

Cargado por

Copyright:

Formatos disponibles

TEMA 2. FONÉTICA ACÚSTICA.

Miguel Martín Echarri

El sonido es la sensación percibida por el oído cuando las partículas de un medio

Un golpe entre dos piedras provoca un repentino desplazamiento del aire

This obra by UBUCEV is licensed under a Creative Commons Reconocimiento-NoComercial-

Figura 1. Esquema de una onda generada en un émbolo

Una onda es un movimiento oscilante de las partículas: la energía que se

This obra by UBUCEV is licensed under a Creative Commons Reconocimiento-NoComercial-

Teniendo en cuenta que el movimiento de la partícula provoca un

Figura 3. Esquema de una onda simple

Esta representación coincide con la propia de las ondas transversales

This obra by UBUCEV is licensed under a Creative Commons Reconocimiento-NoComercial-

2. 2. Pulsos y ondas compuestas y vibratorias

This obra by UBUCEV is licensed under a Creative Commons Reconocimiento-NoComercial-

Figura 4. Interferencias entre las ondas producidas por dos fuentes

Pero además, a veces la propia fuente entra en vibración: entonces

2. 3. La percepción de los fenómenos acústicos

This obra by UBUCEV is licensed under a Creative Commons Reconocimiento-NoComercial-

This obra by UBUCEV is licensed under a Creative Commons Reconocimiento-NoComercial-

2. 5. Las ondas compuestas, la resonancia y el timbre

This obra by UBUCEV is licensed under a Creative Commons Reconocimiento-NoComercial-

This obra by UBUCEV is licensed under a Creative Commons Reconocimiento-NoComercial-

This obra by UBUCEV is licensed under a Creative Commons Reconocimiento-NoComercial-

La resonancia, fenómeno físico que tiene lugar en las cavidades supraglóticas,

El timbre corresponde entonces al espectro armónico, es decir, a la

This obra by UBUCEV is licensed under a Creative Commons Reconocimiento-NoComercial-

This obra by UBUCEV is licensed under a Creative Commons Reconocimiento-NoComercial-

2. 6. Circunstancias acústicas que distinguen sonidos

This obra by UBUCEV is licensed under a Creative Commons Reconocimiento-NoComercial-

2. 7. Clasificación acústica de los sonidos del español

This obra by UBUCEV is licensed under a Creative Commons Reconocimiento-NoComercial-

Periódica Aperiódica Aperiódica Oral fijo Oral variable Nasal fijo

X X Oclusivas sordas orales

X X X Oclusivas sonoras orales

2. 8. Medios de análisis acústico:

This obra by UBUCEV is licensed under a Creative Commons Reconocimiento-NoComercial-

2.9. Cómo analizar espectrogramas

This obra by UBUCEV is licensed under a Creative Commons Reconocimiento-NoComercial-

Figura 8. Ruido de fondo

Cuando aparecen sonidos específicos sobre el ruido de fondo, se

Si nos fijamos en la anterior imagen, podemos descubrir algunas cosas: lo

This obra by UBUCEV is licensed under a Creative Commons Reconocimiento-NoComercial-

Figura 10. Sonido vocálico [e]

En la figura 10 encontramos el espectrograma de una [e] muy alargada. A

This obra by UBUCEV is licensed under a Creative Commons Reconocimiento-NoComercial-

Para facilitar la interpretación del espectrograma, el programa PRAAT

permite sobreimprimir líneas o puntos rojos que se superponen a las manchas

Figura 12. Sonido [e] con los formantes sobreimpresos mecánicamente

Las líneas de puntos rojos representan los formantes de manera más

This obra by UBUCEV is licensed under a Creative Commons Reconocimiento-NoComercial-

Puede verse una vez más el gris claro correspondiente al silencio a la

Figura 14. «Mañana»

This obra by UBUCEV is licensed under a Creative Commons Reconocimiento-NoComercial-

Las oclusivas sordas son fáciles de reconocer porque se caracterizan

Figura 15. «Petaca» (oclusivas sordas)

Como se ve, la interrupción del sonido es total, y la columna de la

This obra by UBUCEV is licensed under a Creative Commons Reconocimiento-NoComercial-

Figura 16. «Bodega» (oclusivas sonoras)

Figura 17. «Bodega» (aproximantes)

This obra by UBUCEV is licensed under a Creative Commons Reconocimiento-NoComercial-

Figura 18. «Fosa ceja» (fricativas)

This obra by UBUCEV is licensed under a Creative Commons Reconocimiento-NoComercial-