Documentos de Académico
Documentos de Profesional
Documentos de Cultura
FONÉTICA PERCEPTIVA
2. 1. El sonido y la onda
El oído nos permite reconocer las perturbaciones y movimientos a nuestro
alrededor. Es un sistema de alerta frente a peligros y oportunidades. Hemos
evolucionado para protegernos de esas contingencias que pueden delatar su
cercanía por las turbulencias transmitidas por el aire. Llamamos «sonido» a la
percepción humana de las vibraciones, que en la mayor parte de los casos
tiene al aire por medio de transmisión.
1
Puede verse cómo los péndulos de este experimento vuelven pronto a la posición inicial después del
paso de la onda: Onda transmitida de un péndulo a una sucesión de péndulos.
https://www.youtube.com/watch?v=1Vu051YgcPA. Si consideramos una porción del espacio que se
encuentre muy alejada del foco, puede llegar a parecerse a la animación interactiva que aparece en este
enlace: https://musiclab.chromeexperiments.com/Sound-Waves. En principio, un único golpe (como el
de las dos piedras) produce una única onda, mientras que aquí encontramos varias porque la nota
resuena, es decir, sigue vibrando después del golpe, con lo que produce otras ondas. Cuando pulsamos
cualquier tecla, la perturbación se transmite por las partículas, pero cada una de ellas se mueve solo un
poco. Otra animación (la primera que aparece en el siguiente enlace) se centra en el pequeño
movimiento que realiza cada una de las partículas:
http://www.acs.psu.edu/drussell/Demos/waves/wavemotion.html.
2. 4. Parámetros de medición
Podemos encontrar tres parámetros para medir cualquier vibración:
La duración es el tiempo durante el cual se mantiene la vibración, lo cual
puede implicar una cantidad enorme de ciclos simples o compuestos. Por
ejemplo, el tiempo que dura el sonido de la trompeta cuando un trompetista
sopla por la boquilla. En el caso del habla, una fuente sonora (que podemos
llamar un segmento, o simplemente un sonido) concluye en el momento en que
empezamos a generar otro sonido, o bien cuando terminamos nuestra
intervención.
Obviamente, un segmento puede ser más largo o más breve, diferencia
que en lenguas como el inglés o el latín clásico puede distinguir significados.
En español, esta variable está ligada al acento de intensidad, pero también a la
expresión y al tempo. En principio, los sonidos acentuados son más largos,
como ocurre normalmente en la primera [a] de «casa», aunque también se
alargan algunas sílabas por otras razones (la sílaba final de un enunciado
suele ser muy larga y suave, por ejemplo).
La media de segmentos por segundo en el habla suele estar en torno a 7,
de ahí que merezca la pena medir este parámetro en milisegundos (ms).
El segundo parámetro que puede medirse en la onda es la frecuencia, es
decir, el número de ciclos o periodos que se producen en un tiempo dado:
como ya hemos visto, se mide en ciclos por segundo o hercios (Hz), y el sonido
suena tanto más agudo cuanto mayor es la frecuencia. La longitud de onda es
Figura 5. La combinación de tres ondas sinusoidales da lugar a una onda compuesta. Este
ejemplo está tomado de
http://clas.mq.edu.au/speech/acoustics/waveforms/adding_waveforms.html, donde hay muchos
otros ejemplos interesantes de adición de ondas.
En este tipo de ondas, hay un ciclo compuesto que se repite (la vibración
fundamental), y dentro de él encontramos un patrón que incluye vibraciones
que se repiten más veces con una menor longitud de onda. La vibración
principal se llama primer armónico o frecuencia fundamental (F0), y las demás
están numeradas: el segundo armónico vibra el doble de veces por segundo; el
tercero, tres veces más; y así sucesivamente. Los primeros 16 pueden
analizarse experimentalmente, pero la serie armónica continúa hasta el infinito,
y la intensidad diferenciada que presentan algunos rangos de armónicos (los
formantes) es fundamental para entender las diferencias de timbre.
2
Encontramos otro ejemplo muy claro en el vídeo
https://www.youtube.com/watch?time_continue=56&v=q7Jh0zu8xUY
3
Hay una explicación en este vídeo: https://www.youtube.com/watch?v=Ory4XB9SmkY
4
Este acontecimiento se grabó cinematográficamente: https://www.youtube.com/watch?v=j-zczJXSxnw
Figura 6. Espectro de las vocales [i, u, e, o] (en inglés canadiense). Como puede verse, se analiza un
instante, o bien la media de un segmento, pero no los espectros a lo largo del tiempo. La frecuencia
aparece en el eje horizontal (los valores más altos a la derecha) y la intensidad en vertical (los valores
más altos arriba) (http://tuninst.net/HUMAN-VOICE/Snd-hear/snd-hear.htm).
X X Vocales orales
X X X Vocales nasalizadas
X X Fricativas sordas
X X Laterales
X X X X Róticas
Figura 9. «Vienes»
2.9.1. Vocales
Hay una distinción básica para identificar cada segmento: los sonidos
afinados (que en las lenguas se llaman «sonoros», es decir, aquellos en los
que vibran las cuerdas vocales) presentan formantes. Como ya hemos
adelantado, estos formantes son las vibraciones periódicas que se dan a
distintas frecuencias (alturas) según la amplificación y resonancia debida a la
posición que adopten en cada caso las cavidades supraglóticas (oral, nasal y
orofaríngea) funcionando como filtros fijos. Los formantes aparecen en el
espectrograma como manchas oscuras ordenadas en horizontal. Una vocal
permite ver varias de estas manchas horizontales superpuestas (figura 10).
2.9.2. Consonantes
Aparte de las vibraciones periódicas sin modificar que caracterizan a las
vocales, el espectrograma recoge también otros fenómenos sonoros, como los
que pueden producir las consonantes. Naturalmente, solo vamos a presentar
algunos de los grupos más característicos.
Las nasales se caracterizan por el hecho de que son también sonoras y
bastante largas, de manera que aparecen casi como vocales. Sin embargo,
tienen un timbre característico que se debe a la resonancia de la cavidad nasal,
y que se manifiesta en el espectrograma en el hecho de que los formantes en
altura son más suaves, y en cambio aparece otro formante añadido mucho más
bajo, en contacto con el extremo inferior de la imagen (Fig. 14).
También aquí hay una interrupción de la salida del aire, pero se mantiene
un pequeño formante gris claro en la línea inferior (similar al formante de
nasalidad, pero en un gris un poco más suave, que varía según la articulación).
Esa sonoridad es la que marca el inicio de la primera oclusiva sonora, la [b] que
aparece señalada con una línea negra vertical.
Sin embargo, una palabra como «bodega» aparece de esta manera solo
cuando se realiza una articulación extremadamente cuidada; lo normal es que
las oclusivas sonoras intervocálicas se debiliten hasta el punto de no ser más
que aproximantes: los órganos articulatorios se acercan un poco, marcan la
posición, pero no se tocan. El resultado es el que vemos en la figura 17.
Fricativas sordas
Las fricativas se caracterizan por la aparición de una importante cantidad
de vibración que no es periódica y que tiene bastante intensidad en las
frecuencias más elevadas (en lo alto del gráfico). Además, en la articulación de
las fricativas sordas [f, θ, x, s], se detiene también la vibración de las cuerdas
vocales, de manera que esa mancha en lo alto se superpone al silencio en la
parte baja del gráfico. Es lo que vemos en el siguiente espectrograma, donde
se suceden las palabras «fosa ceja» (fig. 18).
Hay que interpretar que la [f] empieza a la altura de los primeros matices
gris oscuro en lo alto del espectro, aproximadamente en el punto en el que está
superpuesta manualmente una línea vertical. A partir de ahí, las vocales
presentan los formantes que les corresponden pero son más suaves en la
parte superior, mientras que las fricativas sordas se aclaran en la parte inferior
y se oscurecen en lo alto.
Puede añadirse, aunque es difícil ver esta diferencia con claridad, que la
[f] y sobre todo la [s] son más estridentes, es decir, la intensidad lograda en las
Las tres líneas verticales marcan los límites entre la vocal y la oclusión,
entre esta y la fricción, y entre la fricción y la otra vocal. Como puede verse, el
resultado es muy similar al que tendríamos si combinásemos cualquier oclusiva
con cualquier fricativa sorda, como ocurre en palabras como «opción»,
«objeto», «laxo», etc. La razón por la que puede considerarse que una africada
es un único segmento a pesar de su realización en dos fases es que esas dos
articulaciones comparten necesariamente el lugar: así, en [t ] se pasa de una
oclusiva palatal a una fricativa palatal; además, hay pruebas fonológicas que
demuestran que para el hablante de español esas dos fases constituyen una
única entidad lingüística.
Figura 22. Espectrograma de la secuencia «Para hartarse». Pueden observarse las tres
brevísimas interrupciones del sonido vocálico que corresponden a las róticas percusivas, tanto
cuando aparecen entre vocales («para») como cuando están junto a una consonante
(«hartarse»); por lo demás, es importante observar que en el discurso hablado no se realiza en
español ninguna pausa entre vocales de distintas palabras (como en [paɾaɾtáɾse]); si
atendemos a los otros sonidos estudiados, encontramos las dos oclusivas sordas,
perfectamente silenciosas hasta el momento de la explosión final que da paso al siguiente
sonido, y la fricativa sorda [s], con su masa de gris difuso en la parte más aguda del espectro.
[b j e n e s]
Figura 23. «Vienes»
2.9.3. Entonación
El espectrograma permite mostrar las vibraciones en escala de grises,
pero también pueden superponerse sobre él algunos elementos que sirven de
ayuda: ya hemos visto la posibilidad de remarcar las alturas exactas de los
formantes por medio de líneas y puntos rojos, y ahora veremos que la
entonación, es decir, las variaciones en la frecuencia de la vibración
fundamental, puede aparecer como una línea azul (en inglés, en PRAAT: pitch).
Los siguientes son espectrogramas que recogen una línea musical simple
(monódica): puede verse que la línea azul se sitúa en posiciones exactamente
horizontales, es decir, que la frecuencia de la vibración fundamental se
mantiene constante (figuras 24 y 25).
Figura 26. «¿Vienes?» La línea azul refleja la entonación. Al ser sorda, la [s] no permite
ninguna entonación.
5
Puedes ampliar algunos aspectos interesantes sobre la voz humana en estos sitios:
http://www.ehu.eus/acustica/espanol/musica/vohues/vohues.html;
https://es.wikipedia.org/wiki/Se%C3%B1al_de_voz
2. 12. El oído
El modo en que el sonido se transmite desde las vibraciones del aire
hasta las señales neuronales puede esquematizarse como en la figura 27.
6
Este proceso está bastante claro en el vídeo:
https://www.youtube.com/watch?v=6PyTwy65pLQ.