Está en la página 1de 5

Apuntes de la Asignatura de Física Acústica II

Parámetros de la Voz Parte 1

Frecuencia fundamental
La frecuencia fundamental o F0, es el primer armónico o modo normal de
vibración de las cuerdas vocales cuando, en posición de aducción o posición
fonatoria, alternan entre fase de contacto y decontacto debido a la presión
subglótica que provoca el flujo espiratorio.
La F0 es un parámetro fundamental de la voz, ya que refleja el producto
principal de la función vibratoria de las cuerdas vocales. Es decir, la vibración
cordal se desarrolla con un período y frecuencia que determinan el resto de
las frecuencias armónicas. En términos perceptuales, determina el tono y
altura de la emisión de voz.
Sin embrago, la F0 varía según el uso de la voz, ya sea en el ámbito de habla
(voz conversacional o discursiva, por ejemplo) o del canto. En la voz hablada,
la prosodia determina el rango de variación del tono o F0 de la emisión. En
voz cantada, el rango de variación de la F0 queda determinada por la
clasificación del cantante o por sus posibilidades tonales, por el estilo musical
y otros factores estilísticos. En resumen, la F0 es un parámetro que puede
tomar distintos valores dentro de un rango acotado que depende del contexto
de uso de la voz, las características lingüísticas y las características
anatómicas y fisiológicas del emisor.
Por lo tanto, al medir el valor de la F0, hay que determinar el propósito de la
medición y el contexto dentro del cual se medirá, ya que el valor a evaluar
tendrá validez y fiabilidad en la medida que refleje características que se
expresan en dicho contexto y bajo los propósitos determinados. Por ejemplo,
si quisiéramos determinar el valor de la F0 característico en contexto de habla,
de un sujeto en particular, deberíamos proponer una tarea en la que el sujeto
registre la lectura de un texto fonéticamente balanceado, o una serie
automática de palabras, o habla espontánea conversacional, o habla
discursiva, u otro. Estos contextos dependerán del propósito de la evaluación.
Como sea, a lo largo de dicha tarea fonatoria, el sujeto emitirá durante el
tiempo de habla, distintos valores de F0 dentro de un rango tonal. Por lo tanto,
surge la pregunta; ¿cuál de todos esos valores que se suceden en el tiempo
es el valor que caracteriza el aspecto de la voz que se quiere caracterizar en
el sujeto evaluado? Podríamos utilizar descriptores estadísticos para obtener
una respuesta. Podríamos utilizar medidas de tendencia central tales como
promedio, mediana o moda. Podríamos utilizar el valor máximo y/o el valor
mínimo. El valor que utilicemos, o dicho de otra manera, cómo procesemos
los diversos valores de F0 en el contexto de habla, quedará determinado por
el propósito de la medición.
Tono Medio Hablado
Este parámetro expresa, en un sentido literal, el tono medio usado en
contexto de habla. Aun que el término “tono” se refiere a una nota musical,
se expresa como un valor de frecuencia de la F0. Entonces, el Tono Medio
Hablado es la medida de tendencia central del conjunto de valores de F 0
medidos en habla.
La medida de tendencia central más usada es el promedio. Sin embrago, este
descriptor estadístico es muy susceptible de sufrir variaciones debido a
cambios prosódicos. Ello puede ser una ventaja si el propósito es evaluar, por
ejemplo, características prosódicas de hablantes en función de variables
geográficas, socioculturales, etarias, etc. Pero si el propósito es realizar un
estudio clínico, sería mejor utilizar otros descriptores tales como moda o
mediana, ya que ellos son menos sensibles a dichas variables. Es decir, desde
el punto de vista clínico, el propósito de la evaluación del Tono medio Hablado
es caracterizar la fisiología fonatoria en función del uso de la voz que realice
el sujeto.
Para medir el Tono Medio Hablado, el sujeto en estudio debe realizar una
tarea fonatoria que implique la lectura de un texto fonéticamente balanceada,
habla conversacional espontánea, habla discursiva u otras. A través de un
software de análisis espectral de voz, se debe obtener el valor promedio, o la
mediana, o la moda, según el propósito de la medición.
Según el libro Fonética Acústica de la Lengua Española de Antonio Quilis, el
rango estadístico que define el tono medio hablado es: para adulto hombre,
80 a 160 [Hz]; adulto mujer, 170 a 340 [Hz]; niño, 250 a 500 [Hz]
Extensión Tonal Hablada
Este parámetro corresponde al valor máximo y mínimo que definen el rango
de variación de la F0 en un contexto de habla. Es un descriptor que aporta a
la caracterización de la prosodia del hablante en cuestión. Por ejemplo, si el
sujeto presenta una prosodia “exagerada”, la Extensión Tonal Hablada
acusará un rango de variación de la F0 mayor que si la prosodia es mas bien
“plana” o el habla es monótona.
Para medir la Extensión Tonal Hablada, al igual que en el Tono Medio Hablado,
el sujeto en estudio debe realizar una tarea fonatoria que implique la lectura
de un texto fonéticamente balanceada, habla conversacional espontánea,
habla discursiva u otras. A través de un software de análisis espectral de voz,
se debe obtener el valor máximo u mínimo durante el tiempo de fonación.
Jitter
Si un humano realiza una emisión de voz, de forma que conscientemente
genera un sonido estable en altura y volumen, será virtualmente imposible
que dicha emisión sea absolutamente estable; es decir, que la frecuencia y
amplitud de la F0 arrojen exactamente el mismo valor durante la emisión. Sin
embrago, se estima que dentro de ciertos márgenes, la inestabilidad en la F0
(en frecuencia y amplitud) es normal; es decir, no refleja un desorden o
patología vocal.
El parámetro Jitter evalúa la estabilidad de la frecuencia de la F0. Es un valor
que se expresa como porcentaje de variación con respecto al promedio de la
F0 al emitir un fonema sonoro estable en altura y volumen. Para entender
esto, consideremos que si el valor de Jitter fuera en un caso particular, igual
a 0%, la emisión sería absolutamente estable e invariable en altura y tono.
De este modo, mientras mayor sea el valor de Jitter, más inestable será la
frecuencia de la F0. O, en términos estadísticos mayor será la desviación
estándar de dicho valor.
Hay varias investigaciones que han arrojado valores umbrales de normalidad
de este descriptor. El valor umbral más utilizado es 1,04%. En función de
ello, si el valor de Jitter es menor a 1,04%, se considera que la inestabilidad
en la fonación está dentro de los márgenes de normalidad y que, por lo tanto,
el sujeto no presenta un desorden vocal que provoque una inestabilidad
fonatoria. Por otro lado, si el valor de Jitter supera dicho valor, ello no implica
necesariamente que el sujeto presente un desorden o patología vocal.
La terea fonatoria que se utiliza para obtener el valor de Jitter de modo de
comparar el valor medido con el umbral de normalidad aceptado, es la
emisión del fonema /a/ de forma estable en altura y volumen.
Shimmer
Este parámetro es equivalente al Jitter, en términos de cuantificar la
inestabilidad en la fonación. Pero a diferencia de este último, cuantifica la
inestabilidad de la amplitud de la F0. Se expresa como porcentaje o decibeles
de variación con respecto al valor promedio. El valor de umbral de normalidad
más utilizado es 0,35 [dB] y se mide a partir del registro de la emisión del
fonema /a/ en forma estable en altura y volumen.
Quiebres vocales
Los quiebres vocales son interrupciones en los pulsos glóticos durante el
proceso de vibración cordal. El valor se expresa como porcentaje del tiempo
de fonación en el cual no hubo pulsos glóticos. Se espera que este valor sea
0% al emitir como tarea fonatoria, un sonido generado por vibración cordal.
Por ejemplo, si se mide a través un fonema /a/, en una fonación normofónica,
se espera que el 100% del tiempo vibren las cuerdas vocales. Sin embrago,
en ciertos estados de desorden vocal o disfonía, las cuerdas vocales sufren
interrupciones en los pulsos glóticos.
No se debe confundir los Quiebres Vocales con los Quiebres Tonales. Estos
últimos corresponden a inflexiones bruscas de la frecuencia fundamental
hacia los agudos o hacia los graves (por ejemplo, los “gallitos”).
Tiempo de ataque
Todo sonido presenta una dinámica (variación de amplitud) que consiste en
ataque, decaimiento, sostenimiento y decaimiento final. En particular, el
ataque es el incremento inicial de amplitud desde el silencio, justo antes de
que se inicie el sonido, hasta que alcanza su amplitud plena. Por ejemplo, el
sonido de un violín tiene un ataque más suave y lento, es decir, tarda más
tiempo en alcanzar su amplitud; en cambio el ataque de un tambor o de
cualquier instrumento de percusión, es más brusco, y rápido.
El sonido de la voz no escapa a dicha dinámica. En este caso, ataque está
dado por los primeros pulsos glóticos al inicio de la fonación.
En la voz, podemos distinguir entre ataque adecuado, ataque duro y ataque
blando o soplado, en función de la percepción de un oído entrenado, o del
valor del Tiempo de Ataque. El Tiempo de Ataque es el tiempo que tarda en
ocurrir el ataque del sonido vocal. En la figura siguiente se observa el ataque
y la selección que lo denota.
A partir de algunas investigaciones, se dan valores que asumiremos como
referencia. En consecuencia, el tiempo de ataque se medirá en milisegundos
y se evaluará de la siguiente manera: de 0 a 50 [ms], corresponderá a un
ataque duro; de 50 a 100 [ms] corresponderá a un ataque adecuado; y un
tiempo de ataque mayor a 100 [ms] corresponderá a un ataque blando o
soplado.
El ataque duro puede asociarse a una sobre tensión o hiperfunción laríngea,
o a una hiperaducción cordal, en que las cuerdas vocales contactan de
manera forzada y realizando golpes glóticos durante la fase de contacto. El
ataque blando o soplado podría indicar un estado de hipofunción laríngea; es
decir, las cuerdas vocales no se aducen en toda la superficie de la mucosa
del borde libre, o bien que la fase de contacto no se completa.
H.N.R. (Harmonic to Noise Ratio o Relación Señal Ruido)
En general, la Relación Señal Ruido es la diferencia de amplitud entre el nivel
de la señal y el ruido propio del elemento acústico que está emitiendo,
transportando, procesando o registrando la señal. La voz, como emisor de
sonido, también presenta un ruido propio ya que, aunque el sonido vocal sea
producido por vibración de las cuerdas vocales, durante la fase de decontacto
pasa flujo espiratorio a través del espacio intercordal. Por lo tanto, durante
dicha fase tenemos flujo espiratorio que se convierte en turbulento hacia la
suplaglotis. Esto agrega ruido al sonido armónico que produce la vibración
cordal. Sin embrago, si la fase de contacto se completa de modo
fisiológicamente correcto; es decir, las cuerdas vocales se contactan en toda
su longitud en la línea media, el ruido presente en la fonación será
enmascarado (no se percibe) por el sonido armónico. En concreto, el valor
del parámetro HNR indica la diferencia de amplitud entre el nivel promedio
de los armónicos y el nivel promedio del ruido presente en fonación.
En la figura siguiente, se observa que los armónicos de la voz descansan
sobre un “piso de ruido”, las líneas horizontales que cruzan el espectro
expresan el promedio de amplitud de los armónicos y del ruido
respectivamente. Entonces, el valor de HNR es la diferencia de las amplitudes
representadas por dichas líneas.
El valor de HNR es indicativo de la precisión de cierre cordal durante la fase
de contacto. Si el valor es igual o superior a 20 dB, el ruido presente en la
fonación presenta un valor bajo con respecto a la amplitud de los armónicos,
y por lo tanto es enmascarado por la señal armónica. Entonces podemos
inferir que el cierre glótico es completo y fisiológicamente correcto durante la
fase de contacto. Por el contrario, si las cuerdas no aducen correctamente, o
si no completan la fase de contacto, la cantidad de flujo a través de la glotis
es mayor y, por lo tanto, la cantidad de ruido presente en fonación es mayor,
el aire se aprovecha de manera menos eficiente, la energía implícita en el
flujo espiratorio no se convierte de manera eficiente en energía de frecuencias
armónicas. De este modo, la amplitud o volumen de la voz es baja, aumente
la energía de ruido y disminuye la amplitud de los armónicos. Esto implica
que el valor de HNR, será menor a 20 dB y el ruido será audible. En términos
perceptuales, estaremos en presencia de una voz opaca o soplada.

También podría gustarte