Está en la página 1de 12

Medidas de Perturbació n

Autor: Flgo Marcelo Saldías

El análisis de la perturbación se basa en la premisa de que siempre existen pequeñas variaciones (tanto en la
frecuencia como en la amplitud o en la forma de onda en la señal de la voz) que reflejan de alguna forma los ruidos
internos del cuerpo humano. Por lo tanto, aunque el hablante intente realizar un sonido estable siempre existirá algún
componente aperiódico en la señal, debido a los distintos movimientos de los tejidos, fluidos y a la movilización del
aire en sí, entre los pliegues vocales (Titze, 1995).

En este sentido más estricto, todos los eventos vocales son aperiódicos, sin embargo se ha utilizado el concepto
“cuasi-periódico” para sugerir que existen patrones con desviaciones muy pequeñas en la perioricidad de la señal,
haciendo referencia a un caso especial de aperioricidad. No obstante, en la física el término “cuasi-periódico” se
refiere a la superposición de 2 o más señales periódicas con infinitas frecuencias, por lo que es mejor adoptar el
concepto de “casi-periódico” para evitar confusiones (Titze, 1995).

Por lo tanto, a nivel macroscópico puede parecer que el movimiento oscilatorio de los pliegues vocales es estable, no
obstante en un nivel microscópico se advierte un comportamiento más bien irregular, que obedece a la contracción
muscular y a la constricción y expansión de los vasos sanguíneos, entre otros factores, determinando la presencia de
una señal “casi-periódica” (Titze, 1995).

Por otro lado, existen algunos conceptos relacionados con la perioricidad de una señal y que requieren ser precisados
para un mejor entendimiento de los indicadores de perturbación. Dichos conceptos se relacionan con (Titze, 1995):
- La perturbación: generalmente es considerada como un disturbio menor o un cambio temporal en relación a un
comportamiento esperado, que es constante en una oscilación periódica o en un comportamiento estable. En este
sentido, la perturbación no altera la apariencia cualitativa de un patrón visual o temporal, ya que son irregularidades
pequeñas que la mayoría de las veces son pasadas por alto.

- La fluctuación: sugiere una desviación mayor en un patrón establecido, reflejando una inestabilidad en el sistema. En
este sentido, un sistema que presenta una perturbación usualmente vuelve al patrón normal o a una cierta
estabilidad, mientras que un sistema fluctuante se encuentra de alguna manera fuera de control, sin la posibilidad de
encontrar la estabilidad. En relación a la voz, el tremor vocal corresponde a una fluctuación en la F0 y en la amplitud
de la señal, siendo considerado más que una perturbación, puesto que no se logra una estabilidad final en relación a
la frecuencia ni a la intensidad.

- La variabilidad: corresponde a la habilidad de un cuerpo de variar un patrón, ya sea de manera voluntaria o por
accidente y es medido como el grado de variación estadístico.

Ahora bien, cabe destacar que históricamente ha existido poco acuerdo en cuanto a la norma para cada uno de los
indicadores que miden la perturbación de la señal de la voz. Es por esto que un grupo de científicos, ingenieros
acústicos, desarrolladores y clínicos redactaron un documento para mejorar los estándares en relación al análisis
acústico y a este tipo de medidas. A partir de dicho trabajo, se determinó que los algoritmos utilizados para la
obtención de estos indicadores se basan en una señal “casi-periódica” y que claramente las voces patológicas
trasgreden dicha premisa, no pudiendo ser analizadas con precisión (Titze, 1995; Stemple, Glaze & Klaben, 2010).
Por esta razón es que se determinó la presencia de diferentes tipos de señales de voz, con lo que se establece que no
todas las voces son candidatas para ser analizadas para obtener las medidas de perturbación. Así, se clasificó las
ondas en 3 tipos distintos, de acuerdo a su estabilidad (Titze, 1995; Sataloff, 2005; Stemple et cols., 2010):

- Tipo I: corresponden a señales “casi-periódicas”, que no demuestran cambios cualitativos significativos. Además,
presentan un grupo de valores de frecuencia fundamental dominante y en caso de presentar subarmónicos, su
energía es menor a la de la frecuencia fundamental. A nivel clínico, corresponden a voces normales o levemente
alteradas, sin desviaciones perceptuales evidentes. Este tipo de ondas es aceptable para ser sometidas a un análisis
acústico de perturbación.
Fig. 1: Espectrograma de una señal tipo I.

- Tipo II: se observan cambios cualitativos significativos en la señal y la energía de los subarmónicos es alta. Además,
en este tipo se presentan constantes cambios en la señal periódica, que fluctúan demasiado como para que un
programa de análisis acústico detecte un sólo grupo de valores de frecuencia fundamental; por lo tanto, debido a la
presencia de un patrón “casi-periódico” y aperiódico, existen múltiples valores de frecuencia fundamental o una F0
intermitente. Clínicamente obedece a producciones vocales perceptualmente alteradas (presencia de vocal fry,
tremor vocal, afonía intermitente, ronquera, entre otros), como también puede obedecer a cambios intencionales
(vibrato). Debido a estas características, estas ondas no son aptas para un análisis de perturbación y sólo deberían
limitarse a un análisis espectrográfico o visual.

Fig. 2: Espectrograma de una señal tipo II.


- Tipo III: corresponden a señales azarosas aperiódicas, donde es imposible detectar un patrón identificable de
frecuencia fundamental. Dichas ondas son básicamente caóticas. Clínicamente estas ondas obedecen a voces
severamente alteradas con presencia importante de ruido producto de la soplocidad y la ronquera. Este tipo de ondas
no es apta para ningún tipo de análisis acústico, sólo para una evaluación a nivel perceptual.

Fig. 3: Espectrograma de una señal tipo III.

Fig. 4: Tipos de señales (Titze, 1995). Se representan los distintos tipos de señales en base a las características de las ondas de flujo glótico.
En a) se advierte un patrón periódico (casi-periódico para la voz humana), correspondiente a una señal tipo I; en b) se observa el patrón
de la señal tipo II; en c) se observa el patrón caótico de la señal tipo III.
Fig. 5: Tipos de señales (Titze, 1995). Se representa una señal tipo II descompuesta en segmentos de 200 ms. Si sólo consideramos los
segmentos (a), (c) y (e), ésta sería una señal tipo I (casi-periódica); no obstante, al incluir los segmentos (b) y (d), la señal finalmente
corresponde a una de tipo II.

Ahora bien, en relación a los conceptos anteriormente analizados y entendiendo que sólo algunas voces son aptas
para el análisis de las medidas de perturbación, describiremos los indicadores clásicos más utilizados en el análisis
acústico de la voz, entendiendo que las medidas de perturbación se definen como la variabilidad ciclo a ciclo en una
señal (corresponden al promedio de desviación de la perioricidad en relación a los ciclos), siendo necesario considerar
que requieren de un cálculo riguroso de la frecuencia fundamental y de la amplitud peak–a–peak de la onda y sólo
pueden ser obtenidas a través de la extracción de segmentos de vocales prolongadas (Titze & Liang, 1992; Jakson-
Menaldi, 2002; Brockmann, Stork, Carding & Drinnan, 2008; Stemple et cols., 2010; Cobeta, Núñez & Fernández,
2013).

En relación a esto, es importante considerar que la obtención de las señales debe realizarse en base a múltiples
intentos, en este caso, de vocales prolongadas por al menos 4 segundos (según la compañía KayPENTAX para su
software MDVP). Esto permite considerar la variabilidad individual de cada sujeto al realizar la emisión (cada emisión
puede variar), buscando establecer una línea de base. Un ejemplo de lo anterior se relaciona con el hecho de que el
primer intento del sujeto pudo haber sido realizado muy fuerte en intensidad o en un tono inadecuado, debido al
desconocimiento de la tarea o a la ansiedad, por lo tanto el evaluador debe observar atentamente las producciones
del sujeto y elicitar las emisiones más representativas de éste para luego ser grabadas y analizadas (Stemple et cols.,
2010).

Dichas medidas se relacionan con perturbación de la frecuencia y la amplitud, y han sido útiles para describir las
características de voces normales y patológicas, en términos de la presencia de ronquera y aspereza, como también se
han asociado al efecto del cigarrillo en términos de la calidad vocal (Naufel, Marotti & Grechi, 2006; Brockmann et
cols., 2008). Aún así, ni Jitter ni Shimmer han podido asociarse con precisión a patologías vocales específicas (Cobeta
et cols., 2013)

Es decir, indirectamente nos permiten evaluar la función laríngea cuantificando, a través de los correlatos acústicos,
las irregularidades presentes en la vibración de los pliegues vocales. Por lo tanto, considerando que existen patrones
de perturbación normales, se ha establecido que estas medidas aumentan sus valores en voces alteradas, pudiendo
discriminar entre voces sanas y algunos tipos de disfonía, dependiendo del tipo de señal a la que se asocie. A partir de
lo anterior, incluso se ha establecido su utilidad para evaluar los avances en la terapia y su efectividad (Brockmann et
cols., 2008).
Ahora bien, existen algunas limitantes en su uso. Por un lado, se ha observado poca especificidad y sensibilidad entre
distintos tipos de Jitter y Shimmer. Por otro lado, se ha visto que estas medidas responden distinto frente a las
características de intensidad. En relación a esto, se ha logrado determinar una relación inversa entre los valores de
perturbación e intensidad, donde éstos disminuyen al aumentar en nivel de presión sonora (SPL) y viceversa,
afectando los resultados en las mediciones. Un ejemplo de lo anterior se observó en el estudio de Brockmman et cols.
(2008), donde a niveles SPL bajo los 80 dB, los valores de Jitter y Shimmer aumentaron progresivamente ante mínimos
descensos de la intensidad. En este sentido, realizar los intentos múltiples nos permite controlar el efecto que puede
tener la intensidad que utiliza el sujeto sobre el resultado final en las medidas de perturbación. (Brockmann et cols.,
2008; Stemple et cols., 2010).

La misma relación se ha observado entre las medidas de perturbación y la F0, donde a mayor F0 se obtiene un menor
valor de perturbación, y a menor F0 mayores índices de perturbación (Stemple et cols., 2010).
Por lo tanto, lo anterior representa una consideración importante al momento de tomar la muestra de voz, ya que se
hace necesario controlar la intensidad y la frecuencia fundamental con la cual un sujeto produce la vocal sostenida
durante el proceso de evaluación. En caso de no considerar este aspecto, es posible que los resultados reflejen una
realidad ficticia, tanto de las características acústicas de la voz del sujeto, como también de las propiedades
vibratorias de los pliegues vocales del mismo. La medición, por tanto, debe ser realizada a una intensidad y F0
cómodos (Brockmann et cols., 2008; Stemple et cols., 2010).

Medidas de perturbación de la frecuencia

Jitter
Corresponde a una perturbación a corto tiempo (ciclo a ciclo) de la frecuencia fundamental de la señal de la voz,
expresada en porcentaje. Éste índice mide la estabilidad del sistema fonatorio, por lo tanto a menor valor, menor
perturbación y mayor estabilidad (calidad vibratoria de los pliegues vocales). Los hablantes con voces sanas presentan
generalmente un Jitter bajo el 1% (Titze, 1995; Jakson-Menaldi, 2001; González, Cervera & Miralles, 2002; Brockmann
et cols., 2008; Stemple et cols., 2010; McCoy & Halstead, 2012; Cobeta et cols., 2013).
Tipos de Jitter (MDVP)

- Jitter absoluto (Jitta): evalúa la variabilidad de la F0 ciclo a ciclo y es muy sensible a las variaciones de F0 que ocurren
entre periodos consecutivos, por lo que cualquier error en la extracción de la información puede afectar los valores
finales del Jitter absoluto (Umbral MDVP=83.2 us).

- Jitter relativo (Jitt): evalúa la variabilidad relativa de la F0 ciclo a ciclo y es medida en porcentaje (Umbral MDVP=
1.04%). *Generalmente es 1% para el resto de los softwares.

- RAP (Relative Average Perturbation): corresponde a un tipo de medida de perturbación de la frecuencia obtenido a
través del promedio de 3 periodos consecutivos. Esto elimina la influencia de las variaciones a largo plazo sobre las de
corto plazo, mitigando o suavizando el valor del Jitter relativo (Umbral MDVP=0.68%).

- PPQ (Picth Period Perturbation Quotient): Corresponde a un tipo de medida de perturbación de la frecuencia
obtenido a través del promedio de 5 periodos consecutivos. Al igual que el índice anterior, elimina la influencia de las
variaciones a largo plazo sobre las de corto plazo, mitigando o suavizando el valor del Jitter relativo. (Umbral MDVP=
0.84%).

- sPPQ (Smoothed Pitch Period Perturbation Quotient): Corresponde a un tipo de medida de perturbación de la
frecuencia que también es obtenido a través de un factor suavizante, promediando un número determinado de ciclos
(entre 1 a 199), de acuerdo a las necesidades del evaluador. Muy útil para comparar valores obtenidos en distintos
estudios científicos. Un factor sPPQ de 1 se comporta como Jitt, uno de 3 se comporta como RAP y uno de 5 se
comporta como PPQ. Factores más altos de correlacionan con la intensidad de las variaciones de la frecuencia a largo
plazo (Umbral MDVP factor 55=1,02%).

- vF0 (Coefficient of Fundamental Frequency Variation): corresponde a la desviación estándar relativa (%) de la
frecuencia fundamental. Refleja las variaciones de F0 tanto a corto como a largo plazo. Se obtiene a través del
cociente entre la desviación estándar y el promedio de la variación de la F0 ciclo a ciclo (Umbral MDVP=1.10%).
Fig. 6: Medidas de perturbación de la frecuencia. Se representa en el gráfico del MDVP los distintos indicadores del Jitter (Jitta, Jitt, RAP,
PPQ, sPPQ y vF0).

*Consideraciones:

- Considerar efecto de la intensidad y la F0 en los resultados al momento de tomar la muestra.


- Que el sujeto realice una emisión lo más estable posible para eliminar efecto de las variaciones a largo plazo.
- RAP y PPQ son los indicadores sugeridos por MDVP para realizar análisis de perturbación de la frecuencia en vez de
Jitt o Jitta, por su efecto suavizante.
- Para realizar el análisis debe eliminarse el inicio y el final de la señal (0,5 segundos en cada uno), considerando para
el análisis sólo la región más estable de ésta y así evitar los efectos que tanto el inicio y el final pueden tener sobre los
resultados.
- El Jitter puede variar entre vocales, por lo que se aconseja evaluar con la vocal /a/, evitando los efectos que el tracto
vocal puede provocar en el patrón vibratorio de los pliegues vocales, producto de su configuración al producir el resto
de los sonidos vocálicos.

Medidas de perturbación de la amplitud

Shimmer
Corresponde a una perturbación a corto tiempo (ciclo a ciclo) de la amplitud de la señal de la voz (peak-to-peak),
también expresada en porcentaje. Los hablantes con voces sanas presentan un grado de perturbación bajo el 3%
(Titze, 1995; Jackson-Menaldi, 2001; González et cols., 2002; Brockmann et cols., 2008; Stemple et cols, 2010; McCoy
& Halstead 2012; Cobeta et cols., 2013).
Tipos de Shimmer (MDVP)
- Shimmer absoluto (ShdB): evaluación en dB de la variabilidad “peak-to-peak” de la amplitud ciclo a ciclo, muy a corto
plazo (Umbral=0.35 dB).
- Shimmer relativo (Shim): evalúa la variabilidad “peak-to-peak” relativa (%) de la amplitud ciclo a ciclo
(Umbral=3.81%). *Generalmente se considera 3%.
- APQ (Amplitude Perturbation Quotinet): evaluación relativa (%) de la variabilidad ciclo a ciclo de la amplitud (peak-
to-peak) a través de un factor suavizante de 11 periodos consecutivos. Esto, reduce la sensibilidad del APQ frente a los
errores de extracción o variaciones a corto plazo de la F0. En otras palabras, elimina la influencia de las variaciones a
largo plazo sobre las de corto plazo, mitigando o suavizando el valor del Shimmer relativo. (Umbral MDVP= 3.07%).
- sAPQ (Smoothed Amplitude Perturbation Quotient): corresponde a un tipo de medida de perturbación de la amplitud
que también es obtenido a través de un factor suavizante, promediando un número determinado de ciclos (entre 1 a
199), de acuerdo a las necesidades del evaluador. El factor predeterminado es de 55 periodos, no obstante el
evaluador puede modificarlo si lo desea. Un factor sAPQ de 1 se comporta como Shim y uno de 11 se comporta como
APQ. Factores más altos de correlacionan con la intensidad de las variaciones de la amplitud a largo plazo (Umbral
MDVP factor 55=4.23%).
- vAm (Coefficient of Amplitude Variation): corresponde a la desviación estándar relativa (%) de la amplitud “peak-to-
peak”. Refleja tanto las variaciones a corto plazo, como las de largo plazo. Se obtiene a través del cociente entre la
desviación estándar y el promedio de la variación de la amplitud ciclo a ciclo (Umbral MDVP=8.2%).

Fig. 7: Medidas de perturbación de la amplitud. Se representa en el gráfico del MDVP los distintos indicadores del Shimmer (ShbB, Shim,
APQ, sAPQ y vAm).

*Consideraciones:
- Considerar efecto de la intensidad y la F0 en los resultados al momento de tomar la muestra.
- Considerar una distancia estable entre la boca y el micrófono (la captura de los valores de la intensidad varía de
acuerdo a la distancia).
- Que el sujeto realice una emisión lo más estable posible para eliminar efecto de las variaciones a largo plazo.
- APQ es el indicador sugerido por MDVP para realizar el análisis de perturbación de la amplitud en vez de ShdB o
Shim, por su efecto suavizante.
- No hay relación estricta entre la magnitud de la patología vocal y el Shimmer (a mayor Shimmer no necesariamente
hay una patología vocal mayor).
- A mayor ruido en la señal, mayor será el Shimmer (considerar uso de normas para grabación de la señal de la voz).
- Para realizar el análisis debe eliminarse el inicio y el final de la señal (0,5 segundos en cada uno), considerando para
el análisis sólo la región más estable de ésta y así evitar los efectos que tanto el inicio y el final pueden tener sobre los
resultados.
Índices de ruido glótico
Como se analizó anteriormente, la voz humana es una señal casi-periódica, puesto que existen ciertas irregularidades
mínimas relacionadas las características de los tejidos, sus y movimientos y e paso del aire a través de ellos. Por lo
tanto, estos índices no corresponden a medidas de perturbación en sí, sino que establecen más bien una relación
entre las señales periódica y aperiódica que están presentes en la voz (Titze, 1995; Stemple et cols., 2010).
Así, el componente periódico de la señal corresponde a la energía armónica, mientras que el componente aperiódico
a la energía de ruido presentes en la señal vocal. Las voces normales son más cercanas a ser señales periódicas (casi-
periódicas), presentando mayor energía armónica. En el sentido opuesto, las voces disfónicas obedecen más bien a
señales con importantes componentes aperiódicos, por lo que presentan más ruido asociado a la ronquera (vibración
aperiódica de los pliegues vocales) o a la soplocidad (ruido por turbulencia) (Jackson-Menaldi, 2005; Stemple et cols.,
2010).
En este sentido, un relación entre ambos componentes permite capturar la contribución de cada uno de ellos a la
señal vocal final. Ahora bien, al igual que otras medidas acústicas, existe variabilidad en cuanto a la norma
dependiendo de los distintos software, por lo tanto el valor clínico es mayor cuando este tipo de medidas se aplica
como pre y post tratamiento o como variable en una investigación de efectividad de algún recurso terapéutico
(Stemple et cols., 2010).
La relación anterior se denomina “relación armónico-ruido” (HNR: Harmonic to Noise Ratio), donde la energía
armónica se ubica en el numerados y la energía de ruido en el denominador:

HNR = Harmonic (dB)


Noise
Por lo tanto, un HNR mayor indica una señal con mayor componente armónico, es decir, una señal
predominantemente periódica, como sucede en voces normales, mientras que un HNR menor indica una señal con
pocos componentes armónicos, es decir, una señal mayormente aperiódica como en el caso de las voces disfónicas.
Esto último, asociado a los altos componentes de ruido espectral azaroso (González, et cols., 2002; Stemple et cols.,
2010).
Otro indicador similar es la “relación señal-ruido” (SNR: Signal to Noise Ratio). En este caso, la fórmula contempla la
energía total de la señal y la divide por la energía de ruido presente en la misma, por lo tanto el resultado se
comportará similar al HNR (Stemple et cols., 2010).
Medidas de ruido (MDVP)
- NHR (Noise to Harmonic Ratio): corresponde a la relación inversa del HNR o SNR. En este caso, el indicador establece
una relación entre el promedio de la energía espectral inharmónica o interharmónica (ruido) en el rango frecuencial
de 1.500-4.500 Hz y la energía espectral armónica, en el rango frecuencia de 70-4.200 Hz. Por lo tanto, a diferencia del
HNR o SNR, un mayor NHR se asocia con una señal que presenta mayor ruido. Esto puede estar determinado por:
aumento de los índices de perturbación de la frecuencia y/o de la amplitud, turbulencia o presencia de subarmónicos.
(Umbral MDVP=0.19 dB).
- VTI (Voice Turbulence Index): corresponde a la relación entre la energía inarmónica o interarmónica a alta frecuencia
(2.800-5.800 Hz) y la energía armónica en el rango frecuencial de 70-4.200 Hz. En este caso, la influencia de las
perturbaciones de la amplitud y/o frecuencia, así como la presencia de subarmónicos es mínima, puesto que
principalmente este índice obedece al nivel de ruido espectral a alta frecuencia (turbulencia) (Umbral MDVP=0.061).
- SPI (Soft Phonation Index): corresponde a la relación promedio entre la energía armónica de baja frecuencia (70-
1600 Hz) y la energía armónica de alta frecuencia (1600-4.500 Hz). En este caso no se considera la energía de ruido en
forma directa (no es en sí un indicador de ruido), sino que se relaciona con la pendiente espectral (relación entre los
armónicos de baja frecuencia y los de alta frecuencia). Por lo tanto, mientras más energía exista en los armónicos
altos con respecto a los más bajos, la pendiente espectral será menor. Cuando esto sucede, la voz es más brillante, lo
que se asocia a un cierre cordal adecuado. Por el contrario, a mayor diferencia entre ambos grupos de armónicos, la
pendiente espectral es más abrupta, propio de las voces opacas, las que obedecen a dificultades en el cierre glótico.
En relación a lo anterior, el SPI al presentar un valor más pequeño indica una mayor presencia de energía armónica en
la zona alta del espectro (voz de mejor calidad), mientras que un valor alto del SPI indica una menor energía armónica
en esta zona (voz de menor calidad) (Umbral MDVP=14.12).
Es así como se considera al SPI como un indicador que representa cuánto contacto existe entre los pliegues vocales
durante la fonación (mayor SPI, pliegues vocales más separados; menor SPI, pliegues vocales más cerrados). Aún así,
no es indicador de patología vocal.
Las razones por las cuales el SPI puede aumentar son: presencia de voz débil asociada a algún trastorno de la voz que
impide un cierre adecuado de los pliegues vocales o al uso de una intensidad baja. En este último caso, si se desea
comparar datos en una población se debe controlar la intensidad de la emisión cada sujeto.

*Consideraciones:
- El SPI es muy sensible a las características formánticas de las vocales, por lo tanto es necesario considerar el efecto
de la configuración del tracto vocal como filtro sobre la carga energética de los armónicos altos y bajos para la
obtención del SPI (vocales con baja energía en frecuencias altas del espectro presentarán un SPI alto y viceversa). Por
lo tanto siempre debe compararse este índice con la misma vocal (el software sugiere utilizar la vocal /a/).
- La intensidad puede influir en los valores de las medidas de ruido (se asocia a al grado de aducción cordal).

Fig. 8: Medidas de ruido glótico. Se representa en el gráfico del MDVP los distintos indicadores de ruido glótico (NHR, VTI, SPI).

Fig. 9: Datos normativos MDVP. En la tabla se exponen los datos normativos del MDPV para sus diferentes indicadores.
Diferentes programas para el aná lisis acú stico de
la voz
A continuación se presenta una breve reseña de diferentes programas disponibles para realización de análisis acústico
de la voz (Jackson-Menaldi, 2002; Sataloff, 2005).
Computarized Speech Lab (CSL)
Corresponde a uno de los sistemas profesionales más completos del mercado perteneciente a la empresa Kay
Elemetrics Co. Este paquete consta con diversos softwares que están a disposición del clínico y el investigador.
Algunos de ellos son:
- Multi-Dimentional Voice Program (MDVP): analiza 22 parámetros a través de una vocal /a/ sostenida y posee una
base de datos normativos para comparar los resultados obtenidos en los distintos sujetos.
- Phonetrograph, Voice Range Profile (rango vocal): el sistema emite distintos tonos que el sujeto debe imitar,
permitiendo obtener un fonetograma con el rango tonal de dicho sujeto.
- Sono-Match: programa para el entrenamiento de la articulación, que además permite el análisis de F1 y F2 en las
vocales producidas por el sujeto.
- Auditory Feedback Tools: corresponde a una serie de herramientas de feedback auditivo, como retroalimentación
diferida, repetición continua (loop), ruido de enmascaramiento, entre otros.

- Pitch (tono): permite la extracción del tono y la intensidad en tiempo real.


- Real Time Spectrogram: permite la extracción del espectrograma en tiempo real.
- EGG Processing: manejo de la onda electroglotográfica.

Fig. 10: Computarized Speech Lab (CSL).

Multi Speech
Corresponde a un sistema de la empresa Kay Elemetrics Co. Puede ser utilizado en un formato autónomo o como
opción dentro del sistema CSL. En sí, permite realizar los mismos análisis que el CSL (cálculo de F0, FFT,
Espectrograma, análisis de formantes (FMT), LPC, LTAS, Cepstrum, medidas de perturbación y ruido, etc.
El uso en conjunto con el CSL permite una mejor captura de la señal, eliminando el ruido y las interferencias.
Dr. Speech
Este software presenta distintas posibilidades de análisis como:
- Evaluación de la voz (voice assessment): permite obtener F0, Jitter, Shimmer, ruido glótico, LPC Spectrum, LTAS,
espectrograma y control de formantes.
- Análisis del habla (speech analysis): permite análisis de ondas y espectrogramas para el habla.
- Análisis electroglotográfico (EGG asessment): calcula distintos parámetros relacionados con el cierre glótico
(cociente glótico y cociente de contacto), además de F0, JItter, Shimmer y ruido.
- Fonetograma (phonetogram): permite obtener el rango vocal dinámico.
- Control de la evolución clínica (clinical progress tracking): programa de seguimiento y monitoreo de la terapia.
Fig. 11: Fonetogram del sistema Dr. Speech.

Laboratorio de análisis de sonidos del habla

Este software se desarrolló en el Laboratorio de Investigaciones Sensoriales (LIS) de Buenos Aires, Argentina, a cargo
del Ingeniero Jorge Gurlekian. El módulo ANAGRAF permite la grabación y reproducción de los registros obtenidos,
además del análisis de: F0, espectrogramas de banda ancha y estrecha, espectro de corto plazo, coeficientes de
predicción lineal (covarianza y correlación), análisis de formantes, entre otros.

Fig. 12: Imagen obtenida del software ANAGRAF.


PRAAT
Este sistema fu diseñado como parte de un proyecto de investigación holandés del Dr. Paul Boersma y el Dr. David
Weenink, del Instituto de Ciencias Fonéticas de la Universidad de Amsterdam con el fin de analizar, sintetizar y
manipular los sonidos del habla, como también para crear ilustraciones (gráficos) de calidad para artículos y tesis de
lingüistas y fonetistas.
Es un sistema apto para Windows, Linux y Mac, y permite la obtención de parámetros como: F0, intensidad, espectro,
LTAS, espectrograma con cambio de filtros, análisis de formantes, LPC, Cepstrum, entre otros.
Debido al carácter científico, es de uso gratuito. Desde la página: www.praat.org se pueden descargas las distintas
versiones realizas de acuerdo a la compatibilidad de los distintos sistemas operativos.

Fig. 13: Imagen obtenida del sistema PRAAT.

Bibliografía
-Brockmman, M., Stork, C, Carding, P. & Drinnan, M. Voice loudness and gender effects on Jitter and Shimmer in healthy adults. Journal of
Speech, Languagae and Hearing Research. 2008, 51:1152-1160.

-Cobeta, I., Núñez, F. & Fernández, S. (2013). Patología de la voz (1ra ed.). Barcelona: Marge Medica Books.

-González, J., Cervera, T. & Miralles, J. Análisis acústico de la voz: Fiabilidad de un conjunto de parámetros multidimensionales. Acta de
Otorrinolarngología Española. 2002, 53:256-268.

-Jakson-Menaldi, C. (2002). La voz patológica (1ra ed.). Barcelona: Editorial Médica Panamericana.

-KayPENTAX (2008). Software instruction manual: Multi-Dimentional Voice Program (MDVP) (Model 5105). PENTAX Medical Company.

-Naufel, A., Marotti, M. & Grechi, T. Standardization of acoustic measures for normal voice patterns. Rev Bras Otorrinolaringol. 2006,
72(5):659-664.

-McCoy, S. & Halstead, L. (2012). Your voice: An inside view (2da ed.). Delaware: Inside View Press.

-Sataloff, R. (2005). Clinical assessment of voice (1ra ed.). San Diego: Plural Publishing.

-Stemple, J., Glaze, L. & Klaben, B. (2010). Clinical voice pathology: Theory and management (4ta ed.). San Diego: Plural Publishing.

- Titze, I. & Liang, H. Comparison of F0 extraction methods for high precision voice perturbation measurements. NCVS Status and Progress
Report. 1992, 3:97-115.

- Titze, I. (1995). Workshop on acoustic voice analysis: Summary statement. Iowa: National Center for Voice and Speech.

También podría gustarte