Está en la página 1de 11

Evaluación y Terapia de Voz – Cap 55

PUNTOS CLAVE
• La voz es multidimensional, por lo que la evaluación de la voz debe ser multidimensional.
• Los exámenes de percepción auditiva, visual y táctil son componentes clave de una evaluación de la voz.
• Es importante caracterizar la percepción del problema por parte del paciente y el impacto del trastorno de la voz en la
vida del paciente. Se pueden utilizar varias escalas publicadas para informar diversos aspectos de la discapacidad o la
calidad de vida.
• Se pueden utilizar medidas específicas para comprender mejor la producción de voz y documentar aspectos de la
calidad de la voz. Un grupo de compases proporciona una descripción más completa de la voz que cualquier compás
solo.
• Las mediciones de la función vocal son menos “objetivas” de lo que parecen, y su relación con la calidad de la voz es
complicada y no se comprende por completo.
• La terapia de voz ayuda a los pacientes a aprender técnicas eficientes y saludables para mejorar la calidad y el volumen
de la voz, minimizar las discapacidades relacionadas con la voz, mejorar la eficacia comunicativa y restaurar la identidad
y la salud vocal.

La voz se produce por interacciones entre los sistemas respiratorio, laríngeo y de resonancia. El patólogo del habla y el
lenguaje evalúa cada sistema además de la producción total del habla. Este capítulo describe los componentes típicos de
una evaluación de la voz y cómo interpretar los resultados, incluidos los resultados informados por el paciente (PRO), la
evaluación perceptiva, la evaluación instrumental del mecanismo de producción de la voz y la onda de sonido resultante,
y la terapia de diagnóstico. El capítulo concluye con una introducción a la terapia de la voz.

INSTRUMENTOS DE RESULTADOS INFORMADOS POR EL PACIENTE


Las personas tienen diferentes requisitos y expectativas de sus voces, así como diferentes respuestas emocionales a los
trastornos de la voz; por lo tanto, el mismo grado de disfonía limitará de manera diferente la participación en las
actividades diarias típicas o alterará el sentido de identidad de una persona. Como parte de una evaluación completa de
la voz, se debe evaluar el efecto del problema de la voz en la vida de cada individuo. Los instrumentos PRO son
cuestionarios cumplimentados por el paciente que miden síntomas y participación, así como constructos más complejos
como la salud, la calidad de vida o la discapacidad. Se han publicado varios cuestionarios PRO específicos para la voz y,
como todos los PRO, difieren en cuanto al rigor de su construcción, proceso de validación, propiedades psicométricas,
longitud del cuestionario y dominios evaluados. En general, los PRO son un importante componente de una evaluación
de voz que proporciona información no capturada en otro lugar. Los cuestionarios se pueden usar para guiar la discusión
entre los proveedores de atención médica y los pacientes y para determinar los objetivos del tratamiento funcional. En
esta sección se presentan varias de las escalas más utilizadas.
El Voice Handicap Index fue diseñado para evaluar la discapacidad, "una desventaja social, económica o ambiental que
resulta de un impedimento o discapacidad". El instrumento consta de 30 afirmaciones que los pacientes califican en una
escala de intervalos de cinco puntos que parecen iguales y que refleja la frecuencia de ocurrencia. La puntuación total
posible es 120, y las puntuaciones más altas reflejan una mayor desventaja. Aunque se pueden informar subescalas
funcionales, físicas y emocionales, se ha sugerido que la puntuación total es más significativa.Desde su publicación en
1997, el Voice Handicap Index se ha utilizado ampliamente para mostrar la discapacidad de la voz en grupos específicos
de pacientes, las comparaciones entre la discapacidad y las medidas de la función vocal y el cambio con el tratamiento.
Se ha traducido a numerosos idiomas y se ha utilizado como modelo para una versión abreviada (VHI-10), un índice de
dificultad para cantar y su versión de 10 ítems, una versión para niños, un índice de fatiga vocal y un índice de
envejecimiento de la voz.
La calidad de vida relacionada con la voz es una escala de 10 ítems dividida en subescalas de funcionamiento físico y
socioemocional. Cada elemento se califica en una escala de intervalo de cinco puntos que refleja la gravedad del
problema. Para cada subescala y para el puntaje total, 100 es el puntaje más alto posible, lo que refleja la mejor calidad
de vida. También está disponible una versión infantil de esta escala. La escala de síntomas de voz es una escala
psicométricamente sólida de 30 elementos que representa el deterioro físico, la respuesta emocional y los síntomas
físicos relacionados. Cada pregunta se califica utilizando una escala de cinco puntos que representa la frecuencia de
ocurrencia.
Varias otras escalas PRO están relacionadas con las preocupaciones de los pacientes en una práctica de
otorrinolaringología. Estos incluyen el índice de síntomas de reflujo, el índice de discapacidad del habla para pacientes
con cáncer de cabeza y cuello, el índice de gravedad de la tos y el índice de disnea.

EVALUACIÓN PERCEPTUAL
Evaluación de percepción auditiva
El tono, el volumen y la calidad de la voz generalmente se evalúan durante la evaluación de la percepción auditiva. El
tono, la variabilidad y el rango del tono, el volumen y la variabilidad y el rango del volumen se evalúan en relación con la
edad, el sexo, el género y el entorno de prueba del hablante. La calidad de la voz es más difícil de definir y medir, aunque
es importante porque el objetivo final de la intervención suele ser mejorar la calidad de la voz. Los médicos deben
considerar la variabilidad cultural al determinar si la calidad está deteriorada. Tradicionalmente, la calidad de la voz se
clasifica como una serie de características pseudoindependientes (p. ej., respiración entrecortada, aspereza y tensión),
pero la evidencia sólida sugiere que el patrón general es más que la suma de estas características. Los calificadores a
menudo no están de acuerdo al calificar la calidad de la voz; esto se basa en varios factores, incluida la dificultad para
aislar características o dimensiones individuales, representaciones internas diferentes e inconsistentes de los
parámetros y la gravedad, resolución de escala inadecuada y la magnitud del parámetro objetivo.
Las tareas de calificación perceptiva que controlan estos factores, como determinar si dos estímulos son iguales o
diferentes, calificar el grado de disimilitud de dos producciones y ajustar una copia sintética de una voz para que
coincida con un original, conducen a una evaluación de calidad de voz más confiable. La tarea del método de ajuste
cuantifica la calidad percibida por el nivel de una característica particular (p. ej., relación ruido-señal) que el evaluador
establece para igualar perceptivamente los dos estímulos. Se puede usar una tarea de clasificación y calificación cuando
se requieren comparaciones de múltiples estímulos. Los oyentes colocan íconos que representan estímulos en una línea
para que los elementos que suenan más similares se coloquen más cerca unos de otros. Las distancias entre estímulos se
organizan como matrices de disimilitud y se analizan utilizando escalas multidimensionales.
Dos escalas de calificación que se utilizan clínicamente son la escala GRBAS (grado, aspereza, respiración, astenia y
distensión) 28 y la Evaluación perceptiva auditiva de consenso: voz (CAPE-V). La escala GRBAS es una herramienta de
calificación simple mediante la cual la gravedad general y las cinco dimensiones de la calidad de la voz se califican en
escalas de cuatro puntos. La letra G representa el grado o calidad general, R es aspereza, B es respiración, A es astenia
(debilidad) y S es tensión. Cada parámetro está clasificado; la puntuación es cero si no hay déficit, 1 si el déficit es leve, 2
si es moderado y 3 si el déficit es severo. No se ha establecido una recomendación estándar para el tipo de diferencias a
utilizar con GRBAS, por lo que se debe documentar la información específica sobre las condiciones de prueba.
El CAPE-V es una herramienta de clasificación mediante la cual seis parámetros básicos (gravedad general, aspereza,
respiración, tensión, tono y volumen) se clasifican marcando la gravedad a lo largo de una línea de 100 mm. Estos
parámetros pueden complementarse con parámetros adicionales seleccionados por el examinador. Cada parámetro
también se marca como si se produjera de forma constante o intermitente. El CAPE-V se califica en base a dos vocales
sostenidas, seis oraciones estándar y al menos 20 segundos de habla natural. Las recomendaciones sobre los entornos
de prueba y grabación se incluyen en la publicación de referencia.
Las características adicionales evaluadas en la evaluación de la percepción auditiva incluyen la respiración del habla, la
producción del habla y la resonancia. Los correlatos de percepción auditiva de la respiración del habla incluyen el grupo
de duración de la respiración, el volumen promedio, la variabilidad del volumen y la duración de la inspiración. Estos
proporcionan información importante sobre el volumen pulmonar gastado, la idoneidad y consistencia de la presión
alveolar y la forma de la caja torácica y las paredes abdominales durante el habla. Varios otros aspectos de la producción
del habla, como la articulación imprecisa, la resonancia y las alteraciones de la prosodia, pueden indicar trastornos
estructurales o neurológicos que afectan la producción de la voz. La resonancia se describe utilizando los términos
hipernasal, hiponasal y “cul-de-sac”. La prosodia se refiere a la velocidad del habla, la presencia de sílabas repetidas o
prolongadas, las ráfagas de habla, la entonación (es decir, monotono o monosonoridad) y patrones de acentuación.
Evaluación de percepción visual
La evaluación de la percepción visual se refiere a los aspectos visibles y físicos de la producción de la voz relacionados
con la etiología, el mantenimiento o el resultado de la disfonía. Características de la apariencia general, como la edad
aparente en comparación con la edad cronológica; altura y peso; expresión facial; piel, cabello y uñas; higiene personal;
y la vestimenta brindan información sobre enfermedades sistémicas subyacentes, tratamientos previos o trastornos
emocionales. La falta de atención a la higiene personal y la vestimenta, por ejemplo, puede ser indicativa de un
trastorno emocional o demencia.
Se cree que la postura y la tensión musculoesquelética contribuyen a la disfonía por tensión muscular (MTD), que altera
el tono, el volumen y la calidad de la voz. La evaluación implica la evaluación de la alineación de la cabeza, el cuello, el
torso, la pelvis y las piernas. La tensión musculoesquelética es visible como extensión anormal del movimiento de la
mandíbula, mentón saliente, extensión del cuello, abultamiento de los músculos del cuello al hablar u hombros
levantados.
La disfunción neurológica está indicada por observaciones tales como inestabilidad, asimetría, rigidez, vacilación,
lentitud, debilidad, falta de coordinación, inconsistencia y movimientos extraños. Son especialmente notables la
debilidad, la asimetría y la falta de coordinación de la lengua, la mandíbula, los labios o el paladar blando. La presencia
de distonías focales, como calambres del escritor, blefaroespasmo, tortícolis y disfonía oromandibular, generalmente
lleva al examinador a considerar un trastorno de la voz con base neurológica, como la disfonía espasmódica.
La dismorfología física, en particular las características sindrómicas o la evidencia de diferencia o resección orofacial,
deben tenerse en cuenta por su posible relación con un déficit de resonancia o inteligibilidad del habla. Muchas
enfermedades sistémicas que pueden afectar la laringe y la voz tienen síntomas físicos visibles, entre las que se
encuentran la artritis reumatoide, el lupus y el síndrome de Sjögren. Para una discusión detallada del examen de
percepción visual, se anima al lector a consultar los trabajos de Koschkee y Rammage.

Evaluación perceptiva táctil


Se cree que el desequilibrio del músculo laríngeo intrínseco y extrínseco es la característica principal de la MTD. El
examen manual de la tensión musculoesquelética laríngea es una técnica poderosa para evaluar rápidamente la
contribución de la tensión muscular a la calidad de la voz observada. Separar la tensión muscular de otros componentes
de la disfonía puede ayudar a garantizar un diagnóstico y manejo adecuados. Se han recomendado varios protocolos
para el examen manual, y la evaluación generalmente incluye la palpación de los músculos suprahioideos, los cuernos
principales del hueso hioides, el asta superior y las caras laterales del cartílago tiroides, el espacio tirohioideo y el borde
anterior del músculo esternocleidomastoideo. Se evalúa la tensión suprahioidea y el espacio tirohioideo tanto en reposo
como durante la fonación, y también se evalúa la movilidad lateral. La figura 55.1 muestra esta evaluación. Algunos
autores también recomiendan palpar los músculos tirohioideo, cricotiroideo y faringolaríngeo (constrictor inferior y
cricoaritenoideo posterior). Los hallazgos normales incluyen espacio palpable entre el hueso hioides y el borde superior
del cartílago tiroides y movilidad del complejo laríngeo. Los hallazgos indicativos de tensión musculoesquelética excesiva
incluyen dolor a la palpación que con frecuencia es más severo en un lado, disminución o ausencia del espacio
tirohioideo en reposo o con fonación, “nudos” musculares, porte alto del hueso hioides y del cartílago tiroides, y
dificultad para lateralizar el laringe.

Evaluación manual de la tensión musculoesquelética. (A) Palpación de la musculatura


suprahioidea. (B) Palpación del cuerno mayor del hueso hioides, cuerno superior del cartílago
tiroides y caras laterales del cartílago tiroides. (C) Palpación del espacio tirohioideo.

Actualmente, no se dispone de datos de confiabilidad intraexaminador o interexaminador para el examen de tensión


manual, y se desconoce la sensibilidad y especificidad de los hallazgos anormales. En un estudio radiográfico de la
posición laríngea en personas con MTD, Lowell y sus colegas no encontraron diferencias entre los participantes de
control y las personas con MTD en la ubicación del cartílago tiroides o hioides en reposo. Durante la fonación, los
participantes de control bajaron más el hioides que aquellos con MTD, y los participantes con MTD elevaron el cartílago
tiroides más que los controles.
EVALUACIÓN INSTRUMENTAL
Las evaluaciones de la fuente instrumental, aerodinámica y acústica se utilizan para documentar el trastorno de la voz y
el estado del sistema de producción de la voz, incluido el sistema respiratorio, la fuente de la voz y el tracto vocal
supragloal. Los estudios de la función vocal a veces se usan para definir los objetivos del tratamiento o como
retroalimentación visual durante la terapia de la voz, y las pruebas repetidas a lo largo del tiempo permiten a los
médicos monitorear y documentar los cambios que resultan del tratamiento o la progresión de la enfermedad. Las
evaluaciones instrumentales también se utilizan para mejorar nuestra comprensión de cómo los aspectos particulares de
la fisiología y la producción generan la acústica que evoca la percepción de la calidad de la voz en el oyente.
Es tentador considerar que las pruebas basadas en instrumentos son "objetivas", porque generan números, pero es
importante recordar que los examinadores influyen en los resultados y que otros factores además del estado laríngeo
pueden afectar las mediciones. Para maximizar su utilidad, las pruebas de función vocal deben realizarse utilizando
protocolos estándar, procedimientos de registro, instrucciones para el paciente y entornos de prueba. Recientemente se
publicó un tutorial en el que se recomiendan protocolos y especificaciones técnicas para la evaluación de la voz
instrumental. Si los investigadores y los médicos los adoptan, los protocolos podrían mejorar nuestra capacidad para
comparar los resultados de los pacientes y los resultados de los estudios en los centros de voz. Tenga en cuenta que
ninguna medida única explica la producción de la voz ni representa las diferencias entre las voces, y la mayoría de los
patólogos del habla y el lenguaje seleccionan un subconjunto de las medidas descritas en las siguientes secciones en
función de su filosofía y educación. Las medidas descritas aquí se agrupan como medidas de respiración vocal, medidas
de fuente, medidas aerodinámicas, medidas de función velofaríngea y medidas de voz acústica.

Medidas Respiratorias
La mayoría de las personas con problemas relacionados con la voz no requieren pruebas completas de función
pulmonar. Varias medidas de la capacidad respiratoria o el uso durante el habla son útiles para describir los trastornos
de la voz y planificar el tratamiento. Estos incluyen las presiones inspiratoria y espiratoria máximas, la capacidad vital y
el porcentaje de capacidad vital en el que los pacientes inician y terminan el habla.

Medidas de fuente
La “fuente” de la voz es la salida de la vibración de las cuerdas vocales (área gloal) y su interacción con las presiones del
tracto vocal subgloal y supragloal (flujo gloal). Se utilizan dos técnicas para estimar la fuente: electrogloografía (EGG) y
filtrado inverso.

Electroglotografía
EGG mide la conductancia de una señal eléctrica de baja frecuencia a través del cuello entre dos electrodos de
superficie. La conductancia de la señal varía con la vibración de las cuerdas vocales: cuando las cuerdas vocales se ponen
en contacto entre sí, la conductancia aumenta y la pendiente de la traza EGG resultante es positiva; a medida que las
cuerdas vocales se separan, la conductancia disminuye y la pendiente es negativa. Los resultados son relativos en lugar
de absolutos y no miden el área global ni el cierre. La forma de la onda es potencialmente significativa para describir el
patrón de vibración de las cuerdas vocales, y se han propuesto muchos cocientes para cuantificar la forma de onda (por
ejemplo, abierta, sesgada y contacto). Las técnicas para cuantificar la forma de onda aún no se han estandarizado, en
gran parte debido a los desafíos técnicos y la dificultad para relacionar la forma de onda EGG con el movimiento de las
cuerdas vocales.

Flujo filtrado inverso


El filtrado inverso es una técnica de procesamiento de señales que elimina los efectos del tracto vocal (formantes) de la
forma de onda acústica o aerodinámica, dejando el flujo global (es decir, la señal de origen). Se pueden realizar varias
medidas a partir de la forma de onda de flujo filtrada inversamente; estos incluyen el cociente de inclinación, la relación
entre el flujo creciente y el decreciente, y el cociente abierto, la relación entre el flujo creciente más el decreciente y el
período de la forma de onda. Se cree que las medidas de la pendiente del espectro de flujo son importantes para la
calidad general de la voz. Desafortunadamente, el filtrado inverso es técnicamente desafiante y los resultados son
difíciles de validar.
Debido a que el flujo global varía con los diferentes patrones de vibración de las cuerdas vocales y debido a que es
importante para la calidad de la voz, los enfoques para estimar la forma de onda del flujo global continúan
evolucionando. Alku y sus colegas analizaron las fuentes de error en el filtrado inverso y propusieron y probaron un
nuevo algoritmo. Kreiman y sus colegas adoptaron un enfoque diferente y usaron un sintetizador personalizado para
modificar espectralmente la voz filtrada inversamente para que coincidiera perceptualmente con la producción original.

Medidas aerodinámicas
La evaluación aerodinámica implica medir las presiones y los flujos de aire. Aunque es difícil separar las contribuciones
respiratorias de las laríngeas a las medidas de presión y flujo de aire durante la producción de la voz, las medidas
aerodinámicas brindan información valiosa para comprender la producción de la voz. Las mediciones se enumeran en la
Tabla 55.1 junto con sus correlatos perceptivos hipotéticos y valores normativos.
TABLA 55.1- Correlatos perceptuales de las medidas aerodinámicas
Medida Correlación perceptiva Media Normativa (Desviación Media normativa (desviación
Estándar) para Mujeres estándar) para hombres
a
Presión aire subgloal Esfuerzo fonatorio y fuerza 7,52 (2,17) cm H2O 6,43 (1,07) cm H2Oa
o intraoral de las consonantes de
presión
Presión umbral de Esfuerzo para iniciar la ≈3 cm H2O modal, ≈8 cm H2O tono altob
fonación fonación

Flujo de aire Respiración entrecortada 91–156 (16–71) ml/sc 101–183 (16–77) ml/sc
Resistencia de la VA Esfuerzo fonatorio, fuerza 27–51 cm H2O/L/s 24–45 cm H2O/L/sc
laríngea vocal y tensión
a Datos de Subtelny JD, Worth JH, Sakuda M: Presión intraoral y tasa de flujo durante el habla. J Speech Hear Res 9:498, 1966.
b Datos de Verdolini-Marston K, Titze IR, Druker DG. Cambios en la presión umbral de fonación con condiciones de hidratación
inducida. J Voz 8:30, 1994.
c Datos de Baken RJ, Orlikoff RF. Medición clínica de la voz y el habla, 2ª ed. San Diego, 2000, Grupo Editorial Singular.

Presión de aire intraoral


Se requiere una presión subgloal relativamente constante para mantener la vibración de las cuerdas vocales. Debido a
que la medición de la presión subgloal requiere directamente una punción traqueal, la presión del aire intraoral durante
una consonante oclusiva sorda (generalmente una "p") se usa como una estimación. Los informes de presión máxima
varían según el volumen, la edad, el género, la consonante y el contexto del habla. Los valores anormales pueden indicar
una falta de presión de conducción, una válvula laríngea o velofaríngea incompetente o insuficiente, o una mayor masa
o rigidez de las cuerdas vocales.

Presión de umbral de fonación


La presión subgloal necesaria para iniciar la vibración de las cuerdas vocales se denomina presión umbral de fonación
(PTP). En tonos altos, la PTP es sensible al aumento de la viscoelasticidad de las cuerdas vocales, y la medida ha sido útil
para demostrar cambios sutiles después de la deshidratación, la fatiga vocal y el calentamiento vocal. PTP podría
corresponder a la percepción de un paciente de mayor esfuerzo para fonar, un síntoma común de pacientes con
trastornos de la voz.

Flujo de aire
El flujo de aire se mide como volumen (mL o L) por unidad de tiempo (segundo o minuto). El flujo de aire medio se
evalúa comúnmente durante la fonación sostenida y los valores están influenciados por el sexo, la edad, la frecuencia
fundamental y la intensidad. El flujo de aire medio suele estar elevado cuando el cierre gloal es deficiente, como en el
deterioro del movimiento de las cuerdas vocales, y puede estar elevado o reducido con hiperfunción.
Resistencia de las vías respiratorias laríngeas
La resistencia de las vías respiratorias laríngeas es la relación entre la presión de aire translaríngea y el flujo de aire
translaríngeo. Una mayor resistencia de las vías respiratorias laríngeas puede indicar una mayor intensidad vocal, una
fase cerrada prolongada del ciclo gloal o una mayor fuerza de cierre gloal.

Tiempo máximo de fonación


El tiempo máximo de fonación (MPT) se ha utilizado durante mucho tiempo para cuantificar los conceptos mal definidos
de apoyo respiratorio y eficiencia fonatoria. Sin embargo, el tiempo máximo que un paciente puede mantener la
fonación no se explica por completo ni por la capacidad vital ni por la función laríngea. La capacidad y la función
respiratoria, la función fonatoria, la resonancia, la práctica, la frecuencia, la intensidad, las instrucciones y la elección de
vocales influyen en la MPT, y el rango normal para adultos jóvenes sanos es de 6,6 a 69,5 segundos. Por lo tanto, la
utilidad de MPT está severamente limitada por la escasa validez y confiabilidad. Si se usa MPT, debe recopilarse
utilizando instrucciones estándar y entrenamiento, debe informarse el más largo de los tres ensayos y los resultados
deben interpretarse con cautela.

Medidas de la función velofaríngea


La función velofaríngea inadecuada conduce a la emisión de aire nasal y consonantes de presión débiles. Estos aspectos
de la producción del habla se pueden cuantificar midiendo el flujo de aire nasal y la presión de aire intraoral. El flujo de
aire nasal alto y la presión de aire intraoral baja para las consonantes de presión indican incompetencia o disfunción
velofaríngea. Cuando también se mide la presión de la cavidad nasal, se puede calcular el área del orificio velofaríngeo.
El equilibrio de resonancia oronasal (p. ej., hipernasalidad durante las vocales e hiponasalidad durante las consonantes
nasales) se puede evaluar acústicamente mediante un programa comercial como el Nasometer (KayPENTAX, Montvale,
NJ). Este instrumento calcula la nasalancia, una relación entre la energía del sonido nasal y la energía total (oral más
nasal). La correlación de la nasalancia con la hipernasalidad percibida no es alta, y la nasalancia a menudo se considera
de manera binaria, de modo que las puntuaciones se consideran normales o no normales en función de un umbral. Los
umbrales varían ligeramente de un estudio a otro; la hipernasalidad generalmente se percibe cuando la nasalidad es
mayor del 25% al 33% para un pasaje no nasal estándar, y la hiponasalidad se percibe cuando la nasalancia cae por
debajo del 50% durante las oraciones nasales. Dado que los patrones de resonancia varían según el dialecto, se deben
usar datos normativos regionales cuando sea posible.

Medidas de voz acústica


La señal acústica del habla es la salida del sistema vocal y contiene mucha información sobre el tono, el volumen y la
calidad. Las mediciones acústicas se realizan mejor a partir de señales grabadas en equipos de alta calidad en un entorno
silencioso con una distancia constante entre la boca y el micrófono e instrucciones estándar. Los datos deben
interpretarse a la luz de la edad y el sexo del sujeto, las interacciones entre los parámetros y la muestra de voz
seleccionada para el análisis. También es importante saber si las muestras analizadas eran representativas de la voz
típica del paciente.
En la producción de la voz y el habla, la vibración de las cuerdas vocales y su interacción con las presiones del aire justo
por encima y por debajo de las cuerdas vocales producen una señal (fuente) con energía acústica a una frecuencia
fundamental, múltiplos de esa frecuencia (armónicos) y ruido (energía inarmónica). La señal fuente se modifica a
medida que pasa por el tracto vocal supragloal (filtro). Alterar la forma del tracto vocal, por ejemplo, levantar la lengua,
cambia la ubicación de los picos resonantes (formantes) y produce diferentes vocales. La fuente influye particularmente
en la determinación de la calidad de la voz y, a menudo, es deseable examinar aspectos de la señal fuente sin
visualización directa de las cuerdas vocales (p. ej., a través de video de alta velocidad).

Frecuencia
La frecuencia fundamental (F0) es el número de ciclos repetitivos por segundo presentes en la forma de onda acústica. El
tono es el principal correlato de percepción de la frecuencia, aunque muchos factores adicionales contribuyen a la
percepción del tono. El tono alterado y el rango de tono restringido son síntomas comunes de los trastornos de la voz y
pueden representar una preocupación importante para los pacientes. La frecuencia fundamental de habla promedio y el
rango de frecuencia máximo se pueden medir utilizando una variedad de paquetes de software gratuitos y disponibles
comercialmente, y la salida varía entre los paquetes según el algoritmo utilizado para el cálculo. La señal acústica debe
ser casi periódica para que el software identifique la frecuencia fundamental, una característica que limita la evaluación
precisa de muchas voces deterioradas. Los valores normativos están influenciados por la intensidad, la muestra del
habla, el tipo de vocal, la edad y el género, y una frecuencia fundamental de habla promedio varía de 100 a 125 Hz para
hombres adultos de 70 años y de 190 a 225 Hz para mujeres adultas. El rango de frecuencia máximo a menudo se
informa utilizando la escala de semitonos basada en octavas, con 12 semitonos en una octava. El rango máximo para
hombres y mujeres suele ser de dos y media a tres octavas, o aproximadamente de 29 a 36 semitonos.

Intensidad
El nivel de presión del sonido medido en decibeles (dB SPL), o intensidad, es el principal correlato acústico de la
sonoridad, aunque muchos factores influyen en la percepción de la sonoridad. El nivel de presión del sonido está
influenciado por la frecuencia, la vocal, la muestra del habla, el equipo, la distancia desde la fuente de sonido y el ruido
ambiental. Las medidas más habituales son los niveles medio de habla y de presión sonora mínimo y máximo. En
promedio, hombres y mujeres hablan a aproximadamente 70 dB SPL (a una distancia de 6 pulgadas), aunque la
variabilidad en el habla conversacional es significativa. La intensidad mínima suele ser inferior a 60 dB y la intensidad
máxima es superior a 110 dB. Las medidas de intensidad se utilizan para documentar los síntomas del paciente de
volumen inadecuado, como podría ocurrir con la enfermedad de Parkinson o el deterioro del movimiento de las cuerdas
vocales, o dificultad para hablar en voz baja, que puede ocurrir con cicatrices o lesiones.

Perfil de rango de voz


Un gráfico de frecuencia por intensidad para el rango total de un individuo se denomina perfil de rango de voz o
fonetograma. Las intensidades mínima y máxima que un individuo puede producir se calculan para cada frecuencia en el
rango de esa persona (ver Fig. 55.1). Por lo general, las frecuencias más altas se producen a un SPL mayor que las
frecuencias más bajas. El perfil es útil para rastrear el cambio y para documentar la dificultad con combinaciones
específicas de tono y volumen (por ejemplo, problemas para cantar notas particulares en voz baja).

Medidas de perturbación y ruido


La medición acústica de la calidad de la voz es más difícil que el tono o el volumen. Se ha pensado que las medidas que
documentan la variabilidad en la onda de sonido o el ruido en el espectro indican aspereza, respiración entrecortada y
tensión. Desafortunadamente, estas medidas no se corresponden fuertemente con la calidad de la voz. Las medidas de
perturbación más conocidas son jier, variación de ciclo a ciclo en frecuencia, y shimmer, variación de ciclo a ciclo en
amplitud; sin embargo, los cambios en estas medidas deben ser significativos antes de que los oyentes puedan
percibirlos, y las medidas de perturbación se pueden completar de manera confiable solo para señales casi periódicas. El
análisis de perturbación no es apropiado si la señal no tiene una frecuencia fundamental única o si tiene cambios
cualitativos, que son características comunes en las voces desordenadas. En particular, las medidas están
específicamente excluidas de las recomendaciones para el análisis acústico de la voz del panel de expertos de la
American SpeechLanguage-Hearing Association (ASHA).
Se han propuesto varias estimaciones de los componentes periódicos (armónicos) versus aperiódicos (ruido) de una
señal, y una o más de estas medidas generalmente se incluyen en los paquetes de software de análisis acústico. Los
valores normativos dependen de la medida particular y del algoritmo utilizado para el cálculo, y no ha surgido ningún
estándar. Además, las variantes de la relación entre armónicos y ruido, como las medidas de perturbación, dependen de
la extracción precisa de la frecuencia fundamental y son propensas a errores en el caso de voces desordenadas. Al igual
que las medidas de perturbación, se excluyeron de las recomendaciones de análisis acústico del panel de expertos de
ASHA.

Evaluación espectral y cepstral


La forma de onda acústica contiene información sobre la fuente y el filtro. Las técnicas de análisis se pueden utilizar para
resaltar los componentes de fuente y filtro.
Un espectrograma muestra las frecuencias presentes en la onda de sonido a lo largo del tiempo, con la magnitud de la
energía en una frecuencia dada evidente por la pigmentación en una escala de grises o de colores. Cambiar el ancho de
banda de la ventana de análisis nos permite ver detalles de la fuente o del filtro. Un espectrograma de banda ancha
tiene una resolución de tiempo más alta y resalta los formantes, que son componentes del filtro. Un espectrograma de
banda estrecha tiene una resolución de frecuencia más alta y enfatiza la frecuencia fundamental y los armónicos (Fig.
55.2). Los espectrogramas de banda estrecha se utilizan para visualizar características como el ruido relativo y la energía
armónica, el temblor, las pausas de fonación y los cambios de tono.

HIGO. 55.2 Perfil de rango de voz de muestra de un no cantante que muestra un


rango de frecuencia total de 131 Hz (C3) a 1318 Hz (E6), que es de 40 semitonos o
3,3 octavas. El rango de intensidad es de 53 dB SPL.

Un espectro muestra la frecuencia por amplitud y permite un examen preciso de la energía presente en todas las
frecuencias que componen una forma de onda (Fig. 55.3). Los espectros promedio a largo plazo muestran la cantidad de
energía en cada frecuencia sumada durante un largo período de tiempo, como una lectura estándar. Debido a que la
medida se promedia sobre una muestra tan larga, los efectos del contexto del habla se minimizan. Las medidas de
espectros típicamente comparan la magnitud de la energía en diferentes bandas de frecuencia. Los valores resultantes, a
menudo denominados inclinación espectral, indican si las frecuencias bajas o altas dominan el espectro. Una mayor
inclinación espectral (es decir, menos información de alta frecuencia) se asocia con una voz entrecortada.

HIGO. 55.3 Espectrogramas de banda estrecha para una mujer que dice “zah zay zee zoh zoo” usando su calidad de voz normal (A) y
una calidad de voz entrecortada (B). Las estrías horizontales son energía armónica y la energía de apariencia borrosa de baja
amplitud (azul o verde) es ruido. Tenga en cuenta que hay armónicos de mayor frecuencia en la producción normal que en la
producción entrecortada. Los armónicos en su producción normal son de mayor amplitud (naranja y rojo) que los de la producción
entrecortada (verde y amarillo).

Un cepstrum es un espectro de un espectro. La prominencia del pico cepstral (CPP) es una medida de la periodicidad de
la señal que no se basa en la extracción de la frecuencia fundamental, sino que corresponde a la regularidad de los picos
armónicos. Se ha encontrado que la medida se corresponde con las calificaciones de respiración entrecortada y disfonía
general. Un CPP más alto refleja armónicos regulares y calidad de voz de cerveza, mientras que un CPP más bajo es
consistente con una peor calidad de voz.

TERAPIA DIAGNÓSTICA
La terapia de diagnóstico, o terapia de sonda, se utiliza para determinar si se puede modificar la calidad de la voz. La
respuesta a las pruebas terapéuticas puede guiar las decisiones de intervención e incluso puede ayudar a determinar el
diagnóstico. Las pruebas de terapia a menudo incluyen la modificación de la tensión o la postura del músculo laríngeo
extrínseco. También incluyen técnicas para modificar los subsistemas de respiración, fonación y resonancia.

INTRODUCCIÓN A LA TERAPIA PARA LOS TRASTORNOS DE LA VOZ Y DE LAS VÍAS AÉREAS LARÍNGEAS
Terapia para Trastornos de la Voz
Los patólogos del habla y el lenguaje trabajan con los pacientes para usar el mecanismo de producción de voz más
eficiente y saludable posible para mejorar la calidad y el volumen de la voz, minimizar las discapacidades relacionadas
con la voz, mejorar la eficacia comunicativa y restaurar la identidad y la salud vocal. La terapia de la voz generalmente
implica una terapia indirecta y directa para mejorar la técnica de producción de la voz del paciente. El número de
sesiones de terapia de la voz y el pronóstico de mejora varían y dependen de cada paciente y de sus objetivos. La terapia
es generalmente a corto plazo (de una a ocho sesiones) y es más exitosa para aquellos que demuestran la capacidad de
mejorar la voz al principio del proceso. Es importante señalar que la terapia de la voz requiere cambios de
comportamiento, y los pacientes solo mejoran con la terapia cuando participan activamente incorporando las nuevas
habilidades en su vida diaria. Primero se presenta una descripción general de la terapia de la voz para la disfonía,
seguida de la terapia para los trastornos de las vías respiratorias laríngeas.
El componente indirecto de la terapia de la voz, el asesoramiento para optimizar el entorno laríngeo y el uso de la voz,
suele ser breve. Implica una "higiene vocal" adecuada y relevante, en la que el patólogo del habla y el lenguaje refuerza
las recomendaciones del médico con respecto al entorno laríngeo interno (por ejemplo, hidratación, precauciones
contra el reflujo y cumplimiento del régimen de medicación prescrito) y una "reducción de fonotrauma" adecuada y
relevante qué pacientes son guiados para modificar la cantidad y el tipo de uso de la voz. Para algunos pacientes, las
recomendaciones de tratamiento primario son médicas, quirúrgicas o implican estrategias compensatorias (p. ej.,
amplificación). En este caso, una o dos sesiones de terapia de voz indirecta pueden ser los únicos servicios que requieren
de un patólogo del habla y el lenguaje. Por lo general, sin embargo, la mayor parte de la terapia de la voz se dedica al
trabajo directo en la técnica de producción de la voz (que se describe más adelante), porque la terapia de la voz directa
conduce a una mejoría mayor en la calidad de la voz y los síntomas que la higiene vocal por sí sola.

Comentarios generales
La técnica de terapia de voz que se utiliza varía según las fortalezas y necesidades del paciente y las fortalezas y la
capacitación del médico. Ninguna técnica o "receta" estándar de oro para la terapia de la voz funciona para todos los
pacientes y médicos, incluso dentro de un diagnóstico, y los pacientes responden a diferentes tipos y niveles de
retroalimentación e instrucción. La elección de la técnica de terapia a menudo es independiente del diagnóstico médico
subyacente, porque los pacientes con el mismo diagnóstico médico producen comportamientos vocales muy diferentes.
La mayoría de las veces, el objetivo de la intervención es generar un cambio en los sistemas de resonancia, laríngeo y
respiratorio, y el patólogo del habla y el lenguaje usa una combinación de muchas técnicas para producir este cambio. La
siguiente sección es una descripción general de varias técnicas organizadas por sistema, seguida de consideraciones
adicionales para poblaciones específicas.

Tracto vocal supraglótico


Varias técnicas utilizadas en la terapia de la voz aprovechan las interacciones no lineales del área gloal variable en el
tiempo y el tracto vocal supragloal. En conjunto, se consideran técnicas “resonantes” o de “tracto vocal semiocluido”, y
consisten en alterar la longitud del tracto vocal a través de cambios de altura laríngea o redondeo de labios y cambiar el
diámetro del tracto vocal a través de constricciones o expansiones de la laringe. vestíbulo (es decir, laringe supragloal o
epilaringe), faringe o boca. Las técnicas resonantes pueden alterar la calidad de la voz al influir en los patrones de
vibración de las cuerdas vocales y mejorar la estructura armónica. Se enseña a los pacientes a sentir la vibración en la
boca o la cara ya disminuir la tensión o el esfuerzo laríngeo. A veces, los dispositivos externos, como pajitas o kazoos, se
utilizan al principio de estas terapias para ayudar al paciente a establecer el objetivo de percepción. La terapia de
entrenamiento conversacional (CTT, por sus siglas en inglés) es un tipo diferente de enfoque en el que el paciente
también se enfoca en las estructuras supragloales. Aquí, las sesiones de terapia y la práctica ocurren en lenguaje
conversacional desde el primer día de tratamiento para facilitar la generalización. El enfoque del paciente está en la
precisión articulatoria, los movimientos articulatorios y la calidad de la voz durante la conversación (Gartner-Schmidt et
al., 2016).

Equilibrio del músculo laríngeo


La tensión excesiva en los músculos laríngeos y de la correa extrínsecos puede precipitar, exacerbar o mantener un
trastorno de la voz. Dirigirse directamente a estos músculos a través de la reducción manual de la tensión y el masaje
puede interrumpir los patrones de voz desordenados y mejorar rápidamente la calidad de la voz, a menudo con una
mejora a largo plazo. En la figura 55.4 se representan maniobras comunes que incluyen el retroceso del hioides y el
descenso del cartílago tiroides.

HIGO. 55.4 Las maniobras manuales para mejorar los patrones de voz desordenados incluyen
empujar hacia atrás el hioides con un dedo (A) y bajar el cartílago tiroides (B).

Coordinación de Valvulería Respiratoria-Laríngea


Los pacientes a veces usan una coordinación ineficiente de la respiración y la válvula laríngea. Por ejemplo, pueden usar
un flujo de aire demasiado bajo ("contener la respiración"), producir una aducción de las cuerdas vocales estrecha
durante la fonación o producir un cierre incompleto de las cuerdas vocales con demasiado flujo de aire al comienzo de la
fonación. Se pueden usar varias estrategias para trabajar hacia la valvulería coordinada de las vías respiratorias antes y
durante el habla. En estiramiento y flujo, o fonación de flujo, a los pacientes se les enseña a manejar el flujo de aire
durante una progresión de tareas sin voz y luego con voz, hasta que puedan identificar la sensación de energía del flujo
de aire en la parte delantera de la boca mientras mantienen una constricción disminuida de la garganta. La coordinación
de la respiración y la fonación también se aborda mediante el uso de vocales sostenidas producidas con un acento nasal
u oral o mediante pajitas. Las producciones generalmente se mantienen en silencio y el enfoque a menudo se denomina
ejercicios de funciones vocales.
La modificación de la respuesta global (es decir, inicios duros o entrecortados) se puede utilizar para normalizar la
producción de la voz, y la retroalimentación visual con endoscopia o estroboscopia es útil cuando los pacientes
necesitan ayuda para aprender a atender sentimientos sutiles.

Respiración
Para la mayoría de los pacientes, trabajar con la respiración implica simplemente discutir y practicar el momento
apropiado para la inhalación (es decir, grupos de respiración) y usar el rango objetivo de capacidad vital (es decir, iniciar
al 60 % y terminar al 40 % de la capacidad vital). Las cuerdas vocales rígidas, el cierre globular deficiente o la necesidad
del paciente de usar una voz fuerte pueden requerir instrucciones adicionales. Los pacientes que necesitan hablar en voz
alta, por ejemplo, pueden necesitar instrucciones para inhalar a un volumen pulmonar mayor (es decir, hasta el 80 % de
la capacidad vital), usar un esfuerzo muscular adicional para resistir el retroceso durante el comienzo de la espiración y
facilitar la exhalación continua cerca del nivel espiratorio en reposo. El Método Accent es una técnica de terapia en la
que el paciente se enfoca en coordinar el movimiento abdominal con la producción de sonido. La técnica no altera
simplemente la respiración, sino que altera holísticamente todos los niveles de producción de la voz.

Postura y Alineación
Cuando las características musculoesqueléticas contribuyen a MTD, es posible que deban abordarse directamente en la
terapia de voz. Cuando sea apropiado, se les enseña a los pacientes a eliminar la protuberancia de la mandíbula y
mejorar la alineación del cuello, la posición de los hombros y el movimiento de la mandíbula durante el habla.

Consideraciones adicionales
Aunque las técnicas descritas anteriormente a menudo forman la base de la terapia de la voz, se necesitan
consideraciones adicionales y técnicas especializadas para algunas poblaciones de pacientes.
Disfonía relacionada con la edad: se ha demostrado que varias de las técnicas descritas anteriormente mejoran la voz en
adultos mayores. También se ha descrito una terapia diseñada específicamente para tratar los déficits respiratorios y
laríngeos de la presbifonía a través del ejercicio vocal y se denomina ejercicio de entrenamiento de resistencia a la
fonación (PhoRTE).
Cantantes, actores y locutores profesionales: los locutores y cantantes profesionales requieren una cuidadosa
coordinación con los gerentes, directores, profesores de canto, entrenadores de voz u otros. La terapia de la voz para
prevenir y remediar los trastornos de la voz hablada está dentro del alcance de la práctica de los patólogos del habla y el
lenguaje, mientras que optimizar el uso de la voz para actuar, hablar en público y cantar es típicamente el dominio de los
entrenadores, maestros y entrenadores de la voz. Algunos patólogos del habla y el lenguaje también están capacitados
en otro campo del cuidado de la voz y pueden desempeñar funciones duales para rehabilitar las voces lesionadas y
mejorar las sanas.
Comunicación transgénero: para facilitar la percepción de un rol de género diferente, la terapia de comunicación
generalmente incluye más que la modificación del tono vocal. Es posible que sea necesario abordar la sonoridad, la
calidad de la voz y las resonancias del tracto vocal además de la precisión del habla, la entonación y la prosodia, la
velocidad y el lenguaje. La terapia también puede incluir la toma de conciencia y la modificación de la postura corporal,
los gestos y el uso social del lenguaje.

Terapia para los trastornos de las vías respiratorias laríngeas


La tos crónica y el movimiento paradójico de las cuerdas vocales se han descrito como parte de un continuo de síntomas
que comparten factores etiológicos comunes. Como profesionales que trabajan con la laringe y las vías respiratorias
laríngeas, los patólogos del habla y el lenguaje también brindan terapia para el síndrome de laringe irritable. Estos
trastornos son evaluados y manejados por un equipo, y los miembros del equipo variarán según las necesidades del
paciente y las filosofías de los miembros.

Tos crónica
El tratamiento por parte del logopeda puede estar indicado para la tos crónica refractaria al tratamiento médico
adecuado. Los temas del tratamiento son similares a la terapia de la voz, con un componente de asesoramiento que
incluye educación sobre las causas de la tos y aprender a aumentar la humedad en los ambientes internos y externos de
los pacientes (p. ej., sorber agua, inhalar vapor, alterar la humedad ambiental y disminuir la cafeína, alcohol y humo) y
reducir la exposición a irritantes (p. ej., alergias, reflujo y vapores). También hay un componente conductual y se
enseñan estrategias para retrasar, inhibir o reemplazar la tos con otro comportamiento. Los pacientes deben aprender a
romper el ciclo de irritación/tos para toser con menos fuerza, con menos frecuencia y durante menos tiempo.

Movimiento paradójico de las cuerdas vocales


El tratamiento para la disfunción paradójica de las cuerdas vocales comienza con el establecimiento de que el paciente
ha sido evaluado y tratado adecuadamente por los miembros del equipo correspondiente. A esto le sigue la educación
sobre el trastorno, que a menudo incluye una revisión de la evaluación endoscópica con el paciente, si el paciente
presentó síntomas durante el examen. El segmento de asesoramiento de la terapia implica identificar y determinar un
plan para controlar los desencadenantes ambientales y psicológicos. El componente conductual implica la
implementación de un programa de respiración y relajación para mejorar el control del paciente sobre la respiración y
reducir la incomodidad y la ansiedad que ocurren naturalmente con la dificultad para respirar. Se enseña a los pacientes
a prestar atención a los primeros signos de dificultad para respirar para prevenir ataques ya interrumpir los ataques
cuando la prevención no es posible. Las técnicas se practican, revisan y ajustan durante varias sesiones de terapia. La
retroalimentación visual con la endoscopia a menudo es útil para aprender a visualizar la posición de las cuerdas vocales
para usar estrategias para romper los ataques del movimiento paradójico de las cuerdas vocales. En ocasiones, el
patólogo del habla y el lenguaje debe viajar al entorno donde ocurren los ataques (una caminadora, una piscina o un
centro de capacitación) o debe crear dicho entorno en la oficina para ayudar al paciente a desarrollar estrategias de
respiración para prevenir e interrumpir los síntomas de la enfermedad. disfunción de las cuerdas vocales.

CONCLUSIONES
La evaluación y la terapia de la voz son dinámicas y evolucionan a medida que evoluciona nuestra comprensión de la
producción, la medición y la calidad de la voz. Un mejor conocimiento de los vínculos entre la producción y la percepción
impulsará futuras técnicas de evaluación y gestión.

También podría gustarte