Cuantificacion de La Calidad de La Voz para Su Evaluacion PDF

Zaragoza Del 8 al 10 de Noviembre de 2006 IV Jornadas en Tecnologia del Habla
CUANTIFICACIN DE LA CALIDAD DE LA VOZ PARA SU EVALUACIN CLNICA

POR MEDIO DEL ANLISIS ACSTICO
Jess B. Alonso 1, Miguel A. Ferrer 1, Jos de Len 2, Carlos M. Travieso 1

1
Dpto. de Seales y Comunicaciones, Universidad de Las Palmas de Gran Canaria
Campus de Tafira, 35017 Las Palmas de Gran Canaria, SPAIN
email: jalonso@dsc.ulpgc.es
2
Servicio de Otorrinolaringologa, General Hospital de Gran Canaria Dr.Negrn
Las Palmas de Gran Canaria, SPAIN
RESUMEN como son: la escala GRABS de Japn [1] y su

formulario extendido, desarrollado y aplicado en Europa
En lo que respecta a la evaluacin del sistema fonador, [2], o el utilizado en Suecia donde se ha trabajado en
las tcnicas basadas en mtodos de inspeccin visual otro juego de descriptores clnicos de la voz referentes a
directa son las tcnicas que permiten obtener la mejor la percepcin [3], o como en el que se introduce un
valoracin del estado del sistema fonador de un locutor juego de caractersticas fonticas las cuales intentan
aunque sin embargo esta tcnica presenta ciertos agregar informacin de la excitacin del tracto vocal en
inconvenientes como el hecho de tratarse de tcnicas la medida de la calidad de la voz [4]. Estos
invasivas, con la correspondiente incomodidad para el procedimientos de medida de la calidad de la voz
locutor que se preste a la evaluacin, o el hecho de que pretenden alcanzar una medida objetiva a partir de una
este tipo de pruebas han de ser realizadas por valoracin subjetiva.
profesionales del mbito mdico especializado. Existen diferentes trabajos en los que se
En este trabajo se propone un procedimiento proponen medidas objetivas de la calidad de la voz
para evaluar la calidad de la voz de un locutor a partir obtenidas a partir de una grabacin de audio
de una grabacin de audio. Este procedimiento, consiste [6][7][8][9][10[11][12]. Una caracterstica comn de la
en evaluar cuatro caractersticas de la seal de voz: la mayora de estos trabajos es la de utilizar para el clculo
estabilidad, la riqueza espectral, la presencia de ruido y de medidas de la calidad de la voz a partir de una
su comportamiento no lineal. Adems, se han grabacin de un sonido sonoro sostenido,
identificado las medidas de calidad de la voz que mejor principalmente una vocal. sto es debido a que durante
cuantifican a cada uno de estas caractersticas de la voz. la fonacin de este tipo de sonidos el sistema de
Finalmente, el trabajo concluye presentando una produccin de voz pone en funcionamiento gran parte
metodologa del anlisis acstico para la evaluacin de sus mecanismos (flujo gltico de aire constante,
clnica de la voz. vibracin de las cuerdas vocales de forma continuada,
) permitiendo captar cualquier anomala de estos
1. INTRODUCCIN mecanismos. En estos trabajos, los distintos autores
presentan diferentes conjuntos de medidas con la
Medir la calidad de la voz de un locutor a partir de una finalidad de cuantificar objetivamente la calidad de voz.
grabacin consiste en cuantificar diferentes Todos ellos tienen en comn la necesidad de realizar
caractersticas acsticas de la voz las cuales permitan diferentes medidas de la voz con la finalidad de recoger
compararla respecto a ciertos patrones de referencia. En en el proceso de medida los distintos aspectos de las
la bibliografa actual no existe una nica medida que caractersticas acsticas de la voz.
documente todas las caractersticas acsticas de la voz.
Una medida de la calidad acstica de la voz 2. LA CALIDAD DE LA VOZ DESDE
basada en una valoracin auditiva es intrnsecamente DIFERENTES DOMINIOS
difcil de establecer como referencia comparativa entre
distintas voces y distintos evaluadores. En la Una grabacin de voz aporta diferentes caractersticas
bibliografa actual se han realizado varios intentos de respecto a la calidad de la voz del locutor. Esta seal de
objetivar la medida de la calidad de voz por medio de voz registrada es posible representarla en diferentes
medidas clnicas multidimensionales basadas en dominios, lo cual resulta interesante ya que cada
mtodos auditivos. Existen ejemplos bien conocidos dominio en el que se puede representar la seal de voz,
203
J.B. Alonso, M.A. Ferrer, J.d. Leon, C.M. Travieso
manifiesta de forma preferencial alguna de las se caracterizan por presentar gran componente de ruido
caractersticas de la voz del locutor. Los principales alrededor de los formantes.
dominios estudiados en el procesado de seales de voz Las voces de alta calidad presentan gran
estn centrados en los siguientes dominios: cantidad de riqueza espectral. Por el contrario, las
voces de baja calidad presentan muy poca componente
- Dominio Temporal armnica, estando sta concentrada en las componentes
- Dominio Espectral de muy baja frecuencia. En cualquier caso, la cantidad
- Dominio Cepstral de riqueza espectral es una peculiaridad de la voz de un
- Dominio del Modelo Inverso locutor, sin embargo, la variacin de la riqueza espectral
a lo largo del tiempo durante la fonacin de un sonido
Sin duda alguna gran cantidad de los trabajos sonoro sostenido si es indicativo de una voz de baja
sobre procesado digital de seales de voz existentes en calidad.
la bibliografa actual centran sus estudios en estos Otra caracterstica tpica de las voces de baja
dominios. Sin embargo, nuevas lneas de trabajo calidad es la de presentar, durante la fonacin de un
presentan nuevos dominios derivados de los anteriores. sonido sonoro sostenido, variaciones en el ritmo de
De igual forma resulta de inters estudiar nuevos vibraciones de las cuerdas vocales, lo cual es
dominios que cada vez toman mayor importancia en el equivalente a decir que existe variaciones de la
procesado de seales: los dominios que manifiestan el frecuencia de pitch.
comportamiento no lineal de la seal de voz.
A continuacin se describen las manifestaciones 2.3. Dominio Cepstral
de relevantes de cada uno de los diferentes dominios.
Por medio de una representacin cepstral es posible
identificar caractersticas que permiten valorar la
2.1. Dominio Temporal
calidad de la voz (la envolvente del espectro, la riqueza
La envolvente de seal de voz de un locutor con voz de espectral, identificar las componentes armnicas y las
alta calidad resulta ms regular que la envolvente de la componentes de ruido, etc). En el caso de una fonacin
seal de voz del locutor con voz de baja calidad. Este de un sonido sonoro sostenido, realizando una
hecho resulta ms significativo en intervalos de tiempo representacin cepstral de diferentes tramas con
muy pequeos. Los fenmenos ms caractersticos que duracin equivalente a tres periodos de pitch, pueden
permiten diferenciar entre voz de alta calidad y voz de identificarse diferentes caractersticas.
baja calidad son: La riqueza espectral de una muestra de voz
La energa de la seal contenida en un intervalo de puede cuantificarse por medio de la amplitud y anchura
tiempo pequeo, vara mucho de un intervalo al de la componente cepstral correspondiente al pitch. La
siguiente en las seales de voz de baja calidad respecto existencia de un pico de una amplitud considerable
a las seales de voz de alta calidad. indica la presencia notable de energa en dicha
Otra caracterstica que presenta las voces de baja componente armnica, siendo sta una caracterstica de
calidad es la existencia de intervalos carentes de las voces de alta calidad. Tambin, una anchura
periodicidad durante fonaciones sonoras sostenidas. reducida del pico cepstral, correspondiente al pitch,
indica la alta estabilidad de la frecuencia de pitch para
tres periodos consecutivos, tambin siendo sta una
2.2. Dominio Espectral caracterstica de las voces de alta calidad.
En las muestras de voz de un sonido sonoro sostenido Caractersticas como la amplitud y la estrechez del pico
producidas por un locutor con voz de baja calidad cepstral correspondiente al segundo armnico son, al
presentan las siguientes caractersticas diferenciales igual que ocurre con el pico del pitch, aspectos que
frente a las voces de alta calidad: diferencian a las muestras de voz de alta y baja calidad.
Menor regularidad de la envolvente del espectro, La presencia de un pico cepstral correspondiente al
principalmente en las bajas frecuencias. primer armnico el cual resulte ms estrecho que el pico
Mayor porcentaje de energa en las bajas frecuencias cepstral correspondiente al segundo armnico resulta
respecto a la energa total. una caracterstica propia de las voces de alta calidad.
Presencia de bloques de energa en las altas La presencia de ruido gltico en la seal de voz
frecuencias, los cuales son debido a la presencia de puede estimarse por medio de relaciones entre
ruido gltico. diferentes regiones de los cepstrum: la componente
Gran variacin del espectro de una trama con armnica (las componentes cepstrales correspondientes
respecto a las tramas contiguas. al pitch y sus armnicos), y la componente de ruido (el
Una caracterstica de las voces de alta calidad resto de las componentes cepstrales).
es la energa del espectro concentrada alrededor de
determinados formantes, principalmente el primer y el 2.4. Dominio del Modelo Inverso
tercer formante, mientras que las voces de baja calidad En este dominio se estima, a partir de la seal de voz, la
forma de onda del pulso de aire que se produce debido a
204
las cuerdas vocales durante la fonacin de un sonido cuerdas derecha-izquierda o por desincronizacin en la
sonoro, es decir, la forma de onda de la seal residual vibracin anterior-posterior, siendo estas asimetras o
(forma de onda del flujo gltico). Esta estimacin de la desincronizaciones en las fases de la onda mucosa el
forma de onda se obtiene mediante un filtro inverso origen de los subarmnicos [19], lo que se asocia a
sobre la seal de voz, donde se elimina el efecto del significativas diferencias en las masas o propiedades
tracto vocal y el efecto de la radiacin en los labios. viscoelsticas entre las cuerdas vocales, siendo este
Las diferentes manifestaciones de la calidad de comportamiento susceptible de ser modelado por
la voz la en la seal gltica se cuantifican por medio de modelos de fonacin no lineales. Esta idea es
los valores de amplitudes, de los instantes de inicio de la compartida por [20], que propone la necesidad del uso
apertura, de mxima apertura de las cuerdas vocales, de modelos no lineales para explicar el efecto de la
de inicio del cierre, etc, y diferentes relaciones entre viscosidad de la mucosa de las cuerdas vocales en
distintos instantes del ciclo gltico: open quotient, speed aspectos como su vibracin (la mucosa en la superficie
quotient, closing quotient, etc. de las cuerdas vocales genera tensin superficial y causa
adhesin).
2.5. Dominio No Lineal Desde otra perspectiva, el modelo tradicional del
tracto vocal asume que la propagacin de la onda sonora
Los principales sistemas comerciales que permiten
se realiza por medio de una propagacin plana. Sin
evaluar objetivamente la calidad de la voz de un locutor
embargo, las medidas de presin sonora y las medidas
a partir de una grabacin (Dr Speech (Tiger
de variacin de volumen se adaptan de forma ms
Elemetric),SSVA (System for Sigle Voice Analysis),
realista a un modelo no lineal de fluido de dinmicos,
MDVP (Multi-Dimensional Voice Program) ,EVA
debindose esto a que las cavidades existentes entre las
(Evaluation Vocal Assistee), CSL (Computerized
cuerdas vocales y las falsas cuerdas vocales pueden
Speech Laboratory) PRAAT, VISHACSRE
provocar un torbellino, incluso pudindose producir
(Computerized Speech Research Environment),
torbellinos peridicos, el cual excita al tracto vocal
MEDIVOZ, etc) no evaluan las caractersticas no
durante la fase de cierre de las cuerdas vocales.
lineales presentes en la seal de voz.
A partir estudios empricos, se ha estudiado la
El modelo ms popular de caracterizacin del
dimensin fractal, por parte de diferentes autores,
sistema de produccin de voz es un sistema tiempo-
coincidiendo entre ellos en la baja dimensionalidad de la
variante, basado en teoras acsticas lineales,
seal de voz de alta calidad. En [5] se afirma que la
consistente en un modelo de fuentes y filtros
cantidad de alinealidades en el sistema vocal es una
(source/filter model). La existencia de variaciones en la
importante determinacin de la presencia de fonacin
amplitud espectral de la seal de voz, y adems en la
anormal, tambin indica que la dimensionalidad del
frecuencia fundamental, para una excitacin estable son
espacio de fases, utilizado para caracterizar el attractor,
indicios para presuponer un comportamiento no lineal.
puede estar relacionada con la cantidad de masa de las
Ha sido identificada [13] la presencia de una
cuerdas puestas en juego.
frecuencia fundamental (fs) y de un subarmnico (fs/2)
en la seal de voz, donde el efecto de los subarmnicos
3. FENMENOS FSICOS IMPLICADOS EN LA
se manifiesta o bien en una modulacin de amplitud o
CALIDAD DE LA VOZ
bien una modulacin de frecuencia, existiendo la
posibilidad de que se produzcan los dos fenmenos.
En el apartado anterior se ha realizado un
Estudios realizados [14] indican que un 31% de las
recorrido por los principales dominios de representacin
muestras de voz de locutores patolgicos presentan
en los que se puede estudiar la seal de voz,
subarmnicos. Si embargo, tambin se han identificado
describiendo las diferentes manifestaciones, propias de
la existencia de subarmnicos en las voces de alta
cada dominio, que permiten valorar la calidad de la voz.
calidad [15], donde el fenmeno se estima que lo
Cada una de las diferentes manifestaciones
presenta el 10.5% de la poblacin, siendo esta presencia
mencionadas, caracteriza un fenmeno fsico que
de subarmnicos no necesariamente indicativa
interviene en la generacin de la voz y sin embargo el
anormalidades.
mismo fenmeno fsico puede manifestarse en
Existen dos posibles teoras para justificar la
diferentes dominios de represtacin de la seal de voz.
presencia de subarmnicos:
En este trabajo se ha identificado el conjunto de
La teora de Titze [16]: la produccin de los
fenmenos fsicos necesarios describir para realizar una
subarmnicos se debe a asimetras mecnicas o
correcta documentacin de la calidad de voz de un
geomtricas entre las cuerdas vocales.
locutor. Los cuatro fenmenos fsicos identificados son
La teora de Svec [17]: la frecuencia subarmnica se los siguientes:
debe a la combinacin de dos modos vibracionales
(bifonacin: la presencia de dos frecuencias principales)
Estabilidad de la voz: es la capacidad de un locutor
cuyas frecuencias tienen la relacin 3:2.
de producir, durante la produccin de un sonido sonoro
Sin embargo, ambas teoras son las mismas
sostenido, un flujo de aire con una intensidad constante
segn [18], donde los autores indican que la presencia
para excitar las cuerdas vocales. Este fenmeno fsico se
de bifonacin puede ser inducida por asimetra entre
205
cuantifica a partir de medidas de estabilidad de la seal estudios donde, a partir de una base de datos de voces
de voz. de diferentes calidades con un nmero significativo de
Riqueza espectral: se define como la capacidad de muestras se realiza el estudio de conjuntos de medias e
generar, durante la fonacin de un sonido sostenido, un incluso se aplican tcnicas de seleccin de
movimiento peridico de las cuerdas vocales y de caractersticas con el fin de cuantificar la relevancia de
producir una excitacin sonora del tracto vocal con gran las diferentes medidas de calidad de la voz. Existen
cantidad de componentes espectrales. Este fenmeno diferentes aspectos en la metodologa de estos estudios
fsico se cuantifica por medio del clculo de la que no permiten realizar una generalizacin de los
estabilidad de la frecuencia de pitch y por la presencia resultados obtenidos.
de armnicos con energa elevada en las diferentes Debido principalmente a la inexistencia de una
bandas de frecuencias. gran base de datos resulta necesario demostrar la
Presencia de ruido: se define como la presencia de independencia de los resultados de la cuantificacin de
ruido gltico en la voz, durante la fonacin de un sonido la relevancia de las medidas de calidad de la voz con la
sonoro sostenido, debido a carencias en la fase de cierre base de datos.
de las cuerdas vocales. Este fenmeno fsico se Otro aspecto a tener en cuenta, es la gran
cuantifica por medio de la presencia de ruido no cantidad de estudios en los que no se tiene en cuenta en
estacionario en la voz. el proceso de seleccin de medidas de la calidad de la
Comportamiento no lineal: este fenmeno fsico es voz todo el conocimiento existente en el mbito clnico
ocasionado por un funcionamiento anmalo de las respecto a la naturaleza de los trastornos del sistema
cuerdas vocales, debido a irregularidades en las masas fonador que producen una alteracin de la calidad de la
de cuerdas vocales que interviene en la fase de cierre de voz. En este sentido, apreciamos, la necesidad de
cuerdas, existencia de asimetras en el movimiento de disponer de medidas de calidad de la voz que
las cuerdas y factores relacionados con la mucosa de las cuantifiquen cada uno de los cuatro fenmenos fsicos
cuerdas. Estos fenmenos son cuantificables por medio identificados con el fin de poder identificar la gran
de la identificacin de comportamientos no lineales en variedad de tipos de alteraciones de la calidad de la voz
la seal de voz. existentes, ya que cualquier voz de baja calidad
Una voz de calidad anormal presenta al menos presenta al menos la alteracin de una de las cuatro
uno de los valores correspondientes a la cuantificacin fenmenos fsicos identificados.
de los cuatro fenmenos fsicos fuera de los rangos de En este trabajo se propone clasificar las
normalidad. Este procedimiento de cuantificacin de la diferentes medidas de calidad de voz en los cuatro
calidad de la voz permite identificar calidades de voz grupos atendiendo al fenmeno fsico que cuantifica.
anmalas de diferente origen, es decir, la voz de un Una vez identificadas las diferentes medidas de calidad
locutor con baja calidad debida a un estado incipiente de de voz pertenecientes a cada una de los diferentes
una patologa orgnica presentar probablemente la grupos de caractersticas es necesario estudiar la
alteracin de la Estabilidad de la voz mientras que relevancia de las medidas para cada grupo. El mtodo
otro locutor con un estado incipiente de una patologa de seleccin de caractersticas que se propone, para
funcional presentar valores anormales de Presencia estudiar la relevancia de las medidas de cada grupo, es
de ruido. A medida que la calidad de la voz de un el algoritmo floating forward feature selection, ya que
locutor empeora aumentar el nmero de fenmenos permite obtener ordenadas las medidas de la calidad de
fsicos y la desviacin de los valores de la la voz en funcin de su relevancia, tiene un carcter y
cuantificacin de dichos fenmenos respecto a los adems, un coste computacional razonable.
valores de normalidad. En concreto, el mtodo propuesto consiste en
Estos cuatro diferentes fenmenos fsicos son asignar las diferentes medidas de calidad de la voz en
cuantificables en diferentes dominios de representacin uno de los cuatro grupos de medidas que hemos
de la seal de voz, existiendo diferentes medidas identificado. Posteriormente, las medidas de cada grupo
objetivas de la calidad de la voz que cuantifican con se ordenan en funcin de su relevancia por medio del
mayor o menor precisin un mismo fenmeno fsico. mtodo floating forward feature selection. Este mtodo
proporciona, para cada grupo de medidas, un conjunto
4. ESTRATEGIA PARA SELECCIONAR LAS ptimo de caractersticas, y es por ello que el proceso de
MEDIDIDAS DE CALIDAD DE LA VOZ evaluacin de cada uno de los diferentes grupos de
medidas se repite k iteraciones, y posteriormente se
Hasta ahora en la bibliografa actual nos encontramos ordenan las caractersticas en funcin del nmero de
diferentes escenarios en el estudio de las medidas de ocasiones en las que para las diferentes k iteraciones
calidad de la voz. Por un lado nos encontramos los estuvieron seleccionadas dentro del subconjunto
resultados obtenidos a partir de bases de datos de voces ptimo.
de diferentes calidades donde el nmero de muestras es
reducido, en los que se presentan los resultados
obtenidos para el estudio de una determinada medida o
de un subconjunto de medidas. Por otro lado existen
206
Grupo de Muestras de
Hombres Mujeres Total
Voces
Muestras de voces sanas 43 44 87
Muestras de Disfona
7 19 26 93
voces leve
Disfona
22 14 36
moderada
Disfona
18 13 31
severa
5.2. Base de Datos 2

Esta base de datos es la Voice Disorders Database
Model 4337 desarrollada por el Massachussets Eye and
Ear Infirmary Voice and Speech Lab.
Contiene 1400 muestras de voz de
aproximadamente 700 sujetos. Consiste en la fonacin
Para la evaluacin del sistema propuesto para sostenida de la vocal a, de pacientes con una amplia
identificar al subconjunto ptimo de medidas de calidad variedad de patologas del sistema fonador, al igual que
de la voz, se han utilizado dos bases de datos 53 muestras de voces sanas. Para su elaboracin se uso
totalmente independientes. Con una de ellas, se realiz un micrfono capacitivo en una cmara acsticamente
la seleccin de las medidas y su posterior evaluacin, y aislada. La seal fue registrada con un grabador DAT
con la otra base de datos slo se realiz la evaluacin, con una frecuencia de muestreo de 44.1 Khz,
con el fin comparar los resultados obtenidos en utilizndose un preamplificador calibrado.
diferentes sistemas de clasificacin.
6. RESULTADOS
5. DATOS
Se han identificado las principales medidas de calidad
Con el fin de evaluar el sistema de seleccin de medidas de la voz presentes en la bibliografa actual,
de calidad de la voz, se utiliz una coleccin de voces posteriormente han sido clasificadas en uno de los
de locutores los cuales presentan diferentes patologas cuatro grupos de medidas, y tras aplicar la metodologa
en el sistema fonador y voces de locutores sanos. propuesta, las medidas de cada uno de los cuatro grupos
Dentro de las muestras de voces de locutores han sido evaluadas por separado [6], utilizando un
patolgicos se dispuso de muestras con distintos grados diferentes sistemas de clasificacin (redes neuronales
de afeccin consiguiendo disponer de un variado rango probabilsticas (PNN), redes neuronales feedforward
de calidades de voz. Para el estudio se dispuso de dos (NN) con una capa oculta, clasificadores basados en
bases de datos. funciones de base radial (RBF), mquinas de vectores
soporte (SVM) y clasificadores basados en los K
5.1. Base de Datos 1 vecinos ms cercanos (KNN)). La evaluacin se realiz
La grabacin de voz ha sido realizada en un centro de forma incremental, aadiendo de forma
hospitalario, en una habitacin en la que se ha tenido en incrementalmente medidas de calidad de la voz en
cuenta los niveles de contaminacin acstica, orden, en funcin de su relevancia. Se observ que la
intentndose obtener un compromiso entre muy bajos tasa de xito en los diferentes clasificadores no se
niveles de ruido, y niveles de ruido realistas, ya que si incrementaba respecto a los resultados obtenidos
no fuese as resultara imposible aplicar a las utilizando la medida de calidad con mayor relevancia, a
condiciones normales de trabajo cualquier resultado medida que se aadan ms medidas de calidad de la
obtenido a partir de la base de datos. voz en el conjunto de caractersticas de entrada de los
El contenido de las grabaciones corresponde a diferentes clasificadores.
la fonacin de la vocal a castellana de forma sostenida Las medidas que mayor relevancia presentaron
y no susurrada. Este formato consiste en audio digital, para los diferentes grupos [6] fueron:
con una frecuencia de muestreo de 22050 KHz y con
Fenmeno Fsico Medida de Calidad de la Voz
una resolucin de 16 bits por muestra. Se utiliza una
Estabilidad de la Amplitude Perturbation Quotient
tarjeta de sonido convencional y un micrfono comn, voz (APQ)
con ancho de banda lineal superior a 11 Khz. Riqueza Espectral Media Valor Cepstral del primer pico
En la siguiente tabla se presenta los datos de los cepstrum derivados
pormenorizados por sexos y grados de patologas. Presencia de Media Relacin Espectral
Ruido Subarmnico - armnico de al seal
residual
Comportamiento Media rea inferior del biespectro
no Lineal integrado
207
related to physiological aspects,. in O. Fujimura & M.Hirano

Los resultados obtenidos para los diferentes (eds.), Vocal Fold Physiology, pp 283-303, 1995
clasificadores son los siguientes: [4] Laver, J., The Gift of Speech, Edinburgh University
Press,1991
Tasa de xito Tasa de xito
Clasificador [5] Robert F. Orlikoff, R. J. Baken, Curing Diagnosis:
Base de datos 1 Base de datos 2
Improving the Taxonomy of Phonatory Dysfunction, Sixth
PNN 80.95% 78.21%
Conference on Advances in Quantitative Laryngology.
NN 88.21% 84,36% Hamburg, Germany, April 2003
RBF 86.94% 84.53% [6] Jess B. Alonso, Metodologa del Anlisis Acstico para
SVM 84.34% 85.31% la Evaluacin Clnica de la Voz, Tesis Doctoral, Universidad
KNN 84.66% 85.38% de Las Palmas de Gran Canaria, 2006
[7] Boyanov, B; Hadjitodorov, S. "Acoustic analysis of
Por lo tanto, adems de resultar suficiente, con pathological voices. A voice analysis system for the screening
of laryngeal diseases". IEEE Engineering in Medicine and
una medida de calidad de la voz para cada grupo de
Biology Magazine, vol.16,no.4, pp.74 82, 1997.
medidas, se observa que los resultados obtenidos con la [8] Hansen, J.H.L.; Gavidia-Ceballos, L.; Kaiser, J.F. "A
base de datos 1 (utilizada para la seleccin) y los nonlinear operator-based speech feature analysis method with
resultados obtenidos con la base de datos 2 (utilizada application to vocal fold pathology assessment". IEEE
slo para la evaluacin) resultan muy similares. Transactions on Biomedical Engineering, vol.45, no. 3,
Se ha estudiado adems los rangos de pp.300-313, March 1998.
normalidad de las diferentes medidas, estimndose en [9] Stefan Hadjitodorov, Petar Mitev, A computer system
un intervalo de confianza de 95% y asociando el valor for acoustic analysis of pathological voices and laryngeal
de la medida al fenmeno fsico que cuantifica, diseases screening, Medical Engineering Physics, vol .24, pp.
obtenemos los siguientes rangos: 419-429, 2002.
[10] Michaelis D.; Frohlich M.; Strube H. W. "Selection and
combination of acoustic features for the description of
Estabilidad de la Voz 0.0000.136
pathologic voices". Acoustical Society of America. vol.103,
Riqueza Espectral 0.9191.759 no.3, pp.1628-1640, 1998.
Presencia de Ruido 0.1890.561 [11] Boyanov B., Doskov D., Mitev P., Hadjitodorov S.,
Comportamiento no Lineal 0.5300.754 Teston B. , New cepstral parameters for description of
pathologic voice, Comptes Rendus de L'Academie Bulgare
7. CONCLUSIONES des Sciences (Ann. of Bulgarian Academy of Sciences),
vol.53, no.3, pp.41-44, 2000
En este trabajo se han identificado los diferentes [12] Godino-Llorente, J.I.; Aguilera-Navarro, S.; Gomez-
fenmenos fsicos que caracterizan la calidad de la voz Vilda, P. "Non supervised neural net applied to the detection
y que necesitan ser cuantificados para una correcta of voice impairment". Proceedings of IEEE International
Conference on Acoustics, Speech, and Signal Processing,
documentacin de la calidad de la voz, introduciendo de ICASSP '00. vol.6, pp.3594-3597, 2000.
forma novedosa la cuantificacin del comportamiento [13] Xuejing Sun and Yi Xu, Perceived Pitch of Synthesized
no lineal de la seal de voz. Voice with Alternate Cycles, Journal of Voice, vol.16, no. 4,
Adems, se propone una estrategia, que pp. 443-459, 1995
combina la experiencia clnica con los mtodos ciegos [14] Nuez Batalla F, Suarez Nieto, C., Muoz Pinto, C.,
de seleccin de caractersticas, y que identifican las Baragao Rio, L., lvarez Zapico, M.J., Martnez Ferreras,
medidas de calidad de la voz que mejor permiten A., Estudio Espectrogrfico de la disfona: Subarmnicos,
documentar la calidad de la voz de un locutor. Acta Otorrinolaring. Esp., vol.52,no. 1, pp.52-56, 2000.
Finalmente, se propone un protocolo de [15] C. Michael Haben, Karen Kost, George Papagiannis,
Lateral Phase Mucosal Asymmetries in the Clinical Voice
evaluacin de la calidad de la voz por medio de 4
Laboratory, Journal of Voice, vol.17,no. 1, pp.3-11,2003.
medidas objetivas obtenidas a partir de una grabacin [16] TItze, IR., Principles of Voice Production, Englewood
de voz, que permiten asociar el valor de la medida con Cliffs, NJ: Prentice-Hall, Inc, 1994 .
la cuantificacin de un determinado comportamiento [17] Svec JG, Schutte HK, Miller DG. A Subharmonic
fisiolgico del sistema fonador. vibratory pattern in normal vocal folds, Journal of Speech
and Hearing Research, vol.39, no.1, pp.135-143,1996.
8. BIBLIOGRAFA [18] Jrgen Neubauer, Patrick Eysholdt, Ulrich Eysholdt,
Hanspeter Herzel, Spatio-temporal analysis of irregular vocal
[1] Hirano, M., Clinical Examination of Voice. New York, fold oscillations: Biphonation due to desynchronization of
Springer-Verlag, 1981 spatial models, J. Acoustical Society of America, vol.110,
[2] Dejonckere, P. H. Remacle, M. Fresnel-Elbaz, E. no. 6, pp.3179-3192, December 2001.
Woisard, V. Crevier-Buchman, L. Millet, B., Differentiated [19] C. Michael Haben, Karen Kost, George Papagiannis,
perceptual evaluation of pathological voice quality: reliability Lateral Phase Mucosal Asymmetries in the Clinical Voice
and correlations with acoustic measurements. Revue de Laboratory, Journal of Voice, vol.17,no. 1, pp.3-11,2003.
Laryngologie Otologie Rhinologie, vol. 117, no.2, pp. 219- [20] Stephane Ayache, Maurice Ouaknine, Philippe
224, (Bordeaux) 1996. Dejonkere, Pierre Prindere, Antoine Giovanni, Experimental
[3] Hammarberg, B. y Gauffin, J., Perceptual and acoustic Study of the Effects od Surface Mucus Viscosity on the
characteristics of quality differences in pathological voices as Glottic Cycle, Journal of Voice, vol.18, no.1, 2004.
208

Cuantificacion de La Calidad de La Voz para Su Evaluacion PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Cuantificacion de La Calidad de La Voz para Su Evaluacion PDF

Cargado por

Copyright:

Formatos disponibles

Zaragoza Del 8 al 10 de Noviembre de 2006 IV Jornadas en Tecnologia del Habla

CUANTIFICACIN DE LA CALIDAD DE LA VOZ PARA SU EVALUACIN CLNICA

Jess B. Alonso 1, Miguel A. Ferrer 1, Jos de Len 2, Carlos M. Travieso 1

RESUMEN como son: la escala GRABS de Japn [1] y su

5.2. Base de Datos 2

related to physiological aspects,. in O. Fujimura & M.Hirano

También podría gustarte