Documentos de Académico
Documentos de Profesional
Documentos de Cultura
203
J.B. Alonso, M.A. Ferrer, J.d. Leon, C.M. Travieso
manifiesta de forma preferencial alguna de las se caracterizan por presentar gran componente de ruido
caractersticas de la voz del locutor. Los principales alrededor de los formantes.
dominios estudiados en el procesado de seales de voz Las voces de alta calidad presentan gran
estn centrados en los siguientes dominios: cantidad de riqueza espectral. Por el contrario, las
voces de baja calidad presentan muy poca componente
- Dominio Temporal armnica, estando sta concentrada en las componentes
- Dominio Espectral de muy baja frecuencia. En cualquier caso, la cantidad
- Dominio Cepstral de riqueza espectral es una peculiaridad de la voz de un
- Dominio del Modelo Inverso locutor, sin embargo, la variacin de la riqueza espectral
a lo largo del tiempo durante la fonacin de un sonido
Sin duda alguna gran cantidad de los trabajos sonoro sostenido si es indicativo de una voz de baja
sobre procesado digital de seales de voz existentes en calidad.
la bibliografa actual centran sus estudios en estos Otra caracterstica tpica de las voces de baja
dominios. Sin embargo, nuevas lneas de trabajo calidad es la de presentar, durante la fonacin de un
presentan nuevos dominios derivados de los anteriores. sonido sonoro sostenido, variaciones en el ritmo de
De igual forma resulta de inters estudiar nuevos vibraciones de las cuerdas vocales, lo cual es
dominios que cada vez toman mayor importancia en el equivalente a decir que existe variaciones de la
procesado de seales: los dominios que manifiestan el frecuencia de pitch.
comportamiento no lineal de la seal de voz.
A continuacin se describen las manifestaciones 2.3. Dominio Cepstral
de relevantes de cada uno de los diferentes dominios.
Por medio de una representacin cepstral es posible
identificar caractersticas que permiten valorar la
2.1. Dominio Temporal
calidad de la voz (la envolvente del espectro, la riqueza
La envolvente de seal de voz de un locutor con voz de espectral, identificar las componentes armnicas y las
alta calidad resulta ms regular que la envolvente de la componentes de ruido, etc). En el caso de una fonacin
seal de voz del locutor con voz de baja calidad. Este de un sonido sonoro sostenido, realizando una
hecho resulta ms significativo en intervalos de tiempo representacin cepstral de diferentes tramas con
muy pequeos. Los fenmenos ms caractersticos que duracin equivalente a tres periodos de pitch, pueden
permiten diferenciar entre voz de alta calidad y voz de identificarse diferentes caractersticas.
baja calidad son: La riqueza espectral de una muestra de voz
La energa de la seal contenida en un intervalo de puede cuantificarse por medio de la amplitud y anchura
tiempo pequeo, vara mucho de un intervalo al de la componente cepstral correspondiente al pitch. La
siguiente en las seales de voz de baja calidad respecto existencia de un pico de una amplitud considerable
a las seales de voz de alta calidad. indica la presencia notable de energa en dicha
Otra caracterstica que presenta las voces de baja componente armnica, siendo sta una caracterstica de
calidad es la existencia de intervalos carentes de las voces de alta calidad. Tambin, una anchura
periodicidad durante fonaciones sonoras sostenidas. reducida del pico cepstral, correspondiente al pitch,
indica la alta estabilidad de la frecuencia de pitch para
tres periodos consecutivos, tambin siendo sta una
2.2. Dominio Espectral caracterstica de las voces de alta calidad.
En las muestras de voz de un sonido sonoro sostenido Caractersticas como la amplitud y la estrechez del pico
producidas por un locutor con voz de baja calidad cepstral correspondiente al segundo armnico son, al
presentan las siguientes caractersticas diferenciales igual que ocurre con el pico del pitch, aspectos que
frente a las voces de alta calidad: diferencian a las muestras de voz de alta y baja calidad.
Menor regularidad de la envolvente del espectro, La presencia de un pico cepstral correspondiente al
principalmente en las bajas frecuencias. primer armnico el cual resulte ms estrecho que el pico
Mayor porcentaje de energa en las bajas frecuencias cepstral correspondiente al segundo armnico resulta
respecto a la energa total. una caracterstica propia de las voces de alta calidad.
Presencia de bloques de energa en las altas La presencia de ruido gltico en la seal de voz
frecuencias, los cuales son debido a la presencia de puede estimarse por medio de relaciones entre
ruido gltico. diferentes regiones de los cepstrum: la componente
Gran variacin del espectro de una trama con armnica (las componentes cepstrales correspondientes
respecto a las tramas contiguas. al pitch y sus armnicos), y la componente de ruido (el
Una caracterstica de las voces de alta calidad resto de las componentes cepstrales).
es la energa del espectro concentrada alrededor de
determinados formantes, principalmente el primer y el 2.4. Dominio del Modelo Inverso
tercer formante, mientras que las voces de baja calidad En este dominio se estima, a partir de la seal de voz, la
forma de onda del pulso de aire que se produce debido a
204
Zaragoza Del 8 al 10 de Noviembre de 2006 IV Jornadas en Tecnologia del Habla
las cuerdas vocales durante la fonacin de un sonido cuerdas derecha-izquierda o por desincronizacin en la
sonoro, es decir, la forma de onda de la seal residual vibracin anterior-posterior, siendo estas asimetras o
(forma de onda del flujo gltico). Esta estimacin de la desincronizaciones en las fases de la onda mucosa el
forma de onda se obtiene mediante un filtro inverso origen de los subarmnicos [19], lo que se asocia a
sobre la seal de voz, donde se elimina el efecto del significativas diferencias en las masas o propiedades
tracto vocal y el efecto de la radiacin en los labios. viscoelsticas entre las cuerdas vocales, siendo este
Las diferentes manifestaciones de la calidad de comportamiento susceptible de ser modelado por
la voz la en la seal gltica se cuantifican por medio de modelos de fonacin no lineales. Esta idea es
los valores de amplitudes, de los instantes de inicio de la compartida por [20], que propone la necesidad del uso
apertura, de mxima apertura de las cuerdas vocales, de modelos no lineales para explicar el efecto de la
de inicio del cierre, etc, y diferentes relaciones entre viscosidad de la mucosa de las cuerdas vocales en
distintos instantes del ciclo gltico: open quotient, speed aspectos como su vibracin (la mucosa en la superficie
quotient, closing quotient, etc. de las cuerdas vocales genera tensin superficial y causa
adhesin).
2.5. Dominio No Lineal Desde otra perspectiva, el modelo tradicional del
tracto vocal asume que la propagacin de la onda sonora
Los principales sistemas comerciales que permiten
se realiza por medio de una propagacin plana. Sin
evaluar objetivamente la calidad de la voz de un locutor
embargo, las medidas de presin sonora y las medidas
a partir de una grabacin (Dr Speech (Tiger
de variacin de volumen se adaptan de forma ms
Elemetric),SSVA (System for Sigle Voice Analysis),
realista a un modelo no lineal de fluido de dinmicos,
MDVP (Multi-Dimensional Voice Program) ,EVA
debindose esto a que las cavidades existentes entre las
(Evaluation Vocal Assistee), CSL (Computerized
cuerdas vocales y las falsas cuerdas vocales pueden
Speech Laboratory) PRAAT, VISHACSRE
provocar un torbellino, incluso pudindose producir
(Computerized Speech Research Environment),
torbellinos peridicos, el cual excita al tracto vocal
MEDIVOZ, etc) no evaluan las caractersticas no
durante la fase de cierre de las cuerdas vocales.
lineales presentes en la seal de voz.
A partir estudios empricos, se ha estudiado la
El modelo ms popular de caracterizacin del
dimensin fractal, por parte de diferentes autores,
sistema de produccin de voz es un sistema tiempo-
coincidiendo entre ellos en la baja dimensionalidad de la
variante, basado en teoras acsticas lineales,
seal de voz de alta calidad. En [5] se afirma que la
consistente en un modelo de fuentes y filtros
cantidad de alinealidades en el sistema vocal es una
(source/filter model). La existencia de variaciones en la
importante determinacin de la presencia de fonacin
amplitud espectral de la seal de voz, y adems en la
anormal, tambin indica que la dimensionalidad del
frecuencia fundamental, para una excitacin estable son
espacio de fases, utilizado para caracterizar el attractor,
indicios para presuponer un comportamiento no lineal.
puede estar relacionada con la cantidad de masa de las
Ha sido identificada [13] la presencia de una
cuerdas puestas en juego.
frecuencia fundamental (fs) y de un subarmnico (fs/2)
en la seal de voz, donde el efecto de los subarmnicos
3. FENMENOS FSICOS IMPLICADOS EN LA
se manifiesta o bien en una modulacin de amplitud o
CALIDAD DE LA VOZ
bien una modulacin de frecuencia, existiendo la
posibilidad de que se produzcan los dos fenmenos.
En el apartado anterior se ha realizado un
Estudios realizados [14] indican que un 31% de las
recorrido por los principales dominios de representacin
muestras de voz de locutores patolgicos presentan
en los que se puede estudiar la seal de voz,
subarmnicos. Si embargo, tambin se han identificado
describiendo las diferentes manifestaciones, propias de
la existencia de subarmnicos en las voces de alta
cada dominio, que permiten valorar la calidad de la voz.
calidad [15], donde el fenmeno se estima que lo
Cada una de las diferentes manifestaciones
presenta el 10.5% de la poblacin, siendo esta presencia
mencionadas, caracteriza un fenmeno fsico que
de subarmnicos no necesariamente indicativa
interviene en la generacin de la voz y sin embargo el
anormalidades.
mismo fenmeno fsico puede manifestarse en
Existen dos posibles teoras para justificar la
diferentes dominios de represtacin de la seal de voz.
presencia de subarmnicos:
En este trabajo se ha identificado el conjunto de
La teora de Titze [16]: la produccin de los
fenmenos fsicos necesarios describir para realizar una
subarmnicos se debe a asimetras mecnicas o
correcta documentacin de la calidad de voz de un
geomtricas entre las cuerdas vocales.
locutor. Los cuatro fenmenos fsicos identificados son
La teora de Svec [17]: la frecuencia subarmnica se los siguientes:
debe a la combinacin de dos modos vibracionales
(bifonacin: la presencia de dos frecuencias principales)
Estabilidad de la voz: es la capacidad de un locutor
cuyas frecuencias tienen la relacin 3:2.
de producir, durante la produccin de un sonido sonoro
Sin embargo, ambas teoras son las mismas
sostenido, un flujo de aire con una intensidad constante
segn [18], donde los autores indican que la presencia
para excitar las cuerdas vocales. Este fenmeno fsico se
de bifonacin puede ser inducida por asimetra entre
205
J.B. Alonso, M.A. Ferrer, J.d. Leon, C.M. Travieso
cuantifica a partir de medidas de estabilidad de la seal estudios donde, a partir de una base de datos de voces
de voz. de diferentes calidades con un nmero significativo de
Riqueza espectral: se define como la capacidad de muestras se realiza el estudio de conjuntos de medias e
generar, durante la fonacin de un sonido sostenido, un incluso se aplican tcnicas de seleccin de
movimiento peridico de las cuerdas vocales y de caractersticas con el fin de cuantificar la relevancia de
producir una excitacin sonora del tracto vocal con gran las diferentes medidas de calidad de la voz. Existen
cantidad de componentes espectrales. Este fenmeno diferentes aspectos en la metodologa de estos estudios
fsico se cuantifica por medio del clculo de la que no permiten realizar una generalizacin de los
estabilidad de la frecuencia de pitch y por la presencia resultados obtenidos.
de armnicos con energa elevada en las diferentes Debido principalmente a la inexistencia de una
bandas de frecuencias. gran base de datos resulta necesario demostrar la
Presencia de ruido: se define como la presencia de independencia de los resultados de la cuantificacin de
ruido gltico en la voz, durante la fonacin de un sonido la relevancia de las medidas de calidad de la voz con la
sonoro sostenido, debido a carencias en la fase de cierre base de datos.
de las cuerdas vocales. Este fenmeno fsico se Otro aspecto a tener en cuenta, es la gran
cuantifica por medio de la presencia de ruido no cantidad de estudios en los que no se tiene en cuenta en
estacionario en la voz. el proceso de seleccin de medidas de la calidad de la
Comportamiento no lineal: este fenmeno fsico es voz todo el conocimiento existente en el mbito clnico
ocasionado por un funcionamiento anmalo de las respecto a la naturaleza de los trastornos del sistema
cuerdas vocales, debido a irregularidades en las masas fonador que producen una alteracin de la calidad de la
de cuerdas vocales que interviene en la fase de cierre de voz. En este sentido, apreciamos, la necesidad de
cuerdas, existencia de asimetras en el movimiento de disponer de medidas de calidad de la voz que
las cuerdas y factores relacionados con la mucosa de las cuantifiquen cada uno de los cuatro fenmenos fsicos
cuerdas. Estos fenmenos son cuantificables por medio identificados con el fin de poder identificar la gran
de la identificacin de comportamientos no lineales en variedad de tipos de alteraciones de la calidad de la voz
la seal de voz. existentes, ya que cualquier voz de baja calidad
Una voz de calidad anormal presenta al menos presenta al menos la alteracin de una de las cuatro
uno de los valores correspondientes a la cuantificacin fenmenos fsicos identificados.
de los cuatro fenmenos fsicos fuera de los rangos de En este trabajo se propone clasificar las
normalidad. Este procedimiento de cuantificacin de la diferentes medidas de calidad de voz en los cuatro
calidad de la voz permite identificar calidades de voz grupos atendiendo al fenmeno fsico que cuantifica.
anmalas de diferente origen, es decir, la voz de un Una vez identificadas las diferentes medidas de calidad
locutor con baja calidad debida a un estado incipiente de de voz pertenecientes a cada una de los diferentes
una patologa orgnica presentar probablemente la grupos de caractersticas es necesario estudiar la
alteracin de la Estabilidad de la voz mientras que relevancia de las medidas para cada grupo. El mtodo
otro locutor con un estado incipiente de una patologa de seleccin de caractersticas que se propone, para
funcional presentar valores anormales de Presencia estudiar la relevancia de las medidas de cada grupo, es
de ruido. A medida que la calidad de la voz de un el algoritmo floating forward feature selection, ya que
locutor empeora aumentar el nmero de fenmenos permite obtener ordenadas las medidas de la calidad de
fsicos y la desviacin de los valores de la la voz en funcin de su relevancia, tiene un carcter y
cuantificacin de dichos fenmenos respecto a los adems, un coste computacional razonable.
valores de normalidad. En concreto, el mtodo propuesto consiste en
Estos cuatro diferentes fenmenos fsicos son asignar las diferentes medidas de calidad de la voz en
cuantificables en diferentes dominios de representacin uno de los cuatro grupos de medidas que hemos
de la seal de voz, existiendo diferentes medidas identificado. Posteriormente, las medidas de cada grupo
objetivas de la calidad de la voz que cuantifican con se ordenan en funcin de su relevancia por medio del
mayor o menor precisin un mismo fenmeno fsico. mtodo floating forward feature selection. Este mtodo
proporciona, para cada grupo de medidas, un conjunto
4. ESTRATEGIA PARA SELECCIONAR LAS ptimo de caractersticas, y es por ello que el proceso de
MEDIDIDAS DE CALIDAD DE LA VOZ evaluacin de cada uno de los diferentes grupos de
medidas se repite k iteraciones, y posteriormente se
Hasta ahora en la bibliografa actual nos encontramos ordenan las caractersticas en funcin del nmero de
diferentes escenarios en el estudio de las medidas de ocasiones en las que para las diferentes k iteraciones
calidad de la voz. Por un lado nos encontramos los estuvieron seleccionadas dentro del subconjunto
resultados obtenidos a partir de bases de datos de voces ptimo.
de diferentes calidades donde el nmero de muestras es
reducido, en los que se presentan los resultados
obtenidos para el estudio de una determinada medida o
de un subconjunto de medidas. Por otro lado existen
206
Zaragoza Del 8 al 10 de Noviembre de 2006 IV Jornadas en Tecnologia del Habla
Grupo de Muestras de
Hombres Mujeres Total
Voces
Muestras de voces sanas 43 44 87
Muestras de Disfona
7 19 26 93
voces leve
Disfona
22 14 36
moderada
Disfona
18 13 31
severa
207
J.B. Alonso, M.A. Ferrer, J.d. Leon, C.M. Travieso
208