Está en la página 1de 3

5.1.

La sntesis de voz
Una gran mayora de las tcnicas existentes para la sntesis de voz paramtricas se basan en un
modelo de fuente y filtro. En este marco, son posibles dos opciones de acuerdo con lo que se
considera ser la fuente y el filtro. En el primer caso, la fuente es el flujo glotal como fisiolgicamente
producida por las cuerdas vocales, y el filtro se refiere a la respuesta del tracto vocal. Ms all de la
motivacin fisiolgica, este enfoque tiene la ventaja de una mayor flexibilidad, ya que se espera
modificaciones adecuadas de la contribucin glotal para reflejar los cambios de calidad de voz. Sin
embargo, el principal inconveniente de esta opcin es el requisito para estimar y modelar la fuente
glotal fiable y precisa. En el segundo caso, el filtro corresponde a la envolvente espectral de la seal de
voz y la fuente de excitacin es la seal residual obtenida por filtrado inverso despus de la
eliminacin de la contribucin de envolvente espectral. La seal residual tiene la ventaja de ser
obtenida fcilmente, sin embargo, su espectro de amplitud es, por definicin, plana y la informacin
acerca de la conformacin espectral glotal se mezcla ntimamente en el componente de filtro. Por lo
tanto, su flexibilidad para la modificacin de conversacin es limitada.
Utilizando estos dos enfoques , se han propuesto varios mtodos para mejorar la naturalidad en la
sntesis de voz basados en HMM ( Zen y col . , 2009 ) . De hecho, el codificador de voz bsico utilizado
en la sntesis basada en HMM asume la seal de excitacin a ser un tren de pulsos en segmentos de
voz y el ruido blanco en regiones sin voz. Esta representacin sencilla provoca una zumbante tpico en
el discurso generado, como se encontr en los viejos codificadores de voz basados en LP ( Hedelin ,
1986 ) . Para superar este problema, se requiere un modelado de fuentes ms elaborado. En
Yoshimura et al. (2001), se propone una excitacin mixta (ME) para modelar la seal residual. La ME es
la suma de ambos componentes peridicos y Aperidicas que estn controlados por fuerzas
sonorizacin de banda pasante. Estos ltimos parmetros se introducen en los HMMs durante el
entrenamiento, y generar en tiempo de sntesis. De manera similar, un ME que consiste en un
conjunto de filtros dependientes del estado de orden derivados a travs de un procedimiento de
circuito cerrado fue propuesta en Maia et al. ( 2007 ) . En Drugman et al. (2009e), un enfoque hbrido
hace uso de un libro de cdigos de tramas residuales de paso sncrono que se seleccionan en el tiempo
de sntesis, como en el mtodo (CELP, Guerchi y Mermelstein , 2000 ) Cdigo de Prediccin Lineal
Excitada .
En Drugman et al. (2009d) y Drugman y Dutoit (2012b), los autores proponen el modelo determinista
adems estocstico (DSM) de la seal residual. El DSM consiste de dos contribuciones que actan en
dos bandas espectrales distintas delimitados por una frecuencia mxima sonora. Ambos componentes
se extraen de un anlisis realizado en un conjunto de datos dependiente del orador de fotogramas
residuales GCI-sincrnicos. Los modelos de piezas deterministas el contenido de baja frecuencia y se
derivan de una descomposicin orto normal de estas tramas. En cuanto al componente estocstico, es
un ruido de alta frecuencia modulada en el tiempo y frecuencia. Las tcnicas de modelado de la seal
residual se han demostrado proporcionar una naturalidad significativamente mayor en la sntesis de
voz basados en HMM, en comparacin con la excitacin de pulso tradicional.
En paralelo, se han hecho varios otros intentos de integrar un modelado de la fuente glotal dentro de
sntesis de voz basado en HMM. El enfoque descrito en Cabral et al. (2007) incorpora el modelo LF a fin
de reducir Buzziness y mejorar la flexibilidad. Un enfoque similar se propuso en Lanchantin et al.
(2010), donde se utiliz una nueva fuente glotal y mtodo de separacin vocal-tracto. Por ltimo, un
pulso glotal natural estimada por IAIF durante una vocal sostenida se utiliza en el llamado enfoque
GlottHMM presentado en Raitio et al. (2011). Este pulso glotal se modifica adicionalmente a
continuacin, sobre la base de las caractersticas espectrales de origen y la relacin armnica a ruido
(HNR) medidas. Una vez ms, estos ltimos mtodos, se mostr a superar a la excitacin tradicional de
la sntesis de voz basados en HMM.
Adems de la aplicacin de la sntesis estadstica paramtrica, varios sistemas han dirigido
transformacin de la voz mediante el procesamiento de la seal de excitacin. Cabral et al. (2008),
Degottex et al. (2011b) y Agiomyrgiannakis y Rosec (2009) propusieron el uso del modelo de LF para
realizar modificaciones de voz (por ejemplo, en trminos de respiracin dificultosa o tensin del
discurso generado). Varios enfoques se han centrado tambin en la manipulacin de la seal de
excitacin para llevar a cabo la modificacin de tono de alta calidad (Cabral y Oliveira, 2005;. Degottex
et al, 2011b; Drugman y Dutoit, 2010a). Finalmente, la fuente glotal tambin se ha empleado en el
contexto de la conversin de voz (es decir, con un altavoz objetivo especfico en la vista), donde,
adems de mejorar la calidad segmentaria, sino que tambin ofrece la posibilidad de aplicar
modificaciones de calidad de voz (Childers, 1995; Pozo y Young, 2008).
5.2. Procesamiento del habla expresiva
En el lenguaje expresivo, la produccin de la voz difiere significativamente de la fonacin modal. Como
la articulacin se puede cambiar por completo, la funcin del tracto vocal puede estar sujeta a
modificaciones importantes. Al mismo tiempo, gran parte de la variacin dinmica en la calidad de voz
es provocada por cambios en el tipo de fonacin, y por lo tanto los cambios en la seal de fuente glotal
( Laver , 1980 ) . Como consecuencia, se espera que la produccin del habla expresiva que se refleja en
alteraciones relevantes en la contribucin de la glotis, como se subray en la fig. 4.
En Monzo et al. (2007), los autores investigan el uso de la palabra - relacionada y caractersticas
glotales discriminar entre cinco estilos de habla expresivos: neutro, triste, alegre, sensual y agresiva.
Los parmetros glotales que investigan son el brillo, el jitter (ruido no deseado) y la excitacin - Glottal
-ruido (GNE). Estas caractersticas se muestran para proporcionar capacidades de discriminacin
interesantes. En Sun et al. (2009), el tema de la diferenciacin de emociones con una prosodia similar
se dirigi al considerar parmetros glotales. Los resultados muestran diferencias estadsticamente
significativas en al menos una caracterstica glotal para todos 30 pares de emocin, donde los rasgos
prosdicos no mostr una diferencia significativa.
En Tahon et al. (2012), los coeficientes de jitter y shimmer estndar se complementan con la Rd
coeficiente de relajacin y las funciones de la Fase-Distorsin (FPD). Rd es un parmetro derivado del
modelo LF, y se sabe para cuantificar la tensin en la voz. El FPD caracteriza principalmente la
distorsin del espectro de fase glotal alrededor de su componente de fase lineal. Los resultados
muestran que estas caractersticas glotales son tiles para la deteccin de la valencia emocional
(definido como el atractivo intrnseco o repulsin de un evento, objeto o situacin). En Szekely et al.
(2011), los autores abordan el problema de la agrupacin estilo habla expresiva con el fin de
desarrollar una alta calidad de sntesis de texto a voz de audiolibros. Para ello, hacen uso de un
conjunto de caractersticas de glotis estndar derivadas del modelo LF (Oq, cuadrados y Rq) que se
agrupan ms de un auto Organizador Feature Map (SOFM).
Como un estilo expresivo particular, el efecto Lombard ha sido objeto de especial atencin en la
literatura. El reflejo Lombard se refiere a cambios en el habla debido a la inmersin del altavoz en un
entorno ruidoso. En tal contexto, la modificacin de la seal residual se investiga en Bapineedu et al. (
2009 ) teniendo en cuenta las caractersticas en el nivel subsegmentarios , a saber , la fuerza de
excitacin y una medida de sonoridad que refleja la nitidez de la excitacin de impulso- como en las
ICG . En Drugman y Dutoit (2010b) , se estudian las modificaciones del flujo glotal en el habla Lombard
. Para ello, el flujo glotal se estima por anlisis de CP y parametrizada por un conjunto de tiempo y
caractersticas espectrales. Cambios significativos y coherentes de estos parmetros se observan en
funcin del tipo y el nivel de ruido circundante. Otro tipo de fonacin que implica una produccin de la
glotis muy especfico ha recibido recientemente especial atencin: la voz chirriante (tambin conocido
como vocal fry o laryngealisation ) . El componente glotal durante voz chirriante se caracteriza
tpicamente por valores F0 ms bajos , una fase cerrado ms tiempo y picos de excitacin secundaria (
Laver , 1980 ) . La deteccin automtica basada en la excitacin y la sntesis de voz chirriante se han
tratado respectivamente en Kane et al . ( 2003 ) y Drugman et al . ( 2012b ) .
Adems del mencionado anlisis y estudios de deteccin, varios intentos se han dirigido a la sntesis
del habla expresiva. La relevancia de los tres componentes del habla (de envolvente espectral de
excitacin residual y prosodia) para sintetizar el habla emocional identificable y se ha estimado en
Barra et al. (2007). Los resultados destacan la importancia de transformar la excitacin residual para la
identificacin de las emociones no comunicadas plenamente a travs de medios prosdicos. En Govind
et al. (2011), los autores se centran en la modificacin de la seal residual LP para la conversin de la
emocin. Para esto, la fuerza de excitacin es modificado por la ampliacin de la envolvente de Hilbert
(HE) del residuo LP. El discurso emocin objetivo es finalmente sintetiz usando la seal de excitacin
modificada.
El enfoque descrito en Lorenzo-Trueba et al. (2012) tiene como objetivo desarrollar un sistema de
sntesis de voz basado en HMM con una fuente glotal controlable para manipular la expresividad de la
voz generada. El enfoque propuesto se basa en parmetros del codificador de voz GlottHMM
propuestas en Raitio et al. (2011). Como se discuti en la seccin 5.1, este mtodo estima la fuente
glotal usando la tcnica IAIF y la caracteriza por los parmetros espectrales y medidas HNR. Su
viabilidad es analizada por primera vez por la verificacin de que los matices expresivos son
capturados por las siguientes caractersticas: se obtienen tasas de reconocimiento de 95% para el
discurso de estilo y el 82% para el discurso emocional. Tambin se muestra que el mtodo no sufre de
sesgo altavoz y condiciones de grabacin. Por ltimo, como un recordatorio, varias tcnicas de sntesis
de voz paramtrica para modificar la calidad de voz ya se han presentado en la final de la Seccin 5.1

También podría gustarte