Está en la página 1de 10

Captulo 1: INTRODUCCIN A LA SNTESIS

I. LA SNTESIS DE VOZ

I.1 Introduccin.

Muchos sistemas de laboratorio y dispositivos comerciales realizan la conversin automtica de un texto a voz sintetizada. El progreso en este rea ha sido posible debido a los avances en la teora lingstica, en el modelo de caracterizacin acstica-fontica de los sonidos, en el modelado matemtico de generar voz, en la programacin estructurada y en el diseo hardware de los ordenadores. Los pasos seguidos en todo proceso de sntesis son: primero, un conjunto de mdulos analiza el texto de entrada para determinar la estructura de la sentencia y la composicin fontica de cada palabra y un segundo conjunto de mdulos transforma esta representacin lingstica abstracta en voz.

I.2 Sistemas de sntesis de voz.


Los mtodos para sintetizar voz han cambiado mucho a lo largo de los aos, desde los primeros sistemas que utilizaban dispositivos elctricos

Captulo 1: INTRODUCCIN A LA SNTESIS

y mecnicos resonantes hasta los sintetizadores modernos que emplean ordenadores o circuitos digitales de diseo especfico.

En la actualidad, la clasificacin ms comn de los sistemas de sntesis de voz es atendiendo a las reglas que se siguen para la reconstruccin de la voz, distinguindose los siguientes cuatro sistemas:

Sintetizadores articulatorios. En stos se realiza una analoga entre parmetros relativos a los rganos articulatorios y sus movimientos con parmetros circuitales. Pueden proporcionar una calidad altsima, pero es muy difcil obtener y controlar parmetros para un

c c

sintetizador de este tipo. Sintetizadores por formantes. Son una serie de filtros que modelan el tracto vocal, excitados por fuentes que simulan las cuerdas vocales. Gozan de gran difusin. Sintetizadores derivados de las tcnicas de prediccin lineal (LPC). Son sintetizadores de anlisis-sntesis, en los que los parmetros que controlan la funcin de transferencia del filtro que simula el

tracto vocal son parmetros LPC. Sintetizadores por concatenacin de forma de onda. Concatenan unidades pregrabadas para generar nuevas frases, con lo que intentan aumentar la calidad de la seal generada minimizando el ruido de codificacin. La complejidad es alta, pero la calidad obtenida es muy buena.

Vamos a centrarnos un poco ms en los dos sistemas ms extendidos y con ms inters en la actualidad: el de formantes y el de concatenacin. Adems ser en un sintetizador por concatenacin al que incorporaremos los parmetros obtenidos en nuestro estudio, aunque como explicaremos posteriormente estos parmetros se calculan independientemente del mtodo de sntesis empleado.

Captulo 1: INTRODUCCIN A LA SNTESIS

I.3 Sntesis por formantes.


Estos sintetizadores se basan en la teora acstica de produccin de voz, que en su forma ms sencilla, dice que es posible ver la voz como el resultado de la excitacin de un filtro lineal por una o ms fuentes sonoras.

1.3.1. Modelos de la fuente de voz.


Las fuentes primarias del sonido son tonos, producidos por la vibracin de las cuerdas vocales y ruido turbulento causado por una diferencia de presin a travs de una constriccin, es decir, el ruido producido por la fricacin. La fuente de voz usada en los sintetizadores por formantes ha evolucionado desde los trenes de impulsos filtrados o los dientes de sierra de los primeros diseos hasta modelos matemticos mucho ms complejos que permiten tener control sobre parmetros como la frecuencia fundamental, la amplitud, la proporcin de tiempo que la glotis est abierta en un periodo, lo abrupto de la forma de onda y diplophonic vibration (los periodos alternos son ms similares de los adyacentes), como el desarrollado por Klatt en un sintetizador de formantes. Los modelos de forma de onda glotales ms recientes producen espectros que incluyen ceros.

Captulo 1: INTRODUCCIN A LA SNTESIS

1.3.2. Modelos de la funcin de transferencia del tracto vocal.

El filtro lineal simula los efectos resonantes del tubo acstico formado por la faringe, la cavidad bucal y los labios. La funcin de transferencia del este tracto vocal puede modelarse como un conjunto de polos (cada par de polos complejos conjugados produce un pico local en el espectro, conocido como formante). A veces, la representacin de la funcin de transferencia del tracto vocal en trminos de polos se ha completado con ceros (antiresonadores) para modelar las propiedades absorbentes del sonido que tienen los tubos secundarios en articulaciones complejas como las nasales, las vocales nasalizadas y las fricativas. Si se considera que el efecto de los ceros son poco perceptibles acsticamente, se llega a un modelo de sintetizador de formantes en paralelo para modelar la funcin de transferencia del tracto vocal. En este sistema se suman las salidas de un conjunto de resonadores conectados en paralelo y la ganancia de cada formante es controlada por un parmetro independiente. Este modelo es defendido por Holmes. Por su parte Klatt propone un sintetizador hbrido con formantes en cascada o serie para la sntesis de los fonemas sonoros y con formantes en paralelo para la sntesis de las oclusivas.

I.3.3 Parmetros del sintetizador por formantes.


Los parmetros que controlan un sintetizador de formantes son del tipo de Ancho de banda del primer resonador serie, Frecuencia central del cuarto resonador paralelo o Ganancia del generador de onda glotal. El control de estos parmetros ofrece una subdivisin entre:

Captulo 1: INTRODUCCIN A LA SNTESIS

c c

Sntesis por regla: en la que los parmetros se calculan con arreglo a un conjunto de reglas dependientes del contexto. Sistemas de anlisis-sntesis: en los que los parmetros se obtienen por anlisis o parametrizacin de segmentos de voz natural.

Los sintetizadores de formantes tienen tambin un conjunto de reglas para predecir las duraciones de los segmentos sintetizados y la curva de tono fundamental.

I.4 Sntesis por concatenacin.


Otro mtodo o estrategia para sintetizar voz consiste en coger trozos de voz natural pregrabadas como bloques bsicos que se concatenan para reconstruir una expresin arbitraria.

I.4.1 Unidades de concatenacin.


El tipo de unidad a concatenar es un parmetro crtico para conseguir una buena calidad de la voz sintetizada: hay que llegar a un compromiso entre la calidad intersegmental posible (a mayor longitud de los segmentos, menos puntos de concatenacin y por lo tanto mayor calidad) y la cantidad de memoria necesaria para almacenar las unidades pregrabadas. Los trozos grabados no pueden ser palabras por dos motivos fundamentales. En primer lugar, la pronunciacin de una frase es muy diferente a la de una secuencia de palabras recitadas aisladamente, ya que en una frase las palabras tienen una duracin ms corta que cuando estn aisladas y el ritmo, entonacin y acentuacin, que dependen de factores semnticos y sintcticos, son totalmente

Captulo 1: INTRODUCCIN A LA SNTESIS

antinaturales cuando se concatenan palabras grabadas aisladamente. Un segundo problema las innumerables palabras existentes en un idioma, si tenemos en cuenta por ejemplo los nombres propios, as como la formacin de palabras mediante sufijos, prefijos y conjugaciones. La slaba es una unidad interesante lingsticamente, pero hay un gran nmero de ellas. Otra unidad probada fue el fonema, cuyo nmero es de unos 30, pero el resultado de concatenar fonemas no es satisfactorio debido a efectos coarticulatorios entre fonemas adyacentes que producen cambios de las manifestaciones acsticas de un fonema dependiendo del contexto. Los efectos coarticulatorios tienden a minimizarse en el centro acstico de un fonema, lo cual llev a Peterson a proponer el difonema, el trozo de voz que va desde la mitad de un fonema a la mitad del siguiente fonema, como la unidad ms satisfactoria para la concatenacin. En castellano, donde se pueden considerar unos 30 alfonos, el nmero mximo de difonemas sera de 302 = 900 (que muestreados a 16 KHz y 16 bits ocuparan unos 5 Mbytes), pero no todos se utilizan. Adems puede ser necesario introducir alfonos diferentes para hacer la distincin entre las vocales acentuadas y tonas o la inclusin de trifonemas, que son una extensin a agrupaciones de tres fonemas cuando los efectos de coarticulacin son tan grandes que no es posible la segmentacin en difonemas. Se puede reducir la longitud de la memoria necesitada para el almacenamiento de las unidades: a) evitando las unidades difonema formadas por consonante + consonante que no se puedan dar en el lenguaje b) tratando algunos alfonos en determinados contextos como una unidad de tipo fonema, como por ejemplo los fricativos sordos.

Captulo 1: INTRODUCCIN A LA SNTESIS

Como resultado de sta reduccin de alfonos, el sintetizador BORIS del GTH tiene un corpus de sntesis con 455 unidades, de las cuales, 231 son difonemas, 208 trifonemas y 16 fonemas o semifonemas. Este corpus ocupa entre 2 y 3 Mbytes.

Otra eleccin crtica es la de la extraccin de las unidades y la seleccin del punto de corte. Los difonemas deben ser grabados por un locutor que sea capaz de controlar y mantener constante la calidad de la voz de forma que no haya cambios repentinos en el espectro de la fuente en el medio de las slabas. La unidad (difonema, trifonema o fonema) debe de ser extrada de algn contexto puesto que no son unidades que puedan ser grabadas aisladamente. Los contextos posibles son:

c c c c

en frase natural: se graban frases diferentes que contienen al menos una unidad. en frase portadora: se graba una frase con una estructura fija donde se cambia solamente una palabra o un par de palabras que contienen la unidad a segmentar. en palabra aislada en logatomos: palabras cortas que incluyen la unidad requerida y no tienen porqu tener significado semntico.

El mtodo con un mayor rendimiento (medido como relacin entre la naturalidad y el esfuerzo dedicado) es el de los logatomos ya que se simplifica mucho la tarea de seleccin de las unidades sin penalizar la naturalidad ms que en el caso de grabar palabras aisladas. En estos dos mtodos se pierde naturalidad frente a los que utilizan frases, pues la pronunciacin es mucho ms cuidadosa, con lo que suena menos natural. Sin embargo, en el mtodo de grabacin de las frases se graba mucho ms material del que se utiliza para la sntesis, la elaboracin de

Captulo 1: INTRODUCCIN A LA SNTESIS

las frases a grabar es laboriosa y al no estar las unidades en el foco semntico es fcil que el locutor pronuncie variedades alofnicas no contempladas o que incluso haya alfonos que desaparezcan (se buscan frases en las que las unidades no estn en el foco semntico para que su pronunciacin sea ms natural).

Una vez obtenida la grabacin queda por realizar dos tareas fundamentales: a) La identificacin o marcacin de los fonemas que componen la grabacin que suele realizarse de forma manual, aunque en los ltimos aos se han empezado a aplicar tcnicas de reconocimiento de habla para marcar automticamente las frases, palabras o logatomos grabados. b) La seleccin del punto de corte: en la que se pueden destacar dos estrategias que buscan la suavizacin de la transicin entre unidades adyacentes para reducir el efecto sonoro del habla cortada o de diptonguizacin: 1. puede escogerse el punto de corte mediante un preprocesado o algoritmo de seleccin ptima que pretende minimizar la distancia entre el alfono de la unidad actual y el mismo alfono de la unidad siguiente 2. no utilizar ningn algoritmo de seleccin ptima y resolver la falta de continuidad formntica por mtodos de suavizado durante la sntesis. Esta segunda opcin es la adoptada en el sintetizador BORIS

I.4.2 Modificaciones prosdicas.

En estos sistemas hay que ajustar la prosodia original de las unidades pregrabadas a la prosodia de la frase. Las modificaciones prosdicas

Captulo 1: INTRODUCCIN A LA SNTESIS

son de tres tipos: modificacin de la frecuencia fundamental, modificacin de la duracin y modificacin de la energa. Como veremos posteriormente, en este trabajo intentaremos reproducir una serie de emociones mediante la modificacin de stos parmetros prosdicos.

Un grave inconveniente de estos mtodos es el coste de modificar la prosodia de un segmento manteniendo un nivel de calidad alto. Existen varios mtodos de modificacin prosdica de los que los ms extendidos son los mtodos PSOLA (Pitch-Synchronous OverLap-Add): modificacin de la prosodia por Recubrimiento y Adiccin, por la mayor calidad obtenida. Bajo el nombre genrico de PSOLA existen tres tcnicas diferentes segn el dominio donde se realicen las modificaciones espectrales: as tendremos FD-PSOLA donde las modificaciones se realizan en el dominio de la transformada de Fourier, TD-PSOLA donde las modificaciones se realizan en el dominio temporal y LP-PSOLA en las que se realizan estas modificaciones sobre el residuo de una anlisis LPC de la seal original. Las modificaciones de frecuencia posibles entran siempre dentro de un rango que aproximadamente es de dos octavas (de la mitad de la frecuencia original al doble de sta). Fuera de este rango la calidad disminuye y esto, como veremos, nos llevar a plantear otras soluciones para la sntesis de emociones para aquellos casos en que se produzca distorsin.

I.5 Comparacin de los mtodos de sntesis.


La principal ventaja del sintetizador de formantes es que permite la manipulacin de las caractersticas de la fuente de voz. Esto puede ser importante en la sntesis de emociones, puesto que como veremos, la

Captulo 1: INTRODUCCIN A LA SNTESIS

fuente de voz puede cambiar de una emocin a otra, y una de las formas de expresar el enfado consiste en aadir una componente de ruido a la fuente de voz. Sin embargo, la calidad de la voz normal generada con este mtodo es peor respecto a la generada por el mtodo de concatenacin.

Por el contrario, la sntesis mediante concatenacin la fuente de la voz es nica y corresponde a la grabacin de los difonemas, que generalmente correspondern a una pronunciacin normal.

10

También podría gustarte