El Sistema de Produccion de Habla

See discussions, stats, and author profiles for this publication at: https://www.researchgate.
net/publication/266864898
El sistema de producción de habla
Working Paper · January 2015
CITATIONS READS
0 5,824
1 author:
Javier Macias-Guarasa
University of Alcalá
147 PUBLICATIONS 1,279 CITATIONS
SEE PROFILE
Some of the authors of this publication are also working on these related projects:
Acoustic Localization Using Deep Learning Strategies View project
HEIMDAL View project
All content following this page was uploaded by Javier Macias-Guarasa on 02 September 2015.
The user has requested enhancement of the downloaded file.

Ingeniería Neurosensorial
Departamento de Ingeniería Electrónica
El sistema de producción de
habla
Javier Macías Guarasa

Índice
1 Introducción............................................................................................................................................. 1
2 Fisiología de la producción de habla .................................................................................................. 1
2.1 Cavidades infraglóticas ................................................................................................................ 2
2.2 Cavidad laríngea........................................................................................................................... 3
2.3 Cavidades supraglóticas .............................................................................................................. 6
2.4 Introducción a la teoría acústica de la producción de habla ...................................................... 7
3 Fonología y fonética acústica y articulatoria................................................................................... 10
3.1 Fonología y fonética .................................................................................................................. 11
3.2 Clasificación de los sonidos ....................................................................................................... 11
3.3 Fonética acústica........................................................................................................................ 12
4 Patologías del habla ............................................................................................................................. 15
5 Modelos digitales de producción de habla ...................................................................................... 17
6 Sistemas de conversión de texto a voz............................................................................................ 19
6.1 Introducción................................................................................................................................. 19
6.2 Un poco de historia..................................................................................................................... 20
6.3 Arquitectura................................................................................................................................. 22
6.3.1 Módulo de procesamiento de lenguaje natural.......................................................... 22
6.3.2 Módulo de proceso digital de señal ............................................................................ 25
6.4 Síntesis emotiva.......................................................................................................................... 30
6.5 Evaluación de sistemas de conversión de texto a voz............................................................. 32
7 Sintetizadores de caras y comunicación multimodal.................................................................... 32
7.1 Introducción................................................................................................................................. 32
7.2 Expresiones faciales................................................................................................................... 33
7.3 Tecnología .................................................................................................................................. 33

INGENIERÍA NEUROSENSORIAL EL SISTEMA DE PRODUCCIÓN DE HABLA
7.3.1 Modelado facial............................................................................................................ 34
7.3.2 Animación facial........................................................................................................... 35
7.3.3 Síntesis facial ............................................................................................................... 39
7.3.4 Integración y sincronización con la voz artificial......................................................... 40
7.4 Aplicaciones ................................................................................................................................ 40
8 Generación de lenguaje natural ......................................................................................................... 41
8.1 Introducción................................................................................................................................. 41
8.2 Arquitectura de sistemas de generación de lenguaje hablado ................................................ 41
9 Comunicación alternativa y aumentativa......................................................................................... 42
9.1 Introducción................................................................................................................................. 42
9.2 Características de los usuarios.................................................................................................. 43
9.3 Entornos de operación ............................................................................................................... 44
9.4 Clasificación de sistemas comunicadores ................................................................................ 44
9.5 Editores predictivos .................................................................................................................... 45
10 Bibliografía............................................................................................................................................. 47
- ii -
1 Introducción
El sistema de producción de habla no forma parte estricta del sistema sensorial humano, pero su
importancia es indudable. La comunicación humana surgió en el momento en el que nuestros
ancestros, en su lucha por la supervivencia y en respuesta a sus instintos se vieron obligados a
transmitir a quienes les rodeaban, sus impresiones, sentimientos, emociones. Para ello se valieron de la
mímica, de los gritos y las interjecciones, lo que constituyó un lenguaje biológico, y posteriormente
surgió el lenguaje hablado y las manifestaciones pictóricas.
De tal modo la palabra importa, que el signo diferencial entre el animal que siente y se mueve, y el
hombre, que también goza de movimiento y de sensibilidad, radica en la palabra. La creación inanimada
suena; el animal, jugando con el instinto, grita; sólo el hombre, articulando la voz, pronuncia y emite la
palabra.
La comunicación oral, en el más amplio sentido, es la expresión de nuestros pensamientos por medio
de la palabra hablada y con fines comunicativos, y tiene algunas ventajas prácticas con respecto a la
comunicación escrita:
n Por su facilidad: Es el mecanismo “natural” de comunicación humana (pasaron muchos miles

de años antes de que se inventaran los signos gráficos)
n Por el aprendizaje: Es el mecanismo más precoz de comunicación
n Por la sencillez: Incluso aquellos que no saben leer ni escribir, saben hablar su propia lengua
n Por la capacidad expresiva: Con la ayuda de la entonación (y de elementos gestuales),

somos capaces de trasmitir la carga emotiva deseada
Más aún, si comparamos lo que hemos aprendido por experiencia directa y lo que hemos aprendido de
nuestras relaciones y comunicación con los demás, podemos darnos cuenta de lo limitados que
estaríamos sin poder comunicarnos.
Es por todo ello, que consideramos fundamental en un curso de Ingeniería Neurosensorial, la inclusión
de un tema dedicado al estudio de los mecanismos biológicos de producción de habla, así como de los
modelos electrónicos desarrollados para sustituir dicha capacidad.
Sin embargo, en este tema, sólo nos ocuparemos de la parte fisiológica del proceso, sin entrar en las
teorías superiores sobre los procesos cognitivos responsables en primera instancia de la generación de
los mensajes hablados en cuanto a su contenido.
Igualmente trataremos aspectos relacionados con la utilización de sistemas de producción artificial de

habla, como la síntesis de caras parlantes, la generación de lenguaje natural y la comunicación
aumentativa y alternativa.
2 Fisiología de la producción de habla
El habla, como señal acústica, se produce a partir de las ondas de presión que salen de la boca y las
fosas nasales de un locutor. El proceso comienza con la generación de la energía suficiente (flujo de
aire) en los pulmones, la modificación de ese flujo de aire en las cuerdas vocales, y su posterior
perturbación por algunas constricciones y configuraciones de los órganos superiores. Así, en el proceso
fonador intervienen distintos órganos a lo largo del llamado tracto vocal, que en nuestro caso
asumiremos que se restringe a la zona comprendida entre las cuerdas vocales y las aberturas finales:
los labios y las fosas nasales.
El conjunto de órganos que intervienen en la fonación (Ilustración 1) puede dividirse en tres grupos
bastante bien delimitados:
1) Cavidades infraglóticas (sistema sub-glotal) u órgano respiratorio
2) Cavidad laríngea u órgano fonador
3) Cavidades supraglóticas
Ilustración 1. Esquema de los órganos fonadores.
2.1 Cavidades infraglóticas
Las cavidades infraglóticas constan de los órganos propios de la respiración (pulmones, bronquios, y
tráquea), que son la fuente de energía para todo el proceso de producción de voz.
En el proceso de inspiración, los pulmones toman aire, bajando el diafragma y agrandando la cavidad
torácica. En el momento de la fonación, la espiración, provocada por la contracción de los músculos
intercostales y del diafragma, aporta la energía necesaria para generar la onda de presión acústica que
atravesará los órganos fonadores superiores.
-2-
Ilustración 2. Esquema externo de la laringe y corte longitudinal (3. sección del hueso hiodes, 7. cartílago tiroides, 8. falsas cuerdas vocales,
10-12. cuerdas vocales, 16. cartílago cricoides)
2.2 Cavidad laríngea
La cavidad laríngea es la responsable de modificar el flujo de aire generado por los pulmones y
convertirlo (o no, como veremos), en una señal susceptible de excitar adecuadamente las posibles
configuraciones de las cavidades supraglóticas.
El último cartílago de la tráquea, el cricoides, forma la base de la laringe (de la que podemos ver su
aspecto externo en la Ilustración 2), cuyo principal órgano son las cuerdas vocales que son dos pares
de repliegues compuestos de ligamentos y músculos. El par inferior son las llamadas cuerdas vocales
verdaderas, que pueden juntarse o separarse mediante la acción de los músculos crico-aritenoides
lateral y posterior, y que están protegidas en su parte anterior por el cartílago tiroides, el mas importante
de la laringe, abierto por su parte posterior. Finalmente, la parte superior de la laringe está unida al
hueso hioides.
Ilustración 3. Vista transversal de las cuerdas vocales abiertas y cerradas.
En la Ilustración 3 se muestra una vista transversal simplificada de la zona en la que se encuentran las
cuerdas vocales, en sus posiciones extremas: abiertas y cerradas; y en la Ilustración 4 puede verse una
fotografía real de las mismas. A la apertura que queda entre las cuerdas vocales se le denomina glotis.
-3-
Ilustración 4. Fotografía real de las cuerdas vocales abiertas.
La cavidad laríngea está terminada por la epiglotis, un cartílago en forma de cuchara, que permite cerrar
la apertura de la laringe en el acto de la deglución.
Ilustración 5. Esquema del proceso de vibración de las cuerdas vocales.
La distinción fundamental entre los sonidos se basa en su característica de sonoridad. En los sonidos
sonoros, incluyendo las vocales, se observa un patrón regular tanto en su estructura temporal como en
su estructura frecuencial (como puede observarse en la Ilustración 6), patrón del que carecen los
sonidos sordos (como puede verse en la la Ilustración 7).
-4-
Ilustración 6. Forma de onda de un sonido sonoro (vocal a)
Ilustración 7. Forma de onda de un sonido sordo (consonante s).
La cualidad de sonoridad de los sonidos sonoros se produce por la acción vibradora de las cuerdas
vocales.
El mecanismo de la vibración se produce de la siguiente forma: Si suponemos que inicialmente las

cuerdas vocales están juntas, la presión subglotal se incrementa lo suficiente para forzar a las cuerdas
vocales a separarse. Al separarse, el aire pasa a través de ellas y la presión subglotal disminuye,
momento en el que la fuerza de los músculos hace que las cuerdas vocales vuelvan a juntarse. Cuando
las cuerdas vocales se juntan, el flujo de aire disminuye y la presión subglotal aumenta de nuevo, con lo
que se vuelve a reproducir el ciclo (esquematizado en la Ilustración 5), y esta vibración de las cuerdas
vocales produce pulsos casi periódicos de aire que excitan el sistema por encima de la laringe.
A esta frecuencia de vibración se la denomina frecuencia fundamental, y sus valores típicos oscilan
entre los 60 Hz. para un hombre voluminoso, y los 300 Hz. para una mujer o un niño. La señal generada
en las cuerdas vocales puede variar en frecuencia e intensidad según varíe la masa, la longitud y la
tensión de las mismas.
En la Ilustración 8 se muestra el aspecto aproximado de la señal que responde a la velocidad

volumétrica glotal, con indicación del periodo glotal completo.
-5-
Ilustración 8. Forma de onda de la velocidad volumétrica glotal.
2.3 Cavidades supraglóticas
Las cavidades supraglóticas están constituidas por la faringe, la cavidad bucal y la cavidad nasal. Su
misión fundamental de cara a la fonación es perturbar adecuadamente el flujo de aire procedente de la
laringe, para dar lugar finalmente a la señal acústica generada a la salida de la nariz y la boca.
La faringe es una cavidad en forma tubular que une la laringe con las cavidades bucal y nasal, y que
suele dividirse en tres partes: faringe laríngea, faringe bucal (boca) y faringe nasal, las dos últimas
separadas por el velo del paladar. El volumen de la faringe laríngea puede ser modificado por los
movimientos de la laringe, la lengua y la epiglotis mientras que el volumen de la faringe bucal se
modifica por el movimiento de la lengua.
La faringe nasal y las restantes cavidades nasales forman, desde el punto de vista de su acción sobre el
flujo de aire procedente de la faringe, un resonador que puede o no conectarse al resonador bucal
mediante la acción del velo del paladar. Según el resonador nasal esté o no conectado, el sonido será
nasal u oral, respectivamente.
Si hacemos una descripción de la cavidad bucal (esquematizada en la Ilustración 9), podemos señalar
las siguientes partes:
n Los labios en el extremo
n Los dientes
n La zona alveolar, entre los dientes y el paladar duro
n El paladar, en el que a su vez, y de forma simplificada, podemos distinguir el paladar duro y el

paladar blando o velo
La raíz de la lengua forma la pared frontal de la faringe laríngea, y sus movimientos le permiten
modificar la sección de la cavidad bucal (movimiento vertical), adelantar o retrasar su posición frente a la
de reposo (movimiento horizontal), así como poner en contacto su ápice o la parte trasera con alguna
zona del paladar.
-6-
Paladar duro
Zona alveolar Paladar blando (velo)
Labios
Dientes Frontal CentralPosterior
Ápice
Zonas de la lengua Raíz
Mandíbula
Epiglotis
Ilustración 9. Sección sagital de la cavidad oral.
El movimiento de los labios también interviene en la articulación, pudiendo ser de apertura o cierre y
de protuberancia, alargando en este último caso la cavidad bucal.
De los movimientos de los órganos supraglotales surgen los distintos modos de articulación de los
posibles sonidos emitidos por un locutor. En la mayor parte de los casos es un órgano el que se mueve
(activo) y oro contra el que se efectúa la articulación (pasivo) y según la pareja de órganos
activo/pasivo que tengamos, tenemos una serie de posibles articulaciones.
2.4 Introducción a la teoría acústica de la producción de habla
Hasta el momento, hemos visto cómo las ondas de presión generadas en los pulmones son
modificadas por las cuerdas vocales, y de ahí pasan al tracto vocal, que puede verse como un camino
no uniforme hasta la boca y las fosas nasales.
En la Ilustración 10 se muestra la sección del tracto vocal al pronunciar la vocal /i/, así como una gráfica
que representa el área de dicho tracto vocal en función de su distancia a las cuerdas vocales.
Si observamos la Ilustración 10, podemos reconocer dos zonas fundamentales: una debida a la
presencia de la cavidad faríngea, y otra debida a la cavidad bucal. Al hacer este planteamiento, en el
que hablamos de una onda de presión que atraviesa unos espacios de determinada sección (área), es
fácil ver cómo es planteable modelar el tracto vocal como un tubo, o la concatenación de tubos. Por
supuesto, también habría que considerar la cavidad nasal, que siguiendo nuestro modelos, podría
representarse como un tubo en paralelo con la cavidad bucal.
-7-
Ilustración 10. Sección del tracto vocal y gráfica del área del tracto vocal en función de su distancia a las cuerdas vocales, al pronunciar la
vocal /i/.
Todos los modelos de producción de habla asumen que las cuerdas vocales son independientes del
tracto vocal, y que éste último se comporta como un sistema lineal, lo que supone una aproximación
bastante razonable de cara a la simplicidad de su tratamiento.
Sea como sea, el sistema de producción de habla puede verse como una excitación que atraviesa un
canal, y cómo ese canal modifica las características espectrales de la excitación original.
No es objetivo de esta asignatura entrar en los detalles matemáticos del modelo basado en tubos del
tracto bucal (que puede encontrarse en, por ejemplo, [4]), con lo que nos limitaremos a comentar
brevemente los resultados más importantes.
Si suponemos un modelo simple de un único tubo, cerrado en el punto donde se aplica la excitación
(cuerdas vocales), tendremos la situación de la Ilustración 11, en el que u(x, t) es la velocidad
volumétrica a una distancia x del origen de la excitación en el tiempo t, y en el que asumimos una
excitación exponencial.
Excitación
O
p
e
x=0 x=L
{
u (0, t ) = Re U (0 )e jωt } {
u (L, t ) = Re U (L )e jωt }
Ilustración 11. Modelo simplificado del tracto vocal como un solo tubo de longitud L y sección constante
Partiendo de la ecuación de onda y aplicando las condiciones de contorno adecuadas, podemos llegar a
calcular la función de transferencia del sistema (ya en dominio frecuencial y siendo c0 la velocidad de
transmisión del sonido en el medio):
U (L ) 1
= (
U (0) ω  7
cos L 
 c0 
Con lo que es fácil ver cómo las frecuencias de resonancia (aquellas donde la función de transferencia se
hace infinita en ausencia de excitación) ocurren para:
-8-
ω π
L = (2n + 1) , n = 0, 1, 2,…
c0 2
o lo que es lo mismo, para :
c0
f = (2n + 1) , n = 0, 1, 2,… (
8
4L
Lo que implica que las resonancias ocurren en múltiplos impares de la frecuencia de resonancia
fundamental, c0 / 4L.
Con estos datos, y para un tracto vocal típico de unos 17,5 cm de longitud (valor típico para un hombre
adulto), las frecuencias de resonancia aparecen en, aproximadamente, 500 Hz., 1500 Hz., 2500 Hz.
etc., como se muestra en la Ilustración 12, lo cual concuerda razonablemente con los resultados
observados en la práctica.
20log si l=17 cm
T(jw)
500Hz. 1500Hz. 2500Hz.
Ilustración 12. Resonancias del modelo de tubo simplificado de la Ilustración 11
Un modelo más razonable tendría que tener en cuenta muchas más secciones, cada una con un área
determinada. Del análisis de modelos de varios tubos de secciones distintas aparece un nuevo
concepto: el de coeficientes de reflexión, que nos dan idea de que en la conexión de los tubos hay una
porción de la onda que se transmite y otra que se refleja. Los estudios típicos discretizan los cálculos
haciéndolos únicamente en las fronteras entre dos tubos, lo que da lugar a modelos de flujos de señal,
similares a los utilizados en los estudios sobre guías de onda. Las simulaciones de guías de onda que
siguen estos modelos muestran la presencia de multiples resonancias, que se corresponden con las
observaciones experimentales sobre las características espectrales de la señal de voz.
Ganancia
Amplitud
Frecuencia 1 KHz.
Frecuencia 1 KHz.
Ilustración 13. Espectro de la señal glotal (izquierda) y de la función de transferencia del tracto vocal (derecha)
-9-
Así, con el adecuado modelo matemático, seríamos capaces de explicar las medidas experimentales
del espectro de la señal de voz real. Veamos resumidamente los conceptos fundamentales: En la parte
izquierda de la Ilustración 13 se muestra el espectro típico de una señal glotal (cuando vibran las
cuerdas vocales) donde puede observarse la estructura periódica de la señal (aparece el primer
armónico y sus múltiplos, con una caída en amplitud de alrededor de unos 6 dB/octava), en la que la
separación entre cada dos máximos consecutivos coincide con la frecuencia fundamental de la voz (que
en las mujeres toma un valor medio de 220Hz, bajando hasta los 140Hz en el caso de los hombres). En
la parte derecha se muestra un ejemplo de espectro de la función de transferencia del tracto vocal. El
efecto de dicho tracto vocal será modificar el contenido espectral de la señal de voz producida por la
combinación, lo que en frecuencia equivale a la multiplicación de los espectros originales, tal y como
aparece en la Ilustración 14.
Amplitud
Frecuencia
Frecuencia 11KHz.
KHz.
Ilustración 14. Espectro de la señal de voz resultante de las señales de la Ilustración 13
A los máximos espectrales generados por las resonancias del tracto vocal se les llama formantes, y
están en posiciones determinadas para cada uno de los sonidos sonoros que podemos producir,
aunque hay una variabilidad inherente en la producción de los mismos por parte de cada locutor.
Desde el punto de vista del control de la fonación, el locutor puede obviamente modificar los elementos
de su tracto vocal (movimiento de la lengua, labios, control de la apertura de la cavidad nasal, etc.), y
también puede modificar las características de la fuente glotal de dos formas distintas:
n Variando la frecuencia de vibración de las cuerdas vocales
n Variando la forma de onda de la velocidad volumétrica glotal
El primer control es relativamente obvio, y a través del segundo el locutor puede generar voces
modificadas, variando básicamente la apertura de la glotis.
En nuestra descripción falta por incluir el efecto de la radiación acústica que se produce en los labios y
las fosas nasales.
3 Fonología y fonética acústica y articulatoria
Los sonidos del habla pueden ser estudiados desde diferentes puntos de vista, articulatorio, acústico,
fonético y perceptual. En esta sección nos ocuparemos de describirlos desde el punto de vista fonético,
acústico y articulatorio, es decir, cómo se relacionan las características lingüísticas de los sonidos a
posiciones y movimientos de los órganos fonatorios, así como en la relación entre los fonemas y sus
realizaciones acústicas interpretando la señal de voz como la salida del proceso de producción.
- 10 -
3.1 Fonología y fonética
Antes de abordar propiamente el estudio de la fonética y la fonología, es conveniente definir primero los
términos lengua y habla:
n La lengua es un modelo general y constante que existe en la conciencia de todos los

miembros de una comunidad lingüística determinada, constituyendo el sistema de
comunicación verbal de la misma. Es abstracto y supraindividual (compuesto por reglas).
n El habla es la realización concreta de la lengua (en un momento y lugar determinados) por

parte de cada uno de los miembros de esa comunidad lingüística (realizaciones)
La lengua se refiere a aquellos sonidos que tienen un valor diferenciador (distintivo en cuanto al
significado del mensaje). Dichos sonidos son los fonemas y la ciencia que los estudia es la Fonología.
En cambio, el habla atiende a todas las diferentes clases de sonidos, siendo estos sonidos los alófonos
y la ciencia que los estudia es la Fonética. Así, un fonema puede corresponder a varios alófonos.
Resumiendo:
FONEMA = Sonido de la lengua à FONOLOGÍA = Ciencia de los sonidos de la lengua.
ALÓFONO = Sonido del habla à FONÉTICA = Ciencia de los sonidos del habla.
Así, la Fonología investiga cuáles son las diferencias fónicas que en una lengua dada están ligadas a
las diferencias de significación. Desde esta perspectiva, los fonemas serían las unidades mínimas de
sonido con significado, y los alófonos son unidades mínimas de sonido con o sin significado. El hablante
no experto entiende distintos sonidos como distintos fonemas ya que son los que le producen distintos
significados, aunque realmente los fonemas no cambian, son unidades ideales.
En resumen, aún cuando los humanos somos capaces de producir un conjunto infinito de sonidos (con
las restricciones que nos imponga el tracto vocal, obviamente), cada lenguaje tiene un pequeño
conjunto de unidades lingüísticas abstractas para describir sus sonidos: los fonemas, siendo estos las
unidades mínimas que permiten discriminar el significado.
Los fonemas pueden ser asociados con características lingüísticas o con configuraciones articulatorias
determinadas. Los sonidos físicos (reales) que un hablante produce cuando articula un fonema, se
denominan alófonos, y dado que el tracto vocal no es un sistema discreto y que puede variar de forma
continua entre infinitas configuraciones, es seguro que habrá un gran número de alófonos
correspondiente a cada fonema individual.
La transformación de los fonemas en alófonos implica la aparición de efectos de coarticulación, por los
que la configuración articulatoria de un fonema afecta la de los adyacentes. Por ello, las señales de voz
no pueden ser segmentadas en alófonos de forma biunívoca, sino que la segmentación se suele hacer
en aquellas zonas en las que hay un máximo de variación espectral.
3.2 Clasificación de los sonidos
Los fonemas asociados a vocales y consonantes se pueden clasificar de acuerdo a distintos criterios:
1) Por la acción de las cuerdas vocales:
n Sonidos sonoros, cuando vibran (por ejemplo en las vocales y en consonantes como la
/m/, la /l/, etc.)
n Sonidos sordos, en caso contrario (por ejemplo en las consonantes /p/, /t/, /k/, /s/, /f/
2) Por la acción del velo del paladar, o lo que es lo mismo, en función de las cavidades
implicadas:
- 11 -
n Sonidos orales o bucales (no nasales), en los que el aire sale únicamente a través de la
boca (como por ejemplo en la /s/ o la /p/)
n Sonidos nasales, cuando la posición del velo del paladar permite la salida de aire a través
de la cavidad nasal, y en cuyo caso puede suceder que el conducto bucal esté también
abierto (como por ejemplo para producir una vocal nasalizada, la /a/ de humano), o
cerrado (como por ejemplo en la /m/)
3) Por el modo de articulación, según se produzca la restricción del flujo de aire al atravesar el
tracto vocal. En general se puede hablar de sonidos abiertos, como las vocales, medio
cerrados, como algunas consonantes (/s/, /f/, etc.) y cerrados (como la /p/, /t/, etc.). Además,
siendo un poco más precisos, podemos establecer una clasificación adicional para la
1
consonantes :
n Oclusivas: cuando se produce un cierre completo del tracto vocal (por ejemplo en la
/p/, /t/ y /k/
n Distintos tipos en función del mayor o menor grado de restricción del flujo de aire:
n Fricativas, en las que se produce un estrechamiento importante del tracto vocal

que produce fricción y turbulencia, sin que llegue a haber un cierre completo
n Africadas, en las que se produce un cierre completo seguido de una pequeña

apertura como en las fricativas, como en la /f/ y la /θ/ sonido “zeta”
n Nasales, en las que la cavidad bucal está cerrada y el pasaje nasal abierto, como
en la /m/ y la /n/
n Líquidas, en las que hay algún tipo de estrechamiento en el tracto vocal pero no
lo suficiente para ser considerada una constricción importante. Se dividen en
laterales, en las que la emisión se produce por un lado del tracto vocal (como en
la /l/), y vibrantes, en las que vibra el ápice de la lengua (como en la /r/)
4) Por el lugar de articulación, en el que atendemos al lugar de máximo estrechamiento del

tracto vocal, pudiendo clasificar los sonidos en:
n Bilabiales, como la /b/, /p/ o /m/
n Labiodentales, como la /f/
n Linguodentales o dentales, como la /t/ o la /d/
n Linguointerdentales o interdentales, como la /θ/
n Linguoalveolares o alveolares, como la /s/, la /n/ o la /r/
n Linguopalatales o palatales, como la /λ/ (sonido “elle”, de calle)
n Linguovelares o velares, como la /k/ o la /x/ (sonido “jota”, de jota)
3.3 Fonética acústica
La fonética acústica trata la diferenciación entre los sonidos desde una perspectiva acústica, no
articulatoria. Ya que cada fonema se puede articular de diferentes maneras, la fonética acústica atiende
1
También podemos subclasificar las vocales en altas, medias y bajas, pero la importancia de esa clasificación para nuestros objetivos
no es tan importante como la del caso de las consonantes.
- 12 -
a los rasgos acústicos comunes a cada uno de ellos, centrándose en dos herramientas fundamentales
para la representación gráfica de la señal de habla: la forma de onda y el espectro.
Como se vio en el tema del oído, la forma de onda contiene toda la información necesaria para el
proceso de comunicación hablada, aunque dicha información está codificada de forma que su
interpretación no es en absoluto sencilla. La mayoría de las características relevantes desde el punto de
vista acústico fonético se aprecian mejor en el dominio frecuencial que en el temporal. La discusión
típica acerca de las características acústicas de los fonemas suele centrarse en el comportamiento
dinámico de los formantes (las resonancias del tracto vocal) y las regiones espectrales de energía, que
parecen ser las principales claves acústicas de aquellos.
En la Ilustración 15 se muestra la forma de onda de la palabra tapias, grabada con una frecuencia de
muestreo de 16 KHz.
Ilustración 15. Forma de onda de la palabra tapias
En ella pueden distinguirse pocos elementos acústicos claros, entre los que merece la pena destacar;.
n Zonas claramente sonoras en las que se observa la presencia de pulsos equiespaciados (que
corresponden a la vibración original de las cuerdas vocales), en la zona de la /a/ y del
diptongo /ia/.
n Zonas que parecen ser sordas, al no tener una estructura periódica clara, como en la /s/ final,
o en la zona de silencio correspondiente a la /p/ intermedia o la /t/ inicial
n Zonas de mayor energía que corresponden típicamente a vocales acentuadas, como en la /a/
de nuestro ejemplo
A margen de esas escasas claves, está claro que la representación vista nos ofrece muy poca
información y, de hecho, la segmentación realizada no puede hacerse (en la mayoría de los casos) con
información exclusivamente temporal.
La herramienta más útil desde el punto de vista de la acústica fonética es, sin duda, el espectrograma,
que es una representación en tres dimensiones de la composición espectral de la señal. En la
iIlustración 16 se muestra la misma forma de onda de la palabra tapias, junto con su espectrograma. El
eje de abscisas (x) es el eje temporal, el de ordenadas (y) es el eje de frecuencias (entre 0 y 8KHz en
nuestro caso, dada la frecuencia de muestreo utilizada) y, finalmente, el eje z, es el que indica la
intensidad de la componente frecuencial para un tiempo dado, lo que se muestra con un tono de color
gris más o menos oscuro.
- 13 -
Ilustración 16. Forma de onda y espectrograma de la palabra tapias.
En el espectrograma sí es posible identificar con mucha más claridad las fronteras entre cada uno de los
sonidos que componen la palabra completa, y un lector entrenado es capaz de extraer dicha
segmentación. En el espectrograma de la Ilustración 16 pueden identificarse elementos como la
posición de los formantes de los segmentos vocálicos (los máximos de la función de transferencia del
tracto vocal, identificados en color más oscuro), la evolución de los mismos en las transiciones vocálicas
como la del diptongo /ia/ en nuestro ejemplo, información sobre la frecuencia de vibración de las
cuerdas vocales (la separación en bandas verticales en las zonas sonoras), la presencia de zonas de
silencio y las explosiones típicas de las oclusivas, y la presencia de ruido de alta energía en la fricativa
/s/ final.
A modo de ejemplo final, se incluye en la Ilustración 17 la forma de onda y el espectrograma de la

secuencia ingeniería neurosensorial.
- 14 -
Ilustración 17. Forma de onda y espectrograma de las palabras ingeniería neurosensorial
4 Patologías del habla
Las patologías del habla, serían aquellas que incapacitan a una persona para articular de forma correcta
y emitir mensajes hablados. La problemáticas es muy amplia, con lo que los colectivos susceptibles de
poder beneficiarse de sistemas de producción de habla artificial son numerosos.
En este apartado introduciremos una breve clasificación de los distintos trastornos del lenguaje, para dar
una idea de la magnitud del problema y de la multitud de factores que intervienen.
Los trastornos del lenguaje pueden clasificarse en varios tipos:
1) Trastornos de lenguaje por deficiencias en la estimulación. Estos a su vez se dividen en:
n Carencia de estimulación: total o parcial: se trata de aquellos casos de privación social

como consecuencia del abandono de niños recién nacidos.
n Inadecuación de la estimulación:
n Método de presentación inadecuado
n Estimulación excesiva
n Estímulos reformadores inadecuados
n Modelo defectuoso del educador
n Interacción inadecuada entre parámetros estimulantes
2) Trastornos relacionados con condiciones físico-psíquicas, debido a distintos factores:
n Conativo: efecto de los rasgos de personalidad.
- 15 -
n Cognoscitivo: deficiencias en las capacidades cognoscitivas.
n Afectivo: trastornos afectivos
n Constitucional: deficiencias constitucionales
n Mezclas de algunos de los anteriores
3) Trastornos como efecto de condiciones motivacionales (energéticas –falta de impulso- y

direccionales –falta de dirección (alcohol, etc.) – ).
4) Trastornos del lenguaje como efecto de las condiciones situacionales, por ejemplo en
situaciones habituales de ansiedad o ansiedad relacionada con la emoción.
Hablemos con más detalle de los trastornos como efecto de las disposiciones relativamente estables de
la personalidad y dentro de ellas de las relativas al factor constitucional.
Estas tienen origen o están asociadas a factores fisio-anatómico funcionales de la persona. Es decir, los
que tienen que ver con inmadurez, malformaciones, lesiones o enfermedades de los órganos que
directa o indirectamente afectan al lenguaje. Estos a su vez pueden ser de varios tipos:
1) Retraso en el proceso madurativo (inmadurez en general)
2) Trastornos del sistema nervioso.
n Después de adquirido el lenguaje, fundamentalmente afasias, que son trastornos de la

comunicación causados por lesión cerebral y caracterizado por el deterioro completo o
parcial de la comprensión, de la formulación y del empleo del lenguaje; con exclusión de
los trastornos asociados a déficit sensoriales primarias, deterioro mental general o
desórdenes psiquiátricos.
n Antes o después de la adquisición, de dos tipos fundamentales:
n Disartrias, un grupo de trastornos de habla como resultado de perturbaciones en el

control muscular sobre los mecanismos del habla debido a daño del sistema nervioso
central o periférico. Son problemas de parálisis, debilidad o incoordinación de la
musculatura del habla. Se diferencia de la ineficacia en el procesamiento de unidades
lingüísticas (afasia) o en la programación de los movimientos y secuencias de
movimientos (apraxia del habla).
n Apraxia de habla, en la que el problema estriba en la incapacidad del sujeto para

programar la posición de los músculos del habla y de la secuenciación de los
movimientos respiratorios, laríngeos y orales precisos para la producción volitiva de
los fonemas, mientras que los movimientos involuntarios permanezcan intactos. El
problema es la lesión en aquellas partes del sistema nervioso central responsables
de la organización de los patrones de tales movimientos voluntarios, aunque la zona
motora de la ejecución esté indemne.
n Degradación del lenguaje.
n Deterioro ocasional, por factores temporales, como la epilepsia.
3) Trastornos periféricos, principalmente lesiones, deformaciones y carencias en los órganos

articulatorios (disglosias), como problemas de fisura palatal y anomalías asociadas, y otras
estructurales de origen congénito o adquirido que puede afectar a tejidos y músculos de los
labios, alvéolo, paladar duro y blando y la úvula. Anomalías de la voz (imposibilidad o
dificultad física para la realización de la voz), por lesiones en los nervios de la laringe,
- 16 -
deformidad de los pliegues vocales, inflamaciones (laringitis), o traumatismos (lesiones

debidas a radiaciones, intervenciones quirúrgicas como traqueotomía o laringuectomía, etc.)
5 Modelos digitales de producción de habla
Con lo visto hasta el momento, hemos establecido que para la producción de habla, entran en juego los
siguientes elementos:
n Una fuente de energía, proporcionada por el aire a presión que procede de los pulmones
n Un órgano vibratorio: las cuerdas vocales
n Una caja de resonancia, formada por las cavidades supralaríngeas (cavidad faríngea, cavidad
bucal y cavidad nasal) y en las que podemos encontrar distintas estructuras articulatorias:
lengua, velo del paladar, dientes y zona alveolar, fundamentalmente.
n Unos elementos que finalmente radian el sonido: fosas nasales y labios.
Además de la parte fisiológica, de la teoría acústica de la producción de habla podemos considerar

básicamente al menos tres modelos de tubos necesarios para generar distintos sonidos.
n Modelo de tubo abierto concatenado.
n Modelo de tubos unidos por uno estrecho.
n Modelo nasal.
- 17 -
Ilustración 18. Modelos de tubos acústicos para la producción de diversos sonidos
En un modelo digital aséptico no se trata de simular exactamente cada fenómeno que se produce en la
producción de habla sino los resultados que se obtienen (modelo de la señal), y ese es el objetivo que
hay detrás de los modelos digitales de producción de habla. El modelo más sencillo constaría de un
bloque que representa la fuente, otro que representa el tracto vocal y un tercero que representa el efecto
de la radiación en los labios y fosas nasales, tal y como aparece en la Ilustración 19, en la que se ha
incluido un bloque adicional que se encargaría de controlar los parámetros correspondientes de los tres
módulos principales.
S(z) T(z) R(z) Pr(z)
Tracto Señal de
Fuente Radiación
vocal voz
Mecanismos de control
Ilustración 19. Diagrama de bloques básico del modelo digital de producción de habla
Con lo que el espectro final de la señal de voz producida será el producto de las funciones de
transferencia de cada uno de los módulos:
Pr ( Z ) = S ( Z )· T ( Z )· R( Z )
En la tabla siguiente se muestran ejemplos típicos de funciones de transferencia razonablemente

ajustadas a la realidad, para cada uno de los tres grandes tipos de sonidos:
Sonidos S(Z) T(Z) R(Z)

Kv
Gv Ν
Sonoros (1 − a1 Z −1 )(1 − a 2 Z − 2 ) 1− ∑αK =1
KZ
−K
1 − Z −1
Ku
Ruido aleatorio Ν
Sordos Gu 1− ∑K =1
α K Z −K 1 − Z −1
M
Gn
1− ∑ l1
k l Z −l
Kn
Nasales (1 − a1 Z −1 )(1 − a 2 Z − 2 ) Ν
1 − Z −1
1− ∑ 1
αKZ −K
Sobre la tabla merece la pena destacar varias observaciones:
n El espectro de radiación se suele modelar como un diferenciador de primer orden
n El espectro de la fuente en el caso de sonidos sonoros incluye dos polos reales (lo que es una
aproximación no totalmente exacta). En el caso de no vibración de las cuerdas vocales, el
espectro es el correspondiente a un ruido aleatorio.
- 18 -
n El espectro de la función de transferencia en el caso de sonidos no nasalizados se modela

como un espectro todo polos. En el caso de sonidos nasalizados la función de transferencia
incluye además la presencia de ceros de transmisión.
Así, si conociéramos los valores de las funciones de transferencia, podríamos generar habla con el
modelo de la Ilustración 20, un poco más general que el visto anteriormente.
Generador Modelo
impulsos glotal
GV
Tracto
Radiación Voz
vocal
Generador
Decisión Parámetros
de ruido sordo/sonoro tracto vocal
GU
Frecuencia
fundamental
Mecanismos de control
Ilustración 20. Diagrama de bloques más detallado del modelo digital de producción de habla
Por último, es imprescindible señalar que los parámetros del modelo varían con el tiempo, ya que los
parámetros articularios que pretendemos emular varían también con el tiempo, en función de los
sonidos emitidos. Así, nuestro modelo será no estacionario, aunque se supone generalmente que si el
intervalo de tiempo considerado es lo suficientemente pequeño (del orden de 10 ms., por ejemplo), la
señal es estacionaria, con lo que los parámetros no variarían en dicho intervalo y el modelo pasaría a
ser cuasi-estacionario, con las consiguientes ventajas en cuanto a simplicidad.
Lo que aún nos queda por determinar son los valores correspondientes a los parámetros de nuestro
modelo digital. A pesar de que dicho modelo no es todo lo bueno que desearíamos, la estimación
automática se sus parámetros a partir de habla real no es una tarea fácil, por lo que no entraremos en
este momento en ello, dejando para un poco más adelante algunas consideraciones sobre este
particular, cuando nos refiramos a los sintetizadores por formantes.
6 Sistemas de conversión de texto a voz
6.1 Introducción
Llegados a este punto, hemos hecho una revisión de la fisiología relacionada con la producción de
habla, de aspectos relacionados con la fonética y la fonología, tanto desde el punto de vista articulatorio
como acústico y hemos introducido brevemente los conceptos que hay detrás de los modelos digitales
de producción de habla.
En este capítulo nos centraremos ya en los denominados sistemas de conversión de texto a voz (text-
to-speech systems, o TTS), en los que no sólo se trata de la parte final del proceso de generación
acústica (lo que se denomina síntesis de voz), sino que el objetivo es conseguir que un sistema
informático o electrónico sea capaz de leer en voz alta cualquier texto, ya sea introducido por un
operador, o generado por un sistema de reconocimiento óptico de caracteres tras escanear un
- 19 -
documento, o incluso perteneciente a la salida de un sistema de consulta a base de datos con los
resultados de una petición por parte de un usuario.
La diferencia fundamental con otros sistemas parlantes, como podría ser un reproductor de cintas de
cassette, es que nuestro interés se centra en ser capaz de reproducir automáticamente nuevas frases o
textos, lo que automática elimina del proceso la idea de que medie una grabación de los mismos.
Aún así, puede que necesitemos refinar más nuestra definición inicial: sistemas que, por ejemplo,
concatenan simplemente palabras o frases pregrabadas (típicamente llamados sistemas de respuesta
vocal), son sólo aplicables cuando el vocabulario de la aplicación es muy limitado (del orden de pocos
centenares de palabras). En el contexto de sistemas TTS, es imposible plantear la grabación de todas
las palabras del idioma, de modo que es más razonable definirlos como sistemas de producción
automática de habla, a través de un proceso de transcripción de grafemas a fonemas.
A primera vista, podría parecer una tarea fácil (de hecho, hasta los niños de corta edad tienen un
dominio impresionante del idioma), lo que aún está lejos de ser una afirmación razonable, sobre todo si
nuestra pretensión es la de llegar a los niveles de calidad de la voz humana, no tanto en su inteligilidad
(que ya está plenamente conseguida) sino, sobre todo, en cuanto a su naturalidad.
6.2 Un poco de historia
La historia de los sistemas que pretenden emular el sistema de producción de voz humano se remonta
hasta finales del siglo XVIII, donde surgieron las primeras teorías y aparatos reales que generaban
sonidos vocálicos e incluso palabras y frases, como por ejemplo la máquina parlante de Von Kempelen,
que fue reconstruida en el año 1835 por Sir Charles Wheatstone y cuyo aspecto se muestra en la
Ilustración 21.
Ilustración 21. Máquina parlante de Von Kempelen (1791) reconstruida por Sir Charles Wheatstone
El primer dispositivo eléctrico para síntesis de voz data de 1922 (Stewart), que consistía en un
zumbador como fuente de excitación y dos circuitos resonantes para modelar la respuesta del tracto
vocal y que era capaz de generar sonidos vocálicos a partir de sus dos primeros formantes. El sistema
fue mejorado diez años más tarde en Japón (Obata y Teshima) añadiendo un tercer formante para
mejorar la inteligibilidad de las vocales.
- 20 -
Ilustración 22. El voder de H. Dudley (1939)
En 1939, en la feria mundial celebrada en Nueva York, Homer Dudley de los Laboratorios Bell,
demostró el primer sintetizador de voz eléctrico, que era operado manualmente, como puede verse en
la Ilustración 22, en la que también se muestra el esquema básico de su funcionamiento.
El primer sintetizador de formantes paralelo, el PAT (Parametric Artificial Talker) fue desarrollado en
1953 por Walter Lawrence en Gran Bretaña, al tiempo que en Suecia Gunner Fant desarrollaba un
sintetizador de formantes serie, el OVE II. Tanto Lawrence como Fant mostraron ese mismo año cómo
con un ajuste cuidadoso de los parámetros de dichos sistemas era posible imitar de forma muy natural
la calidad de la voz humana.
El primer sintetizador articulatorio fue desarrollado en 1958 en el MIT por George Rosen. Trabajos en
esa misma tecnología fueron abordados en los Laboratorios Bell por Paul Mermelstein y James
Flanagan, en 1976.
Con la llegada de los ordenadores digitales, John Kelly y Louis Gerstman crearon en 1961 el primer
programa de síntesis fonética por regla, y unos años más tarde, en 1968, Noriko Umeda desarrolló en
Japón el primer sistema completo de conversión texto a voz, basado en un modelo articulatorio que
incluía un módulo de análisis sintáctico, todavía muy lejos de la calidad de la que disponemos hoy en
día.
El trabajo de Dennis Klatt en el MIT ha sido uno de los más importantes en cuanto a su influencia en
este campo. En 1979, junto con Jonatahan Allen y Sheri Hunnicut, desarrolló el sistema MITalk,
mejorado dos años después con el famoso sistema Klattalk, con una mejorada fuente de excitación
glotal.
Los años 80 marcaron el inicio de los sistemas comerciales, inicialmente adaptaciones del Klattalk y
posteriores refinamientos como el DECtalk de 1983, probablemente el sistema de conversión texto a
voz más usado del siglo XX. En 1982, Rolf Carlson, Bjorn Granstrom y Sheri Hunnicut desarrollaron en
el KTH sueco el primer sintetizador de formantes multi-lenguaje, el Infovox TTS, descendiente del OVE
de Gunnar Fant.
La síntesis por concatenación recibió un fuerte impulso en 1985, con el desarrollo de la técnica PSOLA
para modificación prosódica desarrollada por investigadores de France Telecom.
- 21 -
Finalmente, las bases de los sistemas por concatenación basados en bases de datos fueron
establecidas por investigadores de los laboratorios ATR en Japón a principios de los años 90.
6.3 Arquitectura
La Ilustración 23 muestra un diagrama genérico que podría responder a la arquitectura típica de

cualquier sistema de conversión de texto a voz, en la que distinguimos dos componentes
fundamentales:
n Un módulo de procesamiento de lenguaje natural, encargado de generar una transcripción

2
fonética del texto de entrada, junto con la prosodia adecuada
n Un módulo de procesamiento digital de señales que transforma la información textual recibida

en la señal hablada
Procesamiento Procesamiento
Señal de
Transcripción
de lenguaje natural fonética
digital devoz
señal
Texto Voz
Normalización de texto Prosodia
Análisis morfosintáctico Modelos matemáticos
Grafema a fonema Algoritmos
Generación de prosodia
Ilustración 23. Arquitectura general de un sistema de conversión de texto a voz
6.3.1 Módulo de procesamiento de lenguaje natural
En la Ilustración 24 se muestra la arquitectura del sistema, detallando el módulo de procesamiento de

lenguaje natural.
Proc. lenguaje natural

Preproceso
(normalización)
Análisis
morfológico
Procesamiento
Transcripción
Análisis
contextual fonética
digital de señal
Texto Voz
Prosodia
Analizador Control
Sintáctico (prosodia) Modelos matemáticos
Algoritmos
Conversor
grafema-fonema
Generador
de prosodia
Ilustración 24. Arquitectura del sistema TTS con el módulo de procesamiento de lenguaje natural detallado
Además del módulo de conversión grafema fonema y el generador de prosodia que parecen
imprescindibles de entrada, aparece un bloque completo de procesos relacionados con el análisis
morfosintáctico, debido a la necesidad de que haya algún tipo de procesamiento sintáctico en los
conversores de alta calidad.
2
Por el término prosodia nos referimos a la información sobre la intensidad, entonación y la duración de los fonemas correspondientes,
además de aspectos relacionados con el pausado: la introducción de pausas y silencios en la frase generada.
- 22 -
En castellano, la conversión de grafema a fonema es relativamente simple, al haber reglas bien

definidas, pero no sucede lo mismo en otros idiomas, en los que la transcripción fonética detallada sólo
es posible si se conoce la categoría gramatical de la palabra considerada, y ésta depende del contexto
sintáctico en el que se encuentre. Igualmente, la prosodia natural depende fuertemente de la sintaxis (y
de la semántica y pragmática, pero dadas las limitaciones de la tecnología actual en esas últimas dos
disciplinas, los sistemas de TTS se concentran fundamentalmente en la sintaxis), aunque no muchos
sistemas actuales utilizan el análisis sintáctico completo.
6.3.1.1 Módulo de procesamiento de texto
El módulo de procesamiento de texto tiene una serie de funciones bien definidas, con el objetivo de
generar una salida textual normalizada para su procesamiento posterior:
n Un módulo de preproceso que identifica números, abreviaturas, acrónimos, expresiones

idiomáticas y los transforma en texto cuando es necesario, encargándose igualmente de
deshacer ambigüedades de puntuación (para detectar finales de frase, por ejemplo). Veamos
algunos ejemplos:
n Si aparece el número 1234 y hay que pronunciarlo, el preprocesador lo convertirá en la

secuencia mil doscientos treinta y cuatro
n Si aparece algo como 8/4/68 el preprocesador lo deberá identificar como una fecha y
convertirlo en ocho de abril de mil novecientos sesenta y ocho
n Si aparece algo como 22 km., el preprocesador identificará la abreviatura de unidad de

longitud y lo convertirá en veintidós kilómetros
n Un módulo de análisis morfológico, cuya misión es proponer las categorías gramaticales a las
que pertenece cada palabra. Por ejemplo la palabra alto puede ser tanto adjetivo como
nombre común, y el número 1956 en enero de 1956 tiene categoría de año, totalmente
distinta de la que tendría en 1956 patatas.
n Un módulo de análisis contextual, que considera las palabras en su contexto y permite reducir
la ambigüedad en la asignación de categorías gramaticales del paso anterior.
n Finalmente, un analizador sintáctico y de prosodia, que examina el texto recibido y trata de

encontrar su estructura y así identificar las partes sobre las que debe recaer el foco de
atención en la voz generada, lo que implicará un cambio en el patrón entonativo (energía,
frecuencia fundamental y duración). Igualmente, busca los límites entre los distintos grupos
fónicos, que son los segmentos de frase pronunciados de forma continua entre dos tomas de
aire (es decir, nuestro conversor texto a voz tiene que saber respirar).
n En algunos casos sería planteable también la inclusión de un módulo de análisis semántico, lo

que nos ayudaría a detectar con mayor precisión las zonas susceptibles de recibir el foco de
atención en la frase.
6.3.1.2 Módulo de conversión grafema-fonema
El modulo de conversión de grafema a fonema transforma la secuencia de letras recibidas en una

secuencia de sonidos reales (alófonos). En castellano dichas reglas son bastantes regulares pero no
sucede lo mismo en otros idiomas (por ejemplo, la pronunciación de las palabras inglesas though,
cough o through son diferentes a pesar de tener la misma terminación).
Ello implica que en algunos idiomas es posible que se necesite construir diccionarios de pronunciación,
lo que no es una tarea fácil, por varios motivos:
- 23 -
n Los diccionarios convencionales sólo se refieren a la pronunciación de las palabras raíz, no

sus derivadas, lo que implica introducir conocimiento sobre la morfofonología del idioma
considerado.
n Algunas palabras tendrán varias entradas en el diccionario (por ejemplo, la palabra inglesa
read se pronuncia de forma distinta según sea presente o pasado)
n Los palabras pronunciadas en el contexto de una frase pueden modificar su pronunciación
n Y, finalmente, es muy posible que nuestro diccionario no disponga de todas las palabras de
un idioma, con lo que habrá que hacer frente a la aparición de palabras desconocidas y tratar
de estimar una pronunciación adecuada
Así, las aproximaciones tradicionales al problema de la conversión de grafema a fonema son dos:
n Las basadas en el uso de diccionarios de pronunciación, en las que se podría tener el

repertorio completo de las palabras del idioma, aunque típicamente se recurre al uso de
entradas basadas en morfemas, para conseguir limitar los requisitos de memoria necesarios y
mantener el tamaño del diccionario en un nivel razonablemente pequeño. Además del
diccionario en sí, suelen incorporar reglas morfológicas para extraer la descomposición en
morfemas de cada palabra y módulos de post-proceso que se encargan de, entre otras
cosas, tener en cuenta las reglas de coarticulación y suavizado entre palabras contiguas.
n Las basadas en reglas de transcripción, que inevitablemente requieren también de bases de

datos de excepciones y de los módulos de post-proceso comentados anteriormente
Obviamente, la solución no es única, y hay todo un abanico de posibilidades entre los dos extremos. La
solución adecuada depende de diversos factores, comenzando por el idioma del que se trate, la
disponibilidad de memoria, los requisitos de calidad, etc.
6.3.1.3 Módulo de generación de prosodia
La prosodia es un concepto complejo, mezcla de efectos físicos y fonéticos que los humanos utilizamos
para expresar una actitud o emoción determinada y hacer énfasis en aquellas zonas de la frase
pronunciada que consideramos más importantes. Desde el punto de vista físico, ya hemos comentado
cómo el término prosodia se refiere a propiedades de la señal de voz relacionadas con cambios
apreciables en el tono fundamental, el volumen, las pausas y la duración. Las características prosódicas
tienen un importantísimo impacto en la comunicación oral y son uno de los aspectos fundamentales de
cara a conseguir naturalidad en las voces sintéticas.
El efecto más apreciable de la prosodia es la asignación del foco de atención de la frase, pero el hecho
de que un sistema de conversión de texto a habla no haga un uso sofisticado de la información
prosódica no quiere decir que disminuya su inteligibilidad.
En la actualidad hay multitud de estrategias para la asignación de características prosódicas. Por

ejemplo, para la asignación de duraciones, se usan típicamente modelos multiplicativos, en los que la
duración de un alófono es el resultado de multiplicar una duración base típica, por una serie de factores
que dependen de elementos morfosintácticos calculados en los módulos previos (como por ejemplo el
acento, la posición en la frase, la longitud del grupo fónico, la velocidad media de locución deseada,
etc.). También se han aplicado técnicas basada en redes neuronales en la que es una de éstas la que
genera el valor de duración a partir de los parámetros de entrada seleccionados.
Para la asignación de la frecuencia fundamental (tono), los modelos más sencillos aplican un modelo
lineal por tramos, en el que se introducen variaciones sobre el tono base en función del tipo de frase
(interrogativa, enunciativa, exclamativa), del grupo fónico al que se aplica, el acento, etc. Técnicas más
avanzadas incluyen el uso de redes neuronales o el entrenamiento de contornos de tono fundamental a
partir de bases de datos de voz previamente grabadas.
- 24 -
Una vez que se ha determinado la estructura sintáctica y prosódica de la frase, es necesario todavía
obtener la duración precisa de cada fonema, de los silencios, y de los valores de tono a aplicar, lo que,
de nuevo, no es una tarea fácil.
6.3.2 Módulo de proceso digital de señal
Al que podríamos llamar más exactamente modulo de síntesis de voz, ya que es el que realiza el
proceso de generación (síntesis) final de la señal de voz artificial.
Intuitivamente, las operaciones implicadas en el módulo de síntesis de voz serían análogas a las que
controlan dinámicamente los elementos articulatorios de los pulmones, cuerdas vocales y tracto vocal.
Desde esa perspectiva, este módulo debería tener una base teórica fundamentada en la fonética
articulatoria o en la fonética acústica, y prestar especial atención a las zonas de transición entre
fonemas, ya que es en ellas donde está la información más importante contenida en el mensaje hablado
(la síntesis de zonas estables es relativamente fácil de conseguir).
Esta filosofía ha dado lugar a dos grandes clases de sistemas de síntesis de voz:
n Los basados en reglas, que se basan en el conocimiento de los procesos de fonación y la voz
es generada por reglas matemáticas explícitas que describen formalmente la influencia de
unos fonemas en otros.
n Los basados en concatenación de unidades, en los que asumiendo nuestro limitado

conocimiento sobre el sistema articulatorio y su complejidad, optan por almacenar unidades
elementales de voz pregrabada para posteriormente concatenarlas adecuadamente para
producir la señal de voz deseada.
Genéricamente, a los primeros se les denomina sistemas de síntesis por regla y a los segundos,
sistemas de síntesis por concatenación.
6.3.2.1 Sintetizadores basados en reglas
En los que cada fonema tiene un conjunto de parámetros identificativos que se refieren a sus
características estáticas, y hay una serie de reglas que permiten calcular los valores de los parámetros
necesarios en las transiciones sucesivas entre fonemas.
El esquema de trabajo en este tipo de sintetizadores es el mostrado en la Ilustración 27, en el que se

incluye el detalle del proceso previo de generación de las reglas a partir de una base de datos de
parámetros extraídos a su vez de un proceso de análisis de habla previamente grabada, lo que, como
insistiremos más adelante, supone un costoso trabajo.
- 25 -
Procesamiento Procesamiento digital de señal

Transcripción
de lenguaje natural fonética Aplicación Síntesis
Texto Voz
Normalización de texto Prosodia de reglas digital
Análisis morfosintáctico
Grafema a fonema
Generación de prosodia
Base de Base de Base de

datos habla datos de datos de
real parámetros reglas
Análisis de Selección
habla de reglas
Ilustración 25. Esquema general de trabajo en un sintetizador basado en reglas
En la Ilustración 26 se muestra el esquema detallado de un sintetizador basado en reglas, en este caso

el de Klatt, uno de los pioneros en el campo de los conversores de texto a voz.
AV RGZ
+ + RNP RNZ R1 R2 R3 R4 R5
AVS RNP
A1 R1
AN RNP
1-z-1
RGP A2 R2
AH
+ A3 R3 + Rad
Generador Generador
de pulsos aleatorio A4 R4
A5 R5 Voz
F0 X LPF AF A6 R6
AB
Ilustración 26. Diagrama de bloques de un sintetizador basado en reglas (Klatt)
Por razones históricas, estos sintetizadores se denominan también sintetizadores por formantes, debido
a que su funcionamiento se basa fundamentalmente en el uso de filtros resonantes que emulan el
comportamiento de los formantes (representados con cajas rectangulares en la Ilustración 26),
fácilmente implementables con un filtro IIR de segundo orden, para los que es necesario especificar la
frecuencia central del filtro, el ancho de banda del mismo y la frecuencia de muestreo. Con esa
estrategia, es fácil construir un filtro con varias resonancias sin más que concatenar en serie o en
paralelo filtros individuales. En este tipo de sintetizadores, la rama paralelo (R1, RNP, R2, R3, R4, R5 y
R6 en la figura) se usa para modelar fricativas y oclusivas, mientras que la rama serie (RNP, RNZ, R1,
R2, R3, R4 y R5) modela los sonidos sonoros.
En el caso de la rama paralelo, es necesario además especificar la ganancia para cada filtro (lo que se
representa con los círculos en la figura). La rama serie, desde el punto de vista matemático responde a
un filtro todo polos, mientras que la rama paralelo tiene ceros además de polos. Los filtros R1 a R6 de la
figura representan distintas resonancias, RNP responde a la resonancia de la cavidad nasal, RNZ
modela el cero de la cavidad nasal, A1 a AB son las ganancias de cada filtro en la rama paralelo y el
sistema dispone de un interruptor para conectar la rama paralelo o la rama serie.
- 26 -
Para sonidos sonoros, el modelo de excitación consiste en un tren de impulsos que atraviesa un filtro
paso bajo (RGP) seguido de un filtro paso banda (RGZ y RGS). Para sonidos sordos, la excitación
consiste en ruido blanco filtrado por un filtro paso bajo (LPF). La excitación para sonidos fricativos,
obviamente, será la combinación de ambas fuentes.
Al igual que hablábamos en la sección dedicada a los modelos digitales de producción de habla, en un
sistema basado en reglas (o formantes), es necesario identificar los valores de los parámetros estáticos
de cada uno de los posibles fonemas del idioma, lo que supone un trabajo semi-manual y, en cualquier
caso, tedioso, ya que en una primera fase de análisis es necesario extraer valores iniciales para dichos
parámetros que serán posteriormente refinados con pruebas intensivas. Además, el cálculo automático
de las posiciones de formantes y anchos de bandas dista bastante de ser lo suficientemente preciso, lo
que hace que el desarrollo de sistemas basados en reglas sea muy costoso en tiempo.
Además de esta extracción de valores de parámetros estáticos, es imprescindible definir reglas

matemáticas que permitan calcular la evolución de los parámetros cuando se producen transiciones
entre fonemas. Como se muestra en la Ilustración 27, las transiciones entre formantes de la voz real son
continuas, es decir, no se producen saltos bruscos en su evolución.
Ilustración 27. Forma de onda y espectro de la pronunciación de "ieaou"
Así, los sintetizadores utilizan distintos tipos de funciones de suavizado para generar las transiciones
artificiales entre dos sonidos con parámetros articulatorios distintos (funciones lineales, trigonométricas,
etc.), aplicando ciertas restricciones en cuanto a la velocidad máxima de transición, limitada en el
terreno físico por la velocidad máxima de movimiento de los elementos articulatorios.
Además de lo visto, la calidad conseguida por este tipo de sintetizadores no es la mejor de las
disponibles con la tecnología actual, con lo que a pesar de que la síntesis basada en reglas aún es una
potente estrategia para sistemas de síntesis de voz, la mayoría de los sistemas de alta calidad
disponibles se basan en el otro paradigma: la concatenación de unidades elementales.
Además de la síntesis por regla basada en formantes, también podemos mencionar la existencia de
sistemas de síntesis articulatoria, en los que el objetivo es modelar de la forma más fiel posible los
aspectos físicos de la producción de habla, los elementos articuladores y las correspondientes
distribuciones de velocidad volumétrica del aire y presión sonora en los pulmones, la laringe, las cuerdas
vocales y las cavidades oral y nasal. Dado que el sistema de producción de habla humano es
relativamente limitado en cuanto a grados de libertad, es posible definir modelos con menos de 15
parámetros de control. A pesar de ello y aún reconocimiendo que la síntesis articulatoria puede ser uno
de los campos con más futuro en esta área, la calidad ofrecida por los modelos actuales está aún lejos
de alcanzar los sistemas basados en reglas y, mucho menos, los basados en concatenación.
- 27 -
6.3.2.2 Sintetizadores basados concatenación
Como decíamos, a pesar de que la síntesis por regla es bastante inteligible, suena poco natural porque
es muy difícil capturar toda la variabilidad presente en el habla natural y concentrarla en unas pocas
reglas.
En los sistemas de síntesis por concatenación, un frase es sintetizada a partir de la concatenación de

segmentos de voz más pequeños que responden a la misma secuencia fonética de dicha frase. La
belleza de este enfoque es que, al contrario que en la síntesis por regla, no hace falta usar ni reglas ni
ajustes manuales y casa segmento es completamente natural, al proceder de grabaciones de hablantes
reales.
El problema fundamental con el que nos enfrentamos en la síntesis por concatenación radica en las
discontinuidades (espectrales y temporales) evidentes que nos encontraremos cuando unamos
segmentos de voz de, posiblemente, diferente origen y contextos acústicos: las discontinuidades
afectarán al tono fundamental, a la evolución de los formantes, etc.
En la Ilustración 28 se muestra el esquema de trabajo de un sintetizador basado en concatenación. El

proceso comienza con la segmentación selectiva de una base de datos de habla real, a partir de la cual
se obtienen los segmentos acústicos correspondientes, así como información sobre los mismos (que
será utilizada durante la ejecución del sintetizador). Igualmente se incluye un módulo de ajuste
prosódico y otro que realiza la concatenación y síntesis final, utilizando el inventorio de segmentos
seleccionado (con la opción de que se almacenen codificados o no, pudiendo ser necesaria la inclusión
del decodificador correspondiente).
Procesamiento
Transcripción Procesamiento digital de señal
de lenguaje natural fonética Generación de Ajustes
Texto
Normalización de texto Prosodia lista segmentos prosódicos
Análisis morfosintáctico
Grafema a fonema
Concatenación
Generación de prosodia Decodificación Voz
y síntesis digital
Base de Base de
Base de Base datos Base de
datos de datos de
datos habla información datos de
segmentos segmentos
real de segmentos segmentos
parametri. sintetizables
Segmentación Análisis Ecualización

selectiva de habla y codificación
Ilustración 28 Esquema general de trabajo en un sintetizador basado en concatenación
Así, a la hora de diseñar un sistema basado en concatenación de unidades, hay que resolver una serie
de cuestiones:
n ¿Qué tipo de segmentos vamos a usar?
n ¿Cómo vamos a diseñar el inventario de unidades acústicas? ¿Cuántos segmentos y cuáles?
n ¿Cómo podemos seleccionar la mejor secuencia de segmentos de nuestro inventario para

reproducir una frase determinada (una secuencia fonética determinada)?
n ¿Cómo modificar la prosodia del segmento sintetizado para adecuarse a la prosodia que
queremos obtener?
- 28 -
6.3.2.3 Tipos de unidades acústicas
Los aspectos que hay que tener en cuenta para seleccionar el tipo de unidades acústicas se refieren
fundamentalmente a consideraciones en cuanto a que produzcan baja distorsión en el proceso de
concatenación acústica y prosódica, y que su número sea manejable dados unos determinados
recursos computacionales.
A lo largo de la historia de este tipo de sistemas, se han propuesto todo tipo de unidades acústicas para
conformar el inventario de segmentos a concatenar:
n Alófonos independientes del contexto, que presentarán importantes discontinuidades, tales

que pueden llegar a hacer el sistema ininteligible, por lo que no son una unidad
recomendable, aunque su número es del orden de 50, con lo que sus requisitos de
almacenamiento y procesamiento son muy reducidos.
n Difonemas, un tipo de unidad de longitud inferior a la palabra, que contiene información sobre
dos alófonos y su transición, con lo que se alivian en parte los problemas de discontinuidades
en la unión entre unidades, ya que la parte más complicada (la transición, en la que aparecen
los efectos de coarticulación) está grabada de habla natural. En un difonema se incluye la
mitad de la parte estable de un alófono, la transición al siguiente, y la parte estable de éste
último. Una base de datos de difonemas típica puede contener alrededor de 1500 unidades
diferentes, con lo que la complejidad del almacenamiento y procesamiento se incrementa.
n Trifonemas, en los que el contexto acústico considerado se extiende a tres alófonos,

almacenando la parte estable del primer alófono del trifonema, la transición al alófono central,
el alófono central completo, la transición al tercero y la parte estable del tercero. En este caso,
el número de unidades puede subir a algunas decenas de miles de ellas.
n Unidades inferiores al fonema, poco utilizadas en general
n Sílabas, dado que se ha observado que las discontinuidades dentro de las sílabas son más
apreciables que las que se producen entre sílabas contiguas
n Palabras completas, e incluso frases, difícilmente usables dado el tremendo número de ellas
que pueden ser necesarias para cualquier idioma
En general, cuando mayor sea la longitud del segmento, se incrementa el número de unidades
necesarias para cubrir un idioma completa, aunque se incrementa de igual manera la calidad y
naturalidad de dichos segmentos. En cualquier caso, los sistemas modernos tienen a hacer uso de una
combinación de todos los tipos de unidades vistos, eligiendo en cada caso aquellos que dan lugar a la
menor distorsión en el proceso de concatenación.
6.3.2.4 Algoritmos de selección de la cadena de unidades a concatenar
En este punto se trata de decidir cuál es la cadena óptima de segmentos acústicos que hay que
concatenar para responder a la secuencia fonética que nos entrega el módulo de procesamiento de
lenguaje natural. En aquellos sistemas en los que únicamente hay una posible secuencia, no hay nada
más que discutir, pero la tendencia actual es a disponer de un conjunto elevado de unidades, de forma
que se enriquecen las posibilidades y variaciones en la secuencia.
En todos los casos, la estrategia consiste en diseñar una función de coste que tenga relación con la
calidad final a obtener, y que suele tener una componente dependiente de un coste asociado a cada
unidad y otro asociado a la transición entre unidades consecutivas.
6.3.2.5 Algoritmos de concatenación y modificación prosódica
La tarea real del sistema de síntesis es producir, en tiempo real, una secuencia adecuada de segmentos
concatenados, con la prosodia ajustada a los valores deseados. Este proceso es más fácil cuanto más
- 29 -
cuidada sea la selección de unidades y cuanto mejor preparadas estas para la modificación de su
frecuencia fundamental, duración y envolvente espectral.
Dado que dichos segmentos suelen haber sido extraidos de distintas palabras y, en general, de distintos
contextos fonéticos, frecuentemente presentan desajustes de amplitud o tono, incluso en el caso de
sonidos vocálicos estacionarios. En este sentido, los procesos de ecualización que se incluyen en la
Ilustración 28 ayudan a aliviar el problema, imponiendo contornos espectrales similares en las fronteras
de las unidades que típicamente afectan únicamente a modificaciones de amplitud. Las modificaciones
de tono fundamental son más sencillas de hacer en tiempo de ejecución.
En general, las técnicas de concatenación y modificación prosódica permiten cambiar la amplitud, la

duración y el tono fundamental de los segmentos acústicos que se van a concatenar.
Entre los algoritmos clásicos podemos citar OLA (overlap and add) y SOLA (synchronous overlap and
add), que se usan para modificación de duración, y PSOLA (Pitch synchronous overlap and add), que
es el más utilizado en los sistemas actuales al permitir también la modificación del tono fundamental.
6.4 Síntesis emotiva
La síntesis de voces emotivas (en el sentido de expresar emociones humanas como la tristeza, alegría,
enfado, etc.) ha sido objeto de mucha atención en los últimos años. Uno de los problemas
fundamentales con los que se enfrenta la tecnología es que ni siquiera oyentes humanos tienen un
3
criterio definido para la identificación emotiva. En la tabla siguiente se muestran los porcentajes de
detección de la emoción simulada en una grabación con voz natural (generada por un actor) por parte
de un grupo de oyentes humanos. Como puede observarse, hay emociones como la alegría que tienen
unos porcentajes de identificación correcta relativamente bajos.
Emoción detectada por oyentes humanos
Neutro Alegría Tristeza Enfado No identificado
Neutro 89,3% 1,33% 1,33% 3,99% 3,99%
Emoción simulada Alegría 17,3% 74,6% 1,33% 1,33% 5,33%

en la grabación
original
Tristeza 1,33% 0% 90,3% 1,33% 3,99%
Enfado 0% 1,33% 2,66%) 89,3% 6,66%
En la tabla siguiente se muestran los mismos resultados cuando la grabación natural se sustituye por
voz sintética, en este caso la de un sintetizador por regla.
3
Este estudio se desarrolló en el Grupo de Tecnología del Habla del Dept. de Ingeniería Electrónica de la Universidad Politécnica de
Madrid.
- 30 -
Neutro Alegría Tristeza Enfado No identificado
Neutro 58,6% 0 29,3% 10,6% 1,3%
Emoción simulada Alegría 24% 46,6% 9,3% 2,6% 13,3%

en con una voz
sintética
Tristeza 9,3% 0 82,6% 3,9% 1,3%
Enfado 21,3% 21,3% 1,3% 42,6% 5,3%
Los resultados muestran en casi todos los casos unos resultados mucho peores que los conseguidos
con voz natural.
Los primeros sistemas de síntesis emotiva se aplicaron a sintetizadores basados en reglas, (como el del
estudio citado anteriormente) convenientemente modificados (sobre todo en el modelo de fuente glotal).
La ventaja de este tipo de sintetizadores es el gran control sobre los parámetros relacionados con la
fonética acústica y prosódicos, pero la baja calidad de los mismos los hace poco atractivos.
Los métodos más usados en la actualidad operan sobre sintetizadores basados en concatenación con
dos técnicas fundamentales:
n Modificación prosódica, alterando convenientemente el tono fundamental, la duración y el

volumen, aunque se ha demostrado que dichos parámetros no son los más relevantes para
algunas emociones.
n Copia prosódica, en la que se persigue copiar los parámetros de control prosódico de

ejemplos reales de voces producidas por actores profesionales con la emoción
correspondiente. Los sistemas de síntesis por concatenación son especialmente adecuados
para aplicar este mecanismo de copia prosódica, y los resultados conseguidos son
razonablemente buenos.
En la tabla siguiente se muestran los resultados de tasas de reconocimiento correcto de distintas

emociones cuando se usaba el sistema de síntesis por concatenación del Grupo de Tecnología del
Habla del Departamento de Ingeniería Electrónica de la UPM, aplicando los dos métodos descritos
anteriormente.
- 31 -
Usando copia prosódica Usando modificación prosódica
Neutro 76,2% 72,9%
Alegría 61,9% 65,7%

Emoción simulada
con voz sintética
Tristeza 81,0% 52,9%
Enfado 95,2% 95,7
Como puede verse, los resultados son significativamente mejores que los descritos para el sistetizador
por regla, sobre todo en el caso de la copia prosódica, más próximos a los obtenidos al usar
grabaciones de voz real.
Igualmente hay trabajos en curso sobre la síntesis de voces musicales, para generar canciones
artificiales, como el Center for Spoken Language Understanding, del Oregon Graduate Institute, en los
Estados Unidos.
6.5 Evaluación de sistemas de conversión de texto a voz
A la hora de decidir acerca de la mayor o menor calidad de un sistema de conversión de texto a voz, es
imprescindible abordar tareas de evaluación. Dicha evaluación puede hacerse desde múltiples puntos
de vista: pruebas de inteligibilidad, pruebas de calidad global y naturalidad, de forma manual o
automática, pruebas en laboratorio o pruebas de campo, etc.
En el Grupo de Tecnología del Habla de la Universidad Politécnica de Madrid disponen de sistemas de

conversión de texto a voz en castellano de alta calidad, entre los que destaca el basado en
concatenación de difonemas, con un sofisticado módulo de asignación de tono basado en redes
neuronales (puede encontrarse ejemplos y una demostración en línea en http://www-
gth.die.upm.es/research/synthesis/synthesis.html, incluyendo muestras de un conversor basado en
reglas).
7 Sintetizadores de caras y comunicación multimodal
7.1 Introducción
Como complemento natural a un sistema de producción de habla y siguiendo con la línea de emular el
comportamiento humano desde el punto de vista sensorial, surgen los sistemas de síntesis de caras (y
su extrapolación a sistemas de síntesis de cuerpos completos), en los que el objetivo es presentar una
imagen gráfica de una cabeza o un cuerpo, que se mueven de forman natural y sincronizada con el
habla que están generando.
El modelado y animación del rostro humano son una de las tareas más complicadas en el campo de los
gráficos generados por ordenador, a pesar de que los modelos animados de personajes parlantes son
cada vez más realistas y populares, no sólo en el terreno de los juegos de ordenador, sino también
como un medio de mejorar las experiencias de interacción hombre-ordenador, a través de los conocidos
- 32 -
avatars y la existencia de personajes virtuales que han recibido mucha atención en los medios de
comunicación (como Ananova o Vandrea, locutoras virtuales, cuyas imágenes aparecen en la
Ilustración 29). La investigación en los sintetizadores de habla visual comenzó a finales de los años 70 y
ha recibido cada vez mayor atención, centrándose inicialmente en la parte articulatoria para mejorar la
inteligibilidad del habla sintética, especialmente en situaciones ruidosas.
Ilustración 29. Vandrea y Ananova, locutoras virtuales
En estos momentos, el esfuerzo fundamental está centrado en la síntesis de gestos relacionados con el
habla artificial con un amplio rango de expresiones faciales que apoyen la transmisión del mensaje
generado.
7.2 Expresiones faciales
En la comunicación oral, el significado que un hablante quiere transmitir no sólo depende de las
palabras generadas, sino de la forman en la que se generan, refiriéndonos tanto a aspectos prosódicos
como de expresión facial, que en el terreno visual juega el mismo papel que la prosodia en el acústico..
La teoría psicofisiológica tradicional divide las expresiones faciales en aquellas relativas a la emoción
(enfado, tristeza, miedo, etc.) y las que no tienen relación con ella, como por ejemplos las necesidades
fisiológicas de la casa (mojarse los labios, pestañear, etc.), los mecanismos de mantenimiento de la
conversación (asentir con la cabeza), señales conversacionales (como levantar las cejas para enfatizar
una palabra) y mecanismos de regulación (como el giro de la cabeza hacia el siguiente locutor para
darle paso)..
7.3 Tecnología
La tecnología de síntesis de caras animadas y parlantes necesita dar respuesta a cuatro problemas
diferentes:
n Modelado facial
n Animación facial
n Síntesis facial
n Sincronización con la voz artificial
La mayoría de los sintetizadores de caras utilizan modelos tridimensionales basados en polígonos cuya
conformación puede ser ajustada a lo largo del tiempo para simular movimientos faciales. Dichos
modelos son posteriormente texturados (se asignan texturas a cada superficie) y finalmente generados
para producir imágenes animadas en color de la cara artificial.
- 33 -
7.3.1 Modelado facial
El modelado tridimensional de una cara humana necesita de profundos conocimientos de la anatomía

de la misma. En la cara hay más de 200 músculos con distintas formas (lineales o circulares) y
conectados a tejido blando y a huesos, y está cubierta por la piel.
El modelado facial implica la determinación de una descripción geométrica de la cara y de sus

capacidades de animación. El carácter complejo y flexible de la superficie de la cara humana, su color y
las variaciones de textura hacen que el modelado anatómico sea sumamente complicado.
Los métodos tradicionales para el modelado (y posterior animación) facial son:
n Representación volumétrica que incluye el modelado de volúmenes sólidos a través de la

definición de elementos individuales (voxel, en la terminología inglesa), y técnicas de
agregación entre ellos.
n Representación de superficies, más sencillo que el anterior, y que suelen modelarse como:
n Funciones analíticas explícitas
n Funciones paramétricas (generadas por un conjunto reducido de parámetros), como B-

splines, beta-splines, etc.
n Superficies poligonales, sin duda la técnica más utilizada, en la que la superficie se

modela como un conjunto de polígonos regulares conectados (típicamente algunos
centenares de vértices tridimensionales), como se puede observar en la Ilustración 30.
Ilustración 30. Ejemplo de superficie poligonal para el modelado facial y su versión texturada
n Uso de características faciales, que define una serie de características faciales que pueden
ser superpuestas a un modelo básico (máscara) de la cara a modelar.
La creación del modelo tridimensional inicial puede hacerse de forma artificial, usando técnicas de
diseño asistido por ordenador o bien adquirirla a partir de caras reales. En este último caso se pueden
usar digitalizadores en tres dimensiones como el mostrado en la Ilustración 31, técnicas fotográficas
(fotogrametría) e incluso escaneo con láser.
- 34 -
Ilustración 31. Digitalizador en 3D junto con el modelo generado.
7.3.2 Animación facial
La animación facial también tiene distintas soluciones que se han venido utilizado en distintos sistemas.
En lo que se refiere a la animación relativa a la producción de habla, hay un elemento común a todas
ellas: la definición de una serie de configuraciones faciales predefinidas, llamadas visemas, cuya función
en el dominio visual es similar a la de los fonemas en el dominio acústico: reflejan la disposición facial
cuando se articula un determinado fonema (o grupo de fonemas).
Las técnicas de animación facial más utilizadas son las siguientes:
n La aproximación más sencilla consiste en definir segmentos animados que corresponden a

una serie finita de expresiones faciales (que puede ser tan sencillo como definir cinco o seis
configuraciones para la boca del locutor) y seleccionar cada una de ellas a partir de algún tipo
de información procedente del conversor de texto a voz. Esta estrategia funciona
razonablemente bien con personajes de dibujos animados (y es la utilizada por ejemplo por
Microsoft en su sistema Microsoft Agent para los personajes mostrados en la Ilustración 32),
pero resulta muy poco natural cuando se aplica a caras más sofisticadas.
Ilustración 32. Caracteres animados de Microsoft Agent
n Interpolación, en la que las configuraciones faciales se definen únicamente en instantes

concretos de tiempo (key frames), y un algoritmo se encarga de generar las tramas
intermedias usando técnicas de interpolación. Dichas conformaciones de expresión facial son
los visemas que definimos anteriormente y que requieren la especificación de una serie de
objetivos fonéticos que definan a cada expresión. Como ejemplo podemos citar los trabajos
orientados al modelado y animación de caras realistas, como los desarrollados en la
Universidad de Washington, en la que el proceso comienza con una captura fotográfica de los
sujetos correspondientes, la extracción de un mapa de texturas (de forma semiautomática), el
mapeado sobre la superficie, y los correspondientes procesos de modificación facial y
- 35 -
animación. Los resultados son bastante impresionantes, como lo muestra la figura, en la que
la imagen central ha sido creada artificialmente a partir de la interpolación entre las dos
laterales.
Ilustración 33. Ejemplo de interpolación en animaciones faciales realistas.
n Animación paramétrica, en que la estructura facial puede ser modificada y deformada por la
acción distintos parámetros, unos relacionados con la topología de la cara y otros con las
expresiones a simular. Este enfoque es el más utilizado porque permite al animador controlar
la expresión facial con un conjunto limitado de información (los parámetros). Ejemplos
representativos es esta estrategia son la colección de personajes generados en el KTH
sueco, que podemos ver en la Ilustración 34, o
Holger Sven Katti s Gunnar
August
Gustav
Urban
Olga
Ilustración 34. Colección de caras animadas con técnicas paramétricas
las mostradas en la Ilustración 35, generadas en la Universidad de Tecnología de Helsinki, o

la de la Ilustración 36, que corresponden a Baldi, una cara artificial generada en la
Universidad de California que permite ver el interior de su boca y los órganos articulatorios, y
que es distribuida en el CSLU Toolkit, una herramienta de diseño de sistemas de interacción
hablada disponible gratuitamente.
La mayor parte de los modelos paramétricos usados en la actualidad se basan en el modelo
de Parke de 1982, que incluía alrededor de 800 polígonos, y una versión aproximada de la
cara humana incluyendo labios, dientes, nariz, ojos y cejas. El conjunto de parámetros se
puede desarrollar de varias formas:
- 36 -
n Observando las propiedades superficiales de las caras y desarrollando repertorios

específicos que permitan que las observaciones puedan ser especificadas
paramétricamente.
n Estudiando las estructuras anatómicas subyacentes (anatomía facial)
n Combinando ambas estrategias, de modo que el diseño inicial de los parámetros se hace
en base a consideraciones estructurales y se complementa con parámetros basados en
la observación
La referencia básica en cuanto al control facial es el llamado Facial Action Coding System
(FACS) de Ekman y Friesen que determinaron en los años 70 cómo la contracción de cada
músculo facial cambiaba la apariencia de la cara y a partir de ello definieron 50 acciones
faciales básicas (acciones musculares, action units AU) divididas, que permite realizar
anotaciones de animación facial de forma sencilla (por ejemplo “elevador de mejillas”,
“elevador de la comisura de la boca”, “cierre de ojos”, “parpadeo”, etc.).
Los parámetros de control facial se dividen en dos categorías fundamentales:
n Parámetros de expresión que controlan el contenido emocional (apertura de los ojos,
posición de las cejas, dirección de la mirada, posición de la mandíbula, anchura y
expresión de la sonrisa, etc.).
n Parámetros de conformación, que controlan la estructura general de una cara (color de la

piel, ojos, labios, nariz, barbilla, forma de la frente, etc.).
El modelo de Parke incluye ambos tipos de parámetros y define cinco tipos de operaciones
que determinan la posición de los vértices del modelo geométrico:
n Construcción procedimental, para modelar los ojos
n Interpolación, para aquellas regiones faciales que cambian su forma durante la animación
n Rotación, usada para realizar distintas aperturas de la boca
n Escalado, para controlar el tamaño relativo de las características faciales
n Desplazamiento de posición, para controlar la longitud de la nariz, las comisuras de la

boca, la elevación del labio superior, etc.
Los sistemas de síntesis facial con aplicación a conversión texto a voz complementan el
modelo de Parke con un conjunto de reglas que permiten general trajectorias de parámetros
de control facial a partir de secuencias fonéticas y añaden un modelo sencillo de la lengua
que no estaba contemplado originalmente. En el caso de los modelos del KTH sueco, han
generado una arquitectura flexible que les permite crear nuevos personajes con cierta
facilidad (como se muestra en la Ilustración 34), bien adoptando un nuevo modelo poligonal y
especificando los parámetros de deformación a aplicar, o bien esculpiendo y reposicionando
un modelo ya parametrizado. Igualmente incluyen controles más potentes para los ojos, las
cejas y la lengua, permitiendo la generación de una rica variedad de expresiones adicionales
(como algunas de las mostradas en la Ilustración 38).
- 37 -
Ilustración 35. Expresiones faciales generadas por métodos paramétricos
Ilustración 36. Baldi, en modo semitransparente, junto con la herramienta de control facial paramétrico.
n Modelado de la anatomía detallada de la cabeza, incluyendo músculos y tejidos blandos, de

modo que el modelo de polígonos es controlado a través de variaciones en la tensión de cada
uno de los músculos. El problema de esta aproximación es que la medida de la actividad
muscular es complicada y típicamente interfiere con el proceso de producción de habla,
aunque hay estrategias más sencillas en las que se hace un modelado simplificado de la
actividad muscular, cuyos resultados podemos ver en la Ilustración 37 (generados en los
laboratorios de investigación de HP en Cambridge).
- 38 -
Ilustración 37. Animación facial basada en un modelo simplificado de la musculatura facial
n Generación de imágenes en dos dimensiones cuando se genera la voz y aplicando a

continuación un modelo simple en 3D con la secuencia de imágenes. La secuencia en 2D Se
puede generar usando modelos estadísticos entrenados sobre imágenes visuales reales y su
principal ventaja es el gran realismo de las imágenes generadas, con el inconveniente de que
es difícil generar movimientos y expresiones que no estén presentes en las grabaciones
previamente capturadas
n Animación usando dispositivos conectados a humanos que realizan las acciones a simular. El
dispositivo permite la captura de los movimientos relevantes que se trasladan al modelo
informático que se desea animar.
Además de los mecanismos para sintetizar los visemas, es necesario incorporar elementos adicionales
que simulen el estado emocional del personaje sintético, lo que generalmente se consigue con
modificaciones que afectan a todos elementos faciales, no únicamente a los labios, como se muestra en
la Ilustración 38.
sorpresa tristeza disgusto
neutra
felicidad miedo enfado
Ilustración 38. Expresiones faciales emotivas de Gustav (KTH)
7.3.3 Síntesis facial
La fase final del proceso visual consiste en sintetizar la imagen de la cara y generar la secuencia
animada definitiva, para lo que se aplican técnicas clásicas de animación por ordenador:
- 39 -
n Transformación del modelo geométrico y sus componentes al sistema de coordenadas visual
n Determinación de qué superficies son visibles desde la posición de visualización de la

animación
n Cálculo de los valores de color de cada píxel en la imagen a partir de información sobre las
condiciones de iluminación y las propiedades de las superficies visibles.
7.3.4 Integración y sincronización con la voz artificial
La integración y sincronización de la voz artificial con la imagen se realiza como paso final, y suele
requerir mecanismos de retardo en la rama de síntesis de voz para dar tiempo a que se realice el
procesado de la parte visual.
7.4 Aplicaciones
Las aplicaciones de los sintetizadores de caras son múltiples, todas aquellas en las que sea
recomendable o necesaria la interacción con un elemento visual con aspecto humano y en donde se
requiere la transmisión de información adicional a la que puede ir contenida en un mensaje hablado. Por
ejemplo:
n En intervaces avanzadas de usuario, con agentes sociales inteligentes y avatares
n En educación, como herramientas pedagógicas, especialmente para el entrenamiento

interactivo de, por ejemplo, la lectura de labios o la visualización de posiciones de la lengua
para sordos
n En ciencia forense, para reconocimiento de caras
n En aplicaciones de teleconferencia, para transmitir y recibir imágenes faciales de forma

comprimida. En este sentido, el estándar MPEG-4, ya incorpora una serie de mecanismos
que permiten enviar información codificada para la animación de caras de forma eficiente,
enviando parámetros (FAPS, Facial Animation Parameters) que modifican la posición de
elementos faciales a partir de los definidos en una cara en posición neutral. En la tabla que
aparece a continuación se muestra el número de FAPS que se dedican a modelar cada grupo
de elementos faciales.
Número de
Grupo de elementos faciales
FAPS
1: Visemas y expresiones 2
2: Mandíbula, barbilla, labio inferior, comisuras, zona central de los labios 16
3: Órbitas de los ojos, pupilas, párpados 12
4: Cejas 8
5: Mejillas 4
6: Lengua 5
7: Rotación de la cabeza 3
8: Posición externa de los labios 10
9: Nariz 4
10: Orejas 4
n En la industria de juegos de ordenador, para la simulación de personajes realistas
n En la industria de animación cinematográfica
n Investigación básica en percepción de habla audiovisual
n En entornos multimedia, por ejemplo personajes lectores de noticias y narradores de historias
- 40 -
n En sistemas de información en entornos públicos y ruidosos (aeropuertos, estaciones de tren,

centros comerciales)
n Para ayuda en la comunicación telefónica de personas con deficiencias auditivas, para las
que la visualización de un rostro con animación labial precisa puede suponer una importante
ayuda
n Para el estudio de los efectos de procedimientos quirúrgicos dentales
8 Generación de lenguaje natural
8.1 Introducción
Un amplio de los sistemas inteligentes en los que podemos pensar hoy en día necesitan de
capacidades de interacción a través de lenguaje natural: los sistemas expertos deben explicar sus
resultados y razonamientos, los asistentes inteligentes deben poder colaborar de forma fluida con los
usuarios para realizar determinadas tareas, los sistemas de enseñanza deben instruir a los alumnos en
conceptos relativos al dominio del que traten y criticar las estrategias que siguen en la resolución de
problemas. Esas aplicaciones requieren que el sistema sea capaz de generar respuestas e interpretar y
responder las peticiones de los usuarios en el contexto de una interacción continuada.
Los sistemas de generación de lenguaje natural hablado proporcionan las respuestas necesarias en un
diálogo hombre máquina, cuando la voz es el medio seleccionado para ello. Este campo surge de la
combinación del aspectos relativos al procesamiento de lenguaje natural y la conversión de texto a voz,
pero se diferencia de ésta última en que la generación del habla surge a partir de una representación
abstracta de conceptos en lugar de a partir de texto.
A pesar de que es un terreno típicamente reconocido como poco relevante, la habilidad para generar
respuestas en lenguaje natural hablado es claramente crucial para situaciones interactivas, sobre todo
cuando el usuario tiene sus manos y ojos ocupados, o la pantalla no está accesible, o el tiempo es un
factor crítico, o bien el canal primario de comunicación es solamente auditivo.
Una definición formal de procesamiento de lenguaje natural es “un subcampo de la Inteligencia artificial
y la lingüística computacional que se ocupa de la construcción de sistemas informáticos o electrónicos
que puedan producir textos comprensibles a partir de alguna forma no lingüística de representación de
información usando información sobre el lenguaje y el dominio de la aplicación”.
8.2 Arquitectura de sistemas de generación de lenguaje hablado
En la literatura sobre el tema se pueden encontrar varias aproximaciones a la hora de diseñar la

arquitectura de un sistema de generación de lenguaje natural. Aún así, podemos decir que los módulos
típicos de los que se compone un sistema de generación de lenguaje natural hablado son los siguientes:
n Planificación del documento, que implica la determinación del contenido y la estructuración

que tendrá el mismo. Para ello se pueden utilizar métodos basados en la observación de
estructuras textuales típicas (definidas con esquemas o gramáticas) o bien en la aplicación de
técnicas de razonamiento acerca de la coherencia del discurso y el propósito del texto.
n Planificación de frases (o micro-planificación), que implica tareas de agregación (de

segmentos de información), lexicalización (selección de las palabras adecuadas basándonos
en plantillas o algoritmos de reescritura de grafos) y la generación de referencias a entidades
previamente introducidas.
- 41 -
n Realización superficial, encargada de la realización lingüística y léxica final y de generar la

estructura gramatical final adecuada.
n Generación de habla
El desarrollo de cada uno de esos módulos plantea todavía preguntas sin resolver. Por ejemplo, es
necesario:
n Desarrollar metodologías de análisis de corpora textuales
n Desarrollar técnicas de adquisición de conocimiento experto
n Automatizar tareas de análisis de corpus
n Integrar el análisis de corpus con los procedimientos de análisis de requisitos estándar
La dimensión de lenguaje hablado introduce una varios problemas adicionales a la complejidad

inherente de los sistemas de generación:
n La determinación de la información entonativa pertinente, lo que requiere de un potente

sistema de decisión sobre el (o los) focos del mensaje generado.
n La necesidad de utilizar algún tipo de modelado del usuario, ya que las respuestas en el
proceso de diálogo inteligente estarán dirigidas a una persona particular, lo que hay que tener
en cuenta.
n La necesidad de más investigación en el terreno de la decisión sobre el tipo de mensaje

generado en un contexto hablado, ya que en ese caso carecemos de la memoria visual que
proporciona un texto leido, con lo que la aproximación debería ser diferente.
En la actualidad hay varios sistemas de este tipo funcionando en aplicaciones muy concretas. Por
ejemplo FoG es un generador automático de informes meteorológicos usado por el servicio
meteorológico canadiense y desarrollado por Cogentex (http://www.congentex.com, que se
autodenomina “The Natural Language Generation Company”), en el que la generación de texto se
realiza a partir de información gráfica y numérica. STOP es un sistema desarrollado por la Universidad
de Aberdeen (http://www.csd.abdn.ac.uk/research/stop) y cuyo objetivo es generar cartas
personalizadas para ayudar a fumadores a dejar el tabajo.
En el Grupo de Tecnología del Habla de la Universidad Politécnica de Madrid disponen de ejemplos de

sistemas de generación de habla natural orientados a aplicaciones de interacción hablada hombre
ordenador, en entornos de suministro de información telefónica y de control de aparatos domésticos.
9 Comunicación alternativa y aumentativa
9.1 Introducción
El interés despertado en los últimos años por la mejora de la calidad de vida de las personas
discapacitadas y el esfuerzo empleado en este desarrollo podrían catalogarse, sin duda, como muy
importantes. Hoy en día, se habla con total normalidad de la destrucción de las barreras arquitectónicas
y de la completa integración de los discapacitados en nuestra sociedad.
No puede ser ajeno a este esfuerzo el mundo de las telecomunicaciones y de la información, el mundo,
en definitiva, de los ordenadores. Acostumbrados ya a la flexibilidad y posibilidades de estos equipos, no
puede caber la menor duda de que su aplicación al campo de las discapacidades ha de dar lugar a
multitud de soluciones y de aplicaciones auxiliares para diversos tipos de necesidades.
- 42 -
Las telecomunicaciones pueden aplicarse de formas muy diversas, de forma que haya ayudas técnicas
de muy diversa índole. Nosotros en este caso estamos especialmente interesados en las que ayudan a
la comunicación. La comunicación es fundamental en la vida de una persona, determinando en gran
medida la calidad de vida de las personas que tienen algún problema para mantener una comunicación
fluida, tanto hablada como escrita. Las personas con graves dificultades, hasta hace poco tiempo
dependían de que sus familiares o cuidadores, que conocían sus necesidades y preferencias, dedicaran
gran parte de su tiempo y esfuerzo a averiguar qué estaban intentando comunicar. Probablemente las
necesidades básicas puedan ser expresadas con movimientos básicos, o guiños, gestos, etc., pero la
expresión de mensajes complejos exige métodos elaborados de comunicación, en los cuales
normalmente estaba incluida una labor activa del receptor del mensaje.
La primera idea sobre un sistema de ayuda a la comunicación es muy simple. Consistía en tener escrita
una matriz de letras con el alfabeto completo. Las filas estaban numeradas de forma que cuando un
usuario deseaba decir algo, pedía a su interlocutor que empezase a decir los números de las filas.
Cuando el interlocutor llegaba al número de la fila que contenía la letra que el usuario quería decir, éste
hacía un pequeño gesto, con los ojos por ejemplo, para que el interlocutor se detuviese. Una vez
localizada la fila, el interlocutor tenía que comenzar a leer las letras que dicha fila hasta alcanzar la
deseada. El proceso debía repetirse hasta formar una palabra y después una frase. Esto podía
realizarse tanto con matrices de letras como de sílabas (paneles silábicos). En este caso la labor del
receptor consistía en ir recorriendo las filas y columnas automáticamente, según las indicaciones de la
persona, y recordar el mensaje desde el principio hasta el momento que finalizase su composición.
Aunque tedioso, este sistema dio la primera idea para implementar un programa de ordenador que
sustituyese la función del interlocutor. Es el propio programa el que barre la matriz de letras, las
selecciona mediante alguna interacción del usuario, las junta en palabras y por último las lee haciendo
uso de un sintetizador de voz, aliviando la función del receptor, y permitiendo al usuario la composición
de los mensajes de forma independiente, autónoma, y, si el sistema dispone de síntesis de voz, su
emisión en cualquier momento, que permite interrumpir una conversación, llamar la atención de alguien
que no está siquiera en la misma habitación, sin necesidad de que estén continuamente con él.
A pesar de ser un sistema ciertamente ingenioso, su lentitud restringía su uso a frases muy cortas y
para usuarios extremadamente pacientes y voluntariosos. En aquel momento surgió la posibilidad de
mejorar el rendimiento del programa optimizando su interfaz, mejorando la interacción del usuario. En
este marco entran la incorporación de técnicas de predicción de palabras, y diversos estudios sobre la
funcionalidad soportada por el sistema. El sistema, además de presentar la matriz de letras, daba la
posibilidad de seleccionar palabras completas que predecía a partir de las letras escritas por el usuario y
de las palabras anteriores, acelerando la predicción y mejorando la calidad de los textos escritos
normalmente. Además este tipo de sistemas permite que el usuario en cualquier momento escriba el
texto que desee, y lo almacene para su posterior reproducción cuando sea necesario.
Todas las estrategias aplicables a problemas de comunicación se encuadran dentro del concepto de
Comunicación Aumentativa y Alternativa (AAC, Augmentative and Alternative Communication),
ententido por ello todo tipo de métodos, técnicas, sistemas, materiales y dispositivos orientados a
compensar los trastornos de personas con graves deficiencias de comunicación.
9.2 Características de los usuarios
A modo de resumen de las distintas patologías descritas en el apartado 4, los destinatarios de este tipo
de sistemas pueden diferenciarse en dos grupos:
n El primero de ellos, y para quienes está pensado más directamente, lo forman personas con
graves discapacidades motrices que, además de provocar una parálisis casi total del cuerpo,
impiden el normal funcionamiento del aparato fonador, es decir, impiden el habla. Hablamos
tanto de personas que mantienen intactas el resto de sus capacidades mentales como de
aquellas que sufren algún otro tipo de discapacidad. En casi todos estos casos, la parálisis no
suele ser total sino que, generalmente, el individuo conserva algún movimiento residual. Éste
puede ser un leve cabeceo, el movimiento de algún dedo, de una mano o una pierna, o
simplemente la posibilidad de soplar. La idea en todos estos casos es aprovechar este
- 43 -
movimiento residual para, a través de una interfaz adecuada, interactuar con un sistema que
permita la comunicación hablada.
n El segundo grupo de destinatarios del proyecto lo forman personas con discapacidades

motoras menos graves o bien sin discapacidades de este tipo, pero con problemas graves del
habla. Hablamos, por ejemplo, de personas que han sufrido importantes operaciones de
laringe, daños en las cuerdas vocales. En estos casos la interfaz con el sistema de
comunicación será más sencilla y menos específica, pero el equipo mantendrá la misma
funcionalidad. Estos usuarios, además de los problemas motóricos y de habla explicados
anteriormente, pueden tener discapacidades adicionales, como, por ejemplo, problemas
auditivos, o visuales, que condicionen su uso de las ayudas técnicas que se pongan a su
disposición.
9.3 Entornos de operación
En este apartado trataremos algunas soluciones que sirven de ayuda para las personas que tienen
problemas para comunicarse. Estas discapacidades hacen que la persona necesite una prótesis que le
permita hablar utilizando un sistema de conversión texto a voz.
La forma en que el usuario accede a dicho sistema depende tanto de las características del individuo
como de las circunstancias:
n Una persona con capacidad lecto-escritora normal y sin problemas físicos que se encuentre
en un entorno cerrado (casa, trabajo, etc.) puede escribir lo que desea decir en un ordenador
convencional y enviarlo al conversor texto habla habitual, permitiéndole de esta manera
hablar, directamente o por teléfono, o incluso llamar la atención de una persona que esté en
otra habitación.
n Para las personas que tienen además problemas físicos, es necesario aportar nuevas
soluciones también para estos problemas, como puede ser modificar el editor de texto para
que pueda ser utilizado solamente con el teclado, ratón, joystick, e incluso, en los casos más
extremos un pulsador (con barrido de las opciones). En este último tipo de sistemas es
necesario implementar métodos alternativos de aceleración de la escritura, como puede ser la
predicción de palabras. Si la persona tiene una discapacidad psíquica, y no es capaz de leer y
escribir, es necesario utilizar otro tipo de acceso a sistema de generación de voz, que no sea
la escritura, como, por ejemplo, los lenguajes pictográficos o de símbolos, con los que se
pueden expresar de forma eficiente, aunque no tan flexible como con la escritura.
n Por último, cuando la persona no está en un entorno cerrado, y no es posible el uso de un

ordenador convencional, es necesario buscar soluciones alternativas, portátiles y con
suficiente autonomía. Normalmente se trata de pequeños dispositivos cuya flexibilidad está
limitada a un conjunto de celdas, cada una de las cuales puede tener asociado un mensaje.
Estos sistemas tienen prestaciones pesos, tamaños y precios muy variables, dependiendo de
las preferencias y necesidades del usuario (capacidad lecto-escritora o uso de símbolos,
conversor texto-habla o voz pregrabada, uso de pulsador con barrido de opciones, etc.).
También hay dispositivos más complejos, que se pueden ensamblar a una silla de ruedas
(eléctrica), aumentando su autonomía al poder ser alimentados directamente de las baterías
de la silla.
9.4 Clasificación de sistemas comunicadores
Denominaremos sistema comunicador al equipo que permitirá la comunicación hablada de los

individuos anteriormente descritos, distinguiendo entre dos tipos de sistemas:
n Plataformas específicas, comunicadores en sí mismos, más o menos portátiles que suelen

incluir síntesis de voz, y permiten la composición de mensajes tanto a través de símbolos
- 44 -
como de letras. De ello dependerán tanto la velocidad en la composición de los mensajes

como la flexibilidad.
n Aplicaciones que han de ser instaladas en un ordenador, de sobremesa o portátil.
En todos los casos, además hay que considerar el tipo de usuarios al que está orientado:
n Personas con cierta movilidad, que mantienen la posibilidad de utilizar un teclado, aunque sus
posibilidades de comunicación son reducidas,
n Personas que tienen graves problemas de control de sus movimientos, por lo cual hay que
buscar métodos alternativos de uso de las aplicaciones, como pueden ser, por ejemplo uso
de barrido con pulsadores, entrada solo por ratón, joystick, solo por teclado… etc.
n Personas que tienen dificultades con otros sentidos, a nivel auditivo o visual, que exigen
además una adaptación de la aplicación para poder ser utilizada: p. ej. para personas con
baja visión, posibilidad de utilizar una letra muy grande en la pantalla, o incluso que las
opciones sean leídas, uso de líneas Braille.
En el mercado podemos encontrar multitud de sistemas que implementan alguna funcionalidad

relacionada con la comunicación aumentativa y alternativa, y la selección es muy dependiente de las
preferencias y necesidades del usuario (modo de entrada, disponibilidad de síntesis, capacidades
lingüísticas, etc.).
En general, podemos clasificar los sistemas de acuerdo con distintos parámetros de funcionalidad:
n Mecanismos de acceso, que determinan cómo puede el usuario interaccionar con el sistema,
y puede ser directa o indirecta. En el primer caso, todos los elementos de la interfaz están
disponibles simultáneamente, y el usuario los selecciona a través de cualquier tipo de puntero
(incluyendo los dedos, claro). En el segundo se suele implementar algún mecanismo de
barrido secuencial en el que se puede ajustar la temporización y la disposición de los
elementos.
n Tipo de símbolos utilizados, sobre todo en función de las capacidades intelectuales del
individuo, así por ejemplo podemos hablar de gestos, objetos, gráficos y, por supuesto, texto.
n Mecanismo de almacenamiento y recuperación de símbolos, típicamente con visualizadores

estáticos o dinámicos.
n Mecanismos de salida, que puede ser impresa, gráfica, textual, a través de voz sintética o
cualquier combinación de las anteriores.
n Portabilidad, que determinará los entornos de operación en los que se puede utilizar el
sistema.
En cuanto a la base tecnológica, los sistemas de comunicación aumentativa y alternativa pueden ser
sistemas en los que no haya tecnología en sí (basta un simple papel y bolígrafo para contar con un
sistema válido para muchos usuarios), hasta aquellos que emplean software específico y necesitan de
sofisticados equipos hardware, pasando por puntos intermedios con sistemas de relativo bajo coste.
9.5 Editores predictivos
Aunque no directamente relacionados con la tecnología del habla, pero sí con la tecnología del lenguaje,
los editores predictivos constituyen una valiosa ayuda para los discapacitados físicos en el contexto de
los sistemas de comunicación aumentativa y alternativa. Con este método el usuario puede escribir
texto en un ordenador pulsando una sola tecla (que a su vez puede estar adaptada al órgano que tenga
más movilidad). La tecla pulsada se encarga de seleccionar sobre una matriz de barrido entre filas y
columnas la letra correspondiente. Además, la predicción permite que en base a las letras ya escritas, el
- 45 -
sistema nos proponga automáticamente pantalla un listado de palabras que cumple con varios
requisitos de carácter lingüístico (frecuencia de aparición en el idioma, concordancia gramatical, etc.).
En la Ilustración 39 se muestra la pantalla principal de PredWin, un editor predictivo en castellano

altamente configurable y disponible gratuitamente, desarrollado en el Laboratorio de Tecnologías de la
Rehabilitación del Departamento de Ingeniería Electrónica de la ETSIT de la UPM.
Ilustración 39. Pantalla principal de PredWin
La pantalla se divide en tres partes, la zona de menú, la de edición en el centro y la que proporciona el
mecanismo de barrido vertical y horizontal en la parte inferior, donde además de la matriz de letras hay
elementos intermedios de aceleración y acceso a funciones específicas, así como un listado de las
palabras que con mayor probabilidad seguirían al texto ya escrito. PredWin utiliza un sofisticado sistema
de predicción de palabras en el que se tiene en cuenta información frecuencial, estadística, gramatical,
de terminaciones, etc., reduciendo entre un 50 y un 60% el número de pulsaciones que un usuario con
discapacidad necesitaría para escribir un texto genérico.
Predwin proporciona además acceso a herramientas específicas de ayuda a la comunicación y admite

distintos modos de acceso, además de ser configurable en cuanto a tamaños y colores de letras (como
muestra la Ilustración 40), disposición de la matriz de barrido, uso de distintos sistemas de conversión
de texto a voz, etc.
- 46 -
Ilustración 40. Adaptación de la interfaz de usuario de PredWin .
10 Bibliografía
[1] Allen, J. A Perspective on Man-Machine Communication by Speech, Proceedings of the IEEE, vol.
73, n°11, November 1985, pp. 1541-1550.
[2] Allen, J., Hunnicut, S. y Klatt, D. From Text To Speech, The MITTALK System, Cambridge
University Press, 1987, 213 pp. 1987
[3] Augmentative and Alternative Communication. En línea

http://www.remc11.k12.mi.us/lcisd/augment.htm [Consulta: 13/Abril/2003]
[4] Bailly, G. y Benoit, C. Talking Machines: Theories, models and designs. Ed. North Holland 1992.
[5] Bernal Bermúdez, J. , Bobadilla Sancho, J. y Gómez Vilda, P. Reconocimiento de voz y fonética
acústica. Editorial Rama. 2000
[6] Cahn, J. Emotional & Expresive Synthesized Speech. En línea

http://xemina.media.mit.edu/~cahn/emot-speech.html [Consulta: 13/Abril/2003]
[7] Dale, Robert, y Reiter, Ehud. Building Natural Language Generation Systems. Cambridge University
Press, 2000
[8] Dale, Robert, y Reiter, Ehud. Tutorial: Building Applied Natural Language Generation Systems.
Applied Natural Language Processing Conference. 1997.
[9] DeFleur y Ball-Rokeach Sinopsis de “Los medios y la Sociedad”. En línea

http://mailweb.udlap.mx/~jpriante/MDI.html. [Consulta: 10/Abril/2003]
- 47 -
[10] Demonstraciones del CSLU Speech Síntesis Research Group. En línea

http://cslu.cse.ogi.edu/tts/demos [Consulta: 13/Abril/2003]
[11] Dutoit, T.. An introduction to text-to-speech synthesis. En línea

http://tcts.fpms.ac.be/synthesis/introtts.html.[Consulta: 19/Abril/2003]
[12] ECBT Gallery of Vocal Tract Shapes. En línea http://www.u.arizona.edu/~bstory/bstory.html

[Consulta: 13/Abril/2003]
[13] Ekman, P. y Friesen, W.V. Measuring Facial Movement. En línea http://dataface.nirc.com [Consulta:
13/Abril/2003]
[14] Ekman, P., & Friesen, W. V. Manual for the Facial Action Coding System. Palo Alto: Consulting
Psychologists Press,1977
[15] Ekman, P., Friesen, W. V., & Ellsworth, P. Emotion in the human face: Guidelines for research and
a review of findings. New York: Pergamon Press, 1972.
[16] Emile Benveniste. Comunicación animal y lenguaje humano. En Problemas de lingüística general I
(Capítulo V). 1966
[17] Expresión de los pensamientos: Importancia de la comunicación oral. En línea

http://www.tareasonline.com/Cartelera/Nuestro_idioma/importancia_comunicación_oral.htm
[Consulta 13/Abril/2003]
[18] Facial Action Coding System: An overview. En línea

http://dataface.nirc.com/Expression/FACS/body_facs.html [Consulta: 13/Abril/2003]
[19] Forsey, D. Facial Modeling and Animation. Department of Computer Science. University of British
Columbia (Canadá). En línea
http://www.cs.ubc.ca/nest/images/contributions/forsey/dragon/facial.html. [Consulta: 13/Abril/2003]
[20] Forsey, David. Example Facial Animations. Department of Computer Science. University of British
Columbia (Canadá). En línea
http://www.cs.ubc.ca/nest/images/contributions/forsey/dragon/anim.html [Consulta: 13/Abril/2003]
[21] Garhyan, Sangeeta. Human Face Modeling and Animation. Samuel Ginn College of Engineering.
En linea http://www.eng.auburn.edu/users/garhysa [Consulta: 13/Abril/2003]
[22] Gold B. y Morgan, N. Speech and Audio Signal Processing: Processing and Perception of Speech
and Music, John Wiley & Sons, Inc., New York, 2000
[23] Hansen, Jesse. Speech Acoustics Project. OCE 471 Underwater Acoustics. En línea (fichero
SpeechAcoustics.doc)
[24] Hong, P.m Wen, Z. y Huang, T.S. An intelligent framework for face modeling, facial motion analysis
and synthesis. Online http://www.acm.org/sigs/sigmm/MM2001/ep/hong. [Consulta: 13/Abril/2003]
[25] Huang, X. Acero, A., Hon, H-W. Spoken Language Processing: A guide to Theory, Algorithm and
System Development. Prentice Hall, 2001
[26] Human Language Technology Survey. En línea http://cslu.cse.ogi.edu/HLTsurvey [Consulta:

19/Abril/2003]
[27] Imágenes del UCLA Phonetics Lab: Vocal Fold Animation. En línea
http://www.humnet.ucla.edu/hummnet/linguistics/faciliti/demos/vocalfolds/vocalfolds.htm. [Consulta:
13/Abril/2003]
- 48 -
[28] Kahler, K. Haver, J. y Siedel, H.P. Geometry based muscle modeling for facial animation. En línea
http://www.mpi-sb.mpg.de/~kaehler/slides/gi01-muscle-modeling.htm [Consulta: 13/Abril/2003]
[29] Klatt, D.H. Software for a cascade /parallel formant synthesizer. Journal of the Acoustical Society of
America, Vol 67, 1980, pp. 971-995. 1980
[30] Klatt, Review of TTS Conversión for English. En línea http://cslu.cse.ogi.edu/tts/research/history

[31] KTH: Proyecto AdApt. En línea http://www.speech.kth.se/ctt/proj/adapt/ [Consulta: 13/Abril/2003]
[32] KTH: Proyecto August. En línea http://www.speech.kth.se/august/ [Consulta: 13/Abril/2003]
[33] KTH: Proyecto Olga. En línea http://www.nada.kth.se/~osu/olga/e_index.html [Consulta:

13/Abril/2003]
[34] KTH: Proyecto SynFace. En línea http://www.speech.kth.se/teleface/ [Consulta: 13/Abril/2003]
[35] KTH: Proyecto TeleFace. En línea http://www.speech.kth.se/synface/ [Consulta: 13/Abril/2003]
[36] La accesibilidad a la imagen: un nuevo reto. VI Jornadas del Sidar (Acceso universal, Seminario
Sidar) En línea http://www.disar.org/acti/jorna/4jorna/ivponen/imagenac/ponencia.htm [Consulta
13/Abril/2003]
[37] Levinson, S.E. Olive, J.P. y Tschirgi J.S. "Speech Synthesis in Telecommunications", IEEE
Communications Magazine, November 1993, pp. 46-53. 1993
[38] Lleida, E.. Speech Production: from anatomy to modeling. 2000. En línea
http://www.gtc.cps.unizar.es/~eduardo/docencia/tvoz/temaii [Consulta: 13/Abril/2003]
[39] Llisterri, J. General Phonetics Internet Resources. En línea

http://liceu.uab.es/~joaquim/teaching/Phonetics/fon_gen/Rec_fon_web.html [Consulta:
13/Abril/2003]
[40] Lu, H-L. Imágenes del pulso glotal y modelado de tubos del tracto vocal. Center for Computer
Research in Music and Acoustics (CCRMA) Stanford University. En línea http://ccrma-
www.standorf.edu/~vickylu/thesis [Consulta: 13/Abril/2003]
[41] Magnenat-Thalmann, N. and Thalmann, D. “Digital actors for interactive television”

Proceedings of the IEEE, August, 1995.
[42] McNaughton, David. Augmentative Communication in the Workplace. Pennsylvania State

University, 2002. En línea http://www.techconnections.org/training/dec2002/AACPresentation.pdf
[43] Miralab. Universidad de Genève (Suiza). http://www.miralab.unige.ch [Consulta: 13/Abril/2003]
[44] Mure, Jaap. Language and lateralization. 2001. Cursos Públicos del “Neural and Cognitive Modeling
Group at the University of Ámsterdam”. En línea
http://www.neuromod.org/courses/ecba1999/language-and-lateralization/ [Consulta: 13/Abril/2003]
[45] Murre, Jaap. Language and lateralization. Neural and Cognitive Modeling Group en la Universidad
de Amsterdam. En línea http://www.neuromod.org/courses/public.html [Consulta: 13/Abril/2003]
[46] O’Shaughnessy, D. Speech Communications: Human and Machine, Addison Wesley Publishing
Company, 1987
- 49 -
[47] Palazuelos Cagigas, S. Aplicaciones tecnológicas en la comunicación destinadas a parálisis

cerebral y afines. Laboratorio de Tecnologías de la Rehabilitación (DIE-ETSIT-UPM). Informe
Interno. 1999
[48] Pardo, J.M..El sistema de producción de habla. Apuntes de Ingeniería Neurosensorial. 2002
[49] Parke. A Parameterized Model for Facial Animation. IEEE Computer Graphics and Applications
2(9), pp. 61-70. 1982.
[50] Pighin, Frederic et al. Realistic Facial Animation. GRAIL: Graphics and Imaging Laboratory.
Computer Science Department. Universidad de Washington. En línea
http://grail.cs.washington.edu/projects/realface [Consulta: 13/Abril/2003]
[51] Plant, R. L. Imágenes de las cuerdas vocales del Voice Center. En línea http://www.voice-
center.com/exam_larynx.htm [Consulta: 13/Abril/2003]l
[52] Pockaj, R. et al. The facial animation engine. Universidad de Génova (Italia). En línea http://www-
dsp.com.dist.unige.it/~pok/RESEARCH/MPEG/fae.htm [Consulta: 13/Abril/2003]
[53] Poh Norman. Speaker Authentication. En línea http://hydria.u-

strasbg.fr/ñormal/BAS/resources/SpeakerAuthentication/SpeakerAuthentication.ppt. [Consulta:
13/Abril/2003]
[54] Quilis, A. y Fernández, J. A. Curso de fonética y fonología españolas para estudiantes

angloamericanos. 12ª edición. CSIC 1989.
[55] Ratcliff, A. Augmentative and alternative communication at central michigan university. Department
of Communication Disorders Central Michigan University Summer 2000. En línea
http://www.chp.cmich.edu/aac/ [Consulta: 13/Abril/2003]
[56] Romeu Figuerola, Joseph. Imagen de la faringe: vista lateral. Centro de Otorrinolaringología de
Reus. En línea: http://www.centreorl.net/multimedia/pictures/tema13/t13f1.htm. [Consulta:
13/Abril/2003]
[57] Rosen, C. Imágenes de las cuerdas vocales. Voice Center de la Universidad de Pittsburg. En línea:
http://www.pitt.edu/~crosen/normcords.html [Consulta: 13/Abril/2003]
[58] Scott, S.D. and Leong, S.T. Combining expressions and speech in talking head models. Asia Pacific
Institute of Information Technology. Internal report
[59] State of the Glotis. Linguistics Department. Simon Fraser University. En línea
http://www.sfu.ca/~saunders/l33098/L4/L4_51.html [Consulta: 13/Abril/2003]
[60] T. W. Parsons. Voice and Speech Processing. Mc-Graw Hill. 1987
[61] The KTH 3D Vocal Tract Model. En línea http://www.speech.kth.se/multimodal/vocaltract.html

[62] The Throat. En línea http://www.sghhealth4y.com.sg/health4u/otolaryngology/the_throat.htm.

[63] Visual Speech Synthesis Research. The Asia Pacific Institute of Information Technology. En línea
http://research.apiit.edu.my/project.html [Consulta: 13/Abril/2003]
[64] Voice Problems: The Larynx. Department of Otolaryngology. University of Washington. Head and
Neck surgery. En línea http://depts.washington.edu/otoweb/patients/pts_specialties/pts_voice-
prob/pts_voice-prob.htm [Consulta: 13/Abril/2003]
- 50 -
[65] X-Ray Film Database for Speech Research. En línea http://psyc.queensu.ca/~munhallk/xray.html

- 51 -
View publication stats

El Sistema de Produccion de Habla

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

El Sistema de Produccion de Habla

Cargado por

Copyright:

Formatos disponibles

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

El sistema de producción de habla

Working Paper · January 2015

Acoustic Localization Using Deep Learning Strategies View project

HEIMDAL View project

The user has requested enhancement of the downloaded file.

Javier Macías Guarasa

2 Fisiología de la producción de habla .................................................................................................. 1

2.1 Cavidades infraglóticas ................................................................................................................ 2

2.2 Cavidad laríngea........................................................................................................................... 3

2.3 Cavidades supraglóticas .............................................................................................................. 6

2.4 Introducción a la teoría acústica de la producción de habla ...................................................... 7

3 Fonología y fonética acústica y articulatoria................................................................................... 10

3.1 Fonología y fonética .................................................................................................................. 11

3.2 Clasificación de los sonidos ....................................................................................................... 11

3.3 Fonética acústica........................................................................................................................ 12

4 Patologías del habla ............................................................................................................................. 15

5 Modelos digitales de producción de habla ...................................................................................... 17

6 Sistemas de conversión de texto a voz............................................................................................ 19

6.2 Un poco de historia..................................................................................................................... 20

6.3.1 Módulo de procesamiento de lenguaje natural.......................................................... 22

6.3.2 Módulo de proceso digital de señal ............................................................................ 25

6.4 Síntesis emotiva.......................................................................................................................... 30

6.5 Evaluación de sistemas de conversión de texto a voz............................................................. 32

7 Sintetizadores de caras y comunicación multimodal.................................................................... 32

7.2 Expresiones faciales................................................................................................................... 33

7.3 Tecnología .................................................................................................................................. 33

7.3.1 Modelado facial............................................................................................................ 34

7.3.2 Animación facial........................................................................................................... 35

7.3.3 Síntesis facial ............................................................................................................... 39

7.3.4 Integración y sincronización con la voz artificial......................................................... 40

7.4 Aplicaciones ................................................................................................................................ 40

8 Generación de lenguaje natural ......................................................................................................... 41

8.2 Arquitectura de sistemas de generación de lenguaje hablado ................................................ 41

9 Comunicación alternativa y aumentativa......................................................................................... 42

9.2 Características de los usuarios.................................................................................................. 43

9.3 Entornos de operación ............................................................................................................... 44

9.4 Clasificación de sistemas comunicadores ................................................................................ 44

9.5 Editores predictivos .................................................................................................................... 45

n Por su facilidad: Es el mecanismo “natural” de comunicación humana (pasaron muchos miles

n Por el aprendizaje: Es el mecanismo más precoz de comunicación

n Por la capacidad expresiva: Con la ayuda de la entonación (y de elementos gestuales),

Igualmente trataremos aspectos relacionados con la utilización de sistemas de producción artificial de

2 Fisiología de la producción de habla

1) Cavidades infraglóticas (sistema sub-glotal) u órgano respiratorio

2) Cavidad laríngea u órgano fonador

Ilustración 1. Esquema de los órganos fonadores.

2.1 Cavidades infraglóticas

2.2 Cavidad laríngea

Ilustración 3. Vista transversal de las cuerdas vocales abiertas y cerradas.

Ilustración 4. Fotografía real de las cuerdas vocales abiertas.

Ilustración 5. Esquema del proceso de vibración de las cuerdas vocales.

Ilustración 6. Forma de onda de un sonido sonoro (vocal a)

Ilustración 7. Forma de onda de un sonido sordo (consonante s).

El mecanismo de la vibración se produce de la siguiente forma: Si suponemos que inicialmente las

En la Ilustración 8 se muestra el aspecto aproximado de la señal que responde a la velocidad

Ilustración 8. Forma de onda de la velocidad volumétrica glotal.

2.3 Cavidades supraglóticas

n Los labios en el extremo

n La zona alveolar, entre los dientes y el paladar duro

n El paladar, en el que a su vez, y de forma simplificada, podemos distinguir el paladar duro y el

Ilustración 9. Sección sagital de la cavidad oral.

2.4 Introducción a la teoría acústica de la producción de habla