Documentos de Académico
Documentos de Profesional
Documentos de Cultura
net/publication/228557568
CITATION READS
1 126
1 author:
Amalia Ortiz
Universidad Pública de Navarra
26 PUBLICATIONS 181 CITATIONS
SEE PROFILE
All content following this page was uploaded by Amalia Ortiz on 26 May 2015.
basados en los personajes animados de dos productoras de VICOMTech colabora en estos proyectos con GRIS y ZGDV
televisión y explorar formas innovadoras de utilizarlos en (Departamento de Digital Storytelling) compartiendo sus
aplicaciones multimedia y Televisión Digital, ası́ como en conocimientos en el área de avatares, en la que ambos grupos
su entorno de producción televisiva tradicional. El proyecto han tenido una gran experiencia. ZGDV, GRIS y VICOMTech
está basado en un primer prototipo de plataforma de avatares, son miembros de la INI-GraphicsNet.
que existe actualmente para otras lenguas.
El grupo Aholab, de la UPV/EHU, está desarrollando un
Para el desarrollo del proyecto se ha formado un consorcio sintetizador de voz en Euskera capaz de soportar carga emo-
integrado por la asociación VICOMTech, el Grupo Aholab cional. Su primera versión, sin carga emocional, ya ha sido in-
de la Universidad del Paı́s Vasco/Euskal Herriko Unibertsi- tegrada en ABATEUS.
tatea(UPV/EHU) y las productoras Baleuko y Talape. Actualmente el primer prototipo es completamente fun-
cional y capaz de sintetizar textos en euskera con el personaje de
Baleuko y Talape cuentan con una amplia experiencia BetiZu. El trabajo en sı́ntesis de voz emocional, calidad de ren-
en animación 3D. Baleuko ha producido, entre otros, uno de derización e integración en otros módulos o plataformas está en
los primeros largometrajes 3D en Europa. Produce también curso.
alrededor de 8 minutos semanales de BetiZu, una serie de
animación 3D para el canal de televisión vasco, ETB, que se ha 2.1. Descripción del sistema
convertido en uno de los programas televisivos para niños más
Como se puede ver en la Figura 2, la arquitectura del sis-
vistos en el Paı́s Vasco.
tema está dividida en tres módulos fundamentales que expli-
camos a continuación:
Baleuko y Talape están interesados en el área de gráficos
por computador y su aplicación para televisión, en particular, 2.1.1. Módulo de Sı́ntesis de Voz (Aholab)
para el personaje BetiZu, una vaca espacial que habla euskera
[Figura 1]. El proyecto ABATEUS ayudará en el proceso El funcionamiento del sistema es el siguiente: el texto
de producción de Baleuko a automatizar la animación facial etiquetado de entrada (que puede provenir de múltiples posibles
de sus personajes en las secuencias habladas y permitirá el fuentes: teclado, Internet, archivo), contiene el texto que se
uso de su personaje estrella en otras áreas innovadoras y va a pronunciar, más unas etiquetas especiales que indican las
poco convencionales. Esta tecnologı́a puede mejorar el actual emociones con que se deben emitir ciertas partes del texto,
escenario de modelado, animación y producción de contenidos ası́ como eventos emocionales complejos relacionados tales
televisivos y extender las actividades de las empresas a otros como risas, lloros, etc.
canales de comunicación como puede ser Internet o CD’s
multimedia. El módulo de preprocesado interpreta ese texto etiquetado
y extrae las emociones que se transfieren a la plataforma gráfica
VICOMTech es responsable de la plataforma avatar, para controlar la expresión de la cara. El texto a pronunciar,
especialmente de la sincronización entre la animación facial ası́ como las emociones y los eventos relacionados con ellas
y el audio, y de los algoritmos de gráficos 3D. Dentro de este se transfieren también al procesador lingüı́stico del conversor
área es importante destacar la relevancia de las expresiones texto a voz.
emocionales en la animación facial ası́ como de la imple-
mentación de las reglas de comportamiento, para dar al avatar El procesador lingüı́stico calcula la cadena de sonidos
una movilidad creı́ble y poder integrarlo en aplicaciones de TV. necesaria para emitir el mensaje contenido en el texto con la
emoción indicada por las etiquetas, asignando a cada fonema 2.2. Funcionalidades de ABATEUS
sus caracterı́sticas prosódicas, principalmente su duración
A continuación se presentan algunas de las principales fun-
y entonación. Estas caracterı́sticas prosódicas, junto con la
cionalidades que ya ofrece la plataforma avatar desarrollada
cadena de sonidos a pronunciar (fonemas y sonidos asociados a
para el proyecto:
los eventos emocionales) se transfieren a la plataforma gráfica
y al módulo motor de sı́ntesis de voz en Euskera. MULTILUNGUALIDAD :
Un resultado clave de nuestro proyecto es la inclusión
Finalmente el motor de sı́ntesis genera la señal de voz del euskera en la plataforma de desarrollo del avatar.
correspondiente, que se lanza simultáneamente a la secuencia Ası́, el sistema está disponible para el inglés, el castel-
animada de imágenes calculada por la plataforma avatar. lano y el alemán. Para estas lenguas la voz es sintetizada
utilizando el sistema de sı́ntesis público MBROLA [3].
Para el caso del euskera, como ya se ha mencionado, se
Una de las labores de Aholab es la grabación y la creación incorpora el sistema de sı́ntesis AhoTTS [4]
de una Base de Datos emocional con la voz de BetiZu usando
los estudios de grabación de Baleuko.
ANIMACIÓN FACIAL :
Las partes faciales que son habitualmente animadas
2.1.2. Módulo de Animación y Sincronización (VICOMTech) en el avatar son: la cabeza, los labios, los ojos, las
pupilas, las cejas y las pestañas. Para este trabajo, se
Por otro lado, para reproducir la salida gráfica se necesitan utilizan también animaciones propias del ’cartoon’,
algunos de los parámetros del sintetizador de voz con el fin de como el movimiento de las orejas de Betizu, la nariz, etc.
coordinar los gestos faciales de habla. Principalmente son la
frecuencia fundamental o pitch y la duración de cada fonema,
Algunas de las animaciones simplemente se real-
aunque también se incluyen sonidos y eventos emocionales
izan generando una deformación individual más una
basados en marcas o etiquetas del texto.
traslación o desplazamiento en una determinada trayec-
toria, como es el caso de las pupilas o el movimiento
Con estos datos, se asociará cada fonema a su visema de la cabeza. Otras, como las de los labios, se realizan
correspondiente -equivalente visual del fonema- mediante utilizando técnicas de morphing.
técnicas avanzadas de morphing [2] y con base en ’objetivos
morph’ básicos (morph targets) que representan posiciones
preestablecidas del rostro. La animación 3D gestual del habla
está basada en los parámetros procedentes del sintetizador junto
con la aplicación de una serie de reglas de comportamiento
internas (asociadas con emociones), y la combinación de los
objetos básicos, establecidos previamente, y combinados con la
técnica morphing. Cada objeto es una representación 3D de la
cara en una posición determinada (ej. Boca abierta en forma de
O). De esta manera, se podrán representar cambios a lo largo
del tiempo como una interpolación de figuras dadas.
EMOCIONES FACIALES :
Una de las principales ventajas de contar con un 3. Lı́neas de aplicación
avatar 3D conversacional es la de generar al usuario la El prototipo podrá ser fácilmente extensible a cualquiera de
ilusión de estar interactuando con el sistema como si los siguientes escenarios:
estuviera comunicándose con una persona real. Esto se
consigue imitando diálogos y formas de movimiento
de las comunicaciones entre humanos. Un ejemplo del
empleo de estas estrategias de comunicación nos lo
proporcionan los sistemas de ’Digital StoryTelling’[5].
4. Conclusiones y Trabajo Futuro ternet Video. In: Kluev, V.V. (Hrsg.) u.a.; World Scien-
tific and Engineering Society (WSES): Proceedings of
Los avatares y las interfaces conversacionales de usuario
WSES Conferences 2001. CD-ROM : SSIP-MIV- SIM-
abren muchas puertas a la interacción hombre-maquina,
RODLICS. 2001
proveyendo una interfaz mucho más natural e intuitiva. En
definitiva, son una forma innovadora y audaz para mejorar [7] Hari Om Srivastava: Interactive TV: Technology and Mar-
la interfaz de usuario en varios aspectos, y muy flexible para kets. Editado por: Digital Audio And Video Series.
ser integrado en otras plataformas. En concreto, para este [8] Braun, N., Finke, M. Interaction of Video on Demand Sys-
proyecto, se va a facilitar con valor adicional, la integración de tems with Human-like Avatars and Hypermedia. 7th In-
los avatares en la televisión 3D, en la producción de pelı́culas y ternational Workshop on Interactive Distributed Multime-
en áreas relacionadas. dia Systems and Telecommunication Services, IDMS2000
(en cooperación con ACM SIGCOMM y SIGMM) Oc-
Por otro lado, las lenguas minoritarias han sido dejados de tubre 17-20, 2000, Enschede, Holanda.
lado en el mercado dentro del área de las tecnologı́as del habla.
Esta tecnologı́a debe poder llegar a todas las culturas por lo [9] Ryokai, K., Vaucelle, C., Cassell, J.(2002). ”Literacy
que consideramos prioritario el desarrollo de avatares en estas Learning by Storytelling with a Virtual Peer”. Proceedings
lenguas. of Computer Support for Collaborative Learning. January
7-11, Boulder, CO, pp. 352-360.
Encontramos ası́ dos tecnologı́as con mucho potencial [10] Antón Nijholt. Computer-facilitated Communit Building
de sinergia, la de la sı́ntesis de voz y la de gráficos por for E-Learning. Center of Telematics and Information
computador. Dentro del área de sı́ntesis de voz, es importante Technology. University of Twente, Po Box 217. Publica-
resaltar la necesidad de avanzar especialmente en las lenguas tion 2002
minoritarias, y los avatares necesitan de esta capacidad para [11] Ryokai, K., Vaucelle, C., Cassell, J.(2002). ”Literacy
poder comunicarse con el usuario. Este proyecto une ambas Learning by Storytelling with a Virtual Peer”. Proceedings
tecnologı́as y es la prueba de que existen muchas posibilidades of Computer Support for Collaborative Learning. January
cientı́ficas y prácticas de interacción entre ambos. Con el se 7-11, Boulder, CO, pp. 352-360.
mejora la calidad de interacción entre el hombre y la máquina,
ofreciendo al usuario la posibilidad de hacerlo en su propio
idioma.
5. Referencias
[1] Maes, P.: Agents that Reduce Work and Information Over-
load, Communications of the ACM, Vol. 7/7, July 1994.
[2] Alexa M., Behr J., Müller W. (2000). ”The Morph Node”.
Proc. Web3d/VRML 2000, Monterey, CA., pp. 29-34
[3] http://tcts.fpms.ac.be/synthesis/mbrola.html
[4] Inma Hernaez, Eva Navas, Juan Luis Murugarren, Bor-
ja Etxebarria: Description of the AhoTTS System for the
Basque Language.2001
[5] Norbert Braun, ”Storytelling & Conversation to Improve
the Fun Factor in Software Applications”. CHI 2002
Conference on Human Factors in Computing Systems,
Workshop Funologie, Minneapolis, Minnesota, SIGCHI,
ACM, USA ”Interactive problem solving with speech”, J.
Acoust. Soc. Amer., Vol. 84, 1988, p S213(A).
[6] Braun N, Finke M, Rieger Th: Community TV: An Ap-
proach to Interaction for Groups and Single Users on In-