Está en la página 1de 9

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/228458502

Estudio de la transmisión de emociones mediante voz sintética por vía


telefónica

Article · September 2005

CITATION READS

1 274

4 authors:

Nestor Garay-Vitoria Inmaculada Fajardo


Universidad del País Vasco / Euskal Herriko Unibertsitatea University of Valencia
114 PUBLICATIONS   990 CITATIONS    84 PUBLICATIONS   1,352 CITATIONS   

SEE PROFILE SEE PROFILE

Juan Miguel López Idoia Cearreta


Universidad del País Vasco / Euskal Herriko Unibertsitatea Universidad del País Vasco / Euskal Herriko Unibertsitatea
82 PUBLICATIONS   502 CITATIONS    27 PUBLICATIONS   385 CITATIONS   

SEE PROFILE SEE PROFILE

Some of the authors of this publication are also working on these related projects:

Lectura crítica en Intenet: evaluación, desarrollo e intervención View project

INREDIS View project

All content following this page was uploaded by Juan Miguel López on 28 May 2014.

The user has requested enhancement of the downloaded file.


Estudio de la transmisión de emociones mediante voz sintética
por vía telefónica

Nestor Garay, Inmaculada Fajardo, Juan Miguel López, Idoia Cearreta


Laboratorio de Interacción Persona-Computador para Necesidades Especiales
Facultad de Informática. Universidad del País Vasco
Manuel Lardizabal 1; E-20018 Donostia
E-mail: [nestor, acbfabri, acblogij]@si.ehu.es, icearreta001@ikasle.ehu.es
Teléfono: +34 943018000; Fax: +34 943015590

Resumen
1. Introducción
Los dispositivos de comunicación alternativa son
muy útiles para personas carentes de la capacidad Se ha apreciado que las personas con severas
del habla, debido a diversas discapacidades discapacidades motoras y del habla (esto incluye a
motoras y/o orales, pero, a menudo, resultan ser usuarios afectados por un variado espectro de
lentos y carentes de expresión emocional. A pesar discapacidades, con diferentes orígenes y niveles
de los avances en aspectos tales como la velocidad de afectación: parálisis cerebral, apraxia,
de comunicación (e.g. mediante la anticipación de esclerosis múltiple y esclerosis lateral amiotrófica,
palabras), el problema de la falta de expresión afasia, etc. [1]) necesitan recurrir a sistemas de
emocional de estos dispositivos no está hoy en día Comunicación Aumentativa y Alternativa para
tan bien analizado. La aparición de la hacerse entender por los demás. La comunicación
computación emocional abre una puerta a la alternativa requiere a menudo dispositivos
inclusión de información de contexto para reflejar externos al usuario, en cuyo caso se habla de
emociones, estados de ánimo y actitudes en las comunicación asistida. Con este fin, y desde hace
ayudas a la comunicación. Una de las áreas de tiempo, se vienen utilizando diversos tipos de
comunicación potencialmente más problemática dispositivos de ayuda a la comunicación, tales
es el uso de voz sintética emocional a través del como los tableros silábicos.
teléfono. En este documento presentamos los Sin embargo, la difusión de los ordenadores
resultados de un experimento en el que personales ha hecho posible el diseño de ayudas
verificamos empíricamente que la expresión de informatizadas a la comunicación, a menudo
voz sintética emocional a través de la línea llamadas comunicadores, que toman un papel de
telefónica no deviene en una pérdida significativa intermediario activo que puede dinamizar
de la percepción de las emociones que se enormemente la comunicación. Estos dispositivos
pretenden transmitir. de comunicación no son más que ordenadores
portátiles dotados de una interfaz especial. Por
ejemplo, una de las aplicaciones desarrolladas en
Palabras clave: Computación emocional, el Laboratorio Interacción Persona-Computador
Dispositivos de interacción, Interacción para para Necesidades Especiales (LIPCNE) ha sido
personas con necesidades especiales, Interacción GESTELE, que consiste en una ayuda para
persona-ordenador-persona. posibilitar conversaciones telefónicas a personas
carentes del habla [9, 10].
El uso de dispositivos como intermediarios en
la conversación presenta varios problemas. Uno
de los más graves consiste en que el comunicador
transmite mensajes en un estilo neutro, carentes
del contexto que usualmente acompaña a la pequeños iconos expresando esos estados.
comunicación oral y que da importante En el presente artículo se presentan los
información acerca de la emoción y, en general, resultados de un estudio empírico sobre la
de la situación personal del hablante [4, 28]. Por transmisión de voz sintética por medio de la línea
lo tanto, el usuario de sistemas de comunicación telefónica. Se analiza si el uso del medio
asistida frecuentemente se ve en dificultades para telefónico interfiere en el reconocimiento de
expresar los matices que son usuales en la emociones en voz sintética.
conversación humana [8].
En este sentido, diversos autores han 2. Computación emocional
contrastado que la interacción humana incluye
información emocional de los interlocutores, La computación emocional o afectiva es el área
transmitida de manera explícita a través del que trabaja en la detección y respuesta a las
lenguaje y de manera implícita a través de la emociones del usuario. Un importante campo
comunicación no verbal [15]. Se han realizado dentro de este área es la mediación emocional, que
muchos esfuerzos en mejorar la comunicación utiliza tecnología basada en computadores para
explícita, como técnicas de predicción en texto y habilitar la comunicación de dos o más personas
adaptación de velocidad de comunicación en reflejando sus estados emocionales [9, 22]. La
sistemas de comunicación aumentativa y mediación emocional tiene aplicación directa
alternativa [8, 11]. Sin embargo, la mejora de la dentro de la Comunicación Aumentativa y
comunicación implícita ha recibido Alternativa. Por ejemplo, GESTELE incorpora en
tradicionalmente menos atención. su interfaz diversos elementos que posibilitarían la
La información no verbal o implícita, que mediación emocional a través de emoticones y
frecuentemente se transmite mediante gestos voz sintética transmitida por línea telefónica. Sin
corporales, actitudes, modulaciones de la voz, embargo, la usabilidad de estos elementos de
expresiones faciales, etc., es de gran importancia mediación emocional necesita ser contrastada
en la comunicación humana, ya que tiene un gran empíricamente.
efecto sobre la disposición comunicativa de los La hipótesis básica de la computación
interlocutores y sobre la inteligibilidad del emocional es que si se tienen en cuenta las
discurso [7]. Sin embargo, y de acuerdo con características emocionales del usuario se puede
Picard [22, 23], estas características que se mejorar notablemente la comunicación. Pero,
asocian a las relaciones interpersonales también ¿cómo puede reconocer el ordenador los estados
aparecen en la comunicación con los ordenadores. emocionales del usuario? Para ello, se utiliza la
Por esta razón, el principal objetivo de la fuente de conocimientos sobre comunicación
computación emocional es captar y procesar la emocional humana proveniente de campos como
información emocional con el fin de mejorar la la psicología experimental y trata de que los
comunicación entre la persona y el ordenador. sistemas informáticos usen las mismas claves que
Dicha información también podrá servir para usa el ser humano para expresar emociones (voz,
mejorar la comunicación entre varias personas gestos faciales, gestos corporales, etc.). Lang [16]
haciendo uso de tecnología informática. propone que existen tres sistemas que estarían
Pese a hacerse evidente que la carencia de implicados en la expresión de las emociones y que
transmisión emocional mediante sistemas podrían servir como indicadores de detectar la
informáticos afecta inicialmente a personas con emoción del usuario:
discapacidad que hacen uso de dichos sistemas 1. Información Verbal
para comunicarse con el resto de la población, esa 2. Conducta
misma carencia afecta a toda la población ante la 3. Respuestas psicofisiológicas
misma situación. Por ejemplo, piénsese en la Por tanto, para que un sistema informático
comunicación vía correo electrónico, chat o SMS, registre y reconozca las emociones del usuario
en la actualidad notablemente extendidos entre la será necesario determinar qué emociones básicas
población: al principio no se sabía el estado se van medir y cuáles son sus correlatos subjetivo-
anímico del remitente y una de las primeras verbales, conductuales y psicofisiológicos. Con
salidas que se dio a este problema y que está muy este fin, es necesario operacionalizar dichos
extendida hoy en día es el uso de emoticones o
correlatos. Por ejemplo, respecto a los correlatos cuatro emociones son: neutral, alegría, tristeza y
conductales, se suele hacer un análisis de gestos, enfado.
tanto faciales como corporales, así como algunos Un aspecto a tener en cuenta asociado a la
parámetros de la voz. En cuanto a los correlatos síntesis de voz emocional es el hecho de que las
psicofisiológicos, se podrían usar parámetros variaciones culturales y lingüísticas pueden
como el pulso, la conductancia de la piel, etc. Un modificar los parámetros de la voz necesarios para
ejemplo de los subjetivo-verbales sería la poder realizar una síntesis correcta. Este aspecto
semántica de las locuciones. A menudo, esas ha sido analizado de manera precisa en estudios
detecciones requieren métodos invasivos en los como [2, 24, 27], en los que se ha demostrado que
casos en los que hay que aplicar sensores o vestir existe poca diferencia en la detección de
al usuario de trajes especiales. Sin embargo, la emociones entre sujetos provenientes de diferentes
miniaturización de los circuitos permitirá que se entornos lingüísticos y culturales, además de
reduzca el tamaño de los sensores y puedan constatar que el índice de acierto en los usuarios
integrarse en complementos de vestir, como está lejos de ser perfecto. En cuanto a idiomas de
propone Picard [23]. ámbito estatal se refiere, se han hecho diferentes
Prosiguiendo con esta línea de trabajo, se estudios como los de [12, 18] para el castellano,
espera que la información que mande el [13] para el catalán y [21] para el euskera.
computador a la persona será mejor entendida y Otro aspecto a considerar sobre las
aceptada si cuenta con un contexto de información características de la síntesis de voz emocional
emocional similar a la que hay durante la consiste en los diferentes parámetros específicos a
interacción entre personas. Por tanto, es analizar [7], que pueden variar según los
interesante que el computador no sólo reconozca diferentes estudios (e.g. en cuanto a la frecuencia
las emociones del interlocutor sino que también se pueden considerar características tan variadas
pueda mandar su propia información emocional, como la frecuencia fundamental, los formantes
por ejemplo, modulando la voz sintética o siendo [F1, F1, F3], contorno de la frecuencia, etc.) Por
representado por una serie de caracteres o otra parte, también hemos de tener en cuenta el
avatares. Ello permitirá no solo la transmisión de auge de los sintetizadores que realizan síntesis de
información textual o explícita, sino también la manera concatenada [19], ya que mediante su uso
transmisión implícita de su emoción asociada. parece ser que se mejora la calidad de la voz
En el siguiente apartado, se realiza un somero sintetizada obtenida.
repaso sobre los diferentes aspectos considerados
en estudios relativos a la transmisión de voz 4. Estudio empírico: análisis de voz
sintética emocional. emocional directa y por vía telefónica
3. Aspectos considerados en estudios
sobre síntesis de voz emocional 4.1. Objetivos del estudio

En el transcurso de la investigación sobre El objetivo principal de este experimento es


emociones, se han propuesto una serie de conocer si la distorsión causada por la línea
diferentes taxonomías referentes a emociones en telefónica (truncando las altas frecuencias) tiene
el habla, en las que se contemplan desde dos hasta algún efecto sobre el reconocimiento de las
veinte emociones básicas [22]. Por ejemplo, según emociones expresadas vía voz sintética. La
Plutchnik [25] existen ocho emociones básicas: validación de este tipo de medio de transmisión
miedo, sorpresa, tristeza, disgusto, ira, esperanza, sería muy útil para el desarrollo de sistemas que
alegría y aceptación. Otros autores, como Lee sean utilizados dentro de la mediación emocional
[17], restringen las emociones a un total de seis: (similares a GESTELE).
enfado, alegría, tristeza, disgusto, miedo y Dicha distorsión introducida por el uso del
sorpresa. En cambio, en otros estudios sobre teléfono, tanto en la voz natural como en la
síntesis de voz emocional, como los de Alm [3], sintetizada, probablemente afecta a parámetros
se restringe el número de emociones básicas paralingüísticos tales como el tono. Por esta razón,
estudiadas a cuatro. En el caso de [5, 6], estas no se puede garantizar que la comprensión de los
parámetros expresivos vía telefónica sea similar a
oír directamente la misma voz sintética. Intención Frase
La idea de partida es ampliar los estudios Alegría I enjoy cooking in the kitchen.
realizados por Pierre-Yves [24] con voces Neutral Wait a moment, I am writing.
sintéticas, comparándolas con las que se Enfado Your mother is worse than mine
consiguen cuando se oyen con una calidad menor is!
por vía telefónica. En este estudio preliminar se Tristeza I feel very tired and exhausted.
han tenido en cuenta cuatro emociones: neutral,
alegría, tristeza y enfado. Tabla 1. Frases usadas.

Por último, los rangos de los parámetros


4.2. Método (frecuencia, velocidad e intensidad) para cada
estado emocional son amplios y las variaciones en
Participantes los valores seleccionados o las combinaciones de
Los participantes fueron veinticinco voluntarios valores pueden afectar la eficiencia en el
entre los estudiantes y profesores de la Facultad reconocimiento de dicho estado emocional. Por
de Informática de la Universidad del País Vasco, tanto, se seleccionaron 3 combinaciones de
diecisiete varones (con una media de edad de valores de cada parámetro por emoción (ver
33,47 años) y ocho mujeres (con una media de Tablas 2 y 3). Los rangos y unidades de los
edad de 39,37 años). Su idioma materno era el parámetros que se muestran en las Tablas 2 y 3
castellano. son los siguientes [26]:
• Volumen: los valores posibles van de 0 a 100,
Material y Estímulos siendo 100 el valor por defecto. La escala es
Siguiendo la metodología propuesta por [12, 19, en porcentajes; por ejemplo un valor de 50
20, 24], en el caso concreto de este estudio, para indica que se escucha al 50% del volumen.
reflejar emociones a través del sintetizador de voz, • Velocidad: los valores posibles van de -10 a
se seleccionaron tres parámetros (tono, volumen +10, siendo 0 el valor por defecto. El valor
y velocidad). Asimismo, las emociones más bajo, -10, expresa que se habla a un tercio
contempladas son las que figuran en [6, 9]: de la velocidad por defecto, mientras que el
neutral, alegría, tristeza y enfado. valor de +10 implica que la velocidad es tres
Se usaron frases escritas en un idioma distinto veces la de por defecto.
del materno, en este caso el inglés, y con frases • Tono: los valores posibles van de -10 a +10,
semánticamente significativas (lo que [21] siendo 0 el valor por defecto. El valor –10
denomina textos específicos). Ya que sólo nos expresa que se habla a tres cuartos del tono
interesan los parámetros paralingüísticos de la por defecto, mientras que el valor de +10
voz, se pensó que el uso de un idioma extranjero implica que el tono es cuatro tercios el valor
permitiría controlar mejor el efecto de la por defecto.
semántica de la frase sobre el reconocimiento de En la Tabla 2 se indican los valores genéricos
la emoción. Aún así, se evaluó el nivel de inglés y en la Tabla 3, las combinaciones concretas
de los participantes siguiendo la clasificación de la usadas en el experimento.
Universidad de Cambridge. La distribución de los
participantes por niveles fue la siguiente: Volumen Velocidad Tono
Elemental (12% de la muestra), Intermedio (56% Rango 0/100 -10/+10 -10/+10
de la muestra), nivel First (24%), nivel Advanced Por defecto DV=100 DR = 0 DP = 0
(4%) y nivel Proficiency (4%). Este dato se utilizó Máximo 100% DR*3 DP*4/3
como variable covariada en los análisis Mínimo 0 DR/3 DP*3/4
estadísticos posteriores. Incremento 1% Velocidad Tono+
Para mejorar más aún el control del peso 10
semántico de las frases, se usaron cuatro tipos de
+ 3 24
2
frases, dotadas de semántica neutral, alegría, Escala Linear Logarít- Logarít-
mica mica
tristeza y enfado que se combinaron con cada tipo
de voz (ver Tabla 1). Tabla 2. Características de la voz sintética
una pequeña pausa de dos segundos entre ambas.
Emocio Volumen Veloci Tono Combi Tras la segunda presentación, los participantes
nes dad nación debían seleccionar la emoción que pensaban que
80 0 0 N1 expresaba la voz sintética (neutral, alegría,
Neutral 85 0 0 N2 tristeza y enfado), en un formulario que se
90 0 0 N3 mostraba en la pantalla. Se repetía este
100 3 8 H1 procedimiento con cada frase hasta completar el
Alegría 80 1 10 H2 bloque. Para asegurar la comprensión del
90 2 9 H3 procedimiento por parte de los sujetos
60 -4 -8 S1 experimentales, realizaron un bloque de
Tristeza 45 -2 -10 S2 entrenamiento previo a la tarea experimental.
55 -3 -9 S3
100 2 3 A1 Diseño
Enfado 100 3 7 A2 Se adoptó un diseño multifactorial intrasujeto. Las
100 2 5 A3 variables independientes fueron el tipo de voz
(directa o por vía telefónica), el estado emocional
Tabla 3. Valores por parámetros de la voz y emoción (neutral, alegría, tristeza y enfado) y una
seleccionados para el estudio. combinación de valores de parámetros para cada
estado emocional (1, 2 y 3). La variable
En total se usaron 48 frases distintas como dependiente fue la tasa de aciertos (medida en %)
resultado de multiplicar 4 (emociones) x 4 (tipos entre la respuesta de los participantes y la
de contenido semántico) x 3 (combinaciones de emoción programada por la voz sintética. A esta
valores de parámetros). variable le denominamos “aciertos”.

Aparatos 4.3. Resultados


Se hizo uso de un motor Microsoft SDK 5.1 TTS
para sintetizar la voz de forma mono-oral PCM. El nivel de significatividad de los contrastes
Las frases fueron pronunciadas de dos formas: 1) estadísticos realizados fue establecido en el 0,05.
La calidad de la voz directa fue haciendo uso de Con los datos obtenidos se hizo un estudio
22050 Hz con 16 bits, y 2) la calidad telefónica ANCOVA multifactorial. Así, las variables
fue simulada por medio de 8000 Hz con 8 bits. independientes intrasujeto fueron el Tipo de Voz
Se diseñó una aplicación para automatizar la (Directa o Telefónica), la Emoción (Neutral,
presentación aleatoria de estímulos y la recogida Alegría, Tristeza y Enfado) y la Combinación de
de las respuestas de los participantes. los Parámetros de la Voz (1, 2, 3) (ver Tablas 2 y
3). El conocimiento del inglés fue introducido
Procedimiento como una variable covariada. El porcentaje de
A cada persona se le solicitó que escuchase por aciertos fue la variable dependiente. El efecto
medio de auriculares dos bloques de cuarenta y principal del Tipo de Voz no resultó significativa
ocho frases cada uno y que escogiese el estado y por ello se aceptó la hipótesis nula. Esto es, no
emocional que reflejaba cada una de ellas. Un hay diferencias en la percepción directa de la voz
bloque de las frases fue pronunciado directamente y la realizada por vía telefónica.
con el sintetizador y el otro, con calidad Además, se obtuvo un efecto significativo de
telefónica. La mitad de los voluntarios empezó el la variable Tipo de Emoción F (3, 72) = 18.52,
experimento con la voz directa y la otra mitad, en Mse = 0.14. La Tristeza obtuvo en promedio una
orden inverso. El orden de la presentación fue tasa de aciertos de M= 0.80; el Enfado, M = 0.70;
asignado de manera aleatoria a cada participante. el Neutral, M=0.66; y la Alegría, M = 0.66; como
De la misma manera, para evitar cualquier puede verse en la Figura 1, la emoción Neutral y
dependencia, el orden de presentación de cada Alegría son más difíciles de detectar que la
estado emocional fue distribuido de manera Tristeza y el Enfado: F (1, 24) = 416.34, Mse =
aleatoria dentro de cada bloque de frases. Los 0.12. De la misma manera, la Tristeza es
participantes escuchaban dos veces cada frase con significativamente más fácil de detectar que el
Enfado: F (1, 24) = 5.74; Mse = 0.13. tales como el volumen, la velocidad y el tono de la
De modo similar, el efecto de interacción de voz sintética posibilita expresar emociones. No
segundo orden entre la Emoción y los Valores de obstante, también se observa que hay emociones
los Parámetros de la Voz fue significativo: F (6, difíciles de reproducir o reconocer, principalmente
144) = 6.62, Mse = 0.05. Para clarificar la causa las emociones “alegría” y “neutral”, mientras que
de las interacciones, el análisis de los efectos la “tristeza” y “enfado” se perciben con una
simples revela que la voz sintética expresa mejor mayor eficiencia.
la emoción Neutral con la combinación N2 que Estos datos serían coherentes con los
con N1 y N3: F (1, 24) = 13.82, Mse = 0.04. La provenientes de los estudios realizados sobre
Alegría se expresa mejor con H3 que con H1 o percepción de emociones a partir de voz humana.
H2: F (1, 24) = 11.34, Mse = 0.06. La Tristeza se De acuerdo a Johnstone [14], parece ser que las
percibe mejor con la combinación S1 que con S2 diferentes emociones son expresadas y percibidas
o S3: F (1, 24) = 10.4, Mse = 0.04. En el caso del más o menos fácilmente en la voz humana. Como
Enfado, las tres combinaciones de parámetros en el experimento aquí presentado, el enfado sería
fueron igualmente eficientes y no se observaron una de las emociones mejor expresadas
diferencias significativas entre ellas. vocalmente por los seres humanos. Los citados
autores sugieren que está asimetría en la
0,9
efectividad de la expresión vocal de las emociones
0,8
vendría explicada por aspectos evolutivos. Las
emociones de miedo y enfado para expresar
Porcentaje de Aciertos

peligro tienen que ser comunicadas a largas


0,7

0,6
distancias con el fin de que sean captadas por los
0,5
demás miembros del grupo o el enemigo. En este
caso, la voz sería el medio más efectivo. Otras
emociones como el asco, deben ser comunicadas a
0,4

0,3
distancias cortas por lo que los sistemas visuales
0,2 Voz Directa
serían más efectivos.
Por otro lado, se hace necesario extender el
Combinat 2 Combinat 2 Combinat 2 Combinat 2
1 3 1 3 1 3 1 3 Voz Telefónica

Neutral Alegría Tristeza Enfado


estudio para ser llevado a cabo con hablantes
Figura 1. Interacción entre el tipo de emoción (neutral, ingleses nativos. Para controlar el posible efecto
alegría, tristeza y enfado), el tipo de voz extraño del idioma se introdujo la variable “nivel
(directa o por vía telefónica) y el tipo de de inglés de los participantes” como variable
combinación de parámetros (1, 2 y 3). covariada pero dado que sólo el 8% de los
participantes tuvo un nivel alto de conocimiento
de inglés, no podemos descartar que la
comprensión del mensaje de las frases haya
4.4. Discusión podido afectar a la comprensión de la emoción de
las frases en nuestro experimento.
Los resultados empíricos demuestran que las Asimismo, se están realizando estos
claves emocionales transmitidas por medio del experimentos con sintetizadores para el euskera y
teléfono no son más difíciles de interpretar que las el castellano y usuarios nativos de dichos idiomas
escuchadas directamente. Es decir, la interferencia y se confía mostrar los resultados relevantes en
producida por el uso del teléfono no produce futuras comunicaciones.
diferencias significativas en la eficiencia de la
percepción por parte del oyente. Por tanto, 5. Conclusiones
podemos concluir que la percepción de las pistas
emocionales asociadas a la voz sintética es tan
Como se ha visto, aplicar técnicas emocionales en
eficiente cuando se escucha a través del teléfono
sistemas de Comunicación Aumentativa y
como cuando se escucha directamente.
Alternativa para mejorar la rehabilitación,
Además, este estudio replica parcialmente los
integración y comunicación de personas con
resultados conseguidos por Pierre-Yves [24],
discapacidad es un campo prometedor. En
mostrando que la manipulación de parámetros
particular, el trabajo presentado en este artículo se 2002, 1265-1268.
está empleando en contrastar la validez de algunos [6] Busso C., Deng Z., Yildirim S., Bulut M., Lee
sistemas de mediación emocional desarrollados C. M., Kazemzadeh A., Lee S.
(GESTELE), con el fin de mejorar las capacidades Neumann U., Narayanan S., 2004.
de expresividad de los usuarios y la capacidad de Analysis of emotion recognition
interpretar los mensajes en desarrollos posteriores. using facial expressions, speech and
La pregunta principal del estudio realizado ha multimodal information. ICMI
sido si la distorsión introducida por la transmisión Proceedings of the 6th international
de voz sintética por vía telefónica provoca alguna conference on Multimodal
degradación en la transmisión de información interfaces.
afectiva. Se ha podido apreciar empíricamente que [7] Cowie R., Douglas-Cowie E., Tsapatsoulis N.,
no ha sido así. Votsis G., Kollias S., Fellenz W.,
Los sintetizadores de voz están pasando de Taylor J. G., 2001. Emotion
producir texto únicamente inteligible a añadirle Recognition in Human-Computer
connotaciones prosódicas relativas a las Interaction. IEEE Signal Processing
emociones. De acuerdo a los datos preliminares a Magazine, Vol 18(1), 32-80.
este estudio, esta aproximación es válida con [8] Garay N., 2001. Sistemas de Predicción
algunas emociones tales como el enfado o la Lingüística. Aplicación a Idiomas
tristeza, tanto por vía telefónica como con Alto y Bajo Grado de Flexión,
directamente. Asimismo, las mejoras que se en el Ámbito de la Comunicación
logren en la calidad de los sistemas sintetizadores Aumentativa y Alternativa. Servicio
de voz conseguirán que la voz obtenida resulte Editorial de la Universidad del País
más natural en los desarrollos que se vayan Vasco, Leioa (Spain). ISBN: 84-
haciendo. 8373-355-2.
Futuros estudios contemplarán nuevas [9] Garay N., Abascal J., Gardeazabal L., 2002.
emociones o clasificaciones emocionales, tanto Mediación emocional en sistemas de
para hablantes como oyentes, sean nativos o no. Comunicación Aumentativa y
En cualquier caso, se prevé que habrá que tener en Alternativa. Revista Iberoamericana
cuenta las características propias del entorno de Inteligencia Artificial. 16, 65-70.
cultural de las personas. [10] Garay-Vitoria N., Abascal J. G., Urigoitia-
Bengoa S., 1995. Application of the
Referencias Human Conversation Modelling in a
Telephonic Aid. Proceedings of the
[1] AAC. Alternative and Augmentative 15th International Symposium on
Communication, 1989. 5 (1). Human Factors in
[2] Abelin, A., Allwood, J., 2000. Cross-linguistic Telecommunications (HFT '95),
interpretation of emotional prosody. Melbourne (Australia), 131-138.
Proceedings of the ISCA Workshop [11] Gardeazabal L., 2000. Aplicaciones de la
on Speech and Emotion. Tecnología de Computadores a la
[3] Alm N., Arnott J. L., Newell A. F., 1992. Mejora de la Velocidad de
Prediction and Conversational Comunicación en Sistemas de
Momentum in an Augmentative Comunicación Aumentativa y
Communication System. Alternativa. Servicio Editorial de la
Communications of the ACM, 35 Universidad del País Vasco, Leioa
(5), 46-57. (Spain). ISBN: 84-8373-301-3.
[4] Alm N., Ellis K., 1999. Computer-assisted [12] Iriondo I., Guaus R., Rodríguez A., Lázaro
swearing. Communicating Together. P., Montoya N., Blanco J. Mª,
16 (2), 4-7. Bernadas D., Oliver J. M., Tena D.,
[5] Bulut M, Narayanan S. S, Syrdal A. K., 2002. Longhi L., 2000. Validation of an
Expressive speech synthesis using a Acoustical Modelling of Emotional
concatenative synthesizer. ICSLP- Expression in Spanish Using Speech
Synthesis Techniques. Proceedings
of the ISCA Workshop on Speech modelling in standard Basque.
and Emotion. LNAI/LNCS 3206. 393-400..
http://www.qub.ac.uk/en/isca/index. Springer-Verlag, Berlin
htm [22] Picard R. W., 1997. Affective Computing.
[13] Iriondo I., Alías F., Melenchón J., Llorca M. MIT Press.
A., 2004. Modeling and synthesizing [23] Picard R. W., 1998. Towards Agents that
emotional speech for Catalan Text- Recognize Emotion. Acts
To-Speech synthesis. Tutorial and Proceedings IMAGINA (Monaco),
research workshop on affective 153-165.
dialogue systems, ADS 2004, [24] Pierre-Yves O., 2003. The production and
Kloster Irsee, Germany. recognition of emotions in speech:
LNAI/LNCS 3068, 197-208. features and algorithms. Int. J.
[14] Johnstone, T., Scherer, K. R., 2000. Vocal Human-Computer Studies 59, 157-
Communication of Emotion. In M. 183.
Lewis & J. Haviland (Eds.). [25] Plutchnik R., 1980 Emotion: A
Handbook of Emotion, Second psychoevolutionary synthesis. New
Edition, 220-235. York: Harper and Row.
[15] Knapp M. L., 1980. Essentials of nonverbal [26] SAPI 5.0 TTS XML Grammar format
communication. Holt, Rinehart & http://www.research-
Winston. lab.com/help/dictation2005/xmlsapi.
[16] Lang P.J., 1984. Cognition in emotion: htm
Concept and action. In Emotions, [27] Tickle, A., 2000. English and Japanese
cognition and behavior., C. Izard, J. speaker’s emotion vocalizations and
Kagan, and R. Zajonc (eds). New recognition: a comparison
York, NY. Cambridge University highlighting vowel quality. ISCA
Press. Workshop on Speech and Emotion,
[17] Lee C. M., Yildirim S., Bulut M., Belfast.
Kazemzadeh A., Busso C., Deng Z., [28] Van Santen, J., Black, L., Cohen, G., Kain,
Lee S., Narayanan S., 2004. Emotion A., Klabbers, E., Mishra, T., de
Recognition based on Phoneme Villiers, J., Niu, X., 2003.
Classes. Proceedings of 8th Applications of computer generated
International Conference on Spoken expressive speech for
Language Processing (ICSLP), Jeju communication disorders. In
Island, Korea, 889-892. EUROSPEECH-2003, 1657-1660.
[18] Montero, J.M., Arriola, G.J., Colas, J.,
Enriquez, E., and Pardo, J.M., 1999.
Analysis and Modeling of Emotional
Speech in Spanish, Proc. of ICPhS,
vol. 2, San Francisco, USA, 957-
960.
[19] Murray R., 2000. Emotion in concatenated
speech. Proceedings of the IEE
Seminar State of the Art in Speech
Synthesis. London. 7/1-7/6.
[20] Murray R., Arnott J. L., Rohwer E. A., 1996.
Emotional stress in synthetic speech:
Progress and future directions.
Speech Communication 20 (1-2), 85-
91.
[21] Navas E. Hernáez I., Castelruiz A., Luengo
I., 2004. Obtaining and evaluating an
emotional database for prosody

View publication stats

También podría gustarte