Documentos de Académico
Documentos de Profesional
Documentos de Cultura
In this paper we present a summary of the main techniques for the automatic recognition
of human emotions. We study the most important kind of emotions, centering on the
specific emotions. We focus on the two most relevant ways in which emotions are stud-
ied: facial expressions from a video, and phonetic expressions from a speech. Since the
type of emotions obtained from these two approaches could be different, the fusion of
these different sources of information is one of the most interesting areas of research.
We present a review of the statistical techniques used in emotion recognition. A funda-
mental task is the development of an appropriate database, with real audio-visual data,
focus on emotion learning.
Nous prsentons dans cet article un rsum des principales techniques relatives la re-
connaissance automatique des motions. Nous rsumerons brvement les principaux
types d'motions en soulignant le besoin d'utiliser des motions spcifiques. Nous
considrerons les deux principales voies de l'tude des motions: les expressions facia-
les obtenues partir d'un vido et les expressions lxico-phontiques obtenues d'un dis-
cours de matriel audio. Bien que les motions recueillies par l'un ou l'autre des proc-
ds puissent tre diffrentes, les plus rcentes techniques de recherche se centrent sur la
combinaison des deux sources d'information. Nous prsentons un rsum des techniques
d'analyse statistique utilises lors de l'tude des motions. Le dveloppement d'une base
de donnes adapte l'tude des motions est un travail fondamental. Le matriel de
cette base de donnes devrait tre audiovisuel et recueilli dans un milieu rel, sans la
prsence de personnes prdisposes reflter une motion.
Autores: Isaac Martn de Diego, ngel Serrano, Cristina Conde, Enrique Cabello
Email: isaac.martin@urjc.es
Institucin: Universidad Rey Juan Carlos (ESCET),
1.- INTRODUCCIN.
Las emociones rigen casi todos los modos de comunicacin humana: las expresiones
faciales, los gestos, las posturas, el tono de voz, la eleccin de las palabras, la respira-
cin, la temperatura corporal, etc. Las emociones cambian el mensaje transmitido, y en
ocasiones lo importante no es el mensaje en s, sino el modo en que este mensaje es
transmitido. Sin embargo, no existe una teora unificada que describa apropiadamente
todo el amplio rango de emociones. Clasificar las emociones en un nmero pequeo de
categoras primarias (emociones puras) es, obviamente, limitado. En general, es preferi-
ble caracterizar las emociones en dimensiones continuas (por ejemplo, negativo vs. po-
sitivo). De este modo se obtiene una representacin ms flexible y generalizable. La
prediccin de las posibles acciones a llevar a cabo a partir de estados emocionales debe-
ra de ser el centro de la tarea de comprensin de las emociones. Cualquier sistema cuyo
fin ltimo sea la interaccin con humanos ha de basarse en esa prediccin. En este art-
culo se presentan los aspectos a considerar en el desarrollo de un sistema automtico de
reconocimiento de emociones. En primer lugar consideramos los tipos de emociones,
sus mtodos de deteccin y de evaluacin. Posteriormente nos centraremos en las emo-
ciones recogidas a travs del rostro y en aquellas que lo son a travs del discurso.
Haremos un repaso a las principales tcnicas de anlisis matemtico para el reconoci-
miento de emociones. Comentaremos brevemente las bases de datos disponibles para el
entrenamiento de dichas tcnicas. Finalizaremos con las principales conclusiones.
La Real Academia Espaola de la lengua define emocin como la alteracin del nimo
intensa y pasajera, agradable o penosa, que va acompaada de cierta conmocin somti-
ca. El carcter intenso y momentneo de estas alteraciones hace difcil su deteccin por
sistemas automticos. Hemos de considerar adems, cuales son las emociones estamos
interesados en detectar. Un sistema diseado para detectar alteraciones independiente-
mente del carcter de las mismas ser mucho ms sencillo de implementar y aplicar que
un sistema cuyo fin sea la determinacin efectiva del signo de la emocin, positivo, ne-
gativo, neutro... etc. Es posible clasificar las emociones en unas pocas categoras prima-
rias, concretamente las seis grandes emociones (definidas por Cornelius, 1996 y pre-
viamente por Ekman, 1978 y Ekman y Friesen, 1978) son: felicidad, sorpresa, miedo,
disgusto, clera, tristeza. Para codificar las expresiones faciales, Ekman y Friesen
(1978) desarrollaron un sistema de codificacin de acciones faciales (FACS, Facial
Action Coding System) en el que los movimientos de la cara se describen mediante
variables asociadas a los movimientos musculares. Los trabajos de Ekman motivaron el
trabajo de un gran nmero de investigadores en el campo del anlisis de expresiones
faciales a partir de imgenes y video. Las seis grandes emociones definidas previamen-
te, son consideradas primarias o bsicas pues todas las otras emociones pueden ser deri-
vadas a partir de ellas. Sin embargo, es lcito plantearse si esas emociones bsicas son
representativas de la realidad que se desea estudiar. Habitualmente es preferible emplear
una caracterizacin basada en emociones definidas sobre una escala continua. En este
ltimo caso puede ser complejo establecer el punto exacto en el que se pasa de una
emocin a otra en la escala continua.
Describir las relaciones entre el discurso o las expresiones faciales y las emociones de-
pende de la identificacin adecuada de las tcnicas para describir los estados emociona-
les de los individuos estudiados. En principio existen varios modos de describir estos
estados, sin embargo los mtodos ms sencillos no suelen ser los ms eficientes. Cowie
(Cowie, 2000) present varios mtodos para describir de manera eficiente estas emocio-
nes. Se consideran las categoras emocionales bsicas anteriormente descritas y se aa-
den las denominadas categoras emocionales secundarias. Estas ltimas emociones son
ms complejas que las emociones bsicas y sirven para extenderlas y complementarlas.
Una de las opciones consiste en explotar el poder del lenguaje emocional al mximo
mediante el uso de un amplio rango de emociones secundarias, incluso combinndolas
dando lugar a emociones complejas imposibles de representar con las simples emocio-
nes bsicas. Un mtodo alternativo a esta representacin es la llamada representacin
Enunciemos algunas de las caractersticas del algoritmo: existe una translacin natural
entre los estados intermedios, las diferentes categoras emocionales estn claramente
representadas, el formato numrico obtenido hace que el tratamiento estadstico de las
emociones sea mucho ms sencillo, y por ltimo, la habilidad para capturar variaciones
emocionales en el tiempo, tanto de manera inmediata como a largo plazo. Otro modo
alternativo de representacin de las emociones se basa en la conceptualizacin de la
comunicacin del afecto a partir de tres dimensiones: activacin o vigilia, placer y po-
der. Este concepto de las dimensiones de la emocin ha sido til para describir y distin-
guir entre emociones (Pereira, 2000).
Se han realizado algunos trabajos que seleccionan, a partir de una coleccin de variables
originales aquellas que mejor discriminan entre las diferentes emociones, como paso
previo al empleo de un algoritmo de aprendizaje de las emociones (Bartlett, 2003).
Adems, la representacin de una emocin debera de ser adaptable a lo largo del tiem-
po, influenciada por el propio aprendizaje.
Existen ciertas variables que, por su propia definicin, son especficas del discurso y no
las encontraremos, o sern ms difciles de detectar en el gesto o en la representacin
facial del individuo. Por ejemplo, variaciones de la entonacin pueden ser debidas a
cambios en el estado emocional del individuo. La tabla 1 presenta un resumen de las
relaciones entre las emociones y los parmetros del discurso (Murray y Arnott, 1993).
Existe en general una relacin conocida entre el discurso y las emociones primarias. Las
medidas del discurso que parecen ser buenas indicadoras de estas emociones son medi-
das acsticas continuas, tales como las relacionadas con la variacin del discurso, el
rango, la intensidad y la duracin del mismo. Sin embargo esta relacin suele no ser
suficiente. Una de las lneas de investigacin en el reconocimiento automtico de emo-
ciones es la mejora de nuestra capacidad para identificar la correlacin entre las seales
acsticas en el discurso y el amplio rango de emociones producidos por el hablante. Los
sistemas diseados para llevar a cabo esta tarea, por lo general, son extremadamente
sensibles a la variabilidad introducida por el hablante. Esta variabilidad se debe, espe-
cialmente a variaciones en la voz y en estilo causadas por ejemplo por diferentes estados
de nimo del hablante.
2.2 Extraccin automtica de variables fonticas.
Los gestos faciales tienen un claro significado emocional. Sin embargo, el uso de im-
genes estticas limita la capacidad de transmisin de emociones. Por contra, las aproxi-
maciones dinmicas han producido buenos resultados en la prctica.
Existen diferentes tipos de representacin de la cara, por ejemplo: imagen en color (2D),
imagen de rango (2.5D) y mallado tridimensional (3D). La gran mayora de los sistemas
de verificacin facial tanto a nivel comercial como de investigacin usan imgenes de
color o de intensidad. Estas imgenes son referenciadas como imgenes 2D o de textura,
en contraposicin a las representaciones faciales tridimensionales, a las que se denomi-
na modelos o imgenes 3D. Existen diferentes maneras de representar la informacin
tridimensional. Por un lado simplemente pueden representarse como una nube de puntos
en el espacio. Estos puntos pueden representarse tambin en forma de mallado, donde
cada punto es un vrtice y a su vez los vrtices estn unidos por artistas. El polgono o
geometra a utilizar para realizar esta unin es habitualmente un tringulo, ya que es la
manera ms simple de aproximar una nube de puntos a una superficie. Otra aproxima-
cin diferente muy utilizada son los mapas de profundidad o imgenes de rango. Son
imgenes en escala de grises donde el nivel de intensidad de cada pxel est relacionado
con la coordenada de profundidad z de un punto tridimensional. Como se trata de una
representacin bidimensional de informacin tridimensional se denomina a menudo
imagen 2.5D. Tambin es muy habitual disponer de informacin tridimensional regis-
trada con la imagen de textura. En la Figura 1 puede verse un ejemplo de estos diferen-
tes tipos de informacin facial tridimensional.
Figura 1. Diferentes modos de representacin de la informacin facial en 3D. De izquierda a derecha: ma-
llado, mapa de profundidad, mallado+textura.
Como ya se coment apartados anteriores, P. Ekman (1982) fue uno de los pioneros del
reconocimiento de emociones mediante el anlisis de expresiones faciales, encontrando
evidencias que soportan la universalidad de este tipo de expresiones, definiendo las seis
grandes emociones bsicas previamente definidas. Los sistemas de reconocimiento de
emociones pueden verse como complemento de los mtodos de reconocimiento de ca-
ras, ignorndose en este caso la personalidad de la persona y centrndose en la expre-
sin de su rostro. La mayor parte del anlisis de emociones basado en expresiones facia-
les se realiza a partir de imgenes estticas. Sin embargo, esto no suele ser suficiente. La
razn fundamental radica en la naturaleza dinmica de las emociones faciales, que pue-
den ser obtenidas a partir de una secuencia de imgenes. Los sistemas dinmicos han
producido resultados prometedores. Estos sistemas se dividen en tres clases fundamen-
tales: aproximaciones basadas en el flujo ptico, rastreo de caractersticas y aproxima-
ciones basadas en el alineamiento del modelo. La aproximacin basada en el flujo pti-
co usa campos de movimiento densos calculados en reas especficas de la cara tales
como la boca y los ojos. Intenta relacionar los vectores de movimiento con las emocio-
nes faciales usando plantillas de movimiento extradas sobre un conjunto de campos de
movimiento de entrenamiento (Tsapatsoulis, 1999; Otsuka, 1997). En la segunda
aproximacin la estimacin de la emocin se obtiene a partir de un conjunto pequeo de
caractersticas relevantes en la escena. El anlisis se realiza en dos etapas: en primer
lugar se procesa el frame del video para la deteccin de las caractersticas necesarias,
(los ojos, la nariz, la boca...), posteriormente se analiza el movimiento de dichos ele-
mentos (Lien et al, 1998; Kulas y Kanade, 1981). La tercera aproximacin alinea un
modelo 3-D de la cara para estimar tanto el movimiento del objeto como la orientacin
(ver Essa y Pentland 1993,1995 y Essa et al, 1995).
ENTRENAMIENTO VALIDACION
Modelo,
conocimiento/suposiciones Muestra de
a priori Validacion
Valores
Predichos
Redes Neuronales
Las Mquinas de Vectores Soporte (o SVM de Support Vector Machine) son proce-
dimientos de clasificacin y regresin basados en la teora estadstica del aprendizaje
(Vapnik, 1995). Podemos definir una SVM como una clase especfica de algoritmos
preparados para el entrenamiento eficaz de una mquina de aprendizaje lineal en un
espacio inducido por una funcin ncleo (o kernel), de acuerdo a unas reglas de genera-
lizacin empleando tcnicas de optimizacin (ver Moguerza y Muoz 2006 para una
revisin completa). Las dos ideas fundamentales para la construccin de un clasificador
SVM son la transformacin del espacio de entrada en un espacio de alta dimensin y la
localizacin en dicho espacio de un hiperplano separador ptimo. La transformacin
inicial se realiza mediante la eleccin de una funcin kernel adecuada. La ventaja de
trabajar en un espacio de alta dimensin radica en que las clases consideradas sern li-
nealmente separables con alta probabilidad, y por tanto, encontrar un hiperplano separa-
dor ptimo ser poco costoso desde el punto de vista computacional. Adems, dicho
hiperplano vendr determinado por unas pocas observaciones, denominadas, vectores
soporte por ser las nicas de las que depende la forma del hiperplano. Una de las princi-
pales dificultades en la aplicacin de este mtodo radica en la eleccin adecuada de la
funcin kernel. Es decir, construir la funcin de transformacin del espacio original a un
espacio de alta dimensin es un punto crucial para el buen funcionamiento del clasifica-
dor. La forma final de la regla de clasificacin para un clasificador binario (dos clases,
+1 y -1) queda como sigue:
f ( x ) = b + i K ( x , xi )
i
n. Es necesario llevar a cabo una generalizacin del clasificador binario al caso multi-
clase. Existen varios algoritmos para esta generalizacin. En primer lugar, el algoritmo
de uno frente a uno, donde se entrena un clasificador binario por cada par de emocio-
nes disponibles. Dispondremos por tanto de 2*n clasificadores, es decir, 2*n valores de
la regla de clasificacin para cada objeto. El algoritmo uno frente a todos supone en-
trenar tantos clasificadores binarios como nmero emociones estn disponibles. En este
caso disponemos n clasificadores, es decir, n valores de la regla de clasificacin para
cada objeto. En ambos casos para determinar la emocin que corresponde a cada objeto
se realiza una ponderacin sobre todas las reglas de clasificacin disponibles.
Las SVMs han demostrado ser un mtodo muy efectivo en la clasificacin de expresio-
nes faciales espontneas (Bartlett et al., 2001)). Srivastavaa et al. (2006) han empleado
con xito las SVMs con kernel polinomial para el reconocimiento de personas em-
pleando imgenes de rango de los rostros.
rboles de Decisin
El propsito de este nuevo mtodo de clasificacin es crear una estructura de rbol que
represente de forma eficiente las caractersticas ms relevantes de los objetos considera-
dos. El algoritmo de clasificacin se representa como un rbol, donde las ramas son las
condiciones establecidas sobre las caractersticas de los objetos y las hojas son las emo-
ciones consideradas. El proceso de clasificacin comienza en la raz y las ramificacio-
nes del rbol se deciden a partir de las caractersticas del objeto ms significativas. Da-
do un objeto, se desplaza a lo largo de las ramas del rbol hasta que finalmente se de-
termina como emocin detectada aquella que define la ltima hoja. Existen varios algo-
ritmos para construir un rbol de decisin (ID3, C4.5, CART, ID4,..., ver Breiman et al.
1984; Gatnar 1998 y Quinlan 1993). Sin embargo, la idea fundamental en todos ellos es
la misma: los ejemplos en cada rama han de ser homogneos, mientras que el tamao
del rbol ha de ser pequeo (es decir, la descripcin ha de ser lo ms simple posible). El
algoritmo general de rbol de clasificacin comienza considerando todas las posibles
divisiones del conjunto inicial en subconjuntos. Se estima la calidad de cada una de las
divisiones y se elige la mejor de todas ellas (la de menor entropa). El proceso se repite
para cada una de las particiones realizadas, hasta que la entropa en cada uno de las
hojas creadas es mejor que un valor predeterminado. Sun et al. (2004) han creado una
base de datos de expresiones faciales donde los rostros de los sujetos presentan emo-
ciones espontneas. Sobre esta base de datos han empleado con xito varios algoritmos
de clasificacin, entre ellos los rboles de decisin.
Redes Bayesianas
Las redes bayesianas son clasificadores empleados para representar distribuciones con-
juntas de modo que permitan calcular la probabilidad a posteriori de un conjunto de
clases (emociones) dado un conjunto de caractersticas observadas en los objetos, y as
clasificar los objetos en la clase ms probable. Una red bayesiana se compone de un
grafo dirigido en el cual cada nodo est asociado con una caracterstica y con una distri-
bucin de probabilidad condicional. El grafo representa la estructura y las distribuciones
de probabilidad los parmetros de la red. La idea general consiste en usar una estrategia
que pueda buscar de modo eficiente en el espacio de posibles estructuras y extraer aque-
lla que d mejores resultados de clasificacin. Sun et al. (2004) y Gu y Ju (2004) han
aplicado las redes bayesianas (entre otros clasificadores) para la deteccin automtica
de emociones.
El mtodo llamado Bagging (boostrap aggregating) fue propuesto por Leo Breiman
para clasificacin y rboles de regresin (Breiman, 1996). Supongamos que disponemos
de un modelo, ajustado a nuestra muestra de objetos, tal que obtenemos un clasificador
asociado a cada objeto. Repetimos la estimacin del clasificador, modificando en cada
caso la muestra de entrenamiento. Cada una de estas muestras recibe el nombre de
muestra boostrap. El mtodo Bagging consiste en obtener una media de las predicciones
sobre un conjunto de muestras boostrap. El Adaboost es el algoritmo de tipo boosting
ms popular (Freund y Schapire, 1997). El clasificador final se obtiene a partir de una
ponderacin de clasificadores dbiles, esto es, con poca capacidad de generalizacin.
Sebe et al. (2004) crearon una base de datos en la que las expresiones fciles correspon-
den a estados emocionales de los individuos y aplicaron algoritmos de tipo Boosting y
Bagging para el reconocimiento automtico de dichas emociones. En ocasiones este tipo
de tcnicas se emplean como paso previo a otros clasificadores. Por ejemplo, Bartlett et
al., (2003) usan, como paso previo al empleo de una SVM, Adaboost (un algoritmo de
tipo Boosting) para la extraccin de las caractersticas de mayor inters dadas las carac-
tersticas previamente detectadas.
Los modelos markovianos ocultos (HMM del ingls Hidden Markov Model) asumen
que el sistema estudiado sigue un proceso de Markov con parmetros desconocidos. La
tarea fundamental consiste en determinar los parmetros ocultos a partir de los parme-
tros observados. La diferencia fundamental respecto a un modelo de Markov habitual
consiste en que los estados no son directamente visibles para el observador, pero s lo
son las variables influenciadas por el estado. Cada estado tiene una distribucin de pro-
babilidad asociada sobre el conjunto de posibles valores de salida. La secuencia de valo-
res de salida generados a partir de un HMM nos dar cierta informacin sobre la se-
cuencia de estados. Los tres problemas fundamentales a resolver en el diseo de un mo-
delo HMM son: la evaluacin de la probabilidad (o verosimilitud) de una secuencia de
observaciones dado un modelo HMM especfico; la determinacin de la mejor secuen-
cia de estados del modelo; y el ajuste de los parmetros del modelo que mejor se ajusten
a los valores observados. DeSilva y Pei Chi (2000) describen el uso de estos modelos en
el reconocimiento automtico de emociones. El objetivo de su mtodo es clasificar las 6
emociones bsicas a partir de expresiones faciales (video) y emociones en el discurso
Mtodos no supervisados
medidas de inters sobre los individuos es una de las futuras tareas a considerar. En ge-
neral no se ha realizado un esfuerzo exhaustivo por determinar qu aspectos son in-
herentes a la representacin basada en imgenes y cuales lo son a la representacin ba-
sada en el discurso. Cules son los aspectos comunes a ambos modos de reflejar la
realidad del individuo y cules son los aspectos especficos? Como se ha mencionado
previamente, se han realizado algunas aproximaciones en la combinacin de expresio-
nes faciales y anlisis de voz para el reconocimiento de emociones. Sin embargo, las
emociones no slo se manifiestan en las expresiones del rostro y en el tono de la voz,
sino en otros aspectos tales como el movimiento de la cabeza, los brazos, las manos, en
los gestos del cuerpo, el movimiento de los ojos La tarea del reconocimiento autom-
tico de emociones debera de ser mejorada si tenemos en cuenta todos estos aspectos.
Ben-Yacoub et al. (1999) emplean la combinacin de clasificadores binarios consegui-
dos a partir de la informacin de la cara y la informacin del discurso. Conde (2006)
emplea representaciones de la cara en dos y tres dimensiones. En este trabajo se realiza
una fusin de los clasificadores obtenidos a partir de cada una de estas representaciones
individuales.
En esta seccin revisaremos parte del material disponible en el mbito del reconoci-
miento de emociones. A pesar de que existen numerosas bases de datos de emociones,
la mayora de ellas tienen serias limitaciones. En el mbito del discurso: la base de datos
Danish Emotional Speech Datasbase, consta de dos hombres y dos mujeres leyendo
textos en cinco estados emocionales diferentes: enfado, felicidad, tristeza, sorpresa y un
estado neutral (Engberg y Hansen, 2003). Otra base de datos disponible es la llamada
GRONINGEN, que incluye alrededor de 20 horas de material en Holands procedente
de 238 personas. En el campo del reconocimiento facial existen numerosas bases de
datos que muestran las caras de los individuos bajo diferentes condiciones de ilumina-
cin, escala, gestos, orientacin, etc, sin embargo, muy pocas bases de datos consideran
las emociones. Recientemente el grupo de investigacin FRAV (Facial Recognition
and Artificial Vision Group) de la Universidad Rey Juan Carlos, ha creado una base de
datos en 3D, la FRAV3D, destinada a reconocimiento facial. La FRAV3D es una base
de datos multimodal, ya que tiene informacin bidimensional o de textura, e informa-
cin tridimensional. Fue adquirida mediante un escner lser de Minolta [MIN], modelo
VIVID-700, con el software Polygon Editing Tool v 1.11 (PET). La informacin 3D es
proporcionada en dos formatos: un mallado triangular en formato VRML, y una imagen
de rango o mapa de profundidad. Las imgenes fueron adquiridas en condiciones con-
troladas, con dos iluminaciones diferentes: la iluminacin controlada y no controlada.
La iluminacin controlada consiste en dos focos halgenos de luz difusa, que mantienen
las condiciones de iluminacin invariables en el tiempo. La base de datos consta de
imgenes de 105 individuos (81 mujeres y 24 hombres), todos ellos de raza caucsica.
Se adquirieron 16 capturas por individuo, cada una de ellas proporcionando la corres-
pondiente informacin de textura y tridimensional: 4 capturas frontales, 8 giros con di-
ferentes ngulos y ejes de giro, 2 gestos y 2 capturas cambiando la iluminacin.
6.- CONCLUSIONES
7.- BIBLIOGRAFA
CAO, Y., FALOUTSOS, P., PIGHIN, F. (2003). Unsupervised Learning for Speech
CORNELIUS, R.R. (1996). The Science of Emotion Research and Tradition in the Psy-
chology of Emotion. Upper Saddle River, NJ: Prentice Hall.
COWIE, R. (2000). Describing the emotional states expressed in speech. ISCA Work-
shop on Speech and Emotion: A conceptual framework for research.
COWIE, R., DOUGLAS-COWIE, E., SAVVIDOU, S., MCMAHON, E., SAWEY, M.,
SCHRDER, M. (2000). FEELTRACE: an instrument for recording perceived emotion
in real time. ISCA Workshop on Speech and Emotion:A conceptual framework for re-
search.
CROWLEY, J., Y BERARD, F. (1997). Multi-modal tracking of faces for video com-
munications. Proc. IEEE CVPR, Puerto Rico, June 1997, pp. 640-645.
COLLOBERT, M., ET AL. (1996). Listen: A system for locating and tracking individ-
ual speakers. Proc. Int. Conf. on Automatic Face and Gesture Recognition, Vermont,
283-288.
DE SILVA, L.C. Y PEI CHI NG. (2000). Bimodal emotion recognition. Automatic
Face and Gesture Recognition, 2000. Proceedings. Fourth IEEE International Confer-
ence: 332 335.
EKMAN, P., FRIESEN, W. (1978). Facial Action Coding System: Investigators Guide.
Consulting Psychologists Press.
GRAF, H., COSATTO, E., GIBBON, D., KOCHEISEN, M., Y PETAJAN, E. (1996).
Multi-modal system for locating heads and faces. Proc. Int. Conf. on Automatic Face
and Gesture Recognition, Vermont, pp. 88-93.
GU, H., Y JI, Q. (2004). An automated face reader for fatigue detection. Automatic
Face and Gesture Recognition, 2004. Proceedings. Sixth IEEE International Confer-
ence: 111-116.
KITTLER, J., HATEF, M., DUIN, R.P.W. Y MATAS, J. (1998). On Combining Classi-
fiers. IEEE Transactions on Pattern Analysis and Machine Intelligence, 20(3): 226-239.
LIEN, J., KANADE, T., COHN, J. Y LI, C. (1998). Subtly different facial expression
recognition and emotion expression intensity estimation. Proc. IEEE CVPR, Santa Bar-
bara, CA, pp. 853-859.
LUCAS, B., Y KANADE, T.. (1981). An iterative image registration technique with an
application to stereo vision. Proc. 7th Intl. Joint Conf. on AI, 1981.
QUINLAN, J.R. (1993). C4.5 programs for machine learning. Morgan Kaufmann, San
Mateo.
SEBE, N. SUN, Y., BAKKER, E., LEW, M.S., COHEN, I., Y HUANG, T.S. (2004).
Towards Authentic Emotion Recognition. International Conference on Systems, Man,
and Cybernetics (IEEE SMC'04).
SRIVASTAVAA, A., LIUB, X., Y HESHERB, C. (2006). Face recognition using opti-
mal linear components of range images. Image and Vision Computing, 26:291-299.
SUN, Y., SEBE, N., LEW, M.S. Y GEVERS, T. (2004). Authentic Emotion Detection
in Real-time Video. International Workshop on Human Computer Interaction (HCI'04),
92-101.
YACOUB, S., SIMSKE, S., LIN, X., BURNS, J. (2003). Recognition of Emotions in
Interactive Voice Response Systems. HP Laboratories Palo Alto; HPL-2003-136.