TESIS Lozano Monasor

Detección facial de emociones
orientada a mejorar la
calidad de vida y cuidado de
personas mayores en
ambientes inteligentes
Elena Lozano Monasor
Directores: María Teresa López Bonal

Antonio Fernández Caballero
Departamento de Sistemas Informáticos

Universidad de Castilla-La Mancha
Doctorado en Tecnologías Informáticas Avanzadas
Escuela Superior de
Ingeniería Informática Octubre 2019
Agradecimientos
A mis directores María Teresa López Bonal y Antonio Fernández

Caballero, por su dedicación y paciencia y por las facilidades que me
han dado para usar parte de los trabajos del grupo de investigación
como puntos de partida y contenidos parciales de algunos de los
capítulos de esta tesis.
A mi familia por su apoyo constante, en especial a mi madre, por

ayudarme a probar la aplicación, y a mi hermano, por animarme cada
día a seguir adelante.
También a mis amigas por estar siempre ahí, y a todos mis

compañeros de trabajo con los que he coincidido en estos años, ya
sea en Albacete o en Madrid.
Muchas gracias a todos.

Resumen
Este documento corresponde a la memoria de tesis del Doctorado

de Tecnologías Avanzadas de la Universidad de Castilla–La Mancha
para la Escuela Superior de Ingeniería Informática de Albacete.
Actualmente nos encontramos en un periodo en el que el por-

centaje de población de la tercera edad está aumentado en los países
desarrollados, debido a la baja natalidad y al aumento de la esperanza
de vida. Cada vez hay más personas mayores que quieren vivir en
sus hogares, pero necesitan algún tipo de asistencia de la nadie puede
hacerse cargo. Por ello, en los últimos años ha surgido la asistencia de
la vida cotidiana mediante el entorno, que permite utilizar conceptos
de la Inteligencia Artificial y más concretamente de la Inteligencia
Ambiental, para ayudar a estas personas a alargar todo lo posible el
tiempo que permanecen en su hogar ayudándoles en sus tareas diarias.
En este contexto surge la idea principal de este trabajo: proponer

una arquitectura que haga uso de los conceptos de Inteligencia Am-
biental orientada a detectar las emociones de una persona mayor y
actuar si la emoción detectada es negativa, con el fin de que el usuario
se mantenga en un estado de ánimo agradable en su hogar. Para ello,
se ha realizado una revisión del estado del arte actual en cuanto a
la Inteligencia Ambiental y sus aplicaciones en campos como salud,
transportes y ocio, y nos hemos centrado especialmente en los usos
que tiene actualmente en la asistencia a la vida diaria de las personas
mayores.
La arquitectura propuesta se compondrá de diferentes módulos:

“Detección de Emoción”, “Regulación de Emoción” y “Control de
Respuesta Emocional”. El módulo de “Detección de Emoción” fun-
VI
ciona con los datos obtenidos del paciente, mientras que “Regulación
de Emoción” ofrecerá diferentes piezas de música y configuraciones
de luz/color. El módulo de “Control de Respuesta Emocional” fun-
ciona como bucle de control para confirmar el efecto de la regulación
emocional sobre la emoción detectada.
El apartado de “Regulación de Emoción” obtendrá del usuario

datos fisiológicos, información sobre si su comportamiento es activo
y su expresión facial para la detección de emociones. En este trabajo
nos centraremos en el sistema encargado de detectar la emoción a
partir de la expresión facial del sujeto, para lo cual se desarrollará una
aplicación que, mediante visión artificial, sea capaz de distinguir la
emoción del usuario a partir de su expresión facial. Se ha realizado
un estudio del estado del arte sobre la detección de emociones utili-
zando visión artificial, los principales modelos para la extracción de
características de las expresiones faciales y las bases de datos más
importantes, que más adelante utilizaremos. Tras este análisis se ha
optado por distinguir entre las llamadas emociones básicas (Alegría,
Tristeza, Enfado, Miedo, Asco y Sorpresa) y un estado Neutral. Se
utilizará un modelo ASM para la extracción de características, las
bases de datos CK+, MMI y JAFFE para el entrenamiento del sistema.
Para la clasificación se utilizarán máquinas de vectores de soporte de
tipo ν-SVM, por ser el método más recomendado para trabajar con
varias clases.
Habiendo decidido cómo será el sistema de detección de emocio-

nes definiremos la estructura y las herramientas utilizadas para imple-
mentarlo. Para la visión artificial utilizaremos la librería OpenCV y
para la extracción de características ASMLibrary. La clasificación de
emociones se realizará mediante la librería LibSVM. La aplicación
final nos permitirá detectar emociones de imágenes estáticas, vídeos
y webcam.
Se han realizado pruebas al sistema para valorar la precisión de

diferentes tipos de clasificadores y utilizar el que mejor resultados
ofrezca. Para estas pruebas se han utilizado tanto para imágenes
estáticas como secuencias de vídeo procedentes de las bases de datos
mencionadas anteriormente que no hayan sido empleadas para el
VII
entrenamiento. También se han realizado pruebas con la webcam para

las que se han utilizado personas mayores. Una vez seleccionado el
tipo de clasificador que se va a utilizar, se ha realizado un modelo
adicional utilizando a un único usuario para el entrenamiento para
comprobar si se consiguen mejores resultados para ese usuario que
con el modelo que ha sido entrenado con las bases de datos.
Por todo lo anterior, y para concluir este resumen, en este docu-

mento se encontrará información relacionada con estudios previos y
aplicaciones orientadas a la asistencia de personas mayores mediante
el entorno y a la detección de emociones, una propuesta de arquitectu-
ra para la detección y regulación de emociones de una persona mayor
viviendo en su hogar, las herramientas utilizadas durante el desarrollo
de la aplicación de detección facial de emociones y cómo se ha rea-
lizado su implementación desde la idea inicial hasta las pruebas de
precisión realizadas al sistema.
Índice general
Índice de figuras XV
Índice de tablas XIX
I Introducción y estado de la cuestión 1
1. Introducción 3
1.1. Motivación . . . . . . . . . . . . . . . . . . . . . . 3
1.2. Objetivos . . . . . . . . . . . . . . . . . . . . . . . 5
1.3. Estructura de la memoria . . . . . . . . . . . . . . . 6
2. Calidad de vida y cuidado del anciano 9
2.1. Inteligencia Ambiental (AmI) . . . . . . . . . . . . . 10
2.1.1. AmI en el hogar . . . . . . . . . . . . . . . 12
2.1.2. AmI en la educación . . . . . . . . . . . . . 14
2.1.3. AmI en los transportes . . . . . . . . . . . . 15
2.1.4. AmI en el entretenimiento . . . . . . . . . . 17
2.1.5. AmI en la atención sanitaria . . . . . . . . . 18

X Índice general
2.2. Ambient Assisted Living (AAL) . . . . . . . . . . . 21
2.3. Detección y regulación de emociones . . . . . . . . 31
2.4. Conclusiones . . . . . . . . . . . . . . . . . . . . . 36
3. Detección facial de emociones 39
3.1. Percepción de emociones . . . . . . . . . . . . . . . 39
3.2. Clasificación de las emociones . . . . . . . . . . . . 40
3.2.1. Conjunto discreto de categorías . . . . . . . 40
3.2.2. Descripción por dimensiones . . . . . . . . . 41
3.2.3. Teoría de la valoración . . . . . . . . . . . . 42
3.2.4. Modelo circunflejo de Russell . . . . . . . . 43
3.3. Análisis de expresiones faciales . . . . . . . . . . . 44
3.4. Bases de datos . . . . . . . . . . . . . . . . . . . . . 49
3.5. Estudios previos . . . . . . . . . . . . . . . . . . . . 56
3.5.1. Entrenamiento del modelo . . . . . . . . . . 57
3.5.2. Tratamiento de imágenes de entrada . . . . . 58
3.5.3. Sistemas multitarea o en cascada . . . . . . . 59
3.5.4. Agregación de frames . . . . . . . . . . . . 60
3.5.5. Medición de la intensidad de la expresión . . 61
3.5.6. Seguimiento de los puntos faciales . . . . . . 62
3.5.7. Oclusiones y posición no frontal . . . . . . . 62
3.5.8. Detección en imágenes 3D . . . . . . . . . . 63
3.5.9. Detección audiovisual de emociones . . . . . 64

Índice general XI
3.5.10. Sistemas de detección de estrés . . . . . . . 64
3.6. Aplicaciones existentes . . . . . . . . . . . . . . . . 66
3.6.1. eMotion . . . . . . . . . . . . . . . . . . . . 66
3.6.2. Bismart Face and Emotion Recognition . . . 67
3.6.3. FaceSense . . . . . . . . . . . . . . . . . . . 69
3.6.4. FaceReader . . . . . . . . . . . . . . . . . . 70
3.7. Conclusiones . . . . . . . . . . . . . . . . . . . . . 71
II Metodología y Desarrollo 75
4. Arquitectura de Inteligencia Ambiental para la detección

y regulación de emociones 77
4.1. Descripción general . . . . . . . . . . . . . . . . . . 78
4.1.1. Niveles de la arquitectura . . . . . . . . . . . 79
4.1.2. Diseño de la arquitectura . . . . . . . . . . . 83
4.2. Detección de emociones . . . . . . . . . . . . . . . 85
4.2.1. Detección Facial de Emociones . . . . . . . 88
4.2.2. Detección de Comportamiento . . . . . . . . 89
4.2.3. Detección de Valencia/Excitación . . . . . . 91
4.2.4. Detección del estado emocional . . . . . . . 92
4.3. Regulación de emociones . . . . . . . . . . . . . . . 96
4.3.1. Regulación emocional a través de la música . 97
4.3.2. Regulación emocional a través el color . . . 102

XII Índice general
4.4. Control de respuesta emocional . . . . . . . . . . . . 103
4.4.1. Toma de decisión . . . . . . . . . . . . . . . 104
4.4.2. Fisión multimodal . . . . . . . . . . . . . . 106
4.5. Conclusiones . . . . . . . . . . . . . . . . . . . . . 109
5. Detección facial de emociones en ambientes inteligentes 111
5.1. Descripción general del proceso . . . . . . . . . . . 111
5.2. Detección facial . . . . . . . . . . . . . . . . . . . . 113
5.3. Normalización facial . . . . . . . . . . . . . . . . . 115
5.4. Detección de puntos faciales . . . . . . . . . . . . . 119
5.4.1. ASMLibrary . . . . . . . . . . . . . . . . . 120
5.4.2. Elección del modelo ASM . . . . . . . . . . 125
5.4.3. El modelo de la base de datos IMM . . . . . 126
5.4.4. El modelo de la base de datos BioID . . . . . 128
5.4.5. El modelo de la base de datos XM2VTS . . . 130
5.5. Extracción de características . . . . . . . . . . . . . 132
5.5.1. Implementación de la extracción de caracte-

rísticas . . . . . . . . . . . . . . . . . . . . 132
5.6. Clasificación de emoción . . . . . . . . . . . . . . . 139
5.6.1. Entrenamiento y clasificación con LibSVM . 141
5.6.2. Bases de datos para el entrenamiento . . . . 144
5.6.3. La función kernel . . . . . . . . . . . . . . . 146
5.6.4. Generación del modelo SVM . . . . . . . . . 149

Índice general XIII
5.7. Detección de emociones . . . . . . . . . . . . . . . 152
5.8. Conclusiones . . . . . . . . . . . . . . . . . . . . . 155
III Experimentos y resultados 157
6. Experimentos 159
6.1. Generación de modelo SVM con bases de datos . . . 159
6.1.1. Reconocimiento de expresiones faciales con

imágenes de laboratorio . . . . . . . . . . . 160
6.1.2. Reconocimiento de expresiones faciales en

entorno doméstico . . . . . . . . . . . . . . 162
6.2. Modelo personalizado . . . . . . . . . . . . . . . . . 163
6.3. Agrupación de emociones . . . . . . . . . . . . . . . 163
7. Datos y resultados 167
7.1. Modelo SVM generado con imágenes de laboratorio 167
7.1.1. Modelo sin probabilidades . . . . . . . . . . 168
7.1.2. Modelo con probabilidades . . . . . . . . . . 169
7.2. Pruebas con imágenes de laboratorio . . . . . . . . . 170
7.3. Pruebas con vídeos de laboratorio . . . . . . . . . . 175
7.3.1. Pruebas en entorno doméstico . . . . . . . . 182
7.4. Entrenamiento con una persona . . . . . . . . . . . . 187
7.5. Agrupación de emociones . . . . . . . . . . . . . . . 190
7.6. Conclusiones . . . . . . . . . . . . . . . . . . . . . 192

XIV Índice general
IV Conclusiones 195
8. Conclusiones, trabajo futuro y aportaciones 197
8.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . 197
8.2. Trabajo futuro . . . . . . . . . . . . . . . . . . . . . 202
8.3. Principales aportaciones . . . . . . . . . . . . . . . 205
Bibliografía 207
Apéndice A. Sistema de Codificación de Acciones Faciales

(FACS) 225
Índice de figuras
3.1. Representación gráfica de las 6 emociones básicas . . 41
3.2. Modelo circunflejo de Russell . . . . . . . . . . . . 44
3.3. Puntos faciales y características . . . . . . . . . . . . 49
3.4. Imagen RGB (izquierda) y codificada mediante LBP

(derecha) . . . . . . . . . . . . . . . . . . . . . . . 58
3.5. Diferencias entre los patrones termales según el tipo

de estrés . . . . . . . . . . . . . . . . . . . . . . . . 65
3.6. Software eMotion . . . . . . . . . . . . . . . . . . . 67
3.7. Software bismart . . . . . . . . . . . . . . . . . . . 68
3.8. Software FaceSense . . . . . . . . . . . . . . . . . . 69
3.9. Software FaceReader, extraído de la página de Noldus 71
4.1. Representación esquemática de la arquitectura distri-

buida para la regulación de emociones en entornos
inteligentes . . . . . . . . . . . . . . . . . . . . . . 79
4.2. Representación de los niveles en los que se divide la

arquitectura . . . . . . . . . . . . . . . . . . . . . . 80
4.3. Diseño general de la arquitectura distribuida para

detección y regulación de emociones en ambientes
inteligentes . . . . . . . . . . . . . . . . . . . . . . 84
XVI Índice de figuras
4.4. Modelo circunflejo para la detección de emociones

en ambientes inteligentes . . . . . . . . . . . . . . . 87
4.5. Detección de paciente en los instantes de tiempo t1

(a) y t2 (b) . . . . . . . . . . . . . . . . . . . . . . . 90
4.6. Red Neuronal Artificial dedicada a la fusión multimodal 95
4.7. Modelo circunflejo incluyendo las sensaciones positi-

vas y negativas . . . . . . . . . . . . . . . . . . . . 96
4.8. Modelo circunflejo para la regulación de emociones

en ambientes inteligentes . . . . . . . . . . . . . . . 100
4.9. Estimación de la valencia y la excitación a través de

computación de vectores como entrada al control difuso105
4.10. Trayectorias propuestas por los expertos para alcanzar

estados emocionales agradables . . . . . . . . . . . 106
4.11. Funciones de pertenencia de las entradas al control

difuso . . . . . . . . . . . . . . . . . . . . . . . . . 107
4.12. Matriz de asociación difusa para definir las reglas de

control . . . . . . . . . . . . . . . . . . . . . . . . . 107
5.1. Diagrama de pasos que componen el proceso de de-

tección facial de emociones . . . . . . . . . . . . . . 112
5.2. Ejemplo de detección facial y ocular utilizando cas-

cadas Haar en OpenCV . . . . . . . . . . . . . . . . 114
5.3. Tiempo de predicción para diferentes tamaños faciales 117
5.4. Ejemplo de distribución de puntos en un ASM . . . . 123
5.5. Ejemplo de un ajuste facial con ASM . . . . . . . . 124
5.6. Puntos faciales en la base de datos IMM (izquierda)

y malla triangular generada (derecha) . . . . . . . . 125
Índice de figuras XVII
5.7. Puntos faciales en la base de datos BioID . . . . . . 126
5.8. Puntos faciales en la base de datos XM2VTS . . . . 127
5.9. Ajuste de puntos faciales con el modelo generado a

partir de IMM . . . . . . . . . . . . . . . . . . . . . 128
5.10. Ajuste de puntos faciales con el modelo generado a

partir de BioID . . . . . . . . . . . . . . . . . . . . 130
5.11. Ajustes de puntos faciales con el modelo generado a

partir de XM2VTS . . . . . . . . . . . . . . . . . . 132
5.12. Características geométricas extraídas con la máscara

ASM . . . . . . . . . . . . . . . . . . . . . . . . . . 133
5.13. Detección de puntos faciales y datos geométricos

resultantes . . . . . . . . . . . . . . . . . . . . . . . 133
5.14. Hiperplano lineal que separa dos clases en SVM . . . 140
5.15. Diagrama del proceso de entrenamiento del clasificador142
5.16. Capturas de la base de datos JAFFE . . . . . . . . . 145
5.17. Capturas de la base de datos MMI . . . . . . . . . . 145
5.18. Capturas de las bases de datos Cohn-Kanade (arriba)

y Cohn-Kanade extendida (abajo) . . . . . . . . . . 146
5.19. Comparativa del efecto del parámetro C sobre un

hiperplano . . . . . . . . . . . . . . . . . . . . . . . 148
5.20. Ejemplo de función RBF con distinta γ . . . . . . . . 149
5.21. Diagrama de predicción de emoción . . . . . . . . . 153
5.22. Captura del programa analizando una imagen . . . . 153
5.23. Captura del programa analizando un vídeo . . . . . . 154
6.1. Modelo circunflejo con las 7 clases del modelo SVM 164
XVIII Índice de figuras
7.1. Ejemplos de imágenes de la base de datos JAFFE

correctamente predichas con los dos modelos . . . . 173
7.2. Ejemplos de imágenes predichas incorrectamente por

los dos modelos . . . . . . . . . . . . . . . . . . . . 174
7.3. Ejemplo de fotograma donde se predice Enfado de

forma errónea . . . . . . . . . . . . . . . . . . . . . 177
7.4. Ejemplo de frame de transición entre Neutral y Ale-

gría donde se predice Asco . . . . . . . . . . . . . . 178
7.5. Ejemplo de fotograma representativo de Tristeza don-

de se predice Miedo . . . . . . . . . . . . . . . . . . 179
7.6. Ejemplo de fotograma de transición entre Neutral y

Enfado donde se predice Asco . . . . . . . . . . . . 179
7.7. Ejemplo de fotograma representativo de Miedo donde

se predice Tristeza . . . . . . . . . . . . . . . . . . . 180
7.8. Ejemplo de fotograma representativo de Asco donde

se predice Enfado . . . . . . . . . . . . . . . . . . . 181
7.9. Ejemplo de fotograma representativo de Sorpresa

donde se predice Miedo . . . . . . . . . . . . . . . . 181
7.10. Ejemplo de capturas de webcam donde las emociones

detectadas son (a) Alegría, (b) Tristeza, (c) Enfado,
(d) Miedo, (e) Asco, (f) Sorpresa, (g) Neutral . . . . 184
7.11. Comparativa de tiempos de análisis para 20 frames

para los dos modelos SVM . . . . . . . . . . . . . . 186
8.1. Distribución conceptual de sensores en un hogar . . . 198

Índice de tablas
3.1. Emociones y gestos faciales asociados a ellas . . . . 46
3.2. Bases de datos sobre el comportamiento afectivo hu-

mano . . . . . . . . . . . . . . . . . . . . . . . . . 51
5.1. Porcentaje de aciertos por emoción y por base de

datos sin normalizado de caras . . . . . . . . . . . . 115
5.2. Número de imágenes para entrenamiento . . . . . . . 116
5.3. Lista de características geométricas . . . . . . . . . . 134
6.1. Distribución de imágenes para entrenamiento por ba-

se de datos . . . . . . . . . . . . . . . . . . . . . . . 160
6.2. Detalle de los vídeos que se van a utilizar para los

experimentos . . . . . . . . . . . . . . . . . . . . . 161
7.1. Validación cruzada para modelo SVM sin probabili-

dades . . . . . . . . . . . . . . . . . . . . . . . . . 168
7.2. Validación cruzada para aproximación al segundo

decimal para modelo SVM sin probabilidades . . . . 168
7.3. Características del modelo SVM sin probabilidades . 169
7.4. Validación cruzada para modelo SVM con probabili-

dades . . . . . . . . . . . . . . . . . . . . . . . . . 169
XX Índice de tablas
7.5. Validación para aproximación al segundo decimal

para modelo SVM con probabilidades . . . . . . . . 170
7.6. Características del modelo SVM con probabilidades . 170
7.7. Distribución de predicciones para cada emoción sin

probabilidades . . . . . . . . . . . . . . . . . . . . . 171
7.8. Distribución de predicciones para cada emoción con

probabilidades . . . . . . . . . . . . . . . . . . . . . 171
7.9. Comparación de probabilidades en dos predicciones . 172
7.10. Resultados para las pruebas de vídeo usando el mo-

delo SVM sin probabilidades . . . . . . . . . . . . . 175
7.11. Resultados para las pruebas de vídeo usando el mo-

delo SVM con probabilidades . . . . . . . . . . . . 176
7.12. Resultados para las pruebas de webcam con SVM sin

probabilidades . . . . . . . . . . . . . . . . . . . . . 182
7.13. Resultados para las pruebas de webcam con SVM

con probabilidades . . . . . . . . . . . . . . . . . . 182
7.14. Validación cruzada para entrenamiento SVM con un

único sujeto . . . . . . . . . . . . . . . . . . . . . . 187
7.15. Validación para aproximación al segundo decimal

para modelo SVM con un único sujeto . . . . . . . . 188
7.16. Características del modelo SVM con un único sujeto 188
7.17. Resultados para las pruebas con el SVM de un único

sujeto utilizando imágenes de ese sujeto . . . . . . . 189
7.18. Resultados para las pruebas con el SVM de laborato-

rio utilizando imágenes de ese sujeto . . . . . . . . . 189
7.19. Resultados para las pruebas con el SVM de un único

sujeto utilizando imágenes de bases de datos . . . . . 190
Índice de tablas XXI
7.20. Resultados para las pruebas de imágenes de bases de

datos agrupando las emociones negativas . . . . . . . 191
7.21. Resultados para las pruebas de webcam agrupando

las emociones negativas . . . . . . . . . . . . . . . . 191
7.22. Resultados para el modelo de un único sujeto agru-

pando las emociones negativas . . . . . . . . . . . . 192
A.1. Acciones unitarias de FACS . . . . . . . . . . . . . 226
A.2. Acciones misceláneas de FACS . . . . . . . . . . . . 227

Parte I
Introducción y estado de la
cuestión
Capítulo 1
Introducción
En este primer capítulo se abordarán las características principa-

les del trabajo desarrollado durante esta tesis doctoral. Describiremos,
por tanto, las motivaciones que han llevado a su desarrollo, los objeti-
vos que se han definido para su realización y, para finalizar, se verá la
estructura en los que se ha dividido este documento. De esta manera
tendremos una visión global para una mejor comprensión del trabajo
realizado.
1.1. Motivación
El objetivo de las tecnologías asistivas es extender el tiempo

durante el cual las personas mayores pueden vivir en su casa aumen-
tando su autonomía y ayudándoles a realizar sus tareas cotidianas.
Este objetivo puede conseguirse mediante la utilización de productos
inteligentes y el suministro de servicios remotos. El objetivo gene-
ral del programa de Ambient Assisted Living (AAL) es mejorar la
calidad de vida de las personas mayores. En el contexto actual de
aumento de población de la tercera edad, es un reto conseguir nuevas
tecnologías capaces de reconocer emociones o estados de ánimo con
el fin de mejorar la calidad de vida del anciano [Fernández-Caballero
et al., 2014].
4 Introducción
De hecho, en los últimos años ha habido un creciente interés en

mejorar todos los aspectos de interacción entre humanos (incluidos
ancianos) y ordenadores [Gascueña et al., 2014]. El campo emergen-
te de la interacción persona-ordenador está siendo desarrollado por
numerosos investigadores de diferentes disciplinas, como Informá-
tica, Psicología o Neurociencia. Hoy en día, las personas estamos
constantemente interactuando con dispositivos tecnológicos, tanto en
la actividad profesional como en el tiempo de ocio. La calidad de
esta interacción tiene especial relevancia, ya que está directamente
relacionada con el estado emocional del usuario. En este sentido, la
ayuda emocional y la detección y reconocimiento de emociones se
ha convertido en una parte esencial en las aplicaciones tecnológicas
[Castillo et al., 2014]. La detección de emociones se puede realizar
mediante la captura y análisis de información implícita del usuario,
como la voz, los cambios en la expresión facial o alteraciones en los
movimientos y gestos corporales [Karg et al., 2013].
Conseguir comprender el estado anímico de un usuario a través

del análisis de su expresión facial puede proporcionar información
muy valiosa para los sistemas de percepción afectiva. La expresión
facial refleja no solo emociones, también sirve para enviar señales
fisiológicas, de interacción social y de actividades mentales. Para
establecer una interacción emocional entre personas y ordenadores es
necesario un sistema de reconocimiento de emociones humanas. Un
sistema automático que pueda determinar las emociones de una per-
sona a través de su expresión permite al sistema adaptar su respuesta
[Alugupally et al., 2011].
En los últimos años han aparecido numerosos estudios sobre la

detección de emociones utilizando la visión por ordenador ([Soley-
mani et al., 2012], [Zeng et al., 2009], [Tsiamyrtzis et al., 2007]). La
mayor parte de los estudios existentes reconocen las seis emociones
básicas (Alegría, Tristeza, Enfado, Miedo, Asco y Sorpresa) debido a
su independencia cultural, de edad o de otros factores de identidad.
Esta rama de la informática, encargada de dotar a las máquinas de
una inteligencia emocional, es relativamente nueva y las posibilidades
que ofrece son muy amplias.
1.2 Objetivos 5
La motivación principal de este trabajo es proponer una arqui-

tectura genérica que consiga detectar emociones y regularlas a través
de diferentes sensores y actuadores. El objetivo final de este sistema
es conseguir que la persona que se está monitorizando mantenga un
estado emocional sano. Este sujeto sería una persona mayor vivien-
do en su hogar, a la que el sistema asistiría para poder regular sus
emociones cuando éstas resulten perjudiciales para el usuario.
Uno de los detectores que compondrán este sistema será un

módulo de reconocimiento de emociones a través de la expresión
facial del sujeto. Otra de las motivaciones principales de esta tesis
doctoral es la implementación de esta aplicación, que nos permita
reconocer la emoción de un usuario a partir de su expresión facial,
distinguiendo entre un determinado conjunto de emociones, para lo
cual será necesario profundizar en los estudios realizados en esta rama
y conocer las aplicaciones actuales que hacen uso de estas técnicas.
1.2. Objetivos
Una vez planteadas las motivaciones principales de la tesis rea-

lizada, pasamos a indicar los objetivos específicos que se pretenden
conseguir:
Estudiar los diferentes enfoques que se realizan para aplicar la

inteligencia artificial a mejorar la vida de las personas, en con-
creto los sistemas de inteligencia ambiental, es decir, entornos
con sensores que son capaces de detectar las necesidades de un
usuario que habita dentro de él y reaccionar ante ellas.
Estudiar las distintas teorías emocionales, así como las técnicas

de detección y extracción de características faciales orientadas
a detectar emociones de manera no intrusiva.
Proponer una arquitectura gerontecnológica que sea capaz de

detectar y regular las emociones de un usuario a través de un
ambiente inteligente.
6 Introducción
Desarrollar un detector de emociones implementando las técni-

cas que se consideren más adecuadas. El objetivo final de este
sistema es poder monitorizar a una persona en su hogar, por lo
que será necesario que el programa cuente con una entrada de
vídeo, para lo que utilizaremos una webcam.
Evaluar el sistema de detección de emociones implementado

utilizando imágenes estáticas, secuencias de vídeo y entrada
por webcam. De esta manera se podrán comprobar los aciertos
del sistema.
1.3. Estructura de la memoria
A continuación, y con el fin de facilitar la lectura de esta tesis

doctoral, vamos a describir de forma sencilla cada uno de los capítulos
que la componen:
Capítulo 1. Introducción.
En este primer capítulo, en el cual nos encontramos, se des-
criben los motivos que han impulsado a la realización de este
trabajo y los objetivos que se persiguen.
Capítulo 2. Calidad de vida y cuidado del anciano.

En el segundo capítulo se muestran diferentes aplicaciones de
la Inteligencia Ambiental, en concreto todos aquellos enfoques
que tienen como objetivo mejorar la calidad de vida de las per-
sonas. Nos centraremos en la Inteligencia Ambiental orientada
a asistir a personas mayores en sus hogares, conocida como
Ambient Assisted Living (AAL), y en cómo ha ido evolucio-
nando gracias a los avances tecnológicos. También revisaremos
algunos estudios de Inteligencia Ambiental cuyo objetivo es la
detección y regulación de emociones.
Capítulo 3. Detección facial de emociones.

En este capítulo veremos una breve introducción a la percep-
ción de emociones desde un punto de vista psicológico y los
1.3 Estructura de la memoria 7
principales métodos para detección de expresiones faciales. Co-

noceremos también las principales bases de datos de emociones
existentes y sus características. También revisaremos diferentes
estudios previos y sus motivaciones, y analizaremos algunas
aplicaciones existentes. Esta información nos servirá como pun-
to de partida para poder realizar el módulo de detección facial
de emociones que queremos desarrollar, ya que nos permitirá
saber de qué herramientas disponemos y cuáles son las más
adecuadas para alcanzar nuestros objetivos.
Capítulo 4. Arquitectura de Inteligencia Ambiental para la

detección y regulación de emociones.
En este capítulo se propone una arquitectura para un ambiente
inteligente capaz de reconocer emociones. El objetivo de esta
propuesta es mejorar la calidad de vida y la atención a una
persona mayor que quiere seguir viviendo en su casa utilizando
técnicas de regulación de emociones. Para la detección de emo-
ciones se utilizan diferentes sensores que permiten monitorizar
la expresión facial, el comportamiento y determinados datos
fisiológicos. Para regular las emociones del usuario hacia un
estado emocional más agradable y positivo se utiliza música
y luces de diferentes colores. De esta manera, la arquitectura
permite una monitorización continua y reacciones ambientales
para poder regular las emociones del anciano.
Capítulo 5. Detección facial de emociones en ambientes in-

teligentes.
En el quinto capítulo describiremos cómo se han enfocado cada
uno de los distintos pasos que componen el funcionamiento del
sistema. Conoceremos, por tanto, como se van a implementar la
detección facial, la normalización de la imagen, la detección de
puntos faciales, la extracción de características y la clasificación
mediante SVM. Aunque las pruebas sobre el sistema se realizan
en el capítulo 7, en este capítulo podemos ver algunos ejemplos
de ejecución de la aplicación al describirse todas las posibles
entradas que tiene el programa de detección de emociones:
imágenes estáticas, secuencias de vídeo, webcam y carpetas de
imágenes.
8 Introducción
Capítulo 6. Experimentos.
En este capítulo veremos los experimentos que se van a realizar
sobre la aplicación. En primer lugar se generan dos modali-
dades de detección SVM diferentes, una sin probabilidades y
otra con probabilidades, con el fin de comprobar cuál ofrece
mejores resultados. Se propone también realizar un modelo
SVM utilizando a un único usuario, para comprobar si mejora
los resultados de predicción de emociones, y una agrupación
de emociones, de manera que todas las emociones negativas se
consideren como un único grupo a la hora de hacer la clasifica-
ción.
Capítulo 7. Datos y resultados.

En el séptimo capítulo encontramos las pruebas que se han
realizado para comprobar la tasa de aciertos del sistema. Dichas
pruebas se realizan para los dos tipos de clasificadores SVM y
para las tres posibles entradas del programa: imágenes estáticas,
vídeo y webcam. También se realiza un entrenamiento y prue-
bas utilizando a un único usuario y se comparan los resultados
con el modelo obtenido a partir de imágenes de laboratorio. Por
último, se realiza una agrupación de las emociones negativas
con el fin de mejorar los resultados obtenidos.
Capítulo 8. Conclusiones, trabajo futuro y aportaciones.

El octavo capítulo está orientado a valorar de forma global
el trabajo realizado durante y a comprobar si los objetivos
marcados se han cumplido. Se expondrán, además, futuras
líneas de trabajo que podrían mejorar el sistema desarrollado y
las principales aportaciones del trabajo realizado.
Capítulo 2
Calidad de vida y cuidado del

anciano
En los últimos años estamos asistiendo a un progresivo enve-

jecimiento de la población, propiciado por el descenso en el índice
de natalidad y por el aumento en la esperanza media de vida [Casti-
llo et al., 2016]. Es por este motivo que el porcentaje de población
perteneciente a la tercera edad es cada vez mayor.
Al envejecer, las personas van perdiendo facultades mentales

y físicas, por lo que con el paso de los años van teniendo mayores
dificultades y limitaciones para desenvolverse. A raíz del aumento de
población de la tercera edad, numerosas investigaciones actualmente
se orientan a cómo hacer que las personas mayores puedan tener una
buena calidad de vida [Campos et al., 2016].
En este sentido, la tecnología puede ayudar a que las personas

mayores puedan permanecer en sus casas a pesar de las limitaciones
físicas o mentales que puedan sufrir, siendo posible que se valgan por
sí mismas el mayor tiempo posible, lo que les aporta un mayor bien-
estar. Una de las tecnologías que más puede ayudar a este cometido
es la Inteligencia Ambiental.
10 Calidad de vida y cuidado del anciano
2.1. Inteligencia Ambiental (AmI)
La Inteligencia ambiental se define como la interacción del ser

humano con un entorno electrónico que es capaz de detectar sus
necesidades y de responder a ellas [Aarts & Roovers, 2003].
El objetivo de la Inteligencia Ambiental es conseguir el mayor

bienestar posible para sus usuarios, poniendo énfasis en la interac-
ción de la persona con el entorno que le rodea y que éste responda
adecuadamente.
Para el desarrollo de nuevas tecnologías debe considerarse el

acceso universal a la Inteligencia Ambiental, es decir, conseguir crear
entornos inteligentes que mejoren la calidad de vida de los usuarios,
pero también conseguir que estas tecnologías se puedan desarrollar
de manera que puedan estar al alcance de todos. En este sentido
podríamos tener en cuenta los siguientes puntos:
Obtención de los datos a partir de dispositivos que no sean

intrusivos para el usuario. De esta manera se consigue que su
utilización sea más cómoda.
Conseguir sistemas robustos, que puedan controlar posibles

errores y recuperarse lo antes posible de ellos.
Funcionamiento transparente para el usuario. Es importante

que la interfaz de interacción con el usuario sea lo más sencilla
posible para el usuario, ya que es muy probable que éste no
esté habituado a utilizar tecnología.
Consciencia del contexto, de manera que pueda explotarse toda

la información situacional que rodea al usuario.
Personalización a las necesidades de los usuarios, de manera

que el sistema pueda responder de la forma más adecuada.
Anticipación a las necesidades del individuo sin que éste sea

consciente.
2.1 Inteligencia Ambiental (AmI) 11
Ubicuidad de los sistemas, es decir, que estén integrados en el

entorno diario.
Inclusión de Inteligencia Artificial, de manera que los sistemas

sean sensibles al entorno que les rodea y puedan responder y
adaptarse de una forma más óptima.
Utilización de redes sensoriales para la recopilación de datos

e interacción persona-ordenador para construir interfaces que
resulten naturales para los usuarios.
Según el concepto de Inteligencia Ambiental, el objetivo es que

las personas vivan en un entorno de interfaces inteligentes velando
por su bienestar y seguridad. Estas interfaces estarán controladas por
ordenadores y redes, y se ubicarán en objetos cotidianos que se en-
contrarán en todas partes, como pueden ser ropa, muebles o vehículos.
La Inteligencia Ambiental busca detectar la presencia humana, poder
detectar patrones de comportamiento, preferencias y necesidades para
dar una respuesta adecuada a los datos que se reciben del usuario, que
pueden llegar de muy diversas maneras: gestos, expresiones faciales,
voz, movimiento, etc.
Para el reconocimiento de patrones de comportamiento se utiliza

generalmente aprendizaje supervisado [Amiribesheli et al., 2015],
pero en el caso de la Inteligencia Ambiental resulta mucho más útil
el aprendizaje no supervisado, ya que permite reconocer patrones
de comportamiento que inicialmente no estaban contemplados y que
podrían constituir actividades habituales del usuario. Los métodos
de detección de patrones de comportamiento incluyen minería de
secuencias frecuentes [Gao et al., 2007] o minería basada en restric-
ciones [Pei et al., 2007]. También existen métodos de detección de
patrones más complejos o discontinuos [Ruotsalainen et al., 2007].
La detección de patrones de comportamiento es muy útil para cons-
truir modelos de detección de estos patrones cuando los sensores
ambientales los detectan.
También se emplea en la Inteligencia Ambiental la detección

de anomalías, que pueden ser necesarias de identificar sobre todo en
las aplicaciones de seguridad o de prevención de situaciones atípicas,

que pueden indicar un problema. En el caso de las aplicaciones de
seguridad, cualquier tipo de situación sospechosa de entrañar peligro
debe ser rápidamente avisada o, si el sistema lo permite, prevenida.
Generalmente los sistemas de detección de anomalías se basan en
comportamientos predecibles y métodos estadísticos para detectar
situaciones que se salgan de ellos. Por ejemplo, si en la población
se considera más predecible y frecuente realizar un comportamiento
concreto y se detecta a un individuo que realiza un comportamiento di-
ferente, esto indica una situación que puede precisar una investigación
más exhaustiva [Dawadi et al., 2011].
Los campos en los que emplea la Inteligencia Ambiental son muy

variados y permiten un gran número de aplicaciones. A continuación
pasamos a comentar algunos de los campos en los que la AmI está
teniendo más desarrollo.
2.1.1. AmI en el hogar
Uno de los usos más extendidos de la Inteligencia Ambiental

es en el campo de la domótica. Es decir, en la creación de hogares
inteligentes donde el usuario cada vez tiene que preocuparse menos de
su mantenimiento, ya que mediante diferentes sensores controlados
mediante sistemas distribuidos hacen que de forma sencilla se puedan
controlar gran parte de las utilidades del hogar: calefacción, persianas,
alarmas, etc.
El uso de tecnologías en el hogar mejora la calidad de vida y

ayudan en la realización de tareas cotidianas, orientadas a mejorar la
productividad a la hora de realizar dichas tareas [Alam et al., 2012].
Este es el principal objetivo de la Inteligencia Ambiental, ya que con
el ritmo de vida que existe actualmente hay una demanda cada vez
mayor de poder realizar las tareas diarias de una forma más eficiente
y poder hacerlas flexibles para reducir el estrés que produce el tener
que realizarlas.
Además, el uso de Inteligencia Ambiental promueve también el

ahorro energético, pudiendo controlar de forma automática diferentes
elementos que pueden evitar malgastar energía en los hogares. En la
sociedad actual hay una conciencia cada vez mayor sobre los perjui-
cios que se producen sobre el medio ambiente debido al uso poco
eficiente de la energía, y los propios gobiernos están promoviendo
medidas para que los ciudadanos tengan en sus hogares sistemas para
poder optimizar el gasto energético.
La inteligencia ambiental se caracteriza por su transparencia y

su ubicuidad. Teniendo en cuenta que el hogar es el lugar donde una
persona pasa más tiempo a lo largo del día, los campos sobre los que
la Inteligencia Ambiental puede ayudar a mejorar la calidad de vida
son muy amplios. Algunos de estos campos son:
Seguridad: Existen diferentes tipos de alarmas para garantizar

tanto el bienestar de los habitantes del hogar como el buen
estado de éste. Los sistemas de alarma actuales incluyen además
avisos automáticos.
Control de acceso: Actualmente existen diversos sistemas de

inteligencia ambiental mucho más seguros. Por ejemplo, llaves
electromagnéticas, acceso por huellas dactilares, toma de pará-
metros biomédicos, que son muy difíciles e incluso imposibles
de replicar, consiguiendo así que solo las personas realmente
autorizadas puedan acceder.
Regulación de las funcionalidades básicas del hogar. Ya existen

numerosos sistemas que permiten regular, incluso de forma
centralizada las instalaciones que suelen encontrarse en los
hogares: electricidad, agua, climatización, etc. Mediante la
Inteligencia Ambiental el control de estas funciones es cada vez
más sencillo y transparente para los usuarios. En este caso es de
gran importancia que el sistema sea robusto y no cometa errores,
ya que el descontrol de estos sistemas podría ser perjudicial
para los usuarios.
Debe tenerse en cuenta que, aunque las nuevas tecnologías pue-

den ayudar a facilitar la vida a los usuarios, siempre se debe mantener
un equilibrio entre la tecnología utilizada y la mejora real que esta va
a producir. Una casa no debería estar totalmente controlada por la tec-
nología, sino que deben servir como apoyo a sus habitantes. Si todas
las funcionalidades del hogar están completamente automatizadas los
usuarios pueden llegar a un estado de pasividad que en algunos casos,
como en personas mayores, puede resultar perjudicial.
Por otra parte, también se debe tener en cuenta que los precios
elevados que puedan tener estas tecnologías también pueden ser un
problema. Puede producirse el rechazo de estas tecnologías por parte
de los usuarios.
2.1.2. AmI en la educación
En la época actual, los más jóvenes han crecido adaptándose a

las nuevas tecnologías. En los últimos años se han producido enormes
avances tecnológicos. Contamos con móviles que tienen la potencia
de un procesador, lo cual era impensable hace 20 años. Los que han
crecido con estos avances tecnológicos tienen una mayor facilidad
para adaptarse a las nuevas tecnologías y siempre son más receptivos
a cualquier tipo de mejora tecnológica. De hecho, el uso de nuevas
tecnologías y estar conectados a Internet ocupa una parte importante
de su vida diaria.
Es por ello que en el campo de la educación se están comen-

zando a implantar diversos sistemas de Inteligencia Ambiental para
obtener información de un aula o del propio aprendizaje del alumno y
poder reaccionar o apoyar de acuerdo con los datos obtenidos. Estos
datos pueden ser también de utilidad a los centros educativos para
monitorizar los avances de sus alumnos.
Algunos ejemplos de aulas inteligentes utilizan micrófonos para

detectar el tono de voz del profesor y a partir de este dato le per-
mite realizar acciones sencillas como controlar la luz, cambiar de
diapositivas o reproducir vídeos. Así es posible realizar tareas automá-
ticamente sin necesidad de programar nada, simplemente el sistema

reacciona de acuerdo al entorno. También se han desarrollado aulas
que a través de una serie de sensores controlados mediante sistemas
distribuidos manejan de forma autónoma las persianas, la temperatura
o la intensidad de la luz de la clase. Este sistema es totalmente trans-
parente para los alumnos y no son conscientes de que se encuentran
en un aula donde se ha implementado Inteligencia Ambiental.
También en un estudio realizado en la universidad de Colima

[Santana-Mancilla et al., 2013] se obtuvieron muy buenos resultados
aplicando la Inteligencia Ambiental al aula, además de que se encues-
tó a los alumnos para comprobar su nivel de aceptación a estudiar
en un aula inteligente, donde un 100 % de los alumnos contestaron
afirmativamente, y un 99 % consideraba que esto podría resultar bene-
ficioso para sus estudios. El sistema controla parámetros relacionados
con la temperatura ambiental, el nivel de luz del aula y la presencia
del profesor para producir reacciones en el aire acondicionado, el
alumbrado y el proyector.
2.1.3. AmI en los transportes
La aplicación de Inteligencia Ambiental en el campo de la movi-

lidad va sobre todo orientada a conseguir mejoras en la seguridad y
en la gestión del tráfico.
La demanda de monitorización del estado del tráfico es cada

vez mayor y son necesarios recursos electrónicos que faciliten a los
usuarios una información fiable y actualizada de congestiones, ele-
mentos meteorológicos adversos o posibles emergencias. Cada vez
más medios de transporte, tanto públicos como privados, cuentan con
sistemas de navegación que están conectados con estos sistemas de
monitorización del tráfico para poder informar al usuario de las situa-
ciones que podrían afectarle en su trayecto, o incluso recalculando
la ruta óptima según los datos que se han recibido. Estos sistemas
permitirían evitar o al menos reducir la congestión del tráfico, y son
cada vez más necesarios debido al aumento del número de vehículos.
Otra aplicación de la Inteligencia Ambiental en la gestión del

tráfico muy empleada en el transporte público sería la localización
del medio de transporte, que permite a los usuarios tener una informa-
ción actualizada de la ubicación de los autobuses públicos, tiempos
de espera, e información del contexto, avisando así de posibles inci-
dencias o retrasos en los trayectos. Muchas ciudades emplean estas
aplicaciones.
Con el fin de reducir los accidentes de tráfico, la Inteligencia

Ambiental se emplea también en mejorar la seguridad de los me-
dios de transporte. Estos sistemas, integrados dentro de los propios
vehículos, permiten a través de diferentes sensores detectar situa-
ciones de peligro en el tráfico, predecir el comportamiento de otros
conductores, detectar obstáculos demasiado cercanos al vehículo o
identificar peatones. También permiten detectar indisposiciones en el
propio conductor, como pueden ser la fatiga, conducción inadecuada,
temperatura excesiva en el habitáculo, etc.
Una vez que los sistemas detectan cualquier tipo de riesgo de

accidente pueden avisar al conductor o incluso reaccionar para evi-
tar el accidente. Así, podemos encontrar numerosas aplicaciones de
este tipo, como pueden ser el frenado de emergencia ante la apari-
ción repentina de un peatón, modificación de la climatización para
conseguir una temperatura adecuada para la conducción, reducción
automática de la velocidad ante una situación de poca visibilidad o
de alta congestión del tráfico.
En el proyecto PRISMATICA [Velastin et al., 2005], por ejem-

plo, se aplica la Inteligencia Ambiental para mejorar la seguridad
en el transporte público, en concreto en las estaciones de metro. El
sistema se emplea en un circuito cerrado de vigilancia e identifica
posibles situaciones peligrosas para los usuarios, como pueden ser
objetos abandonados en la estación, personas que pasan un tiempo
demasiado largo en la estación, presencia de demasiadas persona,
identificación de fuegos, etc. El objetivo del sistema es poder alertar
lo antes posible de estas situaciones para poder actuar sobre ellas,
sin necesidad de que haya una persona vigilando constantemente los
vídeos de seguridad, lo cual está sujeto a errores humanos y puede
retrasar el tiempo de respuesta. Gracias a PRISMATICA es posible

detectar estos problemas en cuanto se producen y esto genera en los
usuarios una mayor confianza en el transporte público y ayuda a que
aumente su utilización.
2.1.4. AmI en el entretenimiento
Una de las metas de la Inteligencia Ambiental que se puede

considerar como la más comercializable es su aplicación en el campo
del ocio y la cultura.
En el campo de la herencia cultural, existen varias iniciativas

y bases de datos que almacenan obras de todos los campos del arte,
consideradas patrimonio de la humanidad. La digitalización y con-
servación de estas obras de arte es primordial para protegerlas de
posibles desastres que podrían destruirlas y evitar que llegasen a futu-
ras generaciones. Mediante las tecnologías de Inteligencia Ambiental
es posible facilitar el acceso de todos los usuarios a estas obras, em-
pleando para esto minería de datos, aprendizaje sobre las preferencias
del usuario, etc.
Otro de los campos donde más se emplea la Inteligencia Ambien-

tal es en el entretenimiento, intentando que la experiencia del usuario
sea mejor y le ayude a implicarse. También se intenta aumentar el
realismo, sobre todo en el campo de los juegos. Aunque es cierto
que este tipo de opciones en ocasiones pueden llevar a un mayor
sedentarismo, hay varias iniciativas basadas en las tecnologías am-
bientales que van orientadas a hacer que el usuario realice algún tipo
de ejercicio físico como parte de su entretenimiento, como pueden ser
los entrenadores virtuales o los juegos que requieren que el usuario
realice movimientos ante una cámara para interactuar con la interfaz.
Como se comentó anteriormente, gracias a la Inteligencia Am-

biental se ha permitido reducir o hacer más eficiente la realización de
tareas rutinarias, lo que deja más tiempo para la realización de tareas
más importantes o más entretenidas, por lo que focalizar el uso de
Inteligencia Ambiental en estas tareas en estos campos podría ser una

de las mayores tendencias en estos años.
2.1.5. AmI en la atención sanitaria
La Inteligencia Ambiental puede ayudar también en el campo

de la prevención y tratamiento de enfermedades. Este tipo de aplica-
ciones están en un estado todavía muy inicial, aunque hay numerosos
proyectos de investigación orientados a este campo [Ramos et al.,
2009].
Las aplicaciones para la salud se están focalizando cada vez más

en la prevención de enfermedades, con el fin de reducir los problemas
de salud de la población. Este tipo de sistemas se alejan cada vez
más del clásico paradigma de interacción Persona-Ordenador, donde
la persona tenía que introducir de forma consciente los datos para
obtener una respuesta. En el nuevo paradigma de comunicación, el
sistema cuenta con sensores que trabajan para ayudar a los usuarios
sin que ellos sean conscientes de ello.
La mayor parte de las aplicaciones actuales de prevención in-

tentan llevar al usuario a tener un estilo de vida más saludable. Los
gobiernos hacen especial hincapié en este tipo de comportamientos
preventivos ya que los problemas de salud en general implican un
gasto importante de presupuesto, por lo que la prevención de estos
problemas, además de resultar beneficiosa para el individuo en sí,
supone un ahorro en los servicios de salud. Este problema se ve incre-
mentado, como se ha comentado anteriormente, por el aumento de la
población de la tercera edad, lo que puede conllevar que en unos años
los servicios de salud tal y como los conocemos actualmente no sean
sostenibles.
Conseguir unos servicios de salud que sean proactivos podría

ayudar a este problema. Actualmente existen algunos avances que
sí han ayudado a descongestionar un poco los sistemas de salud,
como pueden ser los registros médicos electrónicos o el acceso a los
catálogos médicos a través de internet. También existen numerosas
aplicaciones móviles para ayudar a llevar un control sobre parámetros

biométricos. Sin embargo, aunque estas aplicaciones pueden resultar
muy útiles es necesario llevarlas un paso más adelante, para que
puedan utilizarse con la finalidad de tener una monitorización general
de la salud de los pacientes a lo largo de toda su vida, no solo en
determinados momentos.
En este tipo de aplicaciones también es primordial la seguri-

dad y la protección de datos [Liu et al., 2017], ya que este tipo de
información tiene carácter privado y se estarían tomando constante-
mente datos sobre las personas y su entorno. Aunque la información
obtenida tiene el objetivo de promover el bienestar de los usuarios,
podría considerarse una invasión en la vida privada y un agujero de
seguridad podría considerarse ser muy peligroso, ya que los datos que
se manejan pueden utilizarse de forma maliciosa.
Los avances que se han producido en la investigación de re-

des de sensores hacen posible que se puedan construir sistemas de
monitorización de la salud a un precio asequible para los usuarios,
siendo incluso posible instalar estos sensores en la propia vivienda
de los pacientes. Por ejemplo, en el caso de personas mayores o con
enfermedades crónicas pueden utilizarse estas redes sensoriales para
monitorizar su estado de salud, y para personas con discapacidades
físicas o mentales pueden ser de ayuda para su vida cotidiana. Pueden
emplearse para que los usuarios tengan unos hábitos más saludables
o para hacer rehabilitación a causa de una lesión sufrida.
En el caso del tratamiento de enfermedades, cada vez se desa-

rrollan más tecnologías de diagnóstico conocidas como “lab on a
chip”, que han dado lugar a diferentes dispositivos que ayudan al
autodiagnóstico de enfermedades.
Por otro lado, las nuevas comunicaciones ambientales, pueden

permitir a los médicos tener un sistema de comunicación con sus
pacientes que pueda ahorrar costes y optimizar el tiempo necesario
para su atención. También les permite poder compartir utilidades,
conocimientos y equipos médicos para los diagnósticos, que podrían
realizarse a distancia. La Inteligencia Ambiental también permite
realizar un seguimiento del paciente a través de sensores, que haría

viable que un enfermo no tuviera que pasar largos periodos de tiempo
ingresado en un hospital, sino que se le podría hacer un seguimiento
desde su casa. La mayor parte de los sistemas que se desarrollan
actualmente para el cuidado de la salud están orientados a la estancia
del paciente en su hogar [Orwat et al., 2008].
Para realizar un seguimiento eficiente del paciente es necesario

contar con un sistema de soporte de decisiones. Actualmente existen
diferentes sistemas de este tipo, que ayudan a los médicos en la toma
de decisiones, por ejemplo, analizando los datos de los pacientes
[Romano & Stafford, 2011]. Este tipo de sistemas combinados con
la Inteligencia Ambiental pueden resultar de gran ayuda para diseñar
aplicaciones que den soporte a los médicos en decisiones críticas.
Permitirían crear también una nueva forma de tele-atención sanitaria.
Actualmente los sistemas de tele-atención consisten en objetos que el
paciente lleva y debe activar cuando se encuentra mal o tenga algún
problema, como una caída. También existen algunos dispositivos más
avanzados que detectan mediante sensores situaciones en las que se
necesita asistencia médica, por ejemplo, detectando las pulsaciones de
la persona. Mediante una combinación de los sistemas de decisión y la
Inteligencia Ambiental sería posible crear aplicaciones no intrusivas
que permitan anticipar posibles problemas de salud antes de que estos
se produzcan [Acampora et al., 2013], creando así un modelo de
atención preventivo en lugar del que hay instaurado actualmente en la
tele-atención, que sería reactivo.
Una aplicación muy concreta de la Inteligencia Ambiental en el

campo de la salud y el bienestar es en la Ambient assisted living. A
continuación haremos una descripción más detallada de este concepto,
ya que el objetivo de esta tesis es conseguir una aplicación que pueda
integrarse en un sistema de estas características.
2.2 Ambient Assisted Living (AAL) 21
2.2. Ambient Assisted Living (AAL)
Una de las facetas que más se está investigando debido al enve-

jecimiento de la población es la vida cotidiana asistida por el entorno,
conocida por sus siglas en inglés AAL (Ambient Assisted Living). La
AAL es la aplicación de la Inteligencia Ambiental orientada a mejorar
la calidad de vida de los ancianos que se encuentran viviendo en su
hogar, con el objetivo de que puedan ser autosuficientes en un entorno
tecnológicamente sensible el mayor tiempo posible, consiguiendo que
tengan una mejor calidad de vida.
Existe una gran demanda de las personas mayores a permanecer

en sus hogares. Esto se debe a que su calidad de vida es mucho mayor
en el entorno en el que se han encontrado habitualmente. Podemos
citar los siguientes factores:
Emocionales: Si una persona mayor puede valerse por sí misma,

aumenta su autoestima y mejora su inteligencia emocional.
Sociales: Al encontrarse en un entorno conocido y pudiendo

realizar algunas tareas cotidianas, le es más fácil relacionarse
con familiares y amigos, o en general con la comunidad que le
rodea.
Físicos: Al estar en su hogar, la persona se encuentra más activa,

lo que repercute positivamente en su salud y bienestar.
También es importante tener en cuenta que la distribución actual

de la población en núcleos urbanos hace que cada vez las distancias
entre familiares y amigos sean cada vez mayores, lo que hace que
cada vez las personas, y especialmente las personas mayores, estén
más aisladas y pasen más tiempo solas [Kotteritzsch & Weyers, 2015].
La población de personas mayores es muy heterogénea, es decir, ca-
da persona tiene sus propias necesidades de atención y cuidados, y
todavía pueden hacer importantes aportaciones a la sociedad si estas
necesidades son cubiertas, a ser posible en sus propias casas, donde se
sienten más cómodos y seguros. Para mejorar las condiciones de vida
de esta parte de la población la AAL debe tener en cuenta tanto a las

personas mayores como a sus familiares y a los servicios de atención
sanitaria en diferentes contextos, como pueden ser residencias, apli-
caciones médicas, centros de rehabilitación o actividades cotidianas
[Van Den Broek et al., 2010].
Dentro de la gerontología, la AAL es un enfoque relativamente

nuevo sobre cómo la tecnología puede ayudar a las necesidades de
las personas mayores. Aumentando su autonomía, seguridad y mo-
vilidad y ayudando a que tengan un estilo de vida activo, se espera
que las tecnologías de AAL reduzcan el riesgo de dependencia e
institucionalización de las personas mayores [Blackman et al., 2015].
De esta manera se prevendrá el aislamiento social y se permitirá a
las personas mayores envejecer en sus hogares. Para conseguir este
objetivo es necesaria la colaboración de expertos en campos muy
diferentes: ciencias de la salud, rehabilitación, gerontología, ciencias
sociales, psicología, así como diferentes tecnologías, como ingeniería,
informática o robótica. La colaboración de todas estas ramas da lugar
a complejos sistemas capaces de gestionar las diferentes y variadas
necesidades de la población de la tercera edad.
Los sistemas de AAL proporcionan un entorno de sensores mé-

dicos, ordenadores, redes de comunicación y aplicaciones software
que permiten la monitorización continua para la atención sanitaria
del usuario [Memon et al., 2014]. Existe una importante demanda
de aplicaciones AAL para el control de la salud y para servicios de
tele-atención [Spitalewsky et al., 2013]. Esto es debido a que hay
una tendencia cada vez mayor por parte de la población de vigilar
su salud, producida por una mayor consciencia de la importancia de
detectar posibles problemas de salud antes de que estos se produzcan.
La tercera edad se considera una etapa de la vida, aunque en los

últimos años, el hacerse mayor se considera como la principal “enfer-
medad” que debe abordarse mediante la tecnología en los próximos
años [Calvaresi et al., 2016]. Esto significa que los medios tecnológi-
cos deben controlar diferentes tipos de enfermedades. Las principales
enfermedades que deben tratarse serían de origen neuronal, ya que la
reducción de las capacidades psicológicas es uno de los principales
deterioros que aparecen cuando una persona se hace mayor. También

deben controlarse enfermedades asociadas a la reducción de la capa-
cidad motora de la persona, problemas cardíacos o diabetes. Este tipo
de enfermedades son las más susceptibles de poder tratarse mediante
tele-atención, controlando mediante sistemas de AAL el estado del
paciente y teniendo que realizar solo intervenciones puntuales cuando
la situación lo requiera.
Una de las facetas de estudio que puede aportar valor a la AAL es

la planificación de actividades. Las técnicas de planificación permiten
conseguir un objetivo comenzando desde un estado inicial y presen-
tando varias opciones posibles para pasar a los siguientes estados.
Este tipo de planificaciones automáticas pueden resultar muy útiles
para organizar las tareas diarias para un paciente con demencia senil,
que podría olvidarse de realizarlas. También se puede emplear para
detectar deficiencias en las tareas realizadas y ayudarles a completar
los pasos que no han realizado correctamente. También puede ayu-
dar a personas que tengan una movilidad limitada a tener una vida
más independiente mediante la automatización de algunas de esas
actividades, que ellos no pueden realizar o precisan de ayuda para
hacerlas.
Un ejemplo de la aplicación de la planificación automática de

tareas en la AAL es el sistema COACH [Mihailidis et al., 2004], que
guía a los pacientes de Alzheimer en sus hogares a realizar la tarea
de lavarse las manos. El sistema almacena una codificación completa
de esta tarea y detecta mediante técnicas de visión artificial los pasos
que sigue el usuario. Cuando detecta que el usuario olvida realizar
algún paso, le facilita instrucciones detalladas para continuar.
También el sistema PEAT [Levinson, 1997] utiliza la planifica-

ción de tareas, en este caso para personas afectadas de demencia senil.
El sistema da asistencia en las tareas diarias, generando un plan jerar-
quizado de tareas y controlando su cumplimiento. En el caso de que
alguna de las tareas no se pueda realizar debido a alguna eventualidad,
permite también reorganizarlas. Este sistema tiene la carencia de no
contar con una detección mediante sensores, la entrada de datos la
realiza el propio usuario, indicando las tareas que ha completado o si

necesita ayuda para alguna de ellas.
En la AAL es primordial la monitorización del comportamiento,

ya que de esta manera se puede acceder de forma natural y continua
al estado mental y cognitivo de la persona monitorizada. También se
puede proporcionar a la persona un apoyo automático. Este tipo de
monitorización se puede realizar sobre una actividad concreta, por
ejemplo, el sistema desarrollado por Nambu et al. [2005] monitoriza
a la persona cuando está viendo la televisión, pero en general los siste-
mas desarrollados monitorizan a la persona mientras realiza sus tareas
cotidianas. El proyecto IMMED [Mégret et al., 2010] monitoriza me-
diante una cámara que lleva el propio usuario sus actividades diarias
para identificar deficiencias en las capacidades motoras o cognitivas
de personas con demencia.
La detección de emergencias es también una parte importante

en la AAL. Actualmente existen diferentes sistemas de tecnología
de tele-asistencia para monitorizar a las personas mayores en sus
hogares, ponerse en contacto con ellas y avisar a los servicios sa-
nitarios si precisan de ayuda. Por ejemplo, en algunos proyectos se
emplean sensores, como detectores de calor [Buckland et al., 2006]
para monitorizar a los usuarios.
El sistema que más se utiliza en los hogares de las personas

mayores es el botón de emergencias. Normalmente este sistema con-
siste en un dispositivo que el usuario puede llevar encima, como una
pulsera o un colgante, y que puede pulsar en caso de necesitar ayuda.
Sin embargo, ya existen dispositivos que, además de esta función,
también avisan a los servicios de emergencia o a los cuidadores de
estas personas mayores cuando detectan un cambio significativo en
la actividad del usuario [Essen & Conrick, 2008]. Esto aporta un
mayor grado de confianza para el usuario, ya que el problema que
presentan los botones de emergencia es que es posible que la persona
no sea capaz de pulsarlo dependiendo de la situación en la que se
encuentre. Con este sistema el usuario se asegura de que el sistema
avisará en caso de emergencia. Otros sistemas proporcionan además
información que puede ser de utilidad para los servicios de emergen-
cia, como el desarrollado por Lin et al. [2006], que además de enviar
la llamada de emergencia correspondiente cuando se pulsa el botón,
adjunta información adicional sobre la ubicación del paciente. Este
sistema está sobre todo orientado a pacientes con demencia senil, que
pueden desorientarse cuando se encuentran fuera de casa. Gracias a
este dispositivo es más fácil localizarlos y atenderlos rápidamente.
También existen varios sistemas para la detección de caídas,

orientados especialmente a las personas mayores, ya que una caída
tiene un mayor riesgo de mortalidad para ellos, al no poder volver
a levantarse o buscar ayuda. Existen varios tipos de sistemas para
detección de caída basados en la Inteligencia Ambiental, que emplean
diferentes tipos de sensores [Mubashir et al., 2013]: cámaras de ví-
deo, dispositivos portátiles, sensores ambientales, etc. Las cámaras de
vídeo, en este caso, realizan una extracción de los movimientos regis-
trados para detectar posible inactividad repentina en el movimiento,
que podrían haberse producido por una caída. En el caso de los dis-
positivos portátiles, estos deben tener en cuenta varias mediciones
para considerar si un movimiento repentino ha sido una caída. Por
ejemplo, acelerómetro para medir la velocidad a la que se ha produ-
cido ese movimiento, o giroscopio para comprobar la posición en la
que se encuentra el usuario. Entre los sensores ambientales pueden
considerarse los detectores de calor, de movimiento o de sonido para
la identificar posibles caídas. También existen sistemas que comprue-
ban la vibración del suelo para la detección de caídas [Alwan et al.,
2006b].
Otro campo que también puede ser de gran ayuda para que
las personas mayores se sientan más seguras en sus hogares es la
detección de problemas cardíacos, ya que las cardiopatías son una de
las principales causas de muerte entre las personas de la tercera edad.
Existen diferentes tipos de sistemas para la detección de emergencias
cardíacas. Por ejemplo, el sistema presentado por Alwan et al. [2006a]
monitoriza la actividad cardíaca del paciente de forma continua. El
sistema genera alertas cuando las pulsaciones se mantienen en un
rango superior a 100 ppm durante 10 minutos, o en un rango inferior a
35 ppm durante 45 minutos. También existen sistemas empleados para
monitorizar pacientes a los que se les ha realizado una intervención
quirúrgica de bypass coronario [Kleinpell & Avitall, 2007]. Este

sistema de tele-atención transmite dos veces al día varios parámetros
a un servidor, tales como presión arterial, media de pulsaciones y
saturación de oxígeno en sangre. Si cualquiera de estos valores no
se encuentran dentro de los rangos normales, se envía un mensaje de
alerta.
Las tecnologías de Inteligencia Ambiental pueden ayudar a las

personas con discapacidades a tener un estilo de vida más indepen-
diente mediante la automatización de actividades y la monitorización
continua de su vida cotidiana, además de que es posible ofrecerles
soporte y asistencia. Existen sistemas de gestión de actividades diarias
especialmente orientados a las personas mayores. Por ejemplo, exis-
ten sistemas para la gestión de la medicación [Nugent et al., 2007].
Dado que la mayor parte de las personas mayores tiene que tomar
varias medicinas a lo largo del día y es fácil que lo olviden, el sis-
tema informa al usuario de la medicación que tiene que ir tomando.
Aunque un sistema de estas características sería de gran ayuda para
una persona mayor, los proyectos de gestión de medicación no son
completamente detectores del entorno que les rodea, ya no es posible
detectar si una persona realmente ha tomado su medicación, para lo
que sería necesario medir sus parámetros biométricos. Sin embargo,
sí ha habido algunos progresos en este campo, por ejemplo, el sistema
iMAT [Tsai et al., 2010] es un dispensador automático de medicación,
que un farmacéutico puede programar para que la medicación que
tenga que tomar una persona mayor esté en el vaso dispensador a la
hora que debe tomarla. Cuenta también con un avisador para que el
anciano sepa que tiene que tomar su medicación.
Las tecnologías de Inteligencia Ambiental también son útiles

para evitar el comportamiento errático en personas mayores afectadas
por la demencia senil. Estas herramientas, especialmente orientadas a
las residencias de mayores, permiten avisar a un cuidador si se detecta
que una persona mayor se ha desviado de las rutas predefinidas. Otras
herramientas, más orientadas a personas mayores viviendo en sus
hogares, permiten detectar mediante radiofrecuencia si una persona
propensa a la desorientación se está acercando a una zona peligrosa
[Lin et al., 2006]. También existen aplicaciones móviles que permiten
ayudar a una persona mayor a recordar el camino que deben seguir al

salir a la calle, memorizando sus rutas habituales y ubicaciones en las
que pasa más tiempo [Patterson et al., 2004].
Existen también numerosos proyectos basados en la Inteligencia

Ambiental que proporcionan asistencia a los usuarios. Por ejemplo,
el proyecto “RoboCare” [Bahadori et al., 2004] emplea un sistema de
visión artificial para la detección de personas y robots que determina
su posición en un espacio tridimensional y emplea la planificación
de tareas para comparar la situación actual con la situación que se
esperaba.
Además de detectar situaciones de emergencia cuando éstas se

producen, también es importante para ayudar a las personas mayores
en su entorno que haya sistemas que permitan localizar posibles
situaciones de peligro antes de que éstas se produzcan, de manera
que estas situaciones adversas puedan neutralizarse antes de que
puedan producir una emergencia real. Con el fin de analizar el estado
de salud en el que se encuentra una persona mayor y reconocer
cualquier posible condición peligrosa, existen diferentes estudios.
Por ejemplo, el presentado por Chumbler et al. [2007], que instala
un programa de tele-atención en el hogar de personas mayores que
están recibiendo quimioterapia. Este sistema utiliza un contestador
automático para realizar preguntas al paciente regularmente. Los
pacientes deben responder a una serie de preguntas sencillas para
determinar mediante un valor numérico cómo se encuentra en relación
a los cinco síntomas más comunes tras recibir quimioterapia: dolor,
fatiga, náuseas, limitaciones funcionales y estrés emocional. Si la
respuesta a cualquiera de las preguntas excede un determinado valor,
el sistema avisa al coordinador del servicio a cargo de ese paciente
para ponerse en contacto con él y poder valorar su situación.
Otros sistemas se encargan de detectar condiciones adversas en

los hogares de las personas mayores, por ejemplo, si la temperatura
de una habitación es demasiado baja o si una ventana o una puerta
se han quedado abiertas. En este tipo de situaciones, las personas
mayores muchas veces no notan que puede ser un peligro para ellas,
por lo que estos sistemas de detección les pueden ser de mucha ayuda
para avisarles de una posible situación de peligro. También existen

sistemas para cuidar de pacientes con demencia y vigilar que no entren
en entornos peligrosos para ellos. Por ejemplo, el sistema desarrollado
por Lin et al. [2006] detecta si la persona entra o sale de determinadas
zonas, como pueden ser la cocina o el baño. Si ocurre un evento
determinado, por ejemplo, que tarde mucho tiempo en abandonar una
determinada zona, el sistema envía automáticamente un mensaje al
centro de atención, que a su vez informará a un vecino, un cuidador
o un familiar del paciente para que puedan ayudarle antes de que se
produzca una situación de emergencia. También es posible avisar de
una situación concreta, como puede ser que un paciente con demencia
se deje un fogón encendido cuando ha terminado de cocinar [Alwan
et al., 2006a]. En este caso, el sistema genera una alerta que se envía
a los cuidadores avisando de que el paciente se ha podido olvidar del
fogón si éste sigue encendido cuando el paciente sale de la casa, se va
a la cama o no vuelve a la cocina durante un periodo superior a una
hora.
Otro campo en el que la Inteligencia Ambiental puede ser de

ayuda en la asistencia de la vida cotidiana en como apoyo a las per-
sonas con visión reducida. En este caso existen varios sistemas de
navegación que emplean sensores de radiofrecuencia y tecnologías
GPS. Por ejemplo, Chumkamon et al. [2008] han desarrollado un
sistema que permite guiar a una persona ciega en un lugar cerrado
detectando paredes antes de que el usuario se choque con ellas. Tam-
bién existen aplicaciones que les ayudan en sus tareas diarias, como
caminar por la calle o comprar.
Muchos de los entornos de vida asistida se han desarrollado em-

pleando metodologías de decisión. Por ejemplo, el proyecto CAALYX
ha desarrollado un dispositivo portátil que el anciano lleva puesto
para tomar mediciones de algunos parámetros biomédicos y para
poder detectar caídas, avisando a los servicios sanitarios en caso de
emergencia. Esto permite que el anciano pueda aumentar su seguri-
dad y autonomía simplemente llevando este dispositivo. También el
proyecto Nextcare está desarrollando una monitorización inteligente
de la atención médica y un sistema de soporte a decisiones integrando
sensores médicos en los sistemas de información de los hospitales. En
este proyecto la monitorización del paciente se realiza complementan-

do la tecnología con sistemas de soporte a las decisiones basados en
las guías de actuación clínicas. Tanto la información recibida por el
dispositivo de monitorización del paciente como su historia médica se
tienen en cuenta a la hora de valorar su estado y tomar una decisión.
El potencial que tiene la Inteligencia Ambiental en la vida asis-

tida y poder combinar varios tipos de detectores es enorme, ya que
permite cambiar el cuidado de la salud del tratamiento (como se rea-
liza actualmente) a la prevención, lo que supondría, además de un
ahorro importante en los servicios sanitarios, una mejora en la calidad
de vida de toda la población. Además, permitirá una atención más
personalizada.
Uno de los principales problemas a la hora de diseñar sistemas

de AAL es el posible rechazo de la gente mayor hacia la tecnolo-
gía [Rashidi & Mihailidis, 2013]. Aunque es cierto que las nuevas
tecnologías pueden resultar de gran ayuda a la hora de apoyar a las
personas mayores en su vida cotidiana para que consigan una mayor
independencia y bienestar, la brecha tecnológica puede suponer un
obstáculo. Las personas de la tercera edad no han crecido rodeados
de tecnología y a mayor edad más difícil les resulta comprenderla y
aprender a utilizarla. Es por esto que en muchos casos ven las nuevas
tecnologías con desconfianza e incluso con miedo por no ser capaces
de utilizarlas. En este sentido, se debe intentar que los sistemas de
AAL sean lo más transparente posible para los usuarios, es decir,
que no sean invasivos y que requieran la mínima actividad por su
parte como sea posible. En el caso de que se requiera algún tipo de
interacción entre el sistema y el usuario, ésta debe ser muy sencilla e
intuitiva, ya que el anciano dejará de utilizar el sistema si no le resulta
amigable o no lo entiende.
También se deben tener en cuenta en el diseño de este tipo de

sistemas las cuestiones sociales y éticas. El ISTAG (Information So-
ciety Technologies Advisory Group) identifica varias características
necesarias para la introducción de la Inteligencia Ambiental en la
vida cotidiana [Ducatel et al., 2001]: debe facilitar el contacto hu-
mano, estar orientado hacia la mejora cultural y comunitaria, inspirar
confianza y ser controlable por personas que no tengan conocimien-

tos avanzados. También señala que un exceso de dependencia en la
Inteligencia Ambiental puede ser perjudicial para los usuarios, ya que
podría llevarles a perder habilidades que tenían anteriormente y ser
incapaces de valerse por sí mismos fuera de un ambiente inteligente,
ya que se acostumbran a que la tecnología gestione sus vidas y pier-
den la confianza en sus propias capacidades. Debe ponerse atención
en que las tecnologías de AAL puedan ser accesibles para todas las
personas, también en cuanto a su coste. Es importante que gente con
menos recursos pueda beneficiarse de las ventajas de la AmI, y no
esté solo al alcance de unos pocos con mayor poder adquisitivo.
Otros retos que también se deben de tener en cuenta a la hora de

generar sistemas de AAL que sean de utilidad para los ancianos son
los siguientes [Ludwig et al., 2012]:
Las herramientas que se empleen para detectar posibles proble-

mas de salud deben de ser fiables, de manera que no generen
alertas innecesarias o, al contrario, que cuando realmente se
presente un problema no les sea posible detectarlo. Solo cuando
los sistemas de detección sean fiables se podrán utilizar en los
procesos de vigilancia de la salud y se emplearán en la vida co-
tidiana de las personas mayores. Por ello, es importante que los
prototipos propensos a error evolucionen hasta ser productos
médicos a prueba de errores. Actualmente existen proyectos
de investigación [Karunanithi, 2007] orientados a conseguir
que las tecnologías de cuidado de la salud puedan tener un uso
práctico.
Para que los servicios de tele-atención puedan ser utilizados,

deben cumplir con los requisitos de los casos de uso de la
vida cotidiana. En su diseño es necesario trabajar con varias
disciplinas, teniendo en cuenta que es necesaria la participación
de expertos en estas disciplinas para conseguir un sistema que
se adapte a las necesidades de la vida del anciano. Esto hace
que el desarrollo de estos servicios sea muy complejo.
2.3 Detección y regulación de emociones 31
A partir de los servicios de AAL se consigue una informa-

ción muy valiosa sobre la salud del paciente, que no se podría
obtener mediante la atención médica presencial. Por ello, es
importante que se produzca una adaptación de los procesos
sanitarios actuales, así como de los sistemas de gestión de la
información sanitaria. Por ejemplo, el estudio realizado por
Essen & Conrick [2008] muestra un sistema de monitorización
de la actividad doméstica en una residencia sueca, y describen
el problema de organización derivado de la gran cantidad de
información que se recibe de todos los residentes.
Un campo muy concreto de la AAL es la detección y regulación

de emociones, que puede ayudar a las personas mayores en su vida
cotidiana detectando posibles situaciones que pueden ser peligrosas
para ellos, como puede ser sentir miedo, y enviar una alarma a sus
cuidadores o familiares para que puedan ayudarles, o poder gestionar
esas emociones y llevarles a un estado emocional que no suponga un
peligro para ellos.
2.3. Detección y regulación de emociones
Recientes avances en neurología y psicología han demostrado

que las emociones son de gran importancia, concretamente para el
bienestar y la salud [Leon et al., 2010]. Las emociones negativas
tienen efectos negativos en el sistema inmunológico de las personas y
pueden llegar a producir alteraciones fisiológicas perjudiciales para
la salud. Numerosos estudios avalan la relación entre fenómenos
afectivos y problemas de salud. Por ejemplo, una persona con un
alto nivel de síntomas de depresión tiene un mayor riesgo de sufrir
un ataque cardíaco [Kiecolt-Glaser & Glaser, 2001]. También una
excitación fisiológica prolongada producida por el estrés deteriora
el sistema inmunológico de la persona y se reduce la capacidad del
cuerpo de defenderse de virus, bacterias y tumores [Matsunaga et al.,
2008]. Se ha identificado también una relación entre las emociones
negativas y las enfermedades cardíacas coronarias, siendo la ansiedad
un importante factor de riesgo. El estrés emocional es un fenómeno

que está presente en todas las edades y afecta a la vida personal y
profesional [Kubzansky & Kawachi, 2000].
El sistema inmunológico, que se encarga de proteger nuestro

organismo de enfermedades, se debilita de forma natural conforme
vamos envejeciendo. Este declive tiene consecuencias negativas en
la salud de las personas mayores, haciendo que sean más propensos
a enfermar y que les cueste más recuperarse. Un ejemplo muy claro
de esto es que la gripe, que casi nunca resulta mortal en la gente
joven es una de las principales causas de mortandad entre la gen-
te mayor [Kiecolt-Glaser & Glaser, 2001]. Si a este deterioro del
sistema inmunológico se añaden las emociones negativas derivadas
del aislamiento, miedo a la muerte o soledad que en general sufren
las personas mayores, puede acelerarse el proceso de deterioro del
sistema inmunológico e incrementar la mortalidad.
Mantener emociones positivas es importante para recuperarse de

enfermedades, e incluso operaciones. Por tanto, el bienestar emocio-
nal, donde se busca promover las emociones positivas, es una forma
de mejorar la salud. Una infraestructura basada en Inteligencia Am-
biental puede ser una herramienta muy útil para reconocer y gestionar
emociones, así como para mejorar su calidad de vida.
La regulación de emociones se refiere a los procesos mediante

los cuales las personas se ven influenciadas por sus emociones y cómo
gestionan y expresan a estas experiencias emocionales [Rolston &
Lloyd-Richardson, 2017]. Las personas emplean diariamente y sin
ser conscientes de ello estrategias de regulación de emociones para
hacer frente a situaciones difíciles. La mayoría somos capaces de
usar diferentes estrategias de regulación de emociones y aplicarlas a
situaciones con el fin de adaptarnos a las exigencias del entorno. Estas
estrategias pueden ser sanas o perjudiciales. Por ejemplo, realizar un
programa de ejercicio para gestionar una situación de estrés es una
estrategia sana. Una estrategia perjudicial podría ser, por ejemplo,
abusar del alcohol.
La detección de emociones se realiza por tres canales principal-

mente: por la voz, por gestos faciales o corporales, o por cambios
fisiológicos como aumento de la presión arterial, incremento de los
latidos del corazón o cambios en la respiración.
El sistema WAM (Wereable Acoustic Monitor) [McNaney et al.,

2012] sería un ejemplo de detección de emociones mediante la voz
de la persona. Este sistema proporciona ayuda en cuanto al bienestar
emocional y social obteniendo datos de las características emocio-
nales de la voz y la interacción social. El sistema evalúa la voz del
usuario para identificar características como la amplitud, el tono, la
velocidad a la que se habla o las pausas que se realizan para obtener
una visión general del estado emocional de la persona que lleva el
dispositivo. Con esta información el usuario puede considerar los
contextos que le resultan estresantes o agradables, lo cual puede afec-
tar a su comportamiento y ayudarle en el futuro para evitar aquellas
situaciones que afectan negativamente a sus emociones, y a la larga a
su estado de salud.
Un ejemplo que combina varios tipos de sensores en un entorno

de Inteligencia Ambiental es el proyecto AffectAura [McDuff et al.,
2012], que emplea la información obtenida desde webcam, sensores
cinéticos, micrófonos, sensores electro-dérmicos, GPS y sensores de
actividad para detectar la valencia y excitación de la persona que se
está monitorizando. Los usuarios pueden con este sistema obtener
información sobre cualquier día en el que han sido monitorizados,
incluso después de haber olvidado lo que ocurrió ese día o su estado
emocional.
Otro sistema llamado MONARCA [Frost et al., 2011] desarrolla

y valida soluciones para monitores multiparamétricos de larga dura-
ción para recopilar información fisiológica importante en el caso de
desórdenes bipolares. En concreto, el sistema se compone de teléfono
móvil, que se utiliza para centralizar los resultados de los sensores y
mostrar los resultados al paciente, así como para realizar diariamente
al usuario una serie de preguntas generales sobre su estado de ánimo
y de salud; un monitor de actividad en forma de pulsera, que recopila
diferentes datos del paciente, por ejemplo, las pulsaciones por minuto
o la actividad electro-dérmica; y una aplicación web para que tanto el

paciente como el médico puedan visualizar los resultados de la mo-
nitorización y las respuestas registradas diariamente en la aplicación
móvil. El sistema, además, puede realizar predicciones de episodios
depresivos basándose en la información del historial médico del pa-
ciente. El objetivo de este sistema es que los propios pacientes sean
capaces de gestionar su enfermedad a partir de la información que el
sistema recopila para ellos y puedan evitar, en la medida de lo posible,
una crisis depresiva cuando el sistema le indica que existe riesgo de
que se produzca una. El propio sistema da consejos al paciente para
intentar remediar esta crisis emocional, indicándole por ejemplo que
debe hacer ejercicio o moderar el consumo de alcohol.
También el proyecto EmoSoNet [Yumak-Kasap, 2012] está orien-

tado al bienestar emocional de los usuarios, introduciendo una red
social capaz de analizar las emociones de sus usuarios. El sistema
emplea sensores y métodos de análisis de comportamiento con el fin
de detectar el nivel de estrés del usuario de forma automática. Estos
sensores se llevarían en una pulsera. Adicionalmente, se emplean
sonidos, animaciones y respuestas vibro-táctiles para mejorar la inter-
acción con el usuario. Por ejemplo, para las emociones se emplean
representaciones gráficas que puedan ser intuitivas para el usuario.
El proyecto Emo&Pain [Singh et al., 2012] es un sistema inteli-

gente que permite una monitorización ubicua de pacientes que son
susceptibles de sufrir episodios de dolor, registrando sus movimientos
y emociones. Este sistema desarrolla una serie de métodos para detec-
tar de forma automática muestras audiovisuales de dolor, patrones de
comportamiento típicos de algunos tipos de dolor, como por ejemplo
el dolor lumbar, o estados afectivos influenciados por el dolor.
También existen proyectos para la detección y regulación de

emociones para conductores, especialmente orientados para personas
que tienen problemas para gestionar sus emociones y pueden llegar a
bloquearse en situaciones de estrés. Por ejemplo, el estudio realizado
por Jeon & Walker [2011], como parte del proyecto IVAL (In-Vehicle
Assistive Technology), presenta un conjunto de situaciones durante la
conducción que pueden inducir emociones. Asimismo, se analizan 9
emociones o estados: miedo, alegría, enfado, depresión, curiosidad,

vergüenza, urgencia, aburrimiento y alivio. Para detectar el estado
emocional del conductor se propone recopilar diferentes datos sobre el
conductor, como pueden ser la postura, el movimiento de los ojos, la
expresión facial, el reconocimiento de voz, EEG o ECG. La aplicación
de un sistema de estas características podría ser de mucha ayuda
para reducir los accidentes de tráfico, ya que podrían regularse las
emociones de los conductores [Jeon, 2015]. Algunos ejemplos de su
utilización serían los siguientes:
Para un conductor que se encuentre en un estado de enfado, la

regulación automática de emociones podría evitar que su enfado
derive en una conducción colérica que pondría en peligro al
resto de usuarios de la vía.
Para un conductor que se encuentra contento o relajado la

probabilidad de sufrir una distracción es más alta, por lo que
se podría considerar cómo reducir el nivel de distracción sin
que la persona deje de sentir esas emociones positivas. A estos
usuarios, y también a los que se encuentran en un estado de
tristeza, se les debería notificar que pueden correr un riesgo, ya
que ellos no son conscientes de ello.
Para conductores en estado de miedo, una estrategia de regula-

ción para mitigar su nivel de estrés podría ser más adecuada.
Existen numerosos sistemas que realizan una detección basada

en las expresiones faciales. Al ser el objetivo de esta tesis generar
un sistema, dedicaremos el siguiente capítulo a realizar un análisis
centrado en este tipo de sistemas de detección de emociones, que nos
servirán para tener una visión más completa del estado de desarrollo
en el que se encuentran las investigaciones en este campo, y también
nos ayudará a entender mejor las propuestas realizadas en esta tesis
para realizar una detección de emociones basada en la expresión facial
del usuario.
2.4. Conclusiones
Para concluir este capítulo, vamos a enumerar los puntos prin-

cipales que se han analizado en este capítulo sobre la Inteligencia
Ambiental y su aplicación en la AAL y en la detección y regulación
de emociones:
El paradigma de la Inteligencia Ambiental presenta un entorno

electrónico que es capaz de detectar la presencia humana y
reaccionar a sus necesidades. Representa el siguiente paso en
la informática, ya que la AmI se orienta a obtener sistemas y
aplicaciones orientadas al usuario.
Mediante la aplicación de diferentes tecnologías y métodos, la

AmI puede conseguir una obtención e interpretación de datos
no intrusiva, empleando tanto los datos del usuario como del
entorno que le rodea.
Gracias a estas características, la Inteligencia Ambiental tiene

el potencial para mejorar nuestra calidad de vida, y de hecho
ya hay diferentes aspectos en los que la AmI se ha introducido
en nuestra vida: aplicaciones del hogar, educación, transportes,
entretenimiento o cuidado de la salud.
El uso de la AmI en el hogar está orientado a ayudar a los usua-

rios en sus tareas cotidianas, de manera que puedan realizarlas
más eficientemente o incluso que no tengan que realizarlas.
También aumentan la seguridad del usuario, consiguiendo con-
troles de acceso que solo pueden activar los propios usuarios o
detectando situaciones peligrosas o intrusos.
En la educación las aplicaciones que puede tener la AmI es

el desarrollo de aulas inteligentes que ayudan a que el desa-
rrollo de las clases sea más dinámico y a que los alumnos
se encuentren en un ambiente óptimo para ellos gracias a la
auto-regulación de la temperatura y la luz.
2.4 Conclusiones 37
En el campo de los transportes, la AmI permite detectar situa-

ciones peligrosas y alertar al conductor o incluso poner los
medios para evitar accidentes.
En el entretenimiento, gracias a la AmI es posible aprender de

las preferencias del usuario, de manera que se puedan ofrecer
opciones de ocio de acuerdo a las elecciones previas del usuario.
En el campo de la salud hay numerosas y muy diversas apli-

caciones de la AmI: tratamiento de enfermedades crónicas,
desórdenes mentales, enfermedades físicas, rehabilitación, etc.
Estos sistemas emplean diferentes métodos informáticos, como
la toma de decisiones automatizada, técnicas de planificación,
reconocimiento de patrones, etc.
Una aplicación concreta de la AmI es la Ambient Assisted

Living (AAL), que está orientada a que las personas con al-
gún tipo de limitación física o psíquica puedan vivir en sus
hogares llevando una vida normal ayudados por la Inteligencia
Ambiental.
En el caso concreto de las personas mayores, la AAL mejora

su calidad de vida ya que encontrarse en su hogar repercute
positivamente en su estado de ánimo.
Los sistemas de AAL han ido evolucionando desde los botones

de emergencia que el propio usuario tiene que pulsar para pedir
ayuda hasta sistemas que son capaces de detectar situaciones
de emergencia y enviar alertas.
El siguiente paso en la AAL son las aplicaciones que permiten, a

partir de los datos obtenidos, anticiparse a situaciones de riesgo
y poner las medidas necesarias para evitar que se produzcan.
También se han desarrollado sistemas de detección y regulación

de emociones con el fin de ayudar a que los usuarios tengan
bienestar emocional, ya que se ha demostrado que las emocio-
nes negativas son perjudiciales para el estado de salud de la
persona que las sufre.
Existen todavía muchos retos en el campo de la AmI, ya que es

un paradigma que requiere de la utilización de varias disciplinas,
y expertos en estos campos deben trabajar para mejorar los
problemas relacionados con los factores humanos, el diseño
e implementación de inteligencia artificial, y las cuestiones
sociales, éticas y de seguridad.
Capítulo 3
En este capítulo realizaremos un estudio sobre los antecedentes y

los estudios realizados en relación a la detección facial de emociones
utilizando la visión artificial. Para ello, se hará una descripción de
las teorías que existen actualmente para la descripción de emociones,
se revisarán los principales métodos de detección y codificación de
expresiones faciales, se hará un resumen de las bases de datos de
expresiones afectivas más utilizadas, y se explicarán algunos estudios
y experimentos que se han llevado a cabo sobre la detección facial
de emociones. Se concluirá comentando algunas aplicaciones de
detección de emociones.
Todos estos datos permitirán tener una mejor visión del estado
en el que se encuentra la detección facial de emociones, de cómo ha
evolucionado la detección automática y cuáles han sido sus principales
motivaciones, y servirán para saber qué se puede aportar a este campo.
3.1. Percepción de emociones
La percepción de emociones es la habilidad de tomar decisiones

acertadas sobre las experiencias de otro sujeto interpretando sus cam-
bios físicos. La forma de experimentar e interpretar las emociones
depende de la forma en que se perciben, así como de las experien-
40 Detección facial de emociones
cias pasadas. Conseguir automatizar el proceso de percepción de las

emociones de un usuario sería muy útil [Li & Deng, 2018]. Algunos
ejemplos de aplicación serían dar recomendaciones de productos a un
comprador basándose en su reacción a un anuncio publicitario, detec-
tar expresiones de dolor en la atención médica telemática, permitir
que un robot pueda iniciar acciones para mejorar el estado de ánimo
de una persona a la que se está monitorizando, etc.
Las emociones pueden ser interpretadas de forma relativamente

sencilla por los humanos, si bien no se puede asegurar que se in-
terpretan de manera precisa. Sin embargo, la interpretación de las
emociones empleando medios automáticos resulta mucho más com-
pleja. El reconocimiento automático de emociones es una tarea ligada
a varias disciplinas, como pueden ser psicología, lingüística, visión
artificial, análisis de discurso o aprendizaje automático [Tian et al.,
2001]. Por ello, el progreso del reconocimiento automático de emo-
ciones dependerá de los avances que se hagan en cada uno de esos
campos.
3.2. Clasificación de las emociones
De todas las disciplinas comentadas en la sección anterior, la

psicología sería el pilar básico en donde se apoyan todas las demás.
Existen numerosos estudios donde se analizan las emociones hu-
manas y sus diferentes clasificaciones. Podemos considerar que las
emociones se clasifican de tres maneras primarias, que proporcionan
información sobre la estructura y descripción de los sentimientos y
son muy importantes en el diseño de sistemas de reconocimiento
automático de emociones.
3.2.1. Conjunto discreto de categorías
La primera forma de conceptualización descrita por psicólogos

es en categorías discretas. El ejemplo más conocido de este tipo de
descripción son las seis categorías de emociones básicas: alegría, tris-
3.2 Clasificación de las emociones 41
Figura 3.1 Representación gráfica de las 6 emociones básicas
teza, miedo, enfado, asco y sorpresa. En la Figura 3.1 podemos ver

sus respectivas representaciones. El estudio inter-cultural Ekman &
Friesen [1971] muestra que los seres humanos representan las seis
emociones básicas con similares expresiones faciales, independien-
temente del entorno sociocultural en el que hayan crecido. La teoría
de las emociones básicas es en la que están basados la mayoría de
los sistemas de detección de emociones. La principal ventaja de este
esquema de representación es que, al describirse según emociones
que vemos diariamente, resulta muy intuitivo. Sin embargo, limitar la
descripción a una lista discreta de emociones hace que sea imposible
describir el amplio rango de las posibles emociones que se producen.
3.2.2. Descripción por dimensiones
Aunque la clasificación de emociones por categorías es la técnica

más empleada en los estudios de detección de emociones, existen
otras formas de describir y distribuir las emociones. Una de esas
alternativas es la descripción dimensional, donde el estado emocional

se describe de acuerdo a un grupo pequeño de dimensiones. Algunas
de estas dimensiones son:
Evaluación: Mide cómo se siente la persona, de negativo o

desagradable a positivo o agradable.
Activación: Mide si la persona está más o menos dispuesta a

actuar en un determinado estado emocional. Va de pasivo o
calmado a activo o excitado.
Control: Mide si la persona es capaz de dominar su emoción,

de “fuera de control” a “controlada”.
Previsibilidad: Mide si la persona encuentra una serie de even-

tos como predecibles o sorprendentes.
Esta representación permite etiquetar un rango mucho mayor de

emociones. Sin embargo, proyectar emociones multi-dimensionales
en espacios 2D o 3D hace que haya una importante pérdida de infor-
mación. Esto hace que algunas emociones, como por ejemplo miedo
y enfado, no se puedan distinguir en este tipo de representación. Ade-
más, no resulta intuitiva, por lo que un evaluador que tenga que utilizar
esta clasificación necesita formación previa para hacer un etiquetado
dimensional.
La escala de las dimensiones puede ser de cualquier tamaño,

aunque la mayoría de los sistemas basados en esta descripción suelen
utilizar escalas de dos niveles (positivo o negativo, activo o pasi-
vo, etc.) o de cuatro niveles con el fin de simplificar las tareas de
etiquetado y las representaciones.
3.2.3. Teoría de la valoración
Por último, una de las teorías de emociones más influyentes

de la psicología moderna es el enfoque que proporciona la teoría
de la valoración [Scherer, 2005], que es una extensión del esquema
3.2 Clasificación de las emociones 43
dimensional explicado en el apartado anterior. Según esta teoría, la

apreciación que tengamos de una situación provoca una respuesta
emocional que se va a basar en esa evaluación.
Esta representación describe una emoción mediante una serie de

estímulos, que incluyen:
Las características intrínsecas de los acontecimientos: novedad

del estímulo recibido, carácter agradable o desagradable.
El significado del acontecimiento para las necesidades o las

metas de la persona.
Habilidad de la persona para sobrellevar la situación y hacer

frente a las consecuencias.
La compatibilidad del acontecimiento con la motivación del

individuo, es decir, con sus creencias personales y sociales.
Sin embargo, este esquema resulta demasiado complejo para

el ámbito de la ingeniería ya que necesita datos sobre las vivencias
anteriores del individuo, situación y expectativas sociales, reacciones
emocionales anteriores, etc. Adaptar esta teoría al reconocimiento
automático de emociones es, a día de hoy, una tarea muy difícil de
conseguir.
3.2.4. Modelo circunflejo de Russell
Un modelo alternativo para la representación de emociones hu-

manas fue propuesto por Russell [1980] donde los estados emociona-
les se representan en un espacio bipolar de dos dimensiones: en el eje
vertical se representaría el grado de Activación (Alta-Baja), mientras
que en el eje horizontal se representa la Valencia (Agrado-Desagrado).
El centro del círculo representaría el estado neutral. De esta forma se
puede representar un gran número de emociones en lugar de distribuir-
se en categorías discretas. Por ejemplo, enfado podría considerarse
una combinación de desagrado extremo y activación medianamente
Figura 3.2 Modelo circunflejo de Russell
alta. En la Figura 3.2 podemos ver la representación del modelo de

Russell con la ubicación de algunas emociones.
3.3. Análisis de expresiones faciales
Actualmente, los sistemas de reconocimiento automático de

emociones que resultan menos intrusivos para los usuarios son los
que se basan en la detección y análisis de la expresión facial del sujeto.
La expresión facial es el movimiento o cambio de posición de uno o
varios músculos que se encuentran bajo la piel de la cara. Constituyen
una forma no verbal de comunicación y son un medio primordial para
enviar mensajes sociales entre personas [Bhardwaj & Dixit, 2016].
Aunque existen diferentes métodos de reconocer la emoción

de una persona además de la expresión facial, como por ejemplo el
tono de voz, postura, los gestos de las manos o el cuerpo, la mayor
parte de los sistemas de reconocimiento de emociones se basan en
3.3 Análisis de expresiones faciales 45
dos pasos: extracción de características faciales y clasificación [Saha

et al., 2014]. La extracción de características se refiere a definir un
conjunto de características o atributos que representen una emoción.
La clasificación se refiere a asociar las características identificadas a
una única emoción de un grupo, como alegría, enfado, sorpresa, etc. El
conjunto de características que se extrae y el clasificador utilizado para
decidir a qué emoción pertenecen son igualmente importantes para
el funcionamiento de un sistema de reconocimiento de emociones.
Un conjunto de características que no aporta información relevante
para la expresión facial hace que el algoritmo de clasificación no dé
un resultado correcto. Por ello, elegir las características adecuadas es
necesario para conseguir una alta precisión en la clasificación.
En los últimos años se han ido desarrollando diferentes métodos

para extraer las características faciales y analizarlas [Kumari et al.,
2015]. Para ello es necesaria una descripción completa de las expresio-
nes faciales. El Sistema de Codificación de Acciones Faciales (FACS)
[Ekman and Friesen, 2002] es un sistema basado en la observación
humana para detectar cambios en las características faciales. Este sis-
tema codifica todas las posibles expresiones faciales según Acciones
Unitarias (AU), que pueden ocurrir individualmente o combinadas. En
el Apéndice A se da un detalle más amplio de las Acciones Unitarias.
Aunque una expresión facial no conlleva necesariamente una

emoción, ya que ésta puede modificarse de forma voluntaria sin que
sea necesario que haya una emoción para ello, el término recono-
cimiento facial de expresiones se refiere a la clasificación de las
características faciales en una de las seis emociones básicas [Saha
et al., 2014]. Diferentes estudios muestran que las expresiones facia-
les reflejan el comportamiento cognitivo [Verma & Sharma, 2013] y
que de forma inconsciente los individuos observan los cambios en las
expresiones faciales de sus interlocutores y las utilizan para regular
su propio comportamiento en las interacciones sociales.
Las expresiones faciales asociadas a emociones generalmente se

describen como un conjunto de AUs. En la Tabla 3.1 podemos ver
las AUs que proponen Gunes & Piccardi [2006] para determinadas
emociones.
Emoción Expresión facial

Neutral Sin expresión
Enfado Cejas bajas y juntas
Aparecen líneas entre las cejas
Labio inferior tenso o levantado
Labio superior tenso y bajo por la acción de las
cejas
Labios juntos y extremos rectos o hacia abajo
Sorpresa Cejas levantadas
Piel bajo las cejas estirada
Surcos horizontales en la frente
Párpados abiertos
Mandíbula abierta o boca estirada
Miedo Cejas levantadas y juntas
Arrugas en la zona central de la frente
Párpados superiores abiertos y párpados inferio-
res levantados
Boca abierta
Labios ligeramente abiertos o estirados hacia atrás
Alegría Extremos de la boca estirados hacia arriba
Mejillas levantadas, boca entreabierta y posible
exposición de dientes
Pequeñas arrugas bajo los párpados inferiores
Surcos en los extremos exteriores de los ojos
Asco Labio superior levantado
Labio inferior levantado y presionando el labio
superior o ligeramente abierto
Nariz arrugada
Mejillas levantadas
Cejas bajas
Tristeza Extremos internos de las cejas levantados
Extremo interno del párpado superior levantado
Extremos de los labios estirados hacia abajo
Aburrimiento Ojos entrecerrados
Lamer labios
Movimiento de ojos en todas direcciones
Tabla 3.1 Emociones y gestos faciales asociados a ellas

3.3 Análisis de expresiones faciales 47
Las zonas de la cara consideradas más importantes para la detec-

ción de emociones son los ojos y los labios. Las expresiones faciales
se definen como deformaciones temporales de las características fa-
ciales: cejas, párpados, nariz, labios y texturas de la piel a causa
de la contracción de los músculos faciales [Fasel & Luettin, 2003].
Los cambios en la actividad muscular facial son muy breves, ya que
apenas duran unos segundos.
La forma de obtener las AUs de un sujeto es localizar una serie

de puntos faciales y comparar sus distancias para saber qué músculos
faciales se están moviendo. Este proceso se compone de varios pasos,
por ejemplo:
1. Detección de la cara: A partir de la entrada de datos, que puede

ser una imagen o una secuencia, el sistema detecta si hay caras.
2. Posición de la cabeza: Una vez detectada la cara, se detecta si

ésta está ladeada o girada, ya que las distancias entre los puntos
faciales pueden verse alteradas por este hecho.
3. Adquisición de la cara: A partir de los datos obtenidos en los

pasos anteriores, el sistema puede comenzar a analizar la cara
detectada. En el caso de una secuencia de imágenes puede
ocurrir que la cara solo se detecte en el primer frame y en los
siguientes se vaya haciendo un seguimiento de la misma.
4. Extracción de características: Puede realizarse una monitoriza-

ción geométrica, es decir, analizando todas las características
faciales que son susceptibles de sufrir cambios en la expresión
facial (ojos, cejas, boca, nariz, etc.) y registrando todas estas
características en un vector que representa la expresión facial
de manera geométrica; o bien puede realizarse una monitoriza-
ción de apariencia, es decir, tener solo en cuenta características
que aparecen de forma temporal en la cara, como pueden ser
arrugas y bultos, especialmente de la zona frontal, periorbital y
labial.
5. Reconocimiento de la expresión facial: Es el último paso que

debe realizar el sistema, a partir de los datos obtenidos en el
paso anterior se extraen conclusiones basadas en las AUs. El

resultado de este paso es la emoción que representa la expresión
facial analizada.
Un ejemplo de detección de emociones mediante la expresión

facial sería el trabajo desarrollado Soleymani et al. [2012], donde se
emplea un sistema que rastrea 19 puntos faciales de la zona de los
ojos y la boca. En la Figura 3.3 podemos ver cómo se distribuyen
estos puntos para obtener las siguientes características faciales:
Cejas [Figura 3.3(a)]: Ángulos entre la línea horizontal que

conecta los extremos internos de los ojos y la línea que conecta
los extremos de cada una de las cejas (f1 y f2). Distancias
verticales desde los extremos exteriores de las cejas a la línea
que conecta los extremos internos de los ojos (f3 y f4).
Ojos [Figura 3.3(b)]: Distancias entre los extremos externos de

los ojos y los párpados superiores (f5 y f10). Distancias entre los
extremos internos de los ojos y los párpados superiores (f6 y f9).
Distancias entre los extremos internos de los ojos y los párpados
inferiores (f8 y f11). Distancias entre los extremos externos
de los ojos y los párpados inferiores (f7 y f12). Distancias
verticales entre los párpados superiores e inferiores (f13 y f14).
Boca [Figura 3.3(c)]: Distancias entre el labio superior y los

extremos de la boca (f15 y f16). Distancias entre el labio inferior
y los extremos de la boca (f17 y f18). Distancia entre los dos
extremos de la boca (f19). Distancia entre el labio superior y el
inferior (f20).
Mediante este sistema se pueden analizar los cambios que se

producen en la expresión facial y relacionarlos con una determinada
emoción, para lo que se necesitará una base de datos que permita
determinar qué emoción hay detrás de una expresión.
3.4 Bases de datos 49
(a) Puntos cejas-ojos (b) Puntos ojos (c) Puntos boca

Figura 3.3 Puntos faciales y características
3.4. Bases de datos
Para realizar un software de reconocimiento automático de emo-

ciones es necesario contar con un conjunto de imágenes de expre-
siones emocionales debidamente etiquetadas [Roychowdhury & Em-
mons, 2015]. Sin embargo, las expresiones emocionales naturales
son difíciles de conseguir. Por un lado, una expresión emocional real
suele durar un breve espacio de tiempo, apenas unas centésimas de
segundo. Por otra parte, expresar una emoción depende del entorno
en el que se encuentra la persona. Por ello, si se encuentra en un
laboratorio realizando una prueba donde sabe que le están grabando
es muy probable que se sienta cohibida y no presente una expresión
emocional tan natural como en un entorno más amigable. Además, el
etiquetado manual de estas emociones es una tarea a la que hay que
dedicar mucho tiempo y en la que es fácil cometer errores. A causa
de estas dificultades, la mayor parte de las bases de datos y de los
estudios realizados sobre el reconocimiento automático de emocio-
nes se basan en emociones expresadas deliberadamente o posadas,
que se obtienen pidiendo a los sujetos que representen una serie de
expresiones frente a una cámara o micrófono.
Sin embargo, numerosos estudios sugieren que una emoción

fingida difiere en apariencia visual, sonido y tiempo de una espontá-
nea. Ekman & Rosenberg [2005] demuestra que el comportamiento
facial difiere tanto en los músculos utilizados como en su movimien-

to cuando la expresión es espontánea o fingida. Por ejemplo, las
sonrisas espontáneas suelen ser de menor amplitud, más largas de
duración y más lentas en su comienzo y finalización. También los
movimientos de las cejas son muy diferentes en intensidad, duración
y orden de ocurrencia. Por este motivo, los métodos de detección de
emociones que se han hecho sobre una base de datos de emociones
actuadas generalmente fallan cuando tienen que detectar una emoción
espontánea.
La falta de un conjunto de referencia de grabaciones de sonido o

vídeo de demostraciones afectivas humanas motivaron el desarrollo
de conjuntos de datos que pudieran utilizarse para entrenar y probar
sistemas automáticos de análisis de emociones. En la Tabla 3.2 se
muestran algunas de las bases de datos más importantes [Zeng et al.,
2009].
Para cada una de ellas se aporta la siguiente información:
1. Método de obtención de las emociones, es decir, si la emoción

es posada o espontánea.
2. Tamaño. Cantidad de muestras disponibles.
3. Sujetos. Número de personas diferentes de las que se han obte-

nido las imágenes. Si no se dispone de este dato se indica con
N/A.
4. Etiquetado. Categorías o dimensiones en las que se clasifican

las imágenes.
CK+ [Lucey et al., 2010]: La base de datos Cohn-Kanade Ex-

tendida (CK+) es la más utilizada de todas las bases de datos para el
entrenamiento y evaluación de los sistemas de detección de emocio-
nes. Contiene 593 vídeos de 123 sujetos. Estos vídeos contienen entre
10 y 60 frames y muestran como el sujeto cambia desde el estado
neutral hasta la emoción que está representando. De estos vídeos, 327
pertenecientes a 118 sujetos se han etiquetado con siete emociones
básicas (enfado, desprecio, asco, miedo, alegría, tristeza y sorpresa)
Referencia Obtención Tamaño Sujetos Etiquetado

CK+ Posado y 593 vídeos 210 adul- 6 emo. bási-
espontá- tos (3 ra- cas, desprecio
neo zas) y neutral
MMI Posado 740 imáge- 75 (3 ra- 6 emo. bá-
nes y 2900 zas) sicas, aburri-
vídeos miento, som-
nolencia, te-
rror y neutral
JAFFE Posado 213 imáge- 10 6 emo. bási-
nes cas y neutral
FABO Posado 210 vídeos 23 6 emo.
básicas, in-
certidumbre,
ansiedad,
aburrimiento
y neutral
FER2013 Posado y 35887 imá- N/A 6 emo. bási-
espontá- genes cas y neutral
neo
TFD Posado 112234 N/A 6 emo. bási-
imágenes cas y neutral
AFEW Posado y 1809 vídeos N/A 6 emo. bási-
espontá- cas y neutral
neo
SFEW Posado y 1766 imáge- N/A 6 emo. bási-
espontá- nes cas y neutral
neo
EmotioNet Posado y 1000000 N/A 23 emo.
espontá- imágenes básicas o
neo compuestas y
AUs
Bosphorus Posado 3396 imáge- 81 6 emo. bási-
nes cas y AUs
Oulu- Posado 2880 vídeos 80 6 emo. bási-
CASIA cas
RAF-DB Posado y 29672 imá- N/A 6 emo. bási-
espontá- genes cas, 11 com-
neo puestas y neu-
tral
BP4D- Espontáneo 41 vídeos 41 6 emo. bási-
Spontanous de larga cas y 2 com-
duración puestas
Tabla 3.2 Bases de datos sobre el comportamiento afectivo humano
basándose en el Facial Action Coding System (FACS). La forma más

común de utilizar esta base de datos es seleccionar el frame en el
que la cara se encuentra más deformada por la emoción que se está
representando, lo que se conoce como expresión pico, y el primer
frame, que contiene la expresión neutral del sujeto. Con estos frames
se entrena el sistema o bien se realiza la validación del mismo.
MMI [Pantic et al., 2005]: Es una base de datos realizada en la-

boratorio. Contiene 2900 vídeos de 75 sujetos. De ellos. 2130 vídeos
están etiquetados con las seis emociones básicas (alegría, tristeza,
miedo, enfado, asco y sorpresa). Se diferencia de la base de datos
CK+ en que la secuencia se compone de ascenso-pico-descenso. Es
decir, el sujeto comienza con expresión neutral, realiza la expresión
emocional a mitad del vídeo y vuelve a la expresión neutral al fina-
lizar la grabación. La base de datos MMI presenta además algunas
condiciones añadidas que pueden resultar un problema a la hora de de-
tectar emociones. Por ejemplo, algunos sujetos llevan accesorios que
pueden taparles parte de la cara (gafas, gorra, velo, bigote). Contiene
tanto expresiones posadas como espontáneas. Para todos los sujetos
se realiza una grabación frontal, y en algunos casos el vídeo contiene
también la grabación del perfil de la persona. Al igual que ocurría
con la base de datos CK+, los sistemas de entrenamiento y validación
más comunes seleccionan el primer frame para la expresión neutral y
la expresión pico para representar la emoción etiquetada en el vídeo.
JAFFE (Japasese Female Facial Expression) [Kyushu, 1998]:

Es una base de datos realizada en laboratorio. Está compuesta por
213 imágenes de expresiones emocionales posadas realizadas por 10
actrices japonesas. Cada una de ellas tiene 3 ó 4 imágenes para cada
una de las seis emociones básicas (alegría, tristeza, enfado, miedo,
asco y sorpresa) y una imagen con expresión neutral. Aunque esta
base de datos no contiene muchas imágenes, puede resultar muy
útil combinarla con otras bases de datos para ampliar el conjunto
de entrenamiento, ya que en CK+ y MMI no hay muchos sujetos
asiáticos.
FABO (FAce and BOdy gesture) [Gunes & Piccardi, 2006]:

Contiene vídeos que incluyen tanto expresiones faciales como gestos
corporales que representan muestras posadas de estados emociona-

les básicos y no básicos, ya que etiqueta las imágenes en las seis
emociones básicas y añade incertidumbre, ansiedad, aburrimiento y
neutralidad.
FER2013 (Facial Emotion Recognition 2013) [Goodfellow et al.,

2013]: Es una base de datos de gran escala que se ha realizado a través
de una búsqueda automática en la API de búsqueda de imágenes de
Google. Estas imágenes se han revisado posteriormente para descartar
las que no se ajustaban a la emoción que se había etiquetado, se
han recortado al área facial y se han reducido a 48x48 píxeles. Las
emociones están etiquetadas con las seis emociones básicas y el estado
neutral. Contiene un total de 35887 imágenes.
TFD (Toronto Face Database) [Susskind et al., 2010]: Es una

agrupación de varios conjuntos de imágenes de expresiones faciales.
Contiene 112234 imágenes, de las cuales 4178 están etiquetadas con
las seis emociones básicas y el estado neutral. Las caras se han detec-
tado previamente y se han reducido a un tamaño de 48x48 píxeles.
De esta manera todos los sujetos tienen las mismas coordenadas y la
misma distancia entre los ojos. Las imágenes se han subdividido de
forma oficial en tres grupos: un conjunto de entrenamiento (70 %),
otro de validación (10 %) y otro de pruebas (20 %).
AFEW (Acted Facial Expressions in the Wild) [Krizhevsky

et al., 2012]: Esta base de datos se utiliza como plataforma de eva-
luación del Emotion Recognition In The Wild Challenge (EmotiW),
que se celebra anualmente desde el año 2013. Este evento reúne a
investigadores de todo el mundo para presentar una serie de retos
con el fin de desarrollar sistemas que detecten emociones en entornos
concretos. Algunos de los retos que se han propuesto son detectar
emociones en escenas de películas, predicción del nivel de interés que
presentan un grupo de estudiantes durante una clase o detección de
emociones en fotografías grupales. La base de datos AFEW contiene
escenas de varias películas con expresiones espontáneas con diferen-
tes iluminaciones y posiciones de la cabeza, incluso con expresiones
faciales parcialmente tapadas. Los vídeos se etiquetan con las seis
emociones básicas y la expresión neutral. El etiquetado de esta base
de datos se está actualizando constantemente y también se añaden

nuevas imágenes de películas y programas de televisión.
SFEW (Static Facial Expressions in the Wild) [Dhall et al.,

2011]: Se ha creado a partir de una selección de frames de la ba-
se de datos AFEW. Estos frames se han elegido por ser una mejor
representación de las emociones etiquetadas y en la propia base de
datos se incluye un fichero con las coordenadas faciales de cada una
de las caras. Al igual que en AFEW, las imágenes se etiquetan con
una de las seis emociones básicas y el estado neutral. Las imágenes
están divididas oficialmente en entrenamiento, validación y pruebas.
Como esta base de datos también se utiliza en el evento EmotiW,
solo las etiquetas de los grupos de entrenamiento y validación están
disponibles. Las etiquetas de las imágenes de pruebas no se hacen
públicas y solo el organizador del reto tiene acceso a ellas.
EmotioNet [Benitez-Quiroz et al., 2016]: Es una base de da-

tos de gran escala. Contiene un millón de imágenes de expresiones
faciales obtenidas de Internet. De estas imágenes, 950000 han sido
etiquetadas usando un modelo de detección de acciones unitarias
(AU) y el resto se etiquetaron manualmente teniendo en cuenta solo
11 AUs. También se ha realizado un etiquetado manual de 2478 imá-
genes en las que se han tenido en cuenta las seis emociones básicas
y 18 emociones compuestas como culpabilidad, vergüenza, estrés o
desprecio [Du et al., 2014].
Bosphorus [Savran et al., 2008]: Esta base de datos contiene

imágenes 3D de las expresiones faciales. Además del etiquetado de
las seis emociones básicas se ha realizado un etiquetado adicional
con un conjunto de Acciones Unitarias. Los sujetos utilizados para
mostrar las emociones son actores para que las expresiones resulten
más realistas. Además se incluyen algunas oclusiones faciales (gafas,
vello facial y mano) para desarrollar algoritmos de reconocimiento
facial en condiciones adversas.
Oulu-CASIA [Zhao et al., 2011]: Incluye 2880 vídeos obtenidos

de 80 sujetos y etiquetados con las seis emociones básicas. Los vídeos
se han capturado con sistema de vídeo de espectroscopia del infrarrojo
cercano o con luz visible. Al igual que en la base de datos CK+, el

primer frame muestra al sujeto en estado neutral y al final del vídeo
muestra la expresión facial de la emoción que está representando.
RAF-DB (Real-world Affective Face Database) [Li & Deng,

2019]: Contiene 29672 imágenes muy diversas descargadas de Inter-
net. Se han etiquetado manualmente mediante colaboración abierta,
es decir, cada imagen ha sido valorada por un grupo de voluntarios
que finalmente ha decidido la etiqueta que asignarles. Para el etique-
tado de las emociones se han tenido en cuenta las seis emociones
básicas, el estado neutral y 11 emociones compuestas. De manera
oficial 15339 de esas imágenes se han dividido en dos grupos: 12271
imágenes para entrenamiento y 3068 para pruebas.
BU-3DFE (Binghamton University 3D Facial Expression) [Zhang

et al., 2013]: Esta base de datos solo se compone de emociones espon-
táneas. En ella los sujetos realizan una serie de tareas con las que se
pretende evocarles una emoción concreta. Entre tarea y tarea hay una
pequeña actividad de descanso para evitar que una emoción pueda
influir en la siguiente. Con las tareas propuestas se quiere conseguir
que los sujetos sientan alegría, tristeza, sorpresa, vergüenza, miedo,
dolor físico, enfado y asco. La base de datos se compone de los vídeos
completos de cada una de las sesiones, con etiquetas de los momentos
en los que comienza cada emoción.
Todas las bases de datos están disponibles al público, aunque

antes de que los responsables den acceso a un usuario éste debe
firmar un acuerdo de condiciones de uso en el que se compromete
a citar la fuente y no utilizar la base de datos con fines comerciales.
Asimismo, se especifican las imágenes para las que los sujetos han
dado consentimiento para que se puedan utilizar en publicaciones y
presentaciones.
Como se puede apreciar, en la mayoría de las bases de datos

se utiliza un conjunto discreto de categorías como descriptores de
las emociones, especialmente si se trabaja con emociones fingidas.
Para emociones espontáneas se pueden hacer clasificaciones amplias,
como distinguir entre positivo y negativo, o realizar descripciones

dimensionales en el espacio evaluación-activación.
Existen también bases de datos para detectar emociones por

los sonidos, pero la mayoría de las que hay disponibles hoy en día
consisten en grandes cantidades de datos sin etiquetar, lo que hace
que no puedan utilizarse para la detección automática de emociones.
La base de datos [Banse & Scherer, 1996] es la más utilizada para
este propósito, aunque está compuesta exclusivamente por emociones
fingidas. Los datos recogidos para emociones espontáneas se han
tomado en alguno de estos tres escenarios: conversación persona-
persona, interacción persona-ordenador y utilización de vídeos.
3.5. Estudios previos
La mayor parte de los trabajos realizados estudian las expre-

siones basándose en las 6 emociones básicas por sus propiedades
universales, por su constante presencia en nuestra experiencia emo-
cional diaria y por contar con varias bases de datos que clasifican
las emociones según este paradigma para realizar el aprendizaje y
las pruebas del sistema. Hay también algunos intentos para detectar
estados afectivos a partir de expresiones faciales determinadas, por
ejemplo fatiga, concentración, interés, confusión o frustración [Bosch
et al., 2015].
La mayoría de los estudios se basan en expresiones faciales de-

liberadas y, en muchas ocasiones, exageradas. Sin embargo, estos
sistemas no suelen detectar correctamente emociones espontáneas,
por lo que actualmente los estudios no emplean emociones fingidas
para el aprendizaje, si no que utilizan expresiones faciales espontáneas
que analizan mediante la localización de determinados puntos facia-
les para obtener las acciones faciales. También podemos encontrar
algunos estudios, como Valstar et al. [2006], que hacen una distinción
automática entre emociones fingidas y espontáneas, basándose en
características como velocidad, intensidad y duración de la activación
de los músculos faciales.
3.5 Estudios previos 57
Debido a la gran importancia de la expresión facial en la percep-

ción de una emoción, la mayor parte de los estudios de reconocimiento
visual de emociones están basados en el análisis de expresiones facia-
les. Actualmente se han propuesto diferentes estrategias para realizar
la detección de expresiones faciales. La mayor parte de estos estudios
realizan la detección de la expresión facial en imágenes estáticas, es
decir, no se tienen en cuenta los frames previos. De esta forma el
procesado de los datos se realiza más rápido y puede utilizarse en
aplicaciones reales (como cámaras) teniendo un rendimiento adecua-
do[Sabu & Mathai, 2015]. Además, hay una mayor cantidad de bases
de datos de imágenes estáticas que de vídeos, por lo que se cuenta
con más datos para realizar los entrenamientos y pruebas.
A continuación vamos a revisar los principales aspectos en los

que se centran los estudios actuales para la detección de emociones a
partir de la expresión facial.
3.5.1. Entrenamiento del modelo
Uno de los primeros problemas que aparecen a la hora de crear

un sistema de detección facial de emociones es el entrenamiento del
mismo. Es importante conseguir un conjunto de imágenes con las que
se obtenga un modelo que consiga predecir correctamente las emocio-
nes en cualquier situación. En los modelos de detección es fácil que se
produzca el problema del sobreajuste. Es decir, llega un momento en
el que añadir nuevas muestras al conjunto de entrenamiento empeora
los resultados. Esto se produce porque las nuevas muestras limitan
la clasificación, lo que hace que para muestras muy parecidas a las
del entrenamiento la predicción sea correcta, pero para muestras que
difieran ligeramente el sistema no es capaz de generalizar.
Con el fin de resolver este problema algunos estudios utilizan

modelos entrenados previamente (por ejemplo, [Szegedy et al., 2015]
[Krizhevsky et al., 2012] [Kahou et al., 2013]). Utilizando modelos
previamente entrenados se consigue un sistema que al recibir muestras
adicionales para el aprendizaje no se sobreajuste, lo cual permite
mejorar notablemente la detección de la expresión facial. Por ejemplo,
Figura 3.4 Imagen RGB (izquierda) y codificada mediante LBP (de-

recha)
en el estudio realizado por Knyazev et al. [2017] se utiliza un modelo

entrenado previamente y se añaden nuevas muestras procedentes de
la base de datos FER2013. Los resultados presentados en el artículo
demuestran que consiguen mejorar en un 1 % la tasa de aciertos
cuando afinan el entrenamiento usando imágenes adicionales.
3.5.2. Tratamiento de imágenes de entrada
En cuanto al tratamiento de imágenes, los estudios iniciales so-

bre reconocimiento facial de emociones utilizaban normalmente la
imagen RGB para obtener los puntos faciales. Sin embargo, estas
imágenes eran más difíciles de analizar por la falta de homogeneidad,
variaciones en la iluminación o falta de regularidad en las texturas,
que añadían factores al análisis facial que podían confundir al sistema
de detección [Aswathy, 2013]. Para paliar este problema en algunos
estudios proponen hacer una corrección manual de los puntos detec-
tados con el fin de asegurar que el análisis facial es adecuado (por
ejemplo, [Anvar et al., 2013] o [Osia & Bourlai, 2012]).
Algunos autores proponen codificar la imagen con histogramas

locales, que son más robustos a los cambios de iluminación. Por
ejemplo, realizar una modificación de una imagen RGB a una LBP
(Local binary pattern) como aparece en la Figura 3.4 es una posible
propuesta para hacer un sistema de detección facial que no se vea

afectado por la iluminación de la fotografía [Levi & Hassner, 2015].
Otro posible enfoque es eliminar las zonas faciales que no se

consideran críticas para la detección de emociones de la imagen
[Chen et al., 2018b], de manera que solo queden las regiones de
interés (cejas, ojos y boca). Esta imagen sería la entrada al sistema de
detección de puntos faciales, reduciendo así posibles errores.
Al ser esta la primera etapa de la detección de emociones es

importante realizar un buen análisis facial, ya que una imagen que no
aporte suficiente información hace que el resto del sistema sea poco
preciso [Manuj & Agrawal, 2015].
3.5.3. Sistemas multitarea o en cascada
Aunque la mayoría de los estudios realizados se centran solo en

la tarea de identificar las características adecuadas para la detección
de emociones, a la hora de realizar un reconocimiento facial aparecen
diferentes factores que pueden afectar al proceso. Algunos ejemplos
son la posición de la cabeza, las condiciones lumínicas o la morfología
facial de cada sujeto.
Por esto, algunos estudios proponen introducir un aprendizaje

multitarea para que el sistema sea capaz de identificar y anular cual-
quier factor que pueda estar afectando negativamente a la detección
de emociones. Por ejemplo, la creación de un sistema multitarea que
combina un detector de emociones con un detector de identidad fa-
cial [Meng et al., 2017]. Estos dos módulos se entrenan de manera
independiente, pero al utilizarlos simultáneamente se consigue forzar
al sistema a centrarse en la expresión actual de la cara y no verse
afectado por la forma de las características morfológicas del sujeto.
Otro enfoque propuesto es construir redes en cascada, es decir,

que la tarea de detección facial pase a través de varios módulos
combinados de forma secuencial, donde la salida de uno de ellos
es la entrada del siguiente. Por ejemplo, realizar una jerarquía de
características faciales que de mayor prioridad a las zonas que aportan

más información para la detección de emociones o que descarte las
características que no se consideren importantes.
Por ejemplo, en el trabajo realizado por Lv et al. [2014] conside-

ran que no todas las partes de la cara aportan la misma información
para detectar la expresión facial, por lo que proponen comenzar reali-
zando una detección facial general y trasladar estos datos a detectores
específicos de nariz, ojos y boca dispuestos de manera jerárquica. A
continuación, el sistema codifica estas características y las apila, de
manera que cuando el módulo de detección de emociones consume
estos datos tiene información adicional de las características a las que
debe dar más peso. Esto le permite eliminar información redundante
o descartar características que no son prioritarias.
3.5.4. Agregación de frames
La mayor parte de los modelos presentados hasta ahora se centran

en la detección de emociones en imágenes estáticas. Sin embargo, el
reconocimiento de expresiones faciales puede mejorar si en lugar de
revisar solo una imagen analiza los frames consecutivos de un vídeo.
La agregación de frames es una de las técnicas que se proponen para
mejorar la detección de emociones en un vídeo, ya que la detección
frame a frame no consigue resultados satisfactorios en estos casos.
La forma de aplicar este método es utilizar tantos vectores de

decisión como clases (emociones) quieran detectarse y se aplican
sobre una ventana fija de frames. Para cada uno de estos frames
se obtiene una emoción, de las cuales se elegiría como decisión
del algoritmo la que se haya repetido más veces. También existe la
opción de utilizar un modelo que devuelva la emoción asociada a
un porcentaje, lo cual permitiría realizar cálculos estadísticos más
complejos para obtener la decisión [Kahou et al., 2016].
En algunos trabajos se realiza también la agregación a nivel de

características, de manera que se establece una ventana de frames
sobre los que se hace una detección de características que se agregan
a posteriori. Sobre estas características se pueden aplicar diferentes

modelos estadísticos hasta obtener las características finales que el
detector utilizará para reconocer la emoción. La forma más simple de
utilizar este método es realizar la media, varianza, mínimo y máximo
de cada característica [Bargal et al., 2016]. Otros estudios utilizan
cálculos más complejos, como matrices de covarianza o distribuciones
gaussianas para obtener las características finales (por ejemplo, [Ding
et al., 2016] o [Liu et al., 2014]).
3.5.5. Medición de la intensidad de la expresión
Los métodos presentados en la sección anterior, al basarse en

modelos estadísticos, tienen más en cuenta las expresiones pico que
las pequeñas variaciones de expresión facial que pueden tener lugar a
lo largo de una secuencia de imágenes. Si tenemos en cuenta que en
un vídeo una persona normalmente presenta la misma expresión, pero
variando su intensidad, puede ser necesario construir un sistema que
sea capaz de detectar emociones en diversos niveles de intensidad,
para lo cual deben contar con imágenes de entrenamiento en las que
aparezcan estas diferentes intensidades y ser capaz de relacionarlas
con su emoción principal [Zhao et al., 2016].
En Kim et al. [2017] se utilizan hasta 5 etiquetas de intensidad

diferentes para las imágenes de entrenamiento (inicio, de inicio a pico,
pico, de pico a final y final). En este estudio se realizó un etiquetado
de imágenes siguiendo este esquema, además de utilizar las seis
emociones básicas, para conseguir hacer un sistema que codificase la
emoción y su nivel de intensidad.
Otra opción presentada en algunos trabajos es identificar para un

mismo individuo su expresión neutral y sus expresiones pico para cada
una de las emociones que se quiere detectar y obtener a partir de estos
datos cuáles serían sus expresiones de menor identidad utilizando
algoritmos de K-medias [Chen et al., 2018a].
3.5.6. Seguimiento de los puntos faciales
Los estudios psicológicos de emociones demuestran que los

movimientos de determinadas partes de la cara (ojos, nariz y boca)
contienen la información más descriptiva para la representación de
las emociones. Es por ello que, para obtener acciones faciales más
precisas, se han propuesto algunos modelos que rastrean las trayec-
torias de los puntos faciales de estas partes concretas de la cara para
obtener las variaciones que sufren en frames consecutivos.
El método que resulta más sencillo de implementar es concatenar

las coordenadas de cada uno de los puntos faciales para los que se
está realizando el seguimiento para generar un vector de trayectoria
[Jung et al., 2015]. También se puede formar un mapa de bits con las
ubicaciones de los puntos para que el detector de emociones pueda
analizar una nube de puntos [Yan et al., 2016].
3.5.7. Oclusiones y posición no frontal
La mayoría de las bases de datos disponibles presentan a los

sujetos desde una vista frontal y con la cara totalmente visible. Aun-
que algunas incluyen diferentes tipos de oclusiones, como pueden ser
gafas o vello facial, no es suficiente para preparar los sistemas contra
oclusiones parciales de los puntos faciales clave para la detección de
emociones. Esto unido a las diferentes posiciones que puede tener la
cabeza del sujeto del que se quiere detectar la emoción son los princi-
pales obstáculos que aparecen en la detección facial de emociones,
ya que cambian totalmente la apariencia de la expresión[Mahto &
Yadav, 2014].
Para solucionar el problema de la oclusión facial, Ranzato et al.

[2011] proponen un modelo de detección y predicción de puntos
faciales. Este modelo se entrena para ser capaz de detectar todos los
puntos faciales que necesita obtener a partir de los que consigue ver
en la imagen. El sistema realiza una representación a nivel de pixel de
la ubicación donde predice que están los puntos ocultos, de manera

que es capaz de reconstruir la expresión facial.
Para minimizar el impacto de la posición de la cabeza en la detec-

ción de emociones, Liu et al. [2018] proponen un sistema multitarea
que sea capaz de detectar el ángulo de la cabeza. Este sistema se com-
pone de tres módulos: extracción de características, reconocimiento
de la posición de la cabeza y transformación de características. Los
dos primeros módulos se ejecutan de manera simultánea, mientras
que el tercero se ejecuta en cascada con los datos obtenidos de los
dos anteriores.
3.5.8. Detección en imágenes 3D
Los sistemas de reconocimiento de expresiones faciales suelen

estar basados en el análisis de características faciales en dos dimensio-
nes. Los puntos que se extraen son características geométricas como la
forma de los ojos o la boca y la localización de sus extremos (como se
explicó en la Figura 3.3) o la aparición de características que indiquen
la textura facial, como pueden ser arrugas o protuberancias. Estos
métodos de extracción de características en 2D están desarrollados
para analizar expresiones faciales desde una vista frontal y cercana
al sujeto. El problema de la detección facial en dos dimensiones es
que no consigue resolver los problemas de cambios de iluminación y
posición [Pantic & Rothkrantz, 2000].
Un sistema capaz de analizar la expresión facial en una imagen

de tres dimensiones automáticamente sería robusto a los cambios de
posición de la cabeza o a variaciones en la iluminación de la cara. El
principal problema al que se enfrentan estos sistemas es que apenas
hay bases de datos con imágenes 3D con las que se puedan entrenar
adecuadamente [Deshmukh et al., 2016].
Otro problema es que para captar imágenes en 3D hace falta

una cámara específica que capte la profundidad de los puntos faciales
con respecto a ella. Esto daría información muy importante sobre
las características necesarias para la detección de emociones y sus
relaciones geométricas, pero el coste de estas cámaras es más elevado

que el de una cámara 2D, por lo que a la hora de instalar este equipa-
miento en un sistema real el precio del mismo se eleva. Sin embargo,
existen algunos estudios que utilizan cámaras kinect para obtener la
información facial o detección de salientes con el fin de extraer las
características utilizadas en la detección de emociones (por ejemplo,
[Ijjina & Mohan, 2014], [Uddin et al., 2017], [Chang et al., 2018]).
3.5.9. Detección audiovisual de emociones
En cuanto a la investigación referida al reconocimiento de emo-

ciones que combine tanto imagen como sonido, no existen todavía
muchos estudios, ya que la inmensa mayoría se entran en el reco-
nocimiento visual. Aunque para el ser humano parece evidente que
una fusión de datos visuales y auditivos beneficiaría enormemente el
análisis de emociones, no está claro cómo se puede conseguir esta
mejora en un detector automático de emociones.
En primer lugar, resulta complicado hacer un análisis simultáneo

de ambas entradas, por lo que la mayor parte de los trabajos optan
por analizarlas por separado y utilizar ambas salidas para tomar una
decisión [Ringeval et al., 2014]. En segundo lugar, no está claro si los
datos de audio y vídeo deben fusionarse desde el principio o podrían
combinarse los datos obtenidos tras un primer análisis [Wu et al.,
2014].
La principal razón de que la investigación de reconocimiento

audiovisual apenas se haya explorado es que los estudios sobre ex-
presiones faciales y vocales de las emociones suelen llevarse por
separado.
3.5.10. Sistemas de detección de estrés
En la actualidad, una de las principales motivaciones para desa-

rrollar sistemas de detección de emociones es la detección de mentiras.
Esta idea surge principalmente para evitar el terrorismo. Además, tam-
Figura 3.5 Diferencias entre los patrones termales según el tipo de

estrés
bién se persigue encontrar un método de detección de engaño más

fiable que los que se tienen hoy en día. El estrés emocional es una
reacción que va ligada a la mentira y que se manifiesta mediante
cambios fisiológicos en el sujeto, tales como aumento de pulsaciones,
sudor y respiración. El problema que presentan las pruebas actuales,
como el polígrafo, es que están basados en estos cambios fisiológi-
cos, por lo que es imprescindible colocar sensores al sujeto, lo que
aumenta el nivel de estrés y puede afectar a los resultados. Por este
motivo, las pruebas que implican un análisis intrusivo del sujeto no
se aceptan como pruebas judiciales.
Para detectar el estrés de una persona mediante imágenes, tra-

bajos como Yuen et al. [2009] o Tsiamyrtzis et al. [2007] utilizan
técnicas de imágenes termales, para lo que se necesitan cámaras
especiales capaces de captar la temperatura de una superficie y repre-
sentarla mediante una gama de colores. En ambos estudios se puede
apreciar que los cambios fisiológicos producidos por el estrés emo-
cional producen determinados patrones de temperatura en la frente
y la zona periorbital que son muy diferentes a cualquier otro tipo de
estrés. En la Figura 3.5 podemos ver una muestra de estos patrones.
Podemos ver resaltados en verde los puntos donde hay mayor

temperatura y en negro el punto más caliente. Como se puede apreciar,
el estrés emocional produce una mayor cantidad de puntos calientes en
la zona frontal que el estrés físico o la activación del bulbo raquídeo,
mientras que estos últimos muestran patrones de temperatura en la
zona periorbital.
Mediante este método de reconocimiento de estrés se pueden

obtener muy buenos resultados. En el caso de Tsiamyrtzis et al. [2007]
se hizo un experimento en el que los sujetos elegían libremente si
mentían o no y la tasa de acierto de este sistema fue de un 87.2 %.
3.6. Aplicaciones existentes
Una vez vistos los principales estudios en los que se basa el

reconocimiento automático de emociones, vamos a centrarnos en
las aplicaciones que hay actualmente para este fin. Para ello, se han
seleccionado varias aplicaciones que tienen características similares
al sistema que se pretende desarrollar. En esta sección se verán las
cualidades de estos sistemas y las funcionalidades más interesantes.
3.6.1. eMotion
Este software ha sido desarrollado por la empresa Visual Re-

cognition y utiliza tecnologías desarrolladas por la Universidad de
Ámsterdam. En la Figura 3.6 podemos ver una captura del programa
en funcionamiento.
Se puede descargar una versión demo gratuita de este programa

en la web de la empresa [eMotion, 2010]. Esta versión permite hacer
un análisis de emociones en tiempo real utilizando una webcam.
Como puede apreciarse en la imagen, el sistema hace un análisis
basándose en las seis emociones básicas y el estado neutral, que se da
cuando no se muestra ningún tipo de emoción. El sistema rastrea una
serie de características faciales y evalúa la emoción según la expresión
facial en cada momento. Las emociones se muestran por porcentajes,
por lo que el sistema también tiene en cuenta el grado emocional.
Además, en la parte de abajo de la imagen se puede apreciar un gráfico
donde se muestra el estado de ánimo del sujeto según las emociones
que va mostrando.
3.6 Aplicaciones existentes 67
Figura 3.6 Software eMotion
La versión completa del software tiene funcionalidades adicio-

nales, como cargar imágenes y vídeos para analizar, grabar el proceso
de análisis o jugar a Pong mediante expresiones faciales.
Tras comprobar el funcionamiento de esta aplicación se ha podi-

do ver que tiene algunos problemas para detectar los puntos faciales.
Por ejemplo, si el sujeto que está analizando lleva gafas, el programa
tiene problemas para detectar los ojos cuando los cristales reflejan la
luz. Otro problema que presenta es que si se produce algún tipo de
oclusión, por ejemplo, al apoyar la cara sobre una mano, considera
que la oclusión forma parte de la cara, por lo que el análisis de la
expresión no es correcto. Además, una vez que la oclusión desaparece,
la aplicación tarda unos segundos en recuperar los puntos faciales.
3.6.2. Bismart Face and Emotion Recognition
Esta aplicación móvil es capaz de detectar el estado de ánimo de

un usuario mediante un sistema de reconocimiento facial.
Figura 3.7 Software bismart
La herramienta escanea la cara del usuario a partir de una foto-

grafía de su teléfono y da como resultado una emoción. El conjunto de
emociones que detecta son enfado, desprecio, asco, miedo, felicidad,
neutralidad, tristeza y sorpresa.
Tras este proceso de reconocimiento facial, y gracias a una serie

de algoritmos, la aplicación crea un informe que muestra el análisis
del estado de ánimo y una sugerencia sobre cómo mejorarlo, utili-
zando para ello ofertas turísticas. Así, la herramienta devolverá al
usuario una serie de recomendaciones como: “estás tan estresado que
tienes que olvidarte del mundo por un rato en el spa más relajante
de Barcelona”, como se puede ver en la Figura 3.7. Además, no solo
detecta el estado emocional, sino que es capaz de determinar la edad
aproximada del sujeto a partir de la imagen facial, por lo que las
sugerencias propuestas se adaptarán al rango de edad de la persona.
La aplicación, basada en la nube de Microsoft, funciona con el

asistente digital Cortana, que permite al usuario interactuar de una
manera natural con la aplicación.
Bismart Face and Emotion Recognition tiene como objetivo,

según sus desarrolladores, utilizar los datos recogidos mediante los
análisis faciales y transformarlos en información útil para empresas
del sector turístico. Tiene, por tanto, un enfoque muy orientado al
Business Intelligence.
3.6 Aplicaciones existentes 69
Figura 3.8 Software FaceSense
3.6.3. FaceSense
Este proyecto está siendo desarrollado por el grupo de Affective

Computing del MIT. Podemos ver una captura del software en la
Figura 3.8.
La finalidad de este programa es analizar la reacción de una

persona cuando prueba un nuevo producto, lo que resulta muy útil
para hacer estudios de mercado y evaluar si un determinado produc-
to tendrá éxito cuando se venda. FaceSense detecta movimientos y
gestos faciales en tiempo real, lo que permite hacer un análisis de la
emoción que siente un sujeto.
Como se puede ver, el programa obtiene determinados puntos

faciales para analizar la expresión facial. En concreto este sistema
se centra en las cejas, los ojos y la boca. Los estados emocionales
que distingue este software están orientados a averiguar si al sujeto
le gusta el producto que está probando, por lo que las emociones se
dividen entre seis categorías: en desacuerdo, pensando, confundido,
de acuerdo, interesado y concentrado. En las dos representaciones
gráficas que se pueden ver en la parte de abajo de la imagen aparecen
los porcentajes de cada una de estas posibles emociones. Por último,

en la parte superior derecha de la imagen vemos un semáforo que
indica de manera general si al sujeto le gusta o no el producto. Permite
hacer un análisis facial a través de una entrada de vídeo a través de
webcam o cargar vídeos pregrabados.
El principal problema de este software es que cuando se produce

un movimiento repentino de la cabeza tarda un tiempo en recuperar los
puntos faciales, por lo que el análisis de la expresión queda incompleto
y en ocasiones puede ser erróneo. Otro problema, que aparece en el
propio vídeo de presentación del software es que una expresión puede
ser incorrectamente interpretada. En el caso del vídeo, el sujeto prueba
un café y el sabor amargo hace que su expresión facial se interprete
como asco. Sin embargo, al preguntar al sujeto su opinión sobre el
producto, ésta resulta ser positiva.
3.6.4. FaceReader
Este programa ha sido desarrollado por Noldus, una empresa

especializada en el desarrollo de software orientado a analizar el
comportamiento humano y animal, y, según sus desarrolladores, es
uno de los sistemas más fiables para detección de emociones. En la
Figura 3.9 podemos ver el aspecto que presenta el programa.
Este sistema busca determinados puntos para crear un mapa

facial y usa los movimientos de estos puntos para identificar las
expresiones faciales. Identifica las seis emociones básicas y el estado
neutral y no devuelve una sola emoción, sino que da el porcentaje
de cada una de ellas según el grado de la expresión facial que está
analizando. Permite trabajar con una webcam, o cargar imágenes y
vídeos para realizar el análisis. Además de mostrar cómo han ido
evolucionando las emociones en un determinado espacio de tiempo,
permite hacer un seguimiento de los movimientos faciales que se han
detectado: boca abierta, cejas levantadas, ojos cerrados, etc.
Una funcionalidad interesante de este software es que cuenta

con una API que funciona como interfaz para diferentes programas
3.7 Conclusiones 71
Figura 3.9 Software FaceReader, extraído de la página de Noldus
de software. Mediante esta API podemos indicar a un programa qué

debe hacer cuando FaceReader detecta una determinada emoción, con
lo que obtenemos un software capaz de responder al estado de ánimo
del usuario.
3.7. Conclusiones
En este tercer capítulo se ha detallado la situación actual en la

que se encuentra el análisis automático de emociones a partir de las
expresiones faciales. Podemos obtener las siguientes conclusiones de
esta sección:
El reconocimiento de emociones se basa en numerosos campos:

psicología, visión artificial, aprendizaje automático, lingüísti-
ca...
Existen distintas formas de clasificar las emociones. El sistema

más utilizado es el conjunto discreto de categorías, especialmen-
te para las seis emociones básicas: alegría, tristeza, sorpresa,
enfado, asco y miedo. También se añade el estado neutral, que

indicaría la ausencia de emociones detectables.
Para reconocer emociones se utilizan principalmente las ex-

presiones faciales, ya que es el método menos intrusivo. El
sistema FACS (Facial Action Coding System) permite codificar
las expresiones faciales según los músculos que se activan, lo
que se conoce como AUs (Action Units).
Para obtener las AUs en una expresión facial es necesario lo-

calizar y rastrear determinados puntos faciales. De esta forma
podemos analizar las características faciales que dan más infor-
mación acerca de las emociones: cejas, ojos y boca.
Para realizar el aprendizaje automático existen varias bases de

datos a nuestra disposición con representaciones gráficas del
comportamiento emocional humano. Estas emociones pueden
ser fingidas o espontáneas.
Hay numerosos estudios y aplicaciones sobre el reconocimiento

de emociones. Las principales motivaciones de estos trabajos
son:
1. Conseguir una experiencia de usuario más centrada en la

persona mediante la reacción del software a las emociones
del usuario.
2. Analizar las reacciones de una persona cuando prueba un
producto o ve un anuncio para hacer estudios de mercado.
3. Conseguir sistemas de detección de mentiras no intrusivos
y fiables.
En cuanto a los principales desafíos tecnológicos que encontra-

mos en este campo, podemos destacar los siguientes:
Construir un conjunto de datos que sean una referencia comple-

ta y de fácil acceso de las manifestaciones afectivas. De esta
manera habría una referencia para todas las diferentes inves-
tigaciones acerca del análisis automático del comportamiento
3.7 Conclusiones 73
afectivo humano y se podría establecer una evaluación apropia-

da de los procedimientos.
Desarrollar métodos para el análisis de las emociones espon-

táneas. Deben ser robustos ante cualquier tipo de movimiento
arbitrario u oclusión por parte de la persona observada.
Idear modelos y métodos para el análisis de emociones humanas

que consideren múltiples señales de manera conjunta, como por
ejemplo expresiones faciales y movimientos corporales, y que
valoren también el contexto en el que se encuentra la persona
(tema, tarea, entorno).
Desarrollar mejores métodos para la fusión multimodal (audio

y vídeo).
Parte II
Metodología y Desarrollo
Capítulo 4
Arquitectura de Inteligencia
Ambiental para la detección y
regulación de emociones
Una vez revisado el estado de la cuestión tanto en Inteligencia

Ambiental como en Reconocimiento Facial de Emociones, en el
capítulo actual vamos a presentar una posible arquitectura basada
en la Inteligencia Ambiental orientada a ayudar al cuidado de una
persona mayor en su hogar. Esta arquitectura realizará las funciones
de detección del estado emocional del usuario y la regulación de sus
emociones a través de diferentes métodos con el objetivo de orientar
al usuario hacia un estado de ánimo positivo o saludable.
Las técnicas y herramientas descritas en este capítulo están rela-

cionadas con conceptos de Inteligencia Ambiental. La AmI se adecúa
al desarrollo e implementación de sistemas globales que proporcionan
soluciones efectivas a problemas reales de la sociedad. Los objetivos
generales de esta arquitectura son:
1. Analizar los estados emocionales y las técnicas de regulación

basadas en el conocimiento de expertos en la materia.
2. Monitorizar y reconocer emociones en ambientes inteligentes.
3. Regular emociones adaptando el entorno.

Arquitectura de Inteligencia Ambiental para la detección y
78 regulación de emociones
4. Obtener un sistema inteligente de regulación de emociones.
5. Validar el sistema de regulación de emociones basado en cono-

cimiento experto.
4.1. Descripción general
Actualmente son necesarias arquitecturas que permitan desarro-

llar sistemas de software complejos. Por ello, es esencial diseñar las
arquitecturas en bloques de software, de manera que los programa-
dores tengan la capacidad de modificarlos o extenderlos para que
se adapten a las aplicaciones requeridas [Castillo et al., 2016]. Esto
permite que la aplicación pueda descomponerse en un conjunto de
módulos independientes que se comunican entre ellos, lo que hace
que la solución sea más flexible al hacer que la creación y el desarrollo
sean más rápidos. Utilizando este esquema, los componentes que se
definen son bloques reutilizables e independientes que se combinan
con otros componentes para construir sistemas específicos. Desde el
punto de vista del desarrollador, construir una aplicación consistiría
en ensamblar componentes que ya existen con otros creados por él.
La principal ventaja de la arquitectura modular es que reduce

el tiempo de desarrollo del software al tener la opción de utilizar o
mejorar bloques ya desarrollados. Además, la implementación a bajo
nivel es totalmente transparente para el usuario, lo que les permite
centrarse en el bloque que quieren desarrollar. La principal desventaja
es la complejidad, ya que para un proyecto pequeño es mejor escri-
bir el código directamente en lugar de preparar una infraestructura
modular. Para proyectos grandes, sin embargo, son la solución más
adecuada.
En la Figura 4.1 podemos ver el esquema general del sistema

propuesto [Fernández-Caballero et al., 2016]. Como se puede ver,
el sistema estaría compuesto por seis módulos, cada uno de ellos
dedicado a tareas específicas. Los nodos Detección Facial de Emoción,
Detección de Comportamiento y Detección de Valencia/Excitación,
que aparecen en la parte inferior de la Figura 4.1 se ocupan de procesar
4.1 Descripción general 79
Figura 4.1 Representación esquemática de la arquitectura distribuida

para la regulación de emociones en entornos inteligentes
los datos de los sensores y cámaras. Las diferentes salidas de estos

nodos de detección se unen en el nodo de Fusión para generar un
resultado consensuado a partir de los estados emocionales que se
han obtenido en cada uno de los módulos anteriores. La finalidad del
sistema es conseguir que el usuario tenga emociones positivas, por lo
que debe existir un módulo que indique si se debe hacer algún cambio
en el ambiente para que influir en el estado emocional de la persona.
Este proceso se realiza en el módulo Toma de decisión. Por último,
cuando la emoción se traduce a estímulos, el módulo de Activación es
el encargado de interactuar con los dispositivos físicos para realizar
cambios en el color de la iluminación o poner música.
4.1.1. Niveles de la arquitectura
En esta parte trataremos la organización de los módulos del siste-

ma propuesto. Es necesaria una jerarquía de niveles de software para
tratar los problemas que suelen surgir en los entornos reales, como
pueden ser ruido en los datos, procesado en tiempo real o abstracción
Figura 4.2 Representación de los niveles en los que se divide la

arquitectura
del hardware. Cada nivel está definido según la información que reci-
be de entrada, cómo se transforman esos datos y los resultados que
envía al siguiente nivel. En la Figura 4.2 aparecen representados estos
niveles.
Nivel 0: Hardware–Sensores y Actuadores
La arquitectura propuesta está compuesta por elementos software

ubicados a diferentes niveles. Sin embargo, para obtener los datos
es necesario tener elementos hardware al nivel más bajo. En este
caso, sería el nivel 0, que representaría a los elementos hardware
que se encargan de obtener datos del entorno y de ejecutar acciones
sobre él. En este nivel no habría módulos software, aunque sí que hay
elementos software interactuando directamente con él.
Los sensores son dispositivos que capturan datos del entorno y

los convierten en información en formato electrónico. Pueden clasifi-
carse según la información que capturan. Así, tendríamos sensores
de datos visuales, de datos biomédicos, de audio, de condiciones
ambientales, etc.
Los actuadores son dispositivos capaces de alterar el entorno

cuando reciben instrucciones y las transforman en acciones. Algunos
actuadores serían sistemas de sonido o luces LED.
Nivel 1: Adquisición
El software de este nivel maneja las comunicaciones con los

sensores. Para cada sensor hay un módulo en este nivel que registra el
dato recibido. Al ser el nivel más bajo de procesamiento, no consume
datos de otros niveles. Solo lee los datos a bajo nivel y los envía a los
siguientes niveles.
Nivel 2: Extracción de Características
Este es uno de los niveles más importantes. Aquí los datos prima-
rios se interpretan a través de diferentes algoritmos. Esto significa que
los datos de entrada se transforman en características más informati-
vas que resumen los datos básicos. Cada característica interpretada es
un dato de especial interés para los siguientes niveles.
Desde una perspectiva de visión computacional, este nivel se

encarga de detectar, reconocer y rastrear al usuario. En este sentido,
las características extraídas serían la emoción asociada a su expresión
facial, si se está moviendo mucho en la escena que se está registrando,
o si se encuentra alterado. Por lo tanto, este nivel consume los datos
primarios y los interpreta para que los siguientes niveles puedan
agruparlos.
Nivel 3: Fusión Multimodal
Es necesario realizar un paso de fusión para combinar todos

los datos obtenidos de los niveles anteriores, ya que se obtendrán
datos muy diferentes de los que se deben obtener conclusiones útiles
para que el sistema pueda actuar. De esta manera se consigue una
abstracción de la información a alto nivel, lo que se conoce como
fusión multimodal.
En este caso, reconocer la emoción del usuario que se está mo-

nitorizando es crucial. Para estar tarea, la arquitectura utiliza la ex-
presión facial, los parámetros biomédicos y el movimiento. La fusión
de todos estos resultados da una información más completa a la hora
de decidir la información del usuario. Este nivel consume los datos
obtenidos en el nivel 2 y obtiene una combinación de características
para un instante concreto. Este proceso da coherencia temporal a las
características.
Nivel 4: Detección de Eventos
Este nivel recibe un conjunto de características y las procesa. El

resultado es una descripción a alto nivel de la situación, por ejemplo,
el usuario está en un estado agradable. La entrada a este nivel sería el
resultado de la fusión multimodal, y se obtendría una conclusión del
estado del usuario al que se está monitorizando, que los siguientes
niveles emplearán para concluir las actuaciones que se deben realizar.
Nivel 5: Toma de Decisiones
Este nivel contendría la inteligencia del sistema. Tiene en cuenta

los eventos obtenidos por el Nivel 4 y reacciona decidiendo qué
acción se debe ejecutar. Por ejemplo, si se detecta que el usuario está
nervioso, este nivel decidiría hacer modificaciones en el ambiente
para que sea más relajante. La entrada sería, por tanto, la descripción
de la situación y la salida una descripción a alto nivel de las acciones
que se deben realizar. Este módulo podría decidir también no ejecutar
ninguna acción si la situación de la persona es agradable.
Nivel 6: Fisión Multimodal
Este nivel define el resultado particular de la acción. La entrada

sería la acción a alto nivel y ofrecería como salida un conjunto de
comandos que irían dirigidos a los diferentes actuadores del entorno.
Por ejemplo, si la acción a ejecutar es crear un ambiente relajante, la
fisión multimodal lanzaría comandos para reproducir música tranquila
o activar colores cálidos.
El proceso de fisión debe adecuarse a los gustos del usuario. Por

ello, cualquier información relativa a la persona monitorizada puede
ser de ayuda. Al saber sus preferencias algunas de las condiciones am-
bientales, como la música o los colores de luz, se pueden elegir según
estas preferencias. Esto hace que la actuación sobre las emociones
sea más eficiente y se haga de forma más rápida.
Nivel 7: Actuación
Este nivel es la contraparte del nivel 1. Aquí los módulos en

comunicación con los actuadores envían los comandos adecuados.
Hay un módulo encargado de gestionar cada actuador. Los módulos de

este nivel reciben las órdenes publicadas por la fisión multimodal. No
se envía información a otros niveles, solo se escribirían instrucciones a
bajo nivel en los componentes de hardware. Por ejemplo, si el módulo
a cargo de controlar el equipo de sonido recibe la orden de poner
música relajante, esto se transformaría en instrucciones a bajo nivel
que pararían la reproducción actual y pondrían una canción relajante.
4.1.2. Diseño de la arquitectura
En la Figura 4.3 se muestra el diseño completo de la arquitectura

[Fernández-Caballero et al., 2016], basado en la Figura 4.1. Como
se puede observar, hay tres partes diferenciadas: Detección de Emo-
ción, Regulación de Emoción y Control de Respuesta Emocional.
Detección de Emoción trabaja con los datos del usuario en ambiente
inteligente, mientras que Regulación de Emoción ejecuta las actuacio-
nes de música y color/luces en dicho ambiente. Control de Respuesta
Emocional funciona como un bucle de control para evaluar la ac-
tuación (Regulación de Emoción) desde la nueva percepción que
tiene el sistema (Detección de Emoción). En las siguientes secciones
utilizaremos la Figura 4.3 para detallar los diferentes nodos de la
arquitectura.
Figura 4.3 Diseño general de la arquitectura distribuida para detección y regulación de emociones en ambientes inteligentes
4.2 Detección de emociones 85
4.2. Detección de emociones
El módulo de Detección de Emociones se dedica a proporcionar

el estado emocional de la persona monitorizada en el ambiente de
atención a la salud. La detección de la emoción se basa en la obtención
y procesado de información a partir de diferentes sensores ubicados
en el entorno para reconocer determinados estados afectivos. Estos
sensores serían cámaras para detectar emociones a partir de la expre-
sión facial, cámaras para hacer un seguimiento del comportamiento y
sensores corporales para obtener parámetros fisiológicos. Todos estos
sensores aparecen representados en la parte inferior de la Figura 4.3.
En la parte izquierda de la imagen están las capas para la Detección
Facial de Emociones y a su derecha las de Detección de Comporta-
miento. En la parte derecha inferior de la imagen están representados
una serie de sensores de señales fisiológicas, que son capaces de pro-
porcionar al sistema una Clasificación de Valencia/Activación. Todos
los valores obtenidos por estos sensores se unen para obtener un valor
de Detección de Valencia/Activación optimizado.
Para la detección y regulación de emociones se va a utilizar el

modelo circunflejo de Russell [1980], al que ya se hizo referencia en
la sección 3.2.4. Larsen & Diener [1992] proponen una variante del
modelo de Russell con las dimensiones agradable vs. desagradable
y activación alta vs. baja. Medir el estado emocional de una persona
en una única dimensión positiva o negativa es muy diferente a me-
dirlo en dos dimensiones ortogonales. En la Figura 4.4 se muestra el
modelo circunflejo de Larsen y Diener, al que se han añadido las seis
emociones básicas en el borde del círculo.
La información adquirida de los sensores corporales y de las

cámaras es primordial para obtener una interpretación de la emoción
en términos de estado de ánimo positivo/negativo (o saludable/no
saludable). En esta propuesta la Figura 4.4 se utiliza para visualizar
los diferentes estados emocionales que se pueden proporcionar al
sistema mediante el módulo “Detección de Emoción”. Detección
Facial de Emoción ofrecerá como salida una de las seis emociones
básicas: Alegría, Tristeza, Enfado, Miedo, Asco y Sorpresa (estas
emociones aparecen señaladas en rojo en la imagen). Detección de

Comportamiento dará como resultado una etiqueta de Activado o
Desactivado, correspondiente a una alta o baja activación. Por último,
Detección de Valencia/Excitación mostrará una de las cuatro posibles
dimensiones de sentimientos: Nervioso, Relajado, Excitado y Aburri-
do (en las imágenes se muestran en cada uno de los extremos de las
dimensiones ortogonales).
De esta manera, todos los módulos obtendrán como salida una se-
rie de etiquetas diferentes entre ellas. Esta información puede detectar
estados emocionales distintos, algunos de ellos incluso en contradic-
ción con el detectado en otro módulo. Por ello, a un nivel superior,
encontramos el módulo “Clasificación de Emoción”, que es necesario
para conseguir una salida óptima. El estado emocional consensuado se
calcula fusionando los valores de Detección Facial de Emoción, De-
tección de Comportamiento y Detección de Valencia/Excitación. Es
importante conseguir una fusión de datos óptima, ya que la detección
y regulación de emociones solo es viable si todos los datos registrados
por los sensores dan suficiente información consensuada sobre la
emoción detectada. La emoción detectada se etiqueta finalmente en
una de estas categorías:
Sensación Agradable Activa
Sensación Agradable Inactiva
Sensación Desagradable Inactiva
Sensación Desagradable Activa
Estas etiquetas se corresponden con las líneas ortogonales mos-

tradas en la Figura 4.4 en los recuadros grises.
A continuación veremos más en detalle el funcionamiento de

cada uno de los módulos.
Figura 4.4 Modelo circunflejo para la detección de emociones en

4.2.1. Detección Facial de Emociones
El rostro es la mejor fuente donde se reflejan múltiples emocio-

nes y proporciona casi toda la información necesaria para el reco-
nocimiento de emociones. El canal visual es el más utilizado en los
estudios para la percepción de estímulos afectivos y para la lectura de
indicadores detectables. La interpretación de emociones faciales y su
correcta clasificación hace que se consiga una parte importante de la
identificación del estado emocional.
La propuesta realizada en este caso se basa en el Sistema de

Codificación de Acciones Faciales (FACS), que como se indicó en el
Capítulo 3, ofrece una descomposición detallada de los movimientos
de los músculos faciales y los clasifica en acciones unitarias (AU).
Como se analizó en el capítulo anterior, la mayor parte de los estudios
dedicados a la detección facial de emociones se centran en reconocer
las seis emociones básicas (Alegría, Tristeza, Enfado, Miedo, Asco
y Sorpresa) por su estabilidad a través de culturas, edades y otros
factores de identidad. Hemos decidido utilizar las emociones básicas
para que ayude a comparar nuestro planteamiento con los trabajos
realizados previamente.
La emoción se reconoce utilizando Máquinas de Vectores de

Soporte (SVM). El clasificador se ha entrenado y probado utilizando
las bases de datos JAFFE [Kyushu, 1998], MMI [Valstar & Pantic,
2010] y CK+[Lucey et al., 2010]. El detalle del desarrollo del módulo
de “Detección Facial de Emociones” y las pruebas realizadas sobre el
mismo se encuentran en los siguientes capítulos.
Las expresiones faciales se monitorizarán mediante cámaras

instaladas a la altura de la cabeza del usuario mientras realiza sus
tareas cotidianas. De esta manera, los micro-movimientos que realizan
los músculos faciales se capturan, evalúan y clasifican.
4.2.2. Detección de Comportamiento
El reconocimiento de emociones a partir de las expresiones cor-

porales es una tarea muy compleja. En el estudio realizado por Kleins-
mith & Bianchi-Berthouze [2012] se detalla el estado actual de la
percepción y reconocimiento de las expresiones afectivas corporales.
Este estudio se basa en el creciente interés en entender el papel de las
expresiones corporales como un importante canal de comunicación
de emociones. La investigación se centra en los sistemas de recono-
cimiento automático de estados afectivos utilizando las expresiones
corporales como una entrada de información al sistema. El estudio
finaliza planteando algunas preguntas abiertas sobre recolección de
datos, etiquetado, modelado y establecimiento de referencias para
poder comparar sistemas de reconocimiento automático. Como ya
indicamos, el objetivo del módulo de detección de comportamiento en
nuestro planteamiento es detectar el nivel de activación del paciente,
entendido como la cantidad de movimiento que realiza la persona en
el entorno. La salida de este nodo tendrá los valores Activo e Inactivo.
En “Adquisición de imagen” una capa específica se encarga de

capturar imágenes de una cámara situada sobre el usuario que detecta
pacientes en ambientes sanitarios inteligentes. Podrán utilizarse varias
cámaras para este propósito, de manera que la mayor parte de la
superficie donde habite la persona esté cubierta por estas cámaras.
La parte de “Segmentación de imagen” tiene como objetivo

realizar una detección inicial del paciente en la escena. Se realiza una
adaptación de la substracción Gaussiana de fondo para cada imagen
de entrada que se obtiene de las cámaras, de manera que se puede
realizar una detección de una o varias personas [Serrano-Cuerda
et al., 2013]. Para esta substracción se utiliza una implementación
del algoritmo basada en OpenCV [KaewTraKulPong & Bowden,
2002]. Este algoritmo construye un modelo de la escena de fondo
basándose en las probabilidades de cada pixel de tener un nivel de
color determinado. También se utiliza un algoritmo de detección de
sombra basado en el espacio computacional del modelo del fondo.
Figura 4.5 Detección de paciente en los instantes de tiempo t1 (a) y t2

(b)
Para la “Detección de Paciente” se define una región de interés

(ROI), que es el rectángulo mínimo que contiene un objeto. En este
caso, el objeto sería la persona que se está monitorizando. Puede
caracterizarse por un par de coordenadas (xmin , ymin ), (xmax , ymax ),
correspondientes a los vértices superior izquierdo e inferior derecho
de la ROI respectivamente. En la Figura 4.5 se muestra la salida del
proceso de “Detección de Paciente” en los instantes t1 y t2 . Los rectán-
gulos azules marcan la ROI en cada imagen. El tiempo transcurrido
entre las dos capturas en segundos es también un parámetro propuesto
por el sistema.
La “Extracción de Características” se encarga de obtener el

centro de la ROI que contiene al usuario en cada instante t. Una vez
que se han obtenido las coordenadas de dos instantes t1 yt2 , se calcula
la distancia Euclídea entre ellas utilizando la expresión 4.1:
q
d((x1 , y1 ,t1), (x2 , y2 ,t2)) = (x1 − x2)2 + (y1 − y2)2 (4.1)
Esta distancia se calcula para indicar el nivel de activación de la

persona. Si la distancia recorrida es superior al valor umbral la capa
de “Clasificación de Comportamiento” considera que la persona está
Activa entre los instantes t1 y t2 . Si no, se considera que está Inactiva.
Los resultados obtenidos para esta parte dan un 95 % de aciertos en el
reconocimiento de la ROI del usuario. En la Figura 4.5 el círculo rojo

señala el área de actividad en el momento t1 , que sería el área en la que
tendría que encontrarse el paciente en el instante t2 para considerar
que está Inactivo. Como en el instante t2 la coordenada central del
usuario se encuentra fuera de este círculo, el sistema detecta que está
Activo.
4.2.3. Detección de Valencia/Excitación
Las variables físicas y fisiológicas pueden contribuir a generar

un sistema más robusto de reconocimiento de emociones. Los in-
vestigadores neurofisiológicos coinciden en que sentir una emoción
conlleva cambios en el sistema nervioso autónomo (SNA) a diferentes
niveles de profundidad [Nasoz et al., 2003]. Las variables fisiológicas
están directamente conectadas con el SNA, por lo que dependiendo
de la naturaleza e intensidad de una emoción se podría observar una
respuesta fisiológica distinta en el sujeto. Por ejemplo, cuando una
persona siente miedo, el SNA provoca una respuesta de estrés agu-
do, secretando hormonas en el torrente sanguíneo y provocando un
aumento en la frecuencia cardíaca, el sudor corporal y el ritmo de
respiración. En este sentido, se ha utilizado un amplio conjunto de
señales fisiológicas para cuantificar estados emocionales. Los más
comunes son electrocardiogramas, electromiogramas, electroencefa-
logramas, presión sanguínea, actividad electrodérmica o respiración
[Koelstra et al., 2011]. El uso de accesorios inteligentes ligeros es
crucial para llevar a cabo esta tarea para que el intrusismo de los
dispositivos sea mínimo y no generen rechazo en el paciente. Por ello,
los avances en dispositivos electrónicos, miniaturización de sensores,
ahorro de energía y protocolos de comunicación eficientes hacen posi-
ble el desarrollo de una red inalámbrica para el área corporal, formada
por dispositivos integrados en las prendas de ropa o implantados en
el cuerpo humano que permiten una monitorización continua de las
señales fisiológicas.
En la arquitectura propuesta se describen dos sensores, utilizados

para recibir información en tiempo real. En concreto, se utilizarían un
sensor de respuesta electrodérmica y un sensor de frecuencia cardíaca.

Se utilizan para medir cómo de agradable o desagradable (valencia)
es un estímulo y cuánta emoción o tranquilidad (excitación) produce.
Un importante número de trabajos han demostrado el buen funciona-
miento de estos sensores para la detección de emociones (por ejemplo,
[Valenza et al., 2011] o [de Santos Sierra et al., 2011]). Las señales
fisiológicas se han utilizado también en algunos estudios para iden-
tificar estados emocionales no deseados e intentar guiar al usuario
hacia un estado más positivo. En la última década se han desarrollado
diferentes metodologías para la selección de modelos psicológicos,
preparaciones de conjuntos de entrenamiento, extracciones de carac-
terísticas y normalización y fusión de datos fisiológicos [Novak et al.,
2012].
La “Detección de Valencia/Excitación” basada en señales fisioló-

gicas necesita diferentes capas, tal y como se muestra en la Figura 4.3,
en la parte inferior derecha de la imagen. En primer lugar, se obtienen
los datos primarios y se normalizan a través de los sensores corpo-
rales y dispositivos electrónicos en la capa “Adquisición de Datos
Primarios”. Con esos datos, la capa de “Procesado de Señal” aplica
un conjunto de técnicas para mejorar la calidad de las señales. Para
mejorar el funcionamiento del sistema, la capa “Extracción de Ca-
racterísticas” extrae marcadores fisiológicos de los datos procesados
y los utiliza para alimentar al algoritmo de aprendizaje. Finalmente,
la capa de “Clasificación de Valencia/Excitación” realiza la tarea de
entrenamiento y de clasificación de las características emocionales.
4.2.4. Detección del estado emocional
Un sistema no debería operar utilizando una única fuente de

información debido a los problemas que pueden presentar los falsos
positivos, las oclusiones o el ruido en los resultados finales. Es ne-
cesario un paso de fusión de todos los datos obtenidos para reducir
la incertidumbre asociada a las características extraídas. En general,
los sistemas multimodales obtienen mejores resultados ya que son
capaces de limitar los errores al contar con información provenien-
te de varias fuentes. En caso de error normalmente se produce un

desacuerdo entre los diferentes módulos, mientras que si los resulta-
dos son correctos cada módulo debería coincidir con el resto y probar
el resultado común.
En el diseño propuesto se han utilizado diferentes métodos de

extracción de características a partir de los datos que se han obteni-
do de fuentes muy diversas. En el trabajo realizado por Medjahed
et al. [2011] se concluye que la fusión multimodal aumenta la fia-
bilidad de un sistema doméstico de atención sanitaria detectando
varias situaciones de aflicción. La fusión de datos propuesta en esta
investigación tiene en cuenta los posibles fallos temporales de los
sensores, consiguiendo así que el sistema sea robusto y fiable ante
casos de perturbaciones ambientales o limitaciones del material (du-
ración de las baterías, rango de alcance de radiofrecuencia, etc.). Otro
estudio [Koné et al., 2015] presenta un método de fusión de señales
fisiológicas (volumen sanguíneo y pulso, respiración, electromiogra-
fía y respuesta galvánica de la piel) para hacer un reconocimiento
multimodal de emociones.
La emoción pasa a ser por tanto una decisión tomada en el nodo

de Fusión Multimodal, que tiene en cuenta las decisiones locales del
análisis de expresión facial, comportamiento y parámetros biomédicos.
El estado emocional final se determina como una decisión compuesta
de las salidas generadas por esas tres fuentes independientes. De
esta manera, la emoción se representa como un patrón que incluye
indicadores espaciales, temporales y fisiológicos [Sokolova et al.,
2015a].
En nuestro caso, tenemos información proveniente de cámaras

y accesorios inteligentes que envían parámetros biométricos. Todas
estas características heterogéneas se combinan para dar un mayor
nivel de abstracción a la información. Esto se conoce como “Fu-
sión Multimodal”, representada en la parte central de la Figura 4.3.
En nuestro enfoque en particular, el reconocimiento de la emoción
del paciente en el entorno es vital para realizar correctamente los
siguientes pasos. Para esta tarea, la arquitectura usa características
relacionadas con los datos del paciente: parámetros fisiológicos, cara
y comportamiento. La fusión de todas estas características da como

resultado una información más completa a la hora de decidir el estado
emocional. Tras la capa de “Fusión Multimodal” es posible conseguir
un mayor consenso para la detección de la emoción. El resultado es
una descripción a alto nivel de la situación. Por ejemplo, el paciente
se encuentra en un estado emocional positivo o sano, lo cual resulta
en una mejor detección de emoción.
La “Fusión Multimodal” se realiza a través de una Red Neuronal

Artificial. Las emociones que se han detectado en los módulos previos,
es decir, la fusión de los sensores fisiológicos resultado de “Detección
de Valencia/Excitación”, el nivel de activación obtenido en “Detección
de Comportamiento” y la emoción básica de “Detección Facial de
Emoción”, son las entradas que recibe la Red Neuronal Artificial,
como aparece en la Figura 4.6. Para cada emoción en la capa de
entrada se recibe la probabilidad de la emoción dominante. La capa
de salida ofrece la probabilidad de que el paciente tenga cada una de
las posibles combinaciones de “Activación/Agrado”.
La salida de la Red Neuronal Artificial indica la dimensión orto-

gonal dominante del modelo circunflejo, además de dar coherencia
entre todas las emociones que detectan los diferentes módulos que
componen el sistema. Por ejemplo, es coherente que las emociones
parciales del usuario sean Miedo (detección facial), Activado (detec-
ción de comportamiento) y Nervioso (señales fisiológicas). En ese
caso, la salida de la red neuronal dará como resultado una probabilidad
muy alta de que el estado del paciente sea Sensación Desagradable
Activa. Es posible que un paciente pueda sentir una combinación de
emociones. Sin embargo, si el sistema detecta una tupla de emociones
que no son coherentes, la salida de la red neuronal será una probabi-
lidad baja en las cuatro dimensiones ortogonales. Por ejemplo, este
caso se produciría si se detectan las emociones Tristeza, Activado y
Aburrido.
Figura 4.6 Red Neuronal Artificial dedicada a la fusión multimodal

Figura 4.7 Modelo circunflejo incluyendo las sensaciones positivas y

negativas
4.3. Regulación de emociones
La regulación de emociones se refiere al conjunto de procesos

que consiguen, o bien que una emoción no emerja, o bien prevenir
que ésta se exprese cuando dicha emoción se ha iniciado [Gross &
Feldman Barrett, 2011]. El objetivo de la regulación de emociones
es proporcionar las mejores condiciones de actuación musical y de
color/luz para conseguir la emoción deseada en la persona que se
está monitorizando. Siguiendo la idea presentada por Bachorik et al.
[2009], la propuesta realizada en esta arquitectura es el uso simultáneo
de múltiples técnicas de inducción para regular el estado emocional
de los pacientes en entornos inteligentes. En la Figura 4.7 se muestra
el modelo circunflejo, donde se han indicado en rojo las sensaciones
negativas (perjudiciales), en verde los estados emocionales positivos
(sanos) y en azul la zona del modelo que sería más agradable para el
usuario.
4.3 Regulación de emociones 97
4.3.1. Regulación emocional a través de la música
Los psicólogos y neurocientíficos cognitivos han identificado las

estructuras y redes cerebrales relacionadas con el procesamiento de
la música, que incluyen percepción de música, emociones y proce-
samiento sensorial [Hunt, 2015]. Varios estudios de neuropsicología
han investigado las reacciones a determinados elementos musicales,
como son melodías [Brattico et al., 2006], disonancias y consonan-
cias [Koelsch et al., 2006], canciones en escalas mayores y menores
[Mizuno & Sugishita, 2007], ritmos [Samson et al., 2001] o timbres
musicales [Caclin et al., 2006]. La regulación de emociones a través
de la música se considera una de las funciones más importantes de la
música. En Gabrielsson & Lindström [2010]se puede encontrar un
resumen del impacto que tienen los diferentes elementos musicales en
la comunicación de determinadas emociones al oyente. Este trabajo
indica que los elementos más potentes para este fin y que se estudian
con más frecuencia son el modo, tempo, dinámica, articulación, tim-
bre y fraseo. Todas estas características son muy importantes y se ha
demostrado que influyen en la emoción del oyente. Las preferencias
musicales del usuario se tratan como estados afectivos, ya que me-
diante ellas se puede conseguir una valencia determinada (experiencia
positiva o negativa) [Juslin & Sloboda, 2001].
En nuestra arquitectura, “Regulación de emoción musical” o

“Activación musical” se centra en las figuras musicales, un importante
elemento musical relacionado con el ritmo. Los dos componentes
musicales de la figura musical utilizados en este caso son el tempo
y la unidad rítmica. Además del efecto del modo, el tempo ayuda
a modular el nivel de las emociones, ya que un tempo más rápido
se asocia a emociones de enfado o felicidad, mientras que un tempo
lento induce sentimientos de tristeza y tranquilidad Fernández-Sotos
et al. [2016]. Esto sugiere que el tempo puede modular el valor de
excitación de las emociones [Trochidis, 2013].
El tempo es un elemento esencial de la figura musical. Permite

percibir la música de una manera organizada, formando la base en
la que las líneas armónicas se construyen. Las ventajas que conlle-
va el aprendizaje de los niños en cuanto a percepción, adquisición

y reproducción del tempo es un tema ampliamente defendido. Esta
práctica produce efectos positivos en la lectura, aprendizaje de vo-
cabulario, matemáticas y coordinación motriz en los más jóvenes
[Weikart, 2003]. Los niños perciben mejor las respuestas que reciben
del exterior a través de un compás constante, que les permite dar sen-
tido lógico a su mundo. Este elemento está presente en las acciones
diarias y se puede observar en el habla y los movimientos corpora-
les que hacen las personas. Por ejemplo, dos individuos en contacto
tienden a sincronizar sus movimientos e intentan establecer un patrón
común de tiempo [Norris, 2009]. Los tempos también se observan
en el discurso verbal, por ejemplo, al hacer una pregunta y dar una
respuesta. Este hecho se nota en los gestos y movimientos asociados
al discurso. Esta situación se produce también cuando se escucha
música de fondo. En esta situación el oyente tiende a sincronizar sus
movimientos con el tempo que percibe en la música.
En relación al ritmo, los patrones rítmicos básicos se consideran

binarios o ternarios. Estos patrones están presentes en los continuos
movimientos del ser humano, por ejemplo, caminar. Cada categoría
de métrica viene definida por la subdivisión de pulsos en cada compás.
Por ejemplo, una métrica binaria es un patrón musical con una medida
divisible entre dos. Esto incluye ritmos simples como 2/2 o 4/4, pero
también compases más complejos como 6/8. Un patrón de métrica
ternaria tiene tres pulsos por medida. Jaques-Dalcroze [2014] hace
hincapié en la importancia de implementar movimientos rítmicos,
percibidos a través de la música y representados a través del cuerpo
humano en su parte rítmica y en el correcto equilibro del sistema
nervioso. En sus trabajos enfatiza que el ritmo es movimiento, y
todo movimiento necesita espacio y tiempo para realizarse. Por ello,
comienza con un ritmo binario, que se asocia a caminar. Por esta
razón una de las metodologías básicas utilizadas es la asociación de
negras (la unidad básica en compases de dos por cuatro) con caminar,
corcheas con correr, y corcheas y semicorcheas con saltar.
En la Figura 4.8 se muestra cómo combinar el uso de tempo y

unidades rítmicas para regular emociones. En ella se muestran los
valores de figuras musicales que proporcionan la transición deseada
de un estado de ánimo negativo a uno positivo, de acuerdo a experi-

mentos realizados previamente [Fernández-Sotos et al., 2015]. Esta
figura también se basa en el conocimiento experto que psicólogos y
neurocientíficos han descrito en las últimas décadas. Algunos estu-
dios (por ejemplo, [Ito et al., 1998] o [Libkuman et al., 2007]) han
demostrado que las dimensiones ortogonales, valencia y excitación,
no son independientes entre sí. Forman una función en forma de V o
de boomerang, donde las imágenes desagradables tienden a producir
más excitación que los estímulos agradables, y donde tanto las imáge-
nes agradables como desagradables producen más excitación que los
estímulos neutrales. Otros estudios han demostrado que los estímulos
emocionales que producen una excitación alta o baja dependen de
distintos procesos. Por un lado, los estímulos negativos que producen
una excitación baja activan procesos orientados a un objetivo, que
tienden a activar procesos controlados y que consumen energía [Ken-
singer & Corkin, 2004]. Por otro lado, si se recibe información que
produzca una alta excitación se activan procesos más orientados a
estímulos, que tienden a captar la atención automáticamente y reducir
el esfuerzo cognitivo [Dolan, 2002]
En la arquitectura propuesta, la intervención se hará solo en

situaciones donde el estado emocional negativo resulte perjudicial
y sea necesaria una transición a un estado emocional positivo. Los
estados emocionales negativos no son siempre perjudiciales para la
salud. De hecho, algunas emociones, como miedo, pueden provocar
una respuesta de lucha o huida, ayudando a la persona a tratar con una
situación de peligro. También el estrés puede mejorar los procesos de
memoria o aprendizaje en determinadas circunstancias. En nuestro
caso, tratamos situaciones donde la emoción negativa puede resultar
perjudicial para la salud del paciente. Por ejemplo, una persona mayor
puede tender a aislarse cuando empieza a sentirse sola, aumentando
la probabilidad de sufrir enfermedades mentales como depresión o
ansiedad. En esta situación específica, es recomendable modificar el
estado de ánimo de esa persona como medida preventiva.
Dependiendo de la posición de partida de la emoción detectada

en las dimensiones ortogonales, tendremos los siguientes casos:
Figura 4.8 Modelo circunflejo para la regulación de emociones en

Sensación Desagradable Activa: Es un estado perjudicial, por

lo que es necesario realizar una transición a un estado sano.
De acuerdo con diferentes estudios psicológicos, en primer
lugar se debe reducir el nivel de activación. Como se puede ver
en la Figura 4.8, se reproduciría una pieza musical basada en
corcheas y un tempo de 120 bpm. Cuando el sistema detecta
que la activación de la persona monitorizada está por debajo
de un valor predeterminado, se reproduce otra pieza musical a
90 bpm y compuesta por redondas y blancas. Esta transición se
representa con la flecha verde. Para la reproducción de piezas
musicales habría una base de datos completa y variada.
Sensación Desagradable Inactiva: También es un estado emo-

cional perjudicial. En este caso, no es necesario reducir el nivel
de activación del paciente. Como en el caso anterior, se repro-
duce una pieza musical a 90 bpm compuesta de redondas y
blancas.
Sensación Agradable Inactiva: Es un estado emocional sano.

Sin embargo, en la arquitectura propuesta se intentará man-
tener al paciente en un estado lo más cercano a “Agradable”
posible. Por ello, se prevé que el estado emocional ideal sería
un equilibrio entre Sensación Agradable Inactiva y Sensación
Agradable Activa, que dependerá de cómo reaccione la persona
monitorizada. Para pasar a Sensación Agradable Activa son ne-
cesarios dos pasos. En primer lugar, una pieza musical basada
en corcheas, y en segundo lugar una pieza con un tempo de 120
bpm.
Sensación Agradable Activa: Este caso es similar al anterior.

Tendríamos que intentar llevar al paciente a Sensación Agra-
dable Inactiva, para lo cual se reproduce en primer lugar una
pieza musical basada en redondas y blancas, y en segundo lugar
una pieza a 90 bpm.
4.3.2. Regulación emocional a través el color
La luz es uno de los principales factores ambientales que pueden

influir en un usuario. Por ello, el impacto afectivo que tiene ha sido
estudiado y demostrado. La exposición a luz y luminosidad afectan
a nuestro estado de ánimo. Por ello, muchos investigadores creen
que la luz se puede utilizar para modificar o mejorar los estados
emocionales. La regulación bioquímica y de los ritmos hormonales es
uno de los efectos positivos que tiene la luz en los seres humanos. En
este sentido, Grandner et al. [2010] han investigado cómo los cambios
en la exposición a la luz se relacionan con la calidad de vida y las
funciones sociales y emocionales.
El color es también un factor presente en cualquier entorno. La

influencia del color en las emociones humanas se ha discutido en
numerosos estudios (por ejemplo, [Sokolova et al., 2015b], [Sokolova
& Fernández-Caballero, 2015], [Sokolova et al., 2015a], [Castillo
et al., 2014]). Muchos autores señalan que determinados colores
son muy influyentes para conseguir determinadas emociones o para
regularlas. Por ejemplo, en un experimento realizado por [Hårleman,
2004] se pretendía descubrir posibles relaciones entre colores y grupos
de colores y cambios emocionales en un grupo de participantes. El
autor ofrece algunas conclusiones interesantes, donde se indica que
es posible relacionar colores con emociones.
Por ello, el módulo de “Actuación de Color/Luz” de la Figura 4.3

se basa en la combinación de luz y color, ya que pueden ejercer una
doble influencia en la regulación de la emoción. Para esta propuesta
se utilizarán tiras de LEDs por las ventajas de ahorro de energía y
de eficiencia ambiental que pueden ofrecer al sistema, además de
que son flexibles y fáciles de controlar. Por ello, pueden instalarse
y retirarse fácilmente en las habitaciones para adecuarse a cualquier
necesidad.
En la Figura 4.8 se pueden apreciar los colores que proporcionan

las transiciones más adecuadas de estados de ánimos negativos a
positivos [Ortiz-García-Cervigón et al., 2015]. Al igual que ocurría
con la regulación mediante música, dependiendo de la dimensión
4.4 Control de respuesta emocional 103
ortogonal a la que pertenezca la emoción detectada, la actuación del

sistema será distinta:
Sensación Desagradable Activa: Debe llevarse al usuario al

estado Sensación Agradable Inactiva, para lo cual es necesario
realizar dos pasos. En primer lugar, las tiras de LED cambian
a los colores Azul, Azul claro o Violeta para reducir el nivel
de Activación del paciente. En segundo lugar, cambiarían a
Rosa, Verde o Amarillo. Los colores deben ser personalizados
de acuerdo a la reacción del usuario.
Sensación Desagradable Inactiva: Se debe llevar al paciente

a Sensación Agradable Inactiva a través de los colores Rosa,
Verde y Amarillo.
Sensación Agradable Inactiva: Este es un estado emocional

sano, pero para intentar mantener al paciente en un estado lo
más “Agradable” posible se debe intentar alcanzar un equilibrio
entre Sensación Agradable Activa y Sensación Agradable Inac-
tiva. Por ello, para intentar llevar al paciente a una Sensación
Agradable Activa son necesarios dos pasos. En primer lugar
sería necesaria luz Naranja y en segundo lugar luz Roja.
Sensación Agradable Activa: Este caso es similar al anterior.

En primer lugar sería necesaria una luz Azul, y en el segundo
paso se utilizaría la luz Amarilla.
4.4. Control de respuesta emocional
El módulo de “Control de respuesta emocional” se encarga de

analizar la emoción detectada por “Detección de emoción” y de
proporcionar las órdenes necesarias para ajustar adecuadamente la
“Regulación de emoción”. Los expertos realizan un papel fundamental
en esta tarea, ya que es necesario tener una visión precisa de cómo
los estímulos afectan a las emociones para decidir las condiciones de
música, color y luz que deben utilizarse en cada situación.
El sistema debe decidir automáticamente la reacción adecuada

con la que debe responder a la emoción detectada. El conocimiento
que se utiliza para tomar este tipo de decisiones lo proporcionan
expertos en la materia. La toma de decisiones puede variar de un
paciente a otro y también para un mismo paciente puede depender de
su evolución. Por ello, es importante proporcionar un método sencillo
para actualizar el conocimiento en el que se basan las decisiones.
La inteligencia del sistema se encuentra en “Toma de decisión”, ya
que es en ese módulo donde se considera la emoción detectada y se
reacciona decidiendo la acción a ejecutar. Por ejemplo, cuando el
sistema detecta el estado de ánimo del paciente y varía el color o
cambia la música. Esta capa genera las órdenes que deben ejecutar
los diferentes actuadores en el entorno inteligente.
La “Fisión Multimodal” define el resultado particular de una

acción. Un componente de fisión multimodal acepta acciones y las
divide en varias órdenes, cada una de ellas va dirigida a los diferentes
actuadores del entorno. Por ejemplo, si la acción es crear un ambiente
relajante, la fisión multimodal lanzará órdenes de atenuar las luces,
proyectar colores cálidos y poner música agradable. El proceso de
fisión depende de las necesidades del paciente. Por ello, cualquier
información asociada al paciente puede ser muy útil. Sabiendo sus ne-
cesidades sanitarias algunas condiciones del entorno, como la música
ambiental, pueden seleccionarse de acuerdo a esta información.
4.4.1. Toma de decisión
La capa de “Toma de decisión” se encarga de realizar un control

basado en lógica difusa. La lógica difusa es un tipo de inteligen-
cia artificial que se utiliza para resolver problemas de decisión en
condiciones de condiciones muy inciertas. Se utiliza este tipo de in-
teligencia porque el sistema que se quiere realizar no es lineal y es
complejo de modelar. Permite implementar un razonamiento simi-
lar al humano, lo cual es óptimo para sistemas multiagente como el
propuesto en esta arquitectura. Por ello, se propone un mecanismo
de fusión basado en lógica difusa. Para mejorar el funcionamien-
Figura 4.9 Estimación de la valencia y la excitación a través de compu-

tación de vectores como entrada al control difuso
to general del sistema. La lógica difusa simplifica, por un lado, el

problema de identificación del estado emocional y, por otro, el reco-
nocimiento de patrones emocionales. La simulación del proceso de
razonamiento se realiza utilizando reglas difusas "SI-ENTONCES” y
datos de la base de conocimiento. Las reglas se generan basándose en
el conocimiento de expertos y variables lingüísticas Sokolova et al.
[2015a].
La salida del módulo de “Detección de emoción” permite trabajar

con un esquema de control neuro-difuso. La transformación de la
probabilidad de estar en uno de los estados emocionales resultantes a
una medida de excitación y valencia se realiza a través de una suma y
escalado de vectores, como se representa en la Figura 4.9.
El primer objetivo, de acuerdo con los expertos en regulación de

emociones, debe ser reducir el nivel de activación cuando está alto y la
valencia es baja. El segundo objetivo sería mover al paciente hacia la
zona “Agradable”. Esto genera trayectorias curvas, representadas en
la Figura 4.10. Las variables de estado propuestas para el sistema de
control difuso son excitación (Agradable-Desagradable) y valencia
(Activado-Desactivado). Por ello, la Red Neuronal Artificial descrita
en la Figura 4.6 dará como resultado un valor de 1 a 9 en las dos
Figura 4.10 Trayectorias propuestas por los expertos para alcanzar

estados emocionales agradables
variables de estado. En la Figura 4.11 se muestra la probabilidad de

pertenencia a cada uno de los niveles (alto, medio, bajo) que pueden
tener las dos variables de estado.
Teniendo en cuenta los estudios previos de Regulación de emo-

ciones, la variable de control será la corrección del estado afectivo del
paciente para intentar llevarle un nivel de excitación y valencia que
sea agradable. Por ello, las acciones previstas para el control se han
clasificado de la siguiente manera: “Desactivación y Placer” (DP),
“Desactivación” (D), “Placer” (P) y “Activación y Placer” (AP). Las
reglas difusas asociadas a la matriz difusa se han representado en la
Figura 4.12.
4.4.2. Fisión multimodal
La capa de “Fisión multimodal” recibe acciones y las divide en

varias órdenes. Cada una de estas órdenes está dirigida a un actuador
del entorno diferente. Estas actuaciones consiguen el mejor efecto
Figura 4.11 Funciones de pertenencia de las entradas al control difuso
Figura 4.12 Matriz de asociación difusa para definir las reglas de

control
de regulación emocional en el paciente para ese momento concreto.

El resultado de las acciones realizadas está siendo continuamente
supervisado a través de las emociones que el sistema detecta tras la
actuación.
La capa de control de la actuación tiene las siguientes caracterís-

ticas:
Los colores se agrupan en tres categorías: relajantes, neutrales

y activadores.
No se incluye como actuación reducir o aumentar la intensidad

de la iluminación para tener un efecto regulador del color.
Las piezas musicales se han agrupado también en tres catego-

rías: relajante, neutral y activador.
Respecto a la música, las melodías deben variar para que el

paciente no se acostumbre a ellas y esto produzca una reducción
en el efecto deseado.
El sistema aprende los efectos más óptimos para cada una de

las acciones ejecutadas para cada paciente. Para conseguir esto,
se utiliza una red neuronal artificial durante la defuzzificación
que permite registrar los pesos de las salidas que consiguen los
mejores efectos en el paciente.
Para dar soporte a la red neuronal de aprendizaje de clasifica-

ción de los colores se almacenan propiedades como la inten-
sidad, tono, luminosidad o cromatismo. Para los fragmentos
musicales se almacenan propiedades como tempo o unidad
rítmica.
Utilizando las variables de control, el sistema envía las órdenes

a los actuadores que controlan el color y la música, situados en el
módulo de “Regulación de emoción”. Además de interactuar con los
actuadores del entorno, este módulo debe ser capaz de avisar a los
familiares y cuidadores de la persona monitorizada cuando se detecte
que las actuaciones no consiguen modificar su estado de ánimo y
permanece durante mucho tiempo en un estado emocional perjudicial.
4.5 Conclusiones 109
4.5. Conclusiones
En este capítulo se ha descrito una arquitectura distribuida para

la detección y regulación de emociones en ambientes inteligentes. El
objetivo es conseguir que la persona monitorizada mantenga un estado
emocional sano, de esta manera se mejora la calidad de vida y los
cuidados a personas mayores que quieren o pueden seguir viviendo
en sus hogares.
A continuación indicamos las principales características de la

arquitectura presentada:
Está conformada por un conjunto de módulos que detectan

y regulan las emociones de la persona monitorizada. Estos
módulos son “Detección Facial de Emoción”, “Detección de
Comportamiento”, “Detección de Valencia/Excitación”, “Fu-
sión multimodal”, “Toma de decisión” y “Actuación”.
Para la detección de emociones se utiliza una visión facial

y corporal del usuario y sensores corporales que sirven para
monitorizar al usuario.
La detección facial trabaja con cámaras situadas a la altura de

la cabeza del usuario y que analiza los micro-movimientos de
sus músculos faciales. En los siguientes capítulos se realizará
el desarrollo de este módulo.
La detección de comportamiento trabaja con cámaras situadas

sobre el sujeto y detecta si este está activo o inactivo calculando
la distancia que recorre en un tiempo determinado y compro-
bando si supera un umbral previamente establecido.
La detección de valencia/excitación utiliza dos sensores fisioló-

gicos: uno de ritmo cardíaco y otro de actividad electro-dérmica.
Con ellos se consigue detectar cómo de alterado está el usuario
(excitación) y cómo de agradable o desagradable (valencia) es
un estímulo.
Para combinar todos los detectores de emociones se utiliza el

módulos de fusión multimodal, que tiene en cuenta todas las
entradas y obtiene un resultado consensuado, lo que hace que
la emoción resultante sea más correcta que si solo se utiliza una
fuente de información que puede tener errores.
La toma de decisiones se realiza a través de reglas de lógica

difusa que se han basado en el conocimiento de expertos en la
materia de regulación de emociones. De esta manera, el sistema
proporciona las reacciones más adecuadas del entorno para
regular las emociones hacia un estado de ánimo más sano. Se
ha empleado el estado del arte actual en cuanto a música y
color/luz para conseguir el objetivo de mejorar la calidad de
vida del usuario.
La regulación de emociones se realiza a través de actuado-

res de música y color/luz como medios de estimulación hacia
emociones más positivas.
Capítulo 5

en ambientes inteligentes
Tras la propuesta de arquitectura para un ambiente inteligente

de detección y regulación de emociones, en los siguientes capítulos
vamos a centrarnos en el módulo de “Detección Facial de Emoción”.
En este capítulo detallaremos las diferentes capas que lo componen
y cómo se ha realizado su desarrollo y entrenamiento. Esto incluye
varios pasos. Por una parte, el estudio de técnicas de detección y ex-
tracción de características faciales que permitan construir un modelo
que trabaje con un tiempo de respuesta que permita al sistema analizar
el mayor número posible de frames sin comprometer la precisión a
la hora de detectar puntos faciales. Por otra, la creación de un detec-
tor de emociones implementando las técnicas de clasificación más
adecuadas.
5.1. Descripción general del proceso
El proceso de detección de emociones a través de las expresiones

faciales se compone de 5 etapas, que aparecen representadas en la
Figura 5.1.
112 Detección facial de emociones en ambientes inteligentes
Figura 5.1 Diagrama de pasos que componen el proceso de detección

facial de emociones
1. Detección facial: El proceso se inicia con una primera detec-

ción de la cara que aparece en la imagen. Si en este paso el
sistema no es capaz de encontrar una cara, el resto de pasos no
se realizan.
2. Normalización de imagen: Cuando se consigue detectar una

cara en la imagen que se está analizando se realiza un paso
de normalización facial. En este punto se establece un tamaño
concreto y toda la imagen se escala de manera que la cara tiene
esta medida.
3. Detección de puntos faciales: Como ya se explicó en el Ca-

pítulo 3, actualmente la detección de emociones se basa en el
análisis de la expresión facial a partir de diferentes puntos facia-
les. Para este paso se desarrollará un sistema que nos permita
obtener los puntos faciales en una expresión de la manera más
sencilla posible para el usuario. En esta etapa ha sido necesario
realizar una serie de pruebas para elegir el modelo de detección
de puntos faciales que más se ajustaba a nuestras necesidades y
daba mejores resultados.
4. Extracción de características: Una vez obtenidos los puntos

faciales debemos estudiar cuáles son las características más
5.2 Detección facial 113
útiles para la detección de emociones que podemos obtener a

partir de esos puntos. Se detallará también cómo obtener cada
una de estas características.
5. Clasificación de emoción: El último paso que realiza el siste-

ma es detectar la emoción que representa la expresión facial
detectada. Para conseguir realizar esta detección habrá que
realizar un entrenamiento previo y seleccionar un método de
clasificación para utilizar nuestra aplicación en tiempo real.
Tras conocer las diferentes etapas en las que se divide el reco-

nocimiento facial de emociones, en los siguientes apartados veremos
cómo se ha abordado cada una de ellas, los problemas que se han
encontrado y las soluciones por las que se ha optado en cada caso.
5.2. Detección facial
El primer problema que encontramos a la hora de detectar las

emociones a través de la expresión facial es cómo identificar el rostro
de una persona en la imagen que se está analizando. Para desarrollar
un software que permita analizar imágenes necesitamos apoyarnos
en una librería de visión por ordenador. OpenCV es una librería de
visión por computador de código abierto y multiplataforma que nos
proporcionará la arquitectura necesaria para trabajar con las imágenes
y los vídeos que se podrán analizar en la aplicación. Es libre bajo
licencia BSD, es decir, es gratuita para uso académico y comercial.
Se utilizará OpenCV para el preprocesado de las imágenes y para la
extracción de características faciales. Se puede descargar la última
versión de esta librería de la página oficial de OpenCV.
Además, esta librería es integrable en Visual Studio. Este entorno

de desarrollo se ha utilizado durante toda la fase de desarrollo de
la aplicación por contar con mejores herramientas de depuración.
Se ha optado por utilizar una aplicación por consola con el fin de
simplificar el desarrollo y probar exclusivamente las características de
Figura 5.2 Ejemplo de detección facial y ocular utilizando cascadas

Haar en OpenCV
la aplicación. Se puede descargar una versión gratuita del programa

Visual Studio de la página de Microsoft.
La librería OpenCV proporciona un algoritmo de detección facial

y ocular basado en cascadas Haar. Este algoritmo utiliza el concepto
de características propuesto por Viola et al. [2001].
Este sistema detecta los objetos según sus características. Por

ejemplo, en el caso de una cara, la zona periorbital suele ser más os-
cura que las mejillas, por lo que se define esta característica mediante
rectángulos para facilitar la detección de la cara. Trabajar a nivel de
características generales hace que el coste computacional sea más
bajo y permite que se puedan obtener los objetos en tiempo real. En la
Figura 5.2 se muestra un ejemplo de detección facial (recuadros azu-
les) y ocular (recuadros verdes) utilizando el algoritmo de detección
Viola-Jones en OpenCV.
El detector facial Viola-Jones permite encontrar todas las caras

de una imagen. Sin embargo, en este caso, se toma la cara más central
5.3 Normalización facial 115
CK+ JAFFE MMI Total

Alegría 56,25 50 25 50
Tristeza 30 16,67 21,42 23,33
Enfado 37,5 25 30 30
Miedo 18,75 20 22,22 20
Asco 25 28,57 27,27 26,67
Sorpresa 87,5 57,14 42,85 70
Neutral 33,33 20 30 30
Total 42,57 34,09 27,69 36,19
Tabla 5.1 Porcentaje de aciertos por emoción y por base de datos sin
normalizado de caras
de la imagen para trabajar. Esta será la que se utilice para trabajar en

los siguientes pasos del proceso de detección de la expresión facial.
5.3. Normalización facial
En las versiones iniciales de la aplicación de detección de emo-

ciones se realizaba la extracción de características faciales directa-
mente en la imagen tal cual se cargaba. Desde las primeras pruebas
se detectó un problema con este planteamiento, ya se ha podido com-
probar que el sistema no detecta la misma emoción para una misma
cara si ésta tiene un tamaño diferente. Para solucionar este problema
se ha optado por llevar a cabo un proceso de normalización facial,
mediante el cual todas las caras tendrán aproximadamente el mismo
tamaño y será más fácil para el sistema hacer la predicción.
Durante la fase de entrenamiento se han utilizado 3 bases de

datos: CK+, JAFFE y MMI. Tras un primer entrenamiento se ha
podido comprobar que se producen errores en la predicción que hacen
que la precisión del sistema se estanque cuando lleva alrededor de
un 40 % de aciertos. Analizando los resultados que se muestran en la
Tabla 5.1 se ha podido observar que las imágenes en las que se produce
el mayor porcentaje de errores son las pertenecientes a las bases de
datos JAFFE e MMI. En la Tabla 5.2 tenemos el número de imágenes
para cada emoción que se había utilizado para el entrenamiento en
CK+ JAFFE MMI Total

Alegría 16 10 4 30
Tristeza 10 6 14 30
Enfado 16 4 10 30
Miedo 12 7 11 30
Asco 16 5 9 30
Sorpresa 16 7 7 30
Neutral 15 5 10 30
Total 101 46 63 210
Tabla 5.2 Número de imágenes para entrenamiento
el momento de detectar este problema. Comparando ambas tablas

podemos apreciar que las dos emociones que menos porcentaje de
aciertos tienen son miedo y tristeza, que son las dos emociones para
las que se han utilizado menos imágenes CK+, lo que ha hecho que el
porcentaje de aciertos en la validación para esa base de datos sea más
bajo que en otras emociones.
A partir de estos datos se ha concluido que el problema reside

en el tamaño de las caras para cada base de datos. En la base de datos
CK+ el tamaño medio facial es de 300 píxeles, en JAFFE de unos
150 píxeles y en MMI, 350 píxeles. Como en el paso de clasificación
simplemente se reciben las características, el sistema no es capaz de
deducir que dos fotografías exactamente iguales pero a diferentes
tamaños son la misma expresión facial, sino que considera que son
dos muestras diferentes.
Se está haciendo, por tanto, un entrenamiento por grupos que

hace que la detección de emociones sea peor para las bases de datos
que cuentan con menos imágenes. Esto supondrá un problema para
nuestra aplicación final, porque las caras que no entren dentro de uno
de los tres tamaños que hemos especificado no se podrán predecir
correctamente, ya que no se cuenta con datos para su escala.
Para solucionar este problema se va a realizar un escalado de

las caras para que entren dentro de un determinado rango, de manera
que las caras que se analizan en el entrenamiento y finalmente en la
aplicación estén normalizadas. En primer lugar debemos definir el
5.3 Normalización facial 117
Figura 5.3 Tiempo de predicción para diferentes tamaños faciales
tamaño más adecuado para las caras. En la Figura 5.3 podemos ver
cómo evoluciona el ajuste para diferentes tamaños de caras. Para cada
uno de los tamaños se ha obtenido el tiempo necesario para hacer la
predicción de la emoción y se ha indicado con puntos rojos cuando
el ajuste facial no se ha realizado de manera correcta. Para realizar
esta prueba se ha utilizado una imagen que contiene una cara de 240
píxeles y que, por la expresión facial, resulta difícil de ajustar porque
necesita una cierta resolución para poder conseguir las características
faciales correctamente.
Como podemos ver, el tiempo de ajuste va aumentando conforme

aumenta el tamaño facial. Se producen algunas excepciones cuando
el ajuste no se hace correctamente o para el tamaño propio de la
cara, que no tiene que realizar el escalado de la imagen y hace que
el proceso sea más rápido. Si observamos el tiempo dedicado a todo
el proceso de escalado y ajuste de la imagen, vemos que se obtienen
peores tiempos si la imagen es muy grande o muy pequeña, además
de que en algunos casos el ajuste no se ha realizado correctamente
por no haber suficiente resolución. El tamaño debería ser superior a
170 píxeles, para el que no se ha podido ajustar bien, pero no debe ser
mucho mayor, ya que eso supondría un mayor tiempo de ejecución.
En cualquier caso, no debe superar los 280 píxeles, ya que vemos que
a partir de ese tamaño del ajuste facial comienza a dar problemas.
El tamaño que utilizaremos para normalizar las caras será de 190

píxeles. Sin embargo, no es posible tratar las 3 posibles entradas al
programa de la misma manera.
Imágenes. Para el caso de las imágenes se realiza primero un

escalado de la imagen y en segundo lugar el ajuste. Para ello
se hace la detección de la cara con Viola-Jones, se comprueba
su altura y se escala toda la imagen para que altura de la cara
sea de 190 píxeles. A continuación se vuelve a detectar la cara
y se realiza todo el proceso de ajuste. Las características que
se pasarán al clasificador serán, por tanto, las de la imagen
escalada.
Vídeo. Para el caso de vídeos no se puede utilizar el mismo

proceso que para imágenes, ya que si el sujeto se acerca o se
aleja habría que modificar la resolución del vídeo durante la
ejecución. Se ha optado por analizar el primer frame del vídeo
donde se detecte una cara y obtener la resolución a la que la cara
mide 190 píxeles. Esa será la resolución que se utilizará para
todo el vídeo. Sin embargo, como es posible que el tamaño de
la cara aumente o disminuya durante la grabación, se va a tomar
la medida de una característica que apenas varía, como es la
anchura del ojo, y si en un frame se detecta que es diferente se
escalarán todas las características de ese frame. Este escalado se
realiza sobre las características una vez extraídas de la imagen,
por lo que la resolución del vídeo no se verá afectada.
Webcam. En el caso de utilizar la webcam, el proceso es similar

al utilizado en el vídeo, con la diferencia de que la resolución
de la cámara debe estar definida de antemano. Vamos a suponer
que el sujeto se encuentra a una distancia media de 60 cm de
la cámara y ajustaremos la resolución de la cámara para que el
tamaño de la cara sea aproximadamente 190 píxeles, al igual
que en los dos casos anteriores. La resolución más adecuada,
respetando la relación de aspecto de vídeo 4:3, es de 588x441
píxeles. A esa distancia, la anchura media del ojo es de unos 30
píxeles aproximadamente, por lo que utilizaremos ese tamaño
5.4 Detección de puntos faciales 119
como referencia para escalar las características que se extraigan

de la imagen.
De esta manera conseguimos un normalizado de los datos de

entrada, lo que hace que el conjunto de imágenes de entrenamiento
tengan tamaños similares y el clasificador pueda apreciar los cambios
en las características para decidir la emoción correcta.
5.4. Detección de puntos faciales
El siguiente punto a tratar en la creación del software es cómo

vamos a detectar los puntos a partir de los cuales analizaremos la
expresión facial que necesitaremos para obtener la emoción. Tenemos
tres posibles enfoques:
De forma automática: La opción más cómoda para el usua-

rio sería obtener los puntos faciales de manera automática. El
problema de este enfoque es que la solución no es trivial y
necesitaremos software o librerías de ayuda. Además, la preci-
sión de la aplicación que desarrollemos se verá directamente
afectada por la precisión del software o las librerías utilizadas.
De forma manual: Consistiría en dejar al usuario la tarea de

seleccionar los puntos faciales y hacer un seguimiento de estos
puntos a lo largo de la ejecución del programa. Es la opción
más tediosa para el usuario y la precisión del programa para
detectar emociones dependerá de que el usuario seleccione
correctamente los puntos que hay que rastrear.
De forma semiautomática: Una solución intermedia entre las

dos anteriores sería hacer que el usuario seleccione determi-
nados puntos, por ejemplo, extremos internos de los ojos o
extremos de la boca, y que a partir de esos datos el resto de
puntos se detecten de forma automática y se haga el seguimien-
to. De esta manera no resulta tan tedioso para el usuario, pero
en este caso dependeremos tanto de la precisión del usuario al

seleccionar puntos como de la del software de detección.
Tras un estudio de las posibles opciones hemos llegado a la con-

clusión de que la mejor solución para el usuario es utilizar una librería
de ayuda que detecte los puntos de manera automática. Con esta op-
ción se obtienen buenos resultados en cuanto a precisión detectando
los puntos faciales.
5.4.1. ASMLibrary
Los ASMs (Active Shape Models) son modelos estadísticos so-

bre la forma de un determinado objeto que se deforman iterativamente
hasta adaptarse a la forma del objeto que se está detectando. Las for-
mas están limitadas por un modelo de forma estadístico que solo
permite que la forma varíe de acuerdo a un aprendizaje previo que
debe realizarse con ejemplos debidamente etiquetados. Se ha demos-
trado que ASM es un método muy preciso para la localización de
características faciales [Cootes et al., 1995].
Por ejemplo, en el trabajo realizado por Chang et al. [2006] se

utilizan 58 puntos para construir el ASM y extraer las expresiones
faciales. Los puntos se rastrean y dan un reconocimiento de la ex-
presión facial de manera colaborativa. También en Pantic & Bartlett
[2007] se introduce un conjunto de características más refinado para
utilizar como características geométricas para la detección de emocio-
nes. Estas características son puntos alrededor de la boca, los ojos, las
cejas, la nariz y la barbilla. Otro enfoque propuesto por Hsieh & Jiang
[2011] utiliza componentes faciales para localizar texturas faciales
dinámicas como líneas en el ceño, patrones de arrugas en la nariz o
pliegues en la zona nasolabial para clasificar las expresiones facia-
les. Utilizan Adaboost con características Haar y ASM para detectar
de forma precisa las caras y obtener información importante de las
diferentes regiones faciales. Emplean Filtros Gabor y distribuciones
Laplacianas o Gaussianas para extraer información sobre las texturas
en las regiones analizadas. Estos vectores de texturas representan

cambios en la textura facial de una expresión a otra.
Wu & Mei [2013] proponen un algoritmo de reconocimiento

facial basado en ASM y características Gabor. Primero, un algoritmo
AdaBoost detecta la región facial en una imagen. A continuación, el
ASM localiza los puntos clave en la región detectada y se extraen
las características Gabor de estos puntos. Otro artículo describe un
método para reconocer cambios en expresiones faciales continuas
en secuencias de vídeo [Wan et al., 2012]. En este caso también se
utiliza ASM para localizar de forma automática los puntos faciales en
el primer frame para después rastrearlos a través de toda la secuencia
de vídeo. Después de esto se realiza una selección de los 20 puntos
más óptimos, que son los que más han cambiado a lo largo de la
secuencia.
Otro artículo [Zhao et al., 2012] evalúa de forma empírica la

representación facial basada en características locales estadísticas,
ASM y LBP para el reconocimiento de expresiones faciales inde-
pendientemente de la persona. Por último, el trabajo realizado por
Cruz & Bhanu [2012] presenta una propuesta en la que se comparan
las distancias que hay entre una expresión prototipo y la expresión
facial que se ha detectado y se utiliza AdaBoost multiclase como
clasificador débil para seleccionar el subconjunto de vectores de ca-
racterísticas discriminativos [Ghimire & Lee, 2013]. La región facial
de interés se detecta entonces con una cascada de Haar para localizar
las características clave. La información dinámica y estática se trata
de forma distinta. La información dinámica se trata con ASM: los
puntos faciales se detectan con ASM y se utilizan como registro, y
las características de apariencia se obtienen de todas las imágenes
registradas. La información estática se obtiene estimando representa-
ciones estáticas de la cara y deformando cada cara para minimizar los
movimientos. Las características de apariencia se generan a partir de
esta representación. Los dos enfoques se unen a través de un sistema
de puntuación.
La selección de características empleadas para el reconocimiento

de emociones se clasifica generalmente en dos categorías: caracte-
rísticas geométricas y rasgos de apariencia. Las técnicas basadas en

las características geométricas son las más utilizadas para reconocer
emociones. De hecho, la mayoría de los artículos usan este método
para la clasificación de expresiones (por ejemplo, [Zhou & Wang,
2013], [Tariq et al., 2011], [Setyati et al., 2012]). La principal razón
es que las características geométricas son la manera más adecuada de
aproximarse al Sistema de Codificación de Acciones Faciales (FACS)
de Ekman and Friesen [2002], que se ha detallado en el Apéndice A.
Este sistema ha demostrado ser muy útil en la detección de emociones,
especialmente para identificar las seis emociones básicas. Por ello,
en la aplicación que vamos a desarrollar utilizaremos características
geométricas para la detección de emociones, que se extraerán de las
formas o puntos salientes de componentes faciales importantes, como
boca y ojos.
Para el desarrollo de la detección de las características geométri-

cas vamos a utilizar la librería ASMLibrary, que ha sido desarrollada
por Wei [2009]. Esta librería implementa el Modelo de Formas Activo,
está hecha sobre OpenCV y se utiliza para la detección y rastreo de
caras. Mediante esta librería podremos detectar de forma automática
los puntos faciales que nos interesan para extraer las características
necesarias para la detección de emociones. Se pueden descargar las
librerías y la documentación de su grupo en Google. La librería no
precisa instalación, basta con añadir los archivos .dll al proyecto.
ASMLibrary nos permite crear un modelo ASM, para lo que

debemos tener una base de datos de imágenes y sus correspondientes
archivos de anotaciones. En estos archivos de anotaciones se alma-
cenan las coordenadas que tienen en la imagen real los puntos que
queremos incluir en nuestro modelo. ASMLibrary soporta archivos
de anotaciones en formato pts y asf. Según el desarrollador, la base de
datos de imágenes debe estar compuesta por al menos varios cientos
de imágenes para conseguir un modelo válido. Mediante el aprendiza-
je utilizando dichas imágenes se obtiene un modelo de distribución
de puntos, como el que podemos ver en la Figura 5.4. La línea roja
muestra la forma media del modelo y en azul aparecen las posibles
localizaciones que van a tener los puntos. Se puede apreciar cómo
algunos vértices muestran poca variabilidad en el conjunto de datos,
Figura 5.4 Ejemplo de distribución de puntos en un ASM
como por ejemplo los puntos de la zona de los ojos, mientras que
otros generan una nube de puntos más difusa, como en la zona de la
mandíbula.
Una vez que se crea el modelo, se utiliza para hacer el ajuste

con objetos reales. El modelo de distribución de puntos indica la
variación de las coordenadas que cada uno de los puntos del objeto
podrá tener, siempre dentro de la nube de puntos. La forma de un
objeto se determina por la serie de puntos que contiene el modelo y
que el algoritmo ASM debe hacer coincidir con la imagen siguiendo
los siguientes pasos:
1. Buscar la cara en la imagen o el frame. Para este paso se utilizan

los detectores en cascada de Viola-Jones de los que dispone
OpenCV.
2. Relacionar la imagen con el modelo. Para este paso el modelo

es la forma media de todas las imágenes de las que se componía
el aprendizaje, que se conoce como forma de referencia. Si
tomamos como ejemplo la imagen 5.4, sería la línea roja.
3. Buscar para cada uno de los puntos que componen el modelo la

mejor localización en la imagen que se está analizando. Para ca-
Figura 5.5 Ejemplo de un ajuste facial con ASM
da uno se calculan sus posibles localizaciones desde la posición

en la que se encuentra en la máscara y se elige la más adecuada
para la forma actual. El cálculo de estas posibles posiciones
se realiza gracias al modelo, que almacena datos estadísticos
sobre los cambios de posición de los puntos.
4. Actualizar los parámetros de forma y posición para ajustar la

instancia del modelo a los puntos localizados. Para esa actuali-
zación, ASMLibrary cuenta con varios métodos para trasladar,
escalar y modificar la posición de puntos concretos del modelo.
5. Se vuelve al paso 3 hasta que se produzca la convergencia o

se llegue a un número máximo de iteraciones definido por el
usuario.
En la Figura 5.5 podemos ver cómo se produce el ajuste entre el

modelo y la imagen real. El número de iteraciones que se necesitarán
hasta alcanzar la convergencia con la imagen dependerá de lo que
ésta diste del modelo. ASMLibrary utiliza internamente imágenes en
escala de grises porque resulta más sencillo detectar formas en una
imagen monocolor, aunque posteriormente se puede ubicar la máscara
en la imagen a color para que resulte más visual para el usuario.
Figura 5.6 Puntos faciales en la base de datos IMM (izquierda) y

malla triangular generada (derecha)
5.4.2. Elección del modelo ASM
La librería ASMLibrary nos permite generar modelos para utili-

zar posteriormente en la detección de puntos faciales. Para construir
un modelo válido necesitamos un conjunto de imágenes de caras y,
para cada una de ellas, un archivo de anotaciones. En este archivo
se indican las coordenadas en las que se encuentran cada uno de los
puntos de interés en la imagen asociada.
En los siguientes apartados vamos a generar varios modelos

a partir de bases de datos hechas para este propósito, veremos las
ventajas y desventajas que presenta cada uno de ellos y elegiremos
el modelo que más se ajuste a nuestras necesidades. En primer lugar,
hacemos una búsqueda por las principales bases de datos para la
generación de modelos ASM. Las bases de datos de libre acceso más
destacadas son las siguientes:
IMM database (Informatics and Mathematical Modeling) [Steg-

mann, 2002]. Este trabajo contiene el análisis de 37 imágenes de
caras de frente. Este modelo se compone de 58 puntos faciales,
cuya distribución podemos ver en la Figura 5.6.
BioID [Jesorsky et al., 2001]. Esta base de datos está compuesta

por 1521 imágenes de caras frontales. Cada una de las caras
Figura 5.7 Puntos faciales en la base de datos BioID
está etiquetada con 20 puntos faciales, tal y como vemos en la

Figura 5.7.
XM2VTS (Extended Multi Modal Verification for Teleservices

and Security) [Chan, 2000]. Está compuesta por 2360 imágenes
en las que se han marcado 68 características faciales por cara.
El esquema de puntos marcados se muestra en la Figura 5.8.
Con las imágenes y los archivos de anotaciones que componen

las bases de datos arriba mencionadas creamos tres modelos ASM
que vamos a utilizar para analizar nuevas imágenes y comprobar que
la detección de los puntos faciales se realiza de forma correcta. En
cada uno de los modelos comprobaremos su funcionamiento para
imágenes estáticas, vídeos pregrabados y webcam.
5.4.3. El modelo de la base de datos IMM
El modelo de 58 puntos que se genera desde esta base de datos

resulta bastante completo para la detección de emociones. Como se
puede apreciar en la Figura 5.6, los puntos cubren las cejas, ojos,
nariz, boca y la zona del maxilar inferior. Además, hay numerosos
puntos para cada una de estas características, lo que nos va a permitir
Figura 5.8 Puntos faciales en la base de datos XM2VTS
detectar tanto la posición que tienen como su forma. Por ejemplo,

cuando analicemos las cejas, además de ver si están levantadas o
bajadas se puede comprobar si están arqueadas, lo que nos puede
dar una información muy valiosa acerca de la emoción. El principal
problema que presenta es que la base de datos solo tiene 37 imágenes,
que según la documentación de ASMLibrary no serán suficientes para
crear un modelo válido.
Los resultados que hemos obtenido al probar este modelo son

los siguientes:
Para imágenes estáticas hace una detección correcta de la ali-

neación de la cara y de determinados puntos, especialmente los
de la zona del maxilar inferior y las cejas. Sin embargo, se ha
podido comprobar que la detección de los puntos de la boca
no es muy precisa. En la Figura 5.9 podemos ver un ejemplo
de este caso. La detección de la mayor parte de los puntos es
correcta pero los extremos de la boca aparecen marcados en la
zona central de las mejillas. Esto se produce porque en la base
Figura 5.9 Ajuste de puntos faciales con el modelo generado a partir

de IMM
de datos no figuran imágenes en las que salga una cara con la

boca abierta, por lo que el modelo no es capaz de procesar esa
“deformación” en la zona bucal.
Tanto para vídeos grabados como para la webcam el modelo no

funciona. Solo detecta los puntos en determinados frames donde
la cara mostrada es cercana al modelo, es decir, cuando apenas
tiene que realizar modificaciones para detectar los puntos. Esto
seguramente es debido a que el número de imágenes no es lo
suficientemente grande para generar un modelo robusto.
Con estos resultados, podemos concluir que el modelo generado

por la base de datos IMM no es válido para realizar un análisis
automático de emociones.
5.4.4. El modelo de la base de datos BioID
Este modelo de 20 puntos es el más simple de los que se han po-

dido encontrar. Esto presenta la ventaja de que el coste computacional
necesario para detectar los puntos será menor. Sin embargo, puede
presentarse el problema de que estos puntos no sean suficientes para
la detección de determinadas emociones. Como se puede ver en la

Figura 5.7, el modelo cubre las cejas, los ojos, la nariz y la boca. Sin
embargo, si nos fijamos en los ojos vemos que no se cubren puntos
primordiales para la detección de emociones, como son los párpados
superiores e inferiores. Esto puede hacer difícil detectar sorpresa,
ya que una de sus principales características es tener los ojos muy
abiertos. La base de datos se compone de 1521 imágenes debidamente
etiquetadas, por lo que debería ser suficiente para generar un modelo
válido.
En cuanto a las pruebas realizadas con este modelo, hemos

obtenido lo siguiente:
Para imágenes estáticas, el modelo funciona bien aunque a

veces los puntos localizados no son muy precisos. Por ejemplo,
en la Figura 5.10 vemos que determinados puntos como el
extremo derecho de la boca o el extremo exterior de la ceja
izquierda están ligeramente alejados de donde se encuentran en
la imagen real.
Tanto para vídeos grabados como para la entrada de la webcam

el modelo no da buenos resultados. El principal problema es que
no consigue situar el punto de la barbilla correctamente, y la
localización de este punto es clave para situar el resto de puntos.
Como consecuencia, la alineación del modelo que devuelve en
ocasiones no es correcta. Probablemente este error se produzca
por los pocos puntos que componen el modelo. En el modelo
anterior teníamos 58 puntos y muchos de ellos no aportan
información para las emociones que queremos analizar, pero se
utilizan como referencia para hacer una detección correcta de
los puntos que realmente necesitamos. En este modelo, solo se
utilizan 3 puntos de referencia: las sienes izquierda y derecha y
la punta de la barbilla. Por este motivo la detección de la cara
en tiempo real no es muy precisa.
En conclusión, este modelo puede dar errores de alineación en

vídeos, por lo que podemos descartarlo para la detección automática
Figura 5.10 Ajuste de puntos faciales con el modelo generado a partir

de BioID
de emociones. Además, es posible que con los puntos de este modelo

no obtengamos todas las características necesarias para distinguir las
emociones básicas.
5.4.5. El modelo de la base de datos XM2VTS
Este modelo es el más completo con 68 puntos faciales. La prin-

cipal ventaja que presenta es que tiene muchos puntos de referencia
y eso permite que la alineación de la cara sea más precisa. Además,
como se ve en la Figura 5.8, hay numerosos puntos para obtener la
forma de las cejas, los ojos, la nariz y la boca. El problema que puede
presentar es que es el modelo que más puntos tiene y eso aumenta el
coste computacional de la aplicación. La base de datos se compone
de 2360 imágenes, por lo que el modelo generado debería ser válido
para el reconocimiento facial.
En las pruebas realizadas con este modelo se ha podido observar

lo siguiente:
Para las imágenes el modelo funciona bastante bien y detecta los

puntos con precisión. Sin embargo, se ha podido comprobar que
si se produce una oclusión en alguna de las características que
se está buscando, el modelo tiene problemas para obtener los
puntos en esa parte. En la Figura 5.11 vemos que en la imagen
de la izquierda hay una pequeña oclusión en el extremo externo
de la ceja de la izquierda. Por este motivo, la detección de toda
la zona de las cejas se ha realizado de manera incorrecta. Sin
embargo, en la misma Figura a la derecha vemos una imagen
de características similares en las que la detección de puntos se
ha realizado de manera más acertada al no haber oclusión.
El funcionamiento del modelo para vídeos grabados y webcam

también es adecuada, aunque presenta el mismo problema ante
oclusiones que se vio en las imágenes estáticas. También se
ha podido apreciar el aumento de coste computacional que
supone trabajar con un modelo de 68 puntos: mientras que el
modelo de BioID tardaba una media de 70 milisegundos en
procesar un fotograma con 100 iteraciones por fotograma, este
modelo dedica alrededor de 120 milisegundos en hacerlo. Sin
embargo, los resultados obtenidos son mucho mejores que para
los modelos anteriores. En nuestro caso es prioritario conseguir
una detección facial correcta para tener la información más
precisa posible en las siguientes etapas.
Tras las pruebas realizadas a los tres modelos podemos decir que
el más adecuado para el análisis de emociones es el de la base de
datos XM2VTS. Aunque trabajar con 68 puntos hará que la aplicación
sea más lenta, este modelo es el más preciso de todos los que se han
analizado. Además cuenta con suficientes puntos para obtener carac-
terísticas detalladas de la expresión facial, tanto sobre su posición
como sobre su forma, y eso nos permitirá hacer una clasificación más
adecuada de las emociones.
Figura 5.11 Ajustes de puntos faciales con el modelo generado a partir

de XM2VTS
5.5. Extracción de características
Una vez que hemos obtenido los puntos faciales gracias al mo-
delo ASM tenemos que decidir qué puntos pueden resultarnos útiles
para extraer las características faciales que nos permitirán detectar
emociones. Basándonos en los estudios previos que se comentaron en
el Capítulo 3, se ha decidido que el sistema analizará las caracterís-
ticas señaladas indicadas en la Figura 5.12 y que se describen en la
Tabla 5.3, ya que son los que mejor reflejan el sistema de codificación
de acciones faciales (FACS) de Ekman and Friesen [2002].
En la Figura 5.13 muestra este proceso, donde la entrada es la

imagen de la cara normalizada a 190px (Figura 5.13a), se localizan
los puntos faciales a través de la máscara ASM (Figura 5.13b) para
finalmente obtener los resultados numéricos de las características
geométricas (Figura 5.13c).
5.5.1. Implementación de la extracción de caracte-

rísticas
A continuación veremos cómo vamos a extraer, a partir de nues-

tro modelo ASM, las características que hemos indicado. En la Figura
5.5 Extracción de características 133
Figura 5.12 Características geométricas extraídas con la máscara

ASM
Figura 5.13 Detección de puntos faciales y datos geométricos resul-

tantes
Código Descripción
Distancia vertical entre el extremo interno de la ceja iz-
C1 quierda y la línea que conecta los extremos internos de
los ojos
Distancia vertical entre el extremo interno de la ceja de-
C2 recha y la línea que conecta los extremos internos de los
ojos
Distancia vertical entre el extremo externo de la ceja
C3 izquierda y la línea que conecta los extremos internos de
los ojos
Distancia vertical entre el extremo externo de la ceja
C4 derecha y la línea que conecta los extremos internos de
los ojos
C5 Distancia entre los extremos internos de las cejas
Distancia entre el extremo exterior y el párpado superior
C6
del ojo izquierdo
Distancia entre el extremo exterior y el párpado superior
C7
del ojo derecho
Distancia entre el extremo interior y el párpado superior
C8
del ojo izquierdo
Distancia entre el extremo interior y el párpado superior
C9
del ojo derecho
Distancia entre el extremo exterior y el párpado inferior
C10
del ojo izquierdo
Distancia entre el extremo exterior y el párpado inferior
C11
del ojo derecho
Distancia entre el extremo interior y el párpado inferior
C12
del ojo izquierdo
Distancia entre el extremo interior y el párpado inferior
C13
del ojo derecho
Distancia entre el párpado superior y el párpado inferior
C14
del ojo izquierdo
Distancia entre el párpado superior y el párpado inferior
C15
del ojo derecho
C16 Distancia entre el extremo izquierdo y superior de la boca
C17 Distancia entre el extremo derecho y superior de la boca
C18 Distancia entre el extremo izquierdo e inferior de la boca
C19 Distancia entre el extremo derecho e inferior de la boca
C20 Distancia entre el extremo derecho e izquierdo de la boca
C21 Distancia entre el extremo superior e inferior de la boca
Distancia entre el extremo superior de la boca y la base
C22
de la nariz
Tabla 5.3 Lista de características geométricas
5.8 podemos ver los puntos del modelo con sus correspondientes
índices. El acceso a cada uno de estos puntos se hace igual que a un
vector, y para cada uno de los puntos obtenemos sus coordenadas X
e Y en la imagen. Así pues, (x0 , y0 ) serán las coordenadas del punto
0 del modelo, (x1 , y1 ) las del punto 1, etc. En general, (xn , yn ) son
las coordenadas del punto n del modelo. Mediante estas coordenadas
podemos calcular las distancias que conformarán las características.
A continuación podemos ver los cálculos que se realizan para cada
una de ellas. El resultado de todas las características se da en píxeles:
C1 - Distancia vertical entre el extremo interno de la ceja iz-

quierda (24) y la línea que conecta los extremos internos de
los ojos (29 y 34). La fórmula 5.1 indica cómo calcular esta
característica.
|A(29, 34) · x24 + B(29, 34) · y24 +C(29, 34)|

C1 = p (5.1)
A(29, 34)2 + B(29, 34)2
donde A(29, 34), B(29, 34) y C(29, 34) son las componentes
de la ecuación de la recta que forman los puntos 29 y 34 del
modelo. Se calculan mediante las expresiones 5.2, 5.3 y 5.4.
A(29, 34) = y34 − y29 (5.2)
B(29, 34) = −(x34 − x29 ) (5.3)
C(29, 34) = y29 · (x34 − x29 ) − x29 · (y34 − y29 ) (5.4)
C2 - Distancia vertical entre el extremo interno de la ceja dere-

cha (18) y la línea que conecta los extremos internos de los ojos
(29 y 34). La característica C2 se calcula mediante la expresión
5.5.
|A(29, 34) · x18 + B(29, 34) · y18 +C(29, 34)|

C2 = p (5.5)
A(29, 34)2 + B(29, 34)2
Al igual que en el caso anterior, A(29, 34) se calcula mediante

la expresión 5.2, B(29, 34) mediante 5.3, y C(29, 34) con 5.4.
C3 - Distancia vertical entre el extremo externo de la ceja

izquierda (21) y la línea que conecta los extremos internos de
los ojos (29 y 34). Se calcula mediante la expresión 5.6.
|A(29, 34) · x21 + B(29, 34) · y21 +C(29, 34)|

C3 = p (5.6)
A(29, 34)2 + B(29, 34)2
Como en los dos casos anteriores, A(29, 34) se calcula mediante

la expresión 5.2, B(29, 34) mediante 5.3, y C(29, 34) con 5.4.
C4 - Distancia vertical entre el extremo externo de la ceja

derecha (15) y la línea que conecta los extremos internos de
los ojos (29 y 34). El valor de esta característica se calcula
mediante la fórmula 5.7.
|A(29, 34) · x15 + B(29, 34) · y15 +C(29, 34)|

C4 = p (5.7)
A(29, 34)2 + B(29, 34)2
Como en los casos anteriores, A(29, 34) se calcula mediante la

expresión 5.2, B(29, 34) mediante 5.3, y C(29, 34) con 5.4.
C5 - Distancia entre los extremos internos de las cejas (24 y 18).

Con la expresión 5.8 se calcula el valor de dicha característica.
q
C5 = (x18 − x24 )2 + (y18 − y24 )2 (5.8)
C6 - Distancia entre el extremo exterior (27) y el párpado

superior (28) del ojo izquierdo. Calculamos esta característica
mediante la fórmula 5.9.
q
C6 = (x28 − x27 )2 + (y28 − y27 )2 (5.9)

superior (33) del ojo derecho. Calculamos su valor mediante la
ecuación 5.10.
q
C7 = (x33 − x32 )2 + (y33 − y32 )2 (5.10)
C8 - Distancia entre el extremo interior (29) y el párpado supe-

rior (28) del ojo izquierdo. El valor de esta característica lo da
la expresión 5.11.
q
C8 = (x28 − x29 )2 + (y28 − y29 )2 (5.11)
C9 - Distancia entre el extremo interior (34) y el párpado supe-

rior (33) del ojo derecho. Calculamos esta característica con la
expresión 5.12.
q
C9 = (x33 − x34 )2 + (y33 − y34 )2 (5.12)

inferior (30) del ojo izquierdo. Con la fórmula 5.13 se calcula
su valor.
q
C10 = (x30 − x27 )2 + (y30 − y27 )2 (5.13)

inferior (35) del ojo derecho. El valor de esta característica se
calcula con la ecuación 5.14.
q
C11 = (x35 − x32 )2 + (y35 − y32 )2 (5.14)
C12 - Distancia entre el extremo interior (29) y el párpado

inferior (30) del ojo izquierdo. Se calcula mediante la expresión
5.15.
q
C12 = (x30 − x29 )2 + (y30 − y29 )2 (5.15)
C13 - Distancia entre el extremo interior (34) y el párpado

inferior (35) del ojo derecho. Su valor se calcula mediante la
fórmula 5.16.
q
C13 = (x35 − x34 )2 + (y35 − y34 )2 (5.16)
C14 - Distancia entre el párpado superior (28) y el párpado

inferior (30) del ojo izquierdo. Se calcula con la expresión 5.17.
q
C14 = (x30 − x28 )2 + (y30 − y28 )2 (5.17)
C15 - Distancia entre el párpado superior (33) y el párpado

inferior (35) del ojo derecho. Calculamos el valor de esta carac-
terística utilizando la ecuación 5.18.
q
C15 = (x35 − x33 )2 + (y35 − y33 )2 (5.18)
C16 - Distancia entre el extremo izquierdo (48) y superior (51)

de la boca. Su valor se calcula con la expresión 5.19.
q
C16 = (x51 − x48 )2 + (y51 − y48 )2 (5.19)
C17 - Distancia entre el extremo derecho (54) y superior (51)

de la boca. Se calcula mediante la fórmula 5.20.
q
C17 = (x51 − x54 )2 + (y51 − y54 )2 (5.20)
C18 - Distancia entre el extremo izquierdo (48) e inferior (57)

de la boca. Esta característica se calcula con la expresión 5.21.
q
C18 = (x57 − x48 )2 + (y57 − y48 )2 (5.21)
C19 - Distancia entre el extremo derecho (54) e inferior (57)

de la boca. Calculamos esta característica con la ecuación 5.22.
q
C19 = (x57 − x54 )2 + (y57 − y54 )2 (5.22)
C20 - Distancia entre el extremo derecho (48) e izquierdo (54)

de la boca. Con la fórmula 5.23 se calcula esta característica.
q
C20 = (x54 − x48 )2 + (y54 − y48 )2 (5.23)
5.6 Clasificación de emoción 139
C21 - Distancia entre el extremo superior (51) e inferior (57) de

la boca. La ecuación 5.24 nos da el valor de esta característica.
q
C21 = (x57 − x51 )2 + (y57 − y51 )2 (5.24)
C22 - Distancia entre el extremo superior de la boca (51) y la

base de la nariz (41). Con la expresión 5.25 se calcula el valor
de esta característica.
q
C22 = (x41 − x51 )2 + (y41 − y51 )2 (5.25)
De esta manera obtendríamos un vector con las 22 características

que se utilizarán para clasificar la expresión facial detectada como
una emoción.
5.6. Clasificación de emoción
El siguiente paso consistirá en realizar una clasificación para

que, a partir de las características extraídas, el sistema pueda decirnos
a qué emoción pertenece. Para hacer esta clasificación uno de los mé-
todos más utilizados son las Máquinas de Soporte Vectorial (SVM).
Las Máquinas de Soporte Vectorial son modelos de aprendizaje su-
pervisados asociados a algoritmos de aprendizaje que analizan datos
y reconocen patrones. Son muy utilizadas para tareas de clasificación.
El tipo más básico de SVM toma una serie de datos de entrada y
predice para cada uno de ellos a qué clase de dos posibles pertenece.
SVM considera los datos de entrada como vectores en un espacio

n-dimensional, siendo n el número de características a analizar. A
partir de estos datos, una SVM construirá un hiperplano que separará
las diferentes clases del conjunto de datos, maximizando el margen
entre ellos. Es decir, dadas las características de dos objetos, una SVM
buscará un hiperplano que separe de forma óptima las características
de un objeto de las del otro, de modo que a un lado del hiperplano
quedarán todos los objetos de una clase y al otro los objetos de la
Figura 5.14 Hiperplano lineal que separa dos clases en SVM
otra clase. Podemos ver una representación gráfica de esta separación

en la Figura 5.14. Los vectores de soporte más cercanos al margen
se llaman vectores de soporte y son los que el modelo utiliza para la
clasificación posterior de nuevas muestras.
Muchos artículos combinan el uso de ASM con SVM para rea-

lizar la detección de emociones. Por ejemplo, el trabajo realizado
por Hsieh & Jiang [2011], que ya comentamos en el apartado 5.4.1,
utiliza SVM para clasificar la expresión facial en cinco emociones
básicas (Alegría, Enfado, Miedo, Asco y Sorpresa) y el estado Neutral.
También en Wu & Mei [2013] se utiliza la combinación de ASM con
SVM con resultados muy prometedores. En Wan et al. [2012] se
realiza un rastreo de los puntos a través de una secuencia de imágenes
y se extraen 20 puntos faciales, que son los que se transmiten al SVM
para que haga la clasificación de la expresión facial rastreada. Otro
artículo, propuesto por Lei et al. [2009] utiliza un nu-SVM multiclase
de tipo uno-vs-uno para hacer la clasificación de expresiones. Otro
ejemplo sería el trabajo realizado por Cruz & Bhanu [2012], donde se
realizan dos enfoques para la detección de emociones, uno estático
y uno dinámico. Una vez que estas dos vías de detección se unen a
través de un sistema de puntuación, se realiza una clasificación de la
emoción a través de un SVM lineal.
Para realizar esta clasificación en el sistema que estamos desa-

rrollando utilizaremos una librería auxiliar que nos permita integrar
SVM en nuestra aplicación.
5.6.1. Entrenamiento y clasificación con LibSVM
LibSVM [Chang & Lin, 2011] es un software integrado para so-

porte vectorial de clasificación, regresión y estimación de distribución.
Esta librería se utilizará para el entrenamiento, pruebas y desarrollo
del modelo de clasificación de emociones que se incluirá en la aplica-
ción. Al igual que OpenCV, se encuentra bajo licencia BSD. Permite
utilizar varios tipos de SVM, elegir entre diferentes kernels y con-
figurar sus parámetros. También soporta la clasificación para varias
clases, que necesitaremos para distinguir entre las emociones que
identificará nuestro sistema. Para el sistema que vamos a desarrollar
utilizaremos la versión escrita en lenguaje C. Se puede descargar la
librería de la página de LibSVM. También es recomendable consultar
las preguntas frecuentes, donde los autores presentan varios tutoriales
para familiarizarse con la librería y los conceptos de SVM.
En primer lugar, debemos guardar las características calculadas

en el formato adecuado para que LibSVM lo interprete. Cada una de
las líneas debe seguir el siguiente formato:
<etiqueta> <índice1>:<valor1> <índice2>:<valor2> ...

<índiceN>:<valorN>\n
Donde:
etiqueta es un número entero que indica la clase a la que perte-

nece el objeto del que se ha obtenido el vector de características.
Las etiquetas que vamos a utilizar son las siguientes:
1. Alegría
2. Tristeza
Figura 5.15 Diagrama del proceso de entrenamiento del clasificador
3. Enfado
4. Miedo
5. Asco
6. Sorpresa
7. Neutral
índiceX es un número entero mayor o igual que 1 que indica

el número N de característica en el vector. Los índices dentro
de un mismo vector deben aparecer de forma consecutiva y
ascendente.
valorX es el número real del valor correspondiente a la caracte-

rística X.
Para generar el fichero que se empleará en el entrenamiento de

la SVM se extraerán las características de imágenes pertenecientes a
bases de datos de emociones debidamente etiquetadas. En la Figura

5.15 se representa la entrada y salida de este paso. Como entrada el
sistema recibe un conjunto de características pertenecientes a diferen-
tes imágenes y etiquetadas de acuerdo a la emoción que representan.
La salida sería el modelo SVM para clasificar las emociones. Se tra-
bajará tanto con emociones espontáneas como fingidas, aunque serán
más utilizadas estas últimas porque la mayor parte de las bases de
datos están compuestas por emociones fingidas.
Una vez que tenemos el fichero de características es necesario

escalar los datos dentro de un intervalo [-1, +1] o [0, +1]. Este escalado
se realiza para que los datos que son muy pequeños puedan expandirse
dentro del intervalo o, en caso contrario, si son datos muy grandes, se
reduzcan al intervalo y se puedan simplificar los cálculos. Además,
LibSVM solo admite ficheros en formato sparse (poco denso), donde
los valores iguales a 0 se eliminan del archivo. Según los propios
autores de LibSVM, no hay una diferencia significativa entre escalar
en cualquiera de los dos intervalos, aunque recomiendan utilizar el
intervalo [0, 1] para aprovechar el formato poco denso, de manera
que el fichero ocupará menos y el tiempo para procesarlo será menor.
Una vez escalados los datos tenemos que elegir el método que
vamos a utilizar para la clasificación. Como vamos a distinguir entre
7 clases tendremos que utilizar un método SVM multiclase, que
se implementan utilizando varias SVM de dos clases. Existen dos
posibles enfoques:
Método una-vs-todas. Se construyen tantos clasificadores co-

mo clases haya, en nuestro caso 7. El clasificador para cada
una de las clases se entrena tomando los vectores que pertene-
cen a esa clase como positivos y el resto como negativos. Es
el método más sencillo, pero su tiempo de entrenamiento es
mayor.
Método una-vs-una. Este método construye un clasificador

binario por cada pareja de clases distintas, es decir, se generan
N · (N − 1)/2 clasificadores, que en nuestro caso serían 21. Para
el clasificador binario Ci j se toman como casos positivos los
vectores que pertenecen a la clase i y como negativos los de la

clase j. La aproximación más simple consiste en un sistema de
votación. Para un nuevo ejemplo x, si un determinado clasifica-
dor Ci j dice que x pertenece a la clase i se incrementa en 1 los
votos para esa clase. Una vez que han votado los N · (N − 1)/2
clasificadores, la clase que haya obtenido el mayor número de
votos será la que se asigne a x. Aunque este método implica uti-
lizar más clasificadores, el tiempo de entrenamiento empleado
y su tamaño final es mucho menor.
LibSVM implementa ambos métodos, aunque el enfoque una-vs-

una permite utilizar un sistema más complejo que en lugar de llevar
a cabo una votación utiliza la estimación por probabilidades. En el
artículo Wu et al. [2004] se compara el método una-vs-una con y sin
probabilidades para varios ejemplos de clasificaciones (ADN, formas
de onda, imágenes de satélite) y se concluye que mediante el uso de
probabilidades se obtienen mejores resultados.
5.6.2. Bases de datos para el entrenamiento
Para realizar el entrenamiento de la SVM se van a utilizar 3 bases

de datos diferentes, que ya se describieron en el apartado 3.4.
1. La base de datos JAFFE (JApanese Female Facial Expres-

sion)[Kyushu, 1998]: Está compuesta por 213 imágenes es-
táticas de las 6 emociones básicas y la expresión neutral hechas
a 10 actrices japonesas. Podemos ver algunos ejemplos de imá-
genes en la Figura 5.16. Esta base de datos es pública y de libre
acceso, se puede acceder a su link de descarga en la página
oficial, que se facilita en la bibliografía.
2. La base de datos MMI de expresiones faciales [Valstar & Pan-

tic, 2010]: Contiene casi 3000 vídeos y unas 700 imágenes
estáticas donde 75 sujetos que muestran diferentes expresiones
faciales fingidas. Además, cada una de las muestras de datos
están etiquetadas con metadatos que indican la emoción que
Figura 5.16 Capturas de la base de datos JAFFE
Figura 5.17 Capturas de la base de datos MMI
se representa, las AUs que se activan, el género y la edad del

sujeto, etc. Se distinguen 9 emociones: enfado, asco, miedo,
felicidad, tristeza, sorpresa, aburrimiento, somnolencia y terror.
En la Figura 5.17 podemos ver algunas capturas de esta base
de datos. Para tener acceso a ella ha sido necesario firmar y
enviar por correo electrónico un acuerdo de licencia de usuario.
Mediante este acuerdo nos comprometemos a no utilizar la ba-
se de datos con fines comerciales, no facilitar la contraseña de
acceso a terceros y no distribuir la base de datos o partes de ella,
a excepción de utilizar una pequeña porción de las imágenes
con el fin de mostrar ejemplos en publicaciones académicas.
Una vez validado el acuerdo, se nos envía una contraseña para
acceder a la base de datos MMI.
3. La base de datos Cohn-Kanade[Kanade et al., 2000] y Cohn-

Kanade Extendida (CK+) [Lucey et al., 2010]: La base de
datos CK incluye 486 secuencias pertenecientes a 87 sujetos.
Cada una de las secuencias grabadas se ofrece en forma de
imágenes estáticas, por lo que esta base de datos está compuesta
de 8795 imágenes. Cada una de las secuencias empieza con
una expresión neutral y termina con una expresión emocional.
Esta expresión final es la que se tiene en cuenta para etiquetar
la imagen y codificarla en términos de FACS. Las emociones
mostradas son fingidas. Por otra parte, CK+ incluye expresiones
Figura 5.18 Capturas de las bases de datos Cohn-Kanade (arriba) y

Cohn-Kanade extendida (abajo)
faciales fingidas y espontáneas y tipos adicionales de metadatos:

además de codificar la expresión facial con FACS y etiquetar la
emoción objetivo de la secuencia se han etiquetado 136 puntos
faciales para poder detectar la forma de la cara mediante AAM,
un método similar al ASM. La base de datos se compone de 593
sesiones grabadas con 123 sujetos. Estas secuencias tienen las
mismas características que las de la base de datos CK. En total,
esta base de datos se compone de 10558 imágenes estáticas. Se
puede ver un ejemplo de imágenes de CK y CK+ en la parte de
arriba de la Figura 5.18. Para tener acceso a las bases de datos
Cohn-Kanade y Cohn-Kanade extendida es necesario firmar un
acuerdo de licencia que debe ir firmado por el usuario. Además,
si el usuario es estudiante, la petición debe ir firmada por un
tutor académico. En respuesta a este acuerdo nos envían una
contraseña que nos permite acceder el servidor FTP durante un
mes, momento en el que la contraseña del servidor se modifica.
5.6.3. La función kernel
La tarea de clasificación conlleva separar datos en conjuntos

de entrenamiento y de validación. Cada instancia del conjunto de
entrenamiento contiene un valor objetivo, que es la etiqueta de la clase,
y una serie de atributos, que en nuestro caso son las características
observadas. El objetivo de la SVM es crear un modelo basado en
los datos de entrenamiento que prediga las clases del conjunto de
validación sabiendo solo sus atributos.
Dado un conjunto de entrenamiento con pares instancia-etiqueta

(xi , yi ), i = 1, . . . , l donde xi ∈ Rn e y ∈ {0, −1}l , la SVM requiere la
solución del problema de optimización que aparece en la expresión
5.26.
l
1 T
mı́n w w +C ∑ ξi (5.26)
w,b,ξ 2 i=1
sujeto a la expresión 5.27
yi (wT φ (xi ) + b) ≥ 1 − ξi , ξi ≥ 0 (5.27)
Aquí los vectores de entrenamiento xi están mapeados en un

gran o incluso infinito espacio dimensional por la función φ . SVM
busca un hiperplano lineal separador con el máximo margen en este
espacio dimensional. C > 0 es el parámetro de penalización del error.
La función K(xi , x j ) ≡ φ (xi )T φ (x j ) se llama función kernel. LibSVM
dispone de los 4 principales tipos de kernel:
lineal: K(xi , x j ) = xiT x j .
polinomial: K(xi , x j ) = (γxiT x j + r)d , γ > 0.
radial basis function (RBF): K(xi , x j ) = exp(−γ||xi −x j ||2 ), γ >

0. La variable γ puede expresarse como γ = 1/(2σ 2 ).
sigmoidal: K(xi , x j ) = tanh(γxiT x j + r).
Para tareas de clasificación con más de dos clases los autores

de LibSVM recomiendan utilizar el kernel RBF por obtenerse me-
jores resultados en cuanto a tiempo de entrenamiento y precisión
de resultados. Este kernel mapea de forma no lineal las muestras en
el espacio dimensional por lo que, al contrario que el kernel lineal,
permite manejar los casos donde la relación entre las etiquetas de
clases y los atributos no sean lineales.
Otra razón es el número de hiperparámetros que afecta a la

complejidad de la selección del modelo. El kernel polinomial, por
Figura 5.19 Comparativa del efecto del parámetro C sobre un hiper-

plano
ejemplo, utiliza más hiperparámetros que el RBF, haciendo que el

proceso de aprendizaje sea más complejo.
Por último, el kernel RBF tiene menos dificultades numéricas.

Un punto clave es que 0 < Ki j ≤ 1 en contraste con el kernel poli-
nomial, cuyos valores pueden ir de infinito (γxiT x j + r > 1) a cero
(γxiT x j + r < 1) si el grado es alto. Además, se debe tener en cuenta
que el kernel sigmoidal no es válido para determinados parámetros.
Una vez decidido que el kernel que vamos a utilizar es el RBF

debemos saber cómo se pueden modificar los límites de decisión del
modelo, para lo que necesitamos conocer los parámetros que podemos
modificar: C y γ.
El parámetro C o constante de suavidad penaliza los errores y los

falsos positivos y es un parámetro que aparece en todos los kernels.
Como podemos ver en la Figura 5.19, cuanto mayor es su valor menor
es el margen de error y viceversa. Como se puede apreciar, cuando
C toma el valor 200, los puntos más cercanos al hiperplano afectan
a su orientación. Cuando C tiene un valor menor, como en este caso
20, esos puntos entran dentro del margen de error y la orientación del
hiperplano cambia, dando mucho más margen al resto de datos.
El parámetro γ es propio de RBF y dependiendo de su valor las

curvas que se tracen para separar las clases serán más cerradas o más
abiertas. En la Figura 5.20 podemos ver cómo el parámetro varía el
Figura 5.20 Ejemplo de función RBF con distinta γ
espacio de clasificación. Cuanto mayor es γ las curvas que separan

las clases son más cerradas y eso genera varias subclases, mientras
que a menor γ la curva es más suave.
Para conseguir el par de parámetros más indicado se recomienda

hacer una valoración cruzada, es decir, crear una tabla con valores
para ambos parámetros, realizar el entrenamiento y las pruebas con
todos los posibles pares de valores y utilizar el que haya dado mejores
resultados.
5.6.4. Generación del modelo SVM
Una vez que tenemos los vectores de características y hemos

seleccionado el kernel más adecuado para el problema podemos
realizar el entrenamiento. La salida que se obtiene cuando hacemos
el entrenamiento con C-SVM tiene el siguiente formato:
optimization finished, #iter = 219
nu = 0.431030
obj = -100.877286, rho = 0.424632
nSV = 132, nBSV = 107
Total nSV = 132

Se obtiene uno por cada clasificador generado, por lo que en

nuestro caso obtenemos 21. En primer lugar nos informa del número
de iteraciones que han sido necesarias para hacer el clasificador. El
número de iteraciones dependerá tanto del número de datos de los
que dispongamos para entrenar como de los parámetros asignados
al kernel. En la segunda línea podemos ver el valor de ν (nu). Los
parámetros C y ν están relacionados, la diferencia es que C se encuen-
tra en el rango [0, ∞) mientras que ν se sitúa entre [0, 1]. La variable
obj es el valor objetivo óptimo para el problema SVM de dos cla-
ses, mientras que ρ es el término de sesgo en la función de decisión
f (x) = w · x − ρ. El número de vectores de soporte y de vectores
ligados se muestra en nSV y nBSV respectivamente. Si el valor de
nSV es muy cercano al número de vectores disponible para entrenar
significa que no se han podido encontrar similitudes entre los datos,
por lo que cada uno de los vectores de entrenamiento conformará un
hiperplano de clasificación por sí solo. Si esto ocurre es muy probable
que el modelo que se obtenga no funcione correctamente.
Una vez obtenido el modelo podemos ver sus datos en el fichero

que se genera. En dicho fichero se especifican datos como el tipo
de SVM, el tipo de kernel, los valores de los parámetros propios
del kernel, el número de clases y sus correspondientes etiquetas, el
número total de vectores de soporte, los valores ρ para cada una de las
clases y el número de vectores de soporte para cada una de las clases.
A continuación se especifican los valores de todos los vectores de
soporte. Los vectores de soporte están listados siguiendo el orden de
las etiquetas de las clases, es decir, los vectores de la clase 1 estarán
antes que los de la clase 2. Si k es el número total de clases, delante
de un vector de soporte de la clase j hay k − 1 coeficientes y · α donde
α son las soluciones duales de los siguientes problemas de dos clases:

1 vs j,

2 vs j,





. . .,



j vs j + 1,




 j vs j + 2,

. . .,




j vs k
Y el valor de y:
para los primeros j − 1 coeficientes

y=1
y = −1 para el resto de coeficientes k − j
Por ejemplo, si hubiera 4 clases, los vectores se representarían

de esta manera:
+-+-+-+--------------------+
|1|1|1| |
|v|v|v| SVs de la clase 1 |
|2|3|4| |
+-+-+-+--------------------+
|1|2|2| |
|2|3|4| |
+-+-+-+--------------------+
|1|2|3| |
|3|3|4| |
+-+-+-+--------------------+
|1|2|3| |
|4|4|4| |
+-+-+-+--------------------+
Tras varias pruebas de entrenamiento se ha llegado a la conclu-

sión de que con ν-SVM se obtienen mejores resultados que con una
C-SVM. La diferencia entre ambos tipos es que en lugar de utilizarse

la variable C para el suavizado se utiliza la variable ν, pero su función
es la misma. Sin embargo, no es posible establecer una relación mate-
mática entre ambas constantes, ya que ν depende tanto del número
de datos de entrenamiento como del número de vectores de soporte,
pero esto no ocurre con el parámetro C.
Ya que hacer una clasificación correcta de la emoción que repre-

sentan las expresiones faciales es crítico para el buen funcionamiento
del módulo que estamos desarrollando, realizaremos varias pruebas
con diferentes clasificadores SVM para quedarnos con el que mejo-
res resultados ofrezca. Estas pruebas se detallarán en los siguientes
capítulos de la tesis.
5.7. Detección de emociones
Una vez construido el modelo de clasificación de emociones

solo tenemos que incluir la librería LibSVM en la aplicación. De esta
manera, conseguimos integrar todas las etapas para la detección de
emociones: obtención de puntos faciales, cálculo de características
y predicción de emoción. En la Figura 5.21 se representa cómo se
realiza el último paso del proceso. Como entrada se reciben las carac-
terísticas faciales de la imagen que se quiere analizar y el modelo de
clasificación SVM. La emoción se obtiene a partir de estos dos pará-
metros. La integración de todas las librerías nos permite conseguir
resultados sin que sea necesaria la intervención del usuario. Podemos
distinguir cuatro tipos de salida, según las tres posibles entradas del
programa y la generación de datos para entrenamiento:
Para el análisis de imágenes hay dos opciones disponibles:

analizar una única imagen o analizar todas las imágenes de
una carpeta, con diferentes salidas en cada caso. Cuando la
entrada al programa es una imagen, el programa muestra por
consola la predicción que hace, las probabilidades de todas las
clases (si el modelo SVM las incluye) y el tiempo que se ha
empleado en el análisis. Además, al tratarse de una sola imagen
Figura 5.21 Diagrama de predicción de emoción
Figura 5.22 Captura del programa analizando una imagen

Figura 5.23 Captura del programa analizando un vídeo
se genera un nuevo fichero llamado “resultado.jpg” con el ajuste

ASM realizado. En la Figura 5.22 podemos ver un ejemplo de
funcionamiento con una imagen estática. Si le pedimos que
analice todas las imágenes de una carpeta genera un fichero
de predicciones donde se indica la ruta completa de la imagen
analizada, el resultado del clasificador y las probabilidades
por cada emoción. Además, se genera una carpeta “Máscaras”
donde se almacenan todas las imágenes con la máscara ASM
superpuesta para que se pueda comprobar si el ajuste se ha
realizado correctamente.
Cuando la entrada es un vídeo, el programa muestra en cada

momento el número de fotograma que se está analizando, la pre-
dicción que la SVM hace para ese determinado fotograma y las
probabilidades de cada emoción. Si el modelo SVM utilizado
en el análisis no soporta clasificación con probabilidades, éstas
saldrán a 0. Además, podemos ver las estadísticas correspon-
dientes al vídeo. En lugar de mostrar únicamente el resultado

de un fotograma, se tienen en cuenta los 10 últimos fotogramas
para calcular el porcentaje de cada emoción en un determinado
momento. De esta manera, si se produce algún error en la pre-
dicción para un fotograma en concreto, se puede intuir que se
trata de un fallo al ver que las estadísticas se inclinan a favor
de otra emoción. También muestra el tiempo que ha tardado en
analizarse el frame. Podemos ver un ejemplo de la salida para
vídeo en la Figura 5.23. Al contrario que con la imagen, no se
genera un fichero de salida con el ajuste ASM, sino que este se
realiza en tiempo real sobre el propio vídeo. Sin embargo, sí
que se genera un fichero “Resultados.csv” donde se almacena
el número de frame junto con la predicción correspondiente,
con el fin de que se puedan analizar con un software de hojas
de cálculo.
La salida cuando se realiza un análisis con webcam es similar

a cuando se realiza con vídeo. La principal diferencia es que
no se especifica el número de frame ni el tiempo de análisis.
También se genera el fichero “Resultados.csv”.
Cuando se selecciona la opción de generar datos para reali-

zar entrenamiento es necesario especificar la carpeta donde se
encuentran las imágenes y la extensión de esas imágenes. Se
muestra por consola el tiempo de análisis empleado para cada
una de ellas. Como salida se genera un fichero “Entrenamien-
to.txt” en el formato adecuado para que se pueda utilizar para
un entrenamiento con LibSVM.
5.8. Conclusiones
En este capítulo se ha descrito el módulo “Detección Facial

de Emoción” que se introdujo en la arquitectura para detección y
regulación de emociones en ambientes inteligentes. Hemos descrito
las diferentes fases en las que se divide y se ha realizado un estudio de
los métodos que permiten reconocer emociones dentro de un tiempo
de respuesta adecuado. Esto nos ha permitido elegir las técnicas que

mejor se adaptan al sistema que queremos desarrollar. A continuación
indicamos las principales características del sistema de detección
facial de emociones:
Se han estudiado modelos para la adquisición automática de

los puntos faciales. Hemos optado utilizar un Modelo Activo
de Forma (ASM) por su buen funcionamiento y tiempo de
respuesta.
Tras realizar pruebas con diferentes modelos, se va a utilizar un

ASM de 68 puntos faciales, ya que con él se realiza el ajuste
más correctamente y contiene puntos clave para la detección de
emociones.
A partir de los puntos faciales detectados se obtiene un conjunto

de características en la zona de las cejas, los ojos y la boca,
que se relaciona directamente con el sistema de codificación de
acciones faciales (FACS).
También se han estudiado las máquinas vectoriales de soporte

(SVM) para la clasificación de las características faciales en
emociones. En los siguientes capítulos haremos diferentes prue-
bas con varios modelos SVM con el fin de seleccionar el que
mejor se ajuste a los requerimientos de la aplicación.
El sistema de clasificación distingue siete clases: las seis emo-

ciones básicas (Alegría, Tristeza, Enfado, Miedo, Asco y Sor-
presa) y el estado Neutral. Además, tiene la opción de devolver
la probabilidad de cada clase, lo cual podría ser muy útil para
valorar el grado de cada emoción y si se tiene en cuenta para
realizar una actuación sobre el paciente.
Esto nos ha permitido construir una aplicación cuyo objetivo

es distinguir las emociones de las personas mayores a partir de las
expresiones faciales que se capturen a través de una webcam.
Parte III
Experimentos y resultados
Capítulo 6
Experimentos
Una vez realizado el sistema de detección facial de emociones

vamos a dedicar esta parte de la tesis realizar una serie de experi-
mentos para seleccionar el modelo de clasificación de emociones que
proporcione los mejores resultados. En este capítulo veremos una
descripción de los experimentos que se van a realizar. Para elegir el
modelo con mayor porcentaje de aciertos vamos a generar modelos
con y sin probabilidades. Se realizarán pruebas para las tres posibles
entradas que tiene la aplicación: imagen estática, vídeo y webcam.
6.1. Generación de modelo SVM con bases

de datos
En primer lugar, vamos a generar modelos SVM con los mismos

datos de entrenamiento, pero la única diferencia será que tendrán
activada o desactivada la predicción con probabilidades. Para los
datos de entrenamiento se ha reunido un conjunto de 280 imágenes
de las tres bases de datos a las que tenemos acceso (CK+, MMI y
JAFFE), 40 imágenes por cada clase. En la Tabla 6.1 se detalla la
cantidad de imágenes que hay por cada base de datos.
Todas las imágenes que han sido seleccionadas para el entrena-

miento han sido revisadas previamente para confirmar que la expre-
160 Experimentos
Emoción CK+ JAFFE MMI Total

Alegría 21 14 5 40
Tristeza 13 9 18 40
Enfado 21 6 13 40
Miedo 16 9 15 40
Asco 21 7 12 40
Sorpresa 21 9 10 40
Neutral 20 7 13 40
Total 133 61 86 280
Tabla 6.1 Distribución de imágenes para entrenamiento por base de
datos
sión facial que aparece es representativa de la emoción que llevan

como etiqueta y que el modelo ASM se ajusta correctamente para
calcular las características.
Para los dos modelos generados se realizarán las mismas pruebas

de detección de emociones, lo que nos permitirá comparar cuál de los
dos modelos es más preciso.
6.1.1. Reconocimiento de expresiones faciales con imá-

genes de laboratorio
Como primera prueba para validar el modelo realizado para la

detección facial de emociones vamos a realizar pruebas con las bases
de datos CK+, MMI y JAFFE. Para estas pruebas se utilizarán imá-
genes que no hayan sido empleadas en el entrenamiento del modelo
SVM. De esta manera podremos confirmar si el modelo funciona
adecuadamente para emociones fingidas.
Las pruebas se realizarán distinguiendo las seis emociones bá-

sicas, es decir, Alegría, Tristeza, Enfado, Miedo, Asco y Sorpresa,
y el estado Neutral. Se utilizarán tanto imágenes estáticas como se-
cuencias de vídeo, para comparar el funcionamiento del detector de
emociones en ambos casos.
6.1 Generación de modelo SVM con bases de datos 161
Vídeo Emoción etiquetada Nº frames

S001-108 Alegría 109
S002-107 Alegría 153
S001-114 Tristeza 113
S002-113 Tristeza 147
S001-100 Enfado 83
S002-099 Enfado 98
S001-106 Miedo 71
S002-105 Miedo 83
S001-104 Asco 62
S002-103 Asco 88
S001-116 Sorpresa 68
S002-117 Sorpresa 57
Tabla 6.2 Detalle de los vídeos que se van a utilizar para los experi-
mentos
En el caso de los vídeos vamos a utilizar dos vídeos de cada emo-

ción para comprobar los resultados de las predicciones. Estos vídeos
proceden de la base de datos MMI y consisten en una secuencia de
entre 50 y 200 frames donde el actor comienza con una expresión
neutral, muestra la expresión con la que se ha etiquetado el vídeo
y termina una vez más con expresión neutral. Para cada uno de los
vídeos vamos a considerar como acierto predecir la emoción etique-
tada y como error predecir otra emoción. Tendremos como tercera
categoría la clase Neutral, que no consideraremos ni fallo ni acierto
con el fin de acelerar el proceso de pruebas, ya que resultaría muy
complejo realizar una valoración de los vídeos frame a frame.
En la Tabla 6.2 aparecen los detalles de los vídeos que se van a

utilizar para el experimento. Se ha indicado para cada uno la emoción
a la que representan y el número de frames que contiene la secuencia
en total. La nomenclatura del vídeo hace referencia al sujeto del que
se ha grabado el código, que se identifica con los cuatro primeros
caracteres del nombre. Los tres números restantes hacen referencia
al número de sesión de grabación. Se puede apreciar, por tanto, que
vamos a utilizar para las pruebas vídeos de dos sujetos distintos: S001
y S002.
162 Experimentos
Analizaremos los resultados obtenidos para averiguar si las pre-

dicciones que hace el sistema son correctas. Además, prestaremos
especial atención a los errores, ya sean falsos negativos o falsos
positivos, es decir, observaremos para cada emoción con qué otras
emociones se confunde y para qué otras emociones aparece como
predicción cuando no debería hacerlo.
6.1.2. Reconocimiento de expresiones faciales en en-

torno doméstico
Con el fin de validar el sistema en un ambiente doméstico simple,

vamos a capturar vídeos a partir de una webcam situada delante de
una persona mayor. Las pruebas se realizan pidiendo a la persona que
represente la expresión facial asociada a una emoción concreta. De
esta manera hemos podido comprobar cada emoción por separado.
Se ha realizado una prueba para cada una de las clases que

distingue el clasificador y las pruebas se han hecho seguidas, es decir,
se ha pedido al usuario que pusiese cara de alegría, a continuación
tristeza, después enfado, hasta completar las siete clases. Esto significa
que la emoción es completamente actuada y el sujeto no recibe ningún
tipo de estímulo para fingir la expresión facial que se le pide. Las
pruebas se han realizado de esta manera para no someter a las personas
mayores a un estrés emocional que pueda resultarles perjudicial.
En total se han realizado estas pruebas con 10 sujetos. Para este

experimento también utilizaremos los modelos SVM sin probabilidad
y con probabilidad. Dependiendo de los resultados de estas pruebas
decidiremos si se utiliza un modelo que soporte probabilidades o no,
ya que la funcionalidad lectura de imágenes a través de la webcam
del equipo es la que finalmente se utilizará para la arquitectura de
detección de emociones y es necesario comprobar si el uso de probabi-
lidades en el modelo SVM impacta en el rendimiento de la aplicación
cuando se están analizando las imágenes de entrada.
6.2 Modelo personalizado 163
6.2. Modelo personalizado
Dado que la funcionalidad final del módulo de detección facial

es hacer el seguimiento de un paciente en su casa para ser capaz de
detectar sus emociones y actuar sobre ellas, una vez decidamos el tipo
de modelo SVM que vamos a utilizar, realizaremos un entrenamiento
centrado en un único usuario.
Para ello, pediremos a una persona que represente las seis emo-
ciones básicas y crearemos un modelo SVM empleando únicamente
estas imágenes. A continuación, realizaremos pruebas de predicción
de emociones utilizando imágenes de esa persona que no hayan sido
empleadas durante el entrenamiento. Así podremos comprobar si rea-
lizar un modelo SVM personalizado puede ofrecer mejores resultados
que un modelo general.
6.3. Agrupación de emociones
Como el objetivo de nuestro sistema es ser capaz de detectar

las emociones negativas en las personas mayores, vamos a realizar
una agrupación de las emociones según su valencia y excitación.
Utilizaremos para ello el modelo circunflejo que ya comentamos en
el apartado 4.2.
Podemos ver en la Figura 6.1 cómo se distribuirían las emociones

que detecta actualmente nuestro clasificador. Hemos considerado
agrupar las cuatro emociones de valencia “Desagradable” (Tristeza,
Enfado, Miedo, Asco) en un único grupo llamado Emoción negativa.
Esta decisión está alineada con el problema que estamos estudiando,
que es la detección de estados emocionales anormales en personas
mayores. El objetivo final de toda la arquitectura es ser capaz de
predecir la emoción de una persona y mejorarla. Por este motivo, no es
primordial saber si la persona siente Enfado o Miedo. Es suficiente con
que el sistema sea capaz de detectar si el paciente está experimentando
una emoción que le lleva a un estado de ánimo perjudicial y poder
actuar de acuerdo a esta predicción.
164 Experimentos
Figura 6.1 Modelo circunflejo con las 7 clases del modelo SVM
6.3 Agrupación de emociones 165
Agrupar todas las emociones negativas en una única clase puede

ayudar a aumentar el porcentaje de aciertos sin perder la funcionalidad
del sistema. Con esta modificación una predicción errónea en la que
se predijo otra emoción del grupo de las negativas sería en este caso
un acierto. Esto es muy probable que se produzca, ya que Tristeza,
Enfado, Miedo y Asco comparten algunas características que pueden
hacer que el sistema de predicciones erróneas o con probabilidades
muy ajustadas.
Capítulo 7
Datos y resultados
Una vez descritos los experimentos que vamos a realizar sobre

el módulo de detección de emociones a partir de la expresión facial,
vamos a dedicar este capítulo a la presentación de los resultados para
cada uno de ellos. En cada caso haremos un análisis de los datos
obtenidos, las emociones que mejor funcionan, las que peor lo hacen
y con qué emociones se confunden.
7.1. Modelo SVM generado con imágenes

de laboratorio
En primer lugar, vamos un generar dos modelos con imágenes

extraídas de las bases de datos de laboratorio que tenemos disponibles.
Un modelo será sin probabilidades y otro con probabilidades. De
esta manera comprobaremos con cuál de ellos se obtienen mejores
resultados, tanto de aciertos como de rendimiento. Para la validación
cruzada se va a dividir el conjunto de entrenamiento de 280 imágenes
en 5 subgrupos. La validación realiza el entrenamiento con 4 de
esos grupos y predice las emociones del 5º grupo. Hace todas las
combinaciones posibles para que todos los grupos sean en algún
momento grupo de pruebas y devuelve como resultado la media de
aciertos. Hay por tanto una relación entrenamiento-test del 80 %-20 %.
168 Datos y resultados
7.1.1. Modelo sin probabilidades
En la Tabla 7.1 tenemos los porcentajes de aciertos para la va-

lidación cruzada para el modelo sin probabilidades. Se ha indicado
en negrita el máximo porcentaje de acierto, que sería el modelo que
se emplearía como clasificador. Tendríamos que generar por tanto un
modelo con los valores γ = 0, 1 y ν = 0, 5.
γ/ν 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9
0,1 72,05 74,52 76,49 79,29 82,74 80,77 78,47 75,19 58,62
0,2 72,05 74,84 77,31 80,61 81,26 80,28 79,46 76,01 69,93
0,3 72,05 74,84 77,47 80,44 81,26 80,44 79,95 76,01 70,43
0,4 73,69 75,67 77,31 80,11 81,59 80,77 79,46 75,85 70,92
0,5 73,86 75,67 77,64 80,94 82,09 80,44 79,46 75,68 71,90
0,6 73,04 75,67 77,47 80,77 81,76 80,77 78,97 76,83 71,74
0,7 72,87 75,67 77,96 80,11 81,76 81,59 78,47 76,34 72,89
0,8 73,04 75,83 77,96 80,11 81,76 82,41 78,64 76,67 73,88
0,9 73,04 75,67 78,29 80,44 81,92 82,58 78,97 76,83 74,20
1 71,07 74,68 75,83 76,34 79,95 80,28 79,29 74,53 67,14
Tabla 7.1 Validación cruzada para modelo SVM sin probabilidades
Con el fin de afinar más el clasificador, vamos a realizar una

segunda validación cruzada centrándonos en los valores que han dado
los porcentajes de acierto más altos. De esta manera, realizamos
una nueva validación donde ν se encuentra en el rango de valores
[0,46, 0,55] y γ en el rango [0,06, 0,15]. Los porcentajes de aciertos
para estos valores pueden verse en la Tabla 7.2
γ/ν 0,46 0,47 0,48 0,49 0,5 0,51 0,52 0,53 0,54 0,55
0,06 81,86 82,19 82,25 82,69 82,85 82,63 82,85 82,58 82,52 82,58
0,07 81,75 81,53 82,25 82,41 82,52 82,96 82,91 82,58 82,63 82,85
0,08 81,75 81,86 82,25 82,52 82,58 82,74 82,63 82,30 82,58 82,63
0,09 81,86 81,86 82,30 82,63 82,74 82,69 82,85 82,36 82,63 82,63
0,1 82,19 81,59 82,30 82,63 82,74 82,74 83,02 82,58 82,52 82,63
0,11 81,81 81,92 82,14 82,69 82,91 82,91 83,07 82,58 82,74 82,63
0,12 81,86 82,3 82,19 82,63 82,74 82,63 83,18 82,47 82,58 82,85
0,13 82,03 81,86 82,25 82,58 82,69 82,85 82,91 82,74 82,58 82,8
0,14 82,14 81,92 82,25 82,52 82,52 82,74 82,96 82,36 82,63 82,58
0,15 82,08 71,81 82,25 82,63 82,69 82,52 83,02 82,47 82,36 82,69
Tabla 7.2 Validación cruzada para aproximación al segundo decimal
para modelo SVM sin probabilidades
El mejor resultado se obtiene con γ = 0, 12 y ν = 0, 52. Las

características del modelo de clasificación óptimo en este caso se
muestran en la Tabla 7.3.
7.1 Modelo SVM generado con imágenes de laboratorio 169
Característica Valor
Tipo de SVM ν-SVM multiclase
Tipo de kernel RBF (Radial Basis Function)
Probabilidades No
Parámetro ν 0.52
Parámetro γ 0.12
Número de clases 7
Número de vectores de soporte 237
Tabla 7.3 Características del modelo SVM sin probabilidades
7.1.2. Modelo con probabilidades
Vamos a repetir el mismo proceso para generar un modelo de

clasificación con probabilidades utilizando las mismas imágenes de
entrenamiento. En la Tabla 7.4 se muestran los resultados para la
validación cruzada usando un SVM con probabilidades. En este caso
se producen dos máximos, con γ = 0, 8 o γ = 0, 9 y ν = 0, 5. Como
se puede observar, los resultados que se obtienen con un SVM de
probabilidades mejoran el porcentaje máximo de aciertos que se
obtenían en la validación sin probabilidades.
γ/ν 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9
0,1 80,68 81,94 82,66 83,92 82,88 81,89 81,89 81,89 81,89
0,2 79,91 80,95 82,22 84,20 83,59 82,77 82,77 82,77 82,77
0,3 79,64 81,01 82,49 83,87 83,92 83,32 83,32 83,32 83,32
0,4 79,91 80,95 82,27 83,98 84,25 83,37 83,37 83,37 83,37
0,5 80,07 81,12 82,16 83,92 84,47 83,65 83,65 83,65 83,65
0,6 80,35 81,45 82,33 84,03 84,31 83,54 83,54 83,54 83,54
0,7 80,51 81,61 82,93 84,25 84,80 83,87 83,87 83,87 83,87
0,8 80,46 81,72 83,21 84,20 84,91 83,92 83,92 83,92 73,92
0,9 80,95 81,78 83,76 84,58 84,91 84,20 84,20 84,20 74,20
1 81,67 82,00 83,81 84,47 74,58 84,20 84,20 84,20 84,20
Tabla 7.4 Validación cruzada para modelo SVM con probabilidades
Vamos a realizar una segunda validación cruzada centrándonos

en los valores que han dado los porcentajes de acierto más altos. De
esta manera, realizamos una nueva validación donde ν se encuentra
en el rango de valores [0,46, 0,55] y γ en el rango [0,81, 0,9]. Los
porcentajes de aciertos para estos valores pueden verse en la Tabla
7.5.
γ/ν 0,46 0,47 0,48 0,49 0,5 0,51 0,52 0,53 0,54 0,55
0,81 84,97 84,91 84,80 85,02 84,91 84,97 84,64 84,75 84,53 84,58
0,82 84,91 85,02 84,91 85,02 84,91 85,02 84,58 84,75 84,53 84,53
0,83 84,75 85,08 85,02 85,02 84,80 85,02 84,64 84,69 84,58 84,53
0,84 84,80 85,13 84,91 84,91 84,80 84,86 84,75 84,69 84,64 84,58
0,85 84,80 85,02 84,91 84,91 84,86 84,80 84,75 84,58 84,58 84,58
0,86 84,69 84,97 84,91 84,97 84,80 84,80 84,69 84,53 84,58 84,58
0,87 84,69 84,91 84,86 84,86 84,86 84,75 84,58 84,47 84,58 84,58
0,88 84,80 84,97 84,91 84,86 84,86 84,86 84,58 84,53 84,58 84,58
0,89 84,80 84,97 84,86 84,80 84,91 84,91 84,58 84,53 84,58 84,58
0,9 84,80 85,02 84,91 84,97 84,91 84,86 84,53 84,58 84,53 84,69
Tabla 7.5 Validación para aproximación al segundo decimal para
modelo SVM con probabilidades
Probabilidades Sí
Parámetro ν 0.47
Parámetro γ 0.84
Número de clases 7
Tabla 7.6 Características del modelo SVM con probabilidades
El mejor resultado se obtiene con γ = 0, 84 y ν = 0, 47, que son

los parámetros que utilizaremos para el modelo SVM. Las caracterís-
ticas del modelo de clasificación con probabilidades se muestran en
la Tabla 7.6.
7.2. Pruebas con imágenes de laboratorio
En primer lugar hemos realizado pruebas con imágenes estáticas

extraídas de las bases de datos que se han utilizado para el entre-
namiento. En la Tabla 7.7 vemos los resultados obtenidos para 364
imágenes, 52 por cada emoción, utilizando el modelo SVM que no
soporta probabilidades. Se han incluido las predicciones para cada
una de las emociones. La primera columna de la tabla muestra la
emoción etiquetada de las imágenes, lo que significa que la predic-
ción del clasificador debería ser esa emoción. En la primera fila de
la tabla se encuentran las 7 posibles predicciones. Hemos marcado
7.2 Pruebas con imágenes de laboratorio 171
Predicción Alegría Tristeza Enfado Miedo Asco Sorpresa Neutral

( %) ( %) ( %) ( %) ( %) ( %) ( %)
Alegría 84,62 0,00 3,85 5,77 3,85 0,00 1,92
Tristeza 7,69 76,92 3,85 0,00 7,69 0,00 3,85
Enfado 1,92 0,00 71,15 9,62 13,46 0,00 3,85
Miedo 1,92 1,92 3,85 82,69 5,77 3,85 0,00
Asco 1,92 3,85 3,85 5,77 82,69 0,00 1,92
Sorpresa 0,00 3,85 0,00 0,00 0,00 96,15 0,00
Neutral 1,92 5,77 9,62 0,00 5,77 0,00 76,92
Tabla 7.7 Distribución de predicciones para cada emoción sin proba-
bilidades

( %) ( %) ( %) ( %) ( %) ( %) ( %)
Alegría 88,46 0,00 1,92 5,77 1,92 0,00 1,92
Tristeza 5,77 76,92 3,85 3,85 5,77 0,00 3,85
Enfado 1,92 0,00 76,92 5,77 11,54 0,00 3,85
Miedo 0,00 0,00 3,85 86,54 3,85 3,85 1,92
Asco 0,00 1,92 0,00 5,77 88,46 0,00 3,85
Sorpresa 0,00 1,92 0,00 0,00 0,00 98,08 0,00
Neutral 1,92 5,77 7,69 0,00 5,77 0,00 78,85
Tabla 7.8 Distribución de predicciones para cada emoción con proba-
bilidades
en negrita las celdas que serían aciertos para cada etiqueta, mientras
que el resto de celdas serían predicciones incorrectas. Por ejemplo, la
celda ubicada en la columna Tristeza y en la fila Alegría mostraría el
porcentaje de imágenes en las que la predicción debería ser Alegría,
pero el clasificador ha predicho Tristeza.
Vemos que la emoción que más falsos positivos tiene es Asco,

que además se predice en todas las emociones excepto Sorpresa, y
en algunas de ellas es la que más fallos genera. En determinados
casos, como por ejemplo Alegría o Asco, la emoción que más errores
genera es Miedo, mientras que para Neutral el sistema se confunde
principalmente con Enfado.
En la Tabla 7.8 tenemos los resultados obtenidos al repetir el

mismo experimento utilizando el modelo SVM que soporta proba-
bilidades. Como podemos ver, el porcentaje de aciertos mejora para
todas las emociones excepto para Tristeza, que se ha mantenido igual.
Etiqueta: Sorpresa Etiqueta: Alegría

Predicción: Sorpresa Predicción: Asco
Alegría: 0,014461 Alegría: 0,290253
Tristeza: 0,033687 Tristeza: 0,073099
Enfado: 0,040611 Enfado: 0,138307
Miedo: 0,110106 Miedo: 0,080587
Asco: 0,048168 Asco: 0,296317
Sorpresa: 0,726781 Sorpresa: 0,066894
Neutral: 0,026186 Neutral: 0,054543
Tabla 7.9 Comparación de probabilidades en dos predicciones
En este caso, Asco vuelve a ser la emoción que acumula más

falsos positivos, aunque su porcentaje se reduce con respecto al mo-
delo SVM, como ocurre para casi todas las demás emociones. Las
excepciones han sido Miedo y Sorpresa, que se han mantenido igual,
y Neutral, que ha aumentado al haber producido más falsos positivos
cuando la etiqueta era Miedo y Asco.
Se ha podido observar también durante la realización de este ex-

perimento que el uso de probabilidades aporta información adicional
sobre la certeza que tiene el clasificador a la hora de dar una predic-
ción. En la Tabla 7.9 podemos ver dos ejemplo de predicción con las
probabilidades resultantes. Como se puede observar, la predicción
de la izquierda es muy clara para el clasificador, ya que Sorpresa
obtiene casi un 73 % de probabilidad, a mucha distancia de la segunda
emoción más probable, que es Miedo con un 11 %. Por otra parte,
en la predicción de la derecha tenemos que la predicción debería ser
Alegría, pero el clasificador obtiene Asco. Sin embargo, al revisar las
probabilidades podemos ver que la diferencia de probabilidades entre
las dos emociones ha sido de un 0,06 %.
En la Figura 7.1 podemos ver algunos ejemplos de imágenes es-

táticas que se han predicho correctamente. En ellas podemos apreciar
la posición de las características para cada una de las emociones. Se
puede observar que es estos casos se produce un ajuste ASM muy
aproximado a la cara del sujeto que permite que se prediga correc-
tamente la emoción. La única excepción se produce en la expresión
facial de Sorpresa, que el modelo ASM no consigue adaptarse correc-
tamente a la boca de la actriz al estar demasiado abierta. Aun así, el
7.2 Pruebas con imágenes de laboratorio 173
Figura 7.1 Ejemplos de imágenes de la base de datos JAFFE correcta-

mente predichas con los dos modelos
modelo consigue identificar que la boca está abierta, lo que hace que
la predicción de la emoción sea correcta.
También podemos ver algunos ejemplos de imágenes incorrecta-

mente predichas por los dos modelos en la Figura 7.2. Para cada una
de las imágenes se indica la emoción etiquetada (E), es decir, la que
el clasificador debería haber obtenido como resultado, y la emoción
que realmente se ha predicho (P).
Figura 7.2 Ejemplos de imágenes predichas incorrectamente por los

dos modelos
7.3 Pruebas con vídeos de laboratorio 175
Vídeo Alegría Tristeza Enfado Miedo Asco Sorpresa Neutral

S001-108 26 15 18 0 11 0 39
S002-107 58 1 27 0 39 0 28
S001-114 0 52 9 27 0 0 25
S002-113 0 90 4 29 2 0 22
S001-100 1 2 49 0 4 0 27
S002-099 4 1 59 0 13 0 21
S001-106 0 5 6 31 0 0 29
S002-105 0 11 6 36 0 1 29
S001-104 6 9 11 0 14 0 22
S002-103 1 8 25 1 22 0 31
S001-116 0 9 0 9 0 27 23
S002-117 0 0 12 4 0 21 20
Falsos positivos 12 61 118 70 69 1 -
Falsos positivos S001 7 37 44 36 15 0 -
Tabla 7.10 Resultados para las pruebas de vídeo usando el modelo
SVM sin probabilidades
7.3. Pruebas con vídeos de laboratorio
En la Tabla 7.10 vemos los resultados obtenidos para las pruebas

que se han realizado con vídeos procedentes de la base de datos
MMI utilizando el modelo SVM que no emplea probabilidades. Se ha
marcado en negrita la celda en la que se encuentran las predicciones
correctas. Recordemos que, como indicamos en el capítulo anterior,
cada vídeo empieza y termina con el sujeto en estado neutral, por lo
que las predicciones de Neutral no se consideran aciertos ni fallos.
Hemos añadido en la parte final de la tabla los falsos positivos

que se producen para cada emoción, tanto en general como distin-
guiendo entre los dos sujetos que hemos utilizado para las pruebas.
Como se puede observar, en el caso de las pruebas de vídeo la emo-
ción que más falsos positivos produce es Enfado. Si nos fijamos en
la diferencia de falsos positivos para esta emoción en los dos suje-
tos podemos ver que hay una diferencia importante entre los que se
producen para el sujeto 1 y el sujeto 2. Mientras que para el resto de
emociones el número de frames con falsos positivos se distribuyen al
50 % aproximadamente, en Enfado esa relación es 37 %-63 %. Ade-
más, estas predicciones erróneas se encuentran distribuidas en todas
las emociones, no es una confusión con una emoción concreta, como
ocurre en el vídeo S002-107, donde el sujeto representaba Alegría y
Vídeo Alegría Tristeza Enfado Miedo Asco Sorpresa Neutral

S001-108 33 12 13 0 11 0 40
S002-107 59 1 29 0 39 0 25
S001-114 1 55 6 20 1 0 30
S002-113 0 87 4 29 4 0 23
S001-100 1 5 47 1 3 0 26
S002-099 2 2 65 2 8 0 19
S001-106 0 3 1 36 0 0 31
S002-105 0 6 3 45 0 0 29
S001-104 4 8 11 2 14 0 23
S002-103 2 6 23 5 24 0 28
S001-116 0 7 0 10 0 31 20
S002-117 0 2 8 3 1 25 18
Falsos positivos 10 52 98 72 67 0 -
Tabla 7.11 Resultados para las pruebas de vídeo usando el modelo
SVM con probabilidades
el clasificador ha realizado muchas predicciones de Asco. En todos

los vídeos del sujeto 2 se producen muchas predicciones de Enfado, e
incluso en el caso de la secuencia que representa la emoción de Asco
llega a superar a las predicciones correctas. Revisando estas secuen-
cias más detalladamente se ha podido observar que la mayor parte de
las predicciones de Enfado para esta persona se producen mientras se
encuentra en estado Neutral, probablemente por la propia morfología
facial de la persona, que el clasificador parece estar confundiendo con
una expresión de Enfado.
Por otra parte, al realizar las mismas pruebas utilizando el clasifi-

cador SVM que incluye predicción con probabilidades obtenemos los
resultados que se muestran en la Tabla 7.11. Como se puede observar,
los resultados son muy parecidos a los obtenidos en el modelo SVM
sin probabilidades, aunque sí se mejoran en general las predicciones
para la emoción etiquetada.
Si nos fijamos en los falsos positivos, podemos ver que el número

se reduce. Para el sujeto 1 se produce una mejora significativa, ya que
el número de frames incorrectos pasa de 139 a 115, mientras que para
el sujeto 2 pasamos de 192 frames incorrectos a 184. Aunque se ha
conseguido reducir el número de falsos positivos para Enfado, todavía
hay mucha diferencia entre las predicciones erróneas del sujeto 1 y
Figura 7.3 Ejemplo de fotograma donde se predice Enfado de forma

errónea
el sujeto 2, por lo que el uso de probabilidades no consigue corregir

esas predicciones incorrectas en la expresión Neutral del sujeto 2.
Se ha podido observar en las pruebas de vídeo cuáles son las

emociones con las que se suele confundir el clasificador. A continua-
ción indicamos los principales problemas que se han detectado para
cada una de las emociones:
Neutral suele confundirse con Tristeza o Enfado. La predicción

de esta emoción depende principalmente de la morfología de la
cara, ya que no hay ninguna característica que nos esté indican-
do la emoción al ser el estado Neutral la ausencia de expresión
facial. Por ejemplo, en el vídeo S002-107 hemos tenido casi
las mismas predicciones de Enfado que de Neutral, debido a
que el sujeto tiene las cejas a poca distancia de los ojos, como
se puede ver en la Figura 7.3. Esto puede llevar al sistema a
interpretar Enfado.
En el caso de Alegría, se ha observado que la emoción con la

que se suele confundir es Asco, pero esto ocurre principalmente
en los frames en los de transición entre el estado Neutral y la
expresión pico de Alegría. Esto puede deberse a que la emoción
no está totalmente definida y las características extraídas pueden
Figura 7.4 Ejemplo de frame de transición entre Neutral y Alegría

donde se predice Asco
llevar a confusión. En la Figura 7.4 podemos ver un frame de

transición en el que ocurre este fallo de predicción.
Tristeza suele confundirse con Miedo y con Neutral, por tener

características en común. Las cejas más levantadas por la cara
interna que por la externa, como la podemos ver en la Figura 7.5
son una característica propia tanto de Tristeza como de Miedo.
Por otra parte, si la expresión de tristeza mostrada no es muy
exagerada, es decir, los labios no están estirados hacia abajo
y las cejas se encuentran en una posición normal, es difícil
diferenciarla de una cara neutral.
Con Enfado se obtienen resultados bastante aceptables. Prin-

cipalmente confunde esta emoción con Asco, especialmente
cuando la emoción todavía no ha alcanzado el pico, como ocu-
rre en la Figura 7.6, y con Neutral cuando la expresión no está
muy definida.
Para Miedo también se han obtenido buenos resultados, aunque

a veces se confunde con Tristeza. En la Figura 7.7 podemos ver
un ejemplo de fotograma donde se predice Tristeza cuando el
vídeo está etiquetado con la emoción Miedo. En este fotograma
Figura 7.5 Ejemplo de fotograma representativo de Tristeza donde se

predice Miedo
Figura 7.6 Ejemplo de fotograma de transición entre Neutral y Enfado

donde se predice Asco
Figura 7.7 Ejemplo de fotograma representativo de Miedo donde se

predice Tristeza
se produce además un problema de desajuste ASM en la zona

de la boca, que hace que las características obtenidas no sean
las de la expresión facial que estamos viendo, lo que puede
contribuir también a una predicción errónea.
Asco se confunde sobre todo con Enfado, principalmente por-

que la posición de las cejas en ambas emociones son similares:
la parte interna de las cejas está más abajo que la externa y el
ceño está fruncido, lo que hace que las cejas estén más juntas.
En la Figura 7.8 podemos ver un ejemplo.
Sorpresa se confunde con Miedo. Posiblemente es debido a que

en los dos casos se tienen los ojos muy abiertos. En la Figura
7.9 vemos un ejemplo de un error de predicción para Sorpresa,
donde también se puede observar que los puntos faciales de
la zona de la boca no se han ajustado correctamente, lo que
también hace que la predicción sea errónea.
Figura 7.8 Ejemplo de fotograma representativo de Asco donde se

predice Enfado
Figura 7.9 Ejemplo de fotograma representativo de Sorpresa donde

se predice Miedo

Alegría 85,62 0,00 1,20 0,75 3,54 0,00 8,89
Tristeza 4,58 73,30 1,56 11,83 3,26 0,00 5,47
Enfado 2,04 6,75 70,27 4,58 3,51 0,00 12,85
Miedo 0,62 13,60 1,47 78,35 2,70 0,00 3,26
Asco 0,00 8,21 0,00 8,87 75,17 0,00 7,75
Sorpresa 0,00 1,05 0,00 1,81 0,00 96,51 0,63
Neutral 1,70 14,65 2,76 2,28 3,41 0,00 75,20
Tabla 7.12 Resultados para las pruebas de webcam con SVM sin
probabilidades

Alegría 86,93 0,00 1,20 0,75 2,71 0,00 8,41
Tristeza 4,58 73,52 1,56 11,61 3,26 0,00 5,47
Enfado 1,74 5,91 72,15 4,20 3,15 0,00 12,85
Miedo 0,92 13,23 1,24 79,36 2,19 0,00 3,06
Asco 0,00 7,95 0,00 7,84 77,10 0,00 7,11
Sorpresa 0,00 0,79 0,00 2,16 0,00 97,05 0,00
Neutral 1,54 13,96 3,56 1,49 2,57 0,00 76,88
Tabla 7.13 Resultados para las pruebas de webcam con SVM con
probabilidades
7.3.1. Pruebas en entorno doméstico
Una vez realizadas las pruebas con imágenes de laboratorio,

vamos a comprobar el funcionamiento de la aplicación cuando utiliza
la webcam. Como indicábamos en el capítulo anterior, las pruebas que
se han realizado para la webcam han consistido en pedir a un sujeto
que finja la expresión facial asociada a una determinada emoción.
Con el fin de poder replicar las pruebas para los modelos SVM sin y
con probabilidades, la sesión se graba para poder ejecutar a posteriori
con cada uno de los modelos y así poder comparar resultados.
Es importante comentar que esta prueba tiene un importante

grado de subjetividad. Mientras que en las pruebas anteriores para
imágenes y vídeos se han utilizado datos debidamente etiquetados,
en este caso la interpretación de la emoción ha dependido directa-
mente de cada sujeto. Aunque los datos no hayan sido previamente
etiquetados y validados creemos que es importante realizar este tipo
de comprobación ya que es más cercana al uso real que va a tener la
aplicación. En la Tabla 7.12 tenemos los resultados obtenidos utili-

zando el modelo SVM sin probabilidades, mientras que en la Tabla
7.12 tenemos los que se obtienen con el modelo con probabilidades.
A la vista de estos datos podemos comentar:
Alegría: Se confunde principalmente con Neutral. Esto es de-

bido a que los sujetos muestran inicialmente una ligera sonrisa
que el sistema no es capaz de interpretar correctamente. Sin
embargo, se ha podido comprobar que cuando la sonrisa se hace
más pronunciada, la predicción es correcta. En la Figura 7.10(a)
podemos ver una captura en la que se ha pedido al sujeto que
represente Alegría y el sistema la ha predicho correctamente.
Tristeza: Se ha confundido principalmente con Miedo, como

ya pasó en las pruebas con vídeo, lo que nos permite afirmar
que estas dos emociones tienen características similares que
hacen que el sistema a veces tenga dificultad para distinguirlas.
En la Figura 7.10(b) vemos un ejemplo en el que se pidió al
sujeto que mostrase Tristeza y el sistema pudo reconocer la
emoción.
Enfado: Es la emoción para la que menos porcentaje de acier-

tos se ha conseguido. Se ha confundido en algunos frames con
Neutral, probablemente porque la expresión facial no era lo
suficientemente clara. Hemos podido observar que cuando a
los sujetos se les pedía que pusieran cara de enfado realmente
mostraban una expresión seria que podría considerarse Neutral,
mientras que las expresiones de enfado con las que hemos reali-
zado el entrenamiento eran expresiones más exageradas en las
que se fruncen los labios y las cejas, por lo que el sistema no
consigue predecir el enfado correctamente en esos casos. Pode-
mos ver en la Figura 7.10(c) una captura en la que se predice
Enfado.
Miedo: Una vez más la emoción con la que más se ha confun-

dido es Tristeza. Estas dos emociones tienden a confundirse
entre ellas. Ambas tienen características comunes, como los
labios hacia abajo y las cejas más levantadas por la zona del
Figura 7.10 Ejemplo de capturas de webcam donde las emociones

detectadas son (a) Alegría, (b) Tristeza, (c) Enfado, (d) Miedo, (e)
Asco, (f) Sorpresa, (g) Neutral
ceño que por los extremos, lo que puede estar produciendo que
el sistema no las consiga diferenciar bien. En la Figura 7.10(d)
tenemos un ejemplo de captura en la que el sistema ha predicho
Miedo correctamente.
Asco: Se confunde casi en la misma proporción con 3 emocio-

nes distintas: Tristeza, Miedo y Neutral. En la Figura 7.10(e)
vemos una captura representativa de la emoción Asco.
Sorpresa: La tasa de aciertos más alta que para el resto de

emociones, como ha ocurrido en los test anteriores. Los fallos
se producen por movimientos repentinos de la cabeza o por
oclusiones temporales de la zona bucal que hacen que el sistema
tarde un poco en recuperar la posición correcta de los puntos
faciales, ya que los sujetos tienden a alejarse de la cámara o a
taparse la boca con la mano para mostrar Sorpresa. Podemos
ver una captura de la prueba realizada en la Figura 7.10(f).
Neutral: En este caso se confunde en ocasiones con Tristeza,

aunque, como ya se ha dicho anteriormente, una predicción
errónea del estado Neutral es debida principalmente a la estruc-
tura de la cara, ya que no hay acciones unitarias activadas que
nos estén indicando la emoción que se está mostrando. En la
Figura 7.10(g) tenemos una captura de la webcam en la cual el
sistema ha predicho Neutral.
Los resultados que se han obtenido en el entorno doméstico son

algo peores que los que los que obteníamos en las pruebas con imá-
genes de laboratorio. Hay varias razones para este descenso en las
tasas de acierto. Para el entrenamiento se han utilizado imágenes de
las bases de datos, que tienen buena calidad y muestran expresiones
representativas de las emociones etiquetadas. En esta prueba hemos
utilizado una webcam como entrada, que ofrece menor resolución
que las imágenes de las bases de datos. La calidad del frame hace que
el funcionamiento del ASM sea peor, ya que tiene más dificultad para
identificar los puntos faciales. Además, la mayor parte de los sujetos
que se han utilizado para el entrenamiento tienen edades comprendi-
das entre los 20 y los 40 años. La representación de personas mayores
Figura 7.11 Comparativa de tiempos de análisis para 20 frames para

los dos modelos SVM
en estas bases de datos se reduce a tres o cuatro sujetos, lo que puede

hacer que el modelo no funcione adecuadamente con personas mayo-
res debido a la escasez de muestras. Además, una persona a la que se
le está grabando suele hacer movimientos repentinos con la cabeza
o se cubre parte de la cara con las manos, haciendo que la máscara
ASM no pueda ajustarse bien. También existe el problema de que
estamos constantemente grabando y pidiendo al usuario expresiones,
por lo que se producen muchos frames de transición donde el siste-
ma tiene problemas para detectar la emoción. Estos frames no son
representativos de ninguna emoción, por lo que la predicción es por
lo general errónea en estos casos. Hemos podido observar también
que las personas mayores tienen problemas a la hora de representar
las emociones, bien porque les da vergüenza o se sienten incómodos
al saber que se les está grabando, o bien porque no saben muy bien
cómo fingir dicha emoción.
Como se ha podido observar, los resultados obtenidos son algo

mejores con el modelo de probabilidades, por lo que vamos a realizar
una comparativa de los tiempos de análisis para cada modelo SVM
con webcam. De esta manera revisaremos si el tiempo de análisis
aumenta cuando utilizamos predicción con probabilidades y si ese
aumento de tiempo hace que se pierda información cuando se realiza
el reconocimiento facial a través de la cámara. En la Figura 7.11
podemos ver la comparativa de tiempo de análisis para los primeros
7.4 Entrenamiento con una persona 187
γ/ν 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9
0,1 85,24 86,67 86,67 86,19 85,24 83,33 80,95 79,05 40,00
0,2 86,19 87,14 86,19 87,14 83,81 82,86 80,95 80,00 40,95
0,3 85,71 86,67 84,76 86,19 84,29 82,38 80,00 79,52 42,38
0,4 86,19 86,19 84,76 85,24 84,29 82,86 80,00 78,57 41,90
0,5 87,14 86,19 84,76 85,24 84,29 81,90 79,52 78,57 41,90
0,6 87,14 86,19 84,76 85,24 83,33 80,95 79,05 79,05 42,38
0,7 87,14 86,19 84,29 84,76 82,86 80,95 78,57 79,05 41,43
0,8 87,62 86,19 84,29 83,81 81,90 80,95 78,57 78,10 41,43
0,9 87,14 85,71 84,76 83,33 81,90 80,95 78,57 77,62 40,95
1 86,67 85,71 84,29 82,86 81,90 81,43 79,52 77,14 40,48
Tabla 7.14 Validación cruzada para entrenamiento SVM con un único
sujeto
segundos de análisis de un vídeo que hemos introducido al programa

a través de la entrada de webcam, de manera que tenemos la misma
entrada de datos en los dos casos para poder hacer una comparación
adecuada.
Los tiempos de análisis son algo superiores cuando utilizamos

el SVM con probabilidades. Teniendo en cuenta una duración más
larga obtenemos que de media tarda un 0,6 % más de tiempo cuando
se utiliza este tipo de modelo. Dado que no es un aumento muy
significativo y que en todos los experimentos realizados el uso de un
SVM con probabilidades ha mejorado los resultados emplearemos
dicho modelo para la aplicación.
7.4. Entrenamiento con una persona
Una vez comprobado que el modelo SVM con probabilidades

proporciona mejores resultados sin comprometer el rendimiento del
programa, vamos a realizar un nuevo modelo SVM con probabilidades
que solo utilice a un sujeto. Para ello hemos pedido al sujeto que
represente cada una de las emociones varias veces para contar con
suficientes imágenes para hacer un modelo válido. Contamos con un
total de 210 imágenes para este entrenamiento, 30 por cada emoción.
γ/ν 0,06 0,07 0,08 0,09 0,1 0,11 0,12 0,13 0,14 0,15
0,76 87,62 87,62 87,62 87,62 87,62 87,14 87,14 87,14 87,14 86,67
0,77 87,62 87,62 87,62 87,62 87,62 87,14 87,14 87,14 87,14 86,67
0,78 87,62 87,14 87,62 87,62 87,62 87,14 87,14 87,14 87,14 86,67
0,79 87,62 87,62 87,62 87,62 87,62 87,14 87,14 87,14 87,14 86,67
0,8 87,62 87,62 87,62 87,62 87,62 87,14 87,14 87,14 87,14 86,67
0,81 87,62 87,62 87,62 87,62 87,62 87,14 87,14 87,14 87,14 86,67
0,82 87,62 87,62 87,62 87,62 87,62 87,14 87,14 87,14 87,14 86,67
0,83 87,62 87,62 87,62 87,62 87,62 87,14 87,14 87,14 87,14 86,67
0,84 87,62 87,62 87,62 87,62 87,62 87,14 87,14 87,14 86,67 86,67
0,85 87,62 87,62 87,62 87,62 87,62 87,14 87,14 87,14 86,67 86,67
Tabla 7.15 Validación para aproximación al segundo decimal para
modelo SVM con un único sujeto
Probabilidades Sí
Parámetro ν 0.1
Parámetro γ 0.8
Número de clases 7
Tabla 7.16 Características del modelo SVM con un único sujeto
En la Tabla 7.14 podemos ver la validación cruzada con 5 subgru-

pos que se obtiene para este entrenamiento, donde el mejor resultado
se ha marcado en negrita. En la Tabla 7.15 tenemos la aproximación
al segundo decimal, que se ha realizado en los rangos γ[0,76, 0,85] y
ν[0,06, 0,15]. Como se puede observar, la segunda aproximación no
mejora los resultados, por lo que utilizaremos como parámetros los
obtenidos en la primera validación, γ = 0, 8 y ν = 0, 1. Las caracte-
rísticas del modelo se muestran en la Tabla 7.16.
En la Tabla 7.17 podemos ver los resultados obtenidos en el

reconocimiento de emociones para la persona que hemos utilizado
para el modelo SVM. Como se puede observar, algunas emociones
mejoran notablemente con respecto a las pruebas realizadas sobre el
modelo de imágenes de laboratorio, siendo los casos más llamativos
Miedo, que para estas pruebas ha conseguido un 100 % de aciertos,
y Asco, que además de haber mejorado su porcentaje de aciertos no
ha dado ningún falso positivo en las pruebas realizadas, por lo que se
ha conseguido una mejor caracterización de esta emoción. Por otra
7.4 Entrenamiento con una persona 189

Alegría 85,25 0,00 0,00 8,50 0,00 0,00 6,25
Tristeza 7,50 70,00 0,00 0,00 0,00 0,00 22,50
Enfado 7,50 0,00 92,50 0,00 0,00 0,00 0,00
Miedo 0,00 0,00 0,00 100,00 0,00 0,00 0,00
Asco 9,00 10,00 8,50 0,00 72,50 0,00 0,00
Sorpresa 0,00 0,00 0,00 6,25 0,00 93,75 0,00
Neutral 0,00 22,50 0,00 5,00 0,00 0,00 72,50
Tabla 7.17 Resultados para las pruebas con el SVM de un único sujeto
utilizando imágenes de ese sujeto

Alegría 84,50 0,00 4,00 4,00 7,50 0,00 0,00
Tristeza 8,50 73,50 5,00 7,50 0,00 0,00 5,50
Enfado 10,75 0,00 75,75 0,00 13,50 0,00 0,00
Miedo 0,00 11,15 1,35 71,00 0,00 7,50 9,00
Asco 0,00 5,20 18,15 0,00 76,65 0,00 0,00
Sorpresa 0,00 3,25 0,00 0,00 1,50 92,50 2,75
Neutral 0,00 15,25 12,75 0,00 0,00 0,00 72,00
Tabla 7.18 Resultados para las pruebas con el SVM de laboratorio
utilizando imágenes de ese sujeto
parte, emociones como Alegría, Tristeza y Sorpresa, que en el modelo

general obtenían porcentajes superiores al 90 % han descendido en el
porcentaje de aciertos.
Sin embargo, si tomamos las mismas imágenes y las intentamos

detectar con el clasificador SVM con probabilidades obtenemos los
resultados que se muestran en la Tabla 7.18. Como se puede ver, el
porcentaje de aciertos baja en todos los casos con respecto al modelo
SVM que utiliza a ese único sujeto. Esto es debido a que cada sujeto
interpreta las emociones de forma particular, por lo que el modelo
centrado en un sujeto funcionará de manera más satisfactoria para
esa persona que un modelo más general, donde tenemos expresiones
emocionales de diferentes personas.
El principal problema del modelo de un solo sujeto es que no

podría utilizarse en un sistema general de detección de emociones. Si
intentamos predecir las emociones de las imágenes de laboratorio que
utilizábamos al principio de este capítulo, obtenemos los resultados
que aparecen en la Tabla 7.19. Como se puede observar, a excepción

Alegría 80,77 5,77 11,54 0,00 1,92 0,00 0,00
Tristeza 21,15 46,15 0,00 15,38 1,92 0,00 15,38
Enfado 0,00 30,77 42,31 9,62 0,00 0,00 17,31
Miedo 15,38 7,69 3,85 59,62 3,85 7,69 1,92
Asco 61,00 3,85 0,00 7,69 27,46 0,00 0,00
Sorpresa 3,85 1,92 3,85 73,08 0,00 17,31 0,00
Neutral 11,54 23,08 0,00 38,46 1,92 0,00 25,00
Tabla 7.19 Resultados para las pruebas con el SVM de un único sujeto
utilizando imágenes de bases de datos
de Alegría, que consigue un porcentaje de aciertos aceptable, el resto

de emociones reduce su tasa de aciertos y en muchos casos no son
la emoción más predicha para su clase, algo que no ocurría con el
modelo general.
7.5. Agrupación de emociones
En este apartado vamos a realizar la agrupación de las emociones

negativas del detector en una única clase. De esta manera esperamos
conseguir un aumento en el porcentaje de aciertos que nos permita
desarrollar un módulo de detección facial de emociones más fiable pa-
ra poder hacer una correcta actuación sobre las emociones del usuario.
Consideraremos que Alegría, Sorpresa y Neutral son clases indepen-
dientes, ya que para cada una de ellas tiene una valencia y activación
distinta, por lo que no es posible agruparlas con el resto de emociones.
Es preciso que el sistema conozca cuál de ellas es la emoción del
paciente para activar unos colores o unas piezas musicales diferentes.
Sin embargo, las emociones Tristeza, Enfado, Miedo y Asco

son todas emociones negativas que pueden agruparse en un único
conjunto. La activación y sobre todo la valencia de todas ellas son
similares, por lo que la actuación que realiza el sistema sobre el
usuario es muy parecida. De esta manera conseguiremos que todos
los errores que se producían entre estas emociones se traduzcan en
un acierto. Pasaremos, por tanto, de tener siete clases a trabajar con
cuatro. Vamos a utilizar solo los modelos SVM con probabilidades,
7.5 Agrupación de emociones 191
Predicción Alegría Sorpresa Neutral Negativa

Alegría 88,46 0,00 1,92 9,62
Sorpresa 0,00 98,08 0,00 1,92
Neutral 1,92 0,00 78,85 19,23
Negativa 1,92 0,96 3,37 93,75
Tabla 7.20 Resultados para las pruebas de imágenes de bases de datos
agrupando las emociones negativas

Alegría 86,93 0,00 8,41 4,66
Sorpresa 0,00 97,05 0,00 2,95
Neutral 1,54 0,00 76,88 21,58
Negativa 1,81 0,00 7,12 91,07
Tabla 7.21 Resultados para las pruebas de webcam agrupando las
emociones negativas
ya que son con los que mejores resultados hemos obtenido con siete
clases.
En la Tabla 7.20 podemos ver los resultados obtenidos con el

modelo SVM con probabilidades para las imágenes estáticas de la-
boratorio. Como se puede observar, los resultados ahora son muy
competitivos, excepto para Neutral, que se mantiene con un porcenta-
je de acierto del 78 %.
Para las pruebas realizadas con webcam se obtiene la matriz de

confusión representada en la Tabla 7.21. En este caso también se han
mejorado los resultados. Si comparamos las tasas de aciertos entre
las Tablas 7.20, donde se prueba la detección con adultos, y 7.21,
donde se prueba solo con personas mayores, podemos ver que los
resultados obtenidos para personas mayores son algo peores que para
adultos. Dado que el entrenamiento se realizó con bases de datos,
que tienen muy pocas personas mayores, es lógico que se obtengan
mejores resultados cuando se detectan frames de personas que no son
mayores. Además, como ya comentamos en las pruebas de webcam,
las personas mayores no tienen facilidad para representar emociones
al sentirse incómodos cuando se les está grabando.

Alegría 85,25 0,00 6,25 8,50
Sorpresa 0,00 93,75 0,00 6,25
Neutral 0,00 0,00 72,50 27,50
Negativa 6,00 0,00 5,63 88,38
Tabla 7.22 Resultados para el modelo de un único sujeto agrupando
las emociones negativas
Por último, si realizamos la agrupación de emociones con el

modelo que solo empleaba un sujeto obtenemos la matriz que aparece
en la Tabla 7.22. Como se puede observar, los resultados son algo
peores que con el modelo general. Aunque para algunas emociones
como Miedo habíamos conseguido resultados muy buenos, al tener
que combinar los resultados con Tristeza y Asco, que han obtenido
resultados mucho peores, la agrupación de emociones no consigue
superar en aciertos al modelo hecho con imágenes de bases de datos.
7.6. Conclusiones
Hemos realizado los experimento propuestos para comprobar el

funcionamiento de las tres posibles entradas de datos de la aplicación
(imagen, vídeo y webcam) y para las siete posibles predicciones del
sistema (Alegría, Tristeza, Enfado, Miedo, Asco, Sorpresa y Neutral).
Para ello hemos realizado diferentes modelos SVM. Hemos obtenido
las siguientes conclusiones:
Se han comparado los resultados de un modelo SVM sin y

con probabilidades empleando las mismas imágenes para el
entrenamiento. En general, los resultados del SVM con proba-
bilidades son algo mejores que los obtenidos con un SVM sin
probabilidades.
La predicción de un SVM con probabilidades lleva más tiem-

po que la de un SVM sin probabilidades. Por este motivo, se
han comparado los tiempos de predicción con cada uno de los
modelos. Aunque sí se puede apreciar que hay un aumento

de tiempo cuando el SVM soporta probabilidades, este apenas
es un 0,06 % superior. Ya que el modelo SVM obtiene mejo-
res resultados y no compromete al rendimiento del sistema es
recomendable usar este tipo de clasificador.
Para siete clases se obtienen resultados aceptables, alrededor

de un 85 % de aciertos, y para algunas emociones se consigue
más de un 95 %.
Hemos podido observar que las principales razones por las que
se producen incorrecciones en las predicciones del sistema son:
• Un ajuste incorrecto del ASM, que hace que los puntos

faciales no se correspondan con la expresión facial.
• La expresión mostrada no es claramente representativa de
la emoción etiquetada.
• Las características de dos emociones son muy similares y
el sistema no es capaz de distinguirlas.
• En vídeos y webcam, además, la transición de una emo-
ción a otra produce una expresión que no se corresponde
con ninguna de las clases, por lo que el sistema tiene
problemas para predecir correctamente durante esos inter-
valos de tiempo. En esos frames la predicción no suele ser
correcta.
La representación de emociones suele ser en muchos casos

subjetiva y resulta difícil tanto conseguir un 100 % de aciertos
como realizar pruebas válidas.
Las emociones para las que mejores resultados se obtienen son

Sorpresa y Alegría.
El estado Neutral es muy difícil de detectar y suele confundirse

con casi todas las emociones. El problema de este estado es que
no hay ninguna Acción Unitaria activada que nos indique la
emoción que se está representando, por lo que el sistema toma
características morfológicas de la cara como acciones unitarias
y detecta emociones que en realidad no se están representando.
Por ejemplo, si una persona tiene las cejas muy cercanas a los
ojos, el sistema detecta Enfado cuando está en estado Neutral,
porque la acción unitaria de bajar las cejas es una característica
propia de Enfado.
Para las emociones Tristeza, Enfado, Miedo y Asco obtenemos

a veces errores donde se confunde con otras emociones. Lo
más probable es que el sistema las confunda porque tienen
características comunes que pueden hacer que se confundan.
Por ejemplo, el ceño fruncido, que es propio tanto de Asco como
de Enfado, o los labios tirantes hacia abajo, que son propios de
Tristeza, Miedo y Asco.
Para solventar este problema, y dado que nuestro objetivo es

detectar cuándo una persona está sintiendo una emoción nega-
tiva para poder actuar, hemos agrupado las cuatro emociones
negativas (Tristeza, Enfado, Miedo y Asco). De esta manera
conseguimos resultados mucho mejores, con casi un 90 % de
aciertos.
Hemos generado también un modelo SVM utilizando un úni-

co sujeto. Aunque los resultados son aceptables, no consigue
superar los resultados del modelo generado con imágenes de la-
boratorio. Tiene además el problema de que solo se puede usar
para la persona para la que se creó, si intentamos aplicar ese
modelo sobre otros usuarios las predicciones no son correctas.
Por tanto, no es recomendable utilizar este tipo de SVM en el
sistema.
Parte IV
Conclusiones
Capítulo 8
Conclusiones, trabajo futuro y

aportaciones
En este capítulo se presentarán las conclusiones a las que se han

llegado tras el trabajo realizado y se expondrán nuevos cauces de
estudio en cuanto al estudio de emociones y posibles mejoras que
serían interesantes para futuras versiones de la aplicación de detección
facial de emociones. También se detallan las principales aportaciones
de la investigación realizada.
8.1. Conclusiones
En este trabajo se definió como objetivo inicial realizar una

propuesta de arquitectura orientada a la detección y regulación de
emociones en un ambiente inteligente con el fin de mejorar la calidad
de vida y los cuidados a personas mayores. Teniendo en cuenta el
estado del arte actual en cuanto a regulación de emociones, no es
posible construir un sistema fiable para cuantificar hasta qué punto
esta propuesta de arquitectura para la regulación de emociones pue-
de mejorar la calidad de vida del usuario. Por tanto, son necesarios
expertos en la materia para confirmar el funcionamiento del sistema.
Estos expertos se encargar de facilitar el conocimiento experto ini-
cial al sistema. Además, tienen que evaluar el estado de ánimo del
198 Conclusiones, trabajo futuro y aportaciones
Figura 8.1 Distribución conceptual de sensores en un hogar
paciente para poder ajustar el sistema cuando los resultados no sean

satisfactorios. Por tanto, el éxito de la arquitectura depende en gran
medida de la participación de estos expertos (médicos y psicólogos).
Además, para que el funcionamiento del sistema de reconoci-

miento y regulación sea óptimo es necesario que se afinen los pará-
metros y configuraciones. Por ejemplo, los colores de luz o las piezas
musicales que consigan mejorar el estado de ánimo pueden ser dife-
rentes de un paciente a otro. Por ello, el sistema tiene que ajustarse
a cada paciente de acuerdo a sus preferencias o a si tiene alguna
condición médica que pueda afectarle. Esto implica un análisis previo
del usuario para obtener todos los detalles posibles. De esta manera
se podrá elaborar un perfil con datos personales y privados, que deben
tratarse cuidadosamente de acuerdo a la legislación de privacidad de
datos actual y las reglas éticas. Por ello, los datos privados de estos
usuarios no podrían difundirse y los participantes tendrían que ser
debidamente informados sobre cómo se van a tratar y usar los datos
que se están registrando sobre ellos.
Con respecto a las reglas éticas, monitorizar a una persona en

su hogar debe considerarse como una cuestión crítica. Utilizar senso-
res de diferentes tipos para monitorizar a un sujeto genera una gran
cantidad de datos sensibles, como pueden ser imágenes, que deben
tratarse también de acuerdo a la legislación vigente, como se indicó

en el párrafo anterior. Además, algunas áreas como los cuartos de
baño o los dormitorios se pueden considerar especialmente privados
y no sería posible instalar el sistema en estas zonas. Las ubicaciones
para desplegar el sistema se acordarían previamente con los partici-
pantes, teniendo en cuenta que los sensores se pondrían en posiciones
estratégicas buscando la máxima cobertura del área monitorizada.
Los dispositivos a instalar se seleccionarían considerando el entorno
del usuario. Por ello, el objetivo principal es instalar dispositivos no
intrusivos y que tengan una apariencia agradable. En la Figura 8.1
se muestra una posible distribución del sistema. En rojo aparecen
señaladas las zonas privadas de la casa, donde no se instalaría ningún
sensor que pueda registrar imágenes.
Es una cuestión compleja asegurar un rendimiento alto cuando

se están detectando estados emocionales utilizando un sistema que
cuenta con diferentes fuentes de información. Además, como el siste-
ma está diseñado para ser lo menos intrusivo posible, se espera que
cada sensor obtenga información durante periodos cortos de tiempo.
Con respecto a la detección facial de emociones, el algoritmo fun-
cionará mejor cuando el paciente se encuentre frente a la cámara a
una determinada distancia, ya que las imágenes de entrenamiento con
las que se ha generado el modelo de clasificación son todas de este
tipo. Por este motivo, la propuesta más adecuada para la utilización
de este sistema sería un análisis a largo plazo. De esta manera, el
estado de ánimo de una persona no se consideraría un fenómeno
instantáneo, si no como el análisis de la información de los sensores
durante un periodo de tiempo combinado con conocimiento experto.
Esta sería la principal capacidad de la arquitectura propuesta, realizar
una monitorización y análisis constantes para permitir a los médicos
observar la evolución del estado de ánimo de sus pacientes durante
largos periodos de tiempo.
Por supuesto, el sistema y la arquitectura deben probarse para

evaluar su usabilidad. Una vez que esté completamente implementado
se deben realizar pilotos en un entorno simulado, como una pequeña
habitación en un laboratorio. A través de un método de inducción de
estados de ánimo se evaluará la capacidad del sistema para detectar y
regular emociones mediante luz/color y música. Este procedimiento

se realizaría primero con adultos sanos. En una etapa posterior el
mismo sistema se probaría con personas mayores sanas. Cuando se
verifique que el sistema funciona adecuadamente en las condiciones
indicadas, se probaría con ancianos sanos en habitaciones de su casa,
por ejemplo, en la sala de estar. Habría un contacto constante con
los usuarios para resolver los problemas que puedan surgir y para
monitorizar el grado de satisfacción de la persona.
El éxito de este sistema depende en gran medida de la actitud

que tengan hacia él los usuarios y los expertos para aceptarlo. Si
el usuario se siente incómodo por estar siendo monitorizado será
casi imposible inducirle posiciones positivas. El uso de sensores
intrusivos o desplegar sensores muy evidentes en su hogar puede
incluso agravar el problema. Por ello, utilizar sensores corporales
reducidos y cómodos y conseguir ubicar los sensores de imágenes en
lugares donde puedan pasar desapercibidos son cuestiones de gran
importancia que no deben desestimarse.
Otro de los objetivos principales era estudiar las técnicas de

detección y extracción de características faciales e intentar encontrar
técnicas que permitiesen el reconocimiento en tiempo real. Gracias al
estudio sobre el estado del arte conseguimos una visión global de la
detección de emociones mediante visión artificial, lo que nos permitió
decidir cuál era el mejor sistema de reconocimiento facial y cuáles
eran las características más adecuadas para distinguir las emociones.
En este sentido podemos decir que las características de más interés
para la detección emocional son:
La posición de las cejas, tanto entre ellas como con respecto a

los ojos.
Los ojos, especialmente la distancia entre los párpados inferior

y superior.
La boca, principalmente la anchura y la altura.
Otro objetivo primordial era implementar un detector de emocio-

nes que hiciese uso de las técnicas estudiadas. Para el desarrollo de
este sistema hemos realizado los siguientes objetivos específicos, que

nos han ayudado a conseguirlo:
Hemos estudiado los modelos para la obtención automática de

las características faciales sin intervención del usuario. Final-
mente utilizamos el modelo ASM por su buen funcionamiento
en tiempo real y por contar con una librería compatible con
OpenCV. Pudimos realizar pruebas con varios modelos y final-
mente obtuvimos los mejores resultados con el modelo de 68
puntos faciales. En las pruebas realizadas con modelos de me-
nos puntos la detección facial era incorrecta cuando se trabajaba
con vídeos porque no se realizaba un seguimiento adecuado de
las características faciales debido a que una menor cantidad de
características permite que un solo punto tenga más posibilida-
des de movimiento. Podemos por tanto concluir que con una
mayor cantidad de puntos, la detección de la expresión facial
será más acertada. Sin embargo, con el fin de conseguir una
aplicación que funcione en tiempo real es importante limitar el
número de puntos y de características a analizar.
Hemos estudiado las máquinas de vectores de soporte (SVM)

para hacer la clasificación y la hemos añadido a nuestro proyec-
to utilizando la librería LibSVM. Este sistema de clasificación
es el más adecuado para trabajar con varias clases, como es
este caso en el que tenemos 7 posibles clases para una emoción:
Alegría, Tristeza, Enfado, Miedo, Asco, Sorpresa y Neutral.
Por recomendación de los propios autores se ha utilizado un
kernel RBF, que permite una mejor clasificación multiclase y
simplifica el proceso de entrenamiento al tratarse de cálculos
más simples. Además, se ha empleado el método multiclase
una-vs-una, con el que se obtienen mejores resultados a la hora
de realizar la clasificación. Se han generado diferentes tipos de
modelos SVM para probar cuál ofrecía mejores resultados. Fi-
nalmente se ha optado por un modelo SVM con probabilidades
entrenado a partir de imágenes de laboratorio pertenecientes a
varios usuarios.
Hemos obtenido algunas de las bases de datos más utilizadas

para el proceso de entrenamiento y pruebas del sistema. Dichas
bases de datos contaban tanto con imágenes estáticas como con
vídeos, lo que nos ha permitido desarrollar la aplicación para
analizar ambos tipos de entradas.
Hemos investigado las librerías utilizadas para la realización

del proyecto. Para incluir la visión artificial se ha utilizado la
librería OpenCV, con la que hemos podido hacer la detección
facial. Para conseguir una mejor precisión para obtener los pun-
tos faciales necesarios hemos utilizado la librería ASMLibrary,
basada en OpenCV, gracias a la cual conseguimos obtener los
puntos en tiempo real y obtenemos las características necesarias
para su posterior clasificación. Por último, gracias a la librería
LibSVM hemos podido realizar el entrenamiento del sistema
y hemos incluido el modelo que, a partir de las características
extraídas, nos permite clasificar la emoción analizada.
De esta manera conseguimos implementar la aplicación y rea-

lizar las pruebas necesarias para comprobar su precisión a la hora
de clasificar. En general hemos conseguido resultados aceptables,
especialmente para determinadas emociones como Sorpresa. Para
otras emociones, como Tristeza y Miedo, el sistema tiende a con-
fundirse, generalmente por tratarse de emociones con características
faciales similares. Para resolver este problema se ha optado por hacer
una agrupación de todas las emociones negativas en una única clase
Negativa, que permite que el sistema tenga una tasa de aciertos de
alrededor el 90 %.
8.2. Trabajo futuro
Para concluir este capítulo, vamos a presentar en este apartado

trabajos que podrían realizarse para mejorar el sistema propuesto y
hacerlo más completo.
8.2 Trabajo futuro 203
La arquitectura propuesta está pensada para monitorizar a una

única persona, aunque es técnicamente posible hacer un seguimiento
de una persona concreta aunque haya más gente cohabitando con ella.
Inicialmente esta posibilidad no se ha desarrollado en la arquitectura
propuesta, pero el entorno de trabajo lo permitiría al ser adaptable y
abierto a nuevos módulos que puedan centrarse en un sujeto concreto.
Se debe tener en cuenta que este sistema está pensado para la

detección de emociones e intervención a corto plazo. Si las emocio-
nes perjudiciales persisten durante mucho tiempo o la regulación no
produce efecto, el sistema debería interactuar con el usuario a través
de una interfaz audiovisual. Dado que el sistema incluye monitori-
zación de parámetros fisiológicos, como la actividad electrodérmica,
contamos con información directa sobre los cambios en la regulación
emocional. En resumen, el sistema actuaría como una solución a
corto plazo para intentar llevar al usuario a emociones agradables,
pero si una emoción negativa persistiera debería tener la capacidad de
interactuar con el usuario y conectarse con familiares o con servicios
de atención a la tercera edad, por lo que podría ser muy interesante
añadir esta funcionalidad.
Aunque el sistema está diseñado para utilizarse con personas

mayores sin deficiencias cognitivas o enfermedades mentales, podría
adaptarse potencialmente a otras condiciones de salud, incluso cuando
no es conveniente activar ningún estímulo, como en casos de migraña
en los que el usuario prefiere silencio y oscuridad. En este caso sería
necesario poder interactuar con el usuario para valorar su estado de
ánimo. En otros casos, como para pacientes con dolor crónico o que
se están recuperando de una enfermedad, también podría ser muy útil
ya que reducir los estados emocionales negativos ayuda a mitigar el
dolor y reduce el tiempo de convalecencia de varias enfermedades.
Con respecto a la detección de emociones, una vía de estudio

interesante y que se presentó brevemente durante el estado del arte es
el reconocimiento de emociones mediante sonidos. Dado que existen
numerosas bases de datos dedicadas a este fin se podría realizar un
estudio más en profundidad en este aspecto e incluir en el sistema un
nuevo clasificador que funcione para sonidos. Sin duda, esto haría
que algunas emociones, como enfado o miedo, fueran más simples de

clasificar ya que, aunque estas emociones tengan características facia-
les similares que pueden hacer que el clasificador no las distinga bien,
los sonidos que se emiten en cada una de ellas son muy diferentes.
Otro cauce de estudio que se presentó durante el estado del arte

es el reconocimiento de emociones mediante cámaras térmicas. Aun-
que para este tipo de detección se necesita un equipo especializado
que es más costoso que una cámara estándar, resulta especialmente
interesante porque parece ser la forma más efectiva de detectar el
estrés. En una futura versión se podría incluir una entrada adicional
de datos mediante cámara térmica para estudiar si la temperatura
facial puede ayudar a distinguir emociones, aunque es cierto que sería
deseable que todos los componentes de la arquitectura sean lo más
económico posible, ya que el objetivo del sistema es instalarlo en el
hogar del paciente.
También se podría mejorar el funcionamiento del programa obte-

niendo información adicional de las probabilidades que proporciona
el modelo SVM. El uso de vectores de soporte con probabilidades ha
sido una mejora introducida en esta investigación a raíz de experimen-
tos realizados en las últimas fases de desarrollo, por lo que no se ha
explotado lo suficiente. Podría ser un valor añadido tener en cuenta
estas probabilidades a la hora de trasladar la información al módulo
de fusión multimodal. Por ejemplo, se podrían asociar grados a las
emociones predichas en lugar de enviar solo una etiqueta, lo cual po-
dría dar más información al sistema que podría incluso desestimar la
salida del módulo de detección facial si considera que la probabilidad
no es lo suficientemente alta. También se podrían tener en cuenta las
probabilidades de todas las emociones para un determinado frame pa-
ra obtener una etiqueta emocional de tipo Valencia/Excitación dentro
del modelo circunflejo.
8.3 Principales aportaciones 205
8.3. Principales aportaciones
Durante la realización de esta tesis se han publicado los siguien-

tes artículos, relacionados con la investigación realizada:
Lozano-Monasor, E., López, M. T., Fernández-Caballero, A.,

Vigo-Bustos, F. Facial expression recognition from webcam
based on active shape models and support vector machines.
6th International Work-Conference, IWAAL 2014, Belfast, UK,
2-5 Diciembre, 2014 (pp. 147-154). Springer.
En este artículo se presenta una primera versión de la aplicación
de detección facial de emociones, donde utilizamos el clasifica-
dor SVM sin probabilidades. El estudio muestra los resultados
de las primeras pruebas realizadas sobre el sistema utilizando
la entrada por webcam, donde se reconocen las seis emociones
básicas y el estado Neutral.
Fernández-Caballero, A., Martínez-Rodrigo, A., Pastor, J. M.,

Castillo, J. C., Lozano-Monasor, E., López, M. T., Zangróñiz,
R., Latorre, J. M., Fernández-Sotos, A. (2016). Smart environ-
ment architecture for emotion detection and regulation. Journal
of biomedical informatics, 64, 55-73. Elsevier.
Este artículo introduce la arquitectura para la detección y re-
gulación de emociones en ambientes inteligentes, descrita en
el Capítulo 4. El objetivo de la propuesta es detectar el estado
emocional de un paciente analizando sus señales fisiológicas,
comportamiento y expresión facial. El sistema proporciona las
acciones más adecuadas para que el ambiente regule estas emo-
ciones hacia estados más positivos. Para ello se utiliza música
y color/luz, con la finalidad de mejorar la calidad de vida y el
cuidado del usuario.
Lozano-Monasor, E., López, M. T., Vigo-Bustos, F., Fernández-

Caballero, A. (2017). Facial expression recognition in ageing
adults: from lab to ambient assisted living. Journal of Ambient
Intelligence and Humanized Computing, 8(4), 567-578. Sprin-
ger.
En este artículo se presenta una versión más avanzada de la

aplicación de detección facial de emociones. Se utiliza ASM
para detección de puntos faciales, ν-SVM para la clasificación
de emociones y el entrenamiento se realiza con las bases de da-
tos CK+, MMI y JAFFE. Se realiza la agrupación de las cuatro
emociones negativas (Tristeza, Enfado, Miedo y Asco en una
única categoría, por lo que el sistema distingue cuatro clases:
Alegría, Sorpresa, Emoción negativa y Neutral. La reducción
de categorías permite mejorar los resultados con el propósito de
detectar anormalidades en el estado emocional de una persona
mayor.
Bibliografía
Aarts, E. & Roovers, R. (2003). Embedded system design issues in

ambient intelligence. In: Ambient Intelligence: Impact on Embed-
ded Sytem Design pp. 11–29. Springer.
Acampora, G., Cook, D. J., Rashidi, P., & Vasilakos, A. V. (2013). A
survey on ambient intelligence in healthcare. Proceedings of the
IEEE, 101, 2470–2494.
Alam, M. R., Reaz, M. B. I., & Ali, M. A. M. (2012). A review of
smart homes - past, present, and future. IEEE Transactions on
Systems, Man, and Cybernetics, Part C (Applications and Reviews),
42 (6), 1190–1203.
Alugupally, N., Samal, A., Marx, D., & Bhatia, S. (2011). Analysis of
landmarks in recognition of face expressions. Pattern Recognition
and Image Analysis, 21.
Alwan, M., Dalal, S., Mack, D., Kell, S., Turner, B., Leachtenauer,
J., & Felder, R. (2006a). Impact of monitoring technology in
assisted living: outcome pilot. IEEE Transactions on Information
Technology in Biomedicine, 10 (1), 192–198.
Alwan, M., Rajendran, P. J., Kell, S., Mack, D., Dalal, S., Wolfe, M.,
& Felder, R. (2006b). A smart and passive floor-vibration based
fall detector for elderly. 2006 2nd International Conference on
Information and Communication Technologies, 1, 1003–1007.
Amiribesheli, M., Benmansour, A., & Bouchachia, H. (2015). A re-
view of smart homes in healthcare. Journal of Ambient Intelligence
and Humanized Computing, 6.
Anvar, S. M. H., Yau, W.-Y., & Teoh, E. K. (2013). Multiview face
detection and registration requiring minimal manual intervention.
IEEE transactions on pattern analysis and machine intelligence,
35 (10), 2484–2497.
Aswathy, M. (2013). A literature review on facial expression re-
cognition techniques. IOSR Journal of Computer Engineering
(IOSR-JCE), 11 (1), 61–6.
208 Bibliografía
Bachorik, J. P., Bangert, M., Loui, P., Larke, K., Berger, J., Rowe,
R., & Schlaug, G. (2009). Emotion in motion: Investigating the
time-course of emotional judgments of musical stimuli. Music
Perception: An Interdisciplinary Journal, 26 (4), 355–364.
Bahadori, S., Cesta, A., Grisetti, G., Iocchi, L., Leone, G. R., Nardi,
D., Oddi, A., Pecora, F., & Rasconi, R. (2004). Robocare: Perva-
sive intelligence for the domestic care of the elderly. Intelligenza
Artificiale, 1, 16–21.
Banse, R. & Scherer, K. (1996). Acoustic profiles in vocal emotion
expression. Journal of personality and social psychology, 70,
614–36.
Bargal, S., Barsoum, E., Canton Ferrer, C., & Zhang, C. (2016).
Emotion recognition in the wild from videos using images. pp.
433–436.
Benitez-Quiroz, C. F., Srinivasan, R., & Martinez, A. M. (2016).
Emotionet: An accurate, real-time algorithm for the automatic
annotation of a million facial expressions in the wild. In: 2016
IEEE Conference on Computer Vision and Pattern Recognition
(CVPR) pp. 5562–5570.
Bhardwaj, N. & Dixit, M. (2016). A review: Facial expression detec-
tion with its techniques and application. International Journal of
Signal Processing, Image Processing and Pattern Recognition, 9
(6), 149–158.
Blackman, S., Matlo, C., Bobrovitskiy, C., Waldoch, A., Fang, M. L.,
Jackson, P., Mihailidis, A., Nygaard, L., Astell, A., & Sixsmith,
A. (2015). Ambient assisted living technologies for aging well: A
scoping review. Journal of Intelligent Systems, 0.
Bosch, N., D’Mello, S., Baker, R., Ocumpaugh, J., Shute, V., Ventura,
M., Wang, L., & Zhao, W. (2015). Automatic detection of learning-
centered affective states in the wild. In: Proceedings of the 20th
international conference on intelligent user interfaces pp. 379–388.
Brattico, E. et al. (2006). Cortical processing of musical pitch as
reflected by behavioural and electrophysiological evidence. In:
Helsinki University. Helsingin yliopisto.
Buckland, M., Frost, B., & Reeves, A. (2006). Liverpool telecare
pilot: telecare as an information tool. Informatics in primary care,
14, 191–6.
Caclin, A., Brattico, E., Tervaniemi, M., Näätänen, R., Morlet, D.,
Giard, M.-H., & McAdams, S. (2006). Separate neural processing
of timbre dimensions in auditory sensory memory. Journal of
cognitive neuroscience, 18 (12), 1959–1972.
Bibliografía 209
Calvaresi, D., Cesarini, D., Sernani, P., Marinoni, M., Dragoni, A. F.,
& Sturm, A. (2016). Exploring the ambient assisted living do-
main: A systematic review. Journal of Ambient Intelligence and
Humanized Computing, 8, 239–257.
Campos, W., Martínez Rebollar, A., Sanchez, W., Estrada Esquivel,
H., Castro-Sánchez, N., & Mújica-Vargas, D. (2016). A systematic
review of proposals for the social integration of elderly people
using ambient intelligence and social networking sites. Cognitive
Computation, 8.
Castillo, J. C., Castro-González, Á., Fernández-Caballero, A., Latorre,

J. M., Pastor, J. M., Fernández-Sotos, A., & Salichs, M. A. (2016).
Software architecture for smart emotion recognition and regulation
of the ageing adult. Cognitive Computation, 8 (2), 357–367.
Castillo, J. C., Fernández-Caballero, A., Castro-González, Á., Salichs,

M. A., & López, M. T. (2014). A framework for recognizing and
regulating emotions in the elderly. International Workshop on
Ambient Assisted Living, 8868, 320–327.
Chan, C. H. (2000). The XM2VTS Database. http://www.ee.surrey.
ac.uk/CVSSP/xm2vtsdb/.
Chang, C.-C. & Lin, C.-J. (2011). LIBSVM: A library for support
vector machines. ACM Transactions on Intelligent Systems and
Technology, 2, 27:1–27:27. Software available at http://www.csie.
ntu.edu.tw/~cjlin/libsvm.
Chang, F.-J., Tran, A. T., Hassner, T., Masi, I., Nevatia, R., & Medioni,
G. (2018). Expnet: Landmark-free, deep, 3d facial expressions. In:
2018 13th IEEE International Conference on Automatic Face &
Gesture Recognition (FG 2018) pp. 122–129.
Chang, Y., Hu, C., Feris, R., & Turk, M. (2006). Manifold based
analysis of facial expression. Image and Vision Computing, 24 (6),
605–614.
Chen, J., Xu, R., & Liu, L. (2018a). Deep peak-neutral difference
feature for facial expression recognition. Multimedia Tools and
Applications, 77 (22), 29871–29887.
Chen, L., Zhou, M., Su, W., Wu, M., She, J., & Hirota, K. (2018b).
Softmax regression based deep sparse autoencoder network for
facial emotion recognition in human-robot interaction. Information
Sciences, 428, 49–61.
Chumbler, N., Kobb, R., Harris, L., C Richardson, L., Darkins, A., Hi-
nojosa, M., Dixit, N., Ryan, P., Donaldson, M., & Kreps, G. (2007).
Healthcare utilization among veterans undergoing chemotherapy.
The Journal of ambulatory care management, 30, 308–17.
210 Bibliografía
Chumkamon, S., Tuvaphanthaphiphat, P., & Keeratiwintakorn, P.

(2008). A blind navigation system using rfid for indoor envi-
ronments. In: 2008 5th International Conference on Electrical
Engineering/Electronics, Computer, Telecommunications and In-
formation Technology volume 2 pp. 765–768.
Cootes, T. F., Taylor, C. J., Cooper, D. H., & Graham, J. (1995). Active
shape models-their training and application. Computer vision and
image understanding, 61 (1), 38–59.
Cruz, A. & Bhanu, B. (2012). A biologically inspired approach for
fusing facial expression and appearance for emotion recognition.
In: 2012 19th IEEE International Conference on Image Processing
pp. 2625–2628.
Dawadi, P., Cook, D., Parsey, C., Schmitter-Edgecombe, M., & Sch-
neider, M. (2011). An approach to cognitive assessment in smart
home. In: Proceedings of the 2011 Workshop on Data Mining for
Medicine and Healthcare DMMH ’11 pp. 56–59, New York, NY,
USA: ACM.
de Santos Sierra, A., Ávila, C. S., Casanova, J. G., & del Pozo, G. B.
(2011). A stress-detection system based on physiological signals
and fuzzy logic. IEEE Transactions on Industrial Electronics, 58
(10), 4857–4865.
Deshmukh, S., Patwardhan, M., & Mahajan, A. (2016). Survey on
real-time facial expression recognition techniques. IET Biometrics,
5 (3), 155–163.
Dhall, A., Goecke, R., Lucey, S., & Gedeon, T. (2011). Static facial
expression analysis in tough conditions: Data, evaluation proto-
col and benchmark. In: 2011 IEEE International Conference on
Computer Vision Workshops (ICCV Workshops) pp. 2106–2112.
Ding, W., Xu, M., Huang, D.-Y., Lin, W., Dong, M., Yu, X., & Li,
H. (2016). Audio and face video emotion recognition in the wild
using deep neural networks and small datasets. pp. 506–513.
Dolan, R. J. (2002). Emotion, cognition, and behavior. Science, 298
(5596), 1191–1194.
Du, S., Tao, Y., & Martinez, A. M. (2014). Compound facial ex-
pressions of emotion. Proceedings of the National Academy of
Sciences, 111 (15), E1454–E1462.
Ducatel, K., européenne. Technologies de la société de l’information,
U., européenne. Institut d’études de prospectives technologiques,
U., & européenne. Société de l’information conviviale, U. (2001).
Scenarios for ambient intelligence in 2010.
Bibliografía 211
Ekman, P. & Friesen, W. V. (1971). Constants across cultures in the

face and emotion. Journal of personality and social psychology,
17 (2), 124.
Ekman, P. & Rosenberg, E. L. (2005). What the Face Reveals: Basic
and Applied Studies of Spontaneous Expression Using the Facial
Action Coding System. Oxford: Oxford University Press.
Ekman and Friesen (2002). FACS (Facial Action Coding System).
http://www.cs.cmu.edu/~face/facs.htm.
eMotion (2010). Visual Recognition. www.visual-recognition.nl.
Essen, A. & Conrick, M. (2008). New e-service development in
the homecare sector: Beyond implementing a radical technology.
International Journal of Medical Informatics, 77, 679–688.
Fasel, B. & Luettin, J. (2003). Automatic facial expression analysis:
A survey. Pattern Recognition, 36 (1), 259–275. IDIAP-RR 99-19.
Fernández-Caballero, A., Latorre, J. M., Pastor, J. M., & Fernández-
Sotos, A. (2014). Improvement of the elderly quality of life and
care through smart emotion regulation. International Workshop on
Ambient Assisted Living, 8868, 348–355.
Fernández-Caballero, A., Martínez-Rodrigo, A., Pastor, J. M., Casti-
llo, J. C., Lozano-Monasor, E., López, M. T., Zangróniz, R., Latorre,
J. M., & Fernández-Sotos, A. (2016). Smart environment architec-
ture for emotion detection and regulation. Journal of biomedical
informatics, 64, 55–73.
Fernández-Sotos, A., Fernández-Caballero, A., & Latorre, J. M.
(2015). Elicitation of emotions through music: the influence of
note value. In: International Work-Conference on the Interplay
Between Natural and Artificial Computation pp. 488–497.
Fernández-Sotos, A., Fernández-Caballero, A., & Latorre, J. M.
(2016). Influence of tempo and rhythmic unit in musical emo-
tion regulation. Frontiers in computational neuroscience, 10, 80.
Frost, M., Marcu, G., Hansen, R., Szaanto, K., & Bardram, J. (2011).
The monarca self-assessment system: Persuasive personal monito-
ring for bipolar patients. pp. 204–205.
Gabrielsson, A. & Lindström, E. (2010). The role of structure in
the musical expression of emotions. In: Handbook of music and
emotion: Theory, research, applications volume 367400.
Gao, T., Massey, T., Selavo, L., Crawford, D., rong Chen, B., Lorincz,
K., Shnayder, V., Hauenstein, L., Dabiri, F., Jeng, J., Chanmugam,
A., White, D., Sarrafzadeh, M., & Welsh, M. (2007). The advanced
health and disaster aid network: A light-weight wireless medical
212 Bibliografía
system for triage. IEEE Transactions on Biomedical Circuits and

Systems, 1, 203–216.
Gascueña, J. M., Castillo, J. C., Navarro, E., & Fernández-Caballero,
A. (2014). Engineering the development of systems for multisen-
sory monitoring and activity interpretation. International Journal
of Systems Science, 45 (4), 728–740.
Ghimire, D. & Lee, J. (2013). Geometric feature-based facial expres-
sion recognition in image sequences using multi-class adaboost
and support vector machines. Sensors, 13 (6), 7714–7734.
Goodfellow, I. J., Erhan, D., Carrier, P. L., Courville, A., Mirza, M.,
Hamner, B., Cukierski, W., Tang, Y., Thaler, D., Lee, D.-H., et al.
(2013). Challenges in representation learning: A report on three
machine learning contests. In: International Conference on Neural
Information Processing pp. 117–124.
Grandner, M. A., Patel, N. P., Gehrman, P. R., Perlis, M. L., & Pack,
A. I. (2010). Problems associated with short sleep: bridging the gap
between laboratory and epidemiological studies. Sleep medicine
reviews, 14 (4), 239–247.
Gross, J. J. & Feldman Barrett, L. (2011). Emotion generation and
emotion regulation: One or two depends on your point of view.
Emotion review, 3 (1), 8–16.
Gunes, H. & Piccardi, M. (2006). A bimodal face and body gestu-
re database for automatic analysis of human nonverbal affective
behavior. In: 18th International Conference on Pattern Recognition
(ICPR’06) volume 1 pp. 1148–1153.
Hårleman, M. (2004). Colour emotion in full-scale rooms. In: Procee-
dings of the Interim Meeting of the International Color Association
volume 3 pp. 223–226. International Color Association.
Hsieh, C.-C. & Jiang, M.-K. (2011). A facial expression classification
system based on active shape model and support vector machine. In:
2011 International Symposium on Computer Science and Society
pp. 311–314.
Hunt, A. M. (2015). Boundaries and potentials of traditional and al-
ternative neuroscience research methods in music therapy research.
Frontiers in human neuroscience, 9, 342.
Ijjina, E. P. & Mohan, C. K. (2014). Facial expression recognition
using kinect depth sensor and convolutional neural networks. In:
2014 13th International Conference on Machine Learning and
Applications pp. 392–396.
Bibliografía 213
Ito, T. A., Cacioppo, J. T., & Lang, P. J. (1998). Eliciting affect using
the international affective picture system: Trajectories through eva-
luative space. Personality and social psychology bulletin, 24 (8),
855–879.
Jaques-Dalcroze, E. (2014). Rhythm, music and education. New York,
USA: Read Books Ltd.
Jeon, M. (2015). Lessons from emotional driving research. In: 19th
Triennial Congress of the IEA. Melbourne, Australia.
Jeon, M. & Walker, B. N. (2011). What to detect?: Analyzing factor
structures of affect in driving contexts for an emotion detection
and regulation system. Proceedings of the Human Factors and
Ergonomics Society Annual Meeting, 55.
Jesorsky, O., Kirchberg, K. J., & Frischholz, R. W. (2001). Robust face
detection using the hausdorff distance. In: International conference
on audio-and video-based biometric person authentication pp. 90–
95. https://www.bioid.com/facedb/.
Jung, H., Lee, S., Yim, J., Park, S., & Kim, J. (2015). Joint fine-
tuning in deep neural networks for facial expression recognition.
In: Proceedings of the IEEE international conference on computer
vision pp. 2983–2991.
Juslin, P. N. & Sloboda, J. A. (2001). Music and emotion: Theory
and research. Oxford: Oxford University Press.
KaewTraKulPong, P. & Bowden, R. (2002). An improved adapti-
ve background mixture model for real-time tracking with shadow
detection. In: Video-based surveillance systems pp. 135–144. Sprin-
ger.
Kahou, S. E., Bouthillier, X., Lamblin, P., Gulcehre, C., Michalski,
V., Konda, K., Jean, S., Froumenty, P., Dauphin, Y., Boulanger-
Lewandowski, N., et al. (2016). Emonets: Multimodal deep lear-
ning approaches for emotion recognition in video. Journal on
Multimodal User Interfaces, 10 (2), 99–111.
Kahou, S. E., Pal, C., Bouthillier, X., Froumenty, P., Gülçehre, Ç.,
Memisevic, R., Vincent, P., Courville, A., Bengio, Y., Ferrari, R. C.,
et al. (2013). Combining modality specific deep neural networks
for emotion recognition in video. In: Proceedings of the 15th
ACM on International conference on multimodal interaction pp.
543–550.
Kanade, T., Cohn, J., & Tian, Y.-L. (2000). Comprehensive Database
for Facial Expression Analysis. In: Proceedings of the 4th IEEE
International Conference on Automatic Face and Gesture Recogni-
tion pp. 46 – 53. http://www.pitt.edu/~emotion/ck-spread.htm.
214 Bibliografía
Karg, M., Samadani, A.-A., Gorbet, R., Kühnlenz, K., Hoey, J., &
Kulić, D. (2013). Body movements for affective expression: A
survey of automatic recognition and generation. IEEE Transactions
on Affective Computing, 4 (4), 341–359.
Karunanithi, M. (2007). Monitoring technology for the elderly patient.
Expert review of medical devices, 4, 267–77.
Kensinger, E. A. & Corkin, S. (2004). Two routes to emotional
memory: Distinct neural processes for valence and arousal. Procee-
dings of the National Academy of Sciences, 101 (9), 3310–3315.
Kiecolt-Glaser, J. K. & Glaser, R. (2001). Stress and immunity: Age
enhances the risks. Current Directions in Psychological Science,
10 (1), 18–21.
Kim, D. H., Baddar, W. J., Jang, J., & Ro, Y. M. (2017). Multi-
objective based spatio-temporal feature representation learning
robust to expression intensity variations for facial expression re-
cognition. IEEE Transactions on Affective Computing, 10 (2),
223–236.
Kleinpell, R. & Avitall, B. (2007). Integrating telehealth as a strategy
for patient management after discharge for cardiac surgery: Results
of a pilot study. The Journal of cardiovascular nursing, 22, 38–42.
Kleinsmith, A. & Bianchi-Berthouze, N. (2012). Affective body ex-
pression perception and recognition: A survey. IEEE Transactions
on Affective Computing, 4 (1), 15–33.
Knyazev, B., Shvetsov, R., Efremova, N., & Kuharenko, A. (2017).
Convolutional neural networks pretrained on large face recognition
datasets for emotion classification from video. In: arXiv preprint
arXiv:1711.04598.
Koelsch, S., Fritz, T., v. Cramon, D. Y., Müller, K., & Friederici, A. D.
(2006). Investigating emotion with music: an fmri study. Human
brain mapping, 27 (3), 239–250.
Koelstra, S., Muhl, C., Soleymani, M., Lee, J.-S., Yazdani, A., Ebrahi-
mi, T., Pun, T., Nijholt, A., & Patras, I. (2011). Deap: A database for
emotion analysis; using physiological signals. IEEE transactions
on affective computing, 3 (1), 18–31.
Koné, C., Tayari, I. M., Le-Thanh, N., & Belleudy, C. (2015). Mul-
timodal recognition of emotions using physiological signals with
the method of decision-level fusion for healthcare applications. In:
International Conference on Smart Homes and Health Telematics
pp. 301–306. Springer.
Kotteritzsch, A. & Weyers, B. (2015). Assistive technologies for older
adults in urban areas: A literature review. Cognitive Computation,
8.
Bibliografía 215
Krizhevsky, A., Sutskever, I., & E. Hinton, G. (2012). Imagenet

classification with deep convolutional neural networks. Neural
Information Processing Systems, 25.
Kubzansky, L. & Kawachi, I. (2000). Going to the heart of the matter:
Do negative emotions cause coronary heart disease? Journal of
psychosomatic research, 48, 323–37.
Kumari, J., Rajesh, R., & Pooja, K. (2015). Facial expression recog-
nition: A survey. Procedia Computer Science, 58, 486–491.
Kyushu, U. (1998). Facial Expression Database: Japanese Female
Facial Expression (JAFFE) Database. http://www.kasrl.org/jaffe.
html.
Larsen, R. J. & Diener, E. (1992). Promises and problems with the
circumplex model of emotion. Sage Publications, Inc.
Lei, G., Li, X.-h., Zhou, J.-l., & Gong, X.-g. (2009). Geometric feature
based facial expression recognition using multiclass support vector
machines. In: 2009 IEEE International Conference on Granular
Computing pp. 318–321.
Leon, E., Montalban, I., Schlatter, S., & Dorronsoro, I. (2010).
Computer-mediated emotional regulation: Detection of emotio-
nal changes using non-parametric cumulative sum. Conference
proceedings : Annual International Conference of the IEEE En-
gineering in Medicine and Biology Society. IEEE Engineering in
Medicine and Biology Society. Conference, 2010, 1109–12.
Levi, G. & Hassner, T. (2015). Emotion recognition in the wild
via convolutional neural networks and mapped binary patterns.
In: Proceedings of the 2015 ACM on international conference on
multimodal interaction pp. 503–510.
Levinson, R. (1997). The planning and execution assistant and trainer
(peat). The Journal of Head Trauma Rehabilitation, 12, 85.
Li, S. & Deng, W. (2018). Deep facial expression recognition: A
survey. CoRR, abs/1804.08348.
Li, S. & Deng, W. (2019). Reliable crowdsourcing and deep locality-
preserving learning for unconstrained facial expression recognition.
IEEE Transactions on Image Processing, 28 (1), 356–370.
Libkuman, T. M., Otani, H., Kern, R., Viger, S. G., & Novak, N.
(2007). Multidimensional normative ratings for the international
affective picture system. Behavior research methods, 39 (2), 326–
334.
216 Bibliografía
Lin, C. C., Chiu, M. J., Hsiao, C. C., Lee, R. G., & Tsai, Y. S. (2006).
Wireless health care service system for elderly with dementia. IEEE
Transactions on Information Technology in Biomedicine, 10 (4),
696–704.
Liu, H., Ning, H., Mu, Q., Zheng, Y., Zeng, J., T. Yang, L., Huang,
R., & Ma, J. (2017). A review of the smart world. In: Future
Generation Computer Systems.
Liu, M., Wang, R., Li, S., Shan, S., Huang, Z., & Chen, X. (2014).
Combining multiple kernel methods on riemannian manifold for
emotion recognition in the wild. pp. 494–501.
Liu, Y., Zeng, J., Shan, S., & Zheng, Z. (2018). Multi-channel pose-
aware convolution neural networks for multi-view facial expression
recognition. In: 2018 13th IEEE International Conference on
Automatic Face & Gesture Recognition (FG 2018) pp. 458–465.
Lucey, P., Cohn, J. F., Kanade, T., Saragih, J., Ambadar, Z., & Matt-
hews, I. (2010). The Extended Cohn-Kande Dataset (CK+): A
complete facial expression dataset for action unit and emotion-
specified expression. In: Proceedings of the 3th IEEE Works-
hop on CVPR for Human Communicative Behavior Analysis.
http://www.pitt.edu/~emotion/ck-spread.htm.
Ludwig, W., Wolf, K.-H., Duwenkamp, C., Gusew, N., Hellrung, N.,
Marschollek, M., Wagner, M., & Haux, R. (2012). Health-enabling
technologies for the elderly - an overview of services based on a
literature review. Comput. Methods Prog. Biomed. 106 (2), 70–78.
Lv, Y., Feng, Z., & Xu, C. (2014). Facial expression recognition
via deep learning. In: 2014 International Conference on Smart
Computing pp. 303–308.
Mahto, S. & Yadav, Y. (2014). A survey on various facial expression
recognition techniques. In: International Journal of Advanced Re-
search in Electrical, Electronics and Instrumentation Engineering.
Manuj, A. & Agrawal, S. (2015). Automated human facial expres-
sion and emotion detection: A review. International Journal of
Computer Applications, 110 (2).
Matsunaga, M., Isowa, T., Kimura, K., Miyakoshi, M., Kanayama, N.,
Murakami, H., Sato, S., Konagaya, T., Nogimori, T., Fukuyama,
S., Shinoda, J., Yamada, J., & Ohira, H. (2008). Associations
among central nervous, endocrine, and immune activities when
positive emotions are elicited by looking at a favorite person. Brain,
Behavior, and Immunity, 22 (3), 408 – 417.
McDuff, D., Karlson, A., Kapoor, A., Roseway, A., & Czerwinski, M.
(2012). Affectaura: An intelligent system for emotional memory.
In: Proceedings of the SIGCHI Conference on Human Factors in
Bibliografía 217
Computing Systems CHI ’12 pp. 849–858, New York, NY, USA:
ACM.
McNaney, R., Thieme, A., Gao, B., Ladha, C., Woo, W., Olivier, P.,
Jackson, D., & Ladha, K. (2012). Objectively monitoring wellbeing
through pervasive technology.
Medjahed, H., Istrate, D., Boudy, J., Baldinger, J.-L., & Dorizzi,
B. (2011). A pervasive multi-sensor data fusion for smart home
healthcare monitoring. In: 2011 IEEE International Conference on
Fuzzy Systems (FUZZ-IEEE 2011) pp. 1466–1473.
Mégret, R., Dovgalecs, V., Wannous, H., Karaman, S., Benois-Pineau,
J., El Khoury, E., Pinquier, J., Joly, P., André-Obrecht, R., Gaëstel,
Y., & Dartigues, J.-F. (2010). The IMMED Project: Wearable Video
Monitoring of People with Age Dementia. In: ACM Multimedia
2010 - Video Program pp. Pages 1299–1302. Firenze, Italy.
Memon, M., Wagner, S., Pedersen, C., Beevi, F., & Hansen, F. (2014).
Ambient assisted living healthcare frameworks, platforms, stan-
dards, and quality attributes. Sensors, 14, 4312–4341.
Meng, Z., Liu, P., Cai, J., Han, S., & Tong, Y. (2017). Identity-aware
convolutional neural network for facial expression recognition. In:
2017 12th IEEE International Conference on Automatic Face &
Gesture Recognition (FG 2017) pp. 558–565.
Mihailidis, A., Carmichael, B., & Boger, J. (2004). The use of com-
puter vision in an intelligent environment to support aging-in-place,
safety, and independence in the home. Trans. Info. Tech. Biomed. 8
(3), 238–247.
Mizuno, T. & Sugishita, M. (2007). Neural correlates underlying
perception of tonality-related emotional contents. Neuroreport, 18
(16), 1651–1655.
Mubashir, M., Shao, L., & Seed, L. (2013). A survey on fall detection:
Principles and approaches. Neurocomputing, 100, 144 – 152.
Special issue: Behaviours in video.
Nambu, M., Nakajima, K., Noshiro, M., & Tamura, T. (2005). An
algorithm for the automatic detection of health conditions. an image
processing technique for diagnosing poor health in the elderly.
IEEE engineering in medicine and biology magazine: the quarterly
magazine of the Engineering in Medicine & Biology Society, 24,
38–42.
Nasoz, F., Lisetti, C. L., Alvarez, K., & Finkelstein, N. (2003). Emo-
tion recognition from physiological signals for user modeling of
affect. Pittsburgh, PA, USA.
218 Bibliografía
Norris, S. (2009). Tempo, auftakt, levels of actions, and practice:

Rhythm in ordinary interactions. Journal of Applied Linguistics, 6
(3).
Novak, D., Mihelj, M., & Munih, M. (2012). A survey of methods for
data fusion and system adaptation using autonomic nervous system
responses in physiological computing. Interacting with computers,
24 (3), 154–172.
Nugent, C., Finlay, D., Davies, R., Mulvenna, M., Wallace, J., Pag-
getti, C., Tamburini, E., & Black, N. (2007). The next generation
of mobile medication management solutions. International journal
of electronic healthcare, 3, 7–31.
Ortiz-García-Cervigón, V., Sokolova, M. V., García-Muñoz, R. M.,
& Fernández-Caballero, A. (2015). Led strips for color-and
illumination-based emotion regulation at home. In: Internatio-
nal Work-Conference on Ambient Assisted Living pp. 277–287.
Springer.
Orwat, C., Graefe, A., & Faulwasser, T. (2008). Towards pervasi-
ve computing in health care: A literature review. BMC medical
informatics and decision making, 8, 26.
Osia, N. & Bourlai, T. (2012). Holistic and partial face recognition in
the mwir band using manual and automatic detection of face-based
features. In: 2012 IEEE Conference on Technologies for Homeland
Security (HST) pp. 273–279.
Pantic, M. & Bartlett, M. S. (2007). Machine analysis of facial
expressions. In: Face recognition. IntechOpen.
Pantic, M. & Rothkrantz, L. J. M. (2000). Automatic analysis of
facial expressions: the state of the art. IEEE Transactions on
Pattern Analysis and Machine Intelligence, 22 (12), 1424–1445.
Pantic, M., Valstar, M., Rademaker, R., & Maat, L. (2005). Web-based
database for facial expression analysis. In: 2005 IEEE International
Conference on Multimedia and Expo pp. 5–pp. IEEE.
Patterson, D. J., Liao, L., Gajos, K., Collier, M., Livic, N., Olson, K.,
Wang, S., Fox, D., & Kautz, H. (2004). Opportunity knocks: A
system to provide cognitive assistance with transportation services.
In: UbiComp 2004: Ubiquitous Computing, (Davies, N., Mynatt,
E. D., & Siio, I., eds) pp. 433–450, Berlin, Heidelberg: Springer
Berlin Heidelberg.
Pei, J., Han, J., & Wang, W. (2007). Constraint-based sequential
pattern mining: the pattern-growth methods. Journal of Intelligent
Information Systems, 28 (2), 133–160.
Bibliografía 219
Ramos, V., García, J., Moreno Gil, O., del Pozo Peralta, J., Carranza,
N., & Blanco, P. (2009). Investigación en tecnologías de inteligen-
cia ambiental para la salud del futuro.
Ranzato, M., Susskind, J., Mnih, V., & Hinton, G. (2011). On deep
generative models with applications to recognition. IEEE.
Rashidi, P. & Mihailidis, A. (2013). A survey on ambient-assisted
living tools for older adults. IEEE Journal of Biomedical and
Health Informatics, 17 (3), 579–590.
Ringeval, F., Amiriparian, S., Eyben, F., Scherer, K., & Schuller, B.
(2014). Emotion recognition in the wild: Incorporating voice and
lip activity in multimodal decision-level fusion. In: Proceedings of
the 16th International Conference on Multimodal Interaction pp.
473–480.
Rolston, A. & Lloyd-Richardson, E. (2017). What is emotion regu-
lation and how do we do it? In: Cornell Research Program on
Self-Injury and Recovery.
Romano, M. J. & Stafford, R. S. (2011). Electronic health records and
clinical decision support systems: Impact on national ambulatory
care quality. Archives of Internal Medicine, 171 (10), 897–903.
Roychowdhury, S. & Emmons, M. (2015). A survey of the trends in
facial and expression recognition databases and methods. In: arXiv
preprint arXiv:1511.02407.
Ruotsalainen, M., Ala-Kleemola, T., & Visa, A. (2007). Gais: a met-
hod for detecting interleaved sequential patterns from imperfect
data. In: Proceedings of the 2007 IEEE Symposium on Computatio-
nal Intelligence and Data Mining pp. 530–534. Honolulu, Hawaii,
USA.
Russell, J. A. (1980). A circumplex model of affect. Journal of
personality and social psychology, 39 (6), 1161–1178.
Sabu, E. & Mathai, P. P. (2015). An extensive review of facial ex-
pression recognition using salient facial patches. In: Applied and
Theoretical Computing and Communication Technology (iCATccT),
2015 International Conference on pp. 847–581.
Saha, A., De, A., Pal, D. M. C., & Kar, N. (2014). Different tech-
niques of automatic facial expression recognition: A survey. In:
Second International Conference on Advances in Computing, Com-
munication and Information Technology CCIT-2014 pp. 45–49.
Samson, S., Ehrlé, N., & Baulac, M. (2001). Cerebral substrates for
musical temporal processes. Annals of the New York Academy of
Sciences, 930 (1), 166–178.
220 Bibliografía
Santana-Mancilla, P. C., Echeverría, M. A. M., Santos, J. C. R., Caste-

llanos, J. A. N., & Díaz, A. P. S. (2013). Towards smart education:
Ambient intelligence in the mexican classrooms. Procedia - Social
and Behavioral Sciences, 106, 3141 – 3148. 4th International
Conference on New Horizons in Education.
Savran, A., Alyüz, N., Dibeklioğlu, H., Çeliktutan, O., Gökberk, B.,
Sankur, B., & Akarun, L. (2008). Bosphorus database for 3d face
analysis. In: Biometrics and Identity Management, (Schouten, B.,
Juul, N. C., Drygajlo, A., & Tistarelli, M., eds) pp. 47–56, Berlin,
Heidelberg: Springer Berlin Heidelberg.
Scherer, K. R. (2005). Appraisal Theory chapter 30, pp. 637–663.
Hoboken, Nueva Jersey: Wiley-Blackwell.
Serrano-Cuerda, J., Castillo, J. C., Sokolova, M. V., & Fernández-
Caballero, A. (2013). Efficient people counting from indoor over-
head video camera. In: Trends in Practical Applications of Agents
and Multiagent Systems, (Pérez, J. B., Rodríguez, J. M. C., Fähn-
drich, J., Mathieu, P., Campbell, A., Suarez-Figueroa, M. C., Ortega,
A., Adam, E., Navarro, E., Hermoso, R., & Moreno, M. N., eds),
pp. 129–137, Cham: Springer International Publishing.
Setyati, E., Suprapto, Y. K., & Purnomo, M. H. (2012). Facial emo-
tional expressions recognition based on active shape model and
radial basis function network. In: 2012 IEEE International Con-
ference on Computational Intelligence for Measurement Systems
and Applications (CIMSA) Proceedings pp. 41–46.
Singh, A., Swann-Sternberg, T., Bianchi-Berthouze, N., Williams, A.,
Pantic, M., & Watson, P. (2012). Emotion and pain: interactive
technology to motivate physical activity in people with chronic
pain. In: Human Factors in Computing Systems.
Sokolova, M. & Fernández-Caballero, A. (2015). A review on the
role of color and light in affective computing. Applied Sciences, 5
(3), 275–293.
Sokolova, M. V., Fernández-Caballero, A., López, M. T., Martínez-
Rodrigo, A., Zangróniz, R., & Pastor, J. M. (2015a). A distributed
architecture for multimodal emotion identification. In: Trends in
Practical Applications of Agents, Multi-Agent Systems and Sustai-
nability pp. 125–132. Springer.
Sokolova, M. V., Fernández-Caballero, A., Ros, L., Latorre, J. M., &
Serrano, J. P. (2015b). Evaluation of color preference for emotion
regulation. In: International Work-Conference on the Interplay
Between Natural and Artificial Computation pp. 479–487. Springer.
Soleymani, M., Lichtenauer, J., Pun, T., & Pantic, M. (2012). A
multi-modal affective database for affect recognition and implicit
Bibliografía 221
tagging. In: IEEE Transactions on Affective Computing volume 3

pp. 42–55.
Spitalewsky, K., Rochon, J., Ganzinger, M., & Knaup, P. (2013).
Potential and requirements of it for ambient assisted living techno-
logies results of a delphi study. Methods of information in medicine,
52, 231–238.
Stegmann, M. B. (2002). Analysis and segmentation of face images
using point annotations and linear subspace techniques. http://www.
imm.dtu.dk/~aam/datasets/face_data.zip.
Susskind, J. M., Anderson, A. K., & Hinton, G. E. (2010). The toronto
face database. In: Department of Computer Science, University of
Toronto, Toronto, ON, Canada, Tech. Rep volume 3.
Szegedy, C., Liu, W., Jia, Y., Sermanet, P., Reed, S., Anguelov, D.,
Erhan, D., Vanhoucke, V., & Rabinovich, A. (2015). Going deeper
with convolutions. In: Proceedings of the IEEE conference on
computer vision and pattern recognition pp. 1–9. IEEE.
Tariq, U., Lin, K.-H., Li, Z., Zhou, X., Wang, Z., Le, V., Huang,
T. S., Lv, X., & Han, T. X. (2011). Emotion recognition from an
ensemble of features. In: Face and Gesture 2011 pp. 872–877.
IEEE.
Tian, Y., Kanade, T., & Cohn, J. F. (2001). Recognizing action units
for facial expression analysis. In: IEEE Transactions on Pattern
Analysis and Machine Intelligence volume 23 pp. 97–115. IEEE.
Trochidis, K. (2013). Investigation of the effect of mode and tempo on
emotional responses to music using eeg power asymmetry. Journal
of Psychophysiology, 27.
Tsai, P. H., Yu, C. Y., Wang, M. Y., Zao, J. K., Yeh, H. C., Shih, C. S.,
& Liu, J. W. S. (2010). imat: Intelligent medication administration
tools. In: The 12th IEEE International Conference on e-Health
Networking, Applications and Services pp. 308–315.
Tsiamyrtzis, P., Dowdall, J., Shastri, D., Pavlidis, I. T., Frank, M. G.,
& Ekman, P. (2007). Imaging Facial Physiology for the Detection
of Deceit. In: International Journal Computer Vision volume 71
pp. 197–214.
Uddin, M. Z., Hassan, M. M., Almogren, A., Zuair, M., Fortino, G.,
& Torresen, J. (2017). A facial expression recognition system
using robust face features from depth videos and deep learning.
In: Computers & Electrical Engineering volume 63 pp. 114–125.
Elsevier.
Valenza, G., Lanata, A., & Scilingo, E. P. (2011). The role of nonli-
near dynamics in affective valence and arousal recognition. IEEE
transactions on affective computing, 3 (2), 237–249.
222 Bibliografía
Valstar, M. F. & Pantic, M. (2010). Induced Disgust, Happiness and

Surprise: an Addition to the MMI Facial Expression Database. In:
Proceedings of Int’l Conf. Language Resources and Evaluation,
Workshop on EMOTION pp. 65–70. Malta. https://mmifacedb.eu/.
Valstar, M. F., Pantic, M., Ambadar, Z., & Cohn, J. F. (2006). Sponta-
neous vs. posed facial behavior: automatic analysis of brow actions.
In: Proceedings of the 8th international conference on Multimodal
interfaces pp. 162–170. ACM.
Van Den Broek, G., Cavallo, F., & Wehrmann, C. (2010). AALIANCE
Ambient Assisted Living Roadmap. Amsterdam, The Netherlands,
The Netherlands: IOS Press.
Velastin, S. A., Boghossian, B. A., Lo, B. P. L., Sun, J., & Vicencio-
Silva, M. A. (2005). Prismatica: toward ambient intelligence in
public transport environments. IEEE Transactions on Systems, Man,
and Cybernetics - Part A: Systems and Humans, 35 (1), 164–182.
Verma, A. & Sharma, L. (2013). A comprehensive survey on human
facial expression detection. In: International Journal of Image
Processing volume 7 pp. 171–182.
Viola, P., Jones, M., et al. (2001). Rapid object detection using a
boosted cascade of simple features. CVPR (1), 1 (511-518), 3.
Wan, C., Tian, Y., & Liu, S. (2012). Facial expression recognition in
video sequences. In: Proceedings of the 10th World Congress on
Intelligent Control and Automation pp. 4766–4770. IEEE.
Wei, Y. (2009). Research on facial expression recognition and synt-
hesis. In: Master Thesis, Department of Computer Science and
Technology, Nanjing University. https://code.google.com/archive/
p/asmlibrary/downloads.
Weikart, P. S. (2003). Value for learning and living. Child Care
Information Exchange, 24 (153), 86–88.
Wu, C.-H., Lin, J.-C., & Wei, W.-L. (2014). Survey on audiovisual
emotion recognition: databases, features, and data fusion strategies.
In: APSIPA transactions on signal and information processing
volume 3. Cambridge University Press.
Wu, J. & Mei, L. (2013). A face recognition algorithm based on
asm and gabor features of key points. In: International Conference
on Graphic and Image Processing (ICGIP 2012) volume 8768 pp.
1391 – 1396. International Society for Optics and Photonics.
Wu, T.-F., Lin, C.-J., & Wng, R. C. (2004). Probability Estimates
for Multi-class Classification by Pairwise Coupling. Journal of
Machine Learning Research, 5, 975–1005.
Bibliografía 223
Yan, J., Zheng, W., Cui, Z., Tang, C., Zhang, T., Zong, Y., & Sun,
N. (2016). Multi-clue fusion for emotion recognition in the wild.
In: Proceedings of the 18th ACM International Conference on
Multimodal Interaction ICMI ’16 pp. 458–463, New York, NY,
USA: ACM.
Yuen, P., Hong, K., Chen, T., Tsitiridis, A., Kam, F., Jackman, J.,
James, D., Richardson, M., Williams, L., Oxford, W., et al. (2009).
Emotional & physical stress detection and classification using ther-
mal imaging technique. In: 3rd International Conference on Crime
Detection and Prevention. IET.
Yumak-Kasap, Z. (2012). Emosonet: An emotion-aware social net-
work for emotional wellbeing.
Zeng, Z., Pantic, M., Roisman, G. I., & Huang, T. S. (2009). A Survey
of Affect Recognition Methods - Audio, Visual, and Spontaneous
Expressions. IEEE Transactions on Pattern Analysis and Machine
Intelligence, 31, 39–58.
Zhang, X., Yin, L., Cohn, J. F., Canavan, S., Reale, M., Horowitz, A.,
& Liu, P. (2013). A high-resolution spontaneous 3d dynamic facial
expression database. In: 2013 10th IEEE International Conference
and Workshops on Automatic Face and Gesture Recognition (FG)
pp. 1–6. IEEE.
Zhao, G., Huang, X., Taini, M., Li, S. Z., & PietikäInen, M. (2011).
Facial expression recognition from near-infrared videos. Image
and Vision Computing, 29 (9), 607–619.
Zhao, X., Liang, X., Liu, L., Li, T., Han, Y., Vasconcelos, N., & Yan, S.
(2016). Peak-piloted deep network for facial expression recognition.
In: European conference on computer vision pp. 425–442, Springer
: Springer.
Zhao, X., Zhang, H., & Xu, Z. (2012). Expression recognition by
extracting facial features of shapes and textures. Journal of Compu-
tational Information Systems, 8, 3377–3384.
Zhou, Q. & Wang, X. (2013). Real-time facial expression recognition
system based-on geometric features. Lecture Notes in Electrical
Engineering, 212, 449–456.
Apéndice A
Sistema de Codificación de
Acciones Faciales (FACS)
El sistema de codificación propuesto por Ekman and Friesen

[2002] es el más utilizado para la detección de emociones a partir
de la expresión facial. A partir de las Acciones Unitarias (AU) iden-
tificadas en este sistema se obtienen las características faciales que
posteriormente se analizan para poder clasificar una expresión facial
dentro de un conjunto determinado de emociones. En este anexo se
indican todas las AUs indicando su código y descripción.
FACS considera 44 acciones unitarias. Para cada una de las AUs

hay cinco niveles de intensidad, dependiendo de la fuerza que tenga
que ejercer el músculo para modificar su posición actual.
Acciones Unitarias Anatómicas
Existen 30 AUs anatómicas, que son contracciones de determi-

nados músculos faciales. En la Tabla A.1 podemos ver el detalle de
estas acciones.
226 Sistema de Codificación de Acciones Faciales (FACS)
AU Músculo facial Descripción del movimiento

1 Frontalis, pars medialis Levantar la parte interna de las cejas
2 Frontalis, pars lateralis Levantar la parte externa de las cejas
4 Corrugator supercilii, depressor Bajar las cejas
supercilii
5 Levator palpebrae superioris Levantar los párpados superiores,
ojos más grandes
6 Orbicularis oculi, pars orbitalis Levantar las mejillas, ojos más pe-
queños
7 Orbicularis oculi, pars palpebra- Levantar los párpados inferiores
lis
9 Levator labii superioris alaquae Arrugar la nariz (Ceño fruncido y
nasi nariz dilatada)
10 Levator labii superioris Levantar el labio superior, produce
pequeñas arrugas alrededor de la na-
riz
11 Zygomaticus minor Bajar la parte buconasal
12 Zygomaticus major Levantar los extremos de los labios
13 Levator anguli oris (Caninus) Elevar el ángulo de la boca, ahuecar
las mejillas
14 Buccinator Estrechar los labios. Mejillas apreta-
das contra los dientes
15 Depressor anguli oris (Triangu- Bajar los extremos de los labios
laris)
16 Depressor labii inferioris Bajar el labio inferior
17 Mentalis Levantar la barbilla
18 Incisivii labii superioris e incisi- Fruncir labios
vii labii inferioris
20 Risorius con platysma Estirar los labios lateralmente
22 Orbicularis oris Labios contraídos y abiertos
23 Orbicularis oris Labios apretados
24 Orbicularis oris Labios presionados contra los dien-
tes
25 Depressor labii inferioris, o rela- Labios abiertos
jación del mentalis, o orbicularis
oris
26 Masseter, Temporalis relajado y Bajar mandíbula, boca muy abierta
Pterygoid interno
27 Pterygoids, Digastric Boca abierta y estirada
28 Orbicularis oris Succionar labios
41 Relajación del Levator palpebrae Párpados superiores caídos
superioris
42 Orbicularis oculi Entornar ojos
43 Relajación del Levator palpe- Cerrar ojos
brae superioris; Orbicularis ocu-
li, pars palpebralis
44 Orbicularis oculi, pars palpebra- Torcer ojos
lis
45 Relajación del Levator palpe- Parpadeo
46 Relajación del Levator palpe- Guiño
Tabla A.1 Acciones unitarias de FACS
227
AU Descripción del movimiento

8 Un labio hacia el otro
19 Sacar la lengua
21 Estrechar el cuello
29 Sacar la mandíbula
30 Ladear la mandíbula
31 Apretar la mandíbula
32 Morder el labio
33 Soplar
34 Resoplar
35 Morder las mejillas
36 Hinchar la lengua
37 Lamer el labio
38 Dilatar las fosas nasales
39 Comprimir las fosas nasales
Tabla A.2 Acciones misceláneas de FACS
Acciones Unitarias Misceláneas
FACS define 14 AUs misceláneas, que suponen un cambio en la

expresión pero no están asociadas a un músculo facial. En la Tabla
A.2 podemos ver estas acciones y su código asociado.

TESIS Lozano Monasor

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

TESIS Lozano Monasor

Cargado por

Copyright:

Formatos disponibles

Detección facial de emociones

Elena Lozano Monasor

Directores: María Teresa López Bonal

Departamento de Sistemas Informáticos

Doctorado en Tecnologías Informáticas Avanzadas

A mis directores María Teresa López Bonal y Antonio Fernández

A mi familia por su apoyo constante, en especial a mi madre, por

También a mis amigas por estar siempre ahí, y a todos mis

Muchas gracias a todos.

Este documento corresponde a la memoria de tesis del Doctorado

Actualmente nos encontramos en un periodo en el que el por-

En este contexto surge la idea principal de este trabajo: proponer

La arquitectura propuesta se compondrá de diferentes módulos:

El apartado de “Regulación de Emoción” obtendrá del usuario

Habiendo decidido cómo será el sistema de detección de emocio-

Se han realizado pruebas al sistema para valorar la precisión de

entrenamiento. También se han realizado pruebas con la webcam para

Por todo lo anterior, y para concluir este resumen, en este docu-

Índice de tablas XIX

I Introducción y estado de la cuestión 1

1.3. Estructura de la memoria . . . . . . . . . . . . . . . 6

2. Calidad de vida y cuidado del anciano 9

2.1. Inteligencia Ambiental (AmI) . . . . . . . . . . . . . 10

2.1.1. AmI en el hogar . . . . . . . . . . . . . . . 12

2.1.2. AmI en la educación . . . . . . . . . . . . . 14

2.1.3. AmI en los transportes . . . . . . . . . . . . 15

2.1.4. AmI en el entretenimiento . . . . . . . . . . 17

2.1.5. AmI en la atención sanitaria . . . . . . . . . 18

2.2. Ambient Assisted Living (AAL) . . . . . . . . . . . 21

2.3. Detección y regulación de emociones . . . . . . . . 31

3. Detección facial de emociones 39

3.1. Percepción de emociones . . . . . . . . . . . . . . . 39

3.2. Clasificación de las emociones . . . . . . . . . . . . 40

3.2.1. Conjunto discreto de categorías . . . . . . . 40

3.2.2. Descripción por dimensiones . . . . . . . . . 41

3.2.3. Teoría de la valoración . . . . . . . . . . . . 42

3.2.4. Modelo circunflejo de Russell . . . . . . . . 43

3.3. Análisis de expresiones faciales . . . . . . . . . . . 44

3.4. Bases de datos . . . . . . . . . . . . . . . . . . . . . 49

3.5. Estudios previos . . . . . . . . . . . . . . . . . . . . 56

3.5.1. Entrenamiento del modelo . . . . . . . . . . 57

3.5.2. Tratamiento de imágenes de entrada . . . . . 58

3.5.3. Sistemas multitarea o en cascada . . . . . . . 59

3.5.4. Agregación de frames . . . . . . . . . . . . 60

3.5.5. Medición de la intensidad de la expresión . . 61

3.5.6. Seguimiento de los puntos faciales . . . . . . 62

3.5.7. Oclusiones y posición no frontal . . . . . . . 62

3.5.8. Detección en imágenes 3D . . . . . . . . . . 63

3.5.9. Detección audiovisual de emociones . . . . . 64

3.5.10. Sistemas de detección de estrés . . . . . . . 64

3.6. Aplicaciones existentes . . . . . . . . . . . . . . . . 66

3.6.2. Bismart Face and Emotion Recognition . . . 67

4. Arquitectura de Inteligencia Ambiental para la detección

4.1. Descripción general . . . . . . . . . . . . . . . . . . 78

4.1.1. Niveles de la arquitectura . . . . . . . . . . . 79

4.1.2. Diseño de la arquitectura . . . . . . . . . . . 83

4.2. Detección de emociones . . . . . . . . . . . . . . . 85

4.2.1. Detección Facial de Emociones . . . . . . . 88

4.2.2. Detección de Comportamiento . . . . . . . . 89

4.2.3. Detección de Valencia/Excitación . . . . . . 91

4.2.4. Detección del estado emocional . . . . . . . 92

4.3. Regulación de emociones . . . . . . . . . . . . . . . 96

4.3.1. Regulación emocional a través de la música . 97