Está en la página 1de 7

MEMORIA COMENTARIOS ENTREGABLE Aldan Jay

SIU038 - Inteligencia Ambiental (2021/2022) - Máster en Sistemas Inteligentes (42109)

# MEMORIA DE COMENTARIOS: 4

INTRODUCCIÓN

Multimodal Human Computer Interaction: A Survey


1. El paper hace una revisión de las principales tendencias de Interacciones Multimodales Humano
Computadores (Multimodal Human Computer Interaction - “MMHCI”), entendiendo que para su
implementación es necesaria la combinación de diversas técnicas, tales como el uso corporal, gestual,
rostro e interacción afectiva (reconocimiento de expresiones y emociones en audio), entre otras.
Las MMHCI incorporan transversalmente disciplinas como visión computacional, psicología, IA y
muchas otras.
Teniendo en cuenta que los computadores, hoy día, hacen parte de los ambientes inteligentes,
integrándose en dispositivos ubicuos y penetrantes, las MMHCI se retan a una ejecución “Natural” con
el usuario.
La interacción supone el uso del habla y lenguaje corporal, con la intención de expresar emoción,
estado anímico, actitud y atención.
Las MMHCI se han desarrollado gracias a la masificación del hardware requerido y al desarrollo de
plataformas unimodales. La domótica es un claro ejemplo de la implementación del MMHCI.
En el desarrollo de las MMHCI, muchos desarrolladores, primero trabajan unimodal mente y después
integran las plataformas en la solución.
1.1. Trabajos relacionados:
■ Detección de rostros, reconocimiento facial, análisis de expresiones faciales, emociones
vocales, reconocimiento de gestos, análisis de emociones humanas, seguimiento visual,
seguimiento de la cabeza.
■ HCI adaptativo e inteligente: En ciertas situaciones es necesario el uso de IA para
detectar con cierta certeza, el tipo de gesto (cualquier estímulo del usuario al
computador) expresado por el individuo.

DESARROLLO

2. Un sistema HCI multimodal es simplemente uno que responde a entradas en más de una modalidad o
canal de comunicación (por ejemplo, habla, gestos, escritura y otros):
○ Una modalidad es un modo de comunicación concordante con los sentidos humanos y/o
dispositivos de I/O computacionales.
○ Un sistema que usa varias modalidades es MMHCI.
○ La visión (humana-computacional) es un@ sentido/técnica transversal para el uso de diversas
modalidades.
○ Me parece muy diciente el diagrama que expresa a los sistema s MMHCI:

31 may 2022 1 de 7
MEMORIA COMENTARIOS ENTREGABLE Aldan Jay

SIU038 - Inteligencia Ambiental (2021/2022) - Máster en Sistemas Inteligentes (42109)

3. Se hace distinción entre sistemas de comandos y de no comandos. En los primeros la multimodalidad


se usa indistintamente para seleccionar comandos (menú), como por ejemplo, ajustar el punto de
selección en una máscara (teléfono móvil) en realidad aumentada/virtual:

En el caso de interacción no comandada sería cuando el reloj inteligente utiliza una señal sonora y
visual cuando el usuario, en práctica deportiva, alcanza niveles de frecuencia cardiaca de riesgo:

31 may 2022 2 de 7
MEMORIA COMENTARIOS ENTREGABLE Aldan Jay

SIU038 - Inteligencia Ambiental (2021/2022) - Máster en Sistemas Inteligentes (42109)

En general, los sistemas de análisis de movimiento humano basados ​en visión utilizados para MMHCI
pueden se puede pensar que tiene principalmente 4 etapas: Segmentación de movimiento,
Clasificación de objetos, Seguimiento e Interpretación.
Las MMHCI basados en la visión se agrupan según la forma de interacción con el humano:
3.1. Movimientos corporales de larga escala: Se hace necesario el seguimiento de movimientos
(cabeza, brazos, torso y piernas), como por ejemplo el Microsoft Kinect:

Se identifican tres cuestiones importantes en el análisis de movimiento articulado:


representación (ángulos de unión o movimiento de todas las subpartes), paradigmas
computacionales (deterministas o probabilísticos) y reducción computacional.
Las aproximaciones tecnológicas para implementar esta HCI visual entre otras se ocupa de:
video infrarrojo, vectores de pose y velocidad, y plantillas temporales.
Existen otras HCI inmersivas como el oculus, las cuales usan dispositivos de mapeo de
movimientos, por medio de sensores manuales y foco visual por visor, aunque esta modalidad
se considera más un framework:

31 may 2022 3 de 7
MEMORIA COMENTARIOS ENTREGABLE Aldan Jay

SIU038 - Inteligencia Ambiental (2021/2022) - Máster en Sistemas Inteligentes (42109)

3.2. Reconocimiento de gestos: Los gestos son cruciales para la comunicación humana pues son
acciones cargadas de significado. Esto hace que los gestos sean indispensables a las MMHCI,
para lograr la naturalidad objetivo.
La primera fase de una tarea de reconocimiento es elegir un modelo matemático que pueda
considerar tanto las características espaciales, como temporales, de la mano y los gestos
manuales.
Entre los problemas importantes involucrados en el análisis está el de localización y
seguimiento de las manos, y la selección de características adecuadas.
Después de calcular los parámetros, los gestos representados por ellos deben clasificarse e
interpretarse según el modelo aceptado y según algunas reglas gramaticales que reflejen la
sintaxis interna de los comandos gestuales.
Mi experiencia con este tipo de MMHCI, ha sido con sistemas como Leap Motion y la MYO
band, una basada en IR y la otra en sensores de detección bioeléctrica muscular:

3.3. Detección de mirada: Se define como mirada a la dirección a la cual los ojos están apuntando
en el espacio, y es un fuerte indicador de atención.
Comercialmente conozco de esta compañía que se dedica a hacer este tipo de soluciones:

Los sistemas de seguimiento ocular se pueden agrupar en vestible o no vestible, y basados ​en

31 may 2022 4 de 7
MEMORIA COMENTARIOS ENTREGABLE Aldan Jay

SIU038 - Inteligencia Ambiental (2021/2022) - Máster en Sistemas Inteligentes (42109)

infrarrojos o la apariencia.
En los sistemas infrarrojos, una luz brillante sobre el sujeto cuya mirada se va a seguir crea un
"efecto de ojos rojos": la diferencia en el reflejo, entre la córnea y la pupila se utiliza para
determinar la dirección de la vista.

En los sistemas basados ​en la apariencia, las técnicas de visión artificial se utilizan para
encontrar los ojos en la imagen y luego determinar su orientación.

Si bien los sistemas portátiles son los más precisos (índices de error aproximados inferiores a
1,4° frente a errores inferiores a 1,7° para infrarrojos no portátiles), también son los más
intrusivos. Los sistemas infrarrojos son más precisos que los basados ​en la apariencia, pero
existen preocupaciones sobre la seguridad de la exposición prolongada a las luces infrarrojas.
Además, la mayoría de los sistemas no portátiles requieren una calibración (a menudo

31 may 2022 5 de 7
MEMORIA COMENTARIOS ENTREGABLE Aldan Jay

SIU038 - Inteligencia Ambiental (2021/2022) - Máster en Sistemas Inteligentes (42109)

engorrosa) para cada individuo.

4. Interacción Afectiva Humano-Computador: Los estados afectivos están intrínsecamente unido a otras
funciones tales como la atención, percepción, memoria, toma de decisiones y aprendizaje. Esto
sugiere que puede ser beneficioso para los computadores, el reconocimiento de las emociones del
usuario y otros estados cognitivos y expresiones. De hecho los procesos cognitivos se han convertido
en “La Meta” estratégica de la IA.
Existen dos métodos para analizar las emociones:
● Categorización discreta de las emociones: alegría, miedo, amor, sorpresa, tristeza, etc. Es
como tratar de etiquetar casos bases de datos, lo que promulga un sistema limitado.
● Múltiples dimensiones o escalas para describir emociones: Dos escalas comunes son la
valencia y excitación. La valencia describe el placer de los estímulos, con positivo o placentero
(p. ej., felicidad) en un extremo y negativo o desagradable (p. ej., asco) en el otro. La otra
dimensión es la excitación o activación. Por ejemplo, la tristeza tiene poca excitación, mientras
que la sorpresa tiene un alto nivel de excitación.
4.1. Reconocimiento de expresiones faciales: Este tipo de reconocimiento se puede abordar por
medio de la codificación de expresiones faciales, basada en los movimientos básicos de
características faciales llamada unidades de Acción (AUs); otro enfoque intenta detectar y
seguir características específicas como esquinas de la boca, cejas, etc.; otros métodos se
basan en regiones, es decir tratan de mapear la emociones a regiones faciales.
Por otra parte, para este reconocimiento se pueden usar clasificadores estáticos o dinámicos.
4.2. Emoción en Audio: Los estudios sobre contenidos emocionales en el habla usan información
"prosódica", la cual incluye el tono, la duración y la intensidad de la expresión. Varios estudios
usan las “Ekman six”: ira, asco, miedo, alegría, tristeza y sorpresa. Otros estudios usan más
categorías.
5. Modelamiento, Fusión y Colección de datos.
5.1. Usuario, contexto y tarea de modelado: Las MMHCI deben considerar el diseño de I/O
adaptables, consistentes y depurables entre otras cosas tales como la dependencia del
comportamiento de la persona con respecto a su personalidad, vecindad cultural y social,
estado anímico y el contexto en el que se observa el contexto. La adaptabilidad (machine
learning) se convierte en una meta.
5.2. Fusión: Aunque es habitual que se intente hacer MMHCI, procesando los datos adquiridos
(sensorizados) de forma independiente para unir sus resultados al final. Para que el proceso
se parezca más al proceso humano (intuitivamente), se premisa que los datos adquiridos son
dependientes entre sí y con respecto al contexto (punto anterior).
Un sistema multimodal debe ser capaz de manejar datos imperfectos y generar su conclusión
de modo que la certeza asociada con ellos varía de acuerdo con la entrada de los mismos.
Algunos modelos que tratan esta fusión: Hidden Markov Models, redes Bayesianas, redes
Bayesianas dinámicas y sus combinaciones.
5.3. Colección de datos y pruebas: La recopilación de datos MMHCI y la obtención del suelo
verdadero, es un desafío. El etiquetado es una actividad sumamente costosa: actores leyendo
material, reaccionando a medios simultáneos.
La adquisición de datos naturales (no actuados) es muy complicada. En general la adquisición
de datos es un gran reto, por esto se buscan estrategias que puedan combinar datos
etiquetados, con datos de generación probabilística.
6. Aplicaciones: La imaginación es el límite: Usos empresariales, académicos, comerciales, de mercadeo,

31 may 2022 6 de 7
MEMORIA COMENTARIOS ENTREGABLE Aldan Jay

SIU038 - Inteligencia Ambiental (2021/2022) - Máster en Sistemas Inteligentes (42109)

entre muchos otros.

CONCLUSIONES

● La mayoría de los investigadores procesan cada canal (visual, audio) de forma independiente, y la
fusión multimodal aún está en pañales.
● La multimodalidad, aunque sea natural al ser humano, no siempre tiene una penetración exitosa en las
preferencias del usuario.
● El aspecto afectivo de la comunicación debe ser considerado al diseñar un sistema MMHCI: Las
emociones modulan todos los aspectos de la comunicación humana tales como expresiones faciales,
gestos, posturas, tono de voz, escogencia de palabras, respiración, temperatura y viscosidad cutánea,
etc.
● Los MMHCI, deben ser sistemas presentes en sus diversas opciones, para que el usuario (según
contexto y preferencias), escoja la interacción.
● La IA se convierte en elemento fundamental de los MMHCI.

BIBLIOGRAFÍA

1. Jaimes, Alejandro and N. Sebe. “Multimodal Human Computer Interaction: A Survey.” ICCV-HCI (2005). DOI:
https://www.semanticscholar.org/paper/Multimodal-Human-Computer-Interaction%3A-A-Survey-Jaimes-Sebe/7bc2
d21ab6b79935fccf3aad37deee5176683101?p2df.

31 may 2022 7 de 7

También podría gustarte