Documentos de Académico
Documentos de Profesional
Documentos de Cultura
# MEMORIA DE COMENTARIOS: 4
INTRODUCCIÓN
DESARROLLO
2. Un sistema HCI multimodal es simplemente uno que responde a entradas en más de una modalidad o
canal de comunicación (por ejemplo, habla, gestos, escritura y otros):
○ Una modalidad es un modo de comunicación concordante con los sentidos humanos y/o
dispositivos de I/O computacionales.
○ Un sistema que usa varias modalidades es MMHCI.
○ La visión (humana-computacional) es un@ sentido/técnica transversal para el uso de diversas
modalidades.
○ Me parece muy diciente el diagrama que expresa a los sistema s MMHCI:
31 may 2022 1 de 7
MEMORIA COMENTARIOS ENTREGABLE Aldan Jay
En el caso de interacción no comandada sería cuando el reloj inteligente utiliza una señal sonora y
visual cuando el usuario, en práctica deportiva, alcanza niveles de frecuencia cardiaca de riesgo:
31 may 2022 2 de 7
MEMORIA COMENTARIOS ENTREGABLE Aldan Jay
En general, los sistemas de análisis de movimiento humano basados en visión utilizados para MMHCI
pueden se puede pensar que tiene principalmente 4 etapas: Segmentación de movimiento,
Clasificación de objetos, Seguimiento e Interpretación.
Las MMHCI basados en la visión se agrupan según la forma de interacción con el humano:
3.1. Movimientos corporales de larga escala: Se hace necesario el seguimiento de movimientos
(cabeza, brazos, torso y piernas), como por ejemplo el Microsoft Kinect:
31 may 2022 3 de 7
MEMORIA COMENTARIOS ENTREGABLE Aldan Jay
3.2. Reconocimiento de gestos: Los gestos son cruciales para la comunicación humana pues son
acciones cargadas de significado. Esto hace que los gestos sean indispensables a las MMHCI,
para lograr la naturalidad objetivo.
La primera fase de una tarea de reconocimiento es elegir un modelo matemático que pueda
considerar tanto las características espaciales, como temporales, de la mano y los gestos
manuales.
Entre los problemas importantes involucrados en el análisis está el de localización y
seguimiento de las manos, y la selección de características adecuadas.
Después de calcular los parámetros, los gestos representados por ellos deben clasificarse e
interpretarse según el modelo aceptado y según algunas reglas gramaticales que reflejen la
sintaxis interna de los comandos gestuales.
Mi experiencia con este tipo de MMHCI, ha sido con sistemas como Leap Motion y la MYO
band, una basada en IR y la otra en sensores de detección bioeléctrica muscular:
3.3. Detección de mirada: Se define como mirada a la dirección a la cual los ojos están apuntando
en el espacio, y es un fuerte indicador de atención.
Comercialmente conozco de esta compañía que se dedica a hacer este tipo de soluciones:
Los sistemas de seguimiento ocular se pueden agrupar en vestible o no vestible, y basados en
31 may 2022 4 de 7
MEMORIA COMENTARIOS ENTREGABLE Aldan Jay
infrarrojos o la apariencia.
En los sistemas infrarrojos, una luz brillante sobre el sujeto cuya mirada se va a seguir crea un
"efecto de ojos rojos": la diferencia en el reflejo, entre la córnea y la pupila se utiliza para
determinar la dirección de la vista.
En los sistemas basados en la apariencia, las técnicas de visión artificial se utilizan para
encontrar los ojos en la imagen y luego determinar su orientación.
Si bien los sistemas portátiles son los más precisos (índices de error aproximados inferiores a
1,4° frente a errores inferiores a 1,7° para infrarrojos no portátiles), también son los más
intrusivos. Los sistemas infrarrojos son más precisos que los basados en la apariencia, pero
existen preocupaciones sobre la seguridad de la exposición prolongada a las luces infrarrojas.
Además, la mayoría de los sistemas no portátiles requieren una calibración (a menudo
31 may 2022 5 de 7
MEMORIA COMENTARIOS ENTREGABLE Aldan Jay
4. Interacción Afectiva Humano-Computador: Los estados afectivos están intrínsecamente unido a otras
funciones tales como la atención, percepción, memoria, toma de decisiones y aprendizaje. Esto
sugiere que puede ser beneficioso para los computadores, el reconocimiento de las emociones del
usuario y otros estados cognitivos y expresiones. De hecho los procesos cognitivos se han convertido
en “La Meta” estratégica de la IA.
Existen dos métodos para analizar las emociones:
● Categorización discreta de las emociones: alegría, miedo, amor, sorpresa, tristeza, etc. Es
como tratar de etiquetar casos bases de datos, lo que promulga un sistema limitado.
● Múltiples dimensiones o escalas para describir emociones: Dos escalas comunes son la
valencia y excitación. La valencia describe el placer de los estímulos, con positivo o placentero
(p. ej., felicidad) en un extremo y negativo o desagradable (p. ej., asco) en el otro. La otra
dimensión es la excitación o activación. Por ejemplo, la tristeza tiene poca excitación, mientras
que la sorpresa tiene un alto nivel de excitación.
4.1. Reconocimiento de expresiones faciales: Este tipo de reconocimiento se puede abordar por
medio de la codificación de expresiones faciales, basada en los movimientos básicos de
características faciales llamada unidades de Acción (AUs); otro enfoque intenta detectar y
seguir características específicas como esquinas de la boca, cejas, etc.; otros métodos se
basan en regiones, es decir tratan de mapear la emociones a regiones faciales.
Por otra parte, para este reconocimiento se pueden usar clasificadores estáticos o dinámicos.
4.2. Emoción en Audio: Los estudios sobre contenidos emocionales en el habla usan información
"prosódica", la cual incluye el tono, la duración y la intensidad de la expresión. Varios estudios
usan las “Ekman six”: ira, asco, miedo, alegría, tristeza y sorpresa. Otros estudios usan más
categorías.
5. Modelamiento, Fusión y Colección de datos.
5.1. Usuario, contexto y tarea de modelado: Las MMHCI deben considerar el diseño de I/O
adaptables, consistentes y depurables entre otras cosas tales como la dependencia del
comportamiento de la persona con respecto a su personalidad, vecindad cultural y social,
estado anímico y el contexto en el que se observa el contexto. La adaptabilidad (machine
learning) se convierte en una meta.
5.2. Fusión: Aunque es habitual que se intente hacer MMHCI, procesando los datos adquiridos
(sensorizados) de forma independiente para unir sus resultados al final. Para que el proceso
se parezca más al proceso humano (intuitivamente), se premisa que los datos adquiridos son
dependientes entre sí y con respecto al contexto (punto anterior).
Un sistema multimodal debe ser capaz de manejar datos imperfectos y generar su conclusión
de modo que la certeza asociada con ellos varía de acuerdo con la entrada de los mismos.
Algunos modelos que tratan esta fusión: Hidden Markov Models, redes Bayesianas, redes
Bayesianas dinámicas y sus combinaciones.
5.3. Colección de datos y pruebas: La recopilación de datos MMHCI y la obtención del suelo
verdadero, es un desafío. El etiquetado es una actividad sumamente costosa: actores leyendo
material, reaccionando a medios simultáneos.
La adquisición de datos naturales (no actuados) es muy complicada. En general la adquisición
de datos es un gran reto, por esto se buscan estrategias que puedan combinar datos
etiquetados, con datos de generación probabilística.
6. Aplicaciones: La imaginación es el límite: Usos empresariales, académicos, comerciales, de mercadeo,
31 may 2022 6 de 7
MEMORIA COMENTARIOS ENTREGABLE Aldan Jay
CONCLUSIONES
● La mayoría de los investigadores procesan cada canal (visual, audio) de forma independiente, y la
fusión multimodal aún está en pañales.
● La multimodalidad, aunque sea natural al ser humano, no siempre tiene una penetración exitosa en las
preferencias del usuario.
● El aspecto afectivo de la comunicación debe ser considerado al diseñar un sistema MMHCI: Las
emociones modulan todos los aspectos de la comunicación humana tales como expresiones faciales,
gestos, posturas, tono de voz, escogencia de palabras, respiración, temperatura y viscosidad cutánea,
etc.
● Los MMHCI, deben ser sistemas presentes en sus diversas opciones, para que el usuario (según
contexto y preferencias), escoja la interacción.
● La IA se convierte en elemento fundamental de los MMHCI.
BIBLIOGRAFÍA
1. Jaimes, Alejandro and N. Sebe. “Multimodal Human Computer Interaction: A Survey.” ICCV-HCI (2005). DOI:
https://www.semanticscholar.org/paper/Multimodal-Human-Computer-Interaction%3A-A-Survey-Jaimes-Sebe/7bc2
d21ab6b79935fccf3aad37deee5176683101?p2df.
31 may 2022 7 de 7