Morales Perez Edgar

UNIVERSIDAD VERACRUZANA
FACULTAD ESTADÍSTICA E INFORMÁTICA
Medidas Fisiológicas para Evaluación de

Usabilidad: el Caso del Ritmo Cardíaco.
TESIS
QUE PARA OBTENER EL GRADO DE:

Maestro en Sistemas Interactivos Centrados
en el Usuario
PRESENTA:
Edgar Daniel Morales Pérez
DIRECTORES:
Dr. Edgard Iván Benítez Guerrero

Dra. María del Carmen Mezura Godoy
Xalapa, Veracruz Enero de 2018

Agradecimientos
Agradezco a mi familia por su apoyo
incondicional y consejos durante toda mi vida.
Cada uno de mis logros son dedicados a
ustedes.
A mis directores de tesis, Dr. Edgard Iván
Benítez Guerrero y Dra. Ma. del Carmen
Mezura Godoy, por su paciencia, consejos y
todo su apoyo.
A los sinodales, Dr. José Rafael Rojano
Cáceres, Dr. Luis Gerardo Montané Jiménez,
y Dr. Guillermo Gilberto Molero Castillo.
Este trabajo fue desarrollado con el apoyo del
Consejo Nacional de Ciencia y
Tecnología(CONACYT), gracias a un beca
para realizar estudios de posgrado (No. de
Beca 423510 y No. de Registro 590668).
Esta tesis se desarrolló en el marco del
proyecto de Cátedras CONACYT denominado
Infraestructura para Agilizar el Desarrollo de
Sistemas Centrados en el Usuario (Ref.
3053).
vii
Resumen
La mayor parte de las evaluaciones de usabilidad se basan en cuestionarios, para
convertir información subjetiva (opinión del usuario) en información objetiva. Sin
embargo, los usuarios pueden sentirse cohibidos o ser incapaces de decidir cuando las
diferencias entre los sistemas de software son muy sutiles.
Existen otras técnicas que pueden contribuir a aumentar la comprensión sobre la
percepción del producto por parte del usuario mediante la incorporación de medidas
siológicas que no involucren los procesos conscientes.
En este trabajo se presentan los resultados de un estudio exploratorio acerca de
la utilización del ritmo cardíaco (HR, por sus siglas en inglés) para la valoración de
la apreciación del usuario sobre el sistema. Primeramente, se ha llevado a cabo una
aplicación en un SmartWatch para obtener la respuesta siológica, que ha sido renado
mediante la realización de un estudio exploratorio. Esta señal se adquirió de 14 personas
que interactuaban dos interfaces para realizar consultas a una base de datos.
Esto se realizó con el objetivo de poder obtener un conjunto de variables para
caracterizar a la señal siológica mediante estadística básica. Para posteriormente
utilizar esta caracterización como entrada a un algoritmo de aprendizaje de árboles
de decisión con el afán de buscar posibles patrones que pudiesen predecir la percepción
del usuario sin necesidad de aplicar cuestionarios.
Los resultados mostraron evidencia de que los valores de HR podrían ser utilizados
para predecir una calicación de usabilidad y que el análisis de las medidas siológicas
tiene un gran potencial para mejorar la comprensión sobre la usabilidad del sistema.
Aunque se requieren estudios mas extensos para conrmarlo.
Durante las últimas décadas, se han desarrollado técnicas y metodologías para
comprender los procesos de una evaluación de usabilidad basados, la mayoría de ellos, en
ix
Resumen
la opinión del usuario. Se conrmó que las medidas siológicas al generarse de manera
subconsciente desempeñan un papel de gran valor en la investigación de usabilidad.
x
Abstract
Most of usability evaluations are based on questionnaires, to convert subjective
information (user opinion) into objective information. However, users may feel self-
conscious or unable to decide when the dierences between products are very subtle.
There are other techniques that can contribute to increase the understanding of the
perception of the product by the user by incorporating physiological measures that do
not involve conscious processes.
In this paper we present the results of an exploratory study about the use of heart
rate (HR) to assess the user's appreciation of the system. Firstly, an application has
been carried out in a SmartWatch to obtain the physiological response, which has been
rened by carrying out an exploratory study. This signal was acquired from 14 people
who interacted with two interfaces to query a database.
This was done in order to obtain a set of variables to characterize the physiological
signal through basic statistics. To later use this characterization as input to a decision
tree learning algorithm with the aim of looking for possible patterns that could predict
the users perception without the need to apply questionnaires.
The results showed evidence that HR values could be used to predict a usability
score and that the analysis of physiological measures has a great potential to improve
the understanding of the usability of the system. although more extensive studies are
required to conrm it.
During the last decades, techniques and methodologies have been developed to
understand the processes of a usability evaluation based, most of them, on the
opinion of the user. It was identied that the physiological measures to be generated
subconsciously play a role of great value in usability research.
xi
Índice
Agradecimientos vii
Resumen ix
Abstract xi
1. Introducción 1
1.1. Usabilidad del Software . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2. Denición del problema . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3. Hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4. Preguntas de Investigación . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.5. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.6. Enfoque adoptado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.7. Organización de la tesis . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2. Trabajos Relacionados 7
2.1. Usabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.1.1. Denición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.1.2. Atributos de Usabilidad . . . . . . . . . . . . . . . . . . . . . . 8
2.1.3. Métodos de Evaluación de Usabilidad . . . . . . . . . . . . . . . 9
2.2. Medidas Fisiólogicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
xiii
Índice
2.2.1. Generalidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2.2. Medidas Fisiológicas Comunes . . . . . . . . . . . . . . . . . . . 19
2.2.3. Actividad Electrodérmica . . . . . . . . . . . . . . . . . . . . . 20
2.2.4. Actividad Eléctrica Cerebral . . . . . . . . . . . . . . . . . . . . 22
2.3. Usabilidad y Señales Fisiológicas . . . . . . . . . . . . . . . . . . . . . 22
2.3.1. Trabajo de Lin et al. (2005) . . . . . . . . . . . . . . . . . . . . 22
2.3.2. Trabajo de Sperry y Fernandez (2008) . . . . . . . . . . . . . . 24
2.3.3. Trabajo de Forne (2012) . . . . . . . . . . . . . . . . . . . . . . 25
2.3.4. Trabajo de Yao et al. (2014) . . . . . . . . . . . . . . . . . . . . 27
2.3.5. Trabajo de J. Hernández (2015) . . . . . . . . . . . . . . . . . . 29
2.3.6. Trabajo de Udovivic et al. (2017) . . . . . . . . . . . . . . . . . 30
2.4. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3. Marco Metodológico 35
3.1. Diseño experimental . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.2. Participantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.3. Materiales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.3.1. Sensor SmartWatch y Aplicación . . . . . . . . . . . . . . . . . 37
3.3.2. Software para Visualizar el HR . . . . . . . . . . . . . . . . . . 38
3.3.3. Interfaces Prototipo . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.3.4. Lista de Tareas . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.3.5. Cuestionario SUS . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.4. Procedimiento de recolección de datos . . . . . . . . . . . . . . . . . . . 41
3.5. Procedimiento de análisis de datos . . . . . . . . . . . . . . . . . . . . 42
3.6. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
xiv
Índice
4. Resultados y discusión 47
4.1. Caracterización de los datos recolectados . . . . . . . . . . . . . . . . . 47
4.1.1. Datos del ritmo cardiaco . . . . . . . . . . . . . . . . . . . . . . 47
4.1.2. Datos del cuestionario SUS . . . . . . . . . . . . . . . . . . . . . 50
4.2. Predicción de usabilidad a partir del ritmo cardiaco . . . . . . . . . . . 53
4.3. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
5. Conclusiones y Trabajo Futuro 59

5.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
5.2. Trabajo Futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
Bibliografía 63
A. Instrumentos de medición 67
A.1. Cuestionario - Demográco . . . . . . . . . . . . . . . . . . . . . . . . . 67
A.2. Cuestionario - Experiencia SQL . . . . . . . . . . . . . . . . . . . . . . 69
A.3. Cuestionario - SUS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
xv
Índice de guras
2.1. Comparación de cuestionarios de usabilidad (Tullis y Stetson, 2004) . . 16
2.2. Sistema Simpático . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3. Capas de la piel humana (Carranza y Gajardo, 2009) . . . . . . . . . . 21
2.4. Escena del experimento de Lin et al. (2005) . . . . . . . . . . . . . . . 23
2.5. Escena del experimento de Sperry y Fernandez (2008) . . . . . . . . . . 25
2.6. Escena del experimento de Forne (2012) . . . . . . . . . . . . . . . . . 26
2.7. Escena del experimento de Yao et al. (2014) . . . . . . . . . . . . . . . 28
2.8. Escena del experimento de J. Hernández (2015) . . . . . . . . . . . . . 29
2.9. Escena del experimento de Udovivic et al. (2017) . . . . . . . . . . . . 30
3.1. Participantes en la prueba . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.2. SmartWatch Gear S2 samsung R . . . . . . . . . . . . . . . . . . . . . 38
3.3. Aplicación para Medir HR . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.4. Software para Visualizar HR de los Participantes . . . . . . . . . . . . 38
3.5. Interfaz de Consulta Visual (VQI) . . . . . . . . . . . . . . . . . . . . . 39
3.6. Interfaz de Consulta por Linea de Comandos (CLQI) . . . . . . . . . . 40
3.7. Porcentaje para el puntaje valor del cuestionario SUS . . . . . . . . . . 41
3.8. Librerias utilizadas (Pedregosa et al., 2011) . . . . . . . . . . . . . . . . 42
3.9. Separación de datos entrenamiento y prueba . . . . . . . . . . . . . . . 43
3.10. Creación del modelo y validación . . . . . . . . . . . . . . . . . . . . . 43
xvii
Índice de figuras
3.11. Impresión árbol de Clasicación . . . . . . . . . . . . . . . . . . . . . . 44
4.1. Variación del ritmo cardiaco del participante 1 . . . . . . . . . . . . . . 48
4.2. Resumen del HR para los 14 participantes . . . . . . . . . . . . . . . . 50
4.3. Porcentaje SUS de cada Participante para VQI . . . . . . . . . . . . . 51
4.4. Porcentaje SUS de cada Participante para CLQI . . . . . . . . . . . . . 51
4.5. Descripción del árbol . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.6. Árbol de decisión para VQI . . . . . . . . . . . . . . . . . . . . . . . . 56
4.7. Reglas para árbol de decisión en VQI . . . . . . . . . . . . . . . . . . . 56
4.8. Árbol de decisión para CLQI . . . . . . . . . . . . . . . . . . . . . . . . 57
4.9. Reglas para árbol de decisión en CLQI . . . . . . . . . . . . . . . . . . 57
4.10. Porcentaje de precisión VQI . . . . . . . . . . . . . . . . . . . . . . . . 58
4.11. Porcentaje de precisión CLQI . . . . . . . . . . . . . . . . . . . . . . . 58
xviii
Índice de Tablas
3.1. Caracteristicas de smartwatch GEAR S2 Samsung R . . . . . . . . . . 37
3.2. Tareas realizadas por los participantes . . . . . . . . . . . . . . . . . . 40
3.3. Escala de calicación de puntaje SUS de (Sauro y Lewis, 2016) . . . . . 44
4.1. Estadísticas Básicas de VQI . . . . . . . . . . . . . . . . . . . . . . . . 48
4.2. Estadísticas Básicas de CLQI . . . . . . . . . . . . . . . . . . . . . . . 49
4.3. Relación puntaje SUS y escala Sauro y Lewis (2016) para VQI por
participante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.4. Relación puntaje SUS y escala Sauro y Lewis (2016) para CLQI por
participante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.5. Conjunto de datos de VQI . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.6. Conjunto de datos de CLQI . . . . . . . . . . . . . . . . . . . . . . . . 54
xix
Capítulo 1
Introducción
1.1. Usabilidad del Software

Hoy en día existen un sinfín de sistemas que apoyan diariamente al usuario nal a
alcanzar sus objetivos. Estos sistemas juegan un papel importante porque apoyan al
usuario a realizar sus tareas de forma rápida y cómoda. Sin embargo, como arman
Martín et al. (2017), muchas veces estos sistemas tienen un bajo nivel de usabilidad y
son responsables de pérdida de tiempo, desmotivación y frustración del usuario en su
interacción.
La usabilidad, según la norma ISO 9241:11, se dene como la medida en la que un
producto se puede usar por determinados usuarios para conseguir objetivos especícos
con efectividad, eciencia y satisfacción en un contexto de uso especíco. Es decir, la
usabilidad puede considerarse como un atributo de calidad que evalúa la facilidad de
uso de un sistema o interfaz tomando en cuenta estos tres conceptos. La usabilidad
es tan importante, que como lo arma Aguilar (2017), está relacionada con el éxito o
fracaso de un producto.
Dada esa importancia, se han buscado opciones para evaluar la usabilidad de
software. En este contexto han surgido un número importante de métodos para evaluar
eciencia, ecacia y satisfacción, mismos que se clasican en tres categorías: métodos de
inspección, métodos de indagación y métodos de evaluación por test (Cruz et al., 2015).
Los métodos de inspección agrupan a la evaluación Heurística, recorridos cognitivos.
1
Capítulo 1. Introducción
Cuando se utiliza este tipo de métodos se confía en la opinión y los informes de los
evaluadores y de los usuarios. Por otro lado, los métodos de indagación contemplan a
la observación de campo, entrevistas, cuestionarios y grabaciones, los cuales permiten
una interacción directa con el usuario para obtener respuestas a preguntas formuladas
entablando conversaciones. Por último, el método de evaluación por test comúnmente
se reere a cuestionarios para medir particularmente la satisfacción de los usuarios.
Los métodos anteriores conducen a datos tanto cuantitativos como cualitativos
que proporcionan información que sirve para realizar una medición de usabilidad. Sin
embargo, Lazar et al. (2017) describen las numerosas formas en que los cuerpos de
los usuarios pueden actuar como dispositivos de generación de datos, dado que en el
cuerpo humano se generan de forma autónoma reacciones a estímulos externos y que
son conocidas como señales siológicas. De igual forma, expresa que estas medidas
pueden ayudar a los investigadores a obtener una visión signicativa de la forma en
que los usuarios trabajan con una interfaz, sin que intervengan de forma directa con
la valoración de usabilidad. Por esta razón, este trabajo se interesa en la evaluación de
usabilidad y en buscar formas de medirla que eviten criterios subjetivos tradicionales.
Una alternativa es incluir medidas siológicas, en la evaluación de usabilidad de un
sistema.
1.2. Denición del problema

La usabilidad se puede medir de dos formas, ya sea por variables objetivas o bien
por variables subjetivas (Cruz et al., 2015). Las primeras ayudan a medir de forma
cuanticable la ecacia de un sistema, como el número de errores del usuario durante
la realización de una tarea, así como la eciencia del mismo, como el tiempo empleado
por el usuario para la consecución de una tarea. Las variables subjetivas, por su parte,
miden el grado de satisfacción del usuario al utilizar el producto, para esto se utilizan:
test de usuarios, card sorting, heurísticas, prototipos, entre otros.
La evaluación de satisfacción trae consigo respuestas por parte del usuario que
son subjetivas. Esto representa un problema porque ese tipo de datos no apoyan
adecuadamente la toma de decisiones. Se hacen necesarios entonces métodos para
evaluar objetivamente la usabilidad (particularmente la satisfacción) de un sistema.
2
1.2. Denición del problema
Una opción es incluir medidas siológicas, como el ritmo cardíaco (HR), la respuesta
galvánica de la piel (GSR) y la temperatura corporal (BTC), entre otras, en la
evaluación de la satisfacción de un sistema. Al respecto, Sperry y Fernandez (2008)
y Shi et al. (2007) indican que es posible que las respuestas siológicas del usuario
contribuyan en la evaluación de interfaces, ya que permiten identicar factores y eventos
que causan cambios en el nivel de activación del usuario al percibir estímulos. Estos
cambios pueden surgir como resultado de emociones negativas o positivas asociadas a la
frustración, satisfacción o a momentos de elevada carga de trabajo al realizar una tarea.
Dicho de otra forma, al basar la evaluación de la satisfacción en métricas cuantitativas
principalmente involuntarias (a menudo subconscientes) y ligadas a estímulos externos,
se podría eliminar la subjetividad que los métodos tradicionales introducen.
Es importante señalar que este no es un problema trivial. Para responder la pregunta
¾Es posible medir qué tan satisfecho está un usuario al usar un software a partir de
reacciones siológicas de su cuerpo?, es necesario responder preguntas como ¾Qué
medida(s) siológica(s) es (son) adecuada(s)? ¾Qué formas de recolección de datos
siológicos son apropiadas? ¾De qué manera se pueden relacionar los datos siológicos
con los de satisfacción?
Con respecto a estas preguntas, trabajos como Sauro y Lewis (2016); J. Hernández
(2015); Foglia et al. (2014), han explorado medidas como el ritmo cardíaco (HR) o la
respuesta galvánica de la piel (GSR). Tales medidas han sido comunmente medidas
utilizando sensores corporales. La búsqueda de relaciones entre los datos siológicos y
los de satisfacción ha pasado usualmente por el uso de técnicas estadísticas tradicionales.
Los trabajos mencionados son importantes porque fueron los primeros en abordar
la problemática mencionada. No obstante, estos tuvieron dicultades derivadas, por
ejemplo, del uso de sensores corporales que si bien son exactos, resultan invasivos para
los usuarios porque les impiden realizar una actividad de forma natural. Además, se
han limitado al uso de técnicas tradicionales de análisis estadístico, quedando por
explorar otro tipo de técnicas de análisis, como las de Aprendizaje Automático. Se
hacen entonces necesarios trabajos que aporten soluciones considerando tales aspectos.
El presente trabajo va en esa vía.
3
1.3. Hipótesis
Una solución de cómputo basada en sensores poco invasivos y en técnicas de
aprendizaje automático que considere la siología del usuario, en particular su ritmo
cardíaco, permite predecir la satisfacción del usuario al usar un software.
1.4. Preguntas de Investigación

Las preguntas de investigación que guían este trabajo son las siguientes:
¾Qué medida(s) siológica(s) es (son) apta(s) para buscar relacionarla con la
satisfacción del usuario?
¾Qué sensores no invasivos pueden utilizarse para recolectar datos siológicos?
¾Qué técnicas de Aprendizaje Automático se pueden utilizar para predecir la
satisfacción del usuario a partir de las señales siológicas?
Dada la amplitud de posibilidades, este trabajo utiliza sensores integrados en relojes
inteligentes (smartwatches) para el monitoreo del ritmo cardiaco como señal siológica,
como lo sugieren Shahmohammadi et al. (2017). Estos dispositivos son muy populares
debido a que combinan características de los teléfonos inteligentes para un monitoreo
continuo de datos, sin intervenir en la interacción con el usuario. Además, no son
voluminosos y pueden ser usados durante cualquier actividad.
Con respecto a las técnicas de Aprendizaje Automático, existe un amplio número
para llevar a cabo tareas de descripción o predicción. En este trabajo se ha optado por
utilizar un algoritmo de inducción de árboles de decisión, de tipo CART, dado que éste
puede ser interpretado rápidamente por una persona.
4
1.5. Objetivos
1.5. Objetivos
El objetivo general de este trabajo es:
Determinar si es posible predecir una evaluación de satisfacción de uso de un software
a partir de datos del ritmo cardiaco del usuario obtenidos por un sensor empotrado en
un smartwatch y analizados mediante un algoritmo de inducción de árboles de
clasicación.
Los objetivos especícos son:
Recopilar de los trabajos relacionados un conjunto de variables para caracterizar
al ritmo cardiaco así como una forma de medir la satisfacción del usuario.
Diseñar y ejecutar experimentos para la recuperación de datos cuantitativos de
ritmo cardíaco y cualitativos de satisfacción.
Aplicar un algoritmo de inducción de árboles de clasicación a los datos obtenidos
para identicar posibles patrones de predicción.
1.6. Enfoque adoptado

El desarrollo del trabajo se dividió en las siguientes etapas: diseño del estudio,
ejecución y análisis de datos.
En la etapa de diseño se denió la forma de las pruebas para recopilar los datos. Se
decidió probar a participantes a dos programas haciendo posible la escritura y ejecución
de consultas en SQL (Structured Query Language) a una base de datos relacional, uno a
través de una interfaz visual y otro basado en línea de comandos. Así, se obtuvieron los
datos del ritmo cardíaco de los participantes. Posteriormente, se aplicó un cuestionario
sobre satisfacción a los participantes. En está se construyó la aplicación para obtener
y visualizar los datos del ritmo cardíaco captados por un smartwatch. Además, se
prepararon cuestionarios de usabilidad que fueron respondidos por los participantes.
En la etapa de colección de datos se ejecutaron las pruebas con los participantes
para obtener los datos siológicos.
5
En la etapa de análisis, se prepararon los datos colectados por cada interfaz y después
se pasaron como entrada árbol de decisión. Los datos del ritmo cardiaco fueron tratados
como series temporales y se usaron estadísticas básicas (media, desviación estándar,
mínimo, máximo) así como su tiempo de duración para caracterizarlas. Por su parte,
los datos provenientes del Sistema de Escalas de Usabilidad (SUS) se convirtieron en
valores categóricos utilizando la escala de Sauro y Lewis (2016). Los datos combinados
de ritmo cardiaco y satisfacción fueron la entrada del algoritmo CART, que utiliza datos
históricos para construir arboles de clasicación o de regresión los cuales son usados para
clasicar o predecir nuevos datos. Estos árboles pueden manipular fácilmente variables
numéricas y/o categóricas. Para validar la precisión del árbol se utilizó la técnica de
validación cruzada.
1.7. Organización de la tesis

Este documento se organiza de la siguiente manera:
El capítulo 2 comprende los conceptos principales de este trabajo de tesis. Se dene
la usabilidad, sus atributos y métodos para su medición. Se describen las medidas
siológicas, sus características y como se recolectan. Finalmente, se especican los
trabajos de investigación encontrados a partir de una revisión de la literatura, con
el n de fundamentar este trabajo de tesis y dar un marco de referencia.
En el capítulo 3 se describe el diseño del estudio exploratorio llevado a cabo, los
participantes, los materiales utilizados en la prueba, así como la implementación de las
interfaces grácas de usuario desarrolladas para los experimentos, el procedimiento de
recolección de datos y el de análisis de los datos recolectados.
Posteriormente, en el capítulo 4 se describe el análisis realizado sobre los datos
recolectados. La forma de caracterización el ritmo cardíaco mediante estadística básica,
así como también la caracterización del cuestionario y los resultados obtenidos en este
trabajo de tesis.
Finalmente, el capítulo 5 se presenta la orientación del trabajo futuro que se sugiere
con base al estado actual de la investigación
6
Capítulo 2
Trabajos Relacionados
Este capítulo describe los conceptos relevantes para esta investigación. En la
sección 2.1 se dene el concepto de usabilidad, se describe sus características, métricas
y métodos de evaluación. Mientras que en la sección 2.2 se denen las medidas
siológicas. Posteriormente, en las sección 2.3 se especican los trabajos de investigación
encontrados a partir de una revisión de la literatura, con el n de fundamentar este
trabajo de tesis y dar un marco de referencia.
2.1. Usabilidad
2.1.1. Denición
Comúnmente cuando se habla acerca del término usabilidad las personas se reeren a
él como la facilidad de uso. Diversos autores Nielsen (2012); Preece (2000); Shneiderman
et al. (2016) han propuesto diversas deniciones de usabilidad, normalmente a través
de principios y recomendaciones mediante los que puede ser evaluada, dependiendo
nalmente cada denición del enfoque con el que pretende ser medida.
Según Nielsen (2012) el término de usabilidad se dene como un atributo que sirve
para diagnosticar qué tan fácil le resulta al usuario utilizar una interfaz. La palabra
usabilidad también se reere a métodos para mejorar la facilidad de uso durante el
proceso de diseño. En pocas palabras, un software es usable si le permite a un usuario
7
Capítulo 2. Trabajos Relacionados
realizar una tarea de una manera fácil, eciente e intuitiva. Por ejemplo, reducir los
pasos para realizar una tarea puede disminuir el número de clics para su conclusión.
Por su lado, Arroyo Vázquez (2011) dene que la usabilidad es la medida para evaluar
el diseño de interfaces para lograr que los usuarios interactúen de forma más fácil e
intuitiva, y agrega que la forma más viable para desarrollar un software es conociendo las
características y preferencias del usuario. Chipantiza et al. (2015) denen que dentro de
los factores que determinan la usabilidad se debe considerar la accesibilidad, legibilidad,
navegabilidad, facilidad de aprendizaje, velocidad de utilización, eciencia del usuario
y tasas de error. Estos factores son situaciones que presenta un usuario al momento
de interactuar con alguna interfaz y que pueden ser cuanticados para evaluar la
usabilidad.
Ante la diversidad de propuestas, para este trabajo se tomó en cuenta la denición
estandarizada ofrecida por la norma ISO 9241:11, que dene usabilidad como el
grado de ecacia, eciencia y satisfacción con la que usuarios especícos pueden
lograr objetivos especícos, en contextos de uso especícos . Cabe señalar que, para
especicar o medir la usabilidad, es necesario identicar las metas y descomponer la
efectividad, eciencia y satisfacción, así como los componentes del contexto de uso en
subcomponentes con atributos medibles y vericables, como se indica a continuación;
Ecacia: denido en términos de la exactitud y completitud con que usuarios
especícos pueden lograr metas especícas en ambientes particulares.
Eciencia: referido a los recursos gastados en relación con la precisión y
completitud de la meta lograda, es decir recursos de tiempo, nancieros y
humanos.
Satisfacción: que evalúa el confort o comodidad y la aceptabilidad del trabajo

del sistema para sus usuarios y otras personas afectadas por su uso.
2.1.2. Atributos de Usabilidad

Después de haber presentado el concepto de usabilidad según las distintas fuentes
mencionadas, es necesario revisar los criterios que según (Nielsen, 2012) denen a la
usabilidad y que están relacionados a la interacción entre las personas y los sistemas.
8
2.1. Usabilidad
Facilidad de aprendizaje: se reere a la facilidad de aprender la funcionalidad

y comportamiento del sistema. Se pude denir en la duración de tiempo que un
usuario que nunca ha visto una interfaz puede aprender a usarla bien y realizar
operaciones básicas.
Eciencia de uso: el siguiente punto trata acerca de la rapidez con la que un
usuario que ha aprendido a usar el sistema alcanza un nivel de productividad alto
al realizar sus tareas.
Retención sobre el tiempo: cuando un usuario ha utilizado un sistema tiempo

atrás, y tiene la necesidad de utilizarlo de nuevo, la curva de aprendizaje debe ser
signicativamente menor que el caso del usuario que nunca haya utilizado dicho
sistema.
Tasas de error: la capacidad del sistema para ofrecer una tasa baja de errores,
apoyar a los usuarios a cometer pocos errores durante el uso del sistema, y en
caso de que cometan errores ayudarles a recuperarse fácilmente.
Satisfacción: se reere a la impresión subjetiva del usuario respecto al sistema.

Qué tanto un sistema es agradable de usar para un usuario.
Como veremos en la siguiente sección, las evaluaciones de usabilidad son realizadas
en función de estos cinco criterios, pero, como se mencionó anteriormente, la satisfacción
y la facilidad de aprendizaje son los atributos de mayor peso para determinar el grado
de usabilidad del sistema.
2.1.3. Métodos de Evaluación de Usabilidad

Hoy en día, hay una diversidad de métodos que se pueden aplicar para evaluar
la usabilidad. Entre ellos encontramos métodos basados en parámetros básicos como
la realización de tareas, el tiempo o el número de errores(Sauro y Lewis, 2016;
J. Hernández, 2015; Chisholm et al., 2001). Sin embargo, en las recomendaciones de
usabilidad proporcionadas por la W3C expresan que estos paramentos no son sucientes
para detectar diferencias sutiles. Por esa razón, se han propuesto otros métodos que
favorecen a alcanzar un mayor nivel de usabilidad como lo son la Evaluación Heurística,
Recorridos cognitivos, Test de Usuarios.
9
Evaluación Heurística
Según Nielsen (2005), la evaluación heurística es un método de inspección y
corresponde a un conjunto reducido de evaluadores entre 3 y 5, quienes evalúan si
cada elemento de una interfaz sigue los principios de usabilidad. El objetivo de este
tipo de evaluaciones es encontrar problemas de diseño de la interfaz que intereran con
la usabilidad.
La evaluación Heuristica está basada en un conjunto de reglas que describen
propiedades de interfaces usables, llamadas heuristicas las cuales se presentan a
continuación;
1. Visibilidad del estado del sistema. El sistema siempre debería mantener
informados a los usuarios de lo que está ocurriendo, a través de retroalimentación
apropiada dentro de un tiempo razonable.
2. Relación entre el sistema y el mundo real. El sistema debería hablar el lenguaje de
los usuarios mediante palabras, frases y conceptos que sean familiares al usuario,
más que con términos relacionados con el sistema. Seguir las convenciones del
mundo real, haciendo que la información aparezca en un orden natural y lógico.
3. Control y libertad del usuario. Hay ocasiones en que los usuarios elegirán
las funciones del sistema por error y necesitarán una salida de emergencia
claramente marcada para dejar el estado no deseado al que accedieron, sin tener
que pasar por una serie de pasos. Se deben apoyar las funciones de deshacer y
rehacer.
4. Consistencia y estándares. Los usuarios no deberían cuestionarse si acciones,
situaciones o palabras diferentes signican en realidad la misma cosa; se debe
seguir las convenciones establecidas.
5. Prevención de errores. Mucho mejor que un buen diseño de mensajes de error es
realizar un diseño cuidadoso que prevenga la ocurrencia de problemas.
6. Reconocimiento antes que recuerdo. Se deben hacer visibles los objetos, acciones
y opciones. El usuario no tendría que recordar la información que se le da en una
parte del proceso, para seguir adelante. Las instrucciones para el uso del sistema
deben estar a la vista, o ser fácilmente recuperables cuando sea necesario.
10
2.1. Usabilidad
7. Flexibilidad y eciencia de uso. La presencia de aceleradores, que no son vistos
por los usuarios novatos, puede ofrecer una interacción más rápida a los usuarios
expertos que la que el sistema puede proveer a los usuarios de todo tipo. Se debe
permitir que los usuarios adapten el sistema para usos frecuentes.
8. Estética y diseño minimalista. Los diálogos no deben contener información que es
irrelevante o poco usada. Cada unidad extra de información en un diálogo, compite
con las unidades de información relevante y disminuye su visibilidad relativa.
9. Ayudar a los usuarios a reconocer, diagnosticar y recuperarse de errores. Los
mensajes de error se deben entregar en un lenguaje claro y simple, indicando en
forma precisa el problema y sugerir una solución constructiva al problema.
10. Ayuda y documentación. Incluso en los casos en que el sistema pueda ser usado
sin documentación, podría ser necesario ofrecer ayuda y documentación. Dicha
información debería ser fácil de buscar, estar enfocada en las tareas del usuario,
con una lista concreta de pasos a desarrollar y no ser demasiado extensa.
La evaluación heurística es una forma para evaluar la usabilidad en un sistema,
pero este tipo de pruebas se realiza comúnmente cuando la interfaz esta en fase de
prototipado. Lo que hace que los costos de desarrollo aumenten, puesto que solo detecta
problemas en fases iniciales y en entornos controlados.
Recorridos cognitivos
Un recorrido cognitivo consiste en realizar tareas dentro de un sistema para
identicar errores de diseño o áreas susceptibles de mejora,con base al modelo cognitivo
del comportamiento del usuario (inspección orientada a la facilidad de aprendizaje).
La interfaz está normalmente en forma de prototipo. Esta técnica es idónea en la
etapa del diseño debido a que se necesita de un prototipo, ya sea a papel o de software,
así como un escenario controlado y la lista de tareas a realizar. Este método es utilizado
ya que es menor el tiempo se requiere para realizarlo (Gutwin y Greenberg, 2000).
Cuando esta prueba es realizada por un experto, la experiencia es importante,
porque debe encontrar los errores más evidentes de una primera mirada. También la
empatía, ya que se trata de ponerse en la piel del usuario. Son necesarios conocimientos
11
de diseño para identicar errores y áreas de mejora, y los textos y toda la comunicación
de la interfaz serán también parte del contenido evaluado.
Este tipo de prueba suele realizarse junto con la evaluación heurística. Puede llevarse
a cabo por uno o más expertos (lo ideal que sean varios), y es uno de los recursos más
económicos y rápidos para evaluar la usabilidad de algún tipo de software.
Cuestionarios
El uso de cuestionarios en la evaluación de la usabilidad permite obtener información
sobre las opiniones, deseos y expectativas de los usuarios potenciales (Sauro y Lewis,
2016). Los cuestionarios son creados y formulados de acuerdo al conocimiento que el
equipo de diseñadores considera útil para desarrollar el producto o aplicación Web. Los
cuestionarios tendrán que ser rellenados por los usuarios y enviarlos de vuelta. Este
tipo de herramientas, son útiles e informativas en todas las fases de diseño y desarrollo
de la aplicación, pero requieren un número adecuado de usuarios de prueba para poder
encontrar las preferencias subjetivas del usuario (Lazar et al., 2017).
Para la realizacion del test (Lazar et al., 2017) denen los siguientes puntos para
realizar un test de usuario.
Reclutar participantes.
Denir un entorno de prueba.
Denir el tiempo de la prueba.
Denir las preguntas para el usuario.
Escribir las observaciones.
Las ventajas que poseen este tipo de herramientas son las siguientes:
Son baratos.
Fáciles de aplicar con una muestra grande de usuarios.
Proporciona datos cuantitativos y cualitativos.
Encuentra preferencias subjetivas del usuario.
12
2.1. Usabilidad
Por otra parte, se pueden identicar las siguientes desventajas:
Generalmente se requiere la presencia de un evaluador para claricar las preguntas
y ayudar a los participantes.
El evaluador si es que existe alguno no debe de inuenciar en la opinión de los
participantes.
Como en cualquier técnica de evaluación, la falsedad de la muestra puede producir
resultados errados.
Requiere de un trabajo piloto para su validación.
Según Sauro y Lewis (2016), las técnicas anteriores ayudan a los evaluadores de
usabilidad a obtener datos procedentes de la interacción de los usuarios con la interfaz,
es necesario adaptar este tipo de técnicas en función del objetivo de la prueba.
Cuestionarios estandarizados de usabilidad. A continuación se presentan
algunos cuestionarios que se utilizan de apoyo a la medición de satisfacción de usuario.
QUIS (Lewis, 1995) El cuestionario de satisfacción de interacción del usuario

1
(QUIS, ) es una herramienta de evaluación de usabilidad centrada en el usuario
para sistemas de computación interactiva , realizado por el laboratorio de Interacción
Humano compuatora en International Business Machines (IBM).
QUIS está centrado en el usuario para evaluar su percepción de la usabilidad de la
interfaz. Los aspectos que evalúa son los siguientes:
Reacción global al sistema, se emplea preguntas como terrible"vs frustrado",
lánguido"vs estimulante", entre otros. No trata características especícas de la
interfaz utilizada ni la interacción.
Factores de pantalla, esto hace referencia a las características del nivel léxico de
la interfaz como por ejemplo las fuentes y negrita, la lógica de la interfaz, la
secuencia de pantallas, el control del usuario, la recuperación después del error.
La compatibilidad de secuencias operacionales se trata de una manera detallada.
1 Siglas en inglés Questionnaire for User Interaction Satisfaction
13
Terminología y sistema de retroalimentación, para medir la inteligibilidad de los
mensajes con las preguntas relacionadas.
Factores de aprendizaje, referido a la experiencia de aprendizaje y también a
las características especícas del sistema tales como realimentación, lógica de
secuencias y posibilidad de intuir.
Capacidades del sistema, referido a las experiencias del usuario con respecto a la
velocidad del funcionamiento, de la conabilidad, del ruido, de las capacidades de
gestión de error y de la exibilidad del sistema.
Inicialmente QUIS (Lewis, 1995) fue una herramienta manual basada en una escala
de valoración de nueve puntos de escala likert (Sauro y Lewis, 2016). Después de crear
versiones iniciales basadas en computadora, se creó una versión de QUIS que permitiera
migrar de las versiones iniciales. Esto se logró mediante un formulario basado en Web
ayudando a reducir las limitaciones de las versiones previas con el uso de formularios
HTML y extensiones JavaScript para la validación y procesamiento de datos.
CSUQ
2
El cuestionario de usabilidad del sistema(CSUQ, ) es una herramienta de evaluación
de usabilidad centrada en el usuario para sistemas de computación interactiva.
CSUQ fue desarrollado para permitir la recopilación de un gran número de
cuestionarios completados y para ver si la estructura del factor encontrada para el

3
cuestionario de post-estudio de usabilidad del sistema (PSSUQ, ) en un entorno de
prueba de usabilidad se mantendría igual en una encuesta enviada por correo . La
aparición de los mismos factores demostraría la utilidad potencial del cuestionario
en diferentes grupos de usuarios y entornos de investigación. El CSUQ es idéntico
al PSSUQ, con ligeros cambios en la redacción debido al cambio en la investigación
no relacionada con los laboratorios. Por ejemplo, el ítem 3 de la versión 3 de PSSUQ,
Pude completar las tareas y los escenarios rápidamente usando este sistema", pero el
ítem 3 de la versión 3 de CSUQ dice, Puedo completar mi trabajo rápidamente usando
este sistema". El cálculo de los puntajes de CSUQ es el mismo que para los puntajes de
PSSUQ. De los 825 empleados de IBM seleccionados al azar a principios de la década
2 Siglas en inglés Computer System Usability Questionnaire

3 Siglas en inglés Post-Study System Usability Questionnaire
14
2.1. Usabilidad
de 1990, 325 respondieron el cuestionario (CSUQ versión 2, que tenía 19 elementos).
CSUQ está centrado en el usuario para evaluar su percepción de la usabilidad de la
interfaz. Los aspectos que evalúa son iguales a los de QUIS.
System Usability Scale (SUS)

A pesar de ser una escala de usabilidad autodesignada rápida y sucia", SUS (Brooke,
1996), desarrollado a mediados de la década de 1980, se ha convertido en un popular
cuestionario para evaluaciones subjetivas de usabilidad de nal de prueba (Lazar et al.,
2017; Sauro y Lewis, 2016). SUS representó el 43 % del uso de cuestionarios posteriores a
la prueba en un estudio reciente de una colección de estudios de usabilidad no publicados
(Sauro y Lewis, 2016).
De acuerdo con (Lazar et al., 2017; Sauro y Lewis, 2016) , los participantes deben
completar el SUS después de haber utilizado el sistema en evaluación pero antes de
cualquier sesión informativa u otra discusión. Las instrucciones para los participantes
deben incluir pedirles que registren su respuesta inmediata a cada elemento en lugar de
pensar demasiado en ellos.
El método de puntuación SUS requiere que los participantes respondan a los 10
elementos de los que consta. Si por algún motivo los participantes no pueden responder
a un elemento, deben seleccionar el punto central de la escala. El primer paso para
anotar un SUS es determinar la contribución de puntaje de cada elemento, que irá de
0 a 4. Para los artículos redactados positivamente (números impares), la contribución
de puntaje es la posición de la escala menos 1 (xi − 1). Para los elementos redactados
negativamente (números pares), la contribución del puntaje es 5 menos la posición de
la escala (5 − xi). Para obtener el puntaje total de SUS, se debe multiplicar la suma de
las contribuciones del puntaje del ítem por 2.5. Por lo tanto, las puntuaciones generales
de SUS oscilan entre 0 y 100 con incrementos de 2.5 puntos.
En un estudio relizado por Tullis y Stetson (2004), donde se comparó los
cuestionarios SUS, CSUQ, QUIS FIDELITY Y WORDS, para saber cuál de estos
arrojaba mejores resultados. De un total de 123 empleados que participaron en el
estudio, asignados al azar a uno de los métodos, que utilizaron para evaluar su
satisfacción después de completar dos tareas en dos sitios Web nancieros. Las tareas
fueron:
15
Encontrar el precio más alto en el último año para una acción de una compañía
especíca.
Encontrar el fondo mutuo con el rendimiento más alto de tres años.
El orden en que los participantes visitaron los sitios Web fue aleatorio. El análisis de
los resultados generales para todos los métodos mostró una preferencia signicativa por
el Sitio 1 sobre el Sitio 2.
Tullis y Stetson (2004) seleccionaron aleatoriamente submuestras de los datos en
tamaños de muestra de 6, 8, 10, 12 y 14 para cada método. Luego investigaron qué
métodos convergieron más rápidamente en la conclusión correcta"sobre la usabilidad
de dos sitios Web en función del tamaño de la muestra (una variable de importancia
práctica para los profesionales de la usabilidad), donde correctos signicaban una prueba
t signicativa de acuerdo con la decisión tomada utilizando el tamaño de muestra total,
el Sitio Web 1 fue más útil que el Sitio 2. Como se muestra en la Figura 2.1.
Figura 2.1: Comparación de cuestionarios de usabilidad (Tullis y Stetson, 2004)
De los cinco métodos evaluados por Tullis y Stetson (2004)), el SUS fue más rápido
en converger en la conclusión nal (correcta) alcanzando el 75 % de acuerdo en un
tamaño de muestra de 8 y un 100 % de acuerdo cuando n = 12. CSUQ (una variante
del PSSUQ) fue la segunda más rápida, alcanzando un 75 % de acuerdo con un tamaño
de muestra de 10 y 90 % de acuerdo cuando n = 12.
En contraste, incluso cuando n = 14, los otros métodos estuvieron abajo del 75 % de
acuerdo con la decisión correcta. Esta es una evidencia convincente para utilizar SUS
16
2.2. Medidas Fisiólogicas
en el experimento exploratorio. Dado que Tullis y Stetson (2004) recomienda, que los
profesionales deberían preferir SUS como un método para evaluar la satisfacción con
la usabilidad, especialmente cuando enfrentan recursos limitados para el tamaño de la
muestra y no tienen necesidad de mediciones multidimensionales.
2.2.1. Generalidades
Está sección sirve como una introducción general al estudio de las respuestas
siológicas, y proporciona una descripción más detallada de algunas de las medidas
más populares. Primeramente, describe las medidas siológicas en contexto, explicando
brevemente su papel exploratorio en el cuerpo humano y cómo se producen. Finalmente,
se proporciona una introducción a algunas de las medidas siológicas más populares,
es decir, la actividad cardiovascular, la conductancia de la piel y la actividad cerebral.
El sistema nervioso humano se puede dividir en un sistema central y uno periférico,
que son responsables de las diferentes partes del cuerpo. El sistema nervioso central
(SNC) incluye la médula espinal y el cerebro, y se puede describir como el centro de
control del cuerpo. La médula espinal es responsable de reejos simples y sirve como
un camino entre el cerebro y otras partes del cuerpo (L. S. L. Hernández, 2016).
El sistema nervioso periférico (SNP) se puede describir como el sistema de
comunicación del cuerpo y actúa principalmente por debajo del nivel de conciencia
(Quintanilla et al., 2017). El SNP es responsable de llevar las señales del SNC al resto
del cuerpo, pero también transere información sensorial de los órganos (por ejemplo,
ojos, oídos y piel) al cerebro, donde se procesa e interpreta. De especial relevancia para
este estudio es el sistema nervioso autónomo (ANS, por sus siglas en inglés), cuya tarea
principal es proporcionar respuestas rápidas y conables a los eventos circundantes,
preparando al cuerpo para la acción apropiada.
17
Figura 2.2: Sistema Simpático
El sistema nervioso simpático (SNS), como se puede observar en la Figura 2.2,
junto al sistema nervioso parasimpático (SNP) conforman el sistema nervioso central
y son responsables de diferentes respuestas corporales. Cuando está completamente
activada, la división simpática de ANS prepara al cuerpo para una crisis que puede
requerir una actividad física repentina e intensa: el corazón y la frecuencia respiratoria
están aumentando, la sudoración es excesiva y la vigilancia aumenta (Quintanilla et al.,
2017). Esto se conoce como la respuesta de lucha o huida", y puede ser experimentado
en situaciones altamente emocionales o estresantes (Quintanilla et al., 2017).
La evidencia de que la siología humana responde a una variedad de eventos
mentales ha estado disponible desde el siglo XIX (Andreassi, 2013). Se ha informado que
la conductancia de la piel, la respiración, la actividad eléctrica cerebral, y la actividad
cardiovascular varían en respuesta a factores como la dicultad de la tarea, los niveles de
atención, las experiencias de frustración y los estímulos emocionales (Andreassi, 2013).
Por lo tanto, se ha propuesto que los datos siológicos podrían ser una herramienta
valiosa para las pruebas de usabilidad, ya que podrían ayudar a identicar elementos y
eventos de relevancia cognitiva o emocional para el usuario (Lazar et al., 2017).
Sin embargo, la integración de medidas siológicas en las pruebas de usabilidad
presenta algunas dicultades inherentes. En primer lugar, la mayoría de los estudios
existentes se han realizado en entornos experimentales estrechamente controlados.
Esto va en contra de uno de los requisitos básicos de las pruebas de usabilidad,
a saber, que las condiciones de prueba deben ser lo más parecidas posible al uso del
18
mundo real". Por lo tanto, si se deben aplicar medidas siológicas a las condiciones
menos controladas de las pruebas de usabilidad, se debe tener cuidado en el diseño de
los procedimientos de prueba (Ward y Marsden, 2003).
Otro desafío reside en la interpretación de los datos, ya que se puede observar
el mismo tipo de respuestas siológicas para diferentes estados mentales, como la
frustración, la sorpresa o el aumento del esfuerzo cognitivo (Andreassi, 2013). Por
lo tanto, una interpretación correcta requiere conocimiento del contexto en el que se
obtuvieron los datos. Para comprender mejor los resultados, es aconsejable registrar
observaciones adicionales junto con las mediciones siológicas, como los comentarios,
las conductas observadas y las valoraciones subjetivas de los eventos (Lazar et al., 2017).
2.2.2. Medidas Fisiológicas Comunes

Las señales siológicas medibles y comúnmente usadas para este tipo de investiga-
ciones son:
Actividad Cardiovascular.
Actividad Electrodérmica.
Actividad Cerebral.
2.2.2.1. Actividad Cardiovascular
La actividad cardiovascular se reere a la actividad del corazón e incluye parámetros
como el ritmo cardíaco (en inglésHeart Rate -HR), la variabilidad del ritmo cardíaco (en
inglés Heart Rate Variability -HRV), y el volumen de pulso sanguíneo (en inglés Blood
Volume Pulse -BPV).

A lo largo de todo el organismo existe una red de vasos sanguineos, donde la sangre
circula continuamente gracias a la fuerza de contracción del corazón. Un ciclo cardíaco
comprende tres periodos: un periodo de contracción llamado sístole, un periodo de
dilatación llamado diástole y un periodo de recuperación. El ritmo cardíaco ( HR )
es una sucesión de sístoles y diástoles de la musculatura del corazón. Suponiendo este
rango de valores, el tiempo necesario para un ciclo cardíaco es de 0.8 segundos y la
19
mitad de estos, 0.4 segundos, representa la fase de reposo. En condiciones normales la
musculatura se contrae con un ritmo de 70 a 75 contracciones por minuto. (Rodriguez,
2016; Quintanilla et al., 2017; Correo, 2014).
La variación del ritmo cardíaco (VRC) se presenta a causa de cambios cíclicos de la
actividad cardíaca. La VRC se obtiene a partir de la medición de intervalos entre los
latidos del corazón y durante un periodo de tiempo y las diferencias de duración de los
latidos, se traducen en cambios del ritmo cardíaco.
El volumen de pulso sanguíneo (BVP) se presenta a causa de los cambios relativos
de volumen sanguíneo en las venas del dedo índice. Esta medida indica la cantidad de
sangre que circula actualmente en las venas, lo cual permite calcular la vasoconstrucción,
la dilatación vascular, el ritmo cardíaco y la hipovolemia.
Según Muñoz y Nureibis (2014), si los niveles de volumen de pulso sanguíneo o de
vasoconstricción son altos se puede estar en estados de furia o estrés, si los valores se
reducen, se puede estar en estado de relajación o tristeza.
Existen dos formas comunes de medir la actividad cardiovascular: Electrocardiogra-
ma (ECG, por sus siglas en inglés) y Fotopletismografía (PPG, por sus siglas en inglés)
(Rodriguez, 2016). El ECG mide el pulso eléctrico producido por el corazón cada vez
que se contrae para bombear sangre. Este método requiere al menos tres electrodos,
que se pueden unir en ambos brazos, ambas piernas o encima del pecho. La colocación
del brazo o la pierna se considera más práctica para el área de Interacción Humano
Computadora (IHC), pero la distancia al corazón hace que la señal sea más vulnerable
al ruido causado, por ejemplo, por el movimiento corporal o la actividad de un órgano
interno.
2.2.3. Actividad Electrodérmica
La piel proporciona protección al cuerpo humano de cambios de temperatura,
agentes químicos o biológicos ajenos al organismo. Por otra parte, tiene la capacidad de
dar información del entorno ya que obtiene información de la temperatura ambiental,
el tacto y el dolor (Carranza y Gajardo, 2009).
20
Figura 2.3: Capas de la piel humana (Carranza y Gajardo, 2009)
La piel se conforma de varias capas: la epidermis, la dermis y la hipodermis (ver
Figura 2.3). La epidermis es la capa más externa y contiene varias capas de piel
sobrepuestas, algunas veces pueden incluir células muertas (Correo, 2014).
Después de la epidermis se encuentra la dermis, la cual es más sensible a la capa
anterior debido a que contiene más terminales nerviosas y numerosos vasos sanguíneos.
Finalmente se encuentra la hipodermis es grasa que protege al cuerpo contra
impactos. Más profundamente, se encuentran las glándulas sudoríparas ecrinas que
regulan la temperatura corporal a través del sudor. Esta capa actúa como una interfaz
entre la piel y los órganos como los huesos o los músculos (Correo, 2014). Sin embargo,
la piel puede contener un gran número de glándulas sudoríparas, hay un mayor número
de éstas en las palmas de las manos, en los pies, las axilas y la frente (Correo, 2014).
la electrodermografía es normalmente utilizada para medir la actividad eléctrica de la
piel, dado que observa los cambios de las glándulas sudoríparas (Carranza y Gajardo,
2009; Correo, 2014).
La electrodermografía mide el voltaje de región con concentración de glándulas
sudoríparas con respecto de una región de menor concentración, los valores obtenidos
de este método se miden en µV .
21
2.2.4. Actividad Eléctrica Cerebral

El encéfalo es un organo que controla y regula distintas funciones en el cuerpo tales
como la respiración, la vista, el tacto y el movimiento. Esta contenido en el craneo y
se divide en tres partes: el tronco cerebral, el cerebelo y el cerebro, en cuya supercie
externa es conocida como corteza cerebral. En donde se origina la actividad electrica
que está formada por biopotenciales. Estas señales eléctricas son de naturaleza iónica
y son espontáneas. La actividad eléctrica se propaga a través del tejido circundante y
se detecta con los electrodos que cumplen la función de transductores, convirtiendo las
corrientes iónicas en corrientes electricas, para su posterior procesamiento (Moreno y
Reiriz, 2012).
La electroencefalografía (EEG, por sus siglas en inglés) es una técnica que sirve
para caracterizar la actividad eléctrica del cerebro. En la actualidad existe un creciente
interés en el desarrollo de técnicas digitales de procesamiento para interpretar dichas
señales, estas técnicas consisten en transformar la información contenida en las señales
de EEG en datos numéricos y/o grácos que faciliten su análisis y sistematización
(Moreno y Reiriz, 2012).
2.3. Usabilidad y Señales Fisiológicas

Actualmente existen pocas investigaciones que hacen uso de medidas siológicas en
un contexto de usabilidad. Estas se presentan a continuación.
2.3.1. Trabajo de Lin et al. (2005)

Lin et al. (2005) presentan un experimento en el cual estudiantes universitarios
realizaron tareas lo más rápido y correcto posible al jugar un videojuego continuamente
por diez minutos. GSR, BVP y HRV fueron utilizadas como medidas siológicas. Para
la medición de GSR dos sensores fueron colocados en los dedos de la mano izquierda.
Para BVP y HR se midieron simultáneamente usando un sensor en los dedos de la mano
derecha de cada participante, por lo que que no debía mover los dedos ni las manos para
no interferir con los datos recogidos por el sensor, la Figura 2.4 muestra el experimento.
22
Figura 2.4: Escena del experimento de Lin et al. (2005)
El estudio tuvo varios resultados. Primero, las medidas de BVP y de HRV no fueron
de utilidad en el estudio, debido a que eran sensibles al movimiento. Segundo, se tuvo
evidencia que la señal GSR está relacionada con el nivel de dicultad de la tarea, pero
no es posible concluir una relación causa-efecto. Finalmente, se pudo observar que las
medidas siológicas son consistentes con medidas subjetivas y muestran una sensibilidad
signicativa a los cambios en niveles de estrés.
Los hallazgos sugieren que los diferentes niveles de rendimiento de la tarea pueden
estar relacionados con datos siológicos. Además, la mayoría de los eventos de
frustración produjeron respuestas siológicas notables y los participantes con bajo
rendimiento tendieron a experimentar más eventos de frustración. El pobre rendimiento
de la tarea y la mayor respuesta siológica podrían atribuirse a estos eventos de
frustración. Estos resultados muestran el valor potencial de los datos siológicos como
una fuente de datos para la evaluación de usabilidad.
Los datos siológicos no solo proporcionan una forma de medir objetivamente las
inversiones psicosiológicas y permiten evaluar la usabilidad a un nivel más detallado,
sino que también proporcionan algunas pistas para explicar las diferencias en el
rendimiento de la tarea. Este estudio da un paso inicial hacia el establecimiento de
la evaluación de usabilidad que utiliza la siología como una medida complementaria
o como una medida independiente para la evaluación de la Interacción Humano
Computadora.
23
2.3.2. Trabajo de Sperry y Fernandez (2008)
En un estudio similar, Sperry y Fernandez (2008) maniestan que las medidas
tradicionales empleadas en las pruebas de usabilidad son inherentemente subjetivas, y
que es necesario desarrollar un método objetivo para evaluar la usabilidad de un sistema.
Este trabajo describe un proyecto que utilizó el análisis siológico para cuanticar la
facilidad de uso de un sitio Web, concentrándose especícamente en el efecto de las
combinaciones de colores en los procesos corporales del usuario. Las pruebas realizadas
revelaron que existe una correlación denida entre los resultados del análisis siológico
y las encuestas subjetivas de satisfacción del usuario. Por lo tanto, los resultados del
análisis siológico se pueden utilizar en lugar de los valores articiales para evaluar la
usabilidad de un sistema.
Sperry y Fernandez (2008), al igual que Lin et al. (2005), establecieron una línea
de base para propósitos de comparación entre el estado inicial del HR y el estado
nal. En consecuencia, cada sujeto experimentó primero una prueba de referencia de 30
segundos. Durante este tiempo, el sistema simplemente grabó datos mientras el sujeto
miraba una imagen mostrada en el escritorio de la computadora portátil personal. Para
obtener resultados acerca de la satisfacción subjetiva utilizaron un cuestionario aplicado
al nal de la prueba.
Los sensores fueron colocados en los dedos de la mano izquierda de cada participante.
Especícamente, un sensor BVP se ajustó en el dedo medio a través de una abrazadera,
mientras que los sensores GSR se sujetaron con velcro a los dedos anulares, la Figura
2.5 muestra la escena del experimento.
24
Figura 2.5: Escena del experimento de Sperry y Fernandez (2008)
El análisis estadístico de los datos comparó el promedio y la desviación de la línea
base inicial del HR y GSR con el promedio durante la prueba. Los autores identicaron
que, aunque toda la investigación parece indicar que la frecuencia cardíaca aumenta
con el estrés mental, la mayoría de las diferencias con respecto al cuestionario subjetivo
fueron todo lo contrario ya que algunos usuarios expresaron que podían leer bien
utilizando fondo animado y letra de color blanco, pero al comparar con los datos
siológicos estos mostraban todo lo contrario, se puede suponer que la legibilidad
del texto sí afecta la siología de un usuario al visualizar un sistema, al aumentar
la frecuencia cardíaca y la conductancia de la piel.
2.3.3. Trabajo de Forne (2012)

Forne (2012) realizó una investigación que proporciona evidencia de que el
procesamiento cognitivo y emocional está asociado con cambios siológicos en el
cuerpo humano, y que afectan parámetros como la VFC, HRV, GSR, EEG y el
tamaño de la pupila. El problema, sin embargo, es que las MF no solo capturan los
cambios relacionados con la cognición y las emociones humanas, sino que pueden
estar inuenciadas por un gran número de variables, como la postura corporal, los
25
niveles hormonales y los aspectos ambientales (como la temperatura ambiente), equipos
eléctricos y condiciones de iluminación).
Antes de recolectar los datos, Forne (2012) sugiere que deben eliminarse todos los
factores que pueden provocar una interferencia no deseada en los resultados, y que una
vez recopilados los datos, los investigadores deberían reconsiderar si hay lugar para
interpretaciones alternativas. En este caso sugiere incluir un método llamado Pensando
en Voz Alta (RTA, por sus siglas en ingles) para sincronizarlo con estudios de MF. De
este modo, combinando datos siológicos con la interacción del usuario, tal vez se podrá
estar un poco más cerca de comprender la experiencia de usuario.
El estudio fue diseñado en Tobii Studio, una herramienta de software dedicada al
diseño, grabación y análisis de datos de seguimiento de ojos. Los estímulos cognitivos
y afectivos se presentaron como videoclips, el escenario de la prueba se puede ver en la
Figura 2.6
Figura 2.6: Escena del experimento de Forne (2012)
El estudio consistió en dos partes, una en la que los sujetos realizaban problemas
matemáticos simples (tarea cognitiva) y otra en la que se enfrentaban con imágenes
emocionalmente tonicadas (estímulos afectivos). A cada imagen de la base de datos
se le asignaron índices de valencia y excitación, en una escala de 1 a 100. A los
participantes se les dio 10 segundos para resolver cada problema, después del cual
26
el siguiente problema apareció automáticamente. Una vez (y si) lograron encontrar
una solución, los sujetos recibieron instrucciones de decirlo en voz alta. Los datos de
rendimiento podrían ser utilizados para vericar las supuestas variaciones de dicultad
entre las diferentes subtareas.
De igual forma, estableció una línea base para propósitos de comparación entre el
estado inicial del HR y el estado nal para comparar la media y la desviación estándar
con los momentos de cada tarea grabados en el videoclip.
2.3.4. Trabajo de Yao et al. (2014)
Yao et al. (2014) realizaron una investigación sobre medición de la experiencia del
usuario (UX), expresando que la mayoría de este tipo de investigaciones se basan
principalmente en el rendimiento de la tarea y datos de cuestionarios respondidos
por usuarios. Por otro lado, demostraron que las MF son buenos indicadores de la
participación cognitiva y la excitación emocional y sugieren que se incluyan las MF en
el proceso de evaluación UX. En el experimento realizado, se recogieron y analizaron
los datos siológicos de los participantes, el rendimiento de la tarea y los datos de un
cuestionario (CSUQ).
En particular, encontraron que las MF variaban con el rendimiento de la tarea, ya
que los participantes mostraban un mayor cambio en la respuesta GSR en las tareas
fallidas que en las tareas exitosas. Los autores midieron GSR y BVP directamente
mediante sensores colocados en los dedos izquierdos. La respiración se midió usando un
sensor colocado alrededor del tórax. El HR se calculó a partir de los datos del sensor
rawBVP. Todos los datos fueron recolectados a 64 HZ. Como el sensor BVP se movía
demasiado, se les pidió a los participantes que no movieran la mano izquierda. Cabe
señalar que los datos EEG y los datos de expresión facial también se recogieron. El
escenario de la prueba se puede ver en la Figura 2.7
27
Figura 2.7: Escena del experimento de Yao et al. (2014)
Las señales GSR, BVP, HR y frecuencia respiratoria fueron normalizadas en cada
tarea usando la fórmula:
LineaBaseF inal − LineaBaseInicial
Todos los cálculos estadísticos (media, desviación estándar) se realizaron utilizando el
software SPSS 20.0 para realizar correlación entre las distintas señales y los atributos
objetivo que utilizaron (Atractivo, Perspicacia, Eciencia, Conabilidad, Estimulación
y Novedad)
Los autores explican que los resultados del experimento dependen de la experiencia
de interacción de los usuarios con los productos y que las señales varían mucho según
el contexto y las medidas siológicas y que estas son sensibles al movimiento, por lo
que deben extenderse a un contexto más válido y tomar en cuenta una variedad de
tareas. Además, ellos encontraron correlaciones entre GSR y los datos del cuestionario
de la experiencia del usuario. Los resultados demostraron el valor potencial de las
MF como una fuente de datos para la evaluación de la experiencia del usuario. Sin
embargo, expresan que se requieren más investigaciones que involucren variaciones en
las tareas, así como sensores menos invasivos ya que uno de los problemas fue también
la sincronización.
28
2.3.5. Trabajo de J. Hernández (2015)

J. Hernández (2015) propone una metodología que ayuda a la evaluación de
usabilidad. Está metodología incluye MF y el Seguimiento de la mirada (SM) para
extraer información cuantitativa en tiempo real. El caso de estudio que presenta es
en relación a recomendaciones de usabilidad en sitios Web donde se analizaron 124
sitios respecto a accesibilidad. Las MF utilizadas fueron GSR, HRV, electromiografía
del corrugador, el zigomático (EMGc y EMGz) y el SM. El escenario de la prueba se
puede ver en la Figura 2.8.
Figura 2.8: Escena del experimento de J. Hernández (2015)
El estudio concluye que el componente estético y el diseño adecuado está relacionado
con GSR, ya que la HRV está relacionada con el estado emocional que presenta el usuario
al momento de la interacción, y que las MF y el SM permiten complementar y mejorar
la información aportada mediante cuestionarios, la tasa de nalización de la tarea o el
tiempo para esto. J. Hernández (2015) indica que hay que asegurar los electrodos para
tener un buen contacto con la piel, y que es muy importante para obtener registros
superciales de calidad: amplitud sudiciente, eliminar interferencias eléctricas, reducir
el riesgo de desequilibrio entre los electrodos y reducir el ruido. Por lo cual, utilizó crema
conductora para mejorar la conductividad y se jaron los electrodos con esparadrapo
hipo-alergénico y transpirable.
29
J. Hernández (2015) analizó los datos obtenidos provenientes de cuestionarios,
medida de tiempos, nalización de la tarea, respuesta siológica (GSR, HRV, EMGc,
EMGz y SM). Para ello se realizó un modelo común con los siguientes factores: las
7 recomendaciones de usabilidad, la sesión, la repetición, la presencia de limitación
motora(perl de usuario) y la interacción de ésta con el resto de factores. Además,
realizó un análisis de correlaciones entre los factores y las variables subjetivas generales
para denir un modelo de usabilidad, asignando una calicación a las MF ligadas a una
pregunta del cuestionario utilizado.
Así mismo, el autor expresa que para asegurar un buen contacto entre el electrodo
y la piel en toda su prueba y asegurar obtener datos de calidad, es necesario utilizar
crema conductora para mejorar la conductividad. Fijó los electrodos con esparadrapo
hipo-alergénico para evitar que los electrodos se mojaran con el sudor. Además, pidió al
participante quitarse la playera para poder colocar los electrodos, así como que hablara
durante la prueba.
2.3.6. Trabajo de Udovivic et al. (2017)

Udovivic et al. (2017) decidieron trabajar con las señales GSR y BVP debido
a la idoneidad para la implementación en un dispositivo simple para recopilar
señales sin comprometer la comodidad y la privacidad. Para este propósito, utilizó el
sensor Shimmer3 ligero, pequeño y compacto. Desarrolló una aplicación completa con
almacenamiento en una base de datos para clasicar las emociones de los participantes
utilizando imágenes. El escenario de la prueba se puede ver en la Figura 2.9.
Figura 2.9: Escena del experimento de Udovivic et al. (2017)
30
2.4. Resumen
En el post-procesamiento, utilizó los parámetros estadísticos típicos (media,
desviación estándar, valor mínimo, valor máximo y el tiempo) como características y la
máquina de soporte vectorial (SVM, por sus siglas en inglés) y k vecinos más cercanos
(KNN, por sus siglas en inglés) como clasicadores.
Realizaron un modelo de clasicación de emociones para un solo usuario y
multiusuario para comparar los resultados. Reportaron que obtuvo mejores valores
promedio en KNN utilizando los parámetros estadísticos típicos.
El experimento consistió en visualizar imágenes de cuatro categorías, malos tratos
a los animales (A), preocupaciones humanas (H), neutrales"(N), positivas (P),
serpientes (SN) y arañas (SP). Estas imágenes se dividieron en cuatro carpetas
(A, H, SP y SN) son emocionalmente negativas y las otras dos carpetas (N y
P). Goran utilizó Clasicadores KNN y SVM y su implementación se realizó utilizando
Matlab.
Un participante se estableció como el conjunto de datos de prueba y el resto se
usaron para entrenamiento y validación. Luego, el modelo de clasicación se creó para
el conjunto de datos de entrenamiento y el conjunto de datos de prueba se clasicó
utilizando este modelo para evaluar la precisión.
Este proceso se repitió 9 veces usando diferentes sujetos como conjuntos de datos
de prueba, hasta que las 10 sesiones se usaron como conjuntos de datos de prueba. La
precisión total para el modelo después de haber aplicado KNN obtuvo 86.7 % y para
SVM 80.5 % Udovivic et al. (2017) concluyen que es mas rápido y mejor utilizar KNN,
pero que es un tema que depende del contexto de uso.
2.4. Resumen
En este capítulo se denieron los tópicos relevantes para este trabajo de tesis,
tales como la usabilidad y sus técnicas de evaluación, las generalidades de las medidas
siológicas así como las más utilizadas en el ámbito de usabilidad. En cada denición se
describieron características particulares de cada tema, y se especicaron los elementos
importantes de cada uno para esta investigación.
Así mismo, se describieron seis trabajos que utilizan MF para tratar de relacionarlas
con atributos de usabilidad al igual que este tema de investigación. Sin embargo, estos
31
trabajos proponen puntos importantes a considerar como Lin et al. (2005) quienes
son unos de los pioneros en este tipo de investigaciones, quienes arman que las
medidas siológicas son consistentes con medidas subjetivas y muestran una sensibilidad
signicativa a los cambios en niveles de estrés. Porque dependiendo de la dicultad de
la tarea la señal siológica aumentaba o decrementaba. Aunque no pudo concluir una
relación causa-efecto.
Por otro lado, el trabajo de Sperry y Fernandez (2008), dene una forma sencilla de
medir la variación de la señal siológica cuando el participante realiza una tarea. Estos
autores restan la línea base de la señal después de realizar la tarea con la línea base
antes de realizarla. A lo que concluye que en toda la investigación parece indicar que
la frecuencia cardíaca aumenta con el estrés mental que experimenta el participante al
realizar una tarea. De este trabajo se observa que es importante considerar la línea base
antes de iniciar la prueba.
De igual forma Forne (2012), realizó una investigación que proporciona evidencia de
que el procesamiento cognitivo y emocional está asociado con cambios siológicos en el
cuerpo humano, y que afectan parámetros como la VFC, HRV, GSR, EEG y el tamaño
de la pupila. Además, indica que una forma de causar mayores niveles de activación es
realizando tareas más complejas, al igual, sugiere que la desviación estándar es un buen
elemento a considerar.
Posteriormente, Yao et al. (2014) encontraron que las MF variaban con el
rendimiento de la tarea, ya que los participantes mostraban un mayor cambio en la
respuesta galvánica de la piel (GSR) en las tareas fallidas que en las tareas exitosas.
Los resultados demostraron el valor potencial de las MF como una fuente de
datos para la evaluación de la experiencia del usuario. Sin embargo, se requieren más
investigaciones que involucren variaciones en las tareas y considera que es necesario
utilizar sensores que intereran menos con la actividad del usuario.
Como se observa, la mayoría de las investigaciones que se describieron anteriormente
hacen una propuesta para analizar los datos de las MF después de haber participado
en la prueba, estas investigaciones utilizan parámetros estadísticos comunes, estos
parámetros ayudan a obtener la linea base antes de iniciar la prueba para compararlos
con la MF nal para observar que tanto cambió al realizar algunas tareas en la interfaz.
Dado el contexto anterior, esta investigación pretende integrar alguna técnica de
aprendizaje automático como la investigación de Udovivic et al. (2017), que aunque no
32
2.4. Resumen
está orientada al contexto de usabilidad, clasica la excitación y la valencia del usuario
mediante MF y algoritmos de aprendizaje automático, y expresan que obtuvieron
buenos resultados en la predicción de emociones. El proceso que realizaron fue primero
pasar el conjunto de entrenamiento y prueba para generar el modelo, después para su
validación utilizaron una matriz de confusión y validación cruzada.
Finalmente expresan que es viable utilizar técnicas de aprendizaje automático
junto a MF. De esta investigación se puede recuperar la utilización de los parámetros
estadísticos (media, desviación estándar, valor mínimo, valor máximo y el tiempo) como
características y las técnicas para el procesamiento de datos.
Por otra parte, se puede observar que cada una de estas investigaciones indica que
los sensores modican la interacción normal de los participantes y que es necesario
buscar otras opciones para mejorar esto.
Por tal motivo, se detectó la necesidad de utilizar sensores menos invasivos en este
caso se decidió utilizar un smartwath que según Shahmohammadi et al. (2017) expresan
que a diferencia de los teléfonos inteligentes que son voluminosos y no siempre usados
por el individuo durante comportamientos de interés como el ejercicio, los SmartWatch
pueden fácilmente ser usados durante altos niveles de actividad para proporcionar
detección de información sin interferir directamente con sus actividades, y considerando
que no se detectaron propuestas en la literatura que logren unir las MF y una medida
de usabilidad en este trabajo se propone una forma para lograrlo.
33
Capítulo 3
Marco Metodológico
A continuación se describen el diseño experimental, los participantes y materiales
empleados en la presente tesis, En segundo lugar, se presenta el procedimiento de la
recolección y análisis de datos.
3.1. Diseño experimental
Se llevó a cabo un experimento para obtener el ritmo cardiaco de los participantes
en una prueba de usabilidad, para ello se contaba con dos interfaces, una donde se
podía realizar consultas SQL de manera gráca y la segunda donde podían realizar las
mismas consultas a la base datos por línea de comandos.
Considerando que los sensores presentados en el Capitulo 2 intereren con la
realización de la tarea de forma natural y esto a su vez puede generar ruido en la
obtención de la señal, se decidió usar un smartwath que pudiera tener la capacidad de
reducir este problema.
Cada uno de los 14 participantes realizó tres tareas en las dos interfaces. Luego
de cada prueba contestaron un cuestionario SUS que sirvió para asociar la respuesta
subjetiva con el ritmo cardiaco de cada participante.
35
Capítulo 3. Marco Metodológico
3.2. Participantes
En este estudio participaron catorce (14) estudiantes de la Universidad Veracruzana
de entre 23 y 28 años. De esos 14, siete son mujeres y siete son hombres. Los participantes
usan la computadora diariamente y cuentan con experiencia en lenguaje estructurado

1
de consultas (SQL, ). La Figura 3.1 muestra algunos de los participantes.
Figura 3.1: Participantes en la prueba
Cabe señalar que para obtener los datos demográcos de los participantes se
les aplicó un cuestionario (ver apendice A.1). Para conocer la experiencia de los
participantes con SQL, se aplicó otro cuestionario (ver apéndice A.2) con 5 preguntas
para recopilar esta información. Para cada pregunta, hubo 4 respuestas diferentes, entre
las cuales el participante tuvo que elegir solo una. El cuestionario ofrece una evaluación
porcentual (de 0 a 100 %), asignando 20 puntos por cada respuesta correcta. Como
resultado, se obtuvo que el 71 % de los participantes tenía un alto nivel de experiencia
con SQL, mientras que el 29 % tenía un nivel medio de experiencia.
3.3. Materiales
Se usaron diferentes materiales en este estudio: tanto de hardware (smartwatch)
como de software (dos prototipos de interfaces de usuario, una aplicación para registrar
datos del smartwatch y otra para visualizar grácamente los datos), una lista de tareas
que debían realizar los participantes y un cuestionario para medir usabilidad. Estos se
describen a continuación.
1 Siglas en inglés de Structured Query Language
36
3.3. Materiales
3.3.1. Sensor SmartWatch y Aplicación
Se han realizado pocos estudios que se hayan centrado en utilizar los SmartWatch
(Shahmohammadi et al., 2017). La falta de atención hacia estos dispositivos puede ser
debido a varias razones. Primero, no ha sido hasta los últimos años que los SmartWatch
se han vuelto populares entre el público en general (Rawassizadeh et al., 2014) y
segundo, Rawassizadeh et al. (2014) expresa que los smartwatches se han limitado
en términos de poder de cómputo y duración de la batería. Para registrar el HR de
los participantes, se utilizó un smartwatch GEAR S2 de Samsung R con las siguientes
características (ver en Tabla 3.1) que ayuda a romper la limitante expresada por
Rawassizadeh et al. (2014).
Tabla 3.1: Caracteristicas de smartwatch GEAR S2 Samsung R
Hardware Descripción
Pantalla circular de 1.2"sAMOLED 360 x 360 (302 ppi)
Procesador Qualcomm Snapdragon 400 1.7 Ghz
Memoria Interna 4GB
RAM 512 MB
Conectividad Bluetooth 4.1, Wi-Fi 802.11n, NFC
sensores Acelerómetro, giroscopio,monitor de ritmo
Protección IP68
Compatibilidad Android 4.3 y versiones posteriores con más de 1.5 GB de RAM.
Este dispositivo puede detectar el HR del usuario cuando se coloca en su muñeca,
por lo que no es invasivo. Según Free et al. (2010), un smartwath está presente en
muchos lugares y situaciones normales para un usuario.
37
Figura 3.2: SmartWatch Gear S2 Figura 3.3: Aplicación para Medir
samsung R HR
Además, a diferencia de los teléfonos inteligentes que son voluminosos y no siempre
usados por el individuo durante comportamientos de interés como el ejercicio, los
SmartWatches pueden fácilmente ser usados durante altos niveles de actividad para
proporcionar detección de información más allá de la acelerometría, como la frecuencia
cardíaca, a diferencia de los sensores mencionados en la sección 2 que no tienen esta
característica. La Figura 3.2 muestra el dispositivo y la Figura 3.3 muestra la aplicación
que fue desarrollada para medir el HR del participante.
3.3.2. Software para Visualizar el HR

Este software fue desarrollado para generar grácos como el de la Figura 3.4 a partir
de los datos recopilados por el SmartWatch. Con él se puede observar el HR de cada
uno de los participantes de manera gráca.
Figura 3.4: Software para Visualizar HR de los Participantes
38
3.3. Materiales
3.3.3. Interfaces Prototipo

Para este experimento se implementaron dos interfaces para escribir y ejecutar
consultas en SQL: una Interfaz de consulta visual (VQI) y una Interfaz de consulta
de línea de comandos (CLQI). La VQI (ver Figura 3.5) tiene elementos grácos que
permiten al usuario construir una consulta de acuerdo con la sintaxis de SQL. Las
consultas que se pueden realizar van desde un Select-From-Where básico hasta un Inner
Join. Una vez formada una consulta, el usuario puede enviarla a ejecución a un sistema
manejador de bases de datos.
Figura 3.5: Interfaz de Consulta Visual (VQI)
Por otro lado, la CLQI, que se muestra en la Figura 3.6, permite al usuario escribir
expresiones SQL en modo comando y los envia a un servidor de base de datos para
obtener resultados. Esta interfaz tiene dos botones, uno para ejecutar consultas y el
otro para cancelarlas.
3.3.4. Lista de Tareas

Para la interacción del participante con las dos interfaces (VQI y CLQI), se
denieron las tareas descritas en la Tabla 3.2.
39
Figura 3.6: Interfaz de Consulta por Linea de Comandos (CLQI)
Tabla 3.2: Tareas realizadas por los participantes
Tarea Descripción
T1 Seleccionar nombre, apellido y fecha de nacimiento de los estudiantes de nombre EDGAR
T2 Seleccionar todos los estudiantes nacidos antes de 1992-05- 01;
T3 Seleccionar de la tabla Notas las calicaciones que corresponden a cada alumno en la tabla Alumno
Dadas estas tareas, los usuarios debían ejecutarlas utilizando los elementos grácos
en VQI y línea de comandos SQL en CLQI.
3.3.5. Cuestionario SUS

La Escala de Usabilidad de un Sistema (SUS por sus siglas en inglés System
Usability Scale) es una herramienta que se usa para medir la usabilidad de un sistema.
Aunque esta escala es simple de usar, diferentes pruebas y tests han demostrado que los
resultados obtenidos a partir de la misma suelen ser conables y acertados, razón por
la cual es uno de los métodos de medición de usabilidad más utilizados en Experiencia
40
3.4. Procedimiento de recolección de datos
de Usuario. El cuestionario SUS se puede ver en apéndice A.2. El porcentaje asignado
para el puntaje obtenido del cuestionario se puede ver en la Figura 3.7.
Figura 3.7: Porcentaje para el puntaje valor del cuestionario SUS
3.4. Procedimiento de recolección de datos

El protocolo que se siguió con los participantes se dividió en cuatro fases como en
(Lin et al., 2005): fase de bienvenida, fase inicial, fase de ejecución y fase nal.
Durante la fase de bienvenida, cada participante rmó un formulario de consenti-
miento con una descripción detallada del experimento, su duración y su propósito de
investigación. Los participantes también respondieron el cuestionario sobre la experien-
cia SQL.
Durante la fase inicial, las instrucciones fueron leídas a cada participante y se le
permitió practicar durante aproximadamente dos minutos.
41
Al comienzo de la fase de ejecución, el SmartWatch se colocó en la muñeca izquierda

del participante para luego registrar el HR durante un descanso de dos minutos para
obtener una línea base de referencia (Sperry y Fernandez, 2008). Posteriormente, los
participantes hicieron las tres tareas usando cada interfaz. Después de completar una
tarea, cada participante tenía aproximadamente 5 minutos para descansar.
En la fase nal del estudio, los participantes completaron un cuestionario SUS por
cada interfaz para evaluar su usabilidad.
3.5. Procedimiento de análisis de datos

Para analizar los datos, se optó por utilizar árboles de clasicación, particularmente
tipo CART. Esta técnica utiliza datos históricos para construir árboles de clasicación
o de regresión los cuales son usados para clasicar o predecir nuevos datos. CART
pueden manipular fácilmente variables numéricas y/o categóricas. Para la aplicación de
la clasicación se realizó un programa en Python utilizando la libreria Pedregosa et al.
(2011).
La Figura 3.8 muestra las librerías utilizadas
Figura 3.8: Librerias utilizadas (Pedregosa et al., 2011)
La gura 3.9 muestra como se cargó el conjunto de datos proveniente de un archivo
.csv, para después construir un tipo de tabla utilizando las librerías pandas y numpy,
que ayuda en el análisis de datos y proporcionan estructuras de datos exibles.
En la Figura 3.10, la variable predictors es el conjunto de variables que nos
proporcionan información y la variable targets es la variable clase, como se puede
ver en la linea 20 se separan los datos en entrenamiento y prueba. Se instancia la
clase del árbol de clasicación y se dene la profundidad para que el modelo sea más
42
3.5. Procedimiento de análisis de datos
Figura 3.9: Separación de datos entrenamiento y prueba
preciso, y evitar el sobreajuste. Esto se debe a que dejamos crecer el árbol hasta que
cada hoja estuviera pura (es decir que solo contenga datos de una sola clase a predecir).
Una alternativa para reducir el sobreajuste y ver si podemos lograr que generalice
mejor y por tanto tenga más precisión para datos nunca vistos, es tratar de reducir la
complejidad del modelo por medio de controlar la profundidad que puede alcanzar el
árbol de decisión. Además, se muestra la precisión y exactitud del conjunto de datos
de entrenamiento y prueba. Finalmente, para validar el modelo se utiliza validación
cruzada para evaluar los resultados del análisis estadístico.
Figura 3.10: Creación del modelo y validación
43
La Figura 3.11 muestra la forma en la que se genera grácamente el árbol con el
conjunto de estadísticas para verlo de manera gráca, esto se realizó con la ayuda de
la librería graphviz.
Figura 3.11: Impresión árbol de Clasicación
Para generar un árbol de decisión, el algoritmo parte de un conjunto de elementos,
cada uno de estos etiquetados por un valor de la clase. Se hace entonces necesario
pre-procesar los datos para obtener los datos de entrada requeridos. En cuanto a los
datos del ritmo cardiaco, en este trabajo se trataron como series temporales. Cada
serie representa el ritmo cardiaco de un usuario en la realización de las 3 tareas en una
interfaz determinada. Se le extrajeron características para representarlos, que en este
caso fueron mediciones estadísticas como: media, desviación estándar, mínimo, máximo
y tiempo de la serie. Se decidió obtener estas características porque las investigaciones
que utilizan medidas siologicas (Wagner et al., 2005; Sperry y Fernandez, 2008; Lazar
et al., 2017) las utilizan.
A cada serie, representada por los atributos antes señalados, se le asoció un valor de
clase, que fue el resultado de la evaluación de usabilidad del participante para la interfaz
dada. Se decidió transformar los datos provenientes del cuestionario SUS en valores
categóricos, de acuerdo a la escala propuesta por Sauro y Lewis (2016) y mostrada en
la Tabla 3.3.
Tabla 3.3: Escala de calicación de puntaje SUS de (Sauro y Lewis, 2016)
Puntaje SUS Escala Sauro y Lewis (2016) Puntaje SUS Escala Sauro y Lewis (2016)
84.1-100 A+ 71.1-72.5 C+
80.8-84 A 65-71 C
78.9-80.7 A- 62.7-64.9 C-
77.2-78.8 B+ 51.7-62.6 D
74.1-77-1 B 0-51.7 F
72.6-74 B-
44
3.6. Resumen
3.6. Resumen
En este capítulo se describieron los elementos de un experimento para obtener
el ritmo cardiaco de los participantes en una prueba de usabilidad, para esto se
desarrollaron dos interfaces donde los participantes de la prueba podían realizar
consultas SQL utilizando los elementos grácos disponibles en la interfaz y la segunda
donde podían realizar las mismas consultas a la base datos por línea de comandos.
Del mismo modo, se desarrolló una aplicación para enviar los datos del ritmo cardiaco
obtenidos por reloj a una base de datos donde eran almacenados. Cabe señalar que se
obtuvieron datos demográcos de los participantes y a su vez otro cuestinario donde
se obtenía el grado de experiencia con SQL. Por otro lado, se desarrolló una aplicación
Web donde se podía visualizar los datos en forma de grácas. Esto se realizó para que
se pudiera observar el comportamiento del ritmo cardíaco segundo a segundo.
Cada uno de los 14 participantes realizó tres tareas en las dos interfaces. Luego de
cada prueba contestó un cuestionario SUS qué sirvió para asociar la respuesta subjetiva
con el ritmo cardiaco de cada participante. La calicación de usabilidad como ya se dijo
anteriormente se transformó el valor que arrojaba SUS en valores categóricos propuestos
por Sauro y Lewis (2016), estos valores pasaron a formar parte del conjunto de datos,
así como las estadísticas básicas. El conjunto de datos generado fue cargado al árbol de
clasicación para generar y predecir nuevos datos.
45
Capítulo 4
Resultados y discusión
En este capítulo se describe el análisis de los datos recopilados, con la nalidad de
encontrar si existe una relación entre una medida siológica como el ritmo cardiaco y
la usabilidad de un software, en términos de satisfacción del usuario. En primer lugar,
se describen los datos cuantitativos del HR del estudio exploratorio. Posteriormente,
se describe el análisis de los cuestionarios SUS respondidos por los participantes y
nalmente, se describen los resultados de la aplicación del árbol de decisión tipo CART
a los datos combinados.
4.1. Caracterización de los datos recolectados
4.1.1. Datos del ritmo cardiaco

Como se mencionó anteriormente, se recolectaron datos sobre el ritmo cardiaco de
los 14 participantes del estudio mientras interactuaban con VQI y CLQI. La recolección
de estos datos se hizo en tres estados: reposo (tomado como la linea base o referencia
(Sperry y Fernandez, 2008; Shi et al., 2007)), durante la ejecución de tareas con VQI
y, nalmente, durante la ejecución de tareas con CLQI.
Como ejemplo, la Figura 4.1 muestra un resumen de los datos obtenidos del
participante 1. Como se puede ver, el HR de este usuario en particular se mantuvo
constantemente por encima de la línea base de referencia mientras se usaba VQI. Por el
47
Capítulo 4. Resultados y discusión
Figura 4.1: Variación del ritmo cardiaco del participante 1
contrario, su HR durante el uso de CLQI fue superior a la linea base normal al comienzo
de la sesión, pero con un HR similar a la línea de base al nal de la sesión, teniendo un
decremento al nalizar la tarea.
Después de haber obtenido el ritmo cardíaco de cada participante cuando realizó las
tareas en cada interfaz, se obtuvieron el conjunto de estadísticas básicas que se muestran
en la Tabla 4.1, Estos valores se convierten nalmente en atributos que caracterizan a
cada participante.
Tabla 4.1: Estadísticas Básicas de VQI
Participante Media Desviación Max Min
P1 65.0810074 1.28864191 75 70
P2 84.7693926 1.40741004 88 83
P3 60.7043108 0.84835626 61 59
P4 64.682913 1.65269478 65 61
P5 76.934157 4.08018477 77 70
P6 70.6031716 0.06426228 73 71
P7 99.0397099 0.78921636 103 100
P8 108.561813 2.6929754 115 106
P9 90.4395007 5.55363821 93 83
P10 102.467049 6.32419702 109 103
P11 94.115993 1.61443771 99 95
P12 98.7513188 2.95275626 95 92
P13 71.9051913 1.50522061 79 70
P14 96.5537282 2.18501798 97 93
48
Se puede observar, que cada participante esta caracterizado, por la media, desviación
estándar, el valor máximo de su ritmo cardicaco y el valor mínimo. De igual forma, la
Tabla 4.2 muestra las estadísticas básicas por cada usuario para CLQI.
Tabla 4.2: Estadísticas Básicas de CLQI
Participante Media Desviación Max Min
P1 64.6087529 2.73555911 67 62
P2 70.2523544 3.55911734 63 57
P3 85.728466 3.3846284 88 79
P4 83.6394984 4.14062658 90 80
P5 81.9286016 7.48952748 71 89
P6 72.7956743 1.68195451 69 77
P7 91.3090278 6.4901295 98 80
P8 103.946025 1.27999057 109 99
P9 88.8995306 6.4750755 80 97
P10 95.4059415 1.11788632 93 97
P11 94.7801907 2.30045895 92 96
P12 97.6205428 1.05181583 101 97
P13 72.4346236 0.9774478 76 70
P14 95.8741231 3.56400967 102 96
La Figura 4.2 presenta un gráco de barras que resume los datos de HR recopilados
de todos los usuarios utilizando la media y desviación estándar, como en (Sperry y
Fernandez, 2008; Shi et al., 2007), lo que hace posible comparar el resultado de la
ejecución de las tareas con la linea base de la señal. La barra azul representa el estado
normal de HR, la barra naranja representa la media de HR cuando los participantes
interactúan con VQI y la barra gris representa la media de CLQI.
Como se puede ver, el HR de los participantes 2, 7, 9 y 12 aumentó cuando interactuó
con VQI, mientras que no fue el caso para los participantes 1, 3, 4, 5, 6, 8, 10 y 14 que
presentaron un mayor aumento en CQLI. Para los participantes que presentaron un
incremento en su HR cuando usaron VQI, podría deberse a la necesidad de usar más
elementos grácos para estructurar una consulta SQL y/o el aumento en el nivel de
dicultad de la tarea, como lo sugiere (Sperry y Fernandez, 2008) En el caso de CQLI,
esto podría deberse a que los participantes debían de recordar la sintaxis de SQL.
49
Figura 4.2: Resumen del HR para los 14 participantes
4.1.2. Datos del cuestionario SUS
Al nal del uso de cada interfaz, se les pidió a los participantes que contestaran un
cuestionario SUS con preguntas subjetivas sobre la usabilidad. Los datos recolectados
fueron procesados de acuerdo a los puntajes antes mencionados.
Las respuestas de cada participante en especíco se asignan a un puntaje que
representa una medida compuesta de la usabilidad general del sistema. Este puntaje
se convierte nalmente en un porcentaje, de acuerdo con la escala de Je Sauro (ver
Figura 3.7).
Los resultados del cuestionario para VQI por cada usuario se pueden ver en la Figura
4.3.
50
Figura 4.3: Porcentaje SUS de cada Participante para VQI
Los resultados del cuestionario para CLQI por cada usuario se pueden ver en la
Figura 4.4.
Figura 4.4: Porcentaje SUS de cada Participante para CLQI
En resumen, el puntaje promedio de SUS fue 68, que es igual a 50 %. El puntaje
promedio para VQI fue 77.14, que equivale a 80 %, mientras que el puntaje promedio
51
para CLQI fue 73, que equivale a 67 %. Entonces se podría decir que los participantes,
valoraron más a VQI que a CLQI, y esto se ve reejado en los resultados, dado que la
mayoría de los participantes calicó arriba del promedio.
Finalmente, para cada participante se realizó la relación entre el puntaje obtenido
del cuestionario SUS y la escala de Sauro y Lewis (2016) correspondiente a cada valor,
obteniendo para VQI los resultados que se muestran en la Tabla 4.3 y para CLQI en la
Tabla 4.4.
Tabla 4.3: Relación puntaje SUS y escala Sauro y Lewis (2016) para VQI por
participante
Participante SUS Escala Participante SUS Escala
P1 65 C P8 87.5 A+
P2 57.5 D P9 65 C
P3 82.5 C- P10 90 A+
P4 67.5 C P11 75 B
P5 80 A- P12 80 A-
P6 60 D P13 82.5 A
P7 70 C P14 65 C
Del mismo modo, se realizó para CLQI obteniendo los resultados que se muestran
en la Tabla 4.4.
Tabla 4.4: Relación puntaje SUS y escala Sauro y Lewis (2016) para CLQI por
participante
Participante SUS Escala Participante SUS Escala
P1 60 D P8 82.5 A
P2 85 A+ P9 65 C
P3 77.5 B+ P10 87.5 A+
P4 75 B P11 87.5 A+
P5 85 A+ P12 77.5 B+
P6 62.5 D P13 62.5 D
P7 100 A+ P14 72.5 B-
52
4.2. Predicción de usabilidad a partir del ritmo cardiaco
4.2. Predicción de usabilidad a partir del ritmo

cardiaco
La recolección de datos y su procesamiento permitió obtener, por cada interfaz,
los datos del ritmo cardiaco de cada participante al usar dicha interfaz, así como la
evaluación de usabilidad de la interfaz del mismo participante. Las tablas siguientes
muestran la combinación de los datos.
Tabla 4.5: Conjunto de datos de VQI
Participante Media Desviación Max Min Escala
P1 65.0810074 1.28864191 75 70 D
P2 84.7693926 1.40741004 88 83 A+
P3 60.7043108 0.84835626 61 59 B+
P4 64.682913 1.65269478 65 61 B
P5 76.934157 4.08018477 77 70 A+
P6 70.6031716 0.06426228 73 71 C-
P7 99.0397099 0.78921636 103 100 A+
P8 108.561813 2.6929754 115 106 A
P9 90.4395007 5.55363821 93 83 C
P10 102.467049 6.32419702 109 103 A+
P11 94.115993 1.61443771 99 95 A+
P12 98.7513188 2.95275626 95 92 B+
P13 71.9051913 1.50522061 79 70 C-
P14 96.5537282 2.18501798 97 93 B-
53
Tabla 4.6: Conjunto de datos de CLQI
Participante Media Desviación Max Min Escala
P1 64.6087529 2.73555911 67 62 C
P2 70.2523544 3.55911734 63 57 D
P3 85.728466 3.3846284 88 79 C-
P4 83.6394984 4.14062658 90 80 C
P5 81.9286016 7.48952748 71 89 A-
P6 72.7956743 1.68195451 69 77 D
P7 91.3090278 6.4901295 98 80 C
P8 103.946025 1.27999057 109 99 A+
P9 88.8995306 6.4750755 80 97 C
P10 95.4059415 1.11788632 93 97 A+
P11 94.7801907 2.30045895 92 96 B
P12 97.6205428 1.05181583 101 97 A-
P13 72.4346236 0.9774478 76 70 A
P14 95.8741231 3.56400967 102 96 C
Cada conjunto de datos fue utilizado como entrada en el árbol de decisión. Para ello
se consideró como atributo clase al resultado de la evaluación de usabilidad.
La Figura 4.5 describe los elementos de cada nodo del árbol resultante.
Figura 4.5: Descripción del árbol
54
El atributo dentro del recuadro verde corresponde a una restricción basada en
términos de una variable, el recuadro de color rojo corresponde al valor de la ganancia
de información, la variable samples corresponde al numero de muestras que cumplen

con la restricción para ese nodo y value en el recuadro azul corresponde a la variable
categórica proveniente de la calicación de usabilidad.
Por el ejemplo, donde se observa value = [1, 5, 1, 2, 1, 2, 2], el primer valor indica
que 1 participante calicó al sistema con la letra A+, el segundo corresponde a
5 participantes que calicaron el sistema con A, el tercer valor corresponde a 1
participante que calicó al sistema con la letra B+ y así sucesivamente. La primera
ejecución del árbol utilizando como la variable objetivo a la calicación de usabilidad
en VQI (U-VQI), mientras que en la segunda prueba se realizó cambiando la variable
objetivo a la calicación de usabilidad en CLQI (U-CLQI).
Estas pruebas se realizaron utilizando el 100 % del conjunto de datos. Por cada
atributo del conjunto de datos VQI Y CLQI, el algoritmo CART divide el conjunto
de muestras en subconjuntos enriquecidos de una clase u otra. Su criterio se basa en
medidas de la ganancia de información. En resumen por cada atributo que el algoritmo
elija como el parámetro de mayor ganancia y se elige como parámetro de decisión y se
divide en dos partes sucesivamente como se ve en la Figura 4.6 y en la Figura 4.8.
El árbol de decisión para el primer caso es el que se muestra en la Figura 4.6 y el
conjunto de reglas se muestra en la Figura 4.7.
55
Figura 4.6: Árbol de decisión para VQI
Figura 4.7: Reglas para árbol de decisión en VQI
El árbol de decisión para el segundo caso es el que se muestra en la Figura 4.8 y el
conjunto de reglas se muestra en la Figura 4.9.
56
Figura 4.8: Árbol de decisión para CLQI
Figura 4.9: Reglas para árbol de decisión en CLQI
57
Para saber la precisión que estaba proporcionando el modelo en la clasicación, se
utilizaron las funciones Score y StratiedKFold, que están disponibles en Pedregosa et
al. (2011). Se puede apreciar en la Figura 4.10 la precisión de clasicación adquirida del
conjunto de datos VQI fue de 88.88 % y de igual forma en la Figura 4.11, se observa que
la precision para CLQI fue de 91.66 %. Por otro lado, el iterador StratiedKFold es una
versión mejorada de la validación cruzada, ya que cada pliegue va a estar estraticado
para mantener las proporciones entre las clases del conjunto de datos original, lo que
suele dar mejores estimaciones del sesgo y la varianza del modelo. El porcentaje para
VQI fue 86.7 % de igual forma se puede ver en la Figura 4.10 y el porcentaje para CLQI
fue de 90.7 % y se puede observar en la Figura 4.11.
Figura 4.10: Porcentaje de precisión VQI
Figura 4.11: Porcentaje de precisión CLQI
4.3. Resumen
En este capítulo se presentaron los resultados del estudio exploratorio con el objetivo
de vericar si es posible utilizar el HR (con un sensor poco invasivo instalado en
un SmartWatch) como un elemento objetivo en las pruebas de usabilidad. Primero,
se caracterizaron los datos provenientes de la medición del ritmo cardíaco durante
la utilización de cada una de las dos interfaces que se prepararon para el estudio.
Posteriormente, se presentaron los datos de usabilidad obtenidos por medio del
cuestionario SUS para cada interfaz y por cada participante. Los datos anteriores fueron
combinados, para cada interfaz, caracterizando el ritmo cardíaco del participante y el
resultado de su evaluación de usabilidad forman un solo ejemplar. Estos datos fueron
la entrada de un algoritmo de generación de árboles de decisión.
58
Capítulo 5
Conclusiones y Trabajo Futuro
5.1. Conclusiones
Como se ha visto, no existe un estándar"para la medición siológica y las pruebas
de usabilidad. En cambio, se encontró que el ritmo cardiaco, puede ser útil, según el
contexto de estudio.
En este trabajo se realizó un experimento exploratorio, un protocolo y un conjunto
de variables para buscar obtener una calicación de usabilidad basado en el ritmo
cardíaco de los participantes. Primeramente se creó una aplicación en un smartwatch
para recuperar los datos del ritmo cardíaco y obtener datos cuantitativos para
categorizar al ritmo cardíaco, para ello se recopilaron y se denieron un conjunto
devariables (media, desviación estándar, mínimo, máximo). Se realizó un experimento
para la recuperación de los datos cuantitativos de ritmo cardíaco y se obtuvo una
calicación de usabilidad. Se relacionó el puntaje SUS con una escala categórica de
usabilidad proveniente de los estudios de Sauro y Lewis (2016), después de haber
obtenido el conjunto de datos e ingresarlos como entrada al árbol de decisión tipo CART,
después de la validación del árbol se obtuvo el porcentaje de precisión de clasicación
para VQI de 86.7 % y el porcentaje para CLQI de 90.7 %.
Este proyecto presenta un primer acercamiento en la búsqueda de la clasicación
entre los datos siológicos y una calicación tradicional de evaluación de usabilidad. Sin
embargo, los investigadores de usabilidad deben ser conscientes de que, las respuestas
siológicas siempre deben interpretarse en relación con el contexto en el que se
59
Capítulo 5. Conclusiones y Trabajo Futuro
recopilaron los datos, así como también con la descripción que los usuarios hacen de su
experiencia.
Por otro lado, se puede decir que la técnica utilizada no sustituye al especialista de
usabilidad, sin embargo, si constituyen una herramienta para facilitar el análisis de este
tipo de pruebas.
Por último, para terminar, las conclusiones alcanzadas refuerzan la necesidad de
combinar a las metodologías complementarias, subjetivas y objetivas, con el análisis de
la respuesta siológica.
5.2. Trabajo Futuro

Dentro de un trabajo de investigación es importante identicar las líneas de trabajo
para dar continuidad al esfuerzo invertido. Por esto, esta sección pretende mostrar el
trabajo futuro que es necesario realizar para seguir avanzando en la relación de las
medidas siológicas y la usabilidad.
Como se observó en el Capítulo 3, solo se realizó el experimento con catorce
participantes. Esto implica que los datos pudieran no ser sucientes para la extracción
de características, por lo que se propone:
Se necesitan estudios que incluyan más participantes para garantizar el poder de
las pruebas estadísticas.
Ampliar el estudio a otros grupos de población, principalmente a personas con
discapacidad y personas mayores.
Aplicar el experimento desarrollado en otros contextos como productos y servicios
comerciales, páginas Web, aplicaciones de escritorio y móviles.
Combinar el ritmo cardíaco con otras señales siológicas como el análisis de la
actividad electrodérmica de la piel o las señales cerebrales.
En cuanto a la técnica utilizada, se propone:
60
5.2. Trabajo Futuro
Al valorar el ritmo cardíaco mediante técnicas de clasicación se obtiene
información que puede relacionarse con la calicación nal del usuario. Sin
embargo, es necesario realizar otras validaciones.
Comparar con más algoritmos de clasicación para extraer el conocimiento y
conocer el comportamiento de cada algoritmo.
Además, a largo plazo se propone, que después de obtener una calicación de
usabilidad, se realice una adaptación de interfaces en función a la señal siológica.
61
Referencias
Aguilar, M. I. H. (2017). Evaluación de usabilidad a través del seguidor ocular,
eus y csuq en plataforma educativa/evaluation of usability with eye tracking, sus
and csuq in educational platform. RECI Revista Iberoamericana de las Ciencias

Computacionales e Informática , 6 (12), 140159.
Andreassi, J. L. (2013). Psychophysiology: Human behavior & physiological response.

Psychology Press.
Arroyo Vázquez, N. (2011). Informe apei sobre usabilidad. Gijón: APEI, Asociación
Profesional de Especialistas en Información, 2011.
Carranza, E. E., y Gajardo, E. A. C. (2009). Anatomia de la piel. Cilad. Org , 123.
Chipantiza, C., Lewis, V., Mazón Olivo, B. E., Calva, C., y Jeorwin, J. (2015). La
usabilidad en el desarrollo de software. Machala: Ecuador.
Chisholm, W., Vanderheiden, G., y Jacobs, I. (2001). Web content accessibility
guidelines 1.0. Interactions , 8 (4), 3554.
Correo, F. M. (2014). Diseño de un sistema de reconocimiento de estrés en seres
humanos. Universidad Nacional Autónoma de Mexico .
Cruz, Y. P., Collazos, C. A., y Granollers, T. (2015). The thin red line between usability
and user experiences. En Proceedings of the xvi international conference on human

computer interaction (pp. 46:146:2). ACM.
63
Bibliografía
Foglia, P., Zanda, M., y Trading, I. (2014). Towards relating physiological signals
to usability metrics: a case study with a web avatar. WSEAS Transactions on

Computers , 13 , 624634.
Forne, M. (2012). Physiology as a tool for ux and usability testinga comparative study
of pupil size and other physiological measures.
Free, C., Phillips, G., Felix, L., Galli, L., Patel, V., y Edwards, P. (2010). The
eectiveness of m-health technologies for improving health and health services: a
systematic review protocol. BMC research notes , 3 (1), 250.
Gutwin, C., y Greenberg, S. (2000). The mechanics of collaboration: Developing low
cost usability evaluation methods for shared workspaces. En Enabling technologies:

Infrastructure for collaborative enterprises, 2000.(wet ice 2000). proeedings. ieee 9th
international workshops on (pp. 98103).
Hernández, J. (2015). Evaluación de la usabilidad web mediante el análisis de la mirada

y la respuesta siológica. inuencia de las características del usuario. (Tesis Doctoral
no publicada). Universitat Politècnica de València.
Hernández, L. S. L. (2016). Clasicación de emociones fusionando características de
análisis de respuesta siológicas y análisis automatizado de conducta en video juegos.
Lazar, J., Feng, J. H., y Hochheiser, H. (2017). Research methods in human-computer

interaction. Morgan Kaufmann.
Lewis, J. R. (1995). Ibm computer usability satisfaction questionnaires: psychometric
evaluation and instructions for use. International Journal of Human-Computer

Interaction , 7 (1), 5778.
Lin, T., Omata, M., Hu, W., y Imamiya, A. (2005). Do physiological data relate
Proceedings of the 17th australia conference on

to traditional usability indexes? En
computer-human interaction: Citizens online: Considerations for today and the future
(pp. 110).
Martín, A. E., Gaetán, G., Saldaño, V. E., Pires, A., Miranda, G., Villagra, S., . . . Sosa,
H. (2017). Un enfoque integrador para diseñar y evaluar interfaces de usuario web.
64
Bibliografía
En Xix workshop de investigadores en ciencias de la computación (wicc 2017, itba,

buenos aires).
Moreno, A. T., y Reiriz, J. (2012). Sistema nervioso anatomia. Infermera virtual,

Collegi ocial Infermeres I Infermers, Barcelona , 2 .
Muñoz, H., y Nureibis, C. Estudio de técnicas de análisis y clasicación de

(2014).
senales eeg en el contexto de sistemas bci (brain computer interface) (Tesis de Master
no publicada).
Nielsen, J. (2005). Ten usability heuristics. http://www. nngroup. com/articles/ten-
usability-heuristics/(acc-essed December 19, 2013).
Nielsen, J. (2012). Usability 101: Introduction to usability. nielsen
norman group. Tillgänglig<http://www. nngroup. com/articles/usabi-

lity101introductiontousability/>(2013 04 12) .
Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., . . .
Duchesnay, E. (2011). Scikit-learn: Machine learning in Python. Journal of Machine

Learning Research , 12 , 28252830.
Preece, J. (2000). Online communities: Designing usability and supporting socialbilty.

John Wiley & Sons, Inc.
Quintanilla, J. A. S., Zuazo, I. I., Pérez, A. I. R., y Esteo, F. J. G. (2017). Anatomía

humana para estudiantes de ciencias de la salud. Elsevier Health Sciences.
Rawassizadeh, R., Price, B. A., y Petre, M. (2014, diciembre). Wearables: Has the
Commun. ACM , 58 (1), 4547.

age of smartwatches nally arrived? Descargado de
http://doi.acm.org/10.1145/2629633 doi: 10.1145/2629633
Rodriguez, R. M. (2016). Diseño de un sistema de detección y clasicación de cambios

emocionales basado en el análisis de señales siológicas no intrusivas (Tesis Doctoral
no publicada). Universidad del País Vasco-Euskal Herriko Unibertsitatea.
Sauro, J., y Lewis, J. R. (2016). Quantifying the user experience: Practical statistics
for user research. Morgan Kaufmann.
65
Bibliografía
Shahmohammadi, F., Hosseini, A., King, C. E., y Sarrafzadeh, M. (2017). Smartwatch
based activity recognition using active learning. En Connected health: Applications,

systems and engineering technologies (chase), 2017 ieee/acm international conference
on (pp. 321329).
Shi, Y., Ruiz, N., Taib, R., Choi, E., y Chen, F. (2007). Galvanic skin response (gsr)
as an index of cognitive load. En Chi'07 extended abstracts on human factors in

computing systems (pp. 26512656).
Shneiderman, B., Plaisant, C., Cohen, M. S., Jacobs, S., Elmqvist, N., y Diakopoulos,
N. (2016). Designing the user interface: strategies for eective human-computer

interaction. Pearson.
Sperry, R. A., y Fernandez, J. D. (2008). Usability testing using physiological analysis.
Journal of Computing Sciences in Colleges , 23 (6), 157163.
Tullis, T. S., y Stetson, J. N. (2004). A comparison of questionnaires for assessing
website usability. En Usability professional association conference (pp. 112).
Udovivic, G., Derek, J., Russo, M., y Sikora, M. (2017). Wearable emotion recognition
system based on gsr and ppg signals. En Mmhealth 2017: Workshop on multimedia
for personal health and health care.
Wagner, J., Kim, J., y André, E. (2005). From physiological signals to emotions:
Implementing and comparing selected methods for feature extraction and classica-
tion. En Multimedia and expo, 2005. icme 2005. ieee international conference on (pp.
940943).
Ward, R. D., y Marsden, P. H. (2003). Physiological responses to dierent web page
designs. International Journal of Human-Computer Studies , 59 (1), 199212.
Yao, L., Liu, Y., Li, W., Zhou, L., Ge, Y., Chai, J., y Sun, X. (2014). Using physiological
measures to evaluate user experience of mobile applications. En International

conference on engineering psychology and cognitive ergonomics (pp. 301310).
66
Apéndice A
Instrumentos de medición
En este apéndice se muestran los cuestionarios utilizados para las pruebas de
usabilidad de esta tesis.
A.1. Cuestionario - Demográco

El siguiente formato demográco fue para conocer la edad, sexo, y grado de estudios
de los participantes.
67
Formato de Consentimiento
Pruebas con usuarios - Sistema “EASYBD”
Fecha: 12 de junio de 2017 Lugar: Facultad de Informática – Salón MSICU
El propósito de este estudio de usabilidad es evaluar la interfaz del sistema de base de datos que se
ha desarrollado. Como voluntario del estudio, su participación será anónima. Se le pedirá realizar
una serie de tareas, así como contestar un cuestionario al terminar su ejecución. La prueba podrá
ser videograbada, en cuyo caso se garantiza que el uso de la grabación será únicamente para
estudiar las características del sistema y estrictamente confidencial. La prueba tomará
aproximadamente un total de 50 minutos. Si alguno de los participantes por alguna razón está
inconforme con la prueba, podrá dar por terminada su participación en el momento que lo desee.
Yo _____________________________________________, acepto participar en este estudio,

entendiendo por completo sus términos y mis derechos como participante, detallados en la carta
de derechos correspondiente, de la cual he recibido una copia.
________________________ ________________________
Firma del participante Facilitador de prueba

Bibliografía
A.2. Cuestionario - Experiencia SQL

El siguiente formato de consentimiento fue para conocer la experiencia de los
participantes con el lenguaje de consultas SQL.
69
Datos del usuario
Nombre: ________________________________________________________ Edad: _________

Ocupación: _____________________________ Estudios en: ______________________________
Experiencia en SQL: (Alta) (Media) (Baja) Años: _________
Instrucciones: Por cada pregunta marca la respuesta que consideres es la correcta.
1.- ¿Cómo se crea una base de datos con SQL?
NEW Database pueba; NEW database prueba;

CREATE database prueba; CREATE DataBase prueba;
2.- ¿Cómo seleccionar datos de una tabla?
SELECT * from tbldatos; SELECT from tbldatos;

SELECTION * from tbldatos; SELECTION FROM tbldatos;
3.- ¿Cómo borrar elementos específicos de una tabla?
DELETE FROM nombre_tabla DELETE FROM nombre_tabla

WHERE nombre_columna = valor; WHERE nombre_columna;
DELETE * FROM nombre_tabla; DELETE nombre_columna= valor FROM

nombre_tabla;
4.- ¿Cómo insertar nuevas filas en una tabla?
INSERT INTO nombre_tabla INSERT INTO nombre_tabla (columna1,

VALUES (valor1, valor2, valor3, .) columna2, columna3,.)
VALUES (valor1, valor2, valor3, .)
INSERT INTO nombre_tabla (valor1, INSERT INTO nombre_tabla VALUES (valor1,
valor2, valor3, .) valor2, valor3, .)
5.- ¿Cómo es la sentencia para consultar datos de 2 o más tablas?
SELECT * FROM tabla1 INNER JOIN SELECT atributo1,.. FROM tabla1 INNER JOIN
tabla2 WHERE tabla1.columna1 = tabla2 WHERE tabla1.columna1 =
tabla2.columna1 tabla2.columna1
SELECT * FROM tabla1 INNER JOIN SELECT FROM tabla1 INNER JOIN tabla2 WHERE
tabla2; tabla1.columna1 = tabla2.columna1
Bibliografía
A.3. Cuestionario - SUS

El siguiente formato es el cuestionario SUS utilizado.
71
Cuestionario SUS
Nombre: ________________________________________________________ Edad: _________

Ocupación: _____________________________ Estudios en: ______________________________
Experiencia en SQL: (Alta) (Media) (Baja) Años: _________
Instrucciones: Por cada pregunta selecciona una opción que consideres es la adecuada.
Completamente Completamente
de acuerdo en desacuerdo
1. Creo que me gustaría utilizar este sistema 1 2 3 4 5
frecuentemente
2. Encuentro este sistema innecesariamente 1 2 3 4 5

complejo
3. Pienso que el sistema es fácil de usar 1 2 3 4 5
4. Creo que necesitaría soporte técnico para 1 2 3 4 5

hacer uso del sistema
5. Encuentro las diversas funciones del 1 2 3 4 5

sistema bastante bien integradas
6. He encontrado demasiada inconsistencia 1 2 3 4 5

en este sistema
7. Creo que la mayoría de la gente 1 2 3 4 5

aprendería a hacer uso del sistema
rápidamente
8. He encontrado el sistema bastante 1 2 3 4 5

incómodo para usar
9. Me he sentido muy seguro haciendo uso 1 2 3 4 5

del sistema
10. Necesitaría aprender un montón de 1 2 3 4 5

cosas antes de poder manejar el sistema

Morales Perez Edgar

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Morales Perez Edgar

Cargado por

Copyright:

Formatos disponibles

UNIVERSIDAD VERACRUZANA

FACULTAD ESTADÍSTICA E INFORMÁTICA

Medidas Fisiológicas para Evaluación de

QUE PARA OBTENER EL GRADO DE:

Edgar Daniel Morales Pérez

Dr. Edgard Iván Benítez Guerrero

Xalapa, Veracruz Enero de 2018

incondicional y consejos durante toda mi vida.

Cada uno de mis logros son dedicados a

A mis directores de tesis, Dr. Edgard Iván

Benítez Guerrero y Dra. Ma. del Carmen

Mezura Godoy, por su paciencia, consejos y

A los sinodales, Dr. José Rafael Rojano

Cáceres, Dr. Luis Gerardo Montané Jiménez,

y Dr. Guillermo Gilberto Molero Castillo.

Este trabajo fue desarrollado con el apoyo del

Consejo Nacional de Ciencia y

Tecnología(CONACYT), gracias a un beca

para realizar estudios de posgrado (No. de

Beca 423510 y No. de Registro 590668).

Esta tesis se desarrolló en el marco del

proyecto de Cátedras CONACYT denominado

Infraestructura para Agilizar el Desarrollo de

Sistemas Centrados en el Usuario (Ref.

La mayor parte de las evaluaciones de usabilidad se basan en cuestionarios, para

convertir información subjetiva (opinión del usuario) en información objetiva. Sin

diferencias entre los sistemas de software son muy sutiles.

Existen otras técnicas que pueden contribuir a aumentar la comprensión sobre la

siológicas que no involucren los procesos conscientes.

En este trabajo se presentan los resultados de un estudio exploratorio acerca de

la apreciación del usuario sobre el sistema. Primeramente, se ha llevado a cabo una

aplicación en un SmartWatch para obtener la respuesta siológica, que ha sido renado

mediante la realización de un estudio exploratorio. Esta señal se adquirió de 14 personas

Esto se realizó con el objetivo de poder obtener un conjunto de variables para

caracterizar a la señal siológica mediante estadística básica. Para posteriormente

utilizar esta caracterización como entrada a un algoritmo de aprendizaje de árboles

del usuario sin necesidad de aplicar cuestionarios.

Aunque se requieren estudios mas extensos para conrmarlo.

Durante las últimas décadas, se han desarrollado técnicas y metodologías para

comprender los procesos de una evaluación de usabilidad basados, la mayoría de ellos, en

subconsciente desempeñan un papel de gran valor en la investigación de usabilidad.

Most of usability evaluations are based on questionnaires, to convert subjective

perception of the product by the user by incorporating physiological measures that do

not involve conscious processes.

who interacted with two interfaces to query a database.

the users perception without the need to apply questionnaires.

required to conrm it.

understand the processes of a usability evaluation based, most of them, on the

subconsciously play a role of great value in usability research.

1.2. Denición del problema . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.4. Preguntas de Investigación . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.6. Enfoque adoptado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.7. Organización de la tesis . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2.1.2. Atributos de Usabilidad . . . . . . . . . . . . . . . . . . . . . . 8

2.1.3. Métodos de Evaluación de Usabilidad . . . . . . . . . . . . . . . 9

2.2. Medidas Fisiólogicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

2.2.2. Medidas Fisiológicas Comunes . . . . . . . . . . . . . . . . . . . 19

2.2.3. Actividad Electrodérmica . . . . . . . . . . . . . . . . . . . . . 20

2.2.4. Actividad Eléctrica Cerebral . . . . . . . . . . . . . . . . . . . . 22

2.3. Usabilidad y Señales Fisiológicas . . . . . . . . . . . . . . . . . . . . . 22

2.3.1. Trabajo de Lin et al. (2005) . . . . . . . . . . . . . . . . . . . . 22

2.3.2. Trabajo de Sperry y Fernandez (2008) . . . . . . . . . . . . . . 24

2.3.3. Trabajo de Forne (2012) . . . . . . . . . . . . . . . . . . . . . . 25

2.3.4. Trabajo de Yao et al. (2014) . . . . . . . . . . . . . . . . . . . . 27

Infraestructura para Agilizar el Desarrollo de

Sistemas Centrados en el Usuario (Ref.

siológicas que no involucren los procesos conscientes.

aplicación en un SmartWatch para obtener la respuesta siológica, que ha sido renado

caracterizar a la señal siológica mediante estadística básica. Para posteriormente

Aunque se requieren estudios mas extensos para conrmarlo.

required to conrm it.

1.2. Denición del problema . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

3.11. Impresión árbol de Clasicación . . . . . . . . . . . . . . . . . . . . . . 44

3.3. Escala de calicación de puntaje SUS de (Sauro y Lewis, 2016) . . . . . 44

La usabilidad, según la norma ISO 9241:11, se dene como la medida en la que un

con efectividad, eciencia y satisfacción en un contexto de uso especíco. Es decir, la

eciencia, ecacia y satisfacción, mismos que se clasican en tres categorías: métodos de

se reere a cuestionarios para medir particularmente la satisfacción de los usuarios.

pueden ayudar a los investigadores a obtener una visión signicativa de la forma en