Está en la página 1de 10

Traducido del inglés al español - www.onlinedoctranslator.

com

alt.HRI HRI '20 Companion, del 23 al 26 de marzo de 2020, Cambridge, Reino Unido

Cuatro años en revisión: prácticas estadísticas de escalas de Likert en


Estudios de interacción humano-robot
Mariah L. Schrum∗ miguel johnson∗
mschrum3@gatech.edu michael.johnson@gatech.edu
Instituto de Tecnología de Georgia Instituto de Tecnología de Georgia
Atlanta, Georgia Atlanta, Georgia

Muyleng Ghuy∗ Mateo C. Gombolay


mghuy3@gatech.edu matthew.gombolay@cc.gatech.edu
Instituto de Tecnología de Georgia Instituto de Tecnología de Georgia
Atlanta, Georgia Atlanta, Georgia

RESUMEN 1 INTRODUCCIÓN
A medida que los robots se vuelven más frecuentes, la importancia del campo El estudio de la interacción humano-robot es el examen interdisciplinario
de la interacción humano-robot (HRI) crece en consecuencia. Como tal, de la relación entre humanos y robots a través de los lentes de la
debemos esforzarnos por emplear las mejores prácticas estadísticas. Las psicología, la sociología, la antropología, la ingeniería y la informática.
escalas de Likert son métricas comúnmente utilizadas en HRI para medir Esta importante intersección de campos nos permite comprender mejor
percepciones y actitudes. Debido a información errónea o errores honestos, la los beneficios y las limitaciones de incorporar robots en el entorno
mayoría de los investigadores de HRI no adoptan las mejores prácticas al humano. A medida que los robots se vuelven más frecuentes en nuestra
analizar los datos de Likert. Realizamos una revisión de la literatura vida diaria, la investigación de HRI tendrá un mayor impacto en el diseño
psicométrica para determinar el estándar actual para el diseño y análisis de la de robots y la integración de robots en nuestras sociedades. Por lo tanto,
escala Likert. A continuación, realizamos una encuesta de cuatro años de la es fundamental que se empleen las mejores prácticas científicas al
Conferencia Internacional sobre Interacción Humano-Robot (2016 a 2019) e realizar investigaciones de HRI.
informamos sobre prácticas estadísticas incorrectas y diseño de escalas de Las escalas de Likert, una técnica comúnmente empleada en
Likert. Durante estos años, solo 3 de los 110 artículos aplicaron pruebas psicología y más recientemente en HRI, se utilizan para determinar las
estadísticas adecuadas a escalas de Likert diseñadas correctamente. Nuestro actitudes u opiniones de una persona sobre un tema [37]. Luego se
análisis sugiere que hay áreas de mejora significativa en el diseño y prueba de pueden aplicar pruebas estadísticas a las respuestas para determinar
las escalas de Likert. Por último, brindamos recomendaciones para mejorar la cómo cambia una actitud entre diferentes tratamientos. Dichos estudios
precisión de las conclusiones extraídas de los datos de Likert. brindan información importante sobre la mejor manera de diseñar robots
para una interacción óptima con los humanos. Debido a la confusión casi
CONCEPTOS CCS universal que rodea a las escalas de Likert, el diseño inadecuado de las
• Generales y de referencia→Encuestas y resúmenes;Evaluación; escalas de Likert no es infrecuente [25]. Además, se debe tener cuidado al
Métrica. emplear técnicas estadísticas para analizar escalas e ítems de Likert.
Debido a la naturaleza ordinal de los datos, las técnicas estadísticas a
PALABRAS CLAVE menudo se aplican incorrectamente, lo que puede dar como resultado
una mayor probabilidad de falsos positivos. Desafortunadamente,
Métricas para HRI; Escalas de Likert; Prácticas Estadísticas

Formato de referencia ACM:


Mariah L. Schrum, Michael Johnson, Muyleng Ghuy y Matthew C. Gombolay.
2020. Cuatro años en revisión: prácticas estadísticas de escalas de Likert en
Estudios de Interacción Humano-Robot. Enla compañiade la Conferencia
Internacional ACM/IEEE 2020 sobre Interacción Humano-Robot (HRI '20), marzo
23–26, 2020, Cambridge, Reino Unido.ACM, Nueva York, NY, EE. UU., 10
páginas.https://doi.org/10.1145/3371382.3380739

∗Los tres autores contribuyeron por igual a esta investigación.

Se otorga permiso para hacer copias digitales o impresas de todo o parte de este trabajo para uso
personal o en el aula sin cargo, siempre que las copias no se hagan o distribuyan con fines de lucro o
ventaja comercial y que las copias lleven este aviso y la cita completa en la primera página. . Deben
respetarse los derechos de autor de los componentes de este trabajo que no pertenezcan a los
autores. Se permite hacer resúmenes con crédito. Copiar de otro modo, o volver a publicar, publicar
en servidores o redistribuir a listas, requiere un permiso específico previo y/o una tarifa. Solicite
permisos de permisos@acm.org.
HRI '20Compañero,23 al 26 de marzo de 2020, Cambridge, Reino Unido
© 2020 Copyright del propietario/autor(es). Derechos de publicación licenciados a ACM. Figura 1: Una descripción general de los procedimientos de HRI con
ISBN de ACM978-1-4503-7057-20/8/03. . ps15.00 https://doi.org/10.1145/3371382.3380739
diferentes tipos de errores al manejar datos de Likert de 2016 a 2019.

43
alt.HRI HRI '20 Companion, del 23 al 26 de marzo de 2020, Cambridge, Reino Unido

En este documento, 1) revisamos la literatura psicométrica de las escalas de y razonar a través de las áreas de acuerdo y desacuerdo para llegar a nuestras
Likert, 2) analizamos los últimos cuatro años de documentos de HRI y 3) proponemos propias recomendaciones sobre cómo los investigadores de HRI pueden
recomendaciones para las mejores prácticas en HRI. Con base en nuestra revisión de navegar mejor en estas aguas a menudo turbias.
la literatura psicométrica, encontramos que solo 3 de 110 artículos en los últimos
cuatro años de procedimientos de investigación HRI diseñaron y probaron 2.1 ¿Qué es una escala de Likert?
adecuadamente las escalas de Likert. En la figura 1 se muestra un resumen de Las escalas de Likert fueron creadas en 1932 por Rensis Likert y originalmente
nuestro análisis. Desafortunadamente, esta mala práctica potencial puede sugerir fueron diseñadas para medir científicamente la actitud [37]. Una escala de
que los hallazgos en el 97,3% de los artículos de HRI que basaron sus conclusiones en Likert se define como "un conjunto de afirmaciones (ítems) ofrecidos para una
escalas de Likert pueden justificar una segunda mirada. situación real o hipotética objeto de estudio" en la que un individuo debe elegir
Nuestra primera contribución se compone de un estudio de la literatura su nivel de acuerdo con una serie de afirmaciones [31]. La escala de respuesta
psicométrica más reciente sobre las mejores prácticas actuales para el diseño y original para un ítem de Likert varió de uno a cinco (totalmente en desacuerdo
análisis de escalas de Likert. En los casos en que hay disidencia o desacuerdo, a totalmente de acuerdo). Una escala de siete puntos también es una práctica
presentamos ambas perspectivas. No obstante, encontramos áreas de común. En la figura 2 se muestra un ejemplo de escala Likert.
consenso en la literatura para establecer recomendaciones sobre cómo diseñar
mejor las escalas de Likert y analizar sus datos. En áreas de acuerdo,
proporcionamos recomendaciones a la comunidad de HRI sobre cómo
podemos construir y analizar mejor los datos de Likert.
Nuestra segunda contribución es una encuesta de los procedimientos de
HRI 2016 a 2019 basada en las mejores prácticas establecidas. Nuestra revisión
reveló que la mayoría de los artículos diseñan incorrectamente las escalas de
Likert o analizan incorrectamente los datos de Likert. Los errores comunes son
no incluir suficientes elementos, analizar elementos de Likert individuales, no
verificar los supuestos de la prueba estadística que se está aplicando y no
realizar las correcciones post-hoc adecuadas.
Nuestra tercera y última contribución es una discusión sobre cómo
Figura 2: Esta figura ilustra una parte de una escala Likert
nosotros, como campo, podemos corregir estas prácticas y mantenernos en un
equilibrada que mide la confianza (Cortesía de [41]).
estándar más alto. Nuestro propósito no es dictar reglas legalistas a seguir
bajo pena de rechazo del artículo. En su lugar, buscamos abrir el espacio para
un debate constructivo sobre cómo podemos establecer y acatar nuestras A menudo surge confusión en torno al término "escala". Una escala de
mejores prácticas acordadas en nuestro campo. Esperamos que al hacerlo, HRI Likert no se refiere a un solo mensaje que se puede calificar en una escala de
continúe teniendo una influencia fuerte y positiva en la forma en que uno anorteo "totalmente en desacuerdo" a "totalmente de acuerdo". Más bien,
entendemos, diseñamos y evaluamos los sistemas robóticos. una escala de Likert se refiere a un conjunto de indicaciones o "elementos"
relacionados cuyas puntuaciones individuales se pueden sumar para lograr
Nota Bene:Confesamos que no hemos empleado las mejores prácticas en nuestro propio
una puntuación compuesta que cuantifica la actitud de un participante hacia un
trabajo anterior. Nuestro objetivo para este documento no es menospreciar el campo,
tema específico latente [10]. "Formato de respuesta" es el término más
sino denunciar el mal uso omnipresente de una métrica vital: las escalas de Likert.
apropiado para describir las opciones que van desde "totalmente en
Esperamos mejorar el rigor de nuestras propias pruebas estadísticas y el diseño de
desacuerdo" hasta "totalmente de acuerdo" [11]. Esta distinción es importante
cuestionarios, así como los de otros, para que podamos mantenernos con más confianza
por las siguientes razones. Primero, surge un alto grado de error de medición
en las inferencias extraídas de estos datos.
cuando se le pide a un participante que responda solo a un solo mensaje; sin
embargo, cuando se le pide que responda a varias indicaciones, este error de
medición tiende a promediarse. En segundo lugar, un solo elemento a menudo
2 REVISIÓN DE LA LITERATURA Y MEJORES PRÁCTICAS aborda solo un aspecto o dimensión de una actitud particular, mientras que
Las escalas de Likert juegan un papel clave en el estudio de la interacción varios elementos pueden informar una imagen más completa [23, 46]. Por lo
humano-robot. Entre 2016 y 2019, los cuestionarios tipo Likert aparecieron en tanto, es importante distinguir si hay múltiples ítems en la escala o
más del 50% de todos los artículos de HRI. Como tal, es imperativo que simplemente múltiples opciones en el formato de respuesta. [11] enfatiza la
hagamos un uso adecuado de las escalas de Likert y seamos cuidadosos en importancia de esta distinción al afirmar que el significado del término escala
nuestro diseño y análisis para no deslegitimar nuestros hallazgos. "es tan central para comprender con precisión una escala de Likert (y también
Comenzamos con una revisión de la literatura para investigar las mejores otras escalas y principios psicométricos) que sirve como base y base
prácticas actuales para el diseño de escalas de Likert y las pruebas estadísticas. conceptual, teórica y línea de base empírica a partir de la cual abordar y discutir
Reconocemos que se han realizado previamente revisiones sobre el diseño y una serie de malentendidos clave, leyendas urbanas y mitos de investigación”.
análisis de escalas de Likert [11, 29, 53]. Sin embargo, nuestro análisis es el
primero dirigido a la comunidad HRI, y creemos que es importante basar No es raro en HRI, así como en la literatura psicométrica, que un
nuestra discusión en la comprensión actual de los mejores métodos investigador informe que él o ella empleó una escala Likert de cinco ítems
relacionados con la construcción y prueba de datos Likert que se encuentran cuando en realidad utilizó una escala Likert de un solo ítem con cinco opciones
en la literatura psicométrica. de respuesta. Para fundamentar esta distinción en un ejemplo, la figura 2
Muchos de los debates que rodean el diseño y el análisis de la escala de Likert muestra una escala de Likert con cuatro elementos de Likert con un formato de
están sin resolver. Como tal, presentamos ambos lados de estos argumentos. respuesta de siete opciones. Para evitar tal confusión, es importante

44
alt.HRI HRI '20 Companion, del 23 al 26 de marzo de 2020, Cambridge, Reino Unido

Sea preciso al describir una escala de Likert como un formato de respuesta de cinco punto medio neutro. Likert, con su escala de cinco puntos, incluyó una
opciones tiene un significado muy diferente de una escala de Likert de cinco opción neutral, "indeciso" para los participantes que no deseaban adoptar
elementos. Además, un conjunto de ítems que incita al usuario a seleccionar una una postura positiva o negativa [37]. Algunos argumentan que un punto
calificación en una escala bipolar de antónimos, es decir, de tipo humano a tipo medio neutral proporciona datos más precisos porque es muy posible
máquina, no es una verdadera escala de Likert. Esta es una escala diferencial que un participante no tenga una opinión positiva o negativa sobre el
semántica y debe denominarse como tal [57]. constructo en cuestión. Los estudios han demostrado que incluir una
Recomendación: recomendamos que los investigadores de HRI sean opción neutral puede mejorar la confiabilidad en otras escalas similares
deliberados al describir los formatos y escalas de respuesta de Likert para [15, 26, 31, 38]. Además, la falta de una opción neutral impide que el
evitar confusiones y malas interpretaciones. participante exprese una opinión indiferente, lo que lo obliga a elegir un
lado con el que no está de acuerdo.
2.2 Diseño Por otro lado, un punto medio neutral puede dar como resultado que los usuarios

Debido a que HRI es un campo relativamente nuevo, los investigadores de HRI estén "satisfechos" (es decir, elegir la opción que puede no ser la más precisa para

a menudo exploran problemas novedosos para los cuales necesitan elaborar evitar una tensión cognitiva adicional que resulte en una representación excesiva en

escalas específicas de problemas. Sin embargo, se debe tener cuidado para el punto medio) [33]. [30] argumentan que “. . . el punto medio debe ofrecerse en

diseñar correctamente y evaluar la validez de estas escalas antes de utilizarlas temas oscuros, donde muchos encuestados no tendrán base para elegir, pero debe

para la investigación. El diseño de la escala es uno de los temas menos omitirse en temas controvertidos, donde la conveniencia social es lo más importante

aceptados en relación con los cuestionarios de Likert en la literatura en la mente de los encuestados".

psicométrica. El desacuerdo surge en torno al número óptimo o las opciones Recomendación: adoptamos la recomendación de [30], que sugiere que los

de respuesta en un ítem, el número ideal de ítems que debe comprender una investigadores de HRI utilicen su mejor juicio en función del contexto de uso al decidir los

escala, si una escala debe estar equilibrada y si debe incluir o no un punto méritos de incluir una opción neutral en su formato de respuesta. Por ejemplo, si los autores

medio neutral. A continuación, abordamos cada tema. están realizando una encuesta previa a la confianza para medir un nivel básico de confianza
antes de que el participante haya interactuado con el robot, es posible que deseen incluir una
Número de opciones de respuesta -El propio Rensis Likert sugirió un formato
opción neutral ya que algunos participantes, especialmente aquellos que no están
de respuesta de cinco puntos en su obra seminal,Una técnica para la medición
familiarizados con los robots, pueden no estar realmente familiarizados con la confianza.
de actitudes[37]. Sin embargo, Likert no basó esta decisión en la teoría y más
tener un buen sentido de su propia confianza en los robots. Una opción neutral permitiría a
bien sugirió que las variaciones en este formato de cinco puntos pueden ser
los participantes presentar este sentimiento. Sin embargo, si se utiliza una encuesta para
apropiadas [37]. La investigación adicional aún tiene que proporcionar un
evaluar la confianza después de que un participante haya interactuado con un robot, es
consenso sobre el número óptimo de opciones de respuesta que comprende
posible que los investigadores deseen eliminar la opción neutral. argumentando que los
un elemento de Likert [39]. [47] encontró que las escalas con cuatro o menos
participantes deberían haber desarrollado un sentido de confianza o desconfianza después
puntos se desempeñaron peor en términos de confiabilidad y que entre siete y
de la interacción. No obstante, puede haber casos en los que "neutral" sea realmente
nueve puntos fueron las más confiables. Este hallazgo está respaldado por [16]
apropiado, razón por la cual argumentamos a favor de la discreción del investigador [30].
en su investigación del error de categorización. [61] demostró mediante
simulación que cuantos más puntos contiene una respuesta, más se aproxima
a los datos de intervalo y, por lo tanto, recomendó un formato de respuesta de
Número de items -El siguiente punto de controversia que abordamos es el
11 puntos.
número ideal de elementos de Likert en una escala. En su formulación original,
Esta línea de razonamiento puede llevar a creer que se
Likert afirmó que múltiples preguntas eran imprescindibles para captar las
debe aumentar drásticamente el número de puntos de
diversas dimensiones de una actitud multifacética. Según la formulación de
respuesta para medir con mayor precisión un constructo. Sin
Likert, las puntuaciones individuales deben sumarse para lograr una
embargo, el hecho de que los datos puedan aproximarse
puntuación compuesta que proporcione una representación más fiable y
más a los datos de intervalo no significa que aumentar el
completa de la actitud de un sujeto [23, 46].
número de puntos de respuesta aumente de manera
Sin embargo, en la práctica no es raro que se utilice un solo elemento en la
monótona la capacidad de medir la actitud de un sujeto. Un
investigación HRI debido a la eficiencia que proporciona una escala tan corta.
mayor número de opciones de respuesta puede requerir un
La investigación sobre la idoneidad de las escalas de un solo ítem ha sido
mayor esfuerzo mental por parte del participante, lo que
ampliamente estudiada en la literatura psicométrica y de marketing [36]. Por
reduce la calidad de la respuesta [5, 35]. Por ejemplo, [5]
ejemplo, [36] investigó el uso de una escala de un solo elemento para medir un
realizó un estudio que sugería que la calidad de la respuesta
constructo y concluyó que una escala de un solo elemento solo es suficiente
disminuía por encima de las once opciones de respuesta.
para objetos simples, unidimensionales e inequívocos.
Las escalas de elementos múltiples, por otro lado, son "adecuadas para medir
características latentes con muchas facetas". [49] propusieron un procedimiento para
Recomendación: como regla general, recomendamos que el número de
desarrollar escalas para evaluar las construcciones de marketing y sugirieron que si el
opciones de respuesta sea entre cinco y nueve debido a la disminución de las
objeto de interés es concreto y singular, como cuánto le gusta a un individuo un
ganancias con más de diez y la falta de precisión con menos de cinco. Sin
producto específico, entonces un solo artículo es suficiente. Sin embargo, si el
embargo, si el estudio implica una gran carga cognitiva o encuestas extensas,
constructo es más abstracto y complejo, como medir la confianza que un individuo
es posible que el investigador desee errar por el lado de menos elementos de
tiene en los robots, entonces se justifica una escala de elementos múltiples. Esta línea
respuesta para mitigar la fatiga de los participantes [47].
de razonamiento es apoyada por [6, 17, 19]. En cuanto al número exacto de ítems,
Punto medio neutro -Otro punto de controversia que influye en el [19] demostró mediante simulación que al menos cuatro ítems son necesarios para la
número de respuesta de una escala es si se incluye o no un evaluación

45
alt.HRI HRI '20 Companion, del 23 al 26 de marzo de 2020, Cambridge, Reino Unido

de consistencia interna de la escala. Sin embargo, como sugiere [60], se debe tener Una escala mal formada puede dar como resultado datos que no evalúan la
cuidado al incluir demasiados elementos, ya que una gran escala puede dar como hipótesis prevista. Por lo tanto, antes de aplicar una prueba estadística a una
resultado tasas de rechazo más altas. escala de Likert, es una buena práctica probar la calidad de la escala. El alfa de
Recomendación: debido a la complejidad de los atributos que se miden con mayor Cronbach es un método para medir la consistencia interna de una escala (es
frecuencia en HRI (p. ej., confianza, sociabilidad, facilidad de uso, etc.), decir, qué tan estrechamente relacionados están un conjunto de elementos).
recomendamos que los investigadores de la comunidad HRI utilicen escalas de Un alfa de Cronbach de 0,7 normalmente se considera un nivel aceptable para
elementos múltiples con al menos cuatro elementos. El número total de elementos la fiabilidad entre ítems [54]. Si los elementos contienen pocas opciones de
nuevamente se deja a discreción del investigador y puede depender de las respuesta o los datos están sesgados, se debe emplear otro método, como el
limitaciones de tiempo y la carga de trabajo que ya enfrenta el participante. Debido a alfa ordinal [21].
que una persona promedio tarda de dos a tres segundos en responder un elemento Si bien el alfa de Cronbach es una métrica importante, se puede realizar un
de Likert y es más probable que las personas cometan errores o "se sientan análisis factorial de ítem completo (IFA) para comprender mejor la
satisfechos" después de varios minutos, recomendamos que las encuestas no dimensionalidad de una escala. Una escala que consta de indicaciones no
superen los 40 elementos [63]. Recuerde que esta recomendación para el número de relacionadas puede lograr un alfa de Cronbach alto por otras razones
"Elementos de Likert" es diferente de nuestra recomendación con respecto al número subyacentes o simplemente porque el alfa de Cronbach puede aumentar a
de "opciones de respuesta", que recomendamos generalmente entre cinco y nueve medida que aumenta el número de ítems en la escala [24, 55]. Además, una
opciones, como se señaló anteriormente. escala puede mostrar consistencia interna, pero esto no significa que sea
unidimensional. Por otro lado, un análisis factorial es un método estadístico
Balanza Balanza -El último aspecto del diseño de básculas que discutiremos es
para probar si un conjunto de ítems mide el mismo atributo y si la escala es
el del equilibrio. La cuestión de si los ítems dentro de una escala deben estar
unidimensional o no. Por lo tanto, el análisis factorial proporciona una métrica
equilibrados, es decir, debe haber paridad de afirmaciones positivas y
más robusta para evaluar la calidad de la escala [2].
negativas, se aborda con menos frecuencia en la literatura. Se cree que
Recomendación: debido a la naturaleza compleja del diseño de escalas,
equilibrar el cuestionario puede ayudar a negar el sesgo de aquiescencia, que
recomendamos que los investigadores utilicen escalas bien establecidas y verificadas
es el fenómeno en el que los participantes tienen una mayor tendencia a estar
proporcionadas en la literatura cuando sea posible. Muchos constructos comunes
de acuerdo con una afirmación que les presenta un investigador. Likert [37]
medidos en HRI se pueden medir con escalas ya validadas, como la "Escala de
abogó por que las escalas deberían consistir en afirmaciones tanto positivas
percepción de confianza" para la confianza entre humanos y robots o la escala RoSAS
como negativas. Muchos libros de texto, como [42], también establecen que las
para la sociabilidad percibida [12, 50]. Esta práctica reducirá la prevalencia del empleo
balanzas deben equilibrarse. Quizás la evidencia más convincente de que el
de escalas mal diseñadas. De lo contrario, se debe realizar un análisis exhaustivo de la
equilibrio es un factor importante al desarrollar escalas de Likert la proporciona
consistencia interna y la dimensionalidad de las nuevas escalas cuando se empleen
[51]. Los autores en [51] llevaron a cabo un estudio en el que pidieron a los
para responder preguntas de investigación. Para obtener instrucciones detalladas
participantes que respondieran a una pregunta redactada de forma positiva a
sobre la mejor manera de construir escalas de Likert desde cero, consulte [4, 27].
la que accedió el 60 % de los participantes. Hicieron la misma pregunta pero la
reformularon de manera negativa y nuevamente, el 60% de los participantes
estuvo de acuerdo. Este estudio revela hasta qué punto el sesgo de
aquiescencia puede influir en los participantes para que respondan de una
2.3 Pruebas estadísticas
manera particular que no siempre representa sus verdaderos sentimientos.
Una vez que se diseña una escala y se verifica estadísticamente su validez, es
Se encontraría que esta evidencia es lo suficientemente convincente como para
importante que se apliquen las pruebas estadísticas correctas a los datos de
recomendar el equilibrio de la báscula; sin embargo, este debate no se resuelve tan
respuesta obtenidos de la escala. Otro tema muy debatido es si los datos derivados
fácilmente. Un trabajo reciente sugiere que, aunque la inclusión de ítems redactados
de elementos individuales de Likert se pueden analizar con pruebas paramétricas.
tanto positiva como negativamente reduce los efectos del sesgo de aquiescencia,
Queremos dejar claro que esta controversia no es sobre el tipo de datos producidos
puede tener un impacto negativo en la validez del constructo (es decir, si la escala
por los elementos de Likert, sino sobre si las pruebas paramétricas se pueden aplicar
mide adecuadamente el constructo de interés) de la escala [48, 62] . Este resultado
a los datos ordinales.
puede deberse al hecho de que un ítem redactado negativamente no es un verdadero
opuesto de un ítem redactado positivamente. Por lo tanto, invertir las puntuaciones
Ordinal versus Intervalo -Trabajos previos han demostrado que un solo ítem de
de los ítems redactados negativamente y sumar puede tener un impacto en la
Likert es un ejemplo de datos ordinales y que los números de respuesta
dimensionalidad de la escala debido a la confusión que causan los ítems invertidos
generalmente no son percibidos como equidistantes por los encuestados [34].
[28, 56].
Debido a que los números de una escala para los elementos de Likert
Recomendación: debido a la falta de consenso y los problemas que surgen
representan categorías ordenadas pero no están necesariamente espaciados a
de ambos enfoques, no brindamos una recomendación concreta a los
intervalos equivalentes, no existe una noción de distancia entre los
investigadores sobre el equilibrio de la escala.
descriptores en un formato de respuesta de Likert [14]. Por ejemplo, la
Validez y confiabilidad de las indicaciones de Likert -El trabajo original de Likert diferencia entre "de acuerdo" y "muy de acuerdo" no es necesariamente
establece que todos los indicadores de una escala de Likert deben estar equivalente a la diferencia entre "en desacuerdo" y "muy en desacuerdo". Por
relacionados con una actitud específica (p. ej., sociabilidad) y deben diseñarse lo tanto, un elemento de Likert no produce datos de intervalo [7]. Si bien se ha
para medir cada aspecto del constructo. Cada ítem debe estar escrito en un especulado que una escala de respuesta lo suficientemente grande puede
lenguaje claro y conciso y debe medir una sola idea [37, 45]. Esta formulación aproximar los datos de intervalo, las escalas de respuesta de Likert rara vez
ayuda a garantizar la confiabilidad (es decir, la escala brinda resultados contienen más de 11 puntos de respuesta [1, 61].
repetibles para el mismo participante) y la validez (es decir, la escala mide lo Recomendación: debido a que un elemento de Likert representa datos ordinales,
que se pretende) de la escala. las estadísticas descriptivas paramétricas, como la media y la desviación estándar,

46
alt.HRI HRI '20 Companion, del 23 al 26 de marzo de 2020, Cambridge, Reino Unido

no son la métrica más adecuada cuando se aplican a elementos individuales de bajo un determinado signo astrológico tenían más probabilidades de ser
Likert. La moda, la mediana, el rango y la asimetría son mejores para informar. hospitalizados por un determinado diagnóstico. Los autores evaluaron más de 200
enfermedades y encontraron que los Leo tenían una probabilidad estadísticamente
Paramétrico versus No Paramétrico -La pregunta ahora es, dada la naturaleza
mayor de ser hospitalizados por hemorragia gastrointestinal y los Sagitario tenían
ordinal de los ítems individuales de Likert, ¿es apropiado aplicar pruebas
una probabilidad estadísticamente mayor de fractura de húmero. Este estudio
paramétricas a dichos datos? Un famoso estudio de [22] mostró que la prueba
demostró el mayor riesgo de error de tipo I que se produce cuando no se aplica una
F es muy resistente a la violación de los supuestos de tipo de datos y que los
corrección post-hoc.
elementos individuales se pueden analizar con una prueba paramétrica si hay
Existe controversia sobre cuál es la mejor corrección post-hoc. [32]
un número suficiente de puntos de respuesta. [34] demuestra a través de la
sugiere aplicar la corrección de Bonferonni cuando solo se realizan varias
simulación que ANOVA es apropiado cuando los datos Likert de un solo
comparaciones, es decir, diez o menos. Los autores recomiendan emplear
elemento son simétricos, pero que Kruskall-Wallis debe usarse para datos de
una corrección diferente como Tukey o Scheffé con más de diez
elementos Likert sesgados. [16] también encontró que el sesgo en los datos da
comparaciones para evitar el mayor riesgo de errores de tipo II que se
como resultado errores inaceptablemente altos cuando se supone que los
deriva de la naturaleza conservadora de la corrección de Bonferonni. [43]
datos son de intervalo. [40] compararon el uso de la prueba t versus la prueba
sugiere que los investigadores deberían, en lugar de realizar una
de rango con signo de Wilcoxon en ítems de Likert y encontraron que la prueba
corrección post-hoc, centrarse en informar sobre el tamaño del efecto y
t resultó en una tasa de error Tipo I más alta para tamaños de muestra
los intervalos de confianza, como la r de Pearson.
pequeños entre 5 y 15. [44] hizo una comparación similar y también encontró
Recomendación: debido al peligro que conlleva realizar muchas pruebas
que la suma de rangos de Wilcoxon superó la prueba t en términos de tasas de
estadísticas sin comparaciones predefinidas, recomendamos que los investigadores
error de Tipo I. Como lo demuestran estos estudios, el campo aún tiene que
siempre realicen las correcciones post-hoc adecuadas. Debido al mayor riesgo de
llegar a un consenso claro sobre si las pruebas paramétricas son apropiadas y,
error de tipo II que presentan algunas pruebas post-hoc, alentamos a los
de ser así, cuándo, para datos de un solo ítem de Likert.
investigadores a que también informen el tamaño del efecto y el intervalo de
Los datos de la escala de Likert (es decir, los datos derivados de la suma de
confianza para brindar una visión más informativa y holística de los resultados. En
elementos de Likert) se pueden analizar mediante pruebas paramétricas con más
general, recomendamos no realizar comparaciones por pares realizadas en
confianza. [22] mostró que la prueba F se puede utilizar para analizar datos completos
elementos individuales de Likert por las razones ya discutidas.
de la escala de Likert sin ningún impacto negativo significativo en las tasas de error de
Tipo I o Tipo II, siempre que se mantenga la suposición de equivalencia de la varianza.
Supuestos de prueba -La mayoría de las pruebas estadísticas requieren que se
Además, [58] mostró que los datos de la escala de Likert son tanto de intervalo como
cumplan ciertos supuestos. Por ejemplo, un ANOVA asume que los residuos se
lineales. Por lo tanto, las pruebas paramétricas, como el análisis de varianza (ANOVA)
distribuyen normalmente (normalidad) y las varianzas de los residuos son
o la prueba t, se pueden usar en esta situación siempre que se cumplan los supuestos
iguales (homocedasticidad) [59]. Las pruebas para garantizar que se cumplan
apropiados.
estas condiciones incluyen la prueba de normalidad de Shapiro-Wilk y la prueba
Recomendación: debido a que los estudios no son concluyentes en cuanto a si las
de homocedasticidad de Levene [13]. [22] argumenta que incluso cuando se
pruebas paramétricas son apropiadas para los datos ordinales, recomendamos que
violan los supuestos de las pruebas paramétricas, en ciertas situaciones, la
los investigadores sean conservadores y utilicen pruebas no paramétricas al analizar
prueba aún se puede aplicar de manera segura. Sin embargo, [8] contrarresta
los datos de Likert. Sin embargo, también recomendamos que los investigadores de
[22] y sostiene que [22] no tuvo en cuenta el poder de las pruebas paramétricas
HRI eviten realizar análisis estadísticos en elementos únicos de Likert por completo.
bajo varias formas de población y que no se debe confiar en estos resultados.
Como [11] afirma tan elocuentemente, "un elemento que una balanza no hace". Es
poco probable que un solo elemento sea la mejor medida para los constructos
Recomendación: para navegar por esta controversia, sugerimos que los
complejos que son de interés en la investigación HRI, como se analiza en la Sección
investigadores se equivoquen por el lado conservador y siempre prueben los
2.2. Por lo tanto, es mejor evitar por completo la controversia entre ordinales y
supuestos de la prueba para reducir el riesgo de errores de Tipo I. Si los datos
intervalos y, en su lugar, realizar un análisis en una escala de elementos múltiples, ya
violan los supuestos y los investigadores deciden utilizar la prueba a pesar de
que las escalas de Likert se pueden analizar de forma segura con pruebas
esto, deben informar los supuestos de la prueba que no se han cumplido y el
paramétricas. Si un investigador decide analizar un elemento individual, él o ella debe
nivel en el que se violan los supuestos.
indicar claramente que lo está haciendo y reconocer las posibles implicaciones. Como
mínimo, se recomienda probar la asimetría.
3 REVISIÓN DE LOS DOCUMENTOS DE HRI
Correcciones post-hoc -La importancia de realizar correcciones post-hoc
adecuadas y probar las suposiciones son preocupaciones ampliamente 3.1 Procedimientos y limitaciones
aplicables, no específicas de los datos de Likert. Sin embargo, son Revisamos los artículos completos de HRI de los años 2016 a 2019, excluyendo
consideraciones importantes al analizar los datos de Likert y, a menudo, se alt.HRI y Late Breaking Reports, e investigamos el uso correcto de los datos de
aplican incorrectamente en los documentos de HRI. Likert durante estos años. Consideramos todos los artículos que incluyen la
A medida que aumenta el número de pruebas estadísticas realizadas en un palabra "Likert", así como los artículos que emplean técnicas de Likert pero se
conjunto de datos, las posibilidades de encontrar significación estadística al refieren a la escala con un nombre diferente. Utilizamos las siguientes palabras
azar aumentan en consecuencia, incluso si no hay una verdadera significación clave al realizar nuestra revisión: "Likert", "Likertlike", "cuestionario",
en los datos. Por lo tanto, cuando se aplica una prueba estadística a múltiples "calificación", "escala" y "encuesta". Después de filtrar en función de estas
variables dependientes que prueban la misma hipótesis, se debe aplicar una palabras clave, revisamos un total de 110 artículos. A continuación informamos
corrección post-hoc. Tal escenario surge con frecuencia cuando se aplica un sobre las siguientes categorías: 1) nombres inapropiados y terminología
análisis estadístico a elementos individuales en una escala de Likert [11]. En engañosa 2) diseño inadecuado de escalas de Likert y 3) aplicación incorrecta
2006, [3] realizó un estudio investigando si las personas nacidas de pruebas estadísticas a datos de Likert.

47
alt.HRI HRI '20 Companion, del 23 al 26 de marzo de 2020, Cambridge, Reino Unido

Figura 3: Nombre inapropiado común del término "Escala de Likert" dentro de los Procedimientos de HRI. Nota: un artículo en 2018 se refirió a un
elemento de Likert como una escala de Likert y una escala diferencial semántica como una escala de Likert, que contamos solo en la primera categoría.

Informamos sobre el número agregado de artículos que utilizaron y muestra la frecuencia y los porcentajes de artículos que utilizan cada nombre
incorrectamente el término Likert, así como artículos que diseñaron inapropiado.
escalas Likert de manera incorrecta. Nuestras observaciones
también incluyen artículos que aplican pruebas paramétricas a ítems Etiquetar incorrectamente un elemento de Likert como una escala de Likert -La
individuales de Likert, así como artículos que aplican pruebas frase "escala Likert" se refiere específicamente a la suma de un conjunto de
paramétricas a escalas de Likert pero que no verifican elementos Likert relacionados, cada elemento mide un aspecto del mismo
adecuadamente los supuestos de la prueba. Además, investigamos atributo. Una escala de Likert solicita al usuario que especifique su nivel de
el porcentaje de artículos que realizan pruebas estadísticas a acuerdo o desacuerdo con un conjunto de afirmaciones (es decir, ítems de
elementos individuales que miden diferentes aspectos del mismo Likert). Para que se utilice el término "escala de Likert", el objeto de referencia
atributo pero no aplican las correcciones post-hoc apropiadas. Por debe cumplir con estos criterios. Durante nuestra revisión, encontramos que
último, informamos el porcentaje de artículos que calculan la media las referencias a un solo elemento de Likert como una escala de Likert son
y la desviación estándar asociada con elementos individuales de omnipresentes. Por ejemplo, es común medir un atributo del robot pidiéndole
Likert. La figura 1 muestra el número de artículos que utilizaron a un participante que califique el robot de acuerdo con ese rasgo en una escala
técnicas relacionadas con Likert durante los años considerados.t(2) = de respuesta de ítems de Likert y que se refiera a esta calificación única como
−0,617,pags=0.600) que los dos factores no están correlacionados. El una escala de Likert. Si bien tal error puede no tener un impacto en la
supuesto de la prueba con respecto a la normalidad se cumplió con conclusión de los investigadores sobre la hipótesis relevante, puede ser
la prueba de Shapiro-Wilk, pero no se pudo probar la engañoso para el lector y puede implicar un resultado más sólido que el que
homocedasticidad ya que solo hay un punto de datos para cada nivel realmente se logra. Además, este nombre inapropiado puede implicar que las
(es decir, año). Revisamos cada uno de estos documentos para las pruebas estadísticas paramétricas son apropiadas cuando no lo son.
prácticas correctas. Nuestros resultados ilustran hasta qué punto los Encontramos que el 29 % de los artículos etiquetaron un elemento de Likert
datos y las escalas de Likert se utilizan indebidamente en la como una escala de Likert, y otro 14 % no proporcionó suficiente información
investigación de HRI y demuestran la necesidad de emplear mejores sobre su cuestionario para determinar si su aplicación del término fue precisa.
prácticas para garantizar la validez de los resultados.
A lo largo de nuestra revisión, nos encontramos limitados por ciertos
Etiquetar erróneamente una escala diferencial semántica como una escala de
documentos que no brindaban suficiente información para evaluar
Likert - Un "continuo semántico" consiste en un conjunto de escalas
adecuadamente si se utilizaron las mejores prácticas. Incluimos el recuento de
diferenciales semánticas similares a cómo una escala de Likert consta de varios
estos artículos ambiguos dentro de nuestros resultados en la categoría "Otros".
elementos de Likert [57]. Un continuo semántico difiere de una escala de Likert
Incluidos en esta categoría están los artículos que usaron cuestionarios de
en que utiliza una escala bipolar de antónimos y mide qué calidad tiene un
escala Likert para probar ciertas métricas subjetivas pero no indicaron el
elemento específico. Por ejemplo, un elemento de Likert puede consistir en la
número de ítems u otras propiedades sobre la escala. Esta falta de detalles
afirmación "El robot me entristece", y se le solicita al usuario que seleccione
limitó nuestra capacidad para determinar si el uso de las pruebas paramétricas
qué tan de acuerdo o en desacuerdo está con la afirmación. Por otro lado, una
era correcto. En nuestro informe, le dimos el beneficio de la duda a los
escala de diferencial semántico le pedirá al usuario que seleccione cómo lo
periódicos que no informaron suficientes detalles para verificar la fidelidad de
hace sentir el robot, desde triste hasta feliz. Se pueden sumar múltiples escalas
sus prácticas. Recomendamos como mejor práctica informar detalladamente
diferenciales semánticas que miden el mismo atributo para formar un
los procedimientos estadísticos utilizados para respaldar la revisión por pares.
"continuo semántico". Si bien es apropiado utilizar un continuo semántico en
muchos contextos, tiene importantes diferencias inherentes a una escala de
3.2 Nombres inapropiados de Likert Likert. Como tal, debemos tener cuidado de no etiquetar erróneamente uno
En primer lugar, informamos sobre los artículos que aplican incorrectamente los como el otro. Los continuos semánticos son específicamente útiles para medir
términos "Likert" o "escala de Likert". Basamos nuestro análisis en la definición de la "intensidad y dirección del significado de los conceptos" y tienen su propio
escala de Likert discutida en la Sección 2.1. La figura 3 resume nuestros hallazgos. conjunto

48
alt.HRI HRI '20 Companion, del 23 al 26 de marzo de 2020, Cambridge, Reino Unido

Figura 4: Esta figura muestra la frecuencia de artículos por año Figura 5: Esta figura ilustra la frecuencia de artículos cada año que aplican
que emplearon escalas de Likert mal diseñadas. También se incorrectamente pruebas estadísticas sobre datos de Likert. También se
reporta cada año el porcentaje de trabajos que tienen al menos informa el porcentaje de artículos por año que aplicaron incorrectamente
uno de estos Likert impropios. las pruebas estadísticas.

de requisitos para el diseño como se detalla en [20]. Encontramos que un promedio naturaleza [18]. Sin embargo, la mayoría de las pruebas paramétricas vienen

del 7% de los artículos de cada año adoptaron este nombre inapropiado. con una variedad de suposiciones que deben cumplirse antes de que la prueba
pueda aplicarse correctamente. Estas suposiciones prueban si los datos en

3.3 Diseño incorrecto de la escala de Likert cuestión podrían haber sido muestreados, estadísticamente hablando, de la
distribución subyacente asociada. Por ejemplo, un ANOVA supone que los
Junto con el uso inadecuado del término escala de Likert, también notamos
datos se extrajeron de una población distribuida normalmente y, por lo tanto,
artículos cuyo diseño o validación de una escala es cuestionable (ver Fig. 4).
se debe realizar una prueba de normalidad para verificar esta suposición.
Nuestro informe incluye artículos que utilizan escalas de Likert con muy pocos
Observamos que más del 50% de los artículos con datos de Likert de cada año
elementos, no informaron el alfa de Cronbach u otra ambigüedad dentro de la
no verificaron ni informaron sobre los supuestos asociados con la distribución
redacción del artículo que podría conducir a resultados discutibles. La
subyacente cuando optaron por realizar una prueba paramétrica.
importancia de estas consideraciones para el diseño de escalas Likert se detalla
en la Sección 2.2. Descubrimos que un promedio del 37 % de los artículos
tenían al menos uno de los errores anteriores. Correcciones post-hoc inadecuadas -En general, las correcciones post-hoc se
pueden realizar cuando varias variables dependientes prueban las mismas
3.4 Aplicación incorrecta de pruebas estadísticas hipótesis o cuando se realizan múltiples pruebas estadísticas sobre las mismas
variables. Por ejemplo, si un investigador realiza una prueba estadística en
En esta sección, informamos sobre las formas recurrentes en que las pruebas
cada elemento individual en una escala de Likert, se debe aplicar una
estadísticas se aplican incorrectamente a los datos de Likert. Descubrimos que es
corrección ya que este es un ejemplo de prueba de varias variables
común que los investigadores apliquen pruebas paramétricas a elementos
dependientes que evalúan la misma hipótesis. Además, la posibilidad de un
individuales de Likert, así como que informen estadísticas descriptivas paramétricas
error de tipo I aumenta a medida que aumenta el número de variables
de elementos individuales de Likert sin declarar sus suposiciones al hacerlo, las cuales
dependientes que se prueban. En promedio, encontramos que el 11 % de los
no son las mejores prácticas. Además, los artículos con frecuencia no verifican los
artículos con datos de Likert no tuvieron en cuenta esta mayor probabilidad de
supuestos de las pruebas paramétricas y, a menudo, no aplican las correcciones post-
error familiar cuando eligieron realizar una prueba estadística en elementos
hoc apropiadas. La figura 5 resume nuestros hallazgos.
individuales relacionados con una hipótesis. Para los artículos que informaron
Aplicación de Pruebas Paramétricas a Ítems Likert -Una prueba valores de p, realizamos una corrección de Bonferroni para determinar la
paramétrica hace ciertas suposiciones sobre la distribución de la que se validez del resultado del artículo. En promedio, el 40% de los resultados
extrajeron las muestras. Por lo tanto, ANOVA, pruebas t y otras pruebas informados en cada uno de estos documentos no fueron significativos después
estadísticas paramétricas no siempre son las más apropiadas para aplicar del ajuste. Esta falta de trascendenciano es significa que las conclusiones de los
a ítems individuales de Likert, especialmente cuando no se tiene en artículos son incorrectas, considerando la naturaleza conservadora de la
cuenta el sesgo de los datos, y su aplicación puede generar errores Tipo I corrección de Bonferonni. Más bien, esta falta sugiere que los hallazgos deben
adicionales. Para cada año de la conferencia, aproximadamente el 21 % volver a examinarse con los métodos adecuados.
de los artículos con datos de Likert aplicaron pruebas paramétricas al
Informe incorrecto de estadísticas descriptivas -Otra práctica común que
analizar elementos individuales de Likert sin probar la asimetría o detallar
encontramos es informar la media y la desviación estándar de los elementos
sus suposiciones al hacerlo. La figura 6 ilustra el número de artículos que
individuales de Likert. Un promedio del 31 % de los artículos con datos de Likert
analizaron incorrectamente elementos individuales de Likert.
de cada año informaron los resultados de sus ítems de Likert de esta manera
Verificación Inadecuada de Supuestos -Si bien no siempre es una buena descriptiva, más comúnmente a través de gráficos de barras visuales. Esta
práctica aplicar pruebas paramétricas a elementos de Likert, es aceptable práctica no es útil ya que los ítems de Likert son datos ordinales sin un
hacerlo con escalas de Likert. Esta concesión se debe a que se puede suponer concepto de media o desviación estándar en datos ordinales. Las métricas
que los datos derivados de las escalas de Likert son intervalos en descriptivas apropiadas son la mediana, la moda y el rango.

49
alt.HRI HRI '20 Companion, del 23 al 26 de marzo de 2020, Cambridge, Reino Unido

Figura 6: Esta figura muestra el número de artículos que realizaron análisis estadísticos en una escala de Likert y elementos únicos de Likert.

4. DISCUSIÓN • Se debe verificar la consistencia interna y la unidimensionalidad de las

Nuestra revisión de cuatro años de procedimientos de HRI muestra que escalas de Likert para garantizar su confiabilidad y validez.

casi todos los artículos relevantes cometieron al menos un error que • Un solo elemento de Likert no debe ser la única métrica para medir un
podría generar dudas sobre las inferencias extraídas de los datos. La constructo multifacético, ya que una declaración generalmente no es
tendencia general observada entre los cuatro años no parece mejorar, lo suficiente para capturar completamente una actitud compleja.
que nos lleva a creer que se justifica un llamado a la acción. Recomendamos tener al menos cuatro artículos.
Específicamente, debemos tratar de evitar la aplicación incorrecta del término • Alentamos la utilización de escalas Likert bien desarrolladas y
escala de Likert, diseñar escalas con un número apropiado de ítems y probar los validadas, por ejemplo, RoSAS y SUS, cuando sea posible [9, 12].
supuestos de los análisis estadísticos que se aplican. Una revisión en profundidad de
• La naturaleza ordinal de los datos de los ítems de Likert debe
los procedimientos de HRI muestra que el uso del término escala de Likert ha
tenerse en cuenta al seleccionar una prueba estadística adecuada.
adquirido una connotación más flexible, ya que descubrimos que aproximadamente
• Es importante verificar sistemáticamente y satisfacer todas las
la mitad de todos los errores de nombres inapropiados procedían de artículos que
suposiciones de las pruebas estadísticas que se aplican a los datos.
describían la escala de respuesta como una escala de Likert. Con respecto a ciertos
artículos que diseñan su propia escala de Likert para una métrica específica, el 18%
• Los experimentos deben ser replicables: se deben proporcionar detalles
completos sobre el diseño y las pruebas de los ítems y escalas de Likert.
de los artículos tienen menos de cuatro ítems para medir un constructo complejo.
Nuestra revisión también muestra que una gran cantidad de artículos no realizan • Si hay más de una medida dependiente que respalda una
correctamente el análisis estadístico en escalas de Likert. Debido a que una escala de sola hipótesis, se debe aplicar una corrección para tener
Likert es una suma de elementos de Likert, los valores resultantes se aproximan a los en cuenta el error de tipo I.
datos de intervalo, lo que permite realizar pruebas paramétricas. Sin embargo, para
que se apliquen las pruebas paramétricas, aún se debe probar el supuesto de la
6 CONCLUSIÓN
distribución subyacente; y, sin embargo, el 56% de los artículos que revisamos no
La mayoría de los artículos de HRI publicados se basan en datos de Likert
confirmaron esta suposición clave.
para obtener información sobre cómo los humanos perciben e
Finalmente, nuestro análisis no refuta las conclusiones de ningún artículo de HRI.
interactúan con los robots, lo que hace que los cuestionarios de Likert
Nuestro punto clave es que debemos esforzarnos por mejores prácticas para que
sean una parte fundamental de los estudios de HRI. En este documento,
podamos tener más confianza en las conclusiones que sacamos de los datos.
revisamos los procedimientos de HRI de 2016 a 2019 e informamos los
Nuestros hallazgos también refuerzan el apoyo reciente de los estudios de
resultados agregados del uso inadecuado de las escalas de Likert.
reproducibilidad como contribuciones completas en el campo de HRI.
Además, exploramos las implicaciones de estas infracciones a través de
una revisión de la literatura sobre simulaciones y estudios centrados en el
5 TESIS diseño incorrecto y las pruebas estadísticas de las escalas de Likert y los

Enumeramos nuestras recomendaciones para la comunidad de HRI en base a nuestra


datos asociados. Si bien es alentador que las tendencias observadas de

revisión de la literatura psicométrica y a la luz de nuestros hallazgos de las prácticas


los documentos que contienen un uso problemático de escalas y datos de

actuales de HRI. El tipo de letra en negrita se utiliza para puntos hechos en respuesta
Likert no hayan aumentado en los últimos cuatro años, creemos que

a los problemas de escala de Likert más comunes.


nosotros, como comunidad, debemos luchar por mejores prácticas. Los
autores de este documento están incluidos en este llamado a la acción.
• Referirse a una escala de respuesta como una escala de Likert es un nombre
inapropiado.En su lugar, utilice "formato de respuesta" o "escala de
respuesta" cuando discuta el rango de valores y reserve el término escala de
EXPRESIONES DE GRATITUD
Likert para cuando se refiera a todo el conjunto de elementos.
Agradecemos a Ankit Shah por sus conocimientos estadísticos y su
• Las preguntas dentro de una escala de Likert deben medir los diversos
apoyo. Este trabajo fue apoyado por fondos del instituto en el Instituto
aspectos de una y solo una actitud o construcción subjetiva.
de Tecnología de Georgia y NSF ARMS Fellowship bajo Grant # 1545287.

50
alt.HRI HRI '20 Companion, del 23 al 26 de marzo de 2020, Cambridge, Reino Unido

REFERENCIAS [25] Matthew Gombolay y Ankit Shah. 2016. Evaluación de Prácticas Estadísticas en HRI frente
[1] I. Elaine Allen y Christopher A. Seaman. 2007. Escalas de Likert y análisis de datos. a la Prueba T para Ítems/Escalas Likert. EnSerie de simposios de otoño de la AAAI de
[2] Rodrigo A. Asún, Karina Rdz-Navarro y Jesús M. Alvarado. 2016. Desarrollo de escalas de 2016.
Likert multidimensionales mediante análisis factorial de ítems: el caso de los ítems de [26] Rebecca F. Guy y Melissa Norvell. 1997. El Punto Neutro en una Escala de Likert. El
cuatro puntos.Métodos sociológicos e investigación45, 1 (2016), 109–133. https: // Diario de Psicología95, 2 (1997).
doi.org/10.1177/0049124114566716 [27] W. Penn Handwerker. 1996. Construcción de escalas de Likert: prueba de validez y
[3] Peter C. Austin, Muhammad M. Mamdani, David N. Juurlink y Janet E. Hux. 2006. La confiabilidad de medidas únicas de variables multidimensionales.Métodos de
prueba de múltiples hipótesis estadísticas dio como resultado asociaciones espurias: un Antropología Cultural8 (1996).
estudio de los signos astrológicos y la salud.Revista de Epidemiología Clínica59, 9 [28] Patrick M Horan, Christine Distefano y Robert W Motl. 2009. Efectos de redacción en
(2006), 964–969. https://doi.org/10.1016/j.jclinepi.2006.01.012 escalas de autoestima: ¿artefacto metodológico o estilo de respuesta? 5511 (2009).
[4] N Balasubramanian. 2012. Técnica Likert de Construcción de Escalas de Actitud en Investigación
https://doi.org/10.1207/S15328007SEM1003
en Enfermería.Métodos de Antropología Cultural2 (2012).
[29] Susan Jamieson. 2004. Escalas Likert: Cómo (ab)usarlas.Educación médica38, 12
[5] AW Bendig. 1953. La confiabilidad de las autoevaluaciones en función de la (2004), 1217–1218. https://doi.org/10.1111/j.1365-2929.2004.02012.x
cantidad de anclaje verbal y del número de categorías en la escala. 37, 1 (1953), [30] Robert Johns. 2006. Una talla no sirve para todos: selección de escalas de respuesta para
38–41. ítems de actitud. 7289 (2006). https://doi.org/10.1080/13689880500178849
[6] Lars Bergkvist y John R. Rossiter. 2007. La validez predictiva de medidas de elementos múltiples
[31] Ankur Joshi, Saket Kale, Satish Chandel y D. Pal. 2015. Escala de Likert: explorada y
versus medidas de elementos únicos de los mismos constructos. 2437 (2007).
explicada.Revista británica de ciencia y tecnología aplicadas7, 4 (2015), 396–403. https://
[7] Phillip A Bishop y Robert L Herron. 2015. Uso y mal uso de las respuestas al ítem doi.org/10.9734/bjast/2015/14975
Likert y otras medidas ordinales.revista internacional de ciencia del ejercicio [32] Hae Young Kim. 2015. Notas estadísticas para investigadores clínicos: comparaciones
8, 3 (2015), 297–302. http://www.ncbi.nlm.nih.gov/pubmed/27182418{%}0Ahttp: // múltiples post-hoc.Odontología Restauradora y Endodoncia40, 2 (2015), 172. https: //
www.pubmedcentral.nih.gov/articlerender.fcgi?artid=PMC4833473 doi.org/10.5395/rde.2015.40.2.172
[8] Clifford R Blair. 1981. Una reacción a "Consecuencias del incumplimiento de los [33] WR Krosnick, JA, Narayan, SS y Smith. 1996.Satisfacción en encuestas: evidencia
supuestos subyacentes al análisis de efectos fijos de varianza y covarianza".Revisión de inicial.San Francisco:.
la investigación educativa51, 4 (1981), 499–507. [34] Björn Lantz. 2013. Equidistancia de escalas tipo Likert y validación de métodos
[9] Juan Brooke. 1996. SUS: una escala de usabilidad rápida y sucia. EnEvaluación de usabilidad en la
inferenciales mediante experimentos y simulaciones. 11, 1 (2013), 16–28.
industria. Prensa CRC, 189–200.
[35] Jihyun Lee e Insu Paek. 2014. En busca del número óptimo de categorías de respuesta en
[10] James Cariño y Rocco Perla. 2008. Resolviendo el debate de 50 años sobre el uso y el mal una escala de calificación. 1 (2014). https://doi.org/10.1177/0734282914522200
uso de las escalas de Likert. (2008), 1150–1152. https://doi.org/10.1111/j.1365- [36] Shing On Leung y Meng Lin Xu. 2013. Medidas de un solo elemento para el rendimiento
2923.2008.03172.x académico subjetivo, la autoestima y el estado socioeconómico. 8376 (2013). https://
[11] James Cariño y Rocco J. Perla. 2007. Diez malentendidos comunes, conceptos erróneos, doi.org/10.1080/01488376.2013.794757
mitos persistentes y leyendas urbanas sobre las escalas de Likert y los formatos de [37] Rensis Likert. 1932. UNA TÉCNICA PARA LA MEDICIÓN DE ACTITUDES.
respuesta de Likert y sus antídotos.Revista de Ciencias Sociales3, 3 (2007), 106–116. Archivos de Psicología(1932).
https://doi.org/10.3844/jssp.2007.106.116 [38] Theodore M. Madden y Frederick J. Klopfer. 1978. La opción "No puedo decidir"
[12] Colleen M. Carpinella, Alisa B. Wyman, Michael A. Pérez y Steven J. Stroessner. 2017. La en las escalas de actitud tipo Thurstone.Medición Educativa y Psicológica (1978),
Escala Robótica de Atributos Sociales (RoSAS): Desarrollo y Validación. Conferencia 259–264.
internacional ACM/IEEE sobre interacción humano-robotParte F1271 (2017), 254–262. [39] Michael S. Matell y Jacob Jacoby. 1971. ¿Existe un número óptimo de alternativas
https://doi.org/10.1145/2909824.3020208 para los elementos de la escala Likert? Estudio 1: Fiabilidad y validez.Medición
[13] Flavia Chiarotti. 2004. Detección de violaciones de suposiciones en el análisis de varianza de
Educativa y Psicológica31, 3 (1971), 657–674. https://doi.org/10.1177/
modelo mixto.Ann Ist Super Sanidad40, 2 (2004), 165–171.
001316447103100307
[14] Dennis L. Clason y Thomas J. Dormody. 1994. Análisis de datos medidos por elementos [40] Gary E. Meek, Ceyhun Ozgur y Kenneth Dunning. 2007. Comparación de la prueba t vs.
individuales tipo Likert.Revista de Educación Agrícola35, 4 (1994), 31–35. https://doi.org/ Wilcoxon Signed-Rank para datos de escala Likert y muestras pequeñas.Revista de
10.5032/jae.1994.04031 métodos estadísticos aplicados modernos6, 1 (2007), 91–106. https://doi.org/10.22237/
[15] Bradley Courtenay y Craig Weidemann. 1985. Los efectos de una respuesta de “No sé” en los
jmasm/1177992540
cuestionarios de hechos sobre el envejecimiento de Palmore.el gerontólogo2, 2 (1985), 117–181.
[41] Ranjeev Mittu, Donald Sofge, Alan Wagner y WF Lawless. 2016.Inteligencia
robusta y confianza en sistemas autónomos. 1–270 páginas. https://doi.org/10.
[16] James C. Creech y David Richard Johnson. 2019. Medidas ordinales en modelos de 1007/978-1-4899-7668-0
indicadores múltiples: un estudio de simulación del error de categorización Autor(es): [42] Pam Moule. 2015.Dar sentido a la investigación en enfermería, salud y atención social.
David Richard Johnson y James C. Creech Fuente: American Sociological Review Publicaciones SAGE Ltd.
, vol . 48, núm. 3 (junio de 1983), págs. 398-407 Publicado por: Amer. 48, 3 (2019), 398– [43] Shinichi Nakagawa. 2004. Adiós a Bonferroni: Los problemas del bajo poder estadístico y
407. el sesgo de publicación.Ecología del Comportamiento15, 6 (2004), 1044–1045. https: //
[17] A. de Boer y P. van Lanschot, J., Stalmeier. 2004. ¿Es una escala analógica visual de un solo ítem
doi.org/10.1093/beheco/arh107
[44] Michael J Nanna. 1998. Análisis de los datos de la escala de Likert en investigación sobre
tan válida, confiable y receptiva como las escalas de múltiples ítems para medir la calidad de
discapacidad y rehabilitación médica. 3, 1 (1998), 55–67.
vida?Investigación de calidad de vida13, 2 (2004), 311–320.
[18] Ben Derrick y Paul White. 2017. Comparación de dos muestras de una pregunta [45] Tomoko Nemoto y David Beglar. 2013. Desarrollo de cuestionarios de escala Likert. Actas
individual de Likert.Revista Internacional de Matemáticas y Estadística(2017). de la conferencia JALT2013(2013).
[19] Adamantios Diamantopoulos, Marko Sarstedt, Christoph Fuchs, Petra Wilczynski y [46] JC Nunnally y I. H Bernstein. 1994.Teoría Psicométrica(3ra ed.). McGraw-Hil, Nueva York,
Sebastian Kaiser. 2012. Pautas para elegir entre escalas de elementos múltiples y de un Nueva York, Estados Unidos.
solo elemento para la medición de constructos: una perspectiva de validez predictiva. [47] Carolyn C Preston y Andrew M Colman. 2000. Número óptimo de categorías de
(2012), 434–449. https://doi.org/10.1007/s11747-011-0300-3 respuesta en las escalas de calificación: confiabilidad, validez, poder de discriminación
[20] Oddgeir Friburgo, Monica Martinussen y Jan H. Rosenvinge. 2006. Puntuaciones basadas y preferencias de los encuestados. 104 (2000), 1–15.
en Likert vs. basadas en diferencial semántico de constructos psicológicos positivos: [48] Lena C Quilty, Jonathan M Oakman, Evan Risko, Lena C Quilty, Jonathan M Oakman y
Una comparación psicométrica de dos versiones de una escala que mide la resiliencia. Evan Risko. 2009. Correlatos de los efectos del método de la escala de autoestima de
Personalidad y diferencias individuales40, 5 (2006), 873–884. https://doi.org/10. 1016/ Rosenberg. 5511 (2009). https://doi.org/10.1207/s15328007sem1301
j.pagado.2005.08.015 [49] John R. Rossiter. 2002. El procedimiento C-OAR-SE para el desarrollo de escala en
[21] Anne M Gadermann, Martin Guhn, Bruno D Zumbo y Columbia Británica. 2012. marketing. 19 (2002), 305–335.
[50] Kristin E. Schaefer. 2016.Medición de la Confianza en las Interacciones Humano-Robot: Desarrollo
Estimación de la confiabilidad ordinal para datos de respuesta de ítems ordinales y de
de la “Escala de Percepción de Confianza-HRI”. Springer EE. UU., Boston, MA, 191–218. https://
tipo Likert: una guía conceptual, empírica y práctica. 17, 3 (2012).
doi.org/10.1007/978-1-4899-7668-0_10
[22] Gene V Glass, Percy D Peckham y James R Sanders. 1972. Consecuencias del
[51] Howard Schuman y Stanley Presser. 1981.Preguntas y respuestas en encuestas de actitud.
incumplimiento de los supuestos subyacentes a los análisis de efectos fijos de varianza
Academic Press, Nueva York, Nueva York, Estados Unidos.
y covarianza. (1972).
[23] Joseph A. Gliem y Rosemary R. Gliem. 2003. Cálculo, interpretación e informe del [52] Leonard J Simms, Kerry Zelazny, Trevor F Williams y Lee Bernstein. 2019. ¿Importa el
coeficiente de confiabilidad alfa de Cronbach para escalas tipo Likert.Midwest número de opciones de respuesta? Perspectivas psicométricas utilizando datos del
Research to Practice Conference en educación de adultos, continua y cuestionario de personalidad. 31, 4 (2019), 557–566.
comunitaria Cálculo,(2003). https://doi.org/10.1016/B978-0-444-88933-1.50023-4 [53] Basu Prasad Subedi. 2016. Uso de datos de tipo Likert en la investigación en ciencias
[24] Chelsea Goforth. 2016. Uso e interpretación del alfa de Cronbach. https: // sociales: confusión, problemas y desafíos.Revista Internacional de Ciencias Aplicadas
data.library.virginia.edu/usando-e-interpretando-cronbachs-alfa/ Contemporáneas3, 2 (2016), 2308–1365. www.ijcas.net
[54] Keith S. Taber. 2018. El uso del alfa de Cronbach al desarrollar e informar instrumentos
de investigación en la educación científica.Investigación en Ciencias de la Educación48,

51
alt.HRI HRI '20 Companion, del 23 al 26 de marzo de 2020, Cambridge, Reino Unido

6 (2018), 1273–1296. https://doi.org/10.1007/s11165-016-9602-2 [59] Rebeca Warner. 2012.Estadística Aplicada Desde Técnicas Bivariadas A
[55] Mohsen Tavakol y Reg Dennick. 2011. Dar sentido al alfa de Cronbach. revista Multivariadas. Publicaciones de salvia. 1–40 páginas.
internacional de educacion medica2 (2011), 53–55. https://doi.org/10. 5116/ [60] Fern Willits, Gene Theodori y AE Luloff. 2016. Otro vistazo a las escamas de Likert * fern
ijme.4dfb.8dfd k. voluntad 31, agosto de 2015 (2016), 126–139.
[56] Eric van Sonderen, Robbert Sanderman y James C. Coyne. 2013. Ineficacia de la redacción [61] Huiping Wu y Shing-on Leung. 2017. ¿Se pueden tratar las escalas de Likert como escalas de
inversa de los elementos del cuestionario: Aprendamos de las vacas bajo la lluvia. intervalo?— Un estudio de simulación.Revista de investigación de servicios sociales43, 4 (2017),
Más uno8, 7 (2013), 1–7. https://doi.org/10.1371/journal.pone.0068967 527–532. https://doi.org/10.1080/01488376.2017.1329775
[57] Tibert Verhagen, Bart van den Hooff y Selmar Meents. 2015. Hacia un mejor uso [62] J. Yamaguchi. 1997. Redacción positiva versus negativa.Transacciones de
del diferencial semántico en la investigación de SI: un marco integrador de medición de Rasch11 (1997).
acción sugerida.Revista de la Asociación de Sistemas de Información16, 2 (2015), [63] Ting Yan y Roger Tourangeau. 2008. Tiempos rápidos y preguntas fáciles: los efectos de la edad, la
108–143. experiencia y la complejidad de las preguntas en los tiempos de respuesta de las encuestas
[58] Andrew J. Vickers. 2019. Comparación de una medida de resultado ordinal y web. 68, febrero de 2007 (2008), 51–68. https://doi.org/10.1002/acp
continua del dolor muscular. 4, 1999 (2019), 709–716.

52

También podría gustarte