Está en la página 1de 17

1

TEMA 5. MÉTODO DE ESCALAMIENTO UNIDIMENSIONAL DE LIKERT.

1. INTRODUCCIÓN.

2. SUPUESTOS.

3. CONSTRUCCIÓN DE UNA ESCALA LIKERT.

4. INTERPRETACIÓN DE LAS PUNTUACIONES.

5. VALORACIÓN.

1. INTRODUCCIÓN.

El método de escalamiento de Likert es el método más utilizado en


Psicología para medir actitudes, y su uso se ha extendido a la medición de
otros constructos, como por ejemplo las dimensiones de personalidad.

Likert (1932) propuso su método de escalamiento a finales del primer


tercio del siglo XX. Previamente, Thurstone (1928) había propuesto un método
para la medición de actitudes que implicaba la participación de sujetos que
desempeñaban el papel de jueces (el método de los intervalos aparentemente
iguales). Según Thurstone (1928), el número de jueces debeía oscilar entre
200 y 300. La tarea de estos sujetos consistía en valorar un conjunto de ítems.
A partir de estas valoraciones, se calibraban los ítems, es decir, se estimaba el
valor del ítem en la escala. Una vez se disponía de un conjunto de ítems
calibrados que constituían un cuestionario, éste se aplicaba al grupo de sujetos
que se deseaba estudiar, y se les pedía que marcaran los ítems con los que
estaban de acuerdo y aquéllos con los que disentían. La puntuación de cada
persona consistía en la media de los valores de los ítems con los que estaban
de acuerdo. El empleo de un número elevado de jueces y la necesidad de
calibrar los ítems hacían que este método fuera muy costoso y laborioso.
Asimismo, el método de Thurstone implicaba una serie de supuesto
estadísticos que no habían sido verificados, por ejemplo, que los valores de
escala de los enunciados son independientes de la distribución de actitudes de
los jueces que los valoran (Likert, 1932).

Tras reconocer la importancia de las aportaciones de Thurstone en el


terreno de la medición de las actitudes, Likert (1932) se preguntó si la
construcción de escalas de medida mediante procedimientos más sencillos
daría resultados tan buenos como los obtenidos por Thurstone en cuanto a la
fiabilidad y validez de las medidas, y si sería posible construir escalas evitando
asumir supuestos estadísticos innecesarios. Así pues, el objetivo principal de
Likert (1932) fue desarrollar un método de medición de actitudes sencillo y
simple.
2

Brevemente, el método de medición de Likert consiste en la presentación a los sujetos de


una serie de ítems o enunciados ante los que tienen que expresar su posición escogiendo una
alternativa de respuesta entre las ofrecidas. Por ejemplo, imaginemos que uno de los ítems que
componen una escala de actitud hacia la pena de muerte dijera: “La pena de muerte debe abolirse”,
y que las alternativas de respuesta ofrecidas para contestar el ítem fueran:
1. Completamente en desacuerdo.
2. En desacuerdo.
3. Indeciso.
4. De acuerdo.
5. Completamente de acuerdo.
Un sujeto que tuviera una actitud contraria a la pena de muerte contestaría 4 o 5. Una vez
que el sujeto a contestado todos los ítems, la puntuación del sujeto en el cuestionario se determina
sumando o promediando los valores de las alternativas de respuesta escogidas ante cada ítem
(Likert, 1932). Por esta razón las escalas o cuestionarios construidos siguiendo este método se
denominan escalas sumativas.

2. SUPUESTOS.

Likert no elaboró un modelo matemático que fundamentara su método de escalamiento. No


obstante, su método implica una serie de supuesto que conviene conocer. Estos supuestos pueden
calificarse de débiles porque no son muy restrictivos ni difíciles de asumir.

El método de Likert es un método de escalamiento centrado en los sujetos (Torgerson,


1958). Su objetivo es medir sujetos, mostrar las diferencias individuales en relación con una
determinada actitud. Por ello, se asume que la variabilidad observada en las respuestas de los
sujetos se debe a diferencias entre éstos, esto es, a que tienen niveles de actitud diferentes.

El método de Likert no pretende medir o calibrar los ítems. Éstos son considerados
réplicas unos de otros, es decir, se supone que todos tiene el mismo valor de escala.

Asimismo, se supone que cada ítem presenta una relación monotónica con la actitud
subyacente que pretende medir. Esto quiere decir que cuanto más favorable o positiva sea la actitud
de un sujeto, mayor será la puntuación que obtendrá en el ítem, y cuanto más desfavorable o
negativa sea la actitud de un sujeto, menor será la puntuación que obtendrá en el ítem.
Gráficamente, esta relación puede representarse de la siguiente forma:

Figura 1. Relación monotónica entre el ítem y el continuo de la actitud.

Puntuación
ítem

-
- ACTITUD +
3

Por último, al tratarse de un método de escalamiento unidimensional, se supone que los


ítems miden una única actitud subyacente. Este es el supuesto de unidimensionalidad.

3. CONSTRUCCION DE UNA ESCALA LIKERT.

La construcción de una escala Likert para medir actitudes implica las siguientes tareas:

1. Elaborar una base o banco inicial de items.


2. Determinar cómo se puntuarán los ítems y cómo se obtendrán las
puntuaciones de los sujetos.
3. Análisis y selección de ítems.
4. Evaluación de la fiabilidad y validez de la escala.

3.1. Elaboración de una base o banco inicial de ítems.

La elaboración de un instrumento de medida psicológica comienza con la definición de


aquéllo que queremos medir. A continuación, hay que escribir un conjunto suficientemente amplio
de ítems o enunciados acerca de la actitud en cuestión. Este conjunto de ítems configura el banco o
base inicial de ítems. Es importante que el número de ítems sea, como se ha dicho, suficientemente
amplio, pues hay que evitar que en el caso de que haya que eliminar algunos ítems debido a su baja
calidad, nos quedemos al final del proceso con una escala compuesta por pocos ítems que no
muestreen suficientemente la actitud a medir, y que no permita mostrar las diferencias individuales
existentes.

A la hora de elaborar ítems es conveniente considerar los siguientes criterios (Likert, 1932):
1. Un criterio general es que los ítems tienen que ser redactados de tal manera que
dos personas con actitudes diferentes (por ejemplo, una con una actitud favorable y otra con
una actitud desfavorable) lo contesten de manera diferente. Un ítem que pueda ser
respondido de igual forma por dos personas con actitudes diferentes es un ítem inadecuado.
2. Los ítems deben expresar comportamientos deseados o juicios de valor, no hechos.
Dos personas con actitudes diferentes ante la pena de muerte seguramente estarán de
acuerdo en lo que dice el siguiente enunciado: “La pena de muerte acaba con la vida de las
personas”. Este enunciado es un enunciado de hecho, y no es útil para discriminar entre dos
personas con actitudes diferentes. En cambio, ante un enunciado valorativo como “La pena
de muerte es un crimen”, dos personas con actitudes diferentes contestarían de manera
distinta. Una persona a favor de la pena de muerte estaría en desacuerdo con el enunciado;
una persona en contra de la pena de muerte estaría de acuerdo.
3. Los enunciados deben ser expresados de una manera clara, concisa y directa. Para
lograr este objetivo, resulta útil utilizar el vocabulario más sencillo posible, de manera que
las personas con un nivel cultural más bajo pertenecientes al grupo al que va dirigido el
cuestionario puedan entender los ítems. La experiencia señala que es preciso evitar frases
con dobles negaciones, incluso con una sola negación. Los enunciados con doble sentido, y
los compuestos por varias frases también deben evitarse, ya que pueden producir
ambigüedad o confusión en los sujetos.
4. A fin de evitar que los sujetos respondan de una manera estereotipada, Likert
(1932) recomendó que aproximadamente la mitad de los ítems representaran
manifestaciones de actitudes positivas o favorables, y la otra mitad de los ítems
constituyeran manifestaciones de actitudes negativas o desfavorables. Por ejemplo,
imaginemos que estamos construyendo un cuestionario de actitudes hacia la escuela para
adolescentes. Un ítem favorable podría ser: “La escuela es divertida”. Un ítem desfavorable
podría ser: “La escuela es un rollo”. Obsérvese que si los sujetos utilizan una escala de
4

respuesta de desacuerdo-acuerdo de cinco puntos como la presentada anteriormente, un


sujeto con una actitud muy favorable hacia la escuela contestará los ítems favorables con
cincos, mientras que responderá los ítems desfavorables con unos. Lo contrario ocurrirá en
el caso de un sujeto con una actitud mus desfavorable hacia la escuela. Así pues, si el
cuestionario contiene tanto ítems favorables como desfavorables, ningún sujeto debería
responder a los ítems con una respuesta estereotipada, como por ejemplo, contestar siempre
“5. Completamente de acuerdo”. Es imposible estar de acuerdo con ítems favorables a la
escuela y con ítems desfavorables. Si encontramos algún sujeto que ha contestado de esta
manera estereotipada, seguramente lo habrá hecho sin prestar atención al contenido de los
ítems, y por ello, es conveniente eliminarlo de la base de datos.

3.2. Puntuación de los ítems y de los sujetos.

Likert (1932) ensayó diversas formas de puntuar los ítems. La más sencilla de todas ellas
consistía en asignar puntuaciones de 1 a 5 a cada una de las cinco alternativas de respuesta de
desacuerdo-acuerdo presentadas anteriormente (1. Completamente en desacuerdo; 2. En
desacuerdo; 3. Indeciso; 4. De acuerdo; 5. Completamente de acuerdo). Comprobó que esta forma
de puntuar los ítems ofrecía resultados muy similares a los obtenidos mediante otras técnicas más
complejas y costosas (como por ejemplo, los valores sigma). Actualmente, esta forma de puntuar
los ítems también se conoce como puntuación mediante números enteros (Andrich &
Schoubroeck, 1989).

Las escalas de respuesta empleadas para puntuar los ítems de una escala Likert pueden
presentar un número diferente de alternativas de respuesta. Las escalas con cinco alternativas son
muy frecuentes. Pero no es extraño encontrar escalas de respuestas con cuatro, seis y siete
alternativas. Las escalas con números pares omiten la categoría de respuesta central, que suele ser
“Indeciso”, “Indiferente”, “No estoy seguro”, o “Ni de acuerdo ni en desacuerdo”. Existe cierto
debate sobre si la categoría central debería incluirse o no. Algunos investigadores han
recomendado el uso de la categoría de respuesta central (Edwards, 1957;
Newman, 1979; Sudman y Bradburn, 1989), argumentando que es preferible
no forzar las respuestas de los sujetos indecisos hacia un polo (acuerdo o
desacuerdo) que podría no describirles. Sin embargo, otros estudios han
cuestionado el uso de las categorías centrales porque éstas pueden atraer a
las personas que las seleccionan por razones diferentes de cuál es su posición
en la actitud medida (Bock y Jones, 1968; Worthy, 1969; Kaplan, 1972; Dubois
y Burns, 1975). Investigaciones recientes sobre este tema han revelado que
casi un 50% de los sujetos que responde mediante diferentes tipos de
categorías de respuesta centrales lo hace por razones diferentes a la de estar
en el punto medio de la dimensión medida (Espejo, 1998; Espejo y González-
Romá, 1999). Otros estudios han mostrado que incluso los sujetos con niveles
medios en la dimensión medida, tiene una probabilidad muy pequeña de
contestar utilizando la categoría central, y es más probable que respondan
utilizando otras categorías de respuesta adyacentes, como “En desacuerdo” o
“De acuerdo” (Andrich, de Jong y Sheridan, 1997; Hernández, Espejo,
González-Romá y Gómez-Benito, en prensa; Espejo y González-Romá, 2001).
Así pues, en base a los más recientes resultados de la investigación sobre el
tema, parece que la utilidad de la categoría de respuesta central está
seriamente cuestionada.
5

Las escalas de respuesta con seis alternativas suelen ser muy similares
a la siguiente:
1. Completamente en desacuerdo.
2. Bastante en desacuerdo.
3. Algo en desacuerdo.
4. Algo de acuerdo.
5. Bastante de acuerdo.
6. Completamente de acuerdo.

Las escalas de respuesta que presentan siete alternativas incluyen en la escala anterior una
categoría de respuesta central a la que se le asigna la puntuación de 4.

Todas las escalas de respuesta que se utilizan en las escalas Likert son politómicas, pues
presentan más de dos alternativas de respuesta. Además, son escalas de respuesta ordenadas o
graduadas, ya que la asignación de los números enteros a las distintas respuestas constituye una
escala ordinal. A partir de las puntuaciones obtenidas por distintos sujetos en un mismo ítem,
podemos hacer inferencias acerca de quiénes tienen una actitud más o menos favorable, pero no
podemos determinar cuál es la distancia entre sujetos que responden con alternativas diferentes.

Una vez se ha determinado cómo se puntuará cada ítem, pero antes de calcular la
puntuación de cada sujeto en el cuestionario, hay que detectar los ítems invertidos y transformar la
puntuación obtenida en ellos de manera que tenga el mismo significado que la puntuación obtenida
en el resto de ítems. Como señalamos anteriormente, Likert (1932) recomendó que
aproximadamente la mitad de los ítems representaran manifestaciones de actitudes positivas o
favorables, y la otra mitad de los ítems constituyeran manifestaciones de actitudes negativas o
desfavorables. Si se sigue este criterio, nos encontraremos con que no todos los ítems están
redactados en el mismo sentido, y esto tiene importantes repercusiones en el significado de las
puntuaciones de los ítems. Volvamos a nuestro ejemplo del cuestionario de actitudes hacia la
escuela. Una puntuación de 5 (Completamente de acuerdo) a un ítem favorable (“La escuela es
divertida”), no tiene el mismo significado que una puntuación de 5 a un ítem desfavorable (“La
escuela es un rollo”). En el primer caso la puntuación denota una actitud favorable, mientras que en
el segundo indica una actitud desfavorable. Por ello, estas puntuaciones no pueden sumarse para
obtener una puntuación de los sujetos. Previamente, es preciso que todas las puntuaciones en los
ítems estén en la misma dirección. Para ello se procede a transformar las puntuaciones de los ítems
que no estén redactados en el sentido que más interesa. Por ejemplo, si interesa obtener una
puntuación que indique el grado de actitud hacia la escuela de manera que a mayor puntuación se
pueda inferir una actitud más favorable, entonces habrá que transformar los ítems que denotan una
actitud desfavorable. Antes de la transformación, estos ítems suelen denominarse ítems invertidos.

Cuando se trabaja con una base de datos grande, la transformación de los ítems invertidos
puede realizarse fácilmente con la ayuda de un programa estadístico de análisis de datos, o incluso
con una hoja de cálculo, implementando una fórmula de transformación. Si la escala de respuesta
empleada presenta como valor más pequeño el 1 (que es lo más frecuente), entonces la fórmula de
transformación es:
Pi = (Pm+1) - Po
donde:
Pi : puntuación transformada en el ítem invertido lista para calcular la puntuación total en
el cuestionario;
Pm : puntuación máxima que puede darse al ítem;
Po : puntuación original obtenida en el ítem invertido.
6

Si la escala de respuesta utilizada para contestar los ítems presenta como valor más
pequeño el cero, entonces la fórmula de transformación es:

Pi = Pm - Po

Por ejemplo, supongamos que un sujeto ha contestado cuatro ítems del cuestionario de
actitudes hacia la escuela utilizando una escala de respuesta de 6 puntos como la presentada en este
mismo apartado. Imaginemos que sus puntuaciones en los ítems son las siguientes:

Items Puntuación (Po)


1. La escuela es divertida....................................................5
2. En la escuela aprendo cosas útiles...................................6
3. La escuela es un rollo......................................................2
4. En la escuela pierdo el tiempo.........................................1

Los ítems 1 y 2 manifiestan una actitud favorable, mientras que los ítems 3 y 4 denotan una actitud
desfavorable. Procedamos ahora a transformar los ítems 3 y 4 aplicando la fórmula
correspondiente. Como la escala de respuesta oscila entre 1 y 6, aplicaremos la fórmula P i =
(Pm+1) - Po.

Items Puntuación (Po) Puntuación transformada (Pi)


3. La escuela es un rollo...................................2.....................................(6+1)-2 = 5
4. En la escuela pierdo el tiempo......................1.....................................(6+1)-1 = 6

Ahora que ya hemos transformado las puntuaciones obtenidas en los ítems invertidos,
podemos calcular la puntuación total de cada sujeto en el cuestionario. Como se indicó al comienzo
de este tema, la puntuación total de un sujeto en el cuestionario se determina sumando o
promediando los valores de las alternativas de respuesta escogidas ante cada ítem (Likert, 1932),
razón por la que las escalas o cuestionarios construidos siguiendo este método se denominan
escalas sumativas. En el ejemplo anterior, la puntuación total del sujeto sería:

Items Puntuación
1. La escuela es divertida....................................................5
2. En la escuela aprendo cosas útiles...................................6
3. La escuela es un rollo......................................................5
4. En la escuela pierdo el tiempo.........................................6
Puntuación total (suma)......................................................22

3. 3. Análisis y selección de ítems.

Una vez que ya se ha elaborado un banco inicial de ítems, y se ha aclarado cómo se


puntuará cada uno de ellos y cómo se obtendrá la puntuación de cada sujetos, se inicia la fase de
análisis cuantitativo de los ítems. El banco de ítems ha de aplicarse a una muestra que sea
representativa de la población a la cual va dirigida el test. Esta muestra proporcionará los datos que
utilizaremos para realizar el análisis cuantitativo de los ítems.

Likert propuso dos tipos de análisis: 1. un análisis correlacional de los ítems, y 2. un


análisis basado en el criterio de consistencia interna (Likert, 1932; McIver y Carmines, 1981).
7

3.3.1. Análisis correlacional de los ítems.

El análisis correlacional consiste en calcular la correlación entre cada ítem y la puntuación


total en el cuestionario o test (es decir, la suma de todos los ítems). Esta correlación es conocida en
el marco de la Teoría Clásica de los Tests como índice de homogeneidad (IH). Si el ítem analizado
mide lo mismo que el resto de ítems, el índice de homogeneidad será elevado, de manera que los
sujetos que puntúan alto en el ítem, también tenderán a puntuar alto en el cuestionario, y los sujetos
que puntúan bajo en el ítem, tenderán a puntuar bajo en el cuestionario. Si el índice de
homogeneidad es bajo o cercano a cero, entonces el ítem analizado no mide lo que mide el resto de
ítems. Likert denominó a los ítems con un índice de homogeneidad bajo como ítems
indiferenciadores (Likert, 1932).

Los ítems indiferenciadores aportan escasa o ninguna información útil sobre la actitud que
se está midiendo, por ello no tiene sentido combinarlos con el resto de ítems para obtener una
puntuación total (McIver y Carmines, 1981). Además, como demuestra la Teoría Clásica de los
Tests, su uso puede perjudicar a la fiabilidad y a la validez del test. Por todo ello, los ítems
indiferenciadores deben eliminarse.

El cálculo del índice de homogeneidad como la correlación entre la puntuación en el ítem y


la puntuación en el test (en adelante, correlación ítem-test) tiene el siguiente inconveniente: la
puntuación total en el test incluye al ítem como componente, es decir, el ítem analizado aparece en
las dos variables que se correlacionan, y esto aumentará artificialmente el coeficiente de correlación
que se obtenga. Para evitar este efecto, lo que se hace es calcular la correlación entre el ítem y el
test una vez que se ha eliminado de este último la contribución del ítem. Esta correlación recibe el
nombre de índice de homogeneidad corregido(IHc), y se indica mediante la expresión ri(T-i) . La
fórmula para calcular el índice de homogeneidad corregido es (Peters y Van Vorhis, 1940):

donde, riT es la correlación ítem-  


que muestran las puntuaciones
  test, Si es la desviación típica
en el ítem, y ST es la
desviación típica que presentan las puntuaciones en test.

Para interpretar el índice de homogeneidad corregido suele tomarse como valor de


referencia 0.20. De manera que todos los ítems que presentan r i(T-i) con valores inferiores a 0.20 son
eliminados del banco de ítems por ser indiferenciadores.

Ejemplo de cálculo.

Supongamos que 16 sujetos han contestado a los cuatro ítems del cuestionario de actitudes
hacia la escuela que utilizamos anteriormente. Después de transformar los ítems invertidos, se han
calculado las puntuaciones en el test. Las puntuaciones en los ítems después de realizar las
transformaciones y en el test aparecen en la tabla que se muestra a continuación. Vamos a ilustrar
cómo calcularíamos el índice de homogeneidad corregido (IHc) del ítem 1.
8

SUJETOS ITEM1 ITEM2 ITEM3 ITEM4 TEST


1 4 5 5 4 18
La fórmula de cálculo del IHc
2 2 2 1 2 7
implica la obtención del IH y de
3 5 6 4 5 20
4 3 2 3 3 11
las desviaciones típicas del test y
5 5 6 4 5 20 del ítem. Recordemos que las
6 2 1 1 1 5 fórmulas para calcular el
7 5 3 2 5 15 coeficiente de correlación de
8 4 5 5 5 19 Pearson y la desviación típica son:
9 2 1 1 2 6
10n 3 2n 1 2 1 7

11 zx
I

z y
I
2 3
 Xi1X 2 8 donde n es el tamaño de la
r
xy
12
i
1 4 Sx 5 
i1 6 4 19 muestra, y z denota puntuaciones
13 n 2 3 n 1 1 7 típicas.
14 4 5 4 6 19
15 1 2 1 2 6
16 4 5 6 5 20
9

En la tabla siguiente, se muestran los estadísticos necesarios para calcular IH. Tan sólo hay
que recordar que en nuestro caso la variable X es el ítem 1, y la variable Y la puntuación en el test.
Así pues, vemos que Szítem1 ztest = 13.47, es decir, ya tenemos el valor del sumatorio del producto
cruzado de las puntuaciones típicas, que es el numerador de la fórmula del coeficiente de
correlación.

SUJETOS ITEM1 ITEM2 ITEM3 ITEM4 TEST ZITEM1 ZTEST ZITEM1 X ZTEST
1 4 5 5 4 18 0,58 0,81 0,47
2 2 2 1 2 7 -0,97 -0,95 0,92
3 5 6 4 5 20 1,36 1,13 1,54
4 3 2 3 3 11 -0,19 -0,31 0,06
5 5 6 4 5 20 1,36 1,13 1,54
6 2 1 1 1 5 -0,97 -1,27 1,23
7 5 3 2 5 15 1,36 0,33 0,45
8 4 5 5 5 19 0,58 0,97 0,57
9 2 1 1 2 6 -0,97 -1,11 1,08
10 3 2 1 1 7 -0,19 -0,95 0,18
11 2 3 1 2 8 -0,97 -0,79 0,77
12 4 5 6 4 19 0,58 0,97 0,57
13 2 3 1 1 7 -0,97 -0,95 0,92
14 4 5 4 6 19 0,58 0,97 0,57
15 1 2 1 2 6 -1,74 -1,11 1,94
16 4 5 6 5 20 0,58 1,13 0,66
SUMA 13,47
MEDIA 3,25 3,50 2,88 3,31 12,94
D.T. 1,29 1,75 1,96 1,74 6,23

Luego, el valor del IH será:

IH=r it =
∑ z ítem 1⋅ztest =13 . 47 =0. 84
n 16

Ahora ya podemos calcular el índice de homogeneidad corregido (IHc):

r S  S 0 .8 6 .
23  1.2 4
   
i T i T
r 0.7
iT
i
 S2
T S 2
i  2ri S TS i 6
T 
.23 2
 1 .
29 2
 2 
0 .
8 6.2 1.2
El
resultado
obtenido indica que el ítem está muy relacionado con el resto de ítems que componen el test, debido
a que miden la misma actitud. Como cabía esperar, el IHc es menor que el IH, y la diferencia es
apreciable debido a la pequeña longitud del test: tan sólo 4 ítems. En este caso un 25% del test (es
decir, 1 ítem de 4) es parte de las dos variables que correlacionamos cuando calculamos el IH. Este
porcentaje se reduce a medida que aumenta la longitud del test (cuando la longitud del test es 5, el
porcentaje es del 20%; cuando 6, el 17%; cuando 7, el 14%, ...). Por ello, cuanto mayor sea la
longitud del test menor será la diferencia entre el IH y el IHc. Cuando trabajamos con tests muy
largos la diferencia es muy pequeña.

3.3.2. Análisis basado en el criterio de consistencia interna.


10

Cuando Likert (1932) desarrolló su método de escalamiento, los investigadores no


disponían de ordenadores para realizar los cálculos implicados en los análisis cuantitativos de los
ítems. Calcular los índices de homogeneidad de un test aplicado a una muestra grande conllevaba
mucho tiempo y resultaba costoso. Para ahorrar esfuerzos y tiempo, Likert desarrolló un segundo
tipo de análisis basado en “el criterio de consistencia interna”. Este análisis consiste en comparar
las puntuaciones en el ítem del grupo que tiene las puntuaciones más altas en el test (y que por lo
tanto, tiene una actitud favorable), con las puntuaciones en el ítem del grupo que tiene las
puntuaciones más bajas en el test (y que, por consiguiente, tiene una actitud desfavorable). En
principio, cabe esperar que dos grupos con actitudes diferentes tengan puntuaciones medias
diferentes en el ítem analizado. Si esto no ocurre se debe a que el ítem no es un buen indicador de la
actitud medida, y se trata de un ítem indiferenciador. Si los dos grupos obtienen puntuaciones
medias en el ítem diferentes, entonces puede afirmarse que el ítem discrimina entre los grupos, y,
por lo tanto, es un buen indicador de la actitud medida.

Los dos grupos a comparar suelen estar compuestos por el 25% de los sujetos con
puntuaciones más altas y más bajas en el test; no obstante, Likert (1932) también utilizó otros
porcentajes, como el 10%. Inicialmente, este criterio se basaba simplemente en el cálculo de la
diferencia entre las medias de los dos grupos en el ítem. Sin embargo, esta diferencia no tenía en
cuenta que los dos grupos podían presentar variabilidades distintas en el ítem. Para evitar esta
deficiencia, más tarde se comenzó a usar una prueba t para evaluar la diferencia entre las medias
considerando la variabilidad del ítem en los dos grupos. El estadístico t sigue una distribución t de
Student con (nA + nB – 2) grados de libertad –donde n es el tamaño del grupo, y los subíndices A y
B denotan los grupos extremos alto y bajo, respectivamente-, y se calcula mediante la fórmula:

donde el 
X
X
ABnumerador es la diferencia

t
entre las medias en el ítem de los dos grupos,
y S2 indica la n
S

1n

2
S

12

1
1
varianza en el ítem del
AAB

B


grupo n
n
2
n
n
correspondiente.
A
B 
A
B
11

Ejemplo de cálculo.

Vamos a aplicar este tipo de análisis basado en el criterio de consistencia interna a los datos
que utilizamos anteriormente. Como en el caso anterior, el análisis se centrará en el ítem 1. En la
siguiente tabla aparecen las puntuaciones de los 16 sujetos, pero éstos han sido ordenados de
manera decreciente en función de su puntuación en el test. Los sujetos que configuran los dos
grupos con puntuaciones extremas en el test están marcados en negrita.

SUJETOS ITEM1 ITEM2 ITEM3 ITEM4 TEST


3 5 6 4 5 20
5 5 6 4 5 20
16 4 5 6 5 20
8 4 5 5 5 19
12 4 5 6 4 19
14 4 5 4 6 19
1 4 5 5 4 18
7 5 3 2 5 15
4 3 2 3 3 11
11 2 3 1 2 8
2 2 2 1 2 7
10 3 2 1 1 7
13 2 3 1 1 7
9 2 1 1 2 6
15 1 2 1 2 6
6 2 1 1 1 5

MEDIA A 4,5
MEDIA B 1,75
D. T. A 0,5
D. T. B 0,43

Si el ítem discrimina entre los dos grupos, entonces observaremos que:

Las hipótesis estadísticas implicadas en esta prueba de diferencias entre


medias son: X A  XB
H0 :  A   B
Conociendo las medias y las H1 :  A   B desviaciones típicas que los dos grupos
presentan en el ítem 1, vamos a calcular el estadístico t1.

XX 4. 
5
1
. 75

t A B
 
8
.
34
n

1S

2
n

1S
2

1 
1 

4
1 2
0
.
5 

4
1 0
.2
43

 Si
11

A A B

B


 
n 
n
AB
2 n
n
A
B

44 
2 44

asumimos un nivel de significación a=0.05, en la tabla de distribución de probabilidad t de Student,
observamos que el valor de t para 1- a = 0.95 y 6 grados de libertad es: 0.95 t 6 = 1.943. Como el
valor empírico obtenido para el estadístico t (11.75) es mucho mayor que el valor obtenido en las
tablas para un a=0.05, podemos afirmar que la probabilidad de obtener una diferencia entre las
medias como la observada, bajo el supuesto de que H0 sea cierta, es muy pequeña. Por ello,

1 El ejemplo que se presenta pretende ayudar al lector a aplicar esta prueba en el análisis de
ítems. En la práctica, y trabajando con muestras más grandes, es necesario verificar hasta qué
punto se cumplen los supuestos de la prueba.
12

dudamos de H0, la rechazamos, y aceptamos H1. En nuestro caso, esto significa que el ítem sí que
discrimina entre los dos grupos.

Ya señalamos anteriormente que el análisis basado en el criterio de consistencia interna


estuvo motivado por el elevado coste en tiempo y esfuerzo que suponía el cálculo de correlaciones
cuando Likert desarrolló su método. Hoy en día, gracias al uso de los ordenadores y programas
estadísticos, este argumento carece de sentido. En la práctica, es el análisis correlacional basado en
el cálculo de IHc el que se desarrolla.

Likert (1932) estudió la relación entre los resultados producidos por los dos métodos de
análisis. Ordenó un conjunto de ítems en función de su IH, y los ordenó también en función de la
diferencia que los dos grupos extremos mostraban en cada ítem. La relación entre los dos órdenes
fue estimada mediante el coeficiente de correlación rho, que presentó un valor de 0.91. Este
resultado indica un grado de relación muy alto entre los dos órdenes obtenidos, lo cual sugiere que
los dos métodos de análisis tienden a producir resultados similares. Esto no es de extrañar, ya que si
un ítem presenta un elevado IH, los sujetos que puntúan alto en el ítem tenderán a puntuar alto en el
test, y los sujetos que puntúan bajo en el ítem tenderán a puntuar bajo en el test. Y viceversa: el
grupo con puntuaciones altas en el test tenderá a mostrar puntuaciones altas en el ítem, y el grupo
con puntuaciones altas en el test tenderá a mostrar puntuaciones altas en el ítem. Sin embargo, hay
que tener en cuenta que Likert correlacionó órdenes de clasificación (esto es, rankings), y que los
órdenes no informan acerca de si un determinado criterio de análisis es superado o no (por ejemplo:
IHc ≥ 0.20). Por ello, aunque los resultados de ambos tipos de análisis están relacionados, pueden
no conducir necesariamente a la misma conclusión (McIver y Carmines, 1981). Así pues, cuando se
han aplicado los dos tipos de análisis es conveniente eliminar los ítems que tengan IHc bajos y los
que no discriminen entre los grupos con puntuaciones extremas en el test. Estos ítems son los ítems
indiferenciadores.

Likert (1932) señaló algunas de las razones por las que un ítem puede resultar
indiferenciador:
a. Puede medir una actitud diferente a la que miden el resto de ítems.
b. Puede ser respondido por casi todos los sujetos de la misma forma.
c. Puede estar redactado de manera que no sea entendido correctamente.
d. Puede tratarse de un enunciado de hecho.

3.4. Evaluación de la fiabilidad y validez de la escala.

Una vez se ha seleccionado un conjunto de ítems, hay que evaluar las propiedades
psicométricas del test o cuestionario que forman considerado como un todo. Las dos propiedades
psicométricas más importantes son la fiabilidad, y la validez 2. Para que un test sea un instrumento
de medida útil hay que demostrar su fiabilidad y su validez. Brevemente, señalaremos que la
fiabilidad hace referencia al grado de precisión que ofrecen las medidas obtenidas mediante un test.
Supone también un intento por cuantificar el grado de error que afecta a esas medidas. Un método
bastante extendido para estimar la fiabilidad de un test consiste en calcular el coeficiente alfa de
Cronbach, cuya fórmula es la siguiente:

donde n es la longitud del test  n2 (es decir, el número de ítems que lo


2   Si
componen), S i es la varianza n  1 
del ítem i, y S2x es la varianza que muestran
las puntuaciones totales en el a
 1 i
2 test. Un criterio bastante extendido para
n 1  S
 x

 
2 Estas dos propiedades serán objeto de un estudio más detenido en el bloque de temas
dedicado a la Teoría de los Tests.
13

interpretar el coeficiente alfa es que éste ha de ser igual o superior a 0.70 (Nunnally, 1978),
entonces puede afirmarse que el test tiene una fiabilidad suficiente.

Ejemplo de cálculo.

Con los datos del ejemplo que estamos utilizando, vamos a calcular el coeficiente alfa del
cuestionario de actitudes hacia la escuela. En la primera tabla que hemos mostrado, aparecen las
desviaciones típicas de cada uno de los cuatro ítems y de las puntuaciones totales en el test. Con
esta información ya podemos aplicar la fórmula del coeficiente alfa de Cronbach:

n

El n


S2
i

41
.
291
.
2222
751
.
961
. resultado
74
obtenido a

1
i
1


1
 

0
.
93
indica que el

n
1 2  2
Sx3  6.
23 
  cuestionario
es fiable.  

La validez de un test hace referencia al grado en el que un test mide lo que pretende medir.
El estudio de la validez de un test se desarrolla a partir de la verificación de las hipótesis de
validación. Una hipótesis de validación hace referencia a las relaciones que presentará el test objeto
de estudio con otras variables, bajo el supuesto de que mide lo que pretenda medir. Por ejemplo, en
el caso del cuestionario de actitudes hacia la escuela una hipótesis de validación podría ser la
siguiente: Se espera que las puntuaciones totales en el test presenten una correlación positiva con el
rendimiento académico, de manera que a mayor puntuación en el test se observe un mayor
rendimiento académico. Las hipótesis de validación se fundamentan en teorías contrastadas y/o en
resultados empíricos previos. La hipótesis de validación indica cuál es el método estadístico que se
utilizará para su verificación. En el caso anterior, la hipótesis alude a la relación entre dos variables
cuantitativas, por lo tanto, su verificación se realizaría calculando el coeficiente de correlación
entre las variables. Las hipótesis de validación pueden tomar diversas formas, y por lo tanto,
pueden ser diversos los métodos estadísticos implicados en su verificación. Para ilustrar este punto,
veamos otro ejemplo. Supongamos que se ha elaborado un cuestionario de actitud hacia el aborto.
Si el test mide la actitud que pretende medir, las puntuaciones en el test de dos grupos de sujetos
que mantienen actitudes extremas y opuestas, deberían ser diferentes. Por lo tanto, en el proceso de
validación del test se ha elaborado la siguiente hipótesis de validación: La puntuación media en el
test de un grupo de mujeres pertenecientes a asociaciones feministas será mayor que la puntuación
media de un grupo de mujeres pertenecientes a asociaciones católicas. En este caso, la hipótesis de
validación implica la comparación de dos medias, comparación que se puede realizar mediante la
prueba t correspondiente. Obsérvese que a diferencia de lo que ocurría cuando se usaba el criterio
de consistencia interna para analizar los ítems, aquí se definen los dos grupos con actitudes
opuestas y extremas en base a un factor externo al test: su pertenencia a asociaciones que mantienen
posturas contrarias respecto al aborto.

El proceso de validación de un test es un proceso continuo, en el que se van acumulando


evidencias acerca de su validez. Sólo cuando se ha acumulado un número suficientemente amplio
de evidencias es posible establecer de manera fundada una serie de conclusiones acerca de la
validez.

4. INTERPRETACIÓN DE LAS PUNTUACIONES.

Las puntuaciones obtenidas en una escala Likert no tienen una interpretación directa.
Sabemos que un sujeto que obtuviera una puntuación de 24 (puntuación máxima) en el cuestionario
de actitudes hacia la escuela del ejemplo tendría una actitud muy favorable, y que un sujeto que
14

obtuviera una puntuación de 4 (puntuación mínima) presentaría una mus desfavorable. Pero, ¿qué
podemos decir de un sujeto que obtiene una puntuación de 14? El método de Likert no permite
“medir” los ítems, es decir, no ofrece estimaciones del grado de actitud que hay que tener para estar
de acuerdo con un ítem. Por lo tanto, no es posible ofrecer una interpretación absoluta de la
puntuación de un sujeto (McIver y Carmines, 1981). Si supiéramos que un sujeto respalda los ítems
que requieren un alto grado de actitud favorable para dar una respuesta de acuerdo, entonces
podríamos inferir que ese sujeto tiene un nivel de actitud muy favorable.

Por todo ello, para poder interpretar las puntuaciones obtenidas en una escala Likert es
necesario referirlas a las puntuaciones obtenidas por el grupo de referencia al que pertenece el
sujeto. Una forma de hacerlo es calcular la diferencia entre las puntuaciones de los sujetos (X i) y la
media del grupo (es decir, calcular las puntuaciones diferenciales). Además, podemos medir esas
diferencias utilizando como unidad de medida la desviación típica de las puntuaciones en el
cuestionario en ese grupo. Para ello dividiremos las diferencias por la desviación típica, lo cual no
es más que transformar las puntuaciones directas en el test (Xi) en puntuaciones típicas (zi):

Las puntuaciones típicas nos X i  X indican cuántas desviaciones típicas se


aleja la puntuación del sujeto de la media z i  S de su grupo, y en qué sentido. Por
x
ejemplo, si un sujeto presenta una zi = -0.5, entonces podemos decir que se trata
de un sujeto que está media desviación típica por debajo de la media del grupo. Si las puntuaciones
en el test siguen una distribución aproximadamente normal, entonces, con ayuda de las tablas de la
distribución normal, podemos transformar esa puntuación típica en el porcentaje de sujetos que
quedan por debajo (o por encima) de esa puntuación. El valor de probabilidad (función de
distribución) asociado a zi = -0.5 es 0.3085. Ahora podemos decir que el sujeto que ha obtenido una
zi = -0.5 supera aproximadamente al 31% de los sujetos de su grupo. Si las puntuaciones en el test
no siguen una distribución aproximadamente normal no debe realizarse esta última transformación.
Entonces podemos calcular el centil que corresponde a cada puntuación en el test. De esta manera
sabremos cuál es el porcentaje de sujetos que queda por debajo de cada puntuación en el test.

5. VALORACIÓN.

Una de las críticas que suele hacerse del método de escalamiento de Likert es que no está
basado en un modelo matemático determinado. Esta es una diferencia importante con los métodos
desarrollados por Thurstone, que basó sus métodos en una serie de supuestos formales y unas leyes
(por ejemplo, la Ley del Juicio Comparativo). En todo caso, el método de Likert puede emnarcarse
dentro del ámbito más general de la Teoría Clásica de los Tests.

Otra crítica se refiere al uso del coeficiente de correlación ítem-test (índice de


homogeneidad) como base para realizar el análisis correlacional de los ítems. Ya hemos señalado
que para evitar aumentar artificialmente esa correlación es necesario utilizar el índice de
homogeneidad corregido.

La verificación de la unidimensionalidad del test también presenta ciertas deficiencias.


Likert (1932) suponía que una vez se hubiera eliminado todos los ítems indiferenciadores, los ítems
restantes medirían una misma dimensión subyacente o actitud. Sin embargo, esto no tiene que ser
necesariamente así. Si un test mide dos actitudes diferentes pero relacionadas, los IHc serán
probablemente elevados, y llevarán a la conclusión errónea de que los ítems miden una única
15

actitud. El cálculo de los IHc no es una buena base para evaluar la unidimensionalidad del test. En
su lugar hay que utilizar métodos más apropiados como el análisis factorial.

Recordemos que Likert pretendía desarrollar un método sencillo para medir las actitudes
que ofreciera resultados similares al método más costoso de los intervalos
aparentemente iguales desarrollado por Thurstone. Likert (1932) observó que
la fiabilidad de los cuestionarios producidos por los dos métodos era muy
similar, y que la correlación entre las puntuaciones obtenidas por los dos
métodos era muy elevada. Estos resultados muestran que Likert consiguió su
objetivo. Quizás lo que no previó Likert es que su método tuviera tanto éxito.
Su relativa sencillez, en comparación a otros métodos más modernos, es la
responsable de que actualmente sea todavía el método más utilizado para
medir actitudes, dimensiones de la personalidad, y otros constructos
psicológicos.

BIBLIOGRAFIA.

Arce, C. (1994). Construcción de escalas psicológicas. Madrid: Síntesis.


García Cueto, E. (1993). Introducción a la psicometría. Madrid: Siglo XXI.
Meliá, J. L. (1991). Métodos de escalamiento unidimensional. Valencia: Cristóbal Serrano Villalba.
Sancerni, M. D.; Meliá, J. L.; González Romá, V. y Díaz, J. V. (1992). Psicometría: Problemas y
Prácticas. Valencia: Cristóbal Serrano Villalba.
Wainerman, CH (1976) Escalas de medición en Ciencias Sociales. Buenos Aires: Nueva Visión.
16

Referencias bibliográficas.

Andrich, D. & Schoubroeck, L. (1989). The General Health Questionnaire: a


psychometric analysis using latent trait theory. Psychological Medicine, 19,
469-485.

Andrich, D.; Jong, J. y Sheridan, B. E. (1997). Diagnostic opportunities with


the Rasch model for ordered response categories. En J. Rost y R.
Langeheine (Eds.), Applications of latent trait and latent class models in
the social sciences (pp. 58-68). Münster, Germany: Waxman Verlag.

Bock, R. y Jones, L. V. (1968). The measurement and prediction of


judgement and choice. San Francisco: Holden Day.
Dubois, B. y Burns, J. A. (1975). An analysis of the meaning of the question
mark response category in attitude scales. Educational and
Psychological Measurement, 35, 869-884.

Edwards, A. L. (1957). Techniques of attitude scale construction. New York:


Appleton-Century-Crofts.

Espejo, B. y González-Romá, V. (1999). El significado de las categorías


centrales en las escalas tipo Likert. Trabajo presentado al VI Congreso de
Metodología de las CC. Sociales y de la Salud. Oviedo, España.
Espejo, B. y González-Romá, V. (2001). Orden y relevancia de las alternativas de respuesta
"no estoy seguro", "término medio" y "?". Trabajo presentado al VII Congreso de
Metodología de las CC. Sociales y de la Salud. Madrid, España.
Hernández, A.; Espejo, B.; González-Romá, V. y Gómez-Benito, J. (en prensa).
Escalas de respuesta tipo Likert: ¿es relevante la alternativa “indiferente”?.
Metodología de Encuestas

Kaplan, K. J. (1972). On the ambivalence-indifference problem in attitude


theory: A suggested modification of the semantic differential technique.
Psychological Bulletin, 77, 361-372.
Likert, R. (1932). A technique for the measurement of attitudes. Archives of Psychology, 140, 1-50.
(Traducción al castellano en C. H. Wainerman (Comp.) (1976), Escalas de medición en
ciencias sociales, pp-199-260. Buenos Aires: Nueva visión.
McIver, J. P. y Carmines, E. G. (1981). Unidimensional scaling. Beverly Hills, CA: Sage.
Neumann, L. (1979). Effects of categorization on relationships in bivariate
distributions and applications to rating scales. Dissertation Abstracts
International, 40, 2262-B
Nunnally, J. C. (1978). Psychometric theory. New York: McGraw-Hill.
Peters, C. C. y Van Vorhis, W. R. (1940). Statistical procedures and their mathematical bases. New
York: McGraw-Hill.
17

Sudman, S. y Bradburn, N. M. (1989). Measuring attitudes: recording


responses. En Sudman, S. y Bradburn, N. M. (Eds.). Asking questions: a
practical guide to questionnaire design. San Francisco: Jossey-Bass
Publishers.
Worthy, M. (1969). Note on scoring midpoint responses in extreme response
style scores. Psychological Reports, 24, 189-190.

También podría gustarte