Analisis Likert

1
TEMA 5. MTODO DE ESCALAMIENTO UNIDIMENSIONAL DE LIKERT.

1. INTRODUCCIN.
2. SUPUESTOS.
3. CONSTRUCCIN DE UNA ESCALA LIKERT.
4. INTERPRETACIN DE LAS PUNTUACIONES.
5. VALORACIN.
1. INTRODUCCIN.
El mtodo de escalamiento de Likert es el mtodo ms utilizado en
Psicologa para medir actitudes, y su uso se ha extendido a la medicin de
otros constructos, como por ejemplo las dimensiones de personalidad.
Likert (1932) propuso su mtodo de escalamiento a finales del primer
tercio del siglo XX. Previamente, Thurstone (1928) haba propuesto un mtodo
para la medicin de actitudes que implicaba la participacin de sujetos que
desempeaban el papel de jueces (el mtodo de los intervalos aparentemente
iguales). Segn Thurstone (1928), el nmero de jueces debea oscilar entre
200 y 300. La tarea de estos sujetos consista en valorar un conjunto de tems.
A partir de estas valoraciones, se calibraban los tems, es decir, se estimaba el
valor del tem en la escala. Una vez se dispona de un conjunto de tems
calibrados que constituan un cuestionario, ste se aplicaba al grupo de sujetos
que se deseaba estudiar, y se les peda que marcaran los tems con los que
estaban de acuerdo y aqullos con los que disentan. La puntuacin de cada
persona consista en la media de los valores de los tems con los que estaban
de acuerdo. El empleo de un nmero elevado de jueces y la necesidad de
calibrar los tems hacan que este mtodo fuera muy costoso y laborioso.
Asimismo, el mtodo de Thurstone implicaba una serie de supuesto
estadsticos que no haban sido verificados, por ejemplo, que los valores de
escala de los enunciados son independientes de la distribucin de actitudes de
los jueces que los valoran (Likert, 1932).
Tras reconocer la importancia de las aportaciones de Thurstone en el
terreno de la medicin de las actitudes, Likert (1932) se pregunt si la
construccin de escalas de medida mediante procedimientos ms sencillos
dara resultados tan buenos como los obtenidos por Thurstone en cuanto a la
fiabilidad y validez de las medidas, y si sera posible construir escalas evitando
asumir supuestos estadsticos innecesarios. As pues, el objetivo principal de
Likert (1932) fue desarrollar un mtodo de medicin de actitudes sencillo y

simple.
Brevemente, el mtodo de medicin de Likert consiste en la presentacin a los sujetos de
una serie de tems o enunciados ante los que tienen que expresar su posicin escogiendo una
alternativa de respuesta entre las ofrecidas. Por ejemplo, imaginemos que uno de los tems que
componen una escala de actitud hacia la pena de muerte dijera: La pena de muerte debe abolirse,
y que las alternativas de respuesta ofrecidas para contestar el tem fueran:
1. Completamente en desacuerdo.
2. En desacuerdo.
3. Indeciso.
4. De acuerdo.
5. Completamente de acuerdo.
Un sujeto que tuviera una actitud contraria a la pena de muerte contestara 4 o 5. Una vez
que el sujeto a contestado todos los tems, la puntuacin del sujeto en el cuestionario se determina
sumando o promediando los valores de las alternativas de respuesta escogidas ante cada tem
(Likert, 1932). Por esta razn las escalas o cuestionarios construidos siguiendo este mtodo se
denominan escalas sumativas.
2. SUPUESTOS.
Likert no elabor un modelo matemtico que fundamentara su mtodo de escalamiento. No
obstante, su mtodo implica una serie de supuesto que conviene conocer. Estos supuestos pueden
calificarse de dbiles porque no son muy restrictivos ni difciles de asumir.
El mtodo de Likert es un mtodo de escalamiento centrado en los sujetos (Torgerson,
1958). Su objetivo es medir sujetos, mostrar las diferencias individuales en relacin con una
determinada actitud. Por ello, se asume que la variabilidad observada en las respuestas de los
sujetos se debe a diferencias entre stos, esto es, a que tienen niveles de actitud diferentes.
El mtodo de Likert no pretende medir o calibrar los tems. stos son considerados
rplicas unos de otros, es decir, se supone que todos tiene el mismo valor de escala.
Asimismo, se supone que cada tem presenta una relacin monotnica con la actitud
subyacente que pretende medir. Esto quiere decir que cuanto ms favorable o positiva sea la actitud
de un sujeto, mayor ser la puntuacin que obtendr en el tem, y cuanto ms desfavorable o
negativa sea la actitud de un sujeto, menor ser la puntuacin que obtendr en el tem.
Grficamente, esta relacin puede representarse de la siguiente forma:
Figura 1. Relacin monotnica entre el tem y el continuo de la actitud.
+
Puntuacin
tem
-
ACTITUD
Por ltimo, al tratarse de un mtodo de escalamiento unidimensional, se supone que los

tems miden una nica actitud subyacente. Este es el supuesto de unidimensionalidad.
3. CONSTRUCCION DE UNA ESCALA LIKERT.
La construccin de una escala Likert para medir actitudes implica las siguientes tareas:
1. Elaborar una base o banco inicial de items.
2. Determinar cmo se puntuarn los tems y cmo se obtendrn las puntuaciones de
los sujetos.
3. Anlisis y seleccin de tems.
4. Evaluacin de la fiabilidad y validez de la escala.
3.1. Elaboracin de una base o banco inicial de tems.
La elaboracin de un instrumento de medida psicolgica comienza con la definicin de
aqullo que queremos medir. A continuacin, hay que escribir un conjunto suficientemente amplio
de tems o enunciados acerca de la actitud en cuestin. Este conjunto de tems configura el banco o
base inicial de tems. Es importante que el nmero de tems sea, como se ha dicho, suficientemente
amplio, pues hay que evitar que en el caso de que haya que eliminar algunos tems debido a su baja
calidad, nos quedemos al final del proceso con una escala compuesta por pocos tems que no
muestreen suficientemente la actitud a medir, y que no permita mostrar las diferencias individuales
existentes.
A la hora de elaborar tems es conveniente considerar los siguientes criterios (Likert, 1932):
1. Un criterio general es que los tems tienen que ser redactados de tal manera que dos
personas con actitudes diferentes (por ejemplo, una con una actitud favorable y otra con una
actitud desfavorable) lo contesten de manera diferente. Un tem que pueda ser respondido de
igual forma por dos personas con actitudes diferentes es un tem inadecuado.
2. Los tems deben expresar comportamientos deseados o juicios de valor, no hechos. Dos
personas con actitudes diferentes ante la pena de muerte seguramente estarn de acuerdo en
lo que dice el siguiente enunciado: La pena de muerte acaba con la vida de las personas.
Este enunciado es un enunciado de hecho, y no es til para discriminar entre dos personas
con actitudes diferentes. En cambio, ante un enunciado valorativo como La pena de muerte
es un crimen, dos personas con actitudes diferentes contestaran de manera distinta. Una
persona a favor de la pena de muerte estara en desacuerdo con el enunciado; una persona en
contra de la pena de muerte estara de acuerdo.
3. Los enunciados deben ser expresados de una manera clara, concisa y directa. Para lograr
este objetivo, resulta til utilizar el vocabulario ms sencillo posible, de manera que las
personas con un nivel cultural ms bajo pertenecientes al grupo al que va dirigido el
cuestionario puedan entender los tems. La experiencia seala que es preciso evitar frases
con dobles negaciones, incluso con una sola negacin. Los enunciados con doble sentido, y
los compuestos por varias frases tambin deben evitarse, ya que pueden producir
ambigedad o confusin en los sujetos.
4. A fin de evitar que los sujetos respondan de una manera estereotipada, Likert (1932)
recomend que aproximadamente la mitad de los tems representaran manifestaciones de
actitudes positivas o favorables, y la otra mitad de los tems constituyeran manifestaciones
de actitudes negativas o desfavorables. Por ejemplo, imaginemos que estamos construyendo

un cuestionario de actitudes hacia la escuela para adolescentes. Un tem favorable podra
ser: La escuela es divertida. Un tem desfavorable podra ser: La escuela es un rollo.
Obsrvese que si los sujetos utilizan una escala de respuesta de desacuerdo-acuerdo de
cinco puntos como la presentada anteriormente, un sujeto con una actitud muy favorable
hacia la escuela contestar los tems favorables con cincos, mientras que responder los
tems desfavorables con unos. Lo contrario ocurrir en el caso de un sujeto con una actitud
mus desfavorable hacia la escuela. As pues, si el cuestionario contiene tanto tems
favorables como desfavorables, ningn sujeto debera responder a los tems con una
respuesta estereotipada, como por ejemplo, contestar siempre 5. Completamente de
acuerdo. Es imposible estar de acuerdo con tems favorables a la escuela y con tems
desfavorables. Si encontramos algn sujeto que ha contestado de esta manera estereotipada,
seguramente lo habr hecho sin prestar atencin al contenido de los tems, y por ello, es
conveniente eliminarlo de la base de datos.
3.2. Puntuacin de los tems y de los sujetos.

Likert (1932) ensay diversas formas de puntuar los tems. La ms sencilla de todas ellas
consista en asignar puntuaciones de 1 a 5 a cada una de las cinco alternativas de respuesta de
desacuerdo-acuerdo presentadas anteriormente (1. Completamente en desacuerdo; 2. En
desacuerdo; 3. Indeciso; 4. De acuerdo; 5. Completamente de acuerdo). Comprob que esta forma
de puntuar los tems ofreca resultados muy similares a los obtenidos mediante otras tcnicas ms
complejas y costosas (como por ejemplo, los valores sigma). Actualmente, esta forma de puntuar
los tems tambin se conoce como puntuacin mediante nmeros enteros (Andrich &
Schoubroeck, 1989).
Las escalas de respuesta empleadas para puntuar los tems de una escala Likert pueden
presentar un nmero diferente de alternativas de respuesta. Las escalas con cinco alternativas son
muy frecuentes. Pero no es extrao encontrar escalas de respuestas con cuatro, seis y siete
alternativas. Las escalas con nmeros pares omiten la categora de respuesta central, que suele ser
Indeciso, Indiferente, No estoy seguro, o Ni de acuerdo ni en desacuerdo. Existe cierto
debate sobre si la categora central debera incluirse o no. Algunos investigadores han
recomendado el uso de la categora de respuesta central (Edwards, 1957;
Newman, 1979; Sudman y Bradburn, 1989), argumentando que es preferible
no forzar las respuestas de los sujetos indecisos hacia un polo (acuerdo o
desacuerdo) que podra no describirles. Sin embargo, otros estudios han
cuestionado el uso de las categoras centrales porque stas pueden atraer a
las personas que las seleccionan por razones diferentes de cul es su posicin
en la actitud medida (Bock y Jones, 1968; Worthy, 1969; Kaplan, 1972; Dubois
y Burns, 1975). Investigaciones recientes sobre este tema han revelado que
casi un 50% de los sujetos que responde mediante diferentes tipos de
categoras de respuesta centrales lo hace por razones diferentes a la de estar
en el punto medio de la dimensin medida (Espejo, 1998; Espejo y GonzlezRom, 1999). Otros estudios han mostrado que incluso los sujetos con niveles
medios en la dimensin medida, tiene una probabilidad muy pequea de

contestar utilizando la categora central, y es ms probable que respondan
utilizando otras categoras de respuesta adyacentes, como En desacuerdo o
De acuerdo (Andrich, de Jong y Sheridan, 1997; Hernndez, Espejo,
Gonzlez-Rom y Gmez-Benito, en prensa; Espejo y Gonzlez-Rom, 2001).
As pues, en base a los ms recientes resultados de la investigacin sobre el
tema, parece que la utilidad de la categora de respuesta central est
seriamente cuestionada.
Las escalas de respuesta con seis alternativas suelen ser muy similares
a la siguiente:
1. Completamente en desacuerdo.
2. Bastante en desacuerdo.
3. Algo en desacuerdo.
4. Algo de acuerdo.
5. Bastante de acuerdo.
6. Completamente de acuerdo.
Las escalas de respuesta que presentan siete alternativas incluyen en la escala anterior una
categora de respuesta central a la que se le asigna la puntuacin de 4.
Todas las escalas de respuesta que se utilizan en las escalas Likert son politmicas, pues
presentan ms de dos alternativas de respuesta. Adems, son escalas de respuesta ordenadas o
graduadas, ya que la asignacin de los nmeros enteros a las distintas respuestas constituye una
escala ordinal. A partir de las puntuaciones obtenidas por distintos sujetos en un mismo tem,
podemos hacer inferencias acerca de quines tienen una actitud ms o menos favorable, pero no
podemos determinar cul es la distancia entre sujetos que responden con alternativas diferentes.
Una vez se ha determinado cmo se puntuar cada tem, pero antes de calcular la
puntuacin de cada sujeto en el cuestionario, hay que detectar los tems invertidos y transformar la
puntuacin obtenida en ellos de manera que tenga el mismo significado que la puntuacin obtenida
en el resto de tems. Como sealamos anteriormente, Likert (1932) recomend que
aproximadamente la mitad de los tems representaran manifestaciones de actitudes positivas o
favorables, y la otra mitad de los tems constituyeran manifestaciones de actitudes negativas o
desfavorables. Si se sigue este criterio, nos encontraremos con que no todos los tems estn
redactados en el mismo sentido, y esto tiene importantes repercusiones en el significado de las
puntuaciones de los tems. Volvamos a nuestro ejemplo del cuestionario de actitudes hacia la
escuela. Una puntuacin de 5 (Completamente de acuerdo) a un tem favorable (La escuela es
divertida), no tiene el mismo significado que una puntuacin de 5 a un tem desfavorable (La
escuela es un rollo). En el primer caso la puntuacin denota una actitud favorable, mientras que en
el segundo indica una actitud desfavorable. Por ello, estas puntuaciones no pueden sumarse para
obtener una puntuacin de los sujetos. Previamente, es preciso que todas las puntuaciones en los
tems estn en la misma direccin. Para ello se procede a transformar las puntuaciones de los tems
que no estn redactados en el sentido que ms interesa. Por ejemplo, si interesa obtener una
puntuacin que indique el grado de actitud hacia la escuela de manera que a mayor puntuacin se
pueda inferir una actitud ms favorable, entonces habr que transformar los tems que denotan una
actitud desfavorable. Antes de la transformacin, estos tems suelen denominarse tems invertidos.
Cuando se trabaja con una base de datos grande, la transformacin de los tems invertidos
puede realizarse fcilmente con la ayuda de un programa estadstico de anlisis de datos, o incluso
con una hoja de clculo, implementando una frmula de transformacin. Si la escala de respuesta
empleada presenta como valor ms pequeo el 1 (que es lo ms frecuente), entonces la frmula de
transformacin es:
Pi = (Pm+1) - Po
donde:
Pi : puntuacin transformada en el tem invertido lista para calcular la puntuacin total en
el cuestionario;
Pm : puntuacin mxima que puede darse al tem;
Po : puntuacin original obtenida en el tem invertido.
Si la escala de respuesta utilizada para contestar los tems presenta como valor ms
pequeo el cero, entonces la frmula de transformacin es:
Pi = Pm - Po
Por ejemplo, supongamos que un sujeto ha contestado cuatro tems del cuestionario de
actitudes hacia la escuela utilizando una escala de respuesta de 6 puntos como la presentada en este
mismo apartado. Imaginemos que sus puntuaciones en los tems son las siguientes:
Items
Puntuacin (Po)
1. La escuela es divertida....................................................5
2. En la escuela aprendo cosas tiles...................................6
3. La escuela es un rollo......................................................2
4. En la escuela pierdo el tiempo.........................................1
Los tems 1 y 2 manifiestan una actitud favorable, mientras que los tems 3 y 4 denotan una actitud
desfavorable. Procedamos ahora a transformar los tems 3 y 4 aplicando la frmula
correspondiente. Como la escala de respuesta oscila entre 1 y 6, aplicaremos la frmula P i =
(Pm+1) - Po.
Items
Puntuacin (Po)
Puntuacin transformada (Pi)
3. La escuela es un rollo...................................2.....................................(6+1)-2 = 5
4. En la escuela pierdo el tiempo......................1.....................................(6+1)-1 = 6
Ahora que ya hemos transformado las puntuaciones obtenidas en los tems invertidos,
podemos calcular la puntuacin total de cada sujeto en el cuestionario. Como se indic al comienzo
de este tema, la puntuacin total de un sujeto en el cuestionario se determina sumando o
promediando los valores de las alternativas de respuesta escogidas ante cada tem (Likert, 1932),
razn por la que las escalas o cuestionarios construidos siguiendo este mtodo se denominan
escalas sumativas. En el ejemplo anterior, la puntuacin total del sujeto sera:
Items
Puntuacin
1. La escuela es divertida....................................................5
2. En la escuela aprendo cosas tiles...................................6
3. La escuela es un rollo......................................................5
4. En la escuela pierdo el tiempo.........................................6
Puntuacin total (suma)......................................................22
3. 3. Anlisis y seleccin de tems.

Una vez que ya se ha elaborado un banco inicial de tems, y se ha aclarado cmo se
puntuar cada uno de ellos y cmo se obtendr la puntuacin de cada sujetos, se inicia la fase de
anlisis cuantitativo de los tems. El banco de tems ha de aplicarse a una muestra que sea
representativa de la poblacin a la cual va dirigida el test. Esta muestra proporcionar los datos que
utilizaremos para realizar el anlisis cuantitativo de los tems.
Likert propuso dos tipos de anlisis: 1. un anlisis correlacional de los tems, y 2. un
anlisis basado en el criterio de consistencia interna (Likert, 1932; McIver y Carmines, 1981).
3.3.1. Anlisis correlacional de los tems.
El anlisis correlacional consiste en calcular la correlacin entre cada tem y la puntuacin
total en el cuestionario o test (es decir, la suma de todos los tems). Esta correlacin es conocida en
el marco de la Teora Clsica de los Tests como ndice de homogeneidad (IH). Si el tem analizado
mide lo mismo que el resto de tems, el ndice de homogeneidad ser elevado, de manera que los
sujetos que puntan alto en el tem, tambin tendern a puntuar alto en el cuestionario, y los sujetos
que puntan bajo en el tem, tendern a puntuar bajo en el cuestionario. Si el ndice de
homogeneidad es bajo o cercano a cero, entonces el tem analizado no mide lo que mide el resto de
tems. Likert denomin a los tems con un ndice de homogeneidad bajo como tems
indiferenciadores (Likert, 1932).
Los tems indiferenciadores aportan escasa o ninguna informacin til sobre la actitud que
se est midiendo, por ello no tiene sentido combinarlos con el resto de tems para obtener una
puntuacin total (McIver y Carmines, 1981). Adems, como demuestra la Teora Clsica de los
Tests, su uso puede perjudicar a la fiabilidad y a la validez del test. Por todo ello, los tems
indiferenciadores deben eliminarse.
El clculo del ndice de homogeneidad como la correlacin entre la puntuacin en el tem y
la puntuacin en el test (en adelante, correlacin tem-test) tiene el siguiente inconveniente: la
puntuacin total en el test incluye al tem como componente, es decir, el tem analizado aparece en
las dos variables que se correlacionan, y esto aumentar artificialmente el coeficiente de correlacin
que se obtenga. Para evitar este efecto, lo que se hace es calcular la correlacin entre el tem y el
test una vez que se ha eliminado de este ltimo la contribucin del tem. Esta correlacin recibe el
nombre de ndice de homogeneidad corregido(IHc), y se indica mediante la expresin ri(T-i) . La
frmula para calcular el ndice de homogeneidad corregido es (Peters y Van Vorhis, 1940):
r S
riTiT
donde, riT es la correlacin tem- 2S2r test, Si es la desviacin tpica que muestran las puntuaciones
Ti
en el tem, y ST es la desviacin
tpica que presentan las puntuaciones en test.
Para interpretar el ndice de homogeneidad corregido suele tomarse como valor de

referencia 0.20. De manera que todos los tems que presentan r i(T-i) con valores inferiores a 0.20 son
eliminados del banco de tems por ser indiferenciadores.
Ejemplo de clculo.
Supongamos que 16 sujetos han contestado a los cuatro tems del cuestionario de actitudes
hacia la escuela que utilizamos anteriormente. Despus de transformar los tems invertidos, se han
calculado las puntuaciones en el test. Las puntuaciones en los tems despus de realizar las
transformaciones y en el test aparecen en la tabla que se muestra a continuacin. Vamos a ilustrar
cmo calcularamos el ndice de homogeneidad corregido (IHc) del tem 1.
SUJETOS
1
2
3
4
5
6
7
8
9
10
n
11 n 2
z xI z yI 12 Xi X
rxy i1 13Sx i1
n 14 n
15
16
ITEM1
4
2
5
3
5
2
5
4
2
3
2
4
2
4
1
4
ITEM2
5
2
6
2
6
1
3
5
1
2
3
5
3
5
2
5
ITEM3
5
1
4
3
4
1
2
5
1
1
1
6
1
4
1
6
ITEM4
4
2
5
3
5
1
5
5
2
1
2
4
1
6
2
5
TEST
18
7
20
11
20
5
15
19
6
7
8
19
7
19
6
20
La frmula de clculo del IHc

implica la obtencin del IH y de
las desviaciones tpicas del test y
del tem. Recordemos que las
frmulas
para
calcular
el
coeficiente de correlacin de
Pearson y la desviacin tpica
son:
donde n es el tamao de la
muestra, y z denota puntuaciones
tpicas.
En la tabla siguiente, se muestran los estadsticos necesarios para calcular IH. Tan slo hay que
recordar que en nuestro caso la variable X es el tem 1, y la variable Y la puntuacin en el test. As
pues, vemos que ztem1 ztest = 13.47, es decir, ya tenemos el valor del sumatorio del producto
cruzado de las puntuaciones tpicas, que es el numerador de la frmula del coeficiente de
correlacin.
SUJETOS
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
SUMA
MEDIA
D.T.
ITEM1
4
2
5
3
5
2
5
4
2
3
2
4
2
4
1
4
ITEM2
5
2
6
2
6
1
3
5
1
2
3
5
3
5
2
5
ITEM3
5
1
4
3
4
1
2
5
1
1
1
6
1
4
1
6
ITEM4
4
2
5
3
5
1
5
5
2
1
2
4
1
6
2
5
TEST
18
7
20
11
20
5
15
19
6
7
8
19
7
19
6
20
3,25
1,29
3,50
1,75
2,88
1,96
3,31
1,74
12,94
6,23
Luego, el valor del IH ser:

IH rit
tem 1
z test
ZITEM1
0,58
-0,97
1,36
-0,19
1,36
-0,97
1,36
0,58
-0,97
-0,19
-0,97
0,58
-0,97
0,58
-1,74
0,58
ZTEST
0,81
-0,95
1,13
-0,31
1,13
-1,27
0,33
0,97
-1,11
-0,95
-0,79
0,97
-0,95
0,97
-1,11
1,13
ZITEM1 X ZTEST
0,47
0,92
1,54
0,06
1,54
1,23
0,45
0,57
1,08
0,18
0,77
0,57
0,92
0,57
1,94
0,66
13,47
13.47
0.84
16
Ahora ya podemos calcular el ndice de homogeneidad corregido (IHc):

rS 0.846231.9
riT iT i 0.76
S2Ti2riTS i 6.231922 20.846231.9
El resultado obtenido indica que el tem est muy relacionado con el resto de tems que
componen el test, debido a que miden la misma actitud. Como caba esperar, el IHc es menor
que el IH, y la diferencia es apreciable debido a la pequea longitud del test: tan slo 4 tems. En
este caso un 25% del test (es decir, 1 tem de 4) es parte de las dos variables que correlacionamos
cuando calculamos el IH. Este porcentaje se reduce a medida que aumenta la longitud del test
(cuando la longitud del test es 5, el porcentaje es del 20%; cuando 6, el 17%; cuando 7, el 14%, ...).
Por ello, cuanto mayor sea la longitud del test menor ser la diferencia entre el IH y el IHc. Cuando
trabajamos con tests muy largos la diferencia es muy pequea.
3.3.2. Anlisis basado en el criterio de consistencia interna.
10
Cuando Likert (1932) desarroll su mtodo de escalamiento, los investigadores no

disponan de ordenadores para realizar los clculos implicados en los anlisis cuantitativos de los
tems. Calcular los ndices de homogeneidad de un test aplicado a una muestra grande conllevaba
mucho tiempo y resultaba costoso. Para ahorrar esfuerzos y tiempo, Likert desarroll un segundo
tipo de anlisis basado en el criterio de consistencia interna. Este anlisis consiste en comparar
las puntuaciones en el tem del grupo que tiene las puntuaciones ms altas en el test (y que por lo
tanto, tiene una actitud favorable), con las puntuaciones en el tem del grupo que tiene las
puntuaciones ms bajas en el test (y que, por consiguiente, tiene una actitud desfavorable). En
principio, cabe esperar que dos grupos con actitudes diferentes tengan puntuaciones medias
diferentes en el tem analizado. Si esto no ocurre se debe a que el tem no es un buen indicador de la
actitud medida, y se trata de un tem indiferenciador. Si los dos grupos obtienen puntuaciones
medias en el tem diferentes, entonces puede afirmarse que el tem discrimina entre los grupos, y,
por lo tanto, es un buen indicador de la actitud medida.
Los dos grupos a comparar suelen estar compuestos por el 25% de los sujetos con
puntuaciones ms altas y ms bajas en el test; no obstante, Likert (1932) tambin utiliz otros
porcentajes, como el 10%. Inicialmente, este criterio se basaba simplemente en el clculo de la
diferencia entre las medias de los dos grupos en el tem. Sin embargo, esta diferencia no tena en
cuenta que los dos grupos podan presentar variabilidades distintas en el tem. Para evitar esta
deficiencia, ms tarde se comenz a usar una prueba t para evaluar la diferencia entre las medias
considerando la variabilidad del tem en los dos grupos. El estadstico t sigue una distribucin t de
Student con (nA + nB 2) grados de libertad donde n es el tamao del grupo, y los subndices A y
B denotan los grupos extremos alto y bajo, respectivamente-, y se calcula mediante la frmula:
donde
indica
el X BA numerador es la diferencia entre las medias en el tem de los dos grupos, y S 2

t
la 2 2 varianza en el tem del grupo correspondiente.
n1SAA n1SBB 1

nBA 2 n BA
11
Ejemplo de clculo.
Vamos a aplicar este tipo de anlisis basado en el criterio de consistencia interna a los datos
que utilizamos anteriormente. Como en el caso anterior, el anlisis se centrar en el tem 1. En la
siguiente tabla aparecen las puntuaciones de los 16 sujetos, pero stos han sido ordenados de
manera decreciente en funcin de su puntuacin en el test. Los sujetos que configuran los dos
grupos con puntuaciones extremas en el test estn marcados en negrita.
SUJETOS
3
5
16
8
12
14
1
7
4
11
2
10
13
9
15
6
ITEM1
5
5
4
4
4
4
4
5
3
2
2
3
2
2
1
2
MEDIA A
4,5
MEDIA B
1,75
D. T. A
0,5
D. T. B
0,43
ITEM2
6
6
5
5
5
5
5
3
2
3
2
2
3
1
2
1
ITEM3
4
4
6
5
6
4
5
2
3
1
1
1
1
1
1
1
ITEM4
5
5
5
5
4
6
4
5
3
2
2
1
1
2
2
1
TEST
20
20
20
19
19
19
18
15
11
8
7
7
7
6
6
5
Si el tem discrimina entre los dos grupos, entonces observaremos que:

Las
hiptesis
medias son:
estadsticas
X A XB
H0 : A B
Conociendo las medias y las H1 : A B

en el tem 1, vamos a calcular el
t
X A XB
4.51.75
implicadas en esta prueba de diferencias entre

desviaciones tpicas que los dos grupos presentan
estadstico t1.
8.34
Si asumimos un nivel de significacin =0.05, en la tabla de distribucin de

nA nB 2 nA nB 4 42 4 4 probabilidad t de Student, observamos que el valor de t para 1- = 0.95 y 6 grados de
libertad es: 0.95 t 6 = 1.943. Como el valor emprico obtenido para el estadstico t (11.75)
es mucho mayor que el valor obtenido en las tablas para un =0.05, podemos afirmar que la
probabilidad de obtener una diferencia entre las medias como la observada, bajo el supuesto de que
H0 sea cierta, es muy pequea. Por ello, dudamos de H 0, la rechazamos, y aceptamos H1. En
nuestro caso, esto significa que el tem s que discrimina entre los dos grupos.
nA1S2A nB 1S2B 1 1 410.5 410.432 11

2
1 El ejemplo que se presenta pretende ayudar al lector a aplicar esta prueba en el anlisis de
tems. En la prctica, y trabajando con muestras ms grandes, es necesario verificar hasta qu
punto se cumplen los supuestos de la prueba.
12
Ya sealamos anteriormente que el anlisis basado en el criterio de consistencia interna

estuvo motivado por el elevado coste en tiempo y esfuerzo que supona el clculo de correlaciones
cuando Likert desarroll su mtodo. Hoy en da, gracias al uso de los ordenadores y programas
estadsticos, este argumento carece de sentido. En la prctica, es el anlisis correlacional basado en
el clculo de IHc el que se desarrolla.
Likert (1932) estudi la relacin entre los resultados producidos por los dos mtodos de
anlisis. Orden un conjunto de tems en funcin de su IH, y los orden tambin en funcin de la
diferencia que los dos grupos extremos mostraban en cada tem. La relacin entre los dos rdenes
fue estimada mediante el coeficiente de correlacin rho, que present un valor de 0.91. Este
resultado indica un grado de relacin muy alto entre los dos rdenes obtenidos, lo cual sugiere que
los dos mtodos de anlisis tienden a producir resultados similares. Esto no es de extraar, ya que si
un tem presenta un elevado IH, los sujetos que puntan alto en el tem tendern a puntuar alto en el
test, y los sujetos que puntan bajo en el tem tendern a puntuar bajo en el test. Y viceversa: el
grupo con puntuaciones altas en el test tender a mostrar puntuaciones altas en el tem, y el grupo
con puntuaciones altas en el test tender a mostrar puntuaciones altas en el tem. Sin embargo, hay
que tener en cuenta que Likert correlacion rdenes de clasificacin (esto es, rankings), y que los
rdenes no informan acerca de si un determinado criterio de anlisis es superado o no (por ejemplo:
IHc 0.20). Por ello, aunque los resultados de ambos tipos de anlisis estn relacionados, pueden
no conducir necesariamente a la misma conclusin (McIver y Carmines, 1981). As pues, cuando se
han aplicado los dos tipos de anlisis es conveniente eliminar los tems que tengan IHc bajos y los
que no discriminen entre los grupos con puntuaciones extremas en el test. Estos tems son los tems
indiferenciadores.
Likert (1932) seal algunas de las razones por las que un tem puede resultar
indiferenciador:
a. Puede medir una actitud diferente a la que miden el resto de tems.
b. Puede ser respondido por casi todos los sujetos de la misma forma.
c. Puede estar redactado de manera que no sea entendido correctamente.
d. Puede tratarse de un enunciado de hecho.
3.4. Evaluacin de la fiabilidad y validez de la escala.
Una vez se ha seleccionado un conjunto de tems, hay que evaluar las propiedades
psicomtricas del test o cuestionario que forman considerado como un todo. Las dos propiedades
psicomtricas ms importantes son la fiabilidad, y la validez 2. Para que un test sea un instrumento
de medida til hay que demostrar su fiabilidad y su validez. Brevemente, sealaremos que la
fiabilidad hace referencia al grado de precisin que ofrecen las medidas obtenidas mediante un test.
Supone tambin un intento por cuantificar el grado de error que afecta a esas medidas. Un mtodo
bastante extendido para estimar la fiabilidad de un test consiste en calcular el coeficiente alfa de
Cronbach, cuya frmula es la siguiente:
2
donde n es la longitud del test
S
2
varianza del tem i, y S x es la n i1 i
1
Un criterio bastante extendido n 1 S2x

igual o superior a 0.70

una fiabilidad suficiente.
n
(es decir, el nmero de tems que lo componen), S2i es la

varianza que muestran las puntuaciones totales en el test.
para interpretar el coeficiente alfa es que ste ha de ser
(Nunnally, 1978), entonces puede afirmarse que el test tiene
Ejemplo de clculo.
2 Estas dos propiedades sern objeto de un estudio ms detenido en el bloque de temas
dedicado a la Teora de los Tests.
13
Con los datos del ejemplo que estamos utilizando, vamos a calcular el coeficiente alfa del
cuestionario de actitudes hacia la escuela. En la primera tabla que hemos mostrado, aparecen las
desviaciones tpicas de cada uno de los cuatro tems y de las puntuaciones totales en el test. Con
esta informacin ya podemos aplicar la frmula del coeficiente alfa de Cronbach:
n 2
S
El n i1 i 4 1.2921.752 1.9621.742 resultado obtenido indica que el cuestionario es fiable.
1 2 1 2 0.93
1n Sx 3 6.23
La
validez de un test hace referencia al grado en el que un test mide lo que

pretende
medir. El estudio de la validez de un test se desarrolla a partir de la
verificacin de las hiptesis de validacin. Una hiptesis de validacin hace referencia a las
relaciones que presentar el test objeto de estudio con otras variables, bajo el supuesto de que mide
lo que pretenda medir. Por ejemplo, en el caso del cuestionario de actitudes hacia la escuela una
hiptesis de validacin podra ser la siguiente: Se espera que las puntuaciones totales en el test
presenten una correlacin positiva con el rendimiento acadmico, de manera que a mayor
puntuacin en el test se observe un mayor rendimiento acadmico. Las hiptesis de validacin se
fundamentan en teoras contrastadas y/o en resultados empricos previos. La hiptesis de validacin
indica cul es el mtodo estadstico que se utilizar para su verificacin. En el caso anterior, la
hiptesis alude a la relacin entre dos variables cuantitativas, por lo tanto, su verificacin se
realizara calculando el coeficiente de correlacin entre las variables. Las hiptesis de validacin
pueden tomar diversas formas, y por lo tanto, pueden ser diversos los mtodos estadsticos
implicados en su verificacin. Para ilustrar este punto, veamos otro ejemplo. Supongamos que se ha
elaborado un cuestionario de actitud hacia el aborto. Si el test mide la actitud que pretende medir,
las puntuaciones en el test de dos grupos de sujetos que mantienen actitudes extremas y opuestas,
deberan ser diferentes. Por lo tanto, en el proceso de validacin del test se ha elaborado la
siguiente hiptesis de validacin: La puntuacin media en el test de un grupo de mujeres
pertenecientes a asociaciones feministas ser mayor que la puntuacin media de un grupo de
mujeres pertenecientes a asociaciones catlicas. En este caso, la hiptesis de validacin implica la
comparacin de dos medias, comparacin que se puede realizar mediante la prueba t
correspondiente. Obsrvese que a diferencia de lo que ocurra cuando se usaba el criterio de
consistencia interna para analizar los tems, aqu se definen los dos grupos con actitudes opuestas y
extremas en base a un factor externo al test: su pertenencia a asociaciones que mantienen posturas
contrarias respecto al aborto.
El proceso de validacin de un test es un proceso continuo, en el que se van acumulando

evidencias acerca de su validez. Slo cuando se ha acumulado un nmero suficientemente amplio
de evidencias es posible establecer de manera fundada una serie de conclusiones acerca de la
validez.
4. INTERPRETACIN DE LAS PUNTUACIONES.
Las puntuaciones obtenidas en una escala Likert no tienen una interpretacin directa.
Sabemos que un sujeto que obtuviera una puntuacin de 24 (puntuacin mxima) en el cuestionario
de actitudes hacia la escuela del ejemplo tendra una actitud muy favorable, y que un sujeto que
obtuviera una puntuacin de 4 (puntuacin mnima) presentara una mus desfavorable. Pero, qu
podemos decir de un sujeto que obtiene una puntuacin de 14? El mtodo de Likert no permite
medir los tems, es decir, no ofrece estimaciones del grado de actitud que hay que tener para estar
de acuerdo con un tem. Por lo tanto, no es posible ofrecer una interpretacin absoluta de la
puntuacin de un sujeto (McIver y Carmines, 1981). Si supiramos que un sujeto respalda los tems
14
que requieren un alto grado de actitud favorable para dar una respuesta de acuerdo, entonces
podramos inferir que ese sujeto tiene un nivel de actitud muy favorable.
Por todo ello, para poder interpretar las puntuaciones obtenidas en una escala Likert es
necesario referirlas a las puntuaciones obtenidas por el grupo de referencia al que pertenece el
sujeto. Una forma de hacerlo es calcular la diferencia entre las puntuaciones de los sujetos (X i) y la
media del grupo (es decir, calcular las puntuaciones diferenciales). Adems, podemos medir esas
diferencias utilizando como unidad de medida la desviacin tpica de las puntuaciones en el
cuestionario en ese grupo. Para ello dividiremos las diferencias por la desviacin tpica, lo cual no
es ms que transformar las puntuaciones directas en el test (Xi) en puntuaciones tpicas (zi):
Las puntuaciones tpicas nos
X i X indican cuntas desviaciones tpicas se
aleja la puntuacin del sujeto de la media z i S
de su grupo, y en qu sentido. Por
x
ejemplo, si un sujeto presenta una zi =
-0.5, entonces podemos decir que se trata
de un sujeto que est media desviacin tpica por debajo de la media del grupo. Si las puntuaciones
en el test siguen una distribucin aproximadamente normal, entonces, con ayuda de las tablas de la
distribucin normal, podemos transformar esa puntuacin tpica en el porcentaje de sujetos que
quedan por debajo (o por encima) de esa puntuacin. El valor de probabilidad (funcin de
distribucin) asociado a zi = -0.5 es 0.3085. Ahora podemos decir que el sujeto que ha obtenido una
zi = -0.5 supera aproximadamente al 31% de los sujetos de su grupo. Si las puntuaciones en el test
no siguen una distribucin aproximadamente normal no debe realizarse esta ltima transformacin.
Entonces podemos calcular el centil que corresponde a cada puntuacin en el test. De esta manera
sabremos cul es el porcentaje de sujetos que queda por debajo de cada puntuacin en el test.
5. VALORACIN.
Una de las crticas que suele hacerse del mtodo de escalamiento de Likert es que no est
basado en un modelo matemtico determinado. Esta es una diferencia importante con los mtodos
desarrollados por Thurstone, que bas sus mtodos en una serie de supuestos formales y unas leyes
(por ejemplo, la Ley del Juicio Comparativo). En todo caso, el mtodo de Likert puede emnarcarse
dentro del mbito ms general de la Teora Clsica de los Tests.
Otra crtica se refiere al uso del coeficiente de correlacin tem-test (ndice de
homogeneidad) como base para realizar el anlisis correlacional de los tems. Ya hemos sealado
que para evitar aumentar artificialmente esa correlacin es necesario utilizar el ndice de
homogeneidad corregido.
La verificacin de la unidimensionalidad del test tambin presenta ciertas deficiencias.
Likert (1932) supona que una vez se hubiera eliminado todos los tems indiferenciadores, los tems
restantes mediran una misma dimensin subyacente o actitud. Sin embargo, esto no tiene que ser
necesariamente as. Si un test mide dos actitudes diferentes pero relacionadas, los IHc sern
probablemente elevados, y llevarn a la conclusin errnea de que los tems miden una nica
actitud. El clculo de los IHc no es una buena base para evaluar la unidimensionalidad del test. En
su lugar hay que utilizar mtodos ms apropiados como el anlisis factorial.
Recordemos que Likert pretenda desarrollar un mtodo sencillo para medir las actitudes
que ofreciera resultados similares al mtodo ms costoso de los intervalos
aparentemente iguales desarrollado por Thurstone. Likert (1932) observ que
15
la fiabilidad de los cuestionarios producidos por los dos mtodos era muy
similar, y que la correlacin entre las puntuaciones obtenidas por los dos
mtodos era muy elevada. Estos resultados muestran que Likert consigui su
objetivo. Quizs lo que no previ Likert es que su mtodo tuviera tanto xito.
Su relativa sencillez, en comparacin a otros mtodos ms modernos, es la
responsable de que actualmente sea todava el mtodo ms utilizado para
medir actitudes, dimensiones de la personalidad, y otros constructos
psicolgicos.
BIBLIOGRAFIA.
Arce, C. (1994). Construccin de escalas psicolgicas. Madrid: Sntesis.
Garca Cueto, E. (1993). Introduccin a la psicometra. Madrid: Siglo XXI.
Meli, J. L. (1991). Mtodos de escalamiento unidimensional. Valencia: Cristbal Serrano Villalba.
Sancerni, M. D.; Meli, J. L.; Gonzlez Rom, V. y Daz, J. V. (1992). Psicometra: Problemas y
Prcticas. Valencia: Cristbal Serrano Villalba.
Wainerman, CH (1976) Escalas de medicin en Ciencias Sociales. Buenos Aires: Nueva Visin.
16
Referencias bibliogrficas.
Andrich, D. & Schoubroeck, L. (1989). The General Health Questionnaire: a
psychometric analysis using latent trait theory. Psychological Medicine, 19,
469-485.
Andrich, D.; Jong, J. y Sheridan, B. E. (1997). Diagnostic opportunities with
the Rasch model for ordered response categories. En J. Rost y R.
Langeheine (Eds.), Applications of latent trait and latent class models in
the social sciences (pp. 58-68). Mnster, Germany: Waxman Verlag.
Bock, R. y Jones, L. V. (1968). The measurement and prediction of
judgement and choice. San Francisco: Holden Day.
Dubois, B. y Burns, J. A. (1975). An analysis of the meaning of the question
mark response category in attitude scales. Educational and
Psychological Measurement, 35, 869-884.
Edwards, A. L. (1957). Techniques of attitude scale construction. New York:
Appleton-Century-Crofts.
Espejo, B. y Gonzlez-Rom, V. (1999). El significado de las categoras
centrales en las escalas tipo Likert. Trabajo presentado al VI Congreso de
Metodologa de las CC. Sociales y de la Salud. Oviedo, Espaa.
Espejo, B. y Gonzlez-Rom, V. (2001). Orden y relevancia de las alternativas de respuesta
"no estoy seguro", "trmino medio" y "?". Trabajo presentado al VII Congreso de
Metodologa de las CC. Sociales y de la Salud. Madrid, Espaa.
Hernndez, A.; Espejo, B.; Gonzlez-Rom, V. y Gmez-Benito, J. (en prensa).
Escalas de respuesta tipo Likert: es relevante la alternativa indiferente?.
Metodologa de Encuestas
Kaplan, K. J. (1972). On the ambivalence-indifference problem in attitude
theory: A suggested modification of the semantic differential technique.
Psychological Bulletin, 77, 361-372.
Likert, R. (1932). A technique for the measurement of attitudes. Archives of Psychology, 140, 1-50.
(Traduccin al castellano en C. H. Wainerman (Comp.) (1976), Escalas de medicin en
ciencias sociales, pp-199-260. Buenos Aires: Nueva visin.
McIver, J. P. y Carmines, E. G. (1981). Unidimensional scaling. Beverly Hills, CA: Sage.
Neumann, L. (1979). Effects of categorization on relationships in bivariate
distributions and applications to rating scales. Dissertation Abstracts
International, 40, 2262-B
Nunnally, J. C. (1978). Psychometric theory. New York: McGraw-Hill.
Peters, C. C. y Van Vorhis, W. R. (1940). Statistical procedures and their mathematical bases. New
York: McGraw-Hill.
Sudman, S. y Bradburn, N. M. (1989). Measuring attitudes: recording
responses. En Sudman, S. y Bradburn, N. M. (Eds.). Asking questions: a
practical guide to questionnaire design. San Francisco: Jossey-Bass
Publishers.
Worthy, M. (1969). Note on scoring midpoint responses in extreme response
style scores. Psychological Reports, 24, 189-190.
17

Analisis Likert

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Analisis Likert

Cargado por

Copyright:

Formatos disponibles

1

TEMA 5. MTODO DE ESCALAMIENTO UNIDIMENSIONAL DE LIKERT.

Likert (1932) fue desarrollar un mtodo de medicin de actitudes sencillo y

Por ltimo, al tratarse de un mtodo de escalamiento unidimensional, se supone que los

de actitudes negativas o desfavorables. Por ejemplo, imaginemos que estamos construyendo

3.2. Puntuacin de los tems y de los sujetos.

medios en la dimensin medida, tiene una probabilidad muy pequea de

Puntuacin transformada (Pi)

3. 3. Anlisis y seleccin de tems.

Para interpretar el ndice de homogeneidad corregido suele tomarse como valor de

La frmula de clculo del IHc

Luego, el valor del IH ser:

Ahora ya podemos calcular el ndice de homogeneidad corregido (IHc):

3.3.2. Anlisis basado en el criterio de consistencia interna.

Cuando Likert (1932) desarroll su mtodo de escalamiento, los investigadores no

el X BA numerador es la diferencia entre las medias en el tem de los dos grupos, y S 2

Si el tem discrimina entre los dos grupos, entonces observaremos que:

Conociendo las medias y las H1 : A B

implicadas en esta prueba de diferencias entre

Si asumimos un nivel de significacin =0.05, en la tabla de distribucin de

nA1S2A nB 1S2B 1 1 410.5 410.432 11

Ya sealamos anteriormente que el anlisis basado en el criterio de consistencia interna

(es decir, el nmero de tems que lo componen), S2i es la

El proceso de validacin de un test es un proceso continuo, en el que se van acumulando

También podría gustarte