Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Uía para Construir Escalas de Actitudes: Indice
Uía para Construir Escalas de Actitudes: Indice
ESCALAS DE ACTITUDES
Universidad Pontificia Comillas Madrid
Facultad de Ciencias Humanas y Sociales
Pedro Morales Vallejo (ltima revisin, 13, Dic. 2006)1
INDICE
1. Por qu construimos una escala (o un test) en vez de limitarnos a una sola pregunta ....................
2. Proceso de construccin de una escala de actitudes...................................................................
3. Definicin de la actitud que se desea medir ..............................................................................
4. Redaccin de los tems...........................................................................................................
5. Redaccin y nmero de respuestas ..........................................................................................
a) Redaccin de las respuestas ..............................................................................................
b) Nmero de respuestas.......................................................................................................
c) Nmero par o impar de respuestas ....................................................................................
6. Preparar la clave de correccin ...............................................................................................
7. Preparar preguntas o instrumentos adicionales ..........................................................................
8. Obtener datos de una muestra.................................................................................................
9. Anlisis de tems y comprobacin de la fiabilidad......................................................................
9.1. Anlisis de tems ............................................................................................................
9.1.1. Correlacin tem-total ..........................................................................................
9.1.2. Contraste de medias en cada tem de los dos grupos
con puntuaciones mayores y menores en el total de la escala ..................................
9.2. Comprobacin de la fiabilidad y seleccin de los tems definitivos....................................
10. Otras consideraciones en torno a la eleccin de los tems definitivos ...........................................
1 Equilibrio entre tems positivos y negativos .........................................................................
2 Cuidar ms la representatividad del contenido de las formulaciones de los tems....................
3 Incluir de manera equilibrada aspectos distintos (subescalas) del mismo rasgo general.............
4 Incorporacin de nuevos tems...........................................................................................
5 Preparacin de dos versiones, corta y larga, de la misma escala ............................................
6 Explicacin o redefinicin del rasgo medido por nuestro instrumento ....................................
11. Comprobacin de la validez y otros anlisis posteriores..............................................................
12. Sugerencias para obtener datos adicionales que faciliten la validacin de la escala.........................
12.1. Confirmacin del significado pretendido (validez de constructo)......................................
12.1.1. Anlisis correlacionales ..................................................................................
1 Relacin con otros modos de medir el mismo rasgo.........................................
2 Comprobacin de relaciones esperadas (positivas o negativas)
con otros rasgos distintos..............................................................................
3 Comprobar que no existe relacin donde no esperamos que la haya .................
1.2.1.2. Comparaciones entre grupos...........................................................................
12.2. Confirmacin de la utilidad del instrumento (validez predictiva)......................................
13. Bibliografa............................................................................................................................
13.1. Referencias bibliogrficas citadas ...................................................................................
13.2. Bibliografa sobre construccin de instrumentos ..............................................................
13.3. Bibliografa sobre colecciones de instrumentos ................................................................
2
3
3
4
5
5
6
6
6
7
8
8
9
9
10
12
15
15
15
15
16
16
16
16
18
18
18
18
19
19
19
20
21
21
21
22
1 Una gua ms extensa sobre construccin de escalas y que incluye cmo utilizar el programa SPSS puede verse
en Morales, Urosa y Blanco (2003) (referencia completa en la bibliografa).
2 Tambin hay investigaciones que muestran que utilizar un solo tem puede ser til (Gardner, Cummings; Dunham
and Pierce (1998).
Gua para construir escalas de actitudes
Este tipo de razones tiene ms peso cuando se van a tomar decisiones sobre los sujetos o interesa un
buen diagnstico individual.
3 Aumenta la fiabilidad de la medida y por las razones dichas: se minimizan las limitaciones de cada
tem en particular; merecen ms confianza varias preguntas que una sola. Un solo tem est ms sujeto a los
errores de medicin, que tienden a cancelarse mutuamente si sumamos varios tems. En un sentido ms
psicomtrico, si disponemos de una serie de tems podemos calcular el coeficiente de fiabilidad como
veremos ms adelante. La fiabilidad puede ser alta o baja, pero eso es algo que podemos verificar, de la
misma manera que podemos analizar la calidad de cada tem.
4 Una razn de peso para sumar varios indicadores del mismo rasgo es que las diferencias entre los
sujetos van a quedar ms ntidas; va ser ms fcil clasificarlos; en definitiva va a aumentar la varianza.
El detectar diferencias es de inters en cualquier estudio o investigacin porque sin diferencias claras
es muy difcil encontrar relaciones entre variables. De nuevo esto es importante incluso en cuestionarios
ms de corte sociolgico: diferenciamos mejor a las personas en un determinado rasgo si disponemos de
varios indicadores y consecuentemente detectaremos mejor las relaciones de ese rasgo con otras variables.
De los diversos tipos de escalas nos limitamos aqu al denominado escalas tipo-Likert. Son las ms
conocidas y se denominan as por el autor que sistematiz el proceso de construccin (en 1932).
En conjunto es el sistema ms sencillo y de caractersticas no inferiores a los otros tipos de escalas (o
son incluso mejores) por lo que es posiblemente el ms utilizado. Lo que hizo Likert fue extender a la
medicin de las actitudes lo que ya era comn en la medicin de los rasgos de personalidad: la suma de una
serie de respuestas a tems supuestamente homogneos (que expresan el mismo rasgo) sita al sujeto en la
variable medida.
tenga una actitud positiva como negativa. Si, por ejemplo, se desea construir una escala para medir actitud
hacia el estudio, uno puede preguntarse qu caracteriza al que tiene una actitud muy favorable o muy
desfavorable tal como conceptualizamos nosotros esa actitud: le gusta estudiar, tiene un nivel alto de
aspiraciones, no confa en la suerte, etc.
No hay que olvidar que las actitudes, como cualquier otro rasgo que queramos medir, se pueden
concebir en diversos grados de abstraccin, y pueden ser muy genricos (como actitud general hacia el
estudio) o muy especficos (como nivel de aspiraciones o actitud hacia el estudio de un determinado tipo
de materias, etc.).
Este retrato robot ayudar a redactar los tems en torno a un plan coherente; interesa desde el
principio asegurar la validez conceptual y poder justificarla. Este retrato robot se puede pensar en funcin
de supuestas caractersticas personales, de opiniones con las que estara de acuerdo, de actividades que le
gustara hacer, etc.
Puede ayudar tambin el revisar otros instrumentos ya hechos. Si se utiliza una escala ya hecha (o
varias) como fuente de inspiracin, o se toman determinadas ideas de un autor, etc., esto se debe hacer
constar.
desfavorable (estudiar es aburrido) pero sin introducir palabras negativas, como no o nunca, que se prestan
a confusiones al responder. Esta redaccin bipolar tiene estas ventajas4:
1. Obliga a una definicin previa ms matizada del rasgo o constructo.
2. Requiere una atencin mayor por parte del que responde;
3. Permite comprobar la coherencia de las respuestas, verificando si hay contradicciones
sistemticas. Si hay un nmero aproximado de tems positivos y negativos, y sumamos a cada
sujeto sus respuestas a los dos tipos de tems, podemos calcular la correlacin entre los dos
totales parciales como si se tratara de dos subescalas. Esta correlacin debe alcanzar un valor de
.50 o ms, y mostrar en este caso una coherencia global en las respuestas.
4. Comprobar la coherencia es prcticamente lo mismo que comprobar que no se da la
aquiescencia o tendencia a mostrar acuerdo casi con cualquier afirmacin, incluso con
afirmaciones que se contradicen (cuando se da esta aquiescencia suele deberse a ambigedad en
la redaccin, falta de claridad; se da ms en niveles educacionales bajos)5.
Los errores y ambigedades en la formulacin de los tems suelen manifestarse en el anlisis. La
irrelevancia o ambigedad puede sospecharse cuando demasiados sujetos escogen la respuesta central o los
tems no discriminan; tambin la no discriminacin puede indicar que un tem no mide lo mismo que los
dems o que los sujetos lo entienden de hecho de otra manera. Si un tem discrimina en sentido contrario
(puntan ms alto en ese tem los que en el conjunto de la escala puntan ms bajo) puede haber un error
en la clave de correccin.
Sobre el nmero inicial de tems que deben redactarse: no hay un nmero ptimo, pero a mayor
nmero inicial de tems, mayor probabilidad de encontrar en el anlisis un conjunto de tems definitivos con
una fiabilidad suficiente. A mayor nmero de tems buenos (que no tienen que ser muchos) tambin ser
mayor la fiabilidad.
de acuerdo
en desacuerdo
indiferente
ms bien
de acuerdo
ms bien
de acuerdo
ms bien
de acuerdo
en desacuerdo
ms bien
en desacuerdo
indiferente
ms bien
en desacuerdo
en desacuerdo
ms bien
en desacuerdo
en desacuerdo
muy en desacuerdo
muy en desacuerdo
Cuadro 1
Caben otros formatos en las respuestas, como utilizar nmeros especificando con palabras el
significado de los extremos (muy de acuerdo y muy en desacuerdo o expresiones equivalentes), o se pueden
redactar las respuestas en trminos de una mayor o menor importancia, frecuencia, etc. Es til ver modelos
antes de hacer nuestra redaccin y presentacin definitiva de la escala 6.
4 Las ventajas de una formulacin de los tems pero en ambas direcciones y eliminando expresiones negativas est
muy investigada, por ejemplo Barnette (2000).
5 Un tratamiento amplio de la aquiescencia y otros problemas metodolgicos puede verse en Morales (2006)
6 En general las diversas maneras de expresar las respuestas (todas con expresiones verbales, o describiendo
solamente las dos respuestas extremas, o utilizando nmeros, etc.) dan resultados semejantes por lo que respecta
Gua para construir escalas de actitudes
a veces
ocasionalmente
de vez en cuando
normalmente
casi siempre
siempre
a veces
normalmente
muy a menudo
siempre
muchsimas
veces
siempre
Cuadro 2
Las respuestas pueden indicarse tambin con nmeros (1= en desacuerdo, 2 = indiferente, 3= de
acuerdo, etc. ) o con palabras y con nmeros, o con letras, pero siempre debe estar muy claro para el que
responde el significado de sus respuestas. En general parece preferible el empleo de letras o de palabras (al
menos cuando se juzgue que los nmeros pueden condicionar la respuesta).
Cuando se ponen nmeros, todos deben ir en la misma direccin (muy de acuerdo siempre tiene el
valor mximo), aunque despus se cambien estos valores en la clave de correccin como indicamos ms
adelante.
b) Nmero de respuestas
El nmero habitual de respuestas es de cinco, pero pueden ser ms o pueden ser menos. En general,
y aunque esto no sucede siempre, a mayor nmero de respuestas en los tems, suele haber en toda la escala
una mayor fiabilidad, con tal de que el nmero de respuestas no supere la capacidad de discriminacin de
los que responden; en torno a seis o siete respuestas puede ponerse el nmero mximo, y en tres el mnimo
(en cualquier caso con tres respuestas suele subir la fiabilidad con respecto a dos nada ms).
c) Nmero par o impar de respuestas
Una cuestin distinta es si se debe incluir un nmero par o impar de respuestas (con o sin una
respuesta central de indecisin). No hay normas claras sobre este punto; lo ms claro es que son
preferibles tres respuestas a dos (la fiabilidad es casi siempre mayor con tres respuestas que con dos, y
adems con slo dos respuestas los que responden pueden sentirse incmodos).
El incluir un nmero par de respuestas (4 6) tiene la ventaja de que siempre cabe la posibilidad de
agruparlas en dos categoras (se hace fcilmente con ordenador), de acuerdo y en desacuerdo, y esto puede
ser til para determinados anlisis. Adems se elimina la posibilidad de que los sujetos se evadan escogiendo
la respuesta central (casi nunca hay verdadera indecisin si la actitud medida y los tems son relevantes para
que los que responden porque realmente expresan esa actitud).
a la validez y fiabilidad (por ejemplo Chang, (1997). La fiabilidad test-retest suele ser mayor cuando todas las
categoras de respuesta estn expresadas verbalmente (Weng, 2004, con una muestra de 1247 estudiantes
universitarios).
7 La justificacin de estas categoras de respuesta, y un listado mayor, puede verse en Caadas y Snchez Bruno,
(1998).
Gua para construir escalas de actitudes
de acuerdo
ms bien
de acuerdo
ms bien
en desacuerdo
en desacuerdo
4
1
3
2
2
3
1
4
Cuadro 3
V1
V2
V3
V4
Scale Mean
if Item Deleted
Scale Variance
if Item Deleted
Corrected Item
Total Correlation
Alpha
if Item Deleted
11,8156
11,9798
12,5663
12,9524
11,4695
9,5754
9,3022
10,0684
3618
,5028
,5548
,3131
,6177
,5207
,4835
,6695
Reliability Coefficients
N of Cases = 694
N of Items = 4
Alpha = ,6450
Cuadro 4
12
Una explicacin detallada sobre cmo utilizar el SPSS en la construccin de escalas en Morales, Urosa y
Blanco (2003). Este programa nos hecho el anlisis de tems (correlacin tem-total), la fiabilidad de toda la
escala y la fiabilidad si suprimimos un tem.
Gua para construir escalas de actitudes
10
En este ejemplo metodolgico tenemos el anlisis de una breve escala de slo cuatro tems. Las
columnas que nos interesa examinar son las dos ltimas: la correlacin tem-total (menos el tem) y la
fiabilidad de todo el test o escala si suprimimos ese tem. En este ejemplo la fiabilidad obtenida es de .645,
pero si suprimimos el tem 4 (es el que tiene una menor correlacin con el total), sube a casi .67; si
suprimimos cualquier otro tem, baja la fiabilidad; habra que suprimir por la tanto el tem 4.
Estos programas facilitan notablemente el proceso, pero conviene hacer algunas observaciones
(aplicables tambin si utilizamos el contraste de los grupos extremos que veremos a continuacin).
a) Es cuestionable seguir cuasi mecnicamente procedimientos automticos; el constructor del
instrumento debe intervenir con sus propios criterios sobre lo que quiere medir y sobre las caractersticas
del instrumento (por ejemplo, incluir un nmero idntico de tems positivos y negativos)13.
b) Por otra parte estos programas nos dan la fiabilidad si suprimimos tems de uno en uno, pero no si
suprimimos ms de uno a la vez, y normalmente no interesa ir eliminando tems uno a uno sino en bloques
escogidos con algn criterio (como el tener una casi idntica correlacin tem-total, o buscando que haya un
nmero idntico de tems positivos y negativos).
c) Adems es normal que varios subconjuntos de tems tengan un fiabilidad idntica o similar, por lo
que habr que acudir a otros criterios en la seleccin definitiva de los tems (como consideraciones
conceptuales y resultados del anlisis factorial).
La correlacin tem-total que podemos encontrar ya programada es sumamente til, pero en principio
no debe ser la nica consideracin en la seleccin de los tems definitivos. Por esta razn en un apartado
posterior aadimos algunas consideraciones sobre la eleccin definitiva de los tems.
9.1.2. Contraste de medias en cada tem de los dos grupos con puntuaciones mayores y
menores en el total de la escala.
El procedimiento anterior es muy laborioso si no se hace con un programa de ordenador; un
procedimiento ms sencillo, y que aporta una informacin semejante, es comparar en cada tem el 25% con
puntuacin total ms alta con el 25% con puntuacin total ms baja14. Para esto:
1 Ordenamos a los sujetos de ms a menos, segn el total obtenido en toda la escala, y seleccionamos
dos subgrupos: grupo superior, el 25% con total ms alto, y grupo inferior, el 25% con puntuacin
total ms bajo; el 50% central no entra en este anlisis.
2 Calculamos la media y la desviacin tpica en cada tem de cada uno de los dos grupos, superior e
inferior;
3 Contrastamos las medias de estos dos grupos mediante la t de Student.
Lo que esperamos es que el 25% con una puntuacin total superior tenga una media
significativamente ms alta en cada tem que el 25% inferior. Podremos en este caso concluir que los tems
que simultneamente diferencian a los mismos sujetos estn midiendo lo mismo. Prescindiremos de los
tems que no discriminan (valores de t no significativos), y si son muchos o demasiados los que discriminan
(y esto sucede con frecuencia), podemos quedarnos con los ms discriminantes; siempre hay tems mejores
que otros en trminos relativos.
En la eleccin definitiva de los tems pueden intervenir adems otros criterios, como ya hemos
indicado y explicamos despus con ms detenimiento, pero en cualquier caso debe estar claro su poder
discriminatorio que a su vez nos confirma que los tems miden bsicamente lo mismo.
Para hacer estos anlisis conviene disponer los datos de manera clara y tener a al vista algn modelo
(no hay un modo nico de presentar los datos). Aunque hagamos todo el proceso con ordenador es
13 Ya hemos indicado que es til calcular la correlacin entre los dos subtotales (sumando por separado las
respuestas a los tems positivos y negativos); si la correlacin est en torno a .50 podemos excluir el influjo de
la aquiescencia en las respuestas.
14 Este anlisis se hace muy fcilmente con una hoja de clculo tipo EXCEL.
Gua para construir escalas de actitudes
11
importante saber qu estamos haciendo, y adems, tal como nos vienen los resultados del ordenador, no es
siempre la mejor manera de presentarlos.
En este ejemplo (ficticio y con resultados muy exagerados, cuadro 5) de un total de 40 sujetos
(nmero muy bajo si se tratara de un caso real) comparamos las respuestas de los 10 sujetos (25%) con
totales ms altos y ms bajos. Tambin es til calcular la media y la desviacin tpica de cada tem en toda
la muestra; las desviaciones tpicas de los tems en toda la muestra nos harn falta despus para calcular la
fiabilidad.
Tambin se podran poner como ejemplos correlaciones tem-total, pero el contraste de medias de los
grupos extremos resulta ms grfico y es muy fcilmente comprensible.
5
tem
|| (2)
4
||||| (5)
||| (3)
n 1
en toda la muestra:
X =
=
25%
Superior
n 2
en toda la muestra:
X =
=
25%
Superior
|||| (4)
|||||| (6)
25%
Inferior
||| (3)
||||| (5)
|| (2)
n 3
en toda la muestra:
X =
=
25%
Superior
|| (2)
||||| (5)
|| (2)
|| (2)
||| (3)
| (1)
| (1)
25%
Inferior
25%
Inferior
||| (4)
diferencia
X s =3.9
= .70
|| (2)
||||||| (7)
X i = 1.4
= .66
t = 7.79
p < .001
X s = 4.4
= .49
X s - X i=
.3
t = 1.05
p > .05
X i = 4.1
= .70
| (1)
X s - X i=
2.50
X s = 2.8
= .49
X s - X i=
- 1.1
X i = 3.9
= 1.04
t=
p
Cuadro 5
En este ejemplo ficticio (cuadro 4; con datos exagerados, de fcil interpretacin):
El tem n 1 discrimina bien, el valor de t nos muestra que la diferencia entre los grupos superior e
inferior es muy superior a lo puramente aleatorio; este tem habra que retenerlo.
El tem n 2 discrimina poco, la diferencia no es significativa y habr que eliminarlo en la escala
definitiva.
El tem n 3 tiene discriminacin negativa, los del grupo inferior superan a los del grupo superior;
claramente este tem no es sumable con los dems, no mide lo mismo y hay que rechazarlo. En este
caso tambin puede suceder que est mal la clave de correccin.
Con cualquiera de los dos procedimientos (correlacin tem-total y contraste de medias entre los dos
grupos extremos) obtenemos un dato (r t) sobre la calidad del tem; ambos tipos de informacin nos dicen
si podemos considerar que el tem discrimina adecuadamente y consecuentemente si podemos considerar
que mide lo mismo que los dems.
Cul de los dos anlisis es preferible?
Los dos anlisis aportan informacin semejante; un tem que diferencia adecuadamente a los grupos
con total mayor y menor est claramente relacionado con el total de la escala; prcticamente con los dos
procedimientos se llega a la misma seleccin de tems, sobre todo si nos vamos a quedar con los mejores
tems. En la prctica el escoger un mtodo u otro es cuestin de conveniencia. Si disponemos de un
programa de ordenador como el SPSS, con la correlacin tem-total y la fiabilidad ya programados, es el
procedimiento ms cmodo y el que hoy da suele seguirse. En procesos de aprendizaje sobre cmo
construir escalas quizs el contraste de medias entre los grupos extremos es intuitivamente ms claro15.
15 El autor del procedimiento (Likert) recomienda y utiliza el contaste de medias, pero en su poca no se dispona
de los programas de ordenador con los que contamos hoy da.
Gua para construir escalas de actitudes
12
2i
1
=
k 1
2
t
k
k = nmero de tems
i2 = suma de las varianzas de todos los tems
2t = varianza de las puntuaciones totales
Aunque llevemos a cabo todo el proceso con un programa de ordenador, debemos tener muy claro
qu es lo que estamos haciendo. Lo que vamos a hacer es calcular la fiabilidad con distintos subconjuntos
de tems para quedarnos finalmente con la seleccin de tems que ms nos convenza como versin
definitiva de nuestro instrumento.
El proceso es el siguiente:
1 En primer lugar calculamos la fiabilidad de la escala inicial con todos los tems,
2 En un segundo lugar:
a) Eliminamos los tems que con ms claridad no son discriminantes (no diferencian bien a los
dos grupos extremos, o tienen las correlaciones tem-total ms bajas);
b) De nuevo recontamos a los sujetos su nueva puntuacin total (pues hemos eliminado algunos
tems)
c) Volvemos a calcular la fiabilidad de la nueva versin de la escala ms reducida.
3 Vamos repitiendo el proceso del paso anterior, calculando la fiabilidad cada vez con menos tems,
hasta que la fiabilidad empieza a bajar.
4 Nos quedamos en principio con la versin de la escala que tiene una fiabilidad ptima.
Los tems los vamos suprimiendo de uno en uno, o en pequeos bloques. No se trata de un proceso
totalmente mecnico, pues como comentaremos despus, pueden entrar otras consideraciones en la eleccin
de los tems, pero los tems que vamos reteniendo deben ser tems que correlacionan bien con el total (o que
diferencian bien a los sujetos en los grupos extremos).
En cualquier caso la norma de retener el subconjunto de tems que nos de una mxima fiabilidad es
vlida en principio, aunque siguiendo este criterio de manera literal no obtendremos necesariamente el mejor
instrumento posible.
Para calcular estos coeficientes de fiabilidad necesitamos estos datos que son los que entran en las
frmulas:
1. El nmero de tems, que ir variando cada vez segn vamos eliminando algunos.
2. La varianza de cada tem en toda la muestra, que debe estar calculada previamente; se suman las
varianzas de los tems que componen cada versin de la escala pues la suma de las varianzas de
los tems entra en la frmula el coeficiente de fiabilidad ( de Cronbach).
3. La varianza de los totales. sta es la parte ms laboriosa si no se hace con un programa de
ordenador, pues a cada sujeto hay que recontarle su nueva puntuacin segn se van eliminando
tems. De estos nuevos totales se calcula la varianza (y la media, que siempre ser un dato
descriptivo importante aunque no sea necesaria en el clculo de la fiabilidad).
Aunque no dispongamos de un programa de ordenador, estos clculos resultan ms sencillos si
tenemos los datos bien organizados, y siempre es til tener algn modelo a la vista. Una manera de ir
controlando el proceso es preparar un cuadro en el que se van viendo las sucesivas versiones de la escala
Gua para construir escalas de actitudes
13
segn se va calculando la fiabilidad con unos tems y otros (como figura en el cuadro 6). Aunque utilicemos
un programa de ordenador es conveniente entender lo que realmente estamos haciendo, y adems un cuadro
como ste es una buena manera de presentar el proceso.
tems en las
versiones
sucesivas
nmero de tems
de cada versin
k
media de los
totales
desviacin tpica
Suma de las
de los totales
varianzas de los
2
tems i
coeficiente de
fiabilidad
Cuadro 6
En la tabla vamos colocando los datos que intervienen en la frmula. La media de los totales (de
cada nueva versin) no es necesaria para calcular la fiabilidad, pero conviene ponerla como dato descriptivo
de inters.
Si utilizamos este cuadro para presentar el proceso seguido, podra sobrar la columna de la suma de
las varianzas de los tems, porque este dato no es especialmente informativo aunque entra en la frmula de
la fiabilidad.
El proceso, como vamos viendo, es ste:
1 Calculamos el coeficiente de fiabilidad con todos los tems iniciales;
2 Eliminamos los peores tems y volvemos a calcular la fiabilidad y as sucesivamente hasta que
nos quedamos con el conjunto de tems que nos da la mayor fiabilidad.
Los datos de la frmula del de Cronbach van variando segn vamos eliminando tems. Cada vez
que eliminamos algn tem hay que contar a cada sujeto su nueva puntuacin total, pues
necesitamos conocer la varianza de los nuevos totales.
3 Cuando al eliminar tems vemos que baja la fiabilidad, damos por terminado el trabajo. Al final nos
quedamos con el subconjunto de tems que forme una escala con una fiabilidad ptima.
Este proceso, seguido de manera casi automtica, nos lleva a construir instrumentos (escalas de
actitudes en nuestro caso) de una calidad adecuada: la validez, al menos conceptual, la hemos ya procurado
al redactar los tems, y con un anlisis de tems que nos permite a desechar los peores, podemos garantizar
una fiabilidad aceptable (al menos la mayor posible en nuestro caso).
Sin embargo en estos procesos caben niveles de perfeccionismo, y a partir del mismo conjunto inicial
de tems cabe llegar a instrumentos mejores o peores. La inversin en tiempo, anlisis, confeccin y
comparacin de versiones distintas del mismo instrumento, etc., puede depender del uso pretendido del
mismo; no es lo mismo preparar una escala para una evaluacin sencilla de actitudes sin muchas
pretensiones, que para hacer una investigacin ms seria en torno a la actitud medida por nuestro
instrumento (no es lo mismo construir un instrumento como un simple ejercicio acadmico, o para una
experiencia didctica o para aportar un feedback a unos sujetos en una determinada situacin, que construir
una escala para medir un rasgo que va ser central en una tesis doctoral o en una investigacin ms seria o
que pensamos publicar). El rigor metodolgico no tiene que ser siempre el mismo, con tal de garantizar
siempre un rigor suficiente.
Si pretendemos construir un instrumento de una calidad superior, o simplemente deseamos hacerlo lo
mejor posible, ya hemos repetido que este proceso no tiene por qu ser automtico. Tambin tienen su
lugar nuestras propias ideas sobre lo que queremos medir, nuestra propia concepcin del rasgo. En la
eleccin definitiva del conjunto de tems que van a formar la escala deben entrar tambin otros criterios ms
14
conceptuales que modulen esta seleccin; con frecuencia tendremos versiones con distinto nmero de tems
que apenas difieren en fiabilidad.
En principio deben eliminarse aquellos tems que hacen que la fiabilidad sea menor, pero a veces
eliminando un tem apenas baja la fiabilidad y si no lo eliminamos la escala puede quedar menos coherente
con otros criterios (una idea o aspecto del constructo puede quedar mal representada o de manera muy
incompleta).
Otras veces entre los tems que contribuyen a una mejor fiabilidad hay alguno que, una vez
eliminados otros previamente, puede tener poco sentido porque desequilibra el significado, etc., y puede ser
mejor eliminarlo tambin. El que la fiabilidad vare en el tercer decimal importa poco.
Tambin puede suceder que con menos tems obtengamos una fiabilidad igual o semejante que con
un nmero mayor de tems. Frecuentemente tendremos ms tems de los que necesitamos para llegar a una
escala con una fiabilidad ms que aceptable.
Adems, y a la vista de lo que va sucediendo, podremos probar qu sucede si incluimos o excluimos
algunos tems en particular, o podemos ir comprobando la estructura factorial de las distintas versiones.
Es normal que de un conjunto de tems amplio nos pueda quedar ms de una escala, sobre todo si el
constructo medido tiene cierta complejidad. En estos casos la escala prevista puede quedar dividida en
subescalas, o podemos tener un instrumento largo que mide el rasgo ms general y que a la vez se puede
dividir en subescalas que dan puntuaciones de los componentes. Para este proceso (que aqu no tratamos de
manera especfica) suele utilizarse el anlisis factorial, que adems puede ser un buen mtodo
complementario para seleccionar los tems16.
Como estamos tratando del anlisis de tems y de la fiabilidad como criterios (no nicos) de calidad,
no debemos olvidar que aunque es verdad que en general a mayor nmero de tems tendremos una mayor
fiabilidad, tambin es verdad que con ms respuestas en los tems tambin aumenta la fiabilidad.
Procedimiento inverso, recomendado por algunos autores, y que puede ser preferible.
En vez de calcular la fiabilidad primero con todos los tems y de nuevo eliminando progresivamente
los que menos discriminan, podemos seguir el proceso inverso:
1 Calculamos la fiabilidad con el subconjunto de tems que ms discriminan (mayor correlacin con
el total o mayor diferencia entre los grupos extremos).
2 Aadimos unos pocos tems, los ms discriminantes de los que nos quedan y volvemos a calcular
la fiabilidad.
3 Damos la tarea por terminada cuando la fiabilidad empieza a bajar.
Con este procedimiento nos quedar normalmente una escala ms breve, sobre todo si partimos de
muchos tems. Los tems se pueden ir aadiendo de uno o en uno, o de cinco en cinco, o en pequeos
bloques de tems de discriminacin parecida. Como antes, se pueden tener tambin criterios ms
conceptuales, para que nos quede un instrumento equilibrado y a nuestro gusto.
Una alternativa ms sencilla (no siempre, depende de los medios disponibles) al clculo del coeficiente
(que en principio es el preferible) es utilizar alguna de las frmulas basadas en la particin del test o escala
15
16
18 Estas frmulas que relacionan la longitud de un test y su fiabilidad suelen encontrarse en textos en los que se
trata de la fiabilidad de manera ms especfica y en la obra citada de Morales, Urosa y Blanco (2003).
Gua para construir escalas de actitudes
17
No tratamos aqu de manera especfica sobre la validez, pero es til recordar ahora algunas ideas
bsicas sobre la validez y cmo probarla. No hay una prueba de validez en sentido estricto, pero s podemos
tener datos que apoyen una determinada interpretacin, avalen la utilidad del instrumento, etc.19
Una visin de conjunto de lo que entendemos por validez y de los modos de comprobarla est
resumida en el cuadro 7.
Cmo comprobamos el significado y la utilidad
Las interpretaciones se pueden
reducir a dos grandes tipos:
a) Interpretaciones sobre el
significado de lo que medimos
(validez de constructo)
A pesar de la validez aparente
de los tems, podemos medir, al
menos parcialmente, algo distinto
de lo que pretendemos, como
capacidad lectora, deseo de
presentar una buena imagen, etc.;
adems los que responden pueden
entender otra cosa distinta o no
entender lo que se les pregunta,
etc.
b) Interpretaciones sobre la utilidad
del instrumento (validez
predictiva, en sentido amplio)
analizando el contenido
Necesario siempre;
Mtodos correlacionales;
Problemas posibles: validez y
fiabilidad del criterio que se
pretende predecir
Cuadro 7
Con los estudios de validacin pretendemos, sobre todo, dos finalidades (que se apoyan
mutuamente):
1 Confirmar el significado previsto de la variable (de la actitud o rasgo) que pretendemos medir.
Se trata de verificar que la interpretacin es correcta (si, por ejemplo, decimos que estamos midiendo
actitud hacia el estudio, verificamos que es eso, y no otra cosa, como inteligencia, lo que de hecho
medimos). Este tipo de validez suele denominarse validez de constructo (constructo = rasgo). Confirmamos
el significado comprobando hiptesis basadas en el mismo significado; podemos utilizar dos tipos de
estrategias que se complementan:
1. Validez convergente: por ejemplo comprobando relaciones esperadas y plausibles (positivas o
negativas) con otras medidas:
a) unas pueden ser otros instrumentos que pretendidamente miden lo mismo (si hacemos una
escala de autoconcepto esperaremos una correlacin significativa con otras escalas de
autoconcepto);
b) otras pueden medir otras cosas pero con las que esperamos que haya relacin (como entre
actitud hacia el estudio y calificaciones escolares).
19 Sobre la validez las normas de la American Educational Research Association (A.P.A.) dicen que la validez se
refiere al grado en el que la evidencia y la teora apoyan (support) las interpretaciones de los tests de
acuerdo con el uso que se va a hacer de estos tests.
Gua para construir escalas de actitudes
18
2. Validez divergente: comprobando que el rasgo no tiene relacin con otros con los que no
esperamos que la tenga o que se diferencia de otros del mismo mbito (la asertividad de la
agresividad, puede haber relacin pero no tan alta que nos permita concluir que ambos
instrumentos miden lo mismo); podemos tambin comprobar si la escala diferencia grupos que ya
sabemos que son diferentes en esa variable.
Hay otros mtodos para confirmar, matizar, describir mejor o explorar el significado de lo que
medimos, como es el anlisis factorial y otros tipos de anlisis.
2 Comprobar la utilidad prctica del instrumento
En este caso verificamos, por ejemplo si existen correlaciones apreciables con determinados criterios
(como rendimiento acadmico, xito en una tarea, etc.; se trata de validez predictiva en sentido amplio).
Esta comprobacin de la utilidad tambin aporta datos a la comprobacin del significado.
19
Estos nuevos instrumentos tienen un valor complementario, pueden ser muy breves y tambin
pueden ser simples preguntas.
2 Comprobacin de relaciones esperadas (positivas o negativas) con otros rasgos
Podemos comprobar tambin la relacin entre lo que mide nuestro instrumento y otros rasgos o
caractersticas distintas con las que esperamos que haya relacin (positiva o negativa):
a) Una lista de adjetivos o rasgos autodescriptivos que podran equivaler a una serie de tests de
personalidad; tambin se pueden sumar adjetivos que reflejen ms o menos el mismo rasgo
(mediante el anlisis factorial se pueden encontrar grupos de adjetivos relacionados entre s y
que reflejan un mismo rasgo subyacente a todos ellos).
b) Tests de personalidad (completos o en parte, subtests, etc. ),
c) Preguntas sueltas sobre diversos temas, otras actitudes, preferencias, etc. que, como hiptesis,
puedan tener relacin con la actitud medida; (por ejemplo preguntas de este estilo: de estas
profesiones cual te hubiera gustado ms para ti? Se escoge una entre varias, o se escoge una
de cada par, o se valoran todas independientemente, etc.).
3 Comprobar que no existe relacin donde no esperamos que la haya
Esta no relacin nos ayuda a distinguir unos rasgos de otros, sobre todo cuando pertenecen al misma
mbito conceptual y es fcil confundirlos.
La no relacin no hay que entenderla de manera literal; puede tratarse de relaciones, incluso
estadsticamente significativas, pero menores que con otros rasgos, y de acuerdo con un razonamiento
plausible.
1.2.1.2. Comparaciones entre grupos
El otro enfoque mencionado al principio de este apartado consiste en comparar grupos
supuestamente distintos en aquello que estamos midiendo.
a) Todas las comparaciones entre grupos equivalen a anlisis correlacionales (como en definitiva
todos los anlisis estadsticos): nos da lo mismo, por ejemplo, preguntarnos si los nios superan a las nias
en el rasgo o actitud A (y haremos un contraste de medias), que preguntarnos si el sexo est relacionado o
tiene que ver con la actitud A (y calcularemos un coeficiente de correlacin entre el gnero, 1 0, y la
actitud medida). Es ms, no slo hay una obvia relacin conceptual entre las dos preguntas (diferencia entre
medias o relacin), sino que mediante las frmulas oportunas podemos transformar un valor de la t de
Student en un coeficiente de correlacin.
b) Aun as nuestras preguntas espontneas son unas veces en trminos de relacin, y otras en
trminos de diferencias; ambos enfoques nos ayudan a formular hiptesis que podemos intentar confirmar,
y adems los procedimientos de anlisis son en principio distintos aunque en ltima instancia aporten la
misma informacin.
c) Al preparar nuestro instrumento de recogida de datos, debemos pensar qu preguntas podemos
hacer que identifiquen a los sujetos segn grupos de pertenencia (segn profesiones, edades, sexos, etc.) o
segn caractersticas personales de inters que permitan subdividir la muestra en subgrupos (preferencias
por A B, preguntas en relacin con el estilo de vida, valores, etc.)
d) El anlisis estadstico obvio ser un contraste de medias, o anlisis de varianza si las muestras son
ms de dos.
Resumiendo
Los anlisis sugeridos (correlaciones y comparaciones de grupos) no agotan todos los anlisis posibles
en relacin con la validez, pero s son los ms obvios y con frecuencia suficientes. Como ya hemos indicado
antes se trata en todos los casos de obtener datos para poder verificar hiptesis (y tambin para
explorar):
20
a) El instrumento mide algo relacionado (positiva o negativamente) con otras cosas con las que
lgicamente esperamos que haya relacin (validacin convergente).
Unas veces comprobamos relacin con el mismo rasgo medido de otra manera (o por otras
personas, por ejemplo auto y htero-evaluacion);
Otras veces comprobamos relacin con rasgos distintos pero lgicamente relacionados.
b) El instrumento mide algo que no est relacionado con lo que no se espera que lo est (validacin
divergente). La no relacin tambin es til para ver que no confundimos unas cosas con otras, y
porque tambin son datos informativos.
12.2 Confirmacin de la utilidad del instrumento (validez predictiva)
Bsicamente se trata de calcular coeficientes de correlacin entre el instrumento (lo que mide el test
o escala) y determinados criterios (como rendimiento acadmico, determinadas habilidades, etc.). Estos son
los coeficientes que suelen denominarse coeficientes de validez.
Tambin cabe hacer estudios meramente exploratorios o que respondan a hiptesis no directamente
relacionadas con la validez.
El complemento de la construccin de un instrumento pueden ser adems unas normas de
interpretacin (baremos), para los sujetos individuales que respondan: percentiles, estaninos, etc.
21
13. Bibliografa
13.1. Referencias bibliogrficas citadas
AMERICAN EDUCATIONAL RESEARCH ASSOCIATION, AMERICAN P SYCHOLOGICAL ASSOCIATION
and NATIONAL COUNCIL ON MEASUREMENT IN EDUCATION (1999). Standards for Educational
and Psychological Testing. Washington DC: American Educational Research Association
BARNETTE, JACKSON J. (2000). Effects of stem and Likert response option reversals on survey internal
consistency: if you feel the need, there is a better alternative to using those negatively worded stems.
Educational and Psychological Measurement, 60 (3), 361-370.
CAADAS OSINSKI, ISABEL y SNCHEZ BRUNO, ALFONSO (1998), Categoras de respuesta en escalas
tipo Likert. Psicothema, vol. 10, n 3, 623-631.
CHANG, LEI (1997). Dependability of Anchoring Labels of Likert-Type Scales. Educational and
Psychological Measurement, 57 (5), 800-807.
DODEEN, HAMZEH M. (2003). Effectiveness of Valid Mean Substitution in Treating Missing Data in
Attitude Assessment. Assessment & Evaluation in Higher Education. Vol. 28, n 5, 505-513.
GARDNER, DONALD G.; CUMMINGS, L.L.; DUNHAM, RANDALL B. and P IERCE, JON L. (1998). Singleitem versus multiple item measurement: an empirical comparison. Educational and Psychological
Measurement, 58 (6), 898-915.
MORALES VALLEJO, P EDRO (2005). Anlisis factorial en la construccin e interpretacin de tests,
escalas y cuestionarios. http://www.upcomillas.es/personal/peter/
MORALES VALLEJO, P EDRO (2006). Medicin de actitudes en Psicologa y Educacin, construccin de
escalas y problemas metodolgicos, tercera edicin revisada. Madrid: Universidad Comillas.
MORALES VALLEJO, P EDRO; UROSA SANZ, BELN y BLANCO BLANCO, NGELES (2003).
Construccin de escalas de actitudes tipo Likert. Una gua prctica. Madrid: La Muralla.
NUNNALLY, JUM C. (1978). Psychometric Theory. Second Edit. New York: McGraw-Hill.
WENG, LI-JEN (2004). Impact of the Number of Response Categories and Anchor Labels on Coefficient
Alpha and Test-Retest Reliability. Educational and Psychological Measurement, 64, 6, 956-972.
EDWARDS, A.L., (1957a). Techniques of Attitude Scale Construction. New York: Appleton-CenturyCrofts.
GABLE, ROBERT K. AND WOLF, MARIAN B. (1986). Instrument Development in the Affective Domain.
Boston/Dordrecht/Lancaster: Kluwer-Nijhoff Publishing.
HENERSON, M.E., MORRIS, L.L. AND FIZT-GIBBON, C.T. (1978). How to Measure Attitudes, Beverly
Hills: Sage.
KING, M. AND ZIEGLER, M. (1975). Research Projects in Social Psychology. Monterrey: Brooks-Cole.
KLINE, P. (1986). A Handbook of Test Construction. New York: Methuen.
22
LIKERT, R. (1932). A Technique for the Measurement of Attitudes, Archives of Psychology, 140, 44-53
[en espaol en WAINERMAN, C.H. (Ed.), (1976). Escalas de medicin en las ciencias sociales.
Buenos Aires: Nueva Visin, 199-260 y en SUMMERS, GENE F. (Ed.) (1976). Medicin de
actitudes. Mxico: Trillas, 182-193].
MORALES VALLEJO, P EDRO (2006). Medicin de actitudes en Psicologa y Educacin, construccin de
escalas y problemas metodolgicos, tercera edicin revisada. Madrid: Universidad Comillas.
MORALES, PEDRO (2005). Anlisis factorial en la construccin e interpretacin de tests, escalas y
cuestionarios. http://www.upcomillas.es/personal/peter/
MORALES VALLEJO, P EDRO; UROSA SANZ, BELN y BLANCO BLANCO, NGELES (2003).
Construccin de escalas de actitudes tipo Likert. Una gua prctica. Madrid: La Muralla.
MORRIS, LYNN LYONS, FIZT-GIBBON, CAROL T AYLOR, AND LINDHEIM, ELAINE (1987). How to
measure attitudes. Newbury Park & London: Sage.
NUNNALLY, JUM C. (1978). Psychometric Theory. New York: McGraw-Hill.
SPECTOR, P AUL E. (1992). Summating Ratings Scale Construction: An Introduction. Newbury Park &
London: Sage.
WAINER, HOWARD AND MESSICK, SAMUEL (Eds.) (1983). Principals of Psychological Measurement.
Hillsdale, N. J.: Lawrence Erlbraun.