Guía para Construir Escalas de Actitudes - Morales

GUA PARA CONSTRUIR
ESCALAS DE ACTITUDES
Pedro Morales Vallejo
Universidad Pontificia Comillas Madrid
Facultad de Ciencias Humanas y Sociales
(ltima revisin, 20 de Junio de 2010)1
INDICE
1. Podemos medir actitudes con una sola pregunta? ......................................................... 3
2. Escalas y tests .................................................................................................................... 3
2.1. Cuestionarios y escalas: qu entendemos por escalas o tests..................................... 3
2.2. Por qu construimos una escala (o un test) en vez de limitarnos a una sola pregunta 4
3. Proceso de construccin de una escala de actitudes .......................................................... 6
4. Definicin de la actitud que se desea medir....................................................................... 6
5. Redaccin de los tems....................................................................................................... 7
5.1. En forma de opiniones ............................................................................................... 7
5.2. Cuando las opiniones expresan una actitud negativa................................................. 9
5.3. tems en forma de conductas o casos ......................................................................... 11
5.3.1. Conductas o hbitos personales ....................................................................... 11
5.3.2. Conductas ajenas o casos ................................................................................. 11
5.4. tems bipolares ........................................................................................................... 11
5.5. Listas de adjetivos ...................................................................................................... 14
5.5.1. Varios adjetivos expresan el mismo rasgo o actitud ........................................ 14
5.5.2. Cada adjetivo expresa un rasgo distinto........................................................... 15
5.6. Formulacin de los tems en funcin de los componentes de las actitudes ............... 15
5.6.1. Conocimientos.................................................................................................. 15
5.6.2. Sentimientos ..................................................................................................... 15
5.6.3. Conductas......................................................................................................... 15
5.6.4. Los componentes de las actitudes y su funcin en la validacin de una escala16
5.7. Cuando el nfasis est en la medicin de valores ...................................................... 16
6. Nmero inicial de tems; nmero de tems y fiabilidad ..................................................... 17
7. Redaccin y nmero de respuestas .................................................................................... 18
7.1. Redaccin de las respuestas ....................................................................................... 18
7.2. Nmero de respuestas ................................................................................................ 20
7.3. Nmero par o impar de respuestas ............................................................................. 20
8. Preparar la clave de correccin .......................................................................................... 21
9. Preparar preguntas o instrumentos adicionales.................................................................. 21
9.1. Datos censales o sociolgicos.................................................................................... 22
9.2. Datos sobre otras variables relacionadas con lo que medimos .................................. 22
10. Obtener datos de una muestra .......................................................................................... 23
10.1. Tipo de muestra y nmero de sujetos....................................................................... 23
10.2. Cuando la muestra es muy pequea ......................................................................... 24
1 Este documento est disponible en

http://www.upcomillas.es/personal/peter/otrosdocumentos/Guiaparaconstruirescalasdeactitudes.pdf. Una gua ms extensa sobre
construccin de escalas y que incluye cmo utilizar el programa SPSS en la construccin de escalas en Morales, Urosa y Blanco
(2003); en Morales (2006) un tratamiento ms extenso sobre cuestiones conceptuales y metodolgicas en relacin con la
construccin de escalas (referencias completas en la bibliografa).
2
10.3. Las pruebas piloto.................................................................................................... 24

10.4. Cuando algunos sujetos omiten la respuesta a algunos tems .................................. 25
11. Anlisis de tems y comprobacin de la fiabilidad ............................................................ 26
11.1. Significado e interpretacin del coeficiente de fiabilidad ........................................ 26
11.2. Anlisis de tems....................................................................................................... 27
11.2.1. Correlacin tem-total .................................................................................... 27
11.2.2. Contraste de medias en cada tem de los dos grupos con puntuaciones
mayores y menores en el total de la escala..................................................... 30
11.2.3. Clculo de la fiabilidad .................................................................................. 32
11.2.4. Cmo estimar la fiabilidad en una nueva muestra a partir de la fiabilidad
conocida en otra muestra y de las desviaciones de las dos muestras. ............ 32
11.2.5. Cundo un coeficiente de fiabilidad es suficientemente alto......................... 33
11.3. Seleccin de los tems definitivos ............................................................................ 33
12. Otras consideraciones en torno a la eleccin de los tems definitivos ............................... 36
1 Equilibrio entre tems positivos y negativos................................................................. 36
2 Cuidar ms la representatividad del contenido de las formulaciones de los tems ...... 36
3 Incluir de manera equilibrada aspectos distintos (subescalas)
del mismo rasgo general............................................................................................... 37
4 Incorporacin de nuevos tems ..................................................................................... 37
5 Preparacin de dos versiones, corta y larga, de la misma escala.................................. 37
6 Explicacin o redefinicin del rasgo medido por nuestro instrumento ........................ 37
13. Comprobacin de la validez y otros anlisis posteriores.................................................... 38
14. Sugerencias para obtener datos adicionales que faciliten la validacin de la escala ......... 40
14.1. Confirmacin del significado pretendido (validez de constructo) ........................... 40
14.1.1. Anlisis correlacionales .............................................................................. 40
1 Relacin con otros modos de medir el mismo rasgo ................................. 40
2 Comprobacin de relaciones esperadas (positivas o negativas)
con otros rasgos distintos.......................................................................... 41
3 Comprobar que no existe relacin donde no esperamos que la haya ....... 42
14.1.2. Comparaciones entre grupos....................................................................... 42
14.2. Confirmacin de la utilidad del instrumento (validez predictiva) ........................... 43
15. Bibliografa......................................................................................................................... 43
15.1. Referencias bibliogrficas citadas............................................................................ 43
15.2. Bibliografa sobre construccin de instrumentos..................................................... 45
15.3. Bibliografa sobre colecciones de instrumentos....................................................... 46
Gua para construir escalas de actitudes

3
1. Podemos medir actitudes con una sola pregunta?

Lo primero que hay que decir es que tambin se pueden medir actitudes con una sola
pregunta, y esto es lo habitual en los cuestionarios sociolgicos2. A un sujeto se le puede
preguntar que se site en una escala de 1 a 6 (de nada a mucho) en una serie de rasgos o
actitudes personales: conservador, extravertido, religioso, partidario de una determinada opcin
poltica, aficionado a la pera, etc. As se miden actitudes con frecuencia, tenemos numerosos
ejemplos y est bien hecho. Con frecuencia es lo ms conveniente o al menos es lo suficiente,
sobre todo cuando no se pretende obtener una informacin muy precisa sobre cada sujeto en
particular (por ejemplo para hacer un diagnstico individual). A veces el medir actitudes (u otros
rasgos psicolgicos) con una sola pregunta es muy til como medida complementaria de
instrumentos ms complejos3.
Lo que diremos ms adelante sobre la redaccin de los tems de una escala o test es
tambin vlido para preparar las preguntas o tems de un cuestionario convencional; son modelos
de preguntas que pueden ser parte de una escala o test o que tambin se pueden presentar de
manera independiente.
2. Escalas y tests
2.1. Cuestionarios y escalas: qu entendemos por escalas o tests
En primer lugar hay que aclarar qu entendemos aqu por cuestionario y qu entendemos
por escala o test.
Un cuestionario est formado por una serie de preguntas que se analizan de manera
independiente. Los cuestionarios sociolgicos y sondeos de opinin son ejemplos tpicos.
Un test o una escala es un cuestionario con varias preguntas (o tems) que expresan el
mismo rasgo o actitud y cuyas respuestas se van a sumar en un total que indica dnde se
encuentra o cunto tiene cada sujeto de la variable o caracterstica que pretendemos medir. Es lo
mismo que sucede en los exmenes convencionales de conocimientos (como las pruebas
objetivas tipo test): a cada sujeto se le suman sus respuestas correctas y este total es el dato que
se tiene en cuenta para calificar.
Aunque no hay consistencia en el uso de estos trminos, habitualmente se emplea el
trmino escala cuando se trata de medir actitudes, y el trmino test cuando se trata de medir
otros rasgos psicolgicos (como inteligencia o personalidad), y tambin se utiliza el trmino test
en la medicin de conocimientos o habilidades; lo que tienen en comn estos trminos (test,
escala de actitudes) es que utilizamos varias preguntas para medir lo mismo.
Las escalas de actitudes, de las que vamos a tratar de manera especfica, tambin suelen
presentarse con el trmino general de cuestionario, y de hecho suelen incluir preguntas (como
sexo, profesin, etc.) que no van a formar parte de la escala propiamente dicha. Tambin suelen
denominarse escalas a las preguntas con respuestas graduadas (como mucho, bastante, poco,
nada) aunque las respuestas no se vayan a sumar en un nico total porque cada pregunta mide
algo distinto.
2 En Internet podemos encontrar buenas orientaciones para construir cuestionarios, como Frary (1996) y Fanning (2005).
3 Tambin hay investigaciones que muestran que un solo tem amplio y bien formulado correlaciona bien con instrumentos
de ms tems y ms elaborados; un ejemplo de satisfaccin laboral en Gardner, Cummings, Dunham and Pierce, 1998 (citan
adems otros ejemplos); Davey, Barrat, Burrow y Deeks (2007) en una muestra de N = 400 encuentran una correlacin de .78
entre un solo tem de ansiedad y un test completo de ansiedad (STAI, State Trait Anxiety Inventory)

4
Construimos escalas de actitudes (o tests de personalidad e instrumentos semejantes) para

medir determinados rasgos. Aqu entendemos por medir, de una manera muy genrica, el
apreciar cuantitativamente si un sujeto tiene poco o mucho del rasgo en cuestin, el ver dnde se
sita un sujeto en un continuo de menos a ms4.
2.2. Por qu construimos una escala (o un test) en vez de limitarnos a una sola pregunta.
Podemos preguntarnos por qu tenemos que construir una escala compuesta de varios tems
en vez de hacer una sola pregunta, clara y bien pensada, con un nmero de respuestas adecuado.
Tenemos varias razones para construir escalas, o simplemente para disponer de varios
indicadores del mismo rasgo. Aun en el caso de los cuestionarios sociolgicos, que no son
escalas en sentido propio, puede ser til y conveniente el disponer de varios indicadores de una
misma actitud (o de una misma variable, como nivel socioeconmico) que van a ser sumados
despus como indicadores de esa actitud o variable.
1 Con una serie de tems describimos y medimos mejor constructos relativamente
complejos.
De hecho en la vida cotidiana juzgamos sobre cmo es una persona (si tiene ms o menos
de una determinada variable, como gusto por el deporte, religiosidad, conservadurismo,
asertividad) en funcin de varios indicadores (como pueden ser diversas conductas u
opiniones referidos a la misma actitud observados en el mismo sujeto). Una nica pregunta
frecuentemente simplifica en exceso el concepto que vamos a medir.
Una analoga sobre la conveniencia de hacer varias preguntas sobre lo mismo la tenemos
en una consulta mdica. Cuando vamos a hacernos un reconocimiento, el mdico suele hacer
varias preguntas, que no son otra cosa que una serie de posibles sntomas, y no es lo mismo de
cara a un diagnstico el responder s a una de sus preguntas que responder s a todas o casi todas
sus preguntas: es ms seguro disponer de varios indicadores o sntomas de la misma posible
patologa.
2 En conjunto una medida compuesta por varios tems es ms vlida
Una medida compuesta por varios tems es ms vlida en el sentido de que expresa mejor
la actitud o rasgo al menos por dos razones:
a) Varios indicadores describen mejor un constructo, rasgo o actitud que uno solo.
b) Una nica pregunta puede de hecho ser poco afortunada, o equvoca, o ser mal
entendida por muchos o algunos sujetos.
Cuando hay varios indicadores de la misma actitud (o rasgo en general) se obvian mejor las
limitaciones de cada tem en particular. Adems una nica pregunta puede distorsionar la
informacin que el sujeto aporta de s mismo; por ejemplo uno puede definirse como muy liberal
en una nica pregunta, porque sa es la imagen que tiene de s mismo, pero puede no aparecer
tan liberal ante varias cuestiones ms especficas.
Como ya hemos indicado al decir qu entendemos por test o escala, podemos pensar en la
medida del rendimiento acadmico que quizs es un ejemplo ms claro y con el estamos ms
familiarizados: si queremos saber si un alumno sabe qumica, no le hacemos una sola pregunta
porque puede saber esa pregunta pero no otras muchas posibles preguntas, o esa pregunta puede
4 Este medir hay que entenderlo de manera analgica; en sentido propio no medimos nada porque carecemos de una unidad
propiamente dicha, sin embargo estos procedimientos funcionan razonablemente bien; una exposicin y justificacin ms amplia
de la medicin en psicologa puede verse en Morales, 2006, Cap. I.

5
ser de hecho ambigua o muy difcil, etc.; una serie de preguntas sobre el mismo tema o
asignatura nos da una idea ms certera sobre si sabe ms o menos. Despus de todo nuestra
conclusin y nuestro juicio no va a ser sobre si sabe o no sabe unas preguntas concretas, sino
sobre si sabe o no sabe en general; de unas pocas preguntas extrapolamos nuestras conclusiones
a otras muchas preguntas semejantes. Algo anlogo hacemos con las escalas de actitudes, tests
de inteligencia, etc.; una muestra relativamente amplia de preguntas (tems) constituye una mejor
base para formarnos un juicio ms preciso y fundado sobre cmo est una persona en un rasgo
concreto.
Este tipo de razones tiene ms peso cuando se van a tomar decisiones sobre los sujetos
(admitir o no admitir a un programa de estudios, o a un puesto de trabajo) o interesa hacer un
buen diagnstico individual.
3 Cuando hay ms tems aumenta la fiabilidad de la medida.
Por fiabilidad entendemos ahora lo que significa el trmino de manera intuitiva, sin entrar
en cuestiones de psicometra: precisin en la medida, menor margen de error. Por las razones
dichas anteriormente se minimizan las limitaciones de cada tem en particular; merecen ms
confianza varias preguntas que una sola. Un solo tem est ms sujeto a los errores de medicin
(respuestas rpidas y distradas, tems no bien entendidos), que tienden a cancelarse mutuamente
o a distorsionar el total si sumamos varios tems.
En un sentido ms psicomtrico, si disponemos de una serie de tems podemos calcular el
coeficiente de fiabilidad como veremos ms adelante (los coeficientes de consistencia interna,
como el coeficiente de Cronbach, slo se pueden calcular si el instrumento consta de varios
tems, no de uno solo). La fiabilidad puede ser alta o baja, pero eso es algo que podemos
verificar, de la misma manera que podemos analizar la calidad de cada tem.
4 Detectamos mejor las diferencias interindividuales
Una razn de peso para sumar varios indicadores del mismo rasgo es que las diferencias
entre los sujetos van a quedar ms ntidas; va ser ms fcil ordenar o diferenciar a unos sujetos
de otros; en definitiva va a aumentar la varianza. De alguna manera medir es diferenciar: un test
de inteligencia que no diferencia a los ms inteligentes de los menos inteligentes no nos sirve
para nada.
5 Detectamos con ms facilidad relaciones entre variables
El detectar diferencias es de inters en cualquier estudio o investigacin porque sin
diferencias claras es muy difcil encontrar relaciones entre variables (si el estar alto o bajo en
una variable coincide de hecho con estar alto o bajo en otra variable). De nuevo esto es
importante incluso en cuestionarios ms de corte sociolgico: diferenciamos mejor a las
personas en un determinado rasgo si disponemos de varios indicadores y consecuentemente
detectaremos mejor las relaciones de ese rasgo con otras variables.
Por la misma razn cuando utilizamos preguntas distintas para medir rasgos distintos (una
pregunta para cada rasgo, no escalas de actitudes) detectaremos mejor relaciones entre preguntas
si cada pregunta tiene varias respuestas graduadas (por ejemplo de mucho a nada) que si
solamente tiene dos respuestas (como s o no).
De los diversos tipos de escalas nos limitamos aqu a las denominadas escalas tipo-Likert.
Son las ms conocidas y se denominan as por el autor que sistematiz el proceso de
construccin (en 1932).

6
En conjunto es el sistema ms sencillo y de caractersticas no inferiores a los otros tipos de

escalas (o son incluso mejores) por lo que es posiblemente el procedimiento ms utilizado5. Lo
que hizo Likert fue extender a la medicin de las actitudes lo que ya era comn en la medicin
de los rasgos de personalidad: la suma de una serie de respuestas a tems supuestamente
homogneos (que expresan el mismo rasgo) sita al sujeto en la variable medida.
3. Proceso de construccin de una escala de actitudes

Es conveniente tener desde el principio una clara visin de conjunto de todos los pasos que
integran el proceso de construccin de una escala de actitudes o, en general, de cualquier tipo de
test, aunque aqu tratamos de manera ms explcita de las escalas de actitudes que de los tests de
personalidad o de otro tipo6.
El proceso se puede describir de varias maneras, pero bsicamente se puede concretar en
los pasos enunciados en la figura 1.
Construccin de escalas tipo Likert

1 Plan previo: 4 Anlisis de tems
descripcin del rasgo o actitud
(revisin de modelos) Clculo de la fiabilidad
Anlisis de la estructura,
2 otras consideraciones en
Preparar el instrumento la seleccin de los tems
a) Redaccin de los tems y Seleccin definitiva de los
de las respuestas tems
b) Preparar clave de
correccin
5
b) Otras preguntas: previsin
de hiptesis de validacin Anlisis complementarios
Verificacin de la validez,
3 responder a preguntas de
Obtener datos de una investigacin
muestra adecuada
Figura 1
La validez (que todos los tems expresan el mismo rasgo que queremos medir) y la
fiabilidad (precisin) van a ser dos consideraciones importantes en todo el proceso, por esta
razn son conceptos que debemos tener suficientemente claros desde el principio.
4. Definicin de la actitud que se desea medir

El primer paso es siempre clarificar el rasgo que se desea medir; una definicin o
explicacin previa da coherencia al resto del proceso. Puede ayudar el hacer previamente una
descripcin de la persona que supuestamente tenga de manera clara la actitud que se desea
medir; la descripcin puede ser tanto del que tenga una actitud positiva como negativa.
5 En Morales, Urosa y Blanco (2003, captulo 1) se exponen de manera sucinta los diversos tipos clsicos de escalas
(Thurstone, Likert, Guttman, Osgood, etc.).
6 Una exposicin ms detallada de este proceso puede verse en Morales (2006), sobre todo en el captulo II, y en Morales,
Urosa y Blanco (2003). En la bibliografa indicamos otras publicaciones que orientan sobre la construccin de escalas de
actitudes y de tests en general, y tambin se enumeran una serie de obras en las que se reproducen muchas escalas e instrumentos
semejantes.

7
Si, por ejemplo, se desea construir una escala para medir actitud hacia el estudio, uno
puede preguntarse qu caracteriza al que tiene una actitud muy favorable o muy desfavorable
hacia el estudio tal como conceptualizamos nosotros esa actitud:
Le gusta estudiar,
Tiene un nivel alto de aspiraciones,
No confa en la suerte,
Es organizado y planifica el tiempo de estudio, etc.
A partir de esta descripcin se puede empezar a formular tems que expresen esas ideas o
las contrarias (la preparacin de los exmenes la dejo para el final, a m me basta con aprobar
el curso, etc.).
Este retrato robot ayudar a redactar los tems en torno a un plan coherente. Interesa desde
el principio asegurar la validez conceptual (que los tems midan lo que pretendemos medir) y
poder justificarla. Este retrato robot se puede pensar en funcin de opiniones con las que
previsiblemente estara de acuerdo el que tuviera una actitud muy positiva (o muy negativa), de
actividades que le gustara hacer, etc.
Puede ayudar tambin (y es conveniente hacerlo) el revisar otros instrumentos ya hechos.
Si se utiliza una escala ya hecha (o varias) como fuente de inspiracin, o se toman determinadas
ideas o tems de un autor, etc., se debe hacer constar.
Otro procedimiento es redactar los tems con la ayuda de un grupo utilizando un sencillo
brainstorming. Por ejemplo si vamos a construir una escala de satisfaccin laboral se pregunta
al grupo Con qu afirmaciones estara de acuerdo una persona muy satisfecha o muy
insatisfecha? Con este procedimiento se puede generar un nmero grande de tems y a
continuacin por votacin se pueden rechazar los tems ambiguos o se pueden reformular y
tambin se establece la clave de correccin. El anlisis de tems posterior nos dir qu tems se
pueden retener.
No hay que olvidar que las actitudes, como cualquier otro rasgo que queramos medir, se
pueden concebir en diversos grados de abstraccin, y pueden ser muy genricos (como actitud
general hacia el estudio) o muy especficos (como nivel de aspiraciones, organizacin del
tiempo, etc., o actitud hacia el estudio de un determinado tipo de materias, etc.). De manera
anloga podemos contar por separado cuntas naranjas y cuntas manzanas tenemos, o podemos
contar cuntas frutas tenemos, uniendo manzanas y naranjas.
5. Redaccin de los tems

Los tems de una escala se pueden redactar de varias maneras y estilos; exponemos los ms
comunes. Las diversas formas de redactar los tems de una escala son vlidas tambin para los
tems de un cuestionario convencional.
5.1. En forma de opiniones
En general, y tratndose de escalas de actitudes, los tems suelen formularse en forma de
opiniones con las que se puede estar ms o menos de acuerdo. Una opinin es una actitud
verbalizada, y a travs de las opiniones con las que est de acuerdo un sujeto podemos inferir la
actitud subyacente.
Los tems (formulados en forma de opiniones o de otra manera) deben tener estas
caractersticas:
a) Deben ser relevantes, que expresen claramente la actitud que se desea medir.

8
b) Deben ser opiniones (o rasgos y conductas personales, segn lo que se desee medir) con
las que se pueda estar o no estar de acuerdo; no hechos o datos que se pueden saber o no saber,
pues no se trata de medir ciencia.
c) Deben redactarse con claridad, de manera que todos los entiendan de la misma manera
(en la medida de lo posible).
Para que las preguntas (tems) sean claras:
1 Hay que tener cuidado con expresiones negativas (como no) que pueden crear
confusin en la respuesta; se pueden incluir pero hay que prestar atencin a la
posible confusin que pueden crear en el que responde. Estos adverbios si se cree
oportuno incluirlos, pueden ir subrayados o en negrita para que el que responde
entienda bien lo que se le pregunta.
2 Expresiones universales como nunca o siempre no suelen ser discriminantes
(fcilmente las rechazan todos los sujetos), lo mismo que adverbios como solamente,
que adems pueden introducir ambigedad.
3 Deben contener una nica idea, pues cuando hay ms de una idea se puede estar de
acuerdo con una y no con la otra.
d) Deben ser discriminantes, es decir, se deben redactar los tems de tal manera que
previsiblemente unos sujetos estarn de acuerdo y otros no, o no tanto.
Para medir necesitamos encontrar diferencias; los tems que todos o casi todos acepten o
rechacen no van a contribuir a la fiabilidad de la escala y sern eliminados en el anlisis de
tems, o simplemente son intiles (porque medir es diferenciar). Adems tenemos ms garanta
de que los tems miden lo mismo (expresan el mismo rasgo) si simultneamente diferencian a los
mismos sujetos. Naturalmente verificaremos despus (en el anlisis de tems) si los tems de
hecho discriminan o no discriminan, pero ya al redactarlos debemos procurar que sean
discriminantes.
e) Cabe formular tems repetitivos, la misma idea expresada de diversas maneras;
frecuentemente una manera de decir las cosas resulta de hecho ms discriminante que otra.
Luego nos quedaremos con la formulacin que ms nos convenza si no queremos que haya
varios tems excesivamente semejantes.
Con tems muy similares se consiguen fcilmente coeficientes de fiabilidad altos, pero el
constructo queda expresado de una manera muy simple; a veces eso es lo que interesa, por lo que
no hay que sostener por principio que los tems deben ser muy variados.
f) Es preferible redactar los tems en las dos direcciones positiva y negativa, es decir, que
el estar de acuerdo con un tem unas veces manifieste una actitud favorable y otras veces
manifieste una actitud desfavorable pero sin utilizar adverbios negativos como no; por ejemplo:
En una escala de actitud hacia el estudio:
Opinin favorable hacia el estudio: Estudiar es divertido
Opinin desfavorable hacia el estudio: Estudiar es aburrido
En una escala de actitudes hacia las formas democrticas de gobierno7:
7 La escala completa de actitudes hacia la democracia en Morales (2006), Anexo XI.

9
Opinin favorable hacia la democracia: En un sistema democrtico los ciudadanos

pueden realmente cambiar la sociedad a
travs de sus votos
Opinin desfavorable hacia la democracia: Las elecciones realmente libres son un mito:
siempre son manipuladas por unos pocos
Esta redaccin en ambas direcciones tiene estas ventajas8:
1. Obliga a una definicin previa ms matizada del rasgo o constructo.
2. Requiere una atencin mayor por parte del que responde;
3. Permite comprobar la coherencia de las respuestas, verificando si hay contradicciones
sistemticas.
Si hay un nmero aproximado de tems positivos y negativos, y sumamos a cada
sujeto sus respuestas a los dos tipos de tems, podemos calcular la correlacin entre los
dos totales parciales como si se tratara de dos subescalas. Esta correlacin debe
alcanzar un valor de .50 o ms, y mostrar en este caso una coherencia global en las
respuestas.
4. Comprobar la coherencia es prcticamente lo mismo que comprobar que no est
operando la aquiescencia o tendencia a mostrar acuerdo casi con cualquier afirmacin,
incluso con afirmaciones que se contradicen (cuando se da esta aquiescencia suele
deberse a ambigedad en la redaccin, falta de claridad; se da ms en niveles
educacionales bajos)9.
Los errores y ambigedades en la formulacin de los tems suelen manifestarse en el
anlisis de tems que veremos ms adelante. La irrelevancia o ambigedad puede sospecharse
cuando demasiados sujetos escogen la respuesta central o cuando los tems no discriminan (todos
los sujetos responden casi de la misma manera).
Tambin la no discriminacin que muestra el anlisis de tems puede indicar que un tem
no mide lo mismo que los dems o que los sujetos lo entienden de hecho de otra manera. Si un
tem discrimina en sentido contrario (puntan ms alto en ese tem los que en el conjunto de la
escala puntan ms bajo) puede haber un error en la clave de correccin.
g) Como ya se ha indicado a propsito de la claridad, se deben evitar expresiones
negativas. A veces pueden ser apropiado el poner un no, pero hay que poner especial cuidado en
que no se preste a confusin al responder. Las opiniones negativas tambin se pueden expresar
en forma positiva (como me aburre ver televisin en vez de no me gusta ver televisin).
Es conveniente que la redaccin provisional la revise ms de una persona para detectar
fallos, sugerir nuevos tems o mejorar la redaccin de los ya preparados.
5.2. Cuando las opiniones expresan una actitud negativa
Ya hemos dicho que las opiniones (tems) se pueden formular a favor (me gusta estudiar)
o en contra (estudiar es aburrido) de la actitud que se desea medir. Los tems que expresan una
actitud negativa (la mxima puntuacin corresponder al mximo desacuerdo) merecen un
comentario especial.
8 Las ventajas de una formulacin de los tems en ambas direcciones (favorable y desfavorable) y sin utilizar expresiones
negativas (como no) est muy investigada, por ejemplo Barnette (2000) que recomienda este formato, sobre todo para evitar la
tendencia a dar respuestas aquiescentes.
9 Un tratamiento amplio de la aquiescencia y otros problemas metodolgicos puede verse en Morales (2006)

10
Con frecuencia los tems ms discriminantes, los que mejor diferencian a unos sujetos de
otros son los que tienen una formulacin negativa, es decir, cuando la puntuacin ms alta
corresponde al mayor desacuerdo con la opinin expresada en el tem. Esto sucede sobre todo
cuando se trata de medir actitudes socialmente aceptables; en este caso la respuesta puede estar
condicionada por la aceptabilidad social de la actitud.
Por ejemplo, en una escala de actitudes hacia la conservacin de la naturaleza (un
constructo o actitud popular) previsiblemente casi todos los sujetos estaran de acuerdo con
tems de este estilo: es importante conservar la diversidad biolgica, es deseable hacer estudios
de impacto ecolgico antes de construir una carretera, etc. Sin embargo podemos encontrar
diferencias en tems como estos:
Los lobos estn bien en lugares acotados, donde no pueden causar daos al ganado
No se debe detener el progreso de una comarca con la excusa de proteger a unos pjaros;
En estos tems la mxima puntuacin correspondera al mximo desacuerdo. Lo que
caracteriza a estas formulaciones es que se incluye una razn o excusa para mostrar desacuerdo
aunque el objeto de la actitud tenga una valoracin social muy positiva.10
Otro ejemplo, tomado de una escala de actitudes hacia el trabajo cooperativo pensada para
profesores11. La eficacia del trabajo en pequeos grupos o equipos de alumnos est muy
comprobada experimentalmente y sobre todo en algunos mbitos acadmicos es muy popular, se
imparten seminarios o talleres para formar a los profesores en estas tcnicas y puede ser difcil
para algunos profesores manifestar (aunque sea annimamente) opiniones que van en contra (o
no tan a favor) del sentir comn. En este caso entre los mejores tems, los que ms diferencian a
unos profesores de otros (todos tienen trabajos en grupo con sus alumnos), tienen en su mayora
una formulacin negativa, que incluye alguna excusa para justificar una actitud opuesta (o
simplemente no muy favorable) al trabajo en grupo, por ejemplo:
Creo que disear actividades cooperativas lleva tanto tiempo que no compensa.
Los estudios y trabajos deben ser individuales, ya que los que se realizan en grupo slo
sirven para enfadarse con algn compaero.
Los trabajos en grupo no son un buen mtodo porque unos trabajan ms y otros menos.
Los estudios y trabajos deben ser individuales, ya que los que se realizan con compaeros
slo sirven para perder el tiempo.
Todas las excusas incluidas en los tems pueden ser razonables y ajustarse a la realidad,
pero no en la misma medida para todos y ah es donde se manifiestan las actitudes personales.
En este ejemplo especfico estos tems son tambin los que tienen mayores correlaciones con
conductas didcticas que favorecen el trabajo en grupo. En este caso las relaciones son
negativas: a mayor desacuerdo con estas opiniones, mayor disposicin a organizar trabajos en
grupo.
No hay que redactar todos los tems de esta manera (la recomendacin habitual es incluir
opiniones favorables y desfavorables) pero estas formulaciones en sentido contrario suelen ser
eficaces cuando se trata de medir actitudes sobre cuya bondad hay un gran consensus social y es
10 Estos dos tems estn tomados de una escala para medir actitudes hacia la conservacin de la naturaleza que consta
solamente de 10 tems, todos en la misma direccin desfavorable, y que discrimina muy bien (la versin completa de esta escala
en Morales (2006, Anexo XIII) y tambin en Morales (2010, Cuestionarios y escalas).
11 De la tesis de Licenciatura en Educacin y Aprendizaje anlisis de la actitud y la aplicacin de estrategias de trabajo
cooperativo de los profesores/as del Liceo Javier, Rosario Martnez, Universidad Rafael Landvar, Guatemala, 2008.

11
probable que las respuestas tengan ms que ver (o bastante al menos) con lo que es socialmente
aceptable que con lo que realmente sienten los sujetos que responden.
5.3. tems en forma de conductas o casos
En muchos tests de personalidad y escalas o cuestionaros para evaluar actitudes se
incluyen dos tipos de conductas:
5.3.1. Conductas o hbitos personales
Por ejemplo, en una escala de asertividad (Gismero, 1996):
Muchas veces prefiero ceder, callarme o quitarme de en medio para evitar problemas
con otras personas,
En un sencillo cuestionario para medir los enfoques superficial y profundo de aprendizaje
(Simons, Dewitte, y Lens, (2004)12.
Yo suelo estudiar subrayando lo ms importante
Yo no estudio lo que s o sospecho que el profesor no va a preguntar,
Este segundo tem (no estudio lo que no) resultara confuso si la respuesta es
simplemente s o no, pero puede ser suficientemente claro con otro tipo de respuesta (de
acuerdo, en desacuerdo).
5.3.2. Conductas ajenas o casos
Tambin cabe presentar determinadas situaciones o breves casos ante los que se puede
reaccionar de distinta manera, reflejando as actitudes y valoraciones personales, por ejemplo:
Un padre falsifica la edad de su hijo para obtener un billete a precio reducido en el
transporte pblico.
Un comprador se queda con el exceso de cambio que por error le han dado en unos
almacenes.
Las respuestas pueden expresar: valoraciones (me parece: muy bien, regular, mal, muy
mal) o probables conductas personales (yo lo hara habitualmente, ocasionalmente, nunca); en
este ejemplo las respuestas mediran el nivel tico del que responde.
5.4. tems bipolares
Otra forma de redactar los tems de una escala o un test es describir las dos respuestas
extremas (la ms favorable y la ms desfavorable). En estos tems bipolares caben varias
modalidades o estilos segn estas descripciones extremas estn ms o menos elaboradas. Un
ejemplo de descripcin ms elaborada lo tenemos en la figura 2, con dos tems adaptados de un
test que mide el ver sentido a la vida (Purpose in Life Test, de Crumbaugh y Maholic, 1969).
12 Respuestas posibles en trminos de frecuencia: 1 = nunca, 6 = siempre.

12
1. Normalmente me siento
1 2 3 4 5 6
Completamente aburrido Exuberante y entusiasta
2. La vida me parece
1 2 3 4 5 6
Excitante siempre Una rutina completa
Figura 2
En el Diferencial Semntico de Osgood se sigue el mismo procedimiento utilizando pares
de adjetivos con significado opuesto con unos cinco o siete intervalos entre los dos (figura 3):
Bueno Malo
Agradable Desagradable
Fuerte Dbil
Figura 3
Se utiliza para valorar o medir actitudes hacia cualquier objeto posible de una actitud.
Aunque los adjetivos no siempre parecen los ms adecuados siempre hay significados
connotativos que expresan sentimientos valorativos13.
Este tipo de tems se utilizan tambin en otros planteamientos de evaluacin en los que no
se trata de medir actitudes en sentido propio (figura 4).
1. El trabajar en este proyecto ha 5 4 3 2 1

sido una experiencia
muy agradable nada agradable
estimulante aburrida
fcil difcil
satisfactoria frustrante
de buen aprendizaje pobre de aprendizaje
muy creativa nada creativa
Figura 4
El ejemplo de la figura 4 el objetivo es evaluar una experiencia de trabajo en equipo
(llevar a cabo un proyecto, Bourner, Hughes, y Bourner, 200114). En este caso concreto no se
sumaran todas las respuestas en una puntuacin total; cada par de adjetivos se analiza por
separado porque mide caractersticas distintas (se puede juzgar que ese proyecto grupal es fcil
pero tambin que es aburrido) y lo que se pretende es ver cmo los alumnos evalan este
proyecto en cada caracterstica.
13 En Morales, Urosa y Blanco (2003, pg. 36) pueden verse unos 20 pares de adjetivos con significados opuestos; en
Morales (2006, pg. 601) se utiliza un diferencial semntico de 12 pares de adjetivos para valorar el sistema democrtico de
gobierno, la suma de las respuestas al diferencial semntico tiene una fiabilidad de .935 (con N = 323 adolescentes de 13 a 15
aos) y una correlacin de .84 con una escala de actitudes hacia la democracia; Burden (2008) utiliza 30 pares de adjetivos con
significados opuestos para evaluar el clima (ethos) de la Universidad (210 alumnos de primer curso, con bastantes diferencias
estadsticamente significativas entre los sexos).
14 Este cuestionario consta de 17 preguntas, cerradas y abiertas.; se trata de un proyecto de biologa para alumnos de un
primer curso de universidad; el anlisis hecho es descriptivo (distribucin de frecuencias y porcentajes). Bsicamente el mismo
cuestionario para evaluar trabajos de grupo se encuentra en Garvin, Stefani, Lewis, Blumsom, Govier y Hill, (1995) y en Mills y
Woodall (2004).

13
Un ejemplo como el de la figura 4 tambin podra concebirse como una escala de actitudes
hacia los proyectos grupales (como el ejemplo de la figura 3); en ese caso habra que analizar los
tems y seguir el proceso normal de construccin de escalas de actitudes.
Otra forma de preparar los tems bipolares consiste en presentar los dos polos como dos
alternativas de las que en primer lugar hay que escoger una y a continuacin hay que indicar el
nivel de seguridad en la eleccin.
Si he hecho un buen examen
creo que se debe
A. He estudiado mucho y con [ ] Casi seguramente a A

constancia [ ] Probablemente a A
B. He tenido suerte y las preguntas [ ] Probablemente a B
que ha puesto el profesor eran
[ ] Casi seguramente a B
precisamente las que mejor saba
A. El examen ha sido en conjunto un [ ] Casi seguramente a A
examen fcil [ ] Probablemente a A
B. He puesto inters en estudiar [ ] Probablemente a B
a fondo las cosas, incluso las
[ ] Casi seguramente a B
muy difciles
Figura 5
Un ejemplo lo tenemos en los dos tems de la figura 5 con los que se pretende medir la
atribucin externa o interna del xito en un examen. Cada tem consta de dos formulaciones (A
y B), una representa una motivacin interna (A en la primera, y B en la segunda) y otra una
motivacin externa. La clave de correccin va de 4 (casi seguramente motivacin interna) a 1
(casi seguramente motivacin externa.) Puede haber pares de afirmaciones que no puntan, por
ejemplo si ponemos juntas dos motivaciones externas que se incluyen en el test o cuestionario
para camuflar algo lo que se pretende medir y facilitar respuestas sinceras. En el test original se
combinan dos atribuciones internas (estudiar mucho y con constancia e inters en estudiar
incluso lo difcil) con tres atribuciones externas (suerte, examen fcil, profesor benvolo)15.
En la figura 6 tenemos otro ejemplo parecido; lo que se pretendera medir es actitudes
ticas o una actitud de sinceridad y altruismo. La situacin que se presenta a los sujetos es la de
una entrevista para conseguir un puesto de trabajo; de las dos afirmaciones de cada tem, una
refleja una postura sincera y altruista y la otra insincera y egosta. El sujeto debe indicar 1 qu
alternativa es ms probable en l y 2 si est muy seguro de su eleccin.
1 2
Entre A y B de mi eleccin
escogera: estoy:
1. A: Halagar e intentar hacerme amigo [ ]A [ ] muy seguro
de quien me puede ayudar
B: Gastar tiempo y energas en [ ]B [ ] poco seguro
ayudar a personas que no pueden
favorecerme en nada
2. A: Decir siempre toda la verdad [ ]A [ ] muy seguro
aunque eso me pueda perjudicar
B: Callar cosas que son verdaderas [ ]B [ ] poco seguro
pero que podran dar ventaja a un
competidos
Figura 6
15 La versin original consta de nueve pares de tems de los que slo seis puntan; con N = 150 (alumnos de formacin
profesional) el coeficiente de fiabilidad es .854. Versin completa en Morales (2006, 565-568; 99-100)

14
En la clave de correccin la puntuacin mxima (= 4) la tiene la respuesta altruista y muy

segura, y la ms baja (= 1) la respuesta ms egosta y muy segura. Con este formato el escoger la
alternativa negativa pero con poca seguridad puede contribuir a salvar la propia imagen y
constituir a la vez una respuesta suficientemente discriminativa.
En la versin original (que no pasa de ser un ensayo con este tipo de preguntas) las
conductas positivas son dos, decir siempre toda la verdad aunque eso me pueda perjudicar y
gastar tiempo y energas en ayudar a personas que no pueden favorecerme en nada, que se
combinan con cuatro conductas ms egostas (halagar e intentar hacerme amigo de quien me
puede ayudar, ocultar verdades que pueden perjudicarme, callar cosas que son verdaderas pero
que podran dar ventaja a un competidor y decir alguna mentira que no perjudique a nadie pero
que me beneficia a m16.
5.5. Listas de adjetivos
Un sistema sencillo de medir tanto rasgos de personalidad como actitudes es preparar una
lista de adjetivos (o frases cortas) que pueden ser ms o menos aplicables a grupos, a uno
mismo, a determinadas experiencias o actividades, etc. Estas listas se han utilizado con
frecuencia para medir actitudes hacia otros grupos (como los prejuicios).
Estas listas de adjetivos o expresiones cortas son como las vistas en el apartado anterior
pero sin aadir una segunda columna con el adjetivo de significado opuesto.
Cualquiera que sea el uso que se haga de estas listas de adjetivos:
a) Las respuestas pueden ser s (= 1) o no (= 0) (aplicable o no aplicable)
b) Pueden admitir una gradacin en las respuestas (mucho, bastante, poco, nada).
Si se trata de escalas o tests formados por adjetivos, el poner ms de dos respuestas hace
que suba la fiabilidad de todo el instrumento (los sujetos quedan mejor diferenciados).
En el uso de adjetivos hay que distinguir dos variantes que explicamos en los dos
apartados siguientes.
5.5.1. Varios adjetivos expresan el mismo rasgo o actitud.
Si los adjetivos van a ser tems de una escala, todos deben ser indicadores de la misma
variable, como en estas dos posibilidades que equivalen o a un test de personalidad o a una
escala de actitudes:
a) Todos los tems expresan el mismo rasgo (por ejemplo autoritario, dominante,
protagonista, etc.). Los adjetivos son autodescriptivos y equivalen a los tems de un test de
personalidad. Cuando se trata de medir rasgos de personalidad con series (por lo general breves)
de adjetivos, se suelen medir a la vez varios rasgos y los adjetivos que los expresan van
mezclados en una lista nica17.
b) Todos los tems expresan la misma valoracin positiva o negativa (bonito, til,
interesante, etc.). Los adjetivos son valorativos y equivalen a una escala de actitudes hacia el
objeto al que se pueden aplican estos adjetivos.
16 En la versin original se presentan 15 tems de los que solamente 8 puntan; con N = 150 la fiabilidad es de a = .750; en
otra muestra con N = 50, la fiabilidad es de .82; en muestras distintas se han encontrado correlaciones pequeas pero
significativas; negativas con edad (r = -.199, los mayores son menos altruistas), y positivas con integracin familiar (r = .182) y
relativismo religioso (r = .221). Versin completa en Morales (2006, 581-587; 99-101)
17 Ejemplos de sencillos tests de personalidad en los que se mide cada rasgo por medio de una serie de adjetivos pueden
verse en Gismero (1996) y en Trechera (1997) (este ltimo reproducido en Morales, 2010, un documento sobre Anlisis
Factorial, que suele ser el procedimiento para seleccionar los adjetivos que miden el mismo rasgo).

15
En estos dos casos cada adjetivo es un tem, se pueden sumar las respuestas y estas listas se
analizan de la misma manera que se analiza un test o una escala de actitudes.
5.5.2. Cada adjetivo expresa un rasgo distinto.
Por ejemplo trabajador, constante, culto, artista, violento, etc. En este caso los adjetivos
se analizan de manera independiente porque no se pretende que todos expresen el mismo rasgo;
no se suman las respuestas y no se puede por lo tanto hablar con propiedad de un test o escala
aunque se trata de cuestionaros sencillos y tiles (por ejemplo para describir grupos o detectar
prejuicios).
5.6. Formulacin de los tems en funcin de los componentes de las actitudes
A veces se recomienda formular los tems de una escala con tems que reflejen los tres
componentes que suelen distinguirse en las actitudes, conocimientos, sentimientos y conductas.
Esta estrategia requiere un comentario; puede ser til pero no se puede proponer como el
procedimiento ms adecuado necesariamente para construir escalas de actitudes.
5.6.1. Conocimientos
Por conocimientos no se entiende lo que un sujeto sabe, sino lo que cree que es cierto. Esta
distincin es importante; en ningn caso se trata de conocer hechos probados y objetivamente
ciertos; un sujeto puede tener una actitud muy positiva hacia el deporte (me gusta ver deporte en
televisin) y saber muy poquito de deportes (por ejemplo quin gan un campeonato importante
el ao pasado).
Bien es verdad que una actitud positiva hacia un objeto de la actitud, por ejemplo actitud
positiva hacia el estudio de las ciencias naturales, suele ir acompaada de unos conocimientos
sobre ciencias naturales mayores de lo que puede ser normal, pero los meros conocimientos no
reflejan una actitud (uno puede saber mucho de algo porque lo ha estudiado para obtener un
buena nota en una asignatura).
Sin embargo, y si parece adecuado en funcin de la actitud que se pretende medir, unas
pocas preguntas objetivas de conocimientos (con respuestas que pueden ser objetivamente
correctas o incorrectas) pueden ser un buen complemento a (complemento a pero no parte de)
una escala de actitudes para verificar la hiptesis de que los que tienen una actitud positiva hacia
algo saben ms sobre ese algo (tambin podran utilizarse notas escolares con esta finalidad; los
que muestran una actitud positiva hacia las matemticas probablemente tienen mejores notas en
matemticas). Estos cuestionarios complementarios permiten verificar la validez de la escala (es
decir, que comprueba lo que decimos que comprueba).
5.6.2. Sentimientos
Los sentimientos entendidos en un sentido genrico (agrado, me gusta, estoy a favor de,
etc.) son posiblemente el componente formal de las actitudes (predisposicin a reaccionar a
favor o en contra) y se prestan a formular buenos tems que s reflejan la actitud del que
responde. Una simple lista de adjetivos con connotaciones valorativas positivas o negativas
(controlados en la clave de correccin, como bueno, til, aburrido, complicado, etc.) del tipo del
diferencial semntico, pueden constituir una buena escala de actitudes, aunque en este tipo de
cuestionarios (listas de adjetivos valorativos) la actitud queda expresada de manera muy simple.
5.6.3. Conductas
El componente conductual de las actitudes tambin requiere alguna matizacin y hay que
tener especial cuidado si en una escala de actitudes se formulan tems en trminos de lo que el
sujeto hace. Una actitud tiende a manifestarse en conductas; por ejemplo el que valora muy

16
positivamente (actitud) la conservacin de la naturaleza es posible que se afilie a una

organizacin ecologista o compre libros en esa lnea (conductas). Sin embargo hay que hacer dos
observaciones:
1) Una conducta puede reflejar sumisin, presin social (hago lo que hacen todos), etc., no
actitudes internas.
2) Una actitud puede no reflejarse en conductas porque simplemente no se da oportunidad
(me gusta mucho la pera, pero no voy a la pera porque es muy caro, o en mi pueblo nunca hay
pera). Otras conductas s pueden ser ms claras (suelo ver pera en televisin, etc.).
Con todo esto queremos no queremos decir que no se puedan formular tems en trminos
de conductas sino que hay tener cierta cautela al formular tems que expresan conductas.
Realmente el componente conductual de las actitudes es con ms propiedad un componente
conativo18, es decir, se refiere ms a la intencin y al deseo, o a la aprobacin, que a la conducta
misma y en esta lnea s se pueden formular tems en una escala de actitudes (si tuviera la
oportunidad no dudara en afiliarme a una organizacin ecologista). En otros tipos de tests, ms
relacionados con rasgos de personalidad que con lo que solemos denominar actitudes en sentido
propio, s suelen formularse tems en trminos de conductas habituales.
5.6.4. Los componentes de las actitudes y su funcin en la validacin de una escala
Hemos relativizado el uso de los componentes clsicos de las actitudes en la formulacin
de los tems para preparar una escala de actitudes; al menos no puede considerarse como el
procedimiento necesariamente ms lgico o adecuado. Adems la experiencia da que cuando se
hace un plan previo segn estos componentes y se redactan tems que en un nmero
aproximadamente igual reflejan cada componente, el anlisis de tems posterior suele
desequilibrar el plan inicial. A pesar de estas cautelas, s pueden constituir una buena fuente de
inspiracin para comenzar a redactar tems.
Repetidas veces vamos comentando la conveniencia de preparar preguntas o instrumentos
adicionales para confirmar que lo que medimos con nuestra escala se ajusta a lo que queremos
medir (o lo que es lo mismo, comprobar la validez). Con este propsito s nos pueden hacer un
buen servicio los tres componentes de las actitudes. Una escala de actitudes puede ir seguida de
una serie de sencillas preguntas (preguntas independientes o formando breves tests o escalas)
para verificar si la actitud, tal como la medimos con nuestra escala, est relacionada con los
conocimientos que un sujeto tiene sobre el objeto de actitud, con sus sentimientos espontneos y
no muy matizados (como se pueden comprobar con algunos adjetivos valorativos) o con sus
conductas actuales, deseadas o previstas.
5.7. Cuando el nfasis est en la medicin de valores
No estamos tratando formalmente del concepto de valor y de su evaluacin (tambin las
actitudes expresan valores) pero en trminos sencillos podemos conceptualizar un valor como
algo que consideramos importante (y ms importante que otras cosas, por eso hablamos de
jerarquas de valores) que est en la base de nuestras decisiones y orientaciones personales.
Cuando el inters est en medir o evaluar lo que habitualmente solemos denominar valores, este
tipo de escalas tambin son tiles aunque hay otros tipos de cuestionarios que quizs se ajustan
ms al concepto de valor19.
18 En latn conor (infinitivo conari) significa intentar.

19 Puede verse online el documento Evaluacin de los valores: anlisis de listas de ordenamiento (Morales, 2007).

17
En este caso (nfasis en los valores) es preferible especificar en las respuestas grados de
importancia ms que grados de acuerdo. Un ejemplo claro y sencillo son estos tems sobre
valores en el trabajo o qu se considera importante en el propio trabajo profesional20.
En qu medida es importante para Vd. en su trabajo
(Cinco respuestas desde muy importante a nada importante):
Ganar lo suficiente para vivir con mucha holgura
Tener aumentos salariales para mejorar mi nivel de vida
Ganar mucho dinero
El valor expresado por estos tres tems es la importancia que se da a las ganancias
econmicas en el trabajo; la suma de las respuestas a estos tres tems sera la puntuacin de cada
sujeto en este valor. En el test original se miden 15 valores (altruismo, buenas relaciones con los
dems, independencia, tener puestos de direccin, estabilidad, etc.) expresado cada uno por tres
tems que tal como se presentan en el cuestionario deben ir convenientemente separados21.
En cuestionarios ms sencillos cada tem puede representar un valor (sin sumar las
respuestas a varios tems que representan el mismo valor), como en este ejemplo en el que cada
tem expresa orientaciones o metas que uno puede buscar en su propia vida (seis respuestas de
nada importante a muy importante):22
Tener una carrera profesional muy gratificante
Poder hacer una contribucin importante a la sociedad
Tener una gran seguridad econmica
Tener en la vida un compromiso religioso serio
Ser muy rico en recursos econmicos
Aunque las respuestas en trminos de importancia se prestan a evaluar valores no siempre
que se utilizan estas respuestas en trminos de importancia se trata de valores en sentido propio.
6. Nmero inicial de tems; nmero de tems y fiabilidad
Sobre el nmero inicial de tems que deben redactarse: no hay un nmero ptimo, pero a
mayor nmero inicial de tems tendremos una mayor probabilidad de encontrar en el anlisis un
conjunto de tems definitivos con una fiabilidad suficiente. A mayor nmero de tems buenos
(que no tienen que ser muchos) tambin ser mayor la fiabilidad.
Aunque la fiabilidad suele ser mayor al aumentar el nmero de tems, no conviene asociar
automticamente el nmero de tems con la fiabilidad. En muchas investigaciones interesa medir
una serie de variables medidas cada una con pocos tems y se puede conseguir una fiabilidad
relativamente alta (.70 o ms) con escalas de entre dos y cuatro tems, sobre todo en muestras
grandes (donde cabe esperar diferencias claras entre los sujetos).
Como es comn pensar que una escala de actitudes debe tener muchos tems para que
tenga una fiabilidad aceptable, aducimos algunos ejemplos de escalas con muy pocos tems (dos
o tres) y una fiabilidad alta o al menos suficiente:
Hernndez, Espejo y Gonzlez Rom (2006) en una escala (emocional exhaustion) de tres
tems obtienen una fiabilidad de .79 en una muestra de 932 sujetos.
20 Adaptados del Work Values Inventory (Super, 1968).

21 En Internet tenemos disponible el test completo (en ingls, 15 valores y 45 tems) con su clave de correccin (ver Super
en la bibliografa).
22 tems tomados de Wilding y Bernice (2006)

18
Seifert y OKeefe (2001): cinco escalas de tres tems (relacionadas con el estudio) cada
una con coeficientes que oscilan entre .75 y .85 (con una muestra de 512 sujetos).
Meana (2003): nueve escalas para medir otros tantos valores; cada escala est compuesta
por tres tems; tres coeficientes no llegan a .70 (.53, .55, .64) y los otros seis oscilan entre .70 y
.83 (en una muestra en torno a 650 sujetos).
Kember y Leung (2005): una serie de escalas de dos tems para medir la percepcin de
diversos aspectos de la vida acadmica; de los 26 coeficientes de fiabilidad 20 son superiores a
.75 y los dos ms bajos son de .67 y .68 (tambin con muestras grandes, ms de 1000 sujetos).
En estos casos (escalas con muy pocos tems):
a) Suelen medirse actitudes o rasgos concebidos de manera muy simple, con tems muy
parecidos unos a otros que son indicadores muy claros del rasgo que se desea medir, de manera
que el grado de acuerdo que expresen los sujetos sea muy parecido en todos los tems. Rasgos o
actitudes concebidos de manera ms rica y compleja no se expresan bien con muy pocos tems
(quedan fuera componentes de la actitud que pueden ser importantes).
b) Como vemos en los ejemplos mencionados, con pocos tems es ms fcil obtener
coeficientes altos de fiabilidad cuando las muestras son grandes.
Aun en estos casos, cuando se piensa seleccionar muy pocos tems como indicadores de un
determinado rasgo, conviene comenzar redactando ms tems de los que se piensa retener.
7. Redaccin y nmero de respuestas
7.1. Redaccin de las respuestas
Las respuestas ms habituales en las escalas de actitudes suelen expresar grado de acuerdo
con el contenido del tem, sobre todo cuando los tems expresan opiniones, pero puede haber
otro tipo de respuestas ms adecuadas a la formulacin del tem (como grado de inters, de
importancia, etc.). Algunos estilos de formular las respuestas ya las hemos visto al ver diversos
tipos de tems como los bipolares.
Respuestas tpicas en las escalas de actitudes, segn el nmero de respuestas que se
empleen, son, por ejemplo, las puestas en la figura 7.
de acuerdo en desacuerdo
de acuerdo indiferente en desacuerdo
ms bien ms bien en en
de acuerdo
de acuerdo desacuerdo desacuerdo
muy de ms bien ms bien en muy en
indiferente
acuerdo de acuerdo desacuerdo desacuerdo
muy de ms bien ms bien en en muy en
de acuerdo
acuerdo de acuerdo desacuerdo desacuerdo desacuerdo
Figura 7
Caben otros formatos en las respuestas, como utilizar nmeros especificando con palabras
el significado de los extremos (muy de acuerdo y muy en desacuerdo o expresiones equivalentes)
tal como hemos visto en el apartado sobre tems bipolares, o se pueden poner letras
especificando antes el significado (figura 8).

19
Muy de acuerdo Muy en desacuerdo

5 4 3 2 1
Responda segn esta clave:

Muy de acuerdo = MA
De acuerdo = A
Indiferente = I
En descuerdo = D
Muy en desacuerdo = MD
MA A I D MD
Figura 8
Tambin se pueden redactar las respuestas en trminos de una mayor o menor importancia,
frecuencia, etc. Es til ver modelos antes de hacer nuestra redaccin y presentacin definitiva de
la escala. A veces el poner las respuestas de una manera u otra depende del espacio disponible.
En general las diversas maneras de expresar las respuestas (todas con expresiones verbales,
o describiendo solamente las dos respuestas extremas, o utilizando nmeros, etc.) dan resultados
semejantes por lo que respecta a la validez y la fiabilidad23.
Las respuestas en trminos de frecuencia estn especialmente avaladas por la investigacin
experimental y en concreto se han propuesto las posibles respuestas indicadas en la figura 924.
casi nunca a veces

normalmente casi siempre siempre
con muchsimas
casi nunca ocasionalmente ordinariamente siempre
frecuencia veces
casi de vez en muy a muchsimas
a veces normalmente siempre
nunca cuando menudo veces
Figura 9
Caben otros modos de redactar las respuestas que dependern de cmo estn redactados los
tems; en la figura 10 tenemos cuatro respuestas redactadas con cuatro estilos:
Grado de Muy de Ms bien de Ms bien en En desacuerdo

acuerdo acuerdo acuerdo desacuerdo
Grado de Siempre Bastantes Algunas Nunca o casi
frecuencia veces veces nunca
Cantidad Mucho Bastante Poco Nada
Seguridad Ciertamente s Ms bien s Ms bien no Ciertamente no
Figura 10
Tambin cabe redactar respuestas distintas ms adaptadas para tems distintos,
manteniendo en todos el mismo nmero de respuestas (figura 11)25; sobre todo con nios hay
que facilitar el que se identifiquen rpidamente con una respuesta determinada.
23 Por ejemplo, Chang, 1997, con dos muestras de 173 y 108 sujetos. La fiabilidad test-retest (la correlacin cuando se
responde al mismo test dos veces con un intervalo de al menos una semana) suele ser mayor (mayor estabilidad en las
respuestas) cuando todas las categoras de respuesta estn expresadas verbalmente (Weng, 2004, con una muestra de 1247
estudiantes universitarios).
24 La justificacin de estas categoras de respuesta, y un listado mayor, puede verse en Caadas y Snchez Bruno, (1998).
25 En Morales (2006), Anexo III est la escala completa de actitud hacia el estudio (otra escala semejante en el Anexo IV).

20
Para m es muy importante sacar calificaciones altas

S, es muy Bastante Poco Nada
importante importante importante importarte
Para m el estudiar es duro y aburrido

S, mucho Bastante duro Ms bien no Ciertamente
y aburrido no
Yo estudio sobre todo porque me gusta estudiar y saber cosas

S S, pero no Ms bien no Por supuesto
mucho que no
Figura 11
Las respuestas pueden indicarse tambin con nmeros (1= en desacuerdo, 2 = indiferente,
3 = de acuerdo, etc.) o con palabras y con nmeros, o con letras, pero siempre debe estar muy
claro para el que responde el significado de sus respuestas. En general parece preferible el
empleo de letras o mejor de palabras (al menos cuando se juzgue que los nmeros pueden
condicionar la respuesta).
Cuando se utilizan nmeros, todos deben ir en la misma direccin (muy de acuerdo
siempre tiene el valor mximo), aunque despus se inviertan estos valores en la clave de
correccin como indicamos ms adelante.
No siempre es fcil encontrar suficientes respuestas verbales bien graduadas y que tengan
un significado claro; caben, como vemos viendo, combinar nmeros y expresiones verbales; e
incluso con alguna ayuda de tipo grfico, como en el ejemplo de la figura 12 en el que tenemos
un nico tem para evaluar un programa de formacin (adaptado de Davies, 2008); para mayor
claridad se definen los extremos y se separan grficamente las reas que corresponden a una
valoracin positiva o negativa (satisfactorio y no satisfactorio).
No satisfactorio Satisfactorio
Muy mal Excepcional
1 2 3 4 5 6 7 8
Figura 12
7.2. Nmero de respuestas
El nmero tradicional de respuestas es de cinco, pero pueden ser ms o pueden ser menos.
En general, y aunque esto no sucede siempre, a mayor nmero de respuestas en los tems, suele
haber una mayor fiabilidad en toda la escala, con tal de que el nmero de respuestas no supere
la capacidad de discriminacin de los que responden. En torno a seis o siete respuestas puede
ponerse el nmero mximo, y en tres el mnimo; en cualquier caso con tres respuestas suele subir
la fiabilidad con respecto a dos nada ms. La prctica ms generalizada es poner entre 4 y 6
respuestas.
Una observacin importante es que por lo que respecta a la fiabilidad de todo el
instrumento puede ser preferible aumentar el nmero de respuestas (hasta 6, por ejemplo, o
incluso ms) en vez de aumentar el nmero de tems; el aumentar el nmero de respuestas en vez
de aumentar el nmero de tems resulta ms econmico y se responde en menos tiempo.
7.3. Nmero par o impar de respuestas
Una cuestin distinta es si se debe incluir un nmero par o impar de respuestas (con o sin
una respuesta central de indecisin). No hay normas claras sobre este punto; lo ms claro es que

21
son preferibles tres respuestas a dos (la fiabilidad es casi siempre mayor con tres respuestas que
con dos, y adems con slo dos respuestas los que responden pueden sentirse incmodos).
El incluir un nmero par de respuestas (4 6) tiene al menos dos ventajas.
a) En primer lugar siempre cabe la posibilidad de agruparlas en dos categoras (se hace
fcilmente con un programa de ordenador), de acuerdo y en desacuerdo, y esta agrupacin en
dos categoras puede ser til para determinados anlisis o para presentar los resultados de
manera ms sucinta.
b) En segundo lugar se elimina la posibilidad de que los sujetos se evadan escogiendo la
respuesta central (casi nunca hay verdadera indecisin si la actitud medida y los tems son
relevantes para que los que responden).
Una respuesta central del tipo indiferente, no s, indeciso, puede tener problemas de
interpretacin y no representar adecuadamente la magnitud o intensidad pretendida (punto medio
entre las respuestas extremas) porque se puede escoger por razones distintas; en general esta
respuesta central funciona mejor si verbalmente se expresa su posicin de manera explcita
(como a veces, entre los extremos nunca y siempre) (Hernndez, Espejo y Gonzlez Rom,
2006).
8. Preparar la clave de correccin

Las respuestas se codifican siempre con nmeros ntegros sucesivos. Si por ejemplo si las
respuestas son cuatro, se pueden codificar de 0 a 3 o de 1 a 4. En principio es preferible evitar el
0 y comenzar a partir de 1 (aunque cuando slo hay dos respuestas suelen codificarse como 0
1).
La clave en nmeros debe hacerse de acuerdo con el sentido del tem, de manera que a la
respuesta ms favorable a la actitud le corresponda el nmero mayor26, tal como puede verse en
el ejemplo de la figura 13 (percepcin de la propia competencia)27.
Respuestas y clave de correccin
tems Totalmente De acuerdo En Totalmente en
de acuerdo desacuerdo desacuerdo
Me manejo bien con las
tareas de clase 4 3 2 1
Me resulta difcil el hacer las
tareas de clase 1 2 3 4
Figura 13
9. Preparar preguntas o instrumentos adicionales
Cuando se construye una escala de actitudes, la atencin se centra en la redaccin de los
tems, pero esto no es suficiente. Adems de la escala que se est construyendo se deben preparar
otras preguntas para obtener informacin adicional sobre los sujetos.
26 Las respuestas se pueden introducir en EXCEL por el orden en que vienen en el cuestionario (primera respuesta = 1,
segunda respuesta = 2, etc.; lo que sea ms cmodo pero sin tener en cuenta la clave); despus si se dispone del SPSS se
recodifican los nmeros en los tems que corresponda. Las opciones en el SPSS son TransformarRecodificarEn las mismas
variables.
27 Estos dos tems estn tomados de Seifert y OKeefe (2001); con un cuestionario de 15 tems miden cinco variables
relacionadas con el estudio (atribucin externa del xito, percepcin de significado, etc.; cada variable est expresada por tres
tems (que no van juntos tal como se presentan a los sujetos); en una muestra de 512 alumnos de secundaria los coeficientes de
fiabilidad de estas cinco breves escalas estn entre .75 y .85

22
Estos nuevos datos suelen ser de dos tipos como exponemos a continuacin.
9.1. Datos censales o sociolgicos
Estos datos suelen ser edad, sexo, ocupacin, antigedad o curso, estado civil, etc. Estas
preguntas suelen ir al comienzo del cuestionario.
Estos datos servirn para describir la muestra y tambin para hacer anlisis adicionales,
como pueden ser.
a) Exponer datos descriptivos por sexos, subgrupos, etc.
b) Comparar subgrupos en la variable medida por nuestro instrumento
c) Verificar relaciones del rasgo medido por nuestro instrumento con este tipo de datos
(edad, etc.)
d) Preparar normas de interpretacin individual (tambin denominadas baremos) como los
percentiles, para los distintos subgrupos (se pueden calcular percentiles segn edades,
sexos, etc.)28.
9.2. Datos sobre otras variables relacionadas con lo que medimos
Adems es conveniente recoger informacin adicional sobre otras variables (rasgos,
actitudes, valores, etc.) que pueden estar relacionadas con lo que queremos medir con nuestro
instrumento.
Esta informacin se puede obtener con simples preguntas, o incluso con otras escalas o
instrumentos que pueden estar ya hechos, y que los sujetos respondern al mismo tiempo para
recoger estos datos adicionales29. Ms adelante (puede verse en el ndice) presentamos
sugerencias sobre cmo recoger esta informacin.
El objetivo de estos datos adicionales es en primer lugar facilitar la comprobacin de la
validez de nuestra escala30 y responder a otras preguntas de investigacin (comparar grupos en la
actitud medida, ver con qu otras variables se relaciona, etc.).
El recoger ms o menos informacin adicional depender de la amplitud de nuestro
estudio, pero alguna informacin adicional habr que recoger porque tendr que ver en primer
lugar con la verificacin de la validez del instrumento31 y adems nos permitirn hacer otros
anlisis sin limitarnos a la mera construccin del instrumento. Estas preguntas adicionales se
suelen hacer despus de haber redactado los tems de la escala pero se pueden ir pensando desde
el comienzo del proceso. En el cuestionario que se presenta a los sujetos estas preguntas
adicionales suelen ir al final.
El obtener datos adicionales de inters es importante por varias razones:
1 El buscar ms datos hipotticamente relacionados con lo que queremos medir
contribuye a que nos hagamos una idea ms clara del rasgo o actitud que nos interesa medir.
28 Los percentiles (porcentaje de sujetos por debajo de cada puntuacin; expresan la posicin relativa del sujeto en el grupo)
son un mtodo habitual para interpretar resultados individuales pero hay otros tipos de puntuaciones que pueden resultar tiles
(explicados en Morales, 2008, cap. 3).
29 En Morales (2006, en los anexos) pueden verse numerosos ejemplos de escalas junto con preguntas adicionales de
diverso tipo (preguntas independientes, listas de adjetivos, Diferencial Semntico, etc.), para hacer estudios de validacin y otros
anlisis; tambin hay ejemplos de estas preguntas en Morales, Urosa y Blanco (2003).
30 Sobre la validez tratamos ms adelante como puede verse en el ndice.
31 Hablando con propiedad la validez no es una propiedad del instrumento, sino de las inferencias e interpretaciones que
hagamos con los datos obtenidos.

23
Como dijimos antes adems de pensar en un rasgo hay que pensar simultneamente en una teora
o red de relaciones de la que forma parte el rasgo que vamos a medir. Es adems mucho ms
interesante.
2 La experiencia nos dice que el recoger datos adicionales al mismo tiempo que se prueba
el instrumento en una primera muestra que puede ser ya la muestra definitiva, supone un
considerable ahorro de tiempo y esfuerzo, en vez de construir primero el instrumento, y luego,
con la versin definitiva, volver a buscar otros datos en otros sujetos.
3 Las relaciones que vamos encontrando con otras variables (cuando vamos leyendo
sobre el rasgo o actitud que queremos medir, o revisamos otros estudios y vamos preparando el
marco terico) se pueden incorporar de alguna manera al proceso de construccin del
instrumento, en el sentido de que nos pueden sugerir ideas vlidas como criterio en la misma
seleccin de los tems, en la bsqueda de muestras determinadas, etc.
4 Sobre todo el pensar en otros datos tiene que ver con la comprobacin de la validez de
nuestro instrumento y de los datos que con l recojamos.
Cuando se va a construir un instrumento, como una escala de actitudes, conviene repasar
los temas referidos a la validez y a su comprobacin. Comprobar la validez de un instrumento
tiene que ver con la comprobacin o confirmacin del significado de lo que medimos, y tambin
con su utilidad. El primer control de la validez est en la misma redaccin de los tems32.
El tener previsto desde el comienzo qu vamos a hacer para confirmar la validez de nuestro
instrumento (o al menos cmo vamos a apoyar el significado previsto o la utilidad del
instrumento) nos sugerir qu otros datos conviene recoger, y por qu.
Es til tener desde el principio una idea clara no solamente del rasgo que queremos medir,
sino tambin con qu otros rasgos puede estar relacionado ese rasgo, a qu grupos puede
diferenciar, etc. Ms que pensar en un rasgo, conviene pensar desde el comienzo en toda una
teora, aunque sea muy modesta en torno a ese rasgo (con qu otros rasgos o caractersticas de la
persona puede estar relacionado).
10. Obtener datos de una muestra
10.1. Tipo de muestra y nmero de sujetos
Una vez preparada la versin inicial del instrumento, se recogen las respuestas de una
muestra para poder hacer los anlisis correspondientes, sobre todo el anlisis de tems y el
clculo de la fiabilidad. Estos anlisis nos van a permitir dar forma al instrumento definitivo; la
primera redaccin de los tems tiene un carcter en principio hipottico; suponemos que todos
los tems redactados en primer lugar describen bien un determinado rasgo o actitud, pero esta
hiptesis hay que verificarla analizando las respuestas de los sujetos.
1. El tipo de muestra elegido debe ser semejante al tipo de poblacin con el que se piensa
utilizar despus (con nios, adultos, etc.). A mayor heterogeneidad en la muestra (pero
perteneciente a la poblacin seleccionada) obtendremos son mayor facilidad una fiabilidad alta,
pero no es legtimo forzar la heterogeneidad de la muestra en esta primera prueba.
2. Sobre el nmero de sujetos necesario: para que los anlisis tengan suficiente
consistencia y sean extrapolables a muestras semejantes, conviene que haya al menos cinco
sujetos por tem inicial (si partimos de 40 tems nos harn falta 5x40 = 200 sujetos
32 Ms adelante ampliamos todo lo referido a la validez incluyendo ejemplos sobre estas preguntas adicionales.

24
aproximadamente)33. Si se piensa hacer despus un anlisis factorial debe haber unos 10 sujetos
por tem y en cualquier caso no deben ser menos de 200. Con muestras ms reducidas los
anlisis pueden presentarse como tentativos que se pueden confirmar (o no) en otras muestras.
En cualquier caso siempre es preferible un nmero grande de sujetos.
10.2. Cuando la muestra es muy pequea
Los instrumento hechos con muestras pequeas (como pueden ser los alumnos de una clase
o simplemente los sujetos disponibles), lo mismo que los anlisis de tems, fiabilidad, etc., que
hagamos, pueden tambin ser informativos y tiles pero referidos solamente a la muestra que nos
ha servido para construir el instrumento. El problema est en utilizar despus este instrumento en
otras muestras (los tems que discriminan en una muestra pueden no discriminar en otras, la
fiabilidad puede variar apreciablemente, etc.).
Aun as un instrumento construido con una muestra pequea (porque es lo que queremos
hacer en un trabajo de investigacin y es suficiente para nuestros objetivos) puede convertirse en
un buen estudio piloto y hay que presentarlo as; adems tambin se pueden ir acumulando datos
y anlisis de muestras pequeas (y semejantes) hasta llegar a un nmero de sujetos apropiado y
obtener unos resultados ms definitivos y extrapolables.
A veces deseamos construir un instrumento (una escala) que vamos a utilizar en una
investigacin con una muestra necesariamente muy pequea (por ejemplo para evaluar una
terapia, una experiencia hecha con pocos sujetos, verificar un cambio en un grupo pequeo, etc.).
En estos casos puede ser aconsejable construir el instrumento con una muestra grande (por
ejemplo con 100 o 200 sujetos) de la misma poblacin, es decir, de caractersticas similares a la
que pertenecen los sujetos experimentales a los que se aplicar despus ese instrumento.
El construir con una muestra grande un instrumento que luego se va a utilizar
experimentalmente en una o varias muestras pequeas tiene adems la ventaja que se da ms
cuerpo, ms amplitud y complejidad, a una investigacin que si se limita a un grupo muy
pequeo puede quedar (o parecer) muy limitada (por ejemplo en una tesis doctoral).
10.3. Las pruebas piloto
Al construir un test o escala de actitudes a veces se aconseja probarla antes con una
muestra piloto para detectar deficiencias, corregir tems que no han funcionado bien, etc.
a) Ya hemos indicado antes que si construimos una escala con un grupo pequeo, porque
es la nica muestra disponible o es suficiente para un determinado trabajo de investigacin,
podemos considerarla como una prueba piloto y no definitiva que posteriormente se puede
probar de nuevo con oras muestras y mejorarla, pero no es en principio la mejor prctica; una
escala o test hay que analizarlo en una muestra de tamao suficiente.
b) Como criterio general las pruebas piloto pueden ser una prdida de tiempo y de
recursos. Esto hay que valorarlo racionalmente, pero para analizar una escala hace falta una
muestra suficientemente grande que puede ser ya la muestra definitiva. Analizamos los tems,
prescindimos los que no funcionan bien y la misma muestra es a la vez la muestra piloto y
tambin la definitiva con la que hacemos todos los anlisis.
c) Una cuestin distinta es que una versin provisional de la escala y de todo el
instrumento lo revisen o respondan un nmero pequeo de sujetos para detectar fallos en la
redaccin de los tems, verificar que todo se entiende bien, etc.; esto s se puede recomendar,
33 Esta recomendacin es de Nunnally (1978).

25
pero sin entrar en los anlisis que solamente se deben hacer en muestras suficientemente
grandes.
A esta revisin de los tems por parte de un pequeo grupo (con frecuencia denominados
expertos) se le llama a veces validar la escala, pero esta expresin es equvoca; una escala o un
test no es vlido simplemente porque lo han revisado unos expertos; la validez se confirma con
estudios experimentales; s se puede hablar de una validacin previa de tipo conceptual, como
parte del proceso de validacin o de asegurar que en principio el instrumento mide lo que se
pretende.
10.4. Cuando algunos sujetos omiten la respuesta a algunos tems
Un problema que puede surgir es cuando los sujetos omiten su respuesta a algunos tems.
Hay varios procedimientos para sustituir estos valores que faltan y que ms o menos dan los
mismos resultados. De estos procedimientos el que parece ms sencillo y recomendable consiste
en sustituir los valores que faltan por el valor de la respuesta media del sujeto34. Tambin, y si
no hay una prdida grande de sujetos, se puede prescindir de los sujetos que omiten alguna
respuesta35.
Otra solucin propuesta es utilizar como puntuacin total de todos los sujetos no la suma
de sus respuestas a todos los tems, sino la media, dividiendo la suma de las respuestas por el
nmero de tems que ha respondido cada uno. Es decir, no se utiliza la media de los tems
respondidos para sustituir las omisiones, sino que esta media calculada para cada sujeto es el
total (en vez de la suma) de cada sujeto que se utiliza en el resto de los anlisis (para calcular
medias, desviaciones, anlisis de tems, correlaciones, etc.) (Bortz y Dring 2006, p.224;
Wuensch, 2006).
Por ejemplo: si un sujeto en una escala de 4 tems responde solamente a tres tems (por
ejemplo responde 3, 3 y 4 a tres tems) y omite la respuesta a un tem, la media de los tres tems
respondidos sera 3.33 (= 3+3+4/3); este 3.33: solucin 1 se pone como respuesta al tem
omitido, o solucin 2 se utiliza esta media como el total de este sujeto y se hace lo mismo con
todos los dems sujetos aunque hayan respondido a todos los tems.
Como criterio general parece preferible la solucin 1 (utilizar la media individual para
sustituir las omisiones) porque la prctica ms habitual es sumar a cada sujeto todas sus
respuestas y as se facilita la comparacin con las medias de otros grupos que son calculadas
habitualmente a partir de los totales de todos los sujetos36.
Los tems no respondidos por algunos sujetos pueden ser ms problemticos cuando no
podemos suponer que la omisin de respuestas es aleatoria, por ejemplo si un determinado tipo
de sujetos no responde a determinadas preguntas. En este sentido las respuestas omitidas pueden
ser mayor problema en los cuestionarios sociolgicos o en las preguntas sobre caractersticas
personales que tambin suelen incluirse en tests y escalas aunque no como tems de la escala
(como podra suceder con preguntas de identificacin tnica o pertenencia a determinados
34 Qu hacer cuando algunos sujetos no responden a algunos tems puede verse tratado e investigado (precisamente en
escalas de actitudes tipo Likert) en Dodeen (2003) quien recomienda poner la respuesta media del sujeto (su total dividido por el
nmero de tems que ha respondido) en lugar de las respuestas omitidas.
35 En cualquier caso si se van a hacer anlisis con EXCEL (no con el SPSS) no puede haber casillas en blanco; es necesario
que todos respondan a todo y hay que prescindir de los sujetos que omiten algn tem (o sustituir la respuesta omitida por su
respuesta media).
36 Cualquier media calculada dividiendo la suma total por el nmero de tems nos da la media por tem, pero no sucede lo
mismo con la desviacin tpica. El calcular la media por tem es sin embargo til para hacer grficos ilustrativos que permiten
comparar grupos intuitivamente (o un mismo grupo en varias variables) independientemente del nmero de tems de cada
variable o instrumento.

26
grupos, nivel de ingresos econmicos o nmero de artculos publicados en una muestra de

profesores universitarios, etc.). Difcilmente se puede presumir que el omitir la respuesta a este
tipo de preguntas es algo aleatorio (simple olvido o distraccin); es muy posible que no se
responda porque no se quiere responder, y estas omisiones pueden afectar a las correlaciones de
la escala con estas variables y al contraste de medias entre grupos formados segn cmo hayan
respondido a estas preguntas. Siempre cabe explorar si los sujetos que omiten la respuesta a
determinados tems tienen alguna caracterstica comn
11. Anlisis de tems y comprobacin de la fiabilidad
En primer lugar, y una vez obtenidos los datos, calculamos: 1 la media y la desviacin de
los totales (cada sujeto tiene una puntuacin total, que es la suma de todas sus respuestas a los
tems) y 2 la media y la desviacin de cada tem. A continuacin llevaremos a cabo el anlisis
de tems y calcularemos la fiabilidad. Con la ayuda del SPSS37 tendremos toda esta informacin
simultneamente.
11.1. Significado e interpretacin del coeficiente de fiabilidad
Sin entrar en profundidad en el tema de la fiabilidad s que hay que tener claro cmo se
interpretan estos coeficientes, tambin denominados coeficientes de consistencia interna38. Estos
coeficientes van de 0 a 1; el coeficiente utilizado normalmente es el coeficiente alpha () de
Cronbach. El objetivo del anlisis de tems es en principio seleccionar los tems que mejor
contribuyen a la fiabilidad de toda la escala.
Qu quiere decir un coeficiente de fiabilidad alto.
a) Los tems estn relacionados entre s; puntuaciones altas o bajas en cada tem se
corresponden a puntuaciones altas o bajas en el total (la suma de todos los tems); por esto una
fiabilidad alta apoya la interpretacin de que todos los tems miden o expresan el mismo rasgo o
actitud.
Decimos que una fiabilidad alta apoya la interpretacin de que todos los tems miden o
expresan el mismo rasgo porque realmente es un dato (la fiabilidad alta) que apoya pero no
prueba que todos los tems miden lo mismo; hacen falta tambin controles conceptuales. La
necesidad de controles conceptuales podemos verla con un ejemplo hipottico, absurdo pero
claro: si a un grupo formado por nias de 10 aos y de nios de 14 aos que adems son
miembros de un equipo de ftbol les preguntamos la edad, sexo, peso, altura y si les gusta el
ftbol y sumamos sus respuestas a todas estas preguntas como si se tratara de un test, tendremos
una fiabilidad muy alta (todos los tems diferencian a los mismos sujetos) y no estamos midiendo
nada interpretable a pesar de esa fiabilidad tan alta. En ningn caso la estadstica substituye el
anlisis lgico de lo que estamos haciendo.
b) Podemos interpretar el coeficiente de fiabilidad como la correlacin estimada con otra
escala semejante (de tems parecidos); los sujetos hubieran quedado ordenados de manera
parecida.
c) Una fiabilidad alta quiere decir que el test o escala diferencia bien a los sujetos en el
rasgo medido (en lo que tienen en comn los tems). Sin diferencias entre los sujetos no hay una
fiabilidad alta; el coeficiente de fiabilidad viene a indicar la capacidad diferenciadora o
discriminatoria de la escala, por eso se encuentra una mayor fiabilidad en muestras ms
heterogneas, y tambin en muestras grandes en las que hay una mayor probabilidad de que haya
37 SPSS son las siglas de Statistical Package for the Social Sciences.
38 Un tratamiento ms amplio de la fiabilidad de tests y escalas en Morales (2008, captulo 6).

27
sujetos ms distintos en lo que estamos midiendo. No se puede ordenar o diferenciar bien a los
muy semejantes. Tambin, y por la misma razn, el mismo instrumento aplicado a la misma
muestra despus de un proceso puede tener una fiabilidad menor porque la muestra se ha hecho
ms homognea en funcin de ese proceso.
La fiabilidad en sentido propio no es una propiedad del instrumento sino de los datos
recogidos en una muestra y debe calcularse en cada nueva muestra, y, como hemos indicado, la
fiabilidad ser mayor en la medida en que la muestra sea ms heterognea en el rasgo medido.
11.2. Anlisis de tems
Los tems, tal como los hemos redactado, constituyen una definicin operativa, provisional
e hipottica, del rasgo que vamos a medir. Ahora tenemos que comprobar si cada tem, supuestos
los controles lgicos iniciales (los hemos redactado para que midan el mismo rasgo) mide lo
mismo que los dems, y por lo tanto es sumable en una puntuacin total que supuestamente mide
el rasgo y que es la que despus interpretamos y utilizamos. Esta comprobacin la hacemos en
cada tem mediante el denominado anlisis de tems.
Lo que queremos comprobar es si las respuestas tienden a covariar, es decir, si los sujetos
tienden a responder de manera coherente, de manera que podamos deducir que todos los tems
expresan el mismo rasgo. En definitiva comprobamos si los tems tienden a diferenciar a los
sujetos, si discriminan adecuadamente.
Los procedimientos que podemos utilizar para analizar los tems son dos, la correlacin
tem-total y el contraste de medias de los grupos extremos. Con ambos mtodos llegaremos a
resultados muy parecidos.
11.2.1. Correlacin tem-total
Propiamente no se trata de la correlacin de cada tem con el total, sino de la correlacin
de cada tem con la suma de todos los dems (o correlacin de cada tem con el total menos el
tem) que tambin suele denominarse correlacin tem-total corregida. Lo que deseamos
comprobar es en qu medida el puntuar alto en un tem supone de hecho obtener un total alto en
el resto de la escala (en todos los dems tems).
Estos coeficientes de correlacin deben ser al menos estadsticamente significativos (o
distintos de cero en la poblacin). Los tems con una mayor correlacin con el total (o suma de
todos los dems) son los que en principio tienen ms en comn y por lo tanto podemos suponer
que miden lo mismo que los dems. Los tems con correlaciones no significativas o muy bajas
con respecto a las de los otros tems, los eliminaremos de nuestra escala porque no miden
claramente lo mismo que los dems.
Si se calcula la correlacin de cada tem con el total (y no con el total menos el tem
analizado), que es lo ms sencillo con una hoja de clculo como EXCEL, hay una frmula que
convierte esta correlacin tem-total en la correlacin tem-total menos el tem, que es la que nos
interesa, pero este procedimiento es laborioso39.
Suponemos que habitualmente utilizamos el programa SPSS, que nos da para cada tem la
correlacin tem-total (menos el tem) y la fiabilidad de todo el test o escala si suprimimos ese
39 Esta frmula la tenemos en Morales, 2008, cap. 5, apartado 4.3. Con EXCEL lo que es sencillo es calcular la correlacin
tem-total sin restar al total cada tem, por lo que estas correlaciones sern algo mayores, sobre todo si los tems son pocos. En la
matriz de datos (filas sujetos, y columnas tems) aadimos una ltima columna con la suma de todos los tems; en la matriz de
correlaciones tendremos en la ltima fila la correlacin de cada tem con el total. Aun as con este procedimiento (sugerido por
Trochim, 2006) todava nos faltara calcular el coeficiente de fiabilidad; en conjunto y para construir escalas de actitudes y tests
en general, es preferible utilizar el programa SPSS.

28
tem y se puede apreciar rpidamente qu tems se pueden eliminar para que suba la fiabilidad.
Esta informacin es til y acelera el proceso, pero hay que tener presentes otras consideraciones:
En la tabla 1 tenemos un ejemplo de la informacin que nos da el SPSS.40. En este caso se
trata del anlisis de una breve escala de autoeficacia materna (Zurdo-Garay, 2010)41.
La informacin que nos da el SPSS la vemos en esta tabla: la media y la varianza de toda
la escala si suprimimos un tem, la correlacin de cada tem con la suma de todos los dems (eso
significa correlacin elemento-total corregida) y la fiabilidad de la escala si suprimimos el tem.
Adems nos da la informacin descriptiva de cada tem (si la pedimos; media y desviacin) y la
fiabilidad de toda la escala, con todos los tems iniciales (nueve tems en este ejemplo); la
fiabilidad de la escala formada por estos 9 tems es = .677.
Media de la escala si Varianza de la Correlacin Alfa de Cronbach si

se elimina el escala si se elimina elemento-total se elimina el
elemento el elemento corregida elemento
VAR00001 26,5488 11,362 ,471 ,623
VAR00002 26,5610 11,583 ,380 ,644
VAR00003 26,5122 11,241 ,425 ,633
VAR00004 26,7073 11,815 ,348 ,651
VAR00005 26,0244 12,715 ,359 ,651
VAR00006 26,0244 13,777 ,132 ,686
VAR00007 26,1341 13,105 ,209 ,677
VAR00008 26,4390 11,607 ,445 ,630
VAR00009 26,1220 12,133 ,368 ,647
Tabla 1
La tabla 1 reproduce exactamente la informacin del SPSS. Realmente la informacin de
inters es la que nos dan las dos ltimas columnas; en la presentacin de un trabajo de
investigacin (o de una tesis) queda todo ms claro y se interpreta con mayor facilidad si en la
tabla 1 ponemos la formulacin de los tems, y nos limitamos a las dos ltimas columnas (si lo
deseamos, la informacin completa puede ir en un anexo); la tabla 1 quedara como la tabla 2.
Con 82 sujetos tenemos un coeficiente de fiabilidad de .677. Podemos observar que si

suprimimos el tem 6, la fiabilidad sube a .686, y que si suprimimos el tem 7, la fiabilidad no
cambia; podemos en principio suprimir estos dos tems que son tambin los que menos relacin
tienen con la suma de los dems; la fiabilidad sube de hecho a .689 si dejamos los 7 mejores
tems.
40 Una explicacin detallada sobre cmo utilizar el SPSS en la construccin de escalas puede verse en Morales, Urosa y
Blanco (2003). El SPSS nos da hecho el anlisis de tems (correlacin tem-total), la fiabilidad de toda la escala y la fiabilidad si
suprimimos cada tem. Las opciones en el men del SPSS para el anlisis de tems y el clculo de la fiabilidad son
AnalizarEscalasAnlisis de Fiabilidad
41 De la tesis doctoral (en preparacin, Universidad Pontifica Comillas, Madrid) de Mara Mercedes Zurdo Garay
Gordovil Determinantes emocionales y cognitivos de la conducta de apoyo materna. Estudio comparativo de madres con hijos
que presentan o no problemas de rendimiento escolar de zona alto andina del Departamento de Cusco (Per)

29
tems de la escala de autoeficacia materna Correlacin Alfa de Cronbach

(cuatro respuestas, de siempre a nunca) elemento-total si se elimina el
corregida elemento
1. Soy capaz de saber lo que le sucede cuando l/ella est molesto. ,471 ,623
2. En general me siento muy capaz como mam ,380 ,644
3. Se siente capacitada para ayudarle en sus tareas escolares / en su
aprendizaje?
,425 ,633
4. Se siente capaz de hacer que l/ella obedezca?
,348 ,651
5. Se siente en la capacidad de brindarle los medios necesarios para
que tenga una buena educacin?
,359 ,651
6. Se siente capaz de atenderle por si misma en lo que necesita cada da
(ropa, alimentos, etc.)?
,132 ,686
7. Si se enferma, Se siente en la capacidad de decidir qu hacer o qu
cuidados necesita?
,209 ,677
8. Se siente capaz de hablar o comunicarse con l/ella cuando tiene
problemas o dificultades?
,445 ,630
9. Se ve a s misma capaz de satisfacer las necesidades bsicas que el
nio/a tiene (alimentacin, vestido, salud)?
,368 ,647
Tabla 2
En ocasiones podemos advertir que un tem tiene una correlacin negativa y no muy
pequea con el total; en estos casos podemos comprobar si no hay un error en la clave de
correccin.
Estos programas facilitan notablemente el proceso, pero conviene hacer algunas
observaciones (aplicables tambin si utilizamos el contraste de los grupos extremos que veremos
a continuacin).
a) Es cuestionable seguir cuasi mecnicamente procedimientos automticos; el constructor
del instrumento debe intervenir con sus propios criterios sobre lo que quiere medir y sobre las
caractersticas del instrumento (por ejemplo, incluir un nmero idntico de tems positivos y
negativos42).
b) Por otra parte estos programas nos dan la fiabilidad si suprimimos tems de uno en uno,
pero no si suprimimos ms de uno a la vez, y puede no interesar ir eliminando tems uno a uno
sino en bloques escogidos con algn criterio (como el tener una casi idntica o muy parecida
correlacin tem-total, o buscando que haya un nmero idntico de tems positivos y negativos).
c) Adems es normal que con varios subconjuntos de tems obtengamos una fiabilidad
idntica o similar, por lo que habr que acudir a otros criterios (al menos se puede pensar en esta
posibilidad) en la seleccin definitiva de los tems (como consideraciones conceptuales y
resultados del anlisis factorial).
La correlacin tem-total que podemos encontrar ya programada es sumamente til y es la
que utilizaremos normalmente, pero no debe ser necesariamente la nica consideracin en la
seleccin de los tems definitivos (aunque es lo ms cmodo). Por esta razn en un apartado
posterior aadimos algunas consideraciones sobre la eleccin definitiva de los tems.
42 Ya hemos indicado que es til calcular la correlacin entre los dos subtotales (sumando por separado las respuestas a los
tems positivos y negativos); si la correlacin est en torno a .50 podemos excluir el influjo de la aquiescencia en las respuestas.

30
11.2.2. Contraste de medias en cada tem de los dos grupos con puntuaciones mayores y
menores en el total de la escala.
El procedimiento anterior es el que ahora se hace habitualmente con el SPSS. Si no
disponemos del programa adecuado hay un procedimiento que aporta una informacin
semejante. Aunque suponemos que los anlisis los haremos habitualmente con el SPSS, no sobra
indicar cmo llevar a cabo el anlisis de tems con el otro procedimiento porque adems ayuda a
comprender lo que estamos haciendo43. Consiste en comparar en cada tem el 25% con
puntuacin total ms alta con el 25% con puntuacin total ms baja44.
Para llevar a cabo este anlisis:
1 Ordenamos a los sujetos de ms a menos, segn el total obtenido en toda la escala, y
seleccionamos dos subgrupos: grupo superior, el 25% con total ms alto, y grupo
inferior, el 25% con puntuacin total ms bajo; el 50% central no entra en este anlisis.
2 Calculamos la media y la desviacin tpica en cada tem de cada uno de los dos grupos,
superior e inferior;
3 Contrastamos las medias de estos dos grupos mediante la t de Student.
Lo que esperamos es que el 25% con una puntuacin total superior tenga una media
significativamente ms alta en cada tem que el 25% inferior. Podremos en este caso concluir
que los tems que simultneamente diferencian a los mismos sujetos estn midiendo lo mismo.
Prescindiremos de los tems que no discriminan (valores de t no significativos), y si son muchos
o demasiados los que discriminan (y esto sucede con frecuencia), podemos quedarnos con los
ms discriminantes; siempre hay tems mejores que otros en trminos relativos.
En la eleccin definitiva de los tems pueden intervenir adems otros criterios, como ya
hemos indicado y explicamos despus con ms detenimiento, pero en cualquier caso debe estar
claro su poder discriminatorio que a su vez nos confirma que los tems miden bsicamente lo
mismo.
Para hacer estos anlisis conviene disponer los datos de manera clara y tener a la vista
algn modelo como el de la tabla 3 (no hay un modo nico de presentar los datos).
En este ejemplo (ficticio y con resultados muy exagerados, tabla 2) de un total de 40
sujetos (nmero muy bajo para construir una escala de actitudes si se tratara de un caso real)
comparamos las respuestas de los 10 sujetos (25%) con totales ms altos y con los 10 sujetos
(25%) con totales ms bajos. Tambin es til calcular la media y la desviacin tpica de cada
tem en toda la muestra; las desviaciones tpicas de los tems en toda la muestra nos harn falta
despus para calcular la fiabilidad (si no utilizamos el SPSS).
Tambin se podran poner como ejemplos correlaciones tem-total, pero el contraste de
medias de los grupos extremos resulta ms grfico y es muy fcilmente comprensible.
43 Este procedimiento de anlisis de tems puede ser especialmente til en situaciones didcticas y con un ejemplo real en el
que los participantes han generado los tems.
44 Este anlisis se puede hacer fcilmente con una hoja de clculo tipo EXCEL; en Morales, Urosa y Blanco (2003) tambin
se explica cmo hacerlo con el SPSS, pero si se dispone del SPSS es preferible el mtodo anterior (correlacin tem-total).

31
Anlisis de tems: contraste de medias en cada tem

del 25% con total ms alto y del 25% con total ms bajo
tem 5 4 3 2 1 M M-M
N 1 25% Sp || (2) ||||| (5) ||| (3) 3.9 2.50
25% Inf | (1) || (2) ||||||| (7) 1.4 t = 1.79
p<.001
N 2 25% Sp |||| (4) |||||| (6) 4.4 .30

25% Inf ||| (3) ||||| (5) || (2) 4.1 t = 1.05
p>.05
N 3 25% Sp || (2) ||||| (5) || (2) | (1) 2.8 -1.1
25% Inf |||| (4) || (2) ||| (3) | (1) 3.9
Tabla 3
En este ejemplo ficticio (tabla 2):

* El tem n 1 discrimina bien, el valor de t nos muestra que la diferencia entre los grupos
superior e inferior es muy superior a lo puramente aleatorio; este tem habra que
retenerlo.
* El tem n 2 discrimina poco, la diferencia no es significativa y habr que eliminarlo en la
escala definitiva.
* El tem n 3 tiene discriminacin negativa, los del grupo inferior superan a los del grupo
superior; claramente este tem no es sumable con los dems, no mide lo mismo y hay que
rechazarlo. En este caso tambin puede suceder que est mal la clave de correccin y
conviene revisarla
Con cualquiera de los dos procedimientos (correlacin tem-total y contraste de medias
entre los dos grupos extremos) obtenemos un dato (r t) sobre la calidad del tem; ambos tipos
de informacin nos dicen si podemos considerar que el tem discrimina adecuadamente y
consecuentemente si podemos considerar que mide lo mismo que los dems.
Cul de los dos anlisis es preferible?
Los dos anlisis aportan informacin semejante; un tem que diferencia de manera clara a
los grupos con total ms alto y total ms bajo est claramente relacionado con el total de la
escala; prcticamente con los dos procedimientos se llega a la misma seleccin de tems, sobre
todo si nos vamos a quedar con los mejores tems. En la prctica el escoger un mtodo u otro es
cuestin de conveniencia y lo habitual ser utilizar el SPSS, con la correlacin tem-total y el
coeficiente de fiabilidad ya programados; es el procedimiento ms cmodo y el que hoy da
suele seguirse rutinariamente. En procesos de aprendizaje sobre cmo construir escalas y con un
ejemplo real, quizs el contraste de medias entre los grupos extremos es intuitivamente ms
claro45.
45 El autor del procedimiento (Likert) recomienda y utiliza el contaste de medias, pero en su poca no se dispona de los
programas de ordenador con los que contamos hoy da.

32
11.2.3. Clculo de la fiabilidad

El coeficiente de fiabilidad utilizado habitualmente es el coeficiente de Cronbach. La
frmula es la siguiente:
k i2
= 1 2
k 1 t
En esta frmula k es el nmero de tems, i es la desviacin tpica de cada tem (hay que
sumar las varianzas o desviaciones tpicas de los tems elevadas previamente al cuadrado) y t es
la desviacin tpica de los totales.
La frmula es muy laboriosa (aunque puede quedar facilitada utilizando EXCEL) y ms
todava si tenemos que calcular la fiabilidad con distintas combinaciones de tems, pero estamos
suponiendo que para construir escalas utilizamos el programa SPSS.
Si no disponemos del SPSS una alternativa ms sencilla al clculo del coeficiente (que
en principio es el preferible) es utilizar alguna de las frmulas basadas en la particin del test o
escala en dos mitades. Para calcular estos coeficientes haremos lo siguiente:
1 Al corregir la escala a cada sujeto se le calculan dos puntuaciones totales, una en los
tems pares y otra en los tems impares (y la suma de los dos subtotales ser el total de
cada sujeto);
2 Despus se calcula la correlacin entre las dos mitades pues esta correlacin entra en
estas frmulas de la fiabilidad basadas en la particin del test en dos mitades46.
Conviene repasar en otro lugar todo lo referente a estas frmulas; en principio es preferible
utilizar las frmulas del coeficiente de Cronbach o Kuder-Richardson 20.
11.2.4. Cmo estimar la fiabilidad en una nueva muestra a partir de la fiabilidad conocida
en otra muestra y de las desviaciones de las dos muestras.
Entre las muchas frmulas en torno a la fiabilidad hay una que no es especialmente
laboriosa y puede ser ocasionalmente muy til cuando utilizamos un test o una escala ya hecha
(no necesariamente de confeccin propia) y utilizada en otros estudios. Cuando utilizamos una
escala ajena y ya probada en otras muestras (normalmente localizada en algn estudio publicado)
solemos encontrar el coeficiente de fiabilidad calculado en esa otra muestra, adems de otros
datos descriptivos, como la media y la desviacin tpica de los totales de la escala.
Como la magnitud de la fiabilidad depende de la heterogeneidad de la muestra (aunque no
se trata de una relacin sistemtica) conociendo la fiabilidad y la desviacin tpica encontradas
en otra muestra y conociendo tambin la desviacin tpica encontrada en nuestra muestra (que
podemos calcular sin problema en EXCEL) podemos estimar la fiabilidad aproximada en nuestra
muestra mediante esta frmula (Guilford y Fruchter, 1973:420; Morales, 2008:231):
o2 (1 roo ) rnn = fiabilidad estimada en la nueva muestra
rnn = 1 o y roo = desviacin tpica y fiabilidad ya calculadas
n2
(observadas) en una muestra
n = desviacin tpica en la nueva muestra (en la que
deseamos estimar la fiabilidad)
46 Hay varias frmulas de la fiabilidad basadas en la particin del test en dos mitades (en Morales, 2008, cap. 6) y conviene
revisarlas antes de escoger una, pero en cualquier caso siempre es preferible calcular el coeficiente de Cronbach.

33
Por ejemplo, si en una escala de actitudes hemos obtenido en una muestra (o hemos visto
publicada en otro lugar esta informacin) una desviacin tpica de 6.86 y una fiabilidad de =
.78 qu fiabilidad podemos esperar en otra muestra cuya desviacin tpica vemos que es 7.28?
Aplicando la frmula anterior de la fiabilidad estimada en nuestra muestra, tendramos:
6.68 2 (1 .78)
= 1 = .8147
7.28 2
Bien entendido que hay que presentar este coeficiente como una estimacin de la fiabilidad
en la nueva muestra.
11.2.5. Cundo un coeficiente de fiabilidad es suficientemente alto
No hay un valor ptimo de referencia; como orientacin podemos decir que en torno a .70
podemos considerarlo aceptable; es un valor muy habitual (Schmitt, 1996), es el mnimum
recomendado por Nunnally (1978:245-346) pero valores en torno a .60 son tambin aceptables.
Con valores muy inferiores (hasta .50) podemos utilizar el instrumento en trabajos de
investigacin (Schmitt, 1996; Guilford, 1954:388-389)47.
Para dar informacin fiable a cada sujeto deben ser bastante ms altos (en torno a .80)
porque baja el error tpico o margen de oscilacin entre ocasiones o medidas semejantes. Un
coeficiente de fiabilidad relativamente bajo puede ser problemtico para hacer diagnsticos
individuales. En definitiva no hay un valor mnimo sagrado para aceptar un coeficiente de
fiabilidad como adecuado y medidas con una fiabilidad relativamente baja pueden ser muy tiles
en trabajos de investigacin.
Cuando la fiabilidad obtenida nos parece baja (y siempre que lo estimemos oportuno)
podemos obtener otro tipo de informacin complementaria derivada del coeficiente de fiabilidad.
a) A partir del coeficiente de fiabilidad y de la desviacin tpica obtenida podemos calcular
el error tpico o margen de oscilacin probable de las puntuaciones individuales. De cada sujeto
la informacin ms razonable (sobre todo para tomar decisiones) no es la puntuacin obtenida de
hecho, sino entre qu lmites probables mximo y mnimo (intervalos de confianza) podemos
estimar que se encuentra48. Este margen de error es menor cuando la fiabilidad es mayor. En
situaciones de diagnstico y orientacin individual una baja fiabilidad podemos obviarla
calculando esos mrgenes de error; la informacin es ms imprecisa pero tambin ms segura.
b) Cuando calculamos correlaciones entre variables estas se ven afectadas por la baja
fiabilidad de los instrumentos pero siempre podemos estimar cul sera el valor de la correlacin
si la fiabilidad fuera ptima49.
11.3. Seleccin de los tems definitivos

Aunque llevemos a cabo todo el proceso con un programa de ordenador (SPSS), debemos
tener muy claro qu es lo que estamos haciendo. Lo que vamos a hacer es calcular la fiabilidad
47 Gmez Fernndez (1981) cita coeficientes inferiores a .50 en la versin espaola de un test de Cattell; los tests de
personalidad de Cattell suelen medir rasgos concebidos a un nivel muy complejo. Cattell no considera una fiabilidad muy alta
como deseable porque implica una simplicidad que juzga excesiva en la concepcin del rasgo (tems muy repetitivos) aunque
naturalmente este nivel de complejidad o simplicidad depende de lo que el autor del instrumento quiere medir y hacer.
48 Las frmulas del error tpico de la medida (de las puntuaciones individuales), los intervalos de confianza y su
interpretacin en Morales (2008, cap. 6).
49 Las frmulas adecuadas (denominadas corregidas por atenuacin) pueden verse en Morales, 2008, cap. 5 y no deben
utilizarse con muestras inferiores a unos 300 sujetos.

34
con distintos subconjuntos de tems para quedarnos finalmente con la seleccin de tems que ms
nos convenza como versin definitiva de nuestro instrumento.
El proceso, como vamos viendo, es ste:
1 Calculamos el coeficiente de fiabilidad con todos los tems iniciales;
2 Vamos eliminando los peores tems y volvemos a calcular la fiabilidad y as
sucesivamente hasta que nos quedamos con el conjunto de tems que nos da la mayor
fiabilidad.
3 Cuando al eliminar tems vemos que baja la fiabilidad, en principio damos por
terminado el trabajo de construccin de la escala; nos quedamos con el subconjunto de
tems que forme una escala con una fiabilidad ptima. Decimos en principio porque
caben otras consideraciones en la seleccin definitiva de los tems.
Los tems los vamos suprimiendo de uno en uno, o en pequeos bloques. No se trata de un
proceso totalmente mecnico, pues como comentaremos despus, pueden entrar otras
consideraciones en la eleccin de los tems, pero los tems que vamos reteniendo deben ser tems
que correlacionan bien con el total (o que diferencian bien a los sujetos en los grupos extremos).
En cualquier caso la norma de retener el subconjunto de tems que nos de una mxima fiabilidad
es vlida en principio, aunque siguiendo este criterio de manera muy literal no obtendremos
necesariamente el mejor instrumento posible, por eso veremos en otro apartado otros criterios
complementarios para elegir los tems.
Como vamos a calcular la fiabilidad con distintas combinaciones de tems, es til ir
dejando constancia del proceso, tal como aparece en la tabla 4; es una informacin til que
adems se puede presentar en un trabajo de investigacin o en una tesis.
nmero desviacin fiabilidad
tems en las versiones sucesivas media
de tems tpica
Todos los tems
Eliminamos tems n
Eliminamos tems n
Eliminamos tems n
Tabla 4
En vez de poner en la primera columna los tems que eliminamos, podemos poner los que
retenemos.
Tambin cabe seguir el procedimiento inverso, recomendado por algunos autores y que
puede ser preferible. En vez de ir eliminando progresivamente los tems que menos discriminan,
podemos seguir el proceso inverso.
1 Calculamos la fiabilidad con el subconjunto de tems que ms discriminan (mayor
correlacin con el total o mayor diferencia entre los grupos extremos).
2 Aadimos unos pocos tems, los ms discriminantes de los que nos quedan, y volvemos
a calcular la fiabilidad.
3 Damos la tarea por terminada cuando la fiabilidad empieza a bajar o simplemente no
sube de manera apreciable.
Con este procedimiento nos quedar normalmente una escala ms breve, sobre todo si
partimos de muchos tems. Los tems se pueden ir aadiendo de uno o en uno, o de cinco en
cinco, o en pequeos bloques de tems de discriminacin parecida. Como antes, se pueden tener
tambin criterios ms conceptuales, para que nos quede un instrumento equilibrado y a nuestro
gusto.

35
Estos procesos, seguidos de manera automtica, nos llevan a construir instrumentos

(escalas de actitudes en nuestro caso) de una calidad adecuada: la validez, al menos conceptual,
la hemos ya procurado al redactar los tems, y con un anlisis de tems que nos permite a
desechar los peores, podemos garantizar una fiabilidad aceptable (al menos la mayor posible en
nuestro caso).
Sin embargo en estos procesos caben niveles de perfeccionismo, y a partir del mismo
conjunto inicial de tems cabe llegar a instrumentos mejores o peores. La inversin en tiempo,
anlisis, confeccin y comparacin de versiones distintas del mismo instrumento, etc., puede
depender del uso pretendido del mismo; no es lo mismo preparar una escala para una evaluacin
sencilla de actitudes sin muchas pretensiones, que para hacer una investigacin ms seria en
torno a la actitud medida por nuestro instrumento (no es lo mismo construir un instrumento
como un simple ejercicio acadmico, o para una experiencia didctica o para aportar un feedback
a unos sujetos en una determinada situacin, que construir una escala para medir un rasgo que va
ser central en una tesis doctoral o en una investigacin ms seria o que pensamos publicar). El
rigor metodolgico no tiene que ser siempre el mismo, con tal de garantizar siempre un rigor
suficiente.
Si pretendemos construir un instrumento de una calidad superior, o simplemente deseamos
hacerlo lo mejor posible, ya hemos repetido que este proceso no tiene por qu ser automtico.
Tambin tienen su lugar nuestras propias ideas sobre lo que queremos medir, nuestra propia
concepcin del rasgo. En la eleccin definitiva del conjunto de tems que van a formar la escala
deben entrar tambin otros criterios ms conceptuales que modulen esta seleccin; con
frecuencia tendremos versiones con distinto nmero de tems que apenas difieren en fiabilidad.
Estas observaciones pueden sernos tiles:
a) En principio deben eliminarse aquellos tems que hacen que la fiabilidad sea menor,
pero a veces eliminando un tem apenas baja la fiabilidad y si no lo eliminamos la escala puede
quedar menos coherente con otros criterios (una idea o aspecto del constructo puede quedar mal
representada o de manera muy incompleta).
b) Otras veces entre los tems que contribuyen a una mejor fiabilidad hay alguno que, una
vez eliminados otros previamente, puede tener poco sentido porque desequilibra el significado
(una idea del plan previo puede quedar insuficientemente reprensada), y puede ser mejor
eliminarlo tambin. El que la fiabilidad vare en el tercer decimal importa poco.
c) Tambin puede suceder que con menos tems obtengamos una fiabilidad igual o
semejante que con un nmero mayor de tems. Frecuentemente tendremos ms tems de los que
necesitamos para llegar a una escala con una fiabilidad ms que aceptable.
d) Adems, y a la vista de lo que va sucediendo, podremos probar qu sucede si incluimos
o excluimos algunos tems en particular, o podemos ir comprobando la estructura factorial de
las distintas versiones.
e) Es normal que de un conjunto de tems amplio nos pueda quedar ms de una escala,
sobre todo si el constructo medido tiene cierta complejidad. En estos casos la escala prevista
puede quedar dividida en subescalas, o podemos tener un instrumento largo que mide el rasgo
ms general y que a la vez se puede dividir en subescalas que aportan puntuaciones de los
componentes del constructo general medido con toda la escala. Para este proceso (que aqu no

36
tratamos de manera especfica) suele utilizarse el anlisis factorial, que adems puede ser un
buen mtodo complementario para seleccionar los tems50.
f) Como estamos tratando del anlisis de tems y de la fiabilidad como criterios (no nicos)
de calidad, no debemos olvidar que aunque es verdad que en general a mayor nmero de tems
tendremos una mayor fiabilidad, tambin es verdad que con ms respuestas en los tems tambin
aumenta la fiabilidad.
12. Otras consideraciones en torno a la eleccin de los tems definitivos
Ya hemos indicado que todo el proceso (calcular la fiabilidad con diversos conjuntos de
tems) se hace fcilmente con un programa como el SPSS, pero la decisin sobre qu tems hay
que ir excluyendo (o incluyendo) supone tambin valoraciones racionales; las soluciones
automticas que nos puede dar un programa de ordenador no son necesariamente las mejores.
Por eso concretamos aqu algunas orientaciones ms especficas.
En la eleccin de los tems de la versin definitiva de la escala, el valor la correlacin
tem-total es importante pero supuesto un valor significativo y alto (alto en trminos relativos),
pueden entrar otros criterios en la eleccin de los tems (incluso aunque baje algo la fiabilidad
de toda la escala), como los que exponemos a continuacin.
1 Equilibrio entre tems positivos y negativos
Podemos incorporar un nmero ms o menos igual de tems favorables y desfavorables al
objeto de la actitud (con la clave de correccin controlamos que todas las respuestas se puedan
sumar: el mximo acuerdo en unos tems ser equivalente al mximo desacuerdo en otros tems).
Esta es una buena prctica como ya indicamos al principio al tratar de la redaccin de los
tems, porque con tems en las dos direcciones se controlan mejor las respuestas aquiescentes, y
adems el constructo suele quedar mejor expresado. Lo que no es tan fcil ni frecuente es que en
la edicin final haya un nmero de tems idntico en cada direccin (tampoco es especialmente
necesario).
Si tenemos un nmero de tems aproximadamente idntico en ambas direcciones
(favorables y desfavorables a la actitud medida) es til calcular a cada sujeto dos puntuaciones
parciales sumando por separado ambos tipos de tems, y calcular despus la correlacin entre
estas dos subescalas o totales parciales; si esta correlacin es del orden de .50 tenemos una
garanta razonable que ambos tipos de tems miden lo mismo y que no est operando la
aquiescencia (tendencia a responder preferentemente de acuerdo a cualquier tem).
2 Cuidar ms la representatividad del contenido de las formulaciones de los tems
En le seleccin definitiva de los tems que van a conformar nuestra escala, podemos buscar
una homogeneidad conceptual ms ntida. Quizs veamos, por ejemplo, que al eliminar dos
tems que discriminan poco, nos sobra un tercer tem que s discrimina y que incluye la misma
idea que los dos eliminados, pero el conjunto de la escala puede quedar muy desequilibrado en
cuanto al significado global. Todo esto puede depender de apreciaciones personales; siempre hay
que tener claro que es importante la interpretabilidad de los datos en funcin de un rasgo o una
actitud bien definida (aunque un rasgo se puede definir bien de manera muy genrica o compleja
y tambin de manera muy especfica).
Un ejemplo posible: en una escala de actitud general hacia el estudio incluimos cuatro
tems en torno a la idea de competitividad (y otros tres cuatro en torno a otras ideas: motivacin
50 Ejemplos de anlisis factoriales de diversas escalas e instrumentos en Morales (2009), un documento sobre el anlisis
factorial en la confeccin de escalas.

37
interna, gusto por aumentar los propios conocimientos, etc.). Si dos o tres de estos tems sobre
competitividad no discriminan en el conjunto de la escala, puede ser preferible no incluir en la
escala la idea de competitividad (aunque baje algo la fiabilidad) y medirla de otra manera si nos
interesa, con otro instrumento o con unas preguntas adicionales. Nos quedar un concepto de
actitud hacia el estudio con un significado ms restringido pero ms claro que el que
buscbamos en primer lugar.
3 Incluir de manera equilibrada aspectos distintos (subescalas) del mismo rasgo general
Tambin nos puede interesar que estn representadas con idntico nmero de tems (o en
nmero suficiente) ideas que reflejan matices distintos (subrasgos) dentro del rasgo general. En
ocasiones un instrumento, adems de medir un rasgo general, se puede subdividir en subescalas
para medir por separado aspectos distintos. Un instrumento que mida, por ejemplo, autoestima o
asertividad, etc., se puede dividir en subescalas que midan por separado aspectos distintos de la
autoestima o de la asertividad. En este caso tanto las subescalas como la escala formada por
todos los tems, deben tener una fiabilidad aceptable. Si se pretende construir un instrumento de
este estilo, es til estudiar las posibilidades del anlisis factorial como ya se ha indicado; este
tipo de escalas suelen denominarse escalas factoriales.
4 Incorporacin de nuevos tems
Cuando con pocos tems que en principio nos convencen porque expresan bien lo que
deseamos medir, no alcanzamos una fiabilidad adecuada, podemos acudir a las frmulas que nos
dicen cuntos tems del mismo estilo (de formulaciones parecidas) deberamos aadir para
alcanzar una fiabilidad determinada51. Tambin puede suceder que algunos de los tems
eliminados en el anlisis, y que conceptualmente nos parecen adecuados, simplemente no estn
bien formulados y podemos intentar una redaccin nueva.
5 Preparacin de dos versiones, corta y larga, de la misma escala
Con frecuencia podremos observar que un nmero reducido de tems nos da una fiabilidad
aceptable. Puede ser interesante hacer dos versiones, una la versin normal o larga, y otra breve,
quizs con una fiabilidad menor, pero apta para muchos de los usos de estos instrumento.
Podemos verificar qu fiabilidad obtenemos seleccionando solamente los mejores tems, que
pueden ser muy pocos (cinco o seis, por ejemplo).
Estas versiones breves suelen ser tiles como instrumentos complementarios en
investigaciones en las que el nfasis o el inters del investigador est en otro rasgo distinto, pero
le interesa adems medir otras variables con suficiente precisin utilizando instrumentos breves
y econmicos.
6 Explicacin o redefinicin del rasgo medido por nuestro instrumento
En esta observacin no nos referimos a la seleccin definitiva de los tems, sino a las
consecuencias de esta seleccin. A veces, y a la vista de los tems que han sido retenidos en la
escala definitiva, habr que redefinir lo que pretendemos medir o al menos explicarlo
adecuadamente aunque se mantenga el nombre del instrumento.
Los trminos para designar los rasgos suelen ser muy genricos, y de hecho instrumentos
con el mismo nombre (como actitud hacia el estudio, autoestima, etc.) pueden no coincidir en lo
que de hecho miden, que puede ser definido con unos lmites ms amplios o ms ajustados.
Podemos comenzar, por ejemplo, construyendo una escala de actitud hacia el estudio, pero al
51 Estas frmulas que relacionan la longitud de un test y su fiabilidad suelen encontrarse en textos en los que se trata de la
fiabilidad de manera ms especfica y en Morales, Urosa y Blanco (2003).

38
eliminar una serie de tems y fijarnos en los que nos quedan, puede ser preferible hablar de nivel
de aspiraciones, o de constancia en el estudio, etc. (lo que de hecho vemos estemos midiendo
con los tems seleccionados). Al menos debe quedar explicado de alguna manera.
13. Comprobacin de la validez y otros anlisis posteriores
Una vez que tenemos ya la versin definitiva de la escala, se hacen los dems anlisis
segn los datos de que dispongamos.
a) Se pueden calcular datos descriptivos (medias y desviaciones) de las diversas
submuestras si las hay,
b) Podemos construir baremos o normas de interpretacin de los resultados individuales
(como los percentiles, estaninos, u otro tipo de puntuaciones)52.
c) Se pueden comprobar diferencias entre grupos, correlaciones con otras variables, etc.;
segn los datos que hayamos obtenido simultneamente; o podemos pasar la escala a
muestras nuevas obteniendo a la vez otros datos que nos permitan hacer ms anlisis.
d) Sobre todo podemos comprobar de manera ms especfica y planificada la validez del
nuevo instrumento con los datos obtenidos simultneamente (o ya en estudios
posteriores y con otras muestras, pero esto es ms laborioso)53.
La confirmacin de la validez ms que un clculo es un proceso; los llamados coeficientes
de validez son simples correlaciones con un determinado criterio que no confirman
necesariamente la validez de un instrumento, sino una interpretacin especfica de los datos
obtenidos con ese instrumento; (hablar de coeficientes de validez es un tanto equvoco; no hay un
coeficiente de validez anlogo a los coeficientes de fiabilidad).
No tratamos aqu de manera especfica sobre la validez, pero es til recordar ahora algunas
ideas bsicas sobre la validez y cmo confirmarla. No hay una prueba de validez en sentido
estricto, pero s podemos tener datos que apoyen una determinada interpretacin o avalen la
utilidad del instrumento.54
La validez de un instrumento no se prueba de manera categrica, pero s se van
acumulando datos que van aclarando y ampliando el significado de lo que medimos viendo con
qu otras variables se relaciona, etc.; en expresin Cronbach (1971) validar es investigar.
Cuando se construye un instrumento (una escala) para hacer una determinada investigacin
(como una tesis), la misma investigacin ya suele aportar informacin sobre la validez del
instrumento.
Una visin de conjunto de lo que entendemos por validez y de los modos de comprobarla
est resumida la figura 14.
52 Cmo construir estas normas de interpretacin en Morales (2008, cap. 4, Tipos de puntuaciones individuales).
53 Ya indicamos al comienzo, al explicar el proceso de construccin de una escala (figura 1) que adems de redactar los
tems conviene pensar en preguntas adicionales.
54 Sobre la validez las normas de la American Educational Research Association (A.P.A.) dicen que la validez se refiere al
grado en el que la evidencia y la teora apoyan (support) las interpretaciones de los tests de acuerdo con el uso que se va a
hacer de estos tests.

39
Cmo comprobamos el significado y la utilidad

Las interpretaciones se pueden
analizando el contenido con mtodos experimentales
reducir a dos grandes tipos:
Necesario pero no siempre Estrategias: comprobar
suficiente. hiptesis sobre el
Ms fcil en pruebas de significado de la variable
a) Interpretaciones sobre el que medimos;
significado de lo que medimos rendimiento escolar (nos
(validez de constructo) ajustamos a un plan, a una dos estrategias bsicas:
tabla de especificaciones);
Validacin convergente;
A pesar de la validez aparente Ms difcil o ms limitado:
de los tems, podemos medir, Validacin divergente
al menos parcialmente, algo a) Cuando tratamos de medir
distinto de lo que rasgos ms abstractos (como
pretendemos, como capacidad son los rasgos de
lectora, deseo de presentar personalidad);
una buena imagen, etc.; b) Cuando queremos ampliar el
adems los que responden significado, o generalizarlo a
pueden entender otra cosa otras situaciones;
distinta o no entender lo que c) Cuando en las respuestas es
se les pregunta, etc. ms probable que influyan
otras variables (aquiescencia,
deseo de quedar bien, etc.)
No es una estrategia vlida o Necesario siempre;
b) Interpretaciones sobre la
al menos es insuficiente; Mtodos correlacionales;
utilidad del instrumento
pero el anlisis del contenido Problemas posibles: validez
(validez predictiva, en sentido
ayuda a formular hiptesis y fiabilidad del criterio que
amplio)
predictivas se pretende predecir
Figura 14
Con los estudios de validacin pretendemos, sobre todo, dos finalidades (que se apoyan
mutuamente):
1 Confirmar el significado previsto de la variable (de la actitud o rasgo) que pretendemos
medir (validez de constructo). Es el significado ms habitual de validez aplicado a tests y
escalas.
Se trata de verificar que la interpretacin es correcta. Si, por ejemplo, decimos que estamos
midiendo actitud hacia el estudio, verificamos que es eso, y no otra cosa. En las respuestas
pueden influir otras variables, como pueden ser el deseo del que responde de presentar una
buena imagen de s mismo, capacidad lectora, etc.; por esos necesitamos o es conveniente una
verificacin experimental. Este tipo de validez suele denominarse validez de constructo
(constructo = rasgo).
Confirmamos el significado comprobando hiptesis basadas en el mismo significado;
podemos utilizar dos tipos de estrategias que se complementan:
1. Validez convergente: por ejemplo comprobando relaciones esperadas y plausibles
(positivas o negativas) con otras medidas:
a) unas medidas pueden ser otros instrumentos que pretendidamente miden lo mismo (si
hacemos una escala de autoconcepto esperaremos una correlacin significativa con
otras escalas de autoconcepto);
b) otros instrumentos pueden medir otras cosas pero con las que esperamos que haya
relacin (como entre actitud hacia el estudio y calificaciones escolares).
2. Validez divergente: comprobando que el rasgo no tiene relacin con otros con los que
no esperamos que la tenga o que se diferencia de otros del mismo mbito (la asertividad
de la agresividad, puede haber relacin pero no tan alta que nos permita concluir que

40
ambos instrumentos miden lo mismo); podemos tambin comprobar si la escala

diferencia grupos que ya sabemos que son diferentes en esa variable.
Hay otros mtodos para confirmar, matizar, describir mejor o explorar el significado de lo
que medimos, como es el anlisis factorial y otros tipos de anlisis.
2 Comprobar la utilidad prctica del instrumento
En este caso verificamos, por ejemplo si existen correlaciones apreciables con
determinados criterios (como rendimiento acadmico, xito en una tarea, etc.; se trata de validez
predictiva en un sentido amplio). Esta comprobacin de la utilidad tambin aporta datos a la
comprobacin del significado.
14. Sugerencias para obtener datos adicionales que faciliten la validacin de la escala
Las sugerencias puestas a continuacin estn estructuradas pensando en los posibles
anlisis sobre la validez, pero en cualquier caso siempre es til e informativo hacer algn estudio
de tipo correlacional o de comparacin de grupos.
14.1. Confirmacin del significado pretendido (validez de constructo)
Los anlisis pueden tener dos enfoques bsicos (hay ms), como son 1 los estudios
correlacionales y 2 las comparaciones entre grupos.
Por lo que respecta a los anlisis correlacionales, y para tener una visin de conjunto,
vamos a pensar en tres tipos de relaciones (o en su caso, de no relaciones):
1 Relaciones positivas con el mismo rasgo (ms o menos) medido de otra manera, con
otro instrumento;
2 Relaciones positivas o negativas con otros rasgos distintos que, al menos como
hiptesis razonable, pueden estar relacionados positiva o negativamente con el rasgo
que medimos con nuestro instrumento.
3 Relaciones muy bajas, no significativas, con otros rasgos con los que esperamos que
no haya relacin (o menor que con el mismo rasgo medido de otra manera).
14.1.1. Anlisis correlacionales

Podemos distinguir tres estrategias basadas en estudios correlacionales.
1 Relacin con otros modos de medir el mismo rasgo
Comprobamos la relacin entre nuestro instrumento y otros modos de medir el mismo
rasgo.
Otros modos de medir lo mismo pueden ser:
a) Una pregunta amplia que describe y resume la actitud o rasgo que queremos medir.
Por ejemplo, para confirmar la validez de una escala de asertividad, se puede preguntar
(Gismero, 1996):
En qu medida cree Vd. que esta descripcin refleja cmo es Vd.:
Soy una persona que sabe defender sus derechos y plantarse ante quien sea necesario,
sin que eso me cree gran conflicto y a la vez sin hacer dao a otros ni provocar en ellos
agresividad.
Las respuestas pueden ser seis o ms, describiendo solamente los extremos yo soy as y yo
no soy as en absoluto (en este ejemplo la correlacin con la escala de asertividad es de .557).

41
b) Otro mini-test de pocos tems que ms o menos mida lo mismo, por ejemplo:
1. Desde otra perspectiva (pueden ser conductas probables en vez de opiniones),
2. Con un breve instrumento que mide el mismo rasgo pero construido con una
tcnica distinta (por ejemplo eleccin entre alternativas o un Semntico
Diferencial).
c) Otra escala o test (o factor, o subescala, o seleccin de tems, etc.) de otro autor y que
supuestamente comprueba lo mismo (o algo muy semejante).
d) Si es posible, se puede comprobar la relacin entre autoevaluacin (sobre todo si se
trata de la medicin de un rasgo propio ms que la actitud hacia otra cosa) y
hteroevaluacion.
Estos nuevos instrumentos tienen un valor complementario, pueden ser muy breves y
tambin pueden limitarse a simples preguntas.
2 Comprobacin de relaciones esperadas (positivas o negativas) con otros rasgos

Podemos comprobar tambin la relacin entre lo que mide nuestro instrumento y otros
rasgos o caractersticas distintas con las que esperamos que haya relacin (positiva o negativa):
a) Una lista de adjetivos o rasgos autodescriptivos que podran equivaler a una serie de
tests de personalidad. Por ejemplo, una escala de motivacin de logro podramos
esperar que tuviera correlaciones significativas con autodescripciones como
ambicioso, constante, organizado, etc.
Por ejemplo, correlaciones de una escala de actitud hacia el estudio con adjetivos
autodescriptivos (respuestas de 4 = mucho a 1 = nada) en una muestra de 174 nios y
nias55:
Inteligente, r = 0.368 (p < .001)
Perezoso, r = -0.355 (p < .001)
Querido por todos, r = 0.113 (p > .05)
Trabajador, r = 0.439 (p < .001)
Son relaciones plausibles: positivas con autodescribirse como inteligente y
trabajador, negativa con perezoso (lo que avala la sinceridad bsica de las respuestas),
y sin relacin apreciable con querido por todos.
Tambin se pueden sumar adjetivos que reflejen ms o menos el mismo rasgo
(mediante el anlisis factorial se pueden encontrar grupos de adjetivos relacionados
entre s y que reflejan un mismo rasgo subyacente a todos ellos).
b) Tests de personalidad (completos o en parte, subtests, etc.),
c) Preguntas sueltas sobre diversos temas, otras actitudes, preferencias, etc. que, como
hiptesis, puedan tener relacin con la actitud medida; (por ejemplo preguntas de este
estilo: de estas profesiones cual te hubiera gustado ms para ti? Se escoge una entre
varias, o se escoge una de cada par, o se valoran todas independientemente, etc.).
Las mismas sugerencias hechas para formular los tems de una escala son vlidas para
formular otras preguntas.
55 El estudio completo en Morales (2006, 535-547).

42
3 Comprobar que no existe relacin donde no esperamos que la haya

Esta no relacin nos ayuda a distinguir unos rasgos de otros, sobre todo cuando pertenecen
al misma mbito conceptual y es fcil confundirlos (por ejemplo asertividad y agresividad).
La no relacin no hay que entenderla de manera literal (r = 0); puede tratarse de
relaciones, incluso estadsticamente significativas y de magnitud moderada, pero menores que
con otros rasgos, y de acuerdo con un razonamiento plausible.
14.1.2. Comparaciones entre grupos
El otro enfoque mencionado al principio de este apartado consiste en comparar grupos
supuestamente distintos en aquello que estamos midiendo.
a) Todas las comparaciones entre grupos equivalen a anlisis correlacionales (como en
definitiva todos los anlisis estadsticos)56: nos da lo mismo, por ejemplo, preguntarnos si los
nios y nias son distintos en el rasgo o actitud A (y haremos un contraste de medias), que
preguntarnos si el sexo est relacionado o tiene que ver con la actitud A (y calcularemos un
coeficiente de correlacin entre gnero, 1 0, y la actitud medida). Es ms, no slo hay una
obvia relacin conceptual entre las dos preguntas (diferencia entre medias de grupos o relacin),
sino que disponemos de una frmula para transformar un valor de la t de Student en un
coeficiente de correlacin57.
b) Aun as nuestras preguntas espontneas son unas veces en trminos de relacin, y otras
en trminos de diferencias; ambos enfoques nos ayudan a formular hiptesis que podemos
intentar confirmar, y adems los procedimientos de anlisis son en principio distintos aunque en
ltima instancia aporten la misma informacin.
c) Al preparar nuestro instrumento de recogida de datos, debemos pensar qu preguntas
podemos hacer que identifiquen a los sujetos segn grupos de pertenencia (profesiones, sexos,
etc.) o segn caractersticas personales de inters que permitan subdividir la muestra en
subgrupos (preferencias por A B, preguntas en relacin con el estilo de vida, valores, etc.)
d) El anlisis estadstico obvio ser un contraste de medias, o un anlisis de varianza si las
muestras son ms de dos.
Resumiendo
Los anlisis sugeridos (correlaciones y comparaciones de grupos) no agotan todos los
anlisis posibles en relacin con la validez, pero s son los ms obvios y con frecuencia
suficientes. Como ya hemos indicado antes se trata en todos los casos de obtener datos para
poder verificar hiptesis (y tambin para explorar):
a) El instrumento mide algo relacionado (positiva o negativamente) con otras cosas con las
que lgicamente esperamos que haya relacin (validacin convergente).
Unas veces comprobamos relacin con el mismo rasgo medido de otra manera (o por
otras personas, por ejemplo auto y htero-evaluacion);
Otras veces comprobamos relacin con rasgos distintos pero lgicamente relacionados.
56 En definitiva se trata de comprobar, de una manera u otra, si las diferencias en una variable se corresponden con
diferencias en otra variable
57 Morales (2008), p. 284

43
b) El instrumento mide algo que no est relacionado con lo que no se espera que lo est
(validacin divergente). La no relacin tambin es til para ver que no confundimos unas
cosas con otras, y porque tambin son datos informativos.
14.2 Confirmacin de la utilidad del instrumento (validez predictiva)
Bsicamente trata de calcular coeficientes de correlacin entre el instrumento (lo que mide
el test o escala) y determinados criterios (como rendimiento acadmico, determinadas
habilidades, etc.) y confirmar de esta manera hiptesis plausibles que apoyan o confirman el
significado de lo que estamos midiendo con nuestra escala. Estos coeficientes de correlacin
suelen denominarse coeficientes de validez aunque el trmino es equvoco porque la validez no
se concreta en un coeficiente especfico como el de fiabilidad.
Otra estrategia para confirmar la validez es verificar diferencias entre grupos que tambin,
segn hiptesis razonadas, podemos suponer que son distintos en aquello que estamos midiendo.
Tambin cabe hacer estudios meramente exploratorios o que respondan a hiptesis no
directamente relacionadas con la validez.
El complemento de la construccin de un instrumento pueden ser adems unas normas de
interpretacin (baremos), para los sujetos que respondan puedan interpretar sus resultados
individuales, como son los percentiles, estaninos, etc.58
15. Bibliografa
15.1. Referencias bibliogrficas citadas
AMERICAN EDUCATIONAL RESEARCH ASSOCIATION, AMERICAN PSYCHOLOGICAL
ASSOCIATION and NATIONAL COUNCIL ON MEASUREMENT IN EDUCATION (1999).
Standards for Educational and Psychological Testing. Washington DC: American
Educational Research Association
BARNETTE, JACKSON J. (2000). Effects of stem and Likert response option reversals on survey
internal consistency: if you feel the need, there is a better alternative to using those
negatively worded stems. Educational and Psychological Measurement, 60 (3), 361-370.
BORTZ, JRGEN; DRING, NICOLA (2006) Forschungsmethoden und Evaluation. (4 ed.
revisada). Heidelberg: Springer.
BOURNER, HILL; HUGHES, MARK & BOURNER TOM (2001). First-year Undergraduate
Experiences of Group Project Work. Assessment & Evaluation in Higher Education, Vol.
26, No. 1, 20-39
BURDEN, PETER (2008). The use of 'Ethos indicators' in tertiary education in Japan. Assessment
& Evaluation in Higher Education, Vol. 33 Issue 3, p315-327
CAADAS OSINSKI, ISABEL y SNCHEZ BRUNO, ALFONSO (1998), Categoras de respuesta en
escalas tipo Likert. Psicothema, vol. 10, n 3, 623-631.
CHANG, LEI (1997). Dependability of Anchoring Labels of Likert-Type Scales. Educational and
Psychological Measurement, 57 (5), 800-807.
CRONBACH, L.J. (1971). Test Validation en THORNDIKE, R.L., (Ed.) (1971) Educational
Measurement. Washington D.C.: American Council of Education, 2nd edit., 335-355.
CRUMBAUGH, JAMES C. and MAHOLIC, LEONARD T. (1969). Manual for The Purpose in Life
Test. Brookport, Illinois: Psychometric Affiliates
DAVEY H., BARRATT A., BUTOW P. and DEEKS J. (2007). A one-item question with a Likert or
Visual Analog Scale adequately measured current anxiety. Journal of Clinical
Epidemiology, 60 (4):356-360
58 Tipos de puntuaciones individuales, en cap. 4 de Morales (2008)

44
DAVIES, RANDALL S. (2008). Designing a Response Scale to Improve Average Group Response
Reliability Evaluation & Research in Education, 2008, Vol. 21 Issue 2, p134-146.
DODEEN, HAMZEH M. (2003). Effectiveness of Valid Mean Substitution in Treating Missing
Data in Attitude Assessment. Assessment & Evaluation in Higher Education. Vol. 28, n 5,
505-513.
FANNING, ELIZABETH (2005). Formatting a Paper-based Survey Questionnaire: Best Practices.
Practical Assessment Research & Evaluation, 10(12). Available online:
http://pareonline.net/getvn.asp?v=10&n=12
FRARY, ROBERT B. (1996). Hints for designing effective questionnaires. Practical Assessment,
Research & Evaluation, 5 (3) http://pareonline.net/getvn.asp?v=5&n=3
GARDNER, DONALD G.; CUMMINGS, L.L.; DUNHAM, RANDALL B. and PIERCE, JON L. (1998).
Single-item versus multiple item measurement: an empirical comparison. Educational and
Psychological Measurement, 58 (6), 898-915.
GARVIN, J., BUTCHER, A., STEFANI, A., TARIQ, V., LEWIS, N., BLUMSOM, R., GOVIER, R. &
HILL, J. (1995) Group projects for .first-year university students: an evaluation ,
Assessment & Evaluation in Higher Education, 20, pp. 279294
GISMERO GONZLEZ, ELENA (1996). Habilidades sociales y anorexia nerviosa. Madrid:
Universidad Pontificia Comillas.
GMEZ FERNNDEZ, D. (1981). El 'ESP-E', un nuevo cuestionario de personalidad a disposicin
de la poblacin infantil espaola. Revista de Psicologa General y Aplicada, 36, 450-472.
GUILFORD, JOY P. (1954). Psychometric Methods. New York: McGraw-Hill.
GUILFORD, JOY P. and FRUCHTER, B. (1973). Fundamental Statistics in Psychology and
Education. New York: McGraw-Hill (en espaol, Estadstica aplicada a la psicologa y la
educacin, 1984, Mxico: McGraw-Hill).
HERNNDEZ, ANA; ESPEJO, BEGOA and GONZLEZ-ROM VICENTE (2006). The functioning
of central categories middle level and sometimes in graded response scales: does the label
matter? Psicothema,Vol. 18, n 2, pp. 300-306
http://www.psicothema.com/psicothema.asp?id=3214
KEMBER, DAVID and LEUNG, DORIS Y.P. (2005). The influence of active learning experiences
on the development of graduate capabilities. Studies in Higher Education, Vol. 30 Issue 2,
p155-170.
MEANA, RUFINO (2003). La experiencia subjetiva de sentido y su relacin con variables
psicolgicas y sociodemogrficas. Tesis doctoral. Madrid: Universidad Pontificia
Comillas.
MILLS, PAUL C.; WOODALL, PETER F. (2004). A comparison of the responses of first and second
year veterinary science students to group project work. Teaching in Higher Education,
Vol. 9 Issue 4, p477-489;
MORALES VALLEJO, PEDRO (2006). Medicin de actitudes en Psicologa y Educacin,
construccin de escalas y problemas metodolgicos, tercera edicin revisada. Madrid:
Universidad Comillas.
MORALES VALLEJO, PEDRO (2010). Anlisis factorial en la construccin e interpretacin de
tests, escalas y cuestionarios.
http://www.upcomillas.es/personal/peter/investigacion/AnalisisFactorial.pdf
MORALES VALLEJO, PEDRO; UROSA SANZ, BELN y BLANCO BLANCO, NGELES (2003).
Construccin de escalas de actitudes tipo Likert. Una gua prctica. Madrid: La Muralla.
NUNNALLY, JUM C. (1978). Psychometric Theory. Second Edit. New York: McGraw-Hill.
SCHMITT, NEAL (1996). Uses and abuses of Coefficient Alpha. Psychological Assessment, 8 (4),
350-353 (disponible en http://ist-socrates.berkeley.edu/~maccoun/PP279_Schmitt.pdf,
consultado 30, 09, 2008).

45
SEIFERT, T.L. and OKEEFE, B.A. (2001). The relationship of work avoidance and learning goals
to perceived competence, externality and meaning. British Journal of Educational
Psychology, 71, 81-92.
SIMONS, JOKE; DEWITTE, SIEGFRIED and LENS, WILLY (2004). The role of different types of
instrumentality in motivation, study strategies, and performance: Know why you learn, so
you'll know what you learn! British Journal of Educational Psychology, Vol. 74 Issue 3,
p343-360,
SUPER, DONALD E. (1968) Work Values Inventory. New York: Houghton-Mifflin. Disponible en
University of Richmond, Career Development Center, Work Values Inventory,
http://cdc.richmond.edu/common/pdf/valuesworkinventory.pdf . Una adaptacin para
responder online en Saint Anselm College, Career Education Services, Work Values
Inventory, http://www.anselm.edu/administration/CES/WorkValues.htm
TRECHERA, JOSE LUIS (1997). El trastorno narcisista de la personalidad: concepto, medida y
cambio. Crdoba: Publicaciones ETEA
TROCHIM, WILLIAM M. The Research Method Knowledge Base, 2nd Edition,
http://www.socialresearchmethods.net/kb/ (version current as of October 20, 2006)
(consultado 9, o5, 2009).
WENG, LI-JEN (2004). Impact of the Number of Response Categories and Anchor Labels on
Coefficient Alpha and Test-Retest Reliability. Educational and Psychological
Measurement, 64, 6, 956-972.
WILDING, JOHN and ANDREWS, BERNICE (2006). Life goals, approaches to study and
performance in an undergraduate cohort. British Journal of Educational Psychology,
Mar2006, Vol. 76 Issue 1, p171-182
WUENSCH, KARL L. (2006) Research Design Lessons, scaling,
http://core.ecu.edu/psyc/wuenschk/docs2210/Research-5-Scaling.doc (consultado 3, Dic.
2009).
15.2. Sobre construccin de instrumentos
DEVELLIS, ROBERT (1991). Scale Development, Theory and Applications. Newbury Park: Sage.
EDWARDS, A.L., (1957a). Techniques of Attitude Scale Construction. New York: Appleton-
Century-Crofts.
GABLE, ROBERT K. and WOLF, MARIAN B. (1986). Instrument Development in the Affective
Domain. Boston/Dordrecht/Lancaster: Kluwer-Nijhoff Publishing.
HENERSON, M.E., MORRIS, L.L. and FIZT-GIBBON, C.T. (1978). How to Measure Attitudes,
Beverly Hills: Sage.
KING, M. AND ZIEGLER, M. (1975). Research Projects in Social Psychology. Monterrey:
Brooks-Cole.
KLINE, P. (1986). A Handbook of Test Construction. New York: Methuen.
LIKERT, R. (1932). A Technique for the Measurement of Attitudes, Archives of Psychology,
140, 44-53 [en espaol en WAINERMAN, C.H. (Ed.), (1976). Escalas de medicin en las
ciencias sociales. Buenos Aires: Nueva Visin, 199-260 y en SUMMERS, GENE F. (Ed.)
(1976). Medicin de actitudes. Mxico: Trillas, 182-193].
MORALES VALLEJO, PEDRO (2010). Cuestionarios y escalas
http://www.upcomillas.es/personal/peter/otrosdocumentos/CuestionariosyEscalas.doc
MORALES VALLEJO, PEDRO (2010). Anlisis factorial en la construccin e interpretacin de
tests, escalas y cuestionarios.
http://www.upcomillas.es/personal/peter/investigacion/AnalisisFactorial.pdf
MORALES VALLEJO, PEDRO (2008). Estadstica aplicada a las ciencias sociales. Madrid:

46
MORALES VALLEJO, PEDRO (2007).Evaluacin de los valores: anlisis de listas de

ordenamiento
http://www.upcomillas.es/personal/peter/otrosdocumentos/ValoresMetodo.pdf
MORALES VALLEJO, PEDRO (2006). Medicin de actitudes en Psicologa y Educacin,
construccin de escalas y problemas metodolgicos, tercera edicin revisada. Madrid:
MORALES VALLEJO, PEDRO; UROSA SANZ, BELN y BLANCO BLANCO, NGELES (2003).
Construccin de escalas de actitudes tipo Likert. Una gua prctica. Madrid: La Muralla.
MORRIS, LYNN LYONS, FIZT-GIBBON, CAROL TAYLOR, and LINDHEIM, ELAINE (1987). How to
measure attitudes. Newbury Park & London: Sage.
NUNNALLY, JUM C. (1978). Psychometric Theory. New York: McGraw-Hill.
SPECTOR, PAUL E. (1992). Summating Ratings Scale Construction: An Introduction. Newbury
Park & London: Sage.
WAINER, HOWARD and MESSICK, SAMUEL (Eds.) (1983). Principals of Psychological
Measurement. Hillsdale, N. J.: Lawrence Erlbraun.
15.3. Colecciones de instrumentos
BEARDEN, WILLIAM O.; NETEMEYER, RICHARD G. and MOBLEY, MARY E. (1993). Handbook
of Marketing Scales. Newbury Park: Sage.
BORICH, G.D., and MADDEN, S.K. (1977). Evaluating Classroom Instruction, A Sourcebook of
Instruments. Reading, Mass.: Addison-Wesley.
COHEN, L. (1976). Educational Research in Classrooms and Schools. London: Harper & Row.
FISHER, JOEL and CORCORAN, KEVIN J. (1994). Measures for Clinical Practice: A Sourcebook;
Couples, Families and Children. Portland: Portland State University, Oregon.
HILL, PETER C. and HOOD JR., RALPH W. (1999). Measures of Religiosity. Birmingham,
Alabama: Religious Education Press.
LAKE, D.G., MILES, M.B. and EARLE JR., R.B. (1973). Measuring Human Behavior. New York:
Teachers College, Columbia University
MILLER, D.C. (1977). Handbook of Research Design. New York: David McKay.
MORALES VALLEJO, PEDRO (2010). Cuestionarios y escalas.
http://www.upcomillas.es/personal/peter/otrosdocumentos/CuestionariosyEscalas.pdf
NEWMARK, CHARLES S. (Ed.) (1996). Major Psychological Assessment Instruments. Second
Edition. Boston: Allyn & Bacon.
ROBINSON, JOHN P. and SHAVER, PHILLIP R. (1980). Measures of Social Psychological
Attitudes. Ann Arbor, Mich.: Institute of Social Research, the University of Michigan.
ROBINSON, JOHN P.; SHAVER, PHILLIP R. and WRIGHTSMAN, LAWRENCE S. (Eds.) (1991).
Measures of Personality and Social Psychological Attitudes. New York: Academic Press.
ROBINSON, JOHN P.; SHAVER, PHILLIP R. and WRIGHTSMAN, LAWRENCE S. (Eds.) (1999).
Measures of Political Attitudes. New York: Academic Press.
SCHUESSLER, K.F. (1982). Measuring Social Life Feelings. San Francisco: Jossey-Bass
SHAW, M.E. and WRIGHT, J.M. (1967). Scales for the Measurement of Attitudes. New York:
McGraw-Hill.
STRAUSS, M.A. and BROWN, B.W. (1978). Family Measurement Techniques, Abstracts of
Published Instruments, 1935-1974. Minneapolis: University of Minnesota Press.

Guía para Construir Escalas de Actitudes - Morales

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Guía para Construir Escalas de Actitudes - Morales

Cargado por

Copyright:

Formatos disponibles

GUA PARA CONSTRUIR

1 Este documento est disponible en

10.3. Las pruebas piloto.................................................................................................... 24

Gua para construir escalas de actitudes

1. Podemos medir actitudes con una sola pregunta?

Gua para construir escalas de actitudes

Construimos escalas de actitudes (o tests de personalidad e instrumentos semejantes) para

Gua para construir escalas de actitudes

Gua para construir escalas de actitudes

En conjunto es el sistema ms sencillo y de caractersticas no inferiores a los otros tipos de

3. Proceso de construccin de una escala de actitudes

Construccin de escalas tipo Likert

4. Definicin de la actitud que se desea medir

Gua para construir escalas de actitudes

5. Redaccin de los tems

Gua para construir escalas de actitudes

7 La escala completa de actitudes hacia la democracia en Morales (2006), Anexo XI.

Gua para construir escalas de actitudes

Opinin favorable hacia la democracia: En un sistema democrtico los ciudadanos

Gua para construir escalas de actitudes

Gua para construir escalas de actitudes

12 Respuestas posibles en trminos de frecuencia: 1 = nunca, 6 = siempre.

Gua para construir escalas de actitudes

1. El trabajar en este proyecto ha 5 4 3 2 1

Gua para construir escalas de actitudes

A. He estudiado mucho y con [ ] Casi seguramente a A

Gua para construir escalas de actitudes

En la clave de correccin la puntuacin mxima (= 4) la tiene la respuesta altruista y muy

Gua para construir escalas de actitudes

Gua para construir escalas de actitudes

positivamente (actitud) la conservacin de la naturaleza es posible que se afilie a una

18 En latn conor (infinitivo conari) significa intentar.

Gua para construir escalas de actitudes

20 Adaptados del Work Values Inventory (Super, 1968).

Gua para construir escalas de actitudes

Gua para construir escalas de actitudes

Muy de acuerdo Muy en desacuerdo

Responda segn esta clave:

casi nunca a veces

Grado de Muy de Ms bien de Ms bien en En desacuerdo

Gua para construir escalas de actitudes

Para m es muy importante sacar calificaciones altas

Para m el estudiar es duro y aburrido

Yo estudio sobre todo porque me gusta estudiar y saber cosas

Gua para construir escalas de actitudes

8. Preparar la clave de correccin

Gua para construir escalas de actitudes

Gua para construir escalas de actitudes

Gua para construir escalas de actitudes

33 Esta recomendacin es de Nunnally (1978).

Gua para construir escalas de actitudes

Gua para construir escalas de actitudes

grupos, nivel de ingresos econmicos o nmero de artculos publicados en una muestra de

Gua para construir escalas de actitudes

Gua para construir escalas de actitudes

Media de la escala si Varianza de la Correlacin Alfa de Cronbach si

Con 82 sujetos tenemos un coeficiente de fiabilidad de .677. Podemos observar que si

Gua para construir escalas de actitudes

tems de la escala de autoeficacia materna Correlacin Alfa de Cronbach

Gua para construir escalas de actitudes

Gua para construir escalas de actitudes

Anlisis de tems: contraste de medias en cada tem

N 2 25% Sp |||| (4) |||||| (6) 4.4 .30