Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ESCALAS DE ACTITUDES
Pedro Morales Vallejo
Universidad Pontificia Comillas Madrid
Facultad de Ciencias Humanas y Sociales
(ltima revisin, 20 de Junio de 2010)1
INDICE
1. Podemos medir actitudes con una sola pregunta? ......................................................... 3
2. Escalas y tests .................................................................................................................... 3
2.1. Cuestionarios y escalas: qu entendemos por escalas o tests..................................... 3
2.2. Por qu construimos una escala (o un test) en vez de limitarnos a una sola pregunta 4
3. Proceso de construccin de una escala de actitudes .......................................................... 6
4. Definicin de la actitud que se desea medir....................................................................... 6
5. Redaccin de los tems....................................................................................................... 7
5.1. En forma de opiniones ............................................................................................... 7
5.2. Cuando las opiniones expresan una actitud negativa................................................. 9
5.3. tems en forma de conductas o casos ......................................................................... 11
5.3.1. Conductas o hbitos personales ....................................................................... 11
5.3.2. Conductas ajenas o casos ................................................................................. 11
5.4. tems bipolares ........................................................................................................... 11
5.5. Listas de adjetivos ...................................................................................................... 14
5.5.1. Varios adjetivos expresan el mismo rasgo o actitud ........................................ 14
5.5.2. Cada adjetivo expresa un rasgo distinto........................................................... 15
5.6. Formulacin de los tems en funcin de los componentes de las actitudes ............... 15
5.6.1. Conocimientos.................................................................................................. 15
5.6.2. Sentimientos ..................................................................................................... 15
5.6.3. Conductas......................................................................................................... 15
5.6.4. Los componentes de las actitudes y su funcin en la validacin de una escala16
5.7. Cuando el nfasis est en la medicin de valores ...................................................... 16
6. Nmero inicial de tems; nmero de tems y fiabilidad ..................................................... 17
7. Redaccin y nmero de respuestas .................................................................................... 18
7.1. Redaccin de las respuestas ....................................................................................... 18
7.2. Nmero de respuestas ................................................................................................ 20
7.3. Nmero par o impar de respuestas ............................................................................. 20
8. Preparar la clave de correccin .......................................................................................... 21
9. Preparar preguntas o instrumentos adicionales.................................................................. 21
9.1. Datos censales o sociolgicos.................................................................................... 22
9.2. Datos sobre otras variables relacionadas con lo que medimos .................................. 22
10. Obtener datos de una muestra .......................................................................................... 23
10.1. Tipo de muestra y nmero de sujetos....................................................................... 23
10.2. Cuando la muestra es muy pequea ......................................................................... 24
2 En Internet podemos encontrar buenas orientaciones para construir cuestionarios, como Frary (1996) y Fanning (2005).
3 Tambin hay investigaciones que muestran que un solo tem amplio y bien formulado correlaciona bien con instrumentos
de ms tems y ms elaborados; un ejemplo de satisfaccin laboral en Gardner, Cummings, Dunham and Pierce, 1998 (citan
adems otros ejemplos); Davey, Barrat, Burrow y Deeks (2007) en una muestra de N = 400 encuentran una correlacin de .78
entre un solo tem de ansiedad y un test completo de ansiedad (STAI, State Trait Anxiety Inventory)
2.2. Por qu construimos una escala (o un test) en vez de limitarnos a una sola pregunta.
Podemos preguntarnos por qu tenemos que construir una escala compuesta de varios tems
en vez de hacer una sola pregunta, clara y bien pensada, con un nmero de respuestas adecuado.
Tenemos varias razones para construir escalas, o simplemente para disponer de varios
indicadores del mismo rasgo. Aun en el caso de los cuestionarios sociolgicos, que no son
escalas en sentido propio, puede ser til y conveniente el disponer de varios indicadores de una
misma actitud (o de una misma variable, como nivel socioeconmico) que van a ser sumados
despus como indicadores de esa actitud o variable.
1 Con una serie de tems describimos y medimos mejor constructos relativamente
complejos.
De hecho en la vida cotidiana juzgamos sobre cmo es una persona (si tiene ms o menos
de una determinada variable, como gusto por el deporte, religiosidad, conservadurismo,
asertividad) en funcin de varios indicadores (como pueden ser diversas conductas u
opiniones referidos a la misma actitud observados en el mismo sujeto). Una nica pregunta
frecuentemente simplifica en exceso el concepto que vamos a medir.
Una analoga sobre la conveniencia de hacer varias preguntas sobre lo mismo la tenemos
en una consulta mdica. Cuando vamos a hacernos un reconocimiento, el mdico suele hacer
varias preguntas, que no son otra cosa que una serie de posibles sntomas, y no es lo mismo de
cara a un diagnstico el responder s a una de sus preguntas que responder s a todas o casi todas
sus preguntas: es ms seguro disponer de varios indicadores o sntomas de la misma posible
patologa.
2 En conjunto una medida compuesta por varios tems es ms vlida
Una medida compuesta por varios tems es ms vlida en el sentido de que expresa mejor
la actitud o rasgo al menos por dos razones:
a) Varios indicadores describen mejor un constructo, rasgo o actitud que uno solo.
b) Una nica pregunta puede de hecho ser poco afortunada, o equvoca, o ser mal
entendida por muchos o algunos sujetos.
Cuando hay varios indicadores de la misma actitud (o rasgo en general) se obvian mejor las
limitaciones de cada tem en particular. Adems una nica pregunta puede distorsionar la
informacin que el sujeto aporta de s mismo; por ejemplo uno puede definirse como muy liberal
en una nica pregunta, porque sa es la imagen que tiene de s mismo, pero puede no aparecer
tan liberal ante varias cuestiones ms especficas.
Como ya hemos indicado al decir qu entendemos por test o escala, podemos pensar en la
medida del rendimiento acadmico que quizs es un ejemplo ms claro y con el estamos ms
familiarizados: si queremos saber si un alumno sabe qumica, no le hacemos una sola pregunta
porque puede saber esa pregunta pero no otras muchas posibles preguntas, o esa pregunta puede
4 Este medir hay que entenderlo de manera analgica; en sentido propio no medimos nada porque carecemos de una unidad
propiamente dicha, sin embargo estos procedimientos funcionan razonablemente bien; una exposicin y justificacin ms amplia
de la medicin en psicologa puede verse en Morales, 2006, Cap. I.
ser de hecho ambigua o muy difcil, etc.; una serie de preguntas sobre el mismo tema o
asignatura nos da una idea ms certera sobre si sabe ms o menos. Despus de todo nuestra
conclusin y nuestro juicio no va a ser sobre si sabe o no sabe unas preguntas concretas, sino
sobre si sabe o no sabe en general; de unas pocas preguntas extrapolamos nuestras conclusiones
a otras muchas preguntas semejantes. Algo anlogo hacemos con las escalas de actitudes, tests
de inteligencia, etc.; una muestra relativamente amplia de preguntas (tems) constituye una mejor
base para formarnos un juicio ms preciso y fundado sobre cmo est una persona en un rasgo
concreto.
Este tipo de razones tiene ms peso cuando se van a tomar decisiones sobre los sujetos
(admitir o no admitir a un programa de estudios, o a un puesto de trabajo) o interesa hacer un
buen diagnstico individual.
3 Cuando hay ms tems aumenta la fiabilidad de la medida.
Por fiabilidad entendemos ahora lo que significa el trmino de manera intuitiva, sin entrar
en cuestiones de psicometra: precisin en la medida, menor margen de error. Por las razones
dichas anteriormente se minimizan las limitaciones de cada tem en particular; merecen ms
confianza varias preguntas que una sola. Un solo tem est ms sujeto a los errores de medicin
(respuestas rpidas y distradas, tems no bien entendidos), que tienden a cancelarse mutuamente
o a distorsionar el total si sumamos varios tems.
En un sentido ms psicomtrico, si disponemos de una serie de tems podemos calcular el
coeficiente de fiabilidad como veremos ms adelante (los coeficientes de consistencia interna,
como el coeficiente de Cronbach, slo se pueden calcular si el instrumento consta de varios
tems, no de uno solo). La fiabilidad puede ser alta o baja, pero eso es algo que podemos
verificar, de la misma manera que podemos analizar la calidad de cada tem.
4 Detectamos mejor las diferencias interindividuales
Una razn de peso para sumar varios indicadores del mismo rasgo es que las diferencias
entre los sujetos van a quedar ms ntidas; va ser ms fcil ordenar o diferenciar a unos sujetos
de otros; en definitiva va a aumentar la varianza. De alguna manera medir es diferenciar: un test
de inteligencia que no diferencia a los ms inteligentes de los menos inteligentes no nos sirve
para nada.
5 Detectamos con ms facilidad relaciones entre variables
El detectar diferencias es de inters en cualquier estudio o investigacin porque sin
diferencias claras es muy difcil encontrar relaciones entre variables (si el estar alto o bajo en
una variable coincide de hecho con estar alto o bajo en otra variable). De nuevo esto es
importante incluso en cuestionarios ms de corte sociolgico: diferenciamos mejor a las
personas en un determinado rasgo si disponemos de varios indicadores y consecuentemente
detectaremos mejor las relaciones de ese rasgo con otras variables.
Por la misma razn cuando utilizamos preguntas distintas para medir rasgos distintos (una
pregunta para cada rasgo, no escalas de actitudes) detectaremos mejor relaciones entre preguntas
si cada pregunta tiene varias respuestas graduadas (por ejemplo de mucho a nada) que si
solamente tiene dos respuestas (como s o no).
De los diversos tipos de escalas nos limitamos aqu a las denominadas escalas tipo-Likert.
Son las ms conocidas y se denominan as por el autor que sistematiz el proceso de
construccin (en 1932).
Figura 1
La validez (que todos los tems expresan el mismo rasgo que queremos medir) y la
fiabilidad (precisin) van a ser dos consideraciones importantes en todo el proceso, por esta
razn son conceptos que debemos tener suficientemente claros desde el principio.
5 En Morales, Urosa y Blanco (2003, captulo 1) se exponen de manera sucinta los diversos tipos clsicos de escalas
(Thurstone, Likert, Guttman, Osgood, etc.).
6 Una exposicin ms detallada de este proceso puede verse en Morales (2006), sobre todo en el captulo II, y en Morales,
Urosa y Blanco (2003). En la bibliografa indicamos otras publicaciones que orientan sobre la construccin de escalas de
actitudes y de tests en general, y tambin se enumeran una serie de obras en las que se reproducen muchas escalas e instrumentos
semejantes.
Si, por ejemplo, se desea construir una escala para medir actitud hacia el estudio, uno
puede preguntarse qu caracteriza al que tiene una actitud muy favorable o muy desfavorable
hacia el estudio tal como conceptualizamos nosotros esa actitud:
Le gusta estudiar,
Tiene un nivel alto de aspiraciones,
No confa en la suerte,
Es organizado y planifica el tiempo de estudio, etc.
A partir de esta descripcin se puede empezar a formular tems que expresen esas ideas o
las contrarias (la preparacin de los exmenes la dejo para el final, a m me basta con aprobar
el curso, etc.).
Este retrato robot ayudar a redactar los tems en torno a un plan coherente. Interesa desde
el principio asegurar la validez conceptual (que los tems midan lo que pretendemos medir) y
poder justificarla. Este retrato robot se puede pensar en funcin de opiniones con las que
previsiblemente estara de acuerdo el que tuviera una actitud muy positiva (o muy negativa), de
actividades que le gustara hacer, etc.
Puede ayudar tambin (y es conveniente hacerlo) el revisar otros instrumentos ya hechos.
Si se utiliza una escala ya hecha (o varias) como fuente de inspiracin, o se toman determinadas
ideas o tems de un autor, etc., se debe hacer constar.
Otro procedimiento es redactar los tems con la ayuda de un grupo utilizando un sencillo
brainstorming. Por ejemplo si vamos a construir una escala de satisfaccin laboral se pregunta
al grupo Con qu afirmaciones estara de acuerdo una persona muy satisfecha o muy
insatisfecha? Con este procedimiento se puede generar un nmero grande de tems y a
continuacin por votacin se pueden rechazar los tems ambiguos o se pueden reformular y
tambin se establece la clave de correccin. El anlisis de tems posterior nos dir qu tems se
pueden retener.
No hay que olvidar que las actitudes, como cualquier otro rasgo que queramos medir, se
pueden concebir en diversos grados de abstraccin, y pueden ser muy genricos (como actitud
general hacia el estudio) o muy especficos (como nivel de aspiraciones, organizacin del
tiempo, etc., o actitud hacia el estudio de un determinado tipo de materias, etc.). De manera
anloga podemos contar por separado cuntas naranjas y cuntas manzanas tenemos, o podemos
contar cuntas frutas tenemos, uniendo manzanas y naranjas.
b) Deben ser opiniones (o rasgos y conductas personales, segn lo que se desee medir) con
las que se pueda estar o no estar de acuerdo; no hechos o datos que se pueden saber o no saber,
pues no se trata de medir ciencia.
c) Deben redactarse con claridad, de manera que todos los entiendan de la misma manera
(en la medida de lo posible).
Para que las preguntas (tems) sean claras:
1 Hay que tener cuidado con expresiones negativas (como no) que pueden crear
confusin en la respuesta; se pueden incluir pero hay que prestar atencin a la
posible confusin que pueden crear en el que responde. Estos adverbios si se cree
oportuno incluirlos, pueden ir subrayados o en negrita para que el que responde
entienda bien lo que se le pregunta.
2 Expresiones universales como nunca o siempre no suelen ser discriminantes
(fcilmente las rechazan todos los sujetos), lo mismo que adverbios como solamente,
que adems pueden introducir ambigedad.
3 Deben contener una nica idea, pues cuando hay ms de una idea se puede estar de
acuerdo con una y no con la otra.
d) Deben ser discriminantes, es decir, se deben redactar los tems de tal manera que
previsiblemente unos sujetos estarn de acuerdo y otros no, o no tanto.
Para medir necesitamos encontrar diferencias; los tems que todos o casi todos acepten o
rechacen no van a contribuir a la fiabilidad de la escala y sern eliminados en el anlisis de
tems, o simplemente son intiles (porque medir es diferenciar). Adems tenemos ms garanta
de que los tems miden lo mismo (expresan el mismo rasgo) si simultneamente diferencian a los
mismos sujetos. Naturalmente verificaremos despus (en el anlisis de tems) si los tems de
hecho discriminan o no discriminan, pero ya al redactarlos debemos procurar que sean
discriminantes.
e) Cabe formular tems repetitivos, la misma idea expresada de diversas maneras;
frecuentemente una manera de decir las cosas resulta de hecho ms discriminante que otra.
Luego nos quedaremos con la formulacin que ms nos convenza si no queremos que haya
varios tems excesivamente semejantes.
Con tems muy similares se consiguen fcilmente coeficientes de fiabilidad altos, pero el
constructo queda expresado de una manera muy simple; a veces eso es lo que interesa, por lo que
no hay que sostener por principio que los tems deben ser muy variados.
f) Es preferible redactar los tems en las dos direcciones positiva y negativa, es decir, que
el estar de acuerdo con un tem unas veces manifieste una actitud favorable y otras veces
manifieste una actitud desfavorable pero sin utilizar adverbios negativos como no; por ejemplo:
En una escala de actitud hacia el estudio:
Opinin favorable hacia el estudio: Estudiar es divertido
Opinin desfavorable hacia el estudio: Estudiar es aburrido
En una escala de actitudes hacia las formas democrticas de gobierno7:
8 Las ventajas de una formulacin de los tems en ambas direcciones (favorable y desfavorable) y sin utilizar expresiones
negativas (como no) est muy investigada, por ejemplo Barnette (2000) que recomienda este formato, sobre todo para evitar la
tendencia a dar respuestas aquiescentes.
9 Un tratamiento amplio de la aquiescencia y otros problemas metodolgicos puede verse en Morales (2006)
Con frecuencia los tems ms discriminantes, los que mejor diferencian a unos sujetos de
otros son los que tienen una formulacin negativa, es decir, cuando la puntuacin ms alta
corresponde al mayor desacuerdo con la opinin expresada en el tem. Esto sucede sobre todo
cuando se trata de medir actitudes socialmente aceptables; en este caso la respuesta puede estar
condicionada por la aceptabilidad social de la actitud.
Por ejemplo, en una escala de actitudes hacia la conservacin de la naturaleza (un
constructo o actitud popular) previsiblemente casi todos los sujetos estaran de acuerdo con
tems de este estilo: es importante conservar la diversidad biolgica, es deseable hacer estudios
de impacto ecolgico antes de construir una carretera, etc. Sin embargo podemos encontrar
diferencias en tems como estos:
Los lobos estn bien en lugares acotados, donde no pueden causar daos al ganado
No se debe detener el progreso de una comarca con la excusa de proteger a unos pjaros;
En estos tems la mxima puntuacin correspondera al mximo desacuerdo. Lo que
caracteriza a estas formulaciones es que se incluye una razn o excusa para mostrar desacuerdo
aunque el objeto de la actitud tenga una valoracin social muy positiva.10
Otro ejemplo, tomado de una escala de actitudes hacia el trabajo cooperativo pensada para
profesores11. La eficacia del trabajo en pequeos grupos o equipos de alumnos est muy
comprobada experimentalmente y sobre todo en algunos mbitos acadmicos es muy popular, se
imparten seminarios o talleres para formar a los profesores en estas tcnicas y puede ser difcil
para algunos profesores manifestar (aunque sea annimamente) opiniones que van en contra (o
no tan a favor) del sentir comn. En este caso entre los mejores tems, los que ms diferencian a
unos profesores de otros (todos tienen trabajos en grupo con sus alumnos), tienen en su mayora
una formulacin negativa, que incluye alguna excusa para justificar una actitud opuesta (o
simplemente no muy favorable) al trabajo en grupo, por ejemplo:
Creo que disear actividades cooperativas lleva tanto tiempo que no compensa.
Los estudios y trabajos deben ser individuales, ya que los que se realizan en grupo slo
sirven para enfadarse con algn compaero.
Los trabajos en grupo no son un buen mtodo porque unos trabajan ms y otros menos.
Los estudios y trabajos deben ser individuales, ya que los que se realizan con compaeros
slo sirven para perder el tiempo.
Todas las excusas incluidas en los tems pueden ser razonables y ajustarse a la realidad,
pero no en la misma medida para todos y ah es donde se manifiestan las actitudes personales.
En este ejemplo especfico estos tems son tambin los que tienen mayores correlaciones con
conductas didcticas que favorecen el trabajo en grupo. En este caso las relaciones son
negativas: a mayor desacuerdo con estas opiniones, mayor disposicin a organizar trabajos en
grupo.
No hay que redactar todos los tems de esta manera (la recomendacin habitual es incluir
opiniones favorables y desfavorables) pero estas formulaciones en sentido contrario suelen ser
eficaces cuando se trata de medir actitudes sobre cuya bondad hay un gran consensus social y es
10 Estos dos tems estn tomados de una escala para medir actitudes hacia la conservacin de la naturaleza que consta
solamente de 10 tems, todos en la misma direccin desfavorable, y que discrimina muy bien (la versin completa de esta escala
en Morales (2006, Anexo XIII) y tambin en Morales (2010, Cuestionarios y escalas).
11 De la tesis de Licenciatura en Educacin y Aprendizaje anlisis de la actitud y la aplicacin de estrategias de trabajo
cooperativo de los profesores/as del Liceo Javier, Rosario Martnez, Universidad Rafael Landvar, Guatemala, 2008.
probable que las respuestas tengan ms que ver (o bastante al menos) con lo que es socialmente
aceptable que con lo que realmente sienten los sujetos que responden.
5.3. tems en forma de conductas o casos
En muchos tests de personalidad y escalas o cuestionaros para evaluar actitudes se
incluyen dos tipos de conductas:
5.3.1. Conductas o hbitos personales
Por ejemplo, en una escala de asertividad (Gismero, 1996):
Muchas veces prefiero ceder, callarme o quitarme de en medio para evitar problemas
con otras personas,
En un sencillo cuestionario para medir los enfoques superficial y profundo de aprendizaje
(Simons, Dewitte, y Lens, (2004)12.
Yo suelo estudiar subrayando lo ms importante
Yo no estudio lo que s o sospecho que el profesor no va a preguntar,
Este segundo tem (no estudio lo que no) resultara confuso si la respuesta es
simplemente s o no, pero puede ser suficientemente claro con otro tipo de respuesta (de
acuerdo, en desacuerdo).
5.3.2. Conductas ajenas o casos
Tambin cabe presentar determinadas situaciones o breves casos ante los que se puede
reaccionar de distinta manera, reflejando as actitudes y valoraciones personales, por ejemplo:
Un padre falsifica la edad de su hijo para obtener un billete a precio reducido en el
transporte pblico.
Un comprador se queda con el exceso de cambio que por error le han dado en unos
almacenes.
Las respuestas pueden expresar: valoraciones (me parece: muy bien, regular, mal, muy
mal) o probables conductas personales (yo lo hara habitualmente, ocasionalmente, nunca); en
este ejemplo las respuestas mediran el nivel tico del que responde.
5.4. tems bipolares
Otra forma de redactar los tems de una escala o un test es describir las dos respuestas
extremas (la ms favorable y la ms desfavorable). En estos tems bipolares caben varias
modalidades o estilos segn estas descripciones extremas estn ms o menos elaboradas. Un
ejemplo de descripcin ms elaborada lo tenemos en la figura 2, con dos tems adaptados de un
test que mide el ver sentido a la vida (Purpose in Life Test, de Crumbaugh y Maholic, 1969).
1. Normalmente me siento
1 2 3 4 5 6
Completamente aburrido Exuberante y entusiasta
2. La vida me parece
1 2 3 4 5 6
Excitante siempre Una rutina completa
Figura 2
En el Diferencial Semntico de Osgood se sigue el mismo procedimiento utilizando pares
de adjetivos con significado opuesto con unos cinco o siete intervalos entre los dos (figura 3):
Bueno Malo
Agradable Desagradable
Fuerte Dbil
Figura 3
Se utiliza para valorar o medir actitudes hacia cualquier objeto posible de una actitud.
Aunque los adjetivos no siempre parecen los ms adecuados siempre hay significados
connotativos que expresan sentimientos valorativos13.
Este tipo de tems se utilizan tambin en otros planteamientos de evaluacin en los que no
se trata de medir actitudes en sentido propio (figura 4).
Figura 4
El ejemplo de la figura 4 el objetivo es evaluar una experiencia de trabajo en equipo
(llevar a cabo un proyecto, Bourner, Hughes, y Bourner, 200114). En este caso concreto no se
sumaran todas las respuestas en una puntuacin total; cada par de adjetivos se analiza por
separado porque mide caractersticas distintas (se puede juzgar que ese proyecto grupal es fcil
pero tambin que es aburrido) y lo que se pretende es ver cmo los alumnos evalan este
proyecto en cada caracterstica.
13 En Morales, Urosa y Blanco (2003, pg. 36) pueden verse unos 20 pares de adjetivos con significados opuestos; en
Morales (2006, pg. 601) se utiliza un diferencial semntico de 12 pares de adjetivos para valorar el sistema democrtico de
gobierno, la suma de las respuestas al diferencial semntico tiene una fiabilidad de .935 (con N = 323 adolescentes de 13 a 15
aos) y una correlacin de .84 con una escala de actitudes hacia la democracia; Burden (2008) utiliza 30 pares de adjetivos con
significados opuestos para evaluar el clima (ethos) de la Universidad (210 alumnos de primer curso, con bastantes diferencias
estadsticamente significativas entre los sexos).
14 Este cuestionario consta de 17 preguntas, cerradas y abiertas.; se trata de un proyecto de biologa para alumnos de un
primer curso de universidad; el anlisis hecho es descriptivo (distribucin de frecuencias y porcentajes). Bsicamente el mismo
cuestionario para evaluar trabajos de grupo se encuentra en Garvin, Stefani, Lewis, Blumsom, Govier y Hill, (1995) y en Mills y
Woodall (2004).
Un ejemplo como el de la figura 4 tambin podra concebirse como una escala de actitudes
hacia los proyectos grupales (como el ejemplo de la figura 3); en ese caso habra que analizar los
tems y seguir el proceso normal de construccin de escalas de actitudes.
Otra forma de preparar los tems bipolares consiste en presentar los dos polos como dos
alternativas de las que en primer lugar hay que escoger una y a continuacin hay que indicar el
nivel de seguridad en la eleccin.
Si he hecho un buen examen
creo que se debe
Figura 5
Un ejemplo lo tenemos en los dos tems de la figura 5 con los que se pretende medir la
atribucin externa o interna del xito en un examen. Cada tem consta de dos formulaciones (A
y B), una representa una motivacin interna (A en la primera, y B en la segunda) y otra una
motivacin externa. La clave de correccin va de 4 (casi seguramente motivacin interna) a 1
(casi seguramente motivacin externa.) Puede haber pares de afirmaciones que no puntan, por
ejemplo si ponemos juntas dos motivaciones externas que se incluyen en el test o cuestionario
para camuflar algo lo que se pretende medir y facilitar respuestas sinceras. En el test original se
combinan dos atribuciones internas (estudiar mucho y con constancia e inters en estudiar
incluso lo difcil) con tres atribuciones externas (suerte, examen fcil, profesor benvolo)15.
En la figura 6 tenemos otro ejemplo parecido; lo que se pretendera medir es actitudes
ticas o una actitud de sinceridad y altruismo. La situacin que se presenta a los sujetos es la de
una entrevista para conseguir un puesto de trabajo; de las dos afirmaciones de cada tem, una
refleja una postura sincera y altruista y la otra insincera y egosta. El sujeto debe indicar 1 qu
alternativa es ms probable en l y 2 si est muy seguro de su eleccin.
1 2
Entre A y B de mi eleccin
escogera: estoy:
1. A: Halagar e intentar hacerme amigo [ ]A [ ] muy seguro
de quien me puede ayudar
B: Gastar tiempo y energas en [ ]B [ ] poco seguro
ayudar a personas que no pueden
favorecerme en nada
2. A: Decir siempre toda la verdad [ ]A [ ] muy seguro
aunque eso me pueda perjudicar
B: Callar cosas que son verdaderas [ ]B [ ] poco seguro
pero que podran dar ventaja a un
competidos
Figura 6
15 La versin original consta de nueve pares de tems de los que slo seis puntan; con N = 150 (alumnos de formacin
profesional) el coeficiente de fiabilidad es .854. Versin completa en Morales (2006, 565-568; 99-100)
16 En la versin original se presentan 15 tems de los que solamente 8 puntan; con N = 150 la fiabilidad es de a = .750; en
otra muestra con N = 50, la fiabilidad es de .82; en muestras distintas se han encontrado correlaciones pequeas pero
significativas; negativas con edad (r = -.199, los mayores son menos altruistas), y positivas con integracin familiar (r = .182) y
relativismo religioso (r = .221). Versin completa en Morales (2006, 581-587; 99-101)
17 Ejemplos de sencillos tests de personalidad en los que se mide cada rasgo por medio de una serie de adjetivos pueden
verse en Gismero (1996) y en Trechera (1997) (este ltimo reproducido en Morales, 2010, un documento sobre Anlisis
Factorial, que suele ser el procedimiento para seleccionar los adjetivos que miden el mismo rasgo).
En estos dos casos cada adjetivo es un tem, se pueden sumar las respuestas y estas listas se
analizan de la misma manera que se analiza un test o una escala de actitudes.
5.5.2. Cada adjetivo expresa un rasgo distinto.
Por ejemplo trabajador, constante, culto, artista, violento, etc. En este caso los adjetivos
se analizan de manera independiente porque no se pretende que todos expresen el mismo rasgo;
no se suman las respuestas y no se puede por lo tanto hablar con propiedad de un test o escala
aunque se trata de cuestionaros sencillos y tiles (por ejemplo para describir grupos o detectar
prejuicios).
5.6. Formulacin de los tems en funcin de los componentes de las actitudes
A veces se recomienda formular los tems de una escala con tems que reflejen los tres
componentes que suelen distinguirse en las actitudes, conocimientos, sentimientos y conductas.
Esta estrategia requiere un comentario; puede ser til pero no se puede proponer como el
procedimiento ms adecuado necesariamente para construir escalas de actitudes.
5.6.1. Conocimientos
Por conocimientos no se entiende lo que un sujeto sabe, sino lo que cree que es cierto. Esta
distincin es importante; en ningn caso se trata de conocer hechos probados y objetivamente
ciertos; un sujeto puede tener una actitud muy positiva hacia el deporte (me gusta ver deporte en
televisin) y saber muy poquito de deportes (por ejemplo quin gan un campeonato importante
el ao pasado).
Bien es verdad que una actitud positiva hacia un objeto de la actitud, por ejemplo actitud
positiva hacia el estudio de las ciencias naturales, suele ir acompaada de unos conocimientos
sobre ciencias naturales mayores de lo que puede ser normal, pero los meros conocimientos no
reflejan una actitud (uno puede saber mucho de algo porque lo ha estudiado para obtener un
buena nota en una asignatura).
Sin embargo, y si parece adecuado en funcin de la actitud que se pretende medir, unas
pocas preguntas objetivas de conocimientos (con respuestas que pueden ser objetivamente
correctas o incorrectas) pueden ser un buen complemento a (complemento a pero no parte de)
una escala de actitudes para verificar la hiptesis de que los que tienen una actitud positiva hacia
algo saben ms sobre ese algo (tambin podran utilizarse notas escolares con esta finalidad; los
que muestran una actitud positiva hacia las matemticas probablemente tienen mejores notas en
matemticas). Estos cuestionarios complementarios permiten verificar la validez de la escala (es
decir, que comprueba lo que decimos que comprueba).
5.6.2. Sentimientos
Los sentimientos entendidos en un sentido genrico (agrado, me gusta, estoy a favor de,
etc.) son posiblemente el componente formal de las actitudes (predisposicin a reaccionar a
favor o en contra) y se prestan a formular buenos tems que s reflejan la actitud del que
responde. Una simple lista de adjetivos con connotaciones valorativas positivas o negativas
(controlados en la clave de correccin, como bueno, til, aburrido, complicado, etc.) del tipo del
diferencial semntico, pueden constituir una buena escala de actitudes, aunque en este tipo de
cuestionarios (listas de adjetivos valorativos) la actitud queda expresada de manera muy simple.
5.6.3. Conductas
El componente conductual de las actitudes tambin requiere alguna matizacin y hay que
tener especial cuidado si en una escala de actitudes se formulan tems en trminos de lo que el
sujeto hace. Una actitud tiende a manifestarse en conductas; por ejemplo el que valora muy
En este caso (nfasis en los valores) es preferible especificar en las respuestas grados de
importancia ms que grados de acuerdo. Un ejemplo claro y sencillo son estos tems sobre
valores en el trabajo o qu se considera importante en el propio trabajo profesional20.
En qu medida es importante para Vd. en su trabajo
(Cinco respuestas desde muy importante a nada importante):
Ganar lo suficiente para vivir con mucha holgura
Tener aumentos salariales para mejorar mi nivel de vida
Ganar mucho dinero
El valor expresado por estos tres tems es la importancia que se da a las ganancias
econmicas en el trabajo; la suma de las respuestas a estos tres tems sera la puntuacin de cada
sujeto en este valor. En el test original se miden 15 valores (altruismo, buenas relaciones con los
dems, independencia, tener puestos de direccin, estabilidad, etc.) expresado cada uno por tres
tems que tal como se presentan en el cuestionario deben ir convenientemente separados21.
En cuestionarios ms sencillos cada tem puede representar un valor (sin sumar las
respuestas a varios tems que representan el mismo valor), como en este ejemplo en el que cada
tem expresa orientaciones o metas que uno puede buscar en su propia vida (seis respuestas de
nada importante a muy importante):22
Tener una carrera profesional muy gratificante
Poder hacer una contribucin importante a la sociedad
Tener una gran seguridad econmica
Tener en la vida un compromiso religioso serio
Ser muy rico en recursos econmicos
Aunque las respuestas en trminos de importancia se prestan a evaluar valores no siempre
que se utilizan estas respuestas en trminos de importancia se trata de valores en sentido propio.
6. Nmero inicial de tems; nmero de tems y fiabilidad
Sobre el nmero inicial de tems que deben redactarse: no hay un nmero ptimo, pero a
mayor nmero inicial de tems tendremos una mayor probabilidad de encontrar en el anlisis un
conjunto de tems definitivos con una fiabilidad suficiente. A mayor nmero de tems buenos
(que no tienen que ser muchos) tambin ser mayor la fiabilidad.
Aunque la fiabilidad suele ser mayor al aumentar el nmero de tems, no conviene asociar
automticamente el nmero de tems con la fiabilidad. En muchas investigaciones interesa medir
una serie de variables medidas cada una con pocos tems y se puede conseguir una fiabilidad
relativamente alta (.70 o ms) con escalas de entre dos y cuatro tems, sobre todo en muestras
grandes (donde cabe esperar diferencias claras entre los sujetos).
Como es comn pensar que una escala de actitudes debe tener muchos tems para que
tenga una fiabilidad aceptable, aducimos algunos ejemplos de escalas con muy pocos tems (dos
o tres) y una fiabilidad alta o al menos suficiente:
Hernndez, Espejo y Gonzlez Rom (2006) en una escala (emocional exhaustion) de tres
tems obtienen una fiabilidad de .79 en una muestra de 932 sujetos.
Seifert y OKeefe (2001): cinco escalas de tres tems (relacionadas con el estudio) cada
una con coeficientes que oscilan entre .75 y .85 (con una muestra de 512 sujetos).
Meana (2003): nueve escalas para medir otros tantos valores; cada escala est compuesta
por tres tems; tres coeficientes no llegan a .70 (.53, .55, .64) y los otros seis oscilan entre .70 y
.83 (en una muestra en torno a 650 sujetos).
Kember y Leung (2005): una serie de escalas de dos tems para medir la percepcin de
diversos aspectos de la vida acadmica; de los 26 coeficientes de fiabilidad 20 son superiores a
.75 y los dos ms bajos son de .67 y .68 (tambin con muestras grandes, ms de 1000 sujetos).
En estos casos (escalas con muy pocos tems):
a) Suelen medirse actitudes o rasgos concebidos de manera muy simple, con tems muy
parecidos unos a otros que son indicadores muy claros del rasgo que se desea medir, de manera
que el grado de acuerdo que expresen los sujetos sea muy parecido en todos los tems. Rasgos o
actitudes concebidos de manera ms rica y compleja no se expresan bien con muy pocos tems
(quedan fuera componentes de la actitud que pueden ser importantes).
b) Como vemos en los ejemplos mencionados, con pocos tems es ms fcil obtener
coeficientes altos de fiabilidad cuando las muestras son grandes.
Aun en estos casos, cuando se piensa seleccionar muy pocos tems como indicadores de un
determinado rasgo, conviene comenzar redactando ms tems de los que se piensa retener.
7. Redaccin y nmero de respuestas
7.1. Redaccin de las respuestas
Las respuestas ms habituales en las escalas de actitudes suelen expresar grado de acuerdo
con el contenido del tem, sobre todo cuando los tems expresan opiniones, pero puede haber
otro tipo de respuestas ms adecuadas a la formulacin del tem (como grado de inters, de
importancia, etc.). Algunos estilos de formular las respuestas ya las hemos visto al ver diversos
tipos de tems como los bipolares.
Respuestas tpicas en las escalas de actitudes, segn el nmero de respuestas que se
empleen, son, por ejemplo, las puestas en la figura 7.
de acuerdo en desacuerdo
de acuerdo indiferente en desacuerdo
ms bien ms bien en en
de acuerdo
de acuerdo desacuerdo desacuerdo
muy de ms bien ms bien en muy en
indiferente
acuerdo de acuerdo desacuerdo desacuerdo
muy de ms bien ms bien en en muy en
de acuerdo
acuerdo de acuerdo desacuerdo desacuerdo desacuerdo
Figura 7
Caben otros formatos en las respuestas, como utilizar nmeros especificando con palabras
el significado de los extremos (muy de acuerdo y muy en desacuerdo o expresiones equivalentes)
tal como hemos visto en el apartado sobre tems bipolares, o se pueden poner letras
especificando antes el significado (figura 8).
Figura 8
Tambin se pueden redactar las respuestas en trminos de una mayor o menor importancia,
frecuencia, etc. Es til ver modelos antes de hacer nuestra redaccin y presentacin definitiva de
la escala. A veces el poner las respuestas de una manera u otra depende del espacio disponible.
En general las diversas maneras de expresar las respuestas (todas con expresiones verbales,
o describiendo solamente las dos respuestas extremas, o utilizando nmeros, etc.) dan resultados
semejantes por lo que respecta a la validez y la fiabilidad23.
Las respuestas en trminos de frecuencia estn especialmente avaladas por la investigacin
experimental y en concreto se han propuesto las posibles respuestas indicadas en la figura 924.
Figura 9
Caben otros modos de redactar las respuestas que dependern de cmo estn redactados los
tems; en la figura 10 tenemos cuatro respuestas redactadas con cuatro estilos:
Figura 10
Tambin cabe redactar respuestas distintas ms adaptadas para tems distintos,
manteniendo en todos el mismo nmero de respuestas (figura 11)25; sobre todo con nios hay
que facilitar el que se identifiquen rpidamente con una respuesta determinada.
23 Por ejemplo, Chang, 1997, con dos muestras de 173 y 108 sujetos. La fiabilidad test-retest (la correlacin cuando se
responde al mismo test dos veces con un intervalo de al menos una semana) suele ser mayor (mayor estabilidad en las
respuestas) cuando todas las categoras de respuesta estn expresadas verbalmente (Weng, 2004, con una muestra de 1247
estudiantes universitarios).
24 La justificacin de estas categoras de respuesta, y un listado mayor, puede verse en Caadas y Snchez Bruno, (1998).
25 En Morales (2006), Anexo III est la escala completa de actitud hacia el estudio (otra escala semejante en el Anexo IV).
Figura 11
Las respuestas pueden indicarse tambin con nmeros (1= en desacuerdo, 2 = indiferente,
3 = de acuerdo, etc.) o con palabras y con nmeros, o con letras, pero siempre debe estar muy
claro para el que responde el significado de sus respuestas. En general parece preferible el
empleo de letras o mejor de palabras (al menos cuando se juzgue que los nmeros pueden
condicionar la respuesta).
Cuando se utilizan nmeros, todos deben ir en la misma direccin (muy de acuerdo
siempre tiene el valor mximo), aunque despus se inviertan estos valores en la clave de
correccin como indicamos ms adelante.
No siempre es fcil encontrar suficientes respuestas verbales bien graduadas y que tengan
un significado claro; caben, como vemos viendo, combinar nmeros y expresiones verbales; e
incluso con alguna ayuda de tipo grfico, como en el ejemplo de la figura 12 en el que tenemos
un nico tem para evaluar un programa de formacin (adaptado de Davies, 2008); para mayor
claridad se definen los extremos y se separan grficamente las reas que corresponden a una
valoracin positiva o negativa (satisfactorio y no satisfactorio).
No satisfactorio Satisfactorio
Muy mal Excepcional
1 2 3 4 5 6 7 8
Figura 12
7.2. Nmero de respuestas
El nmero tradicional de respuestas es de cinco, pero pueden ser ms o pueden ser menos.
En general, y aunque esto no sucede siempre, a mayor nmero de respuestas en los tems, suele
haber una mayor fiabilidad en toda la escala, con tal de que el nmero de respuestas no supere
la capacidad de discriminacin de los que responden. En torno a seis o siete respuestas puede
ponerse el nmero mximo, y en tres el mnimo; en cualquier caso con tres respuestas suele subir
la fiabilidad con respecto a dos nada ms. La prctica ms generalizada es poner entre 4 y 6
respuestas.
Una observacin importante es que por lo que respecta a la fiabilidad de todo el
instrumento puede ser preferible aumentar el nmero de respuestas (hasta 6, por ejemplo, o
incluso ms) en vez de aumentar el nmero de tems; el aumentar el nmero de respuestas en vez
de aumentar el nmero de tems resulta ms econmico y se responde en menos tiempo.
7.3. Nmero par o impar de respuestas
Una cuestin distinta es si se debe incluir un nmero par o impar de respuestas (con o sin
una respuesta central de indecisin). No hay normas claras sobre este punto; lo ms claro es que
son preferibles tres respuestas a dos (la fiabilidad es casi siempre mayor con tres respuestas que
con dos, y adems con slo dos respuestas los que responden pueden sentirse incmodos).
El incluir un nmero par de respuestas (4 6) tiene al menos dos ventajas.
a) En primer lugar siempre cabe la posibilidad de agruparlas en dos categoras (se hace
fcilmente con un programa de ordenador), de acuerdo y en desacuerdo, y esta agrupacin en
dos categoras puede ser til para determinados anlisis o para presentar los resultados de
manera ms sucinta.
b) En segundo lugar se elimina la posibilidad de que los sujetos se evadan escogiendo la
respuesta central (casi nunca hay verdadera indecisin si la actitud medida y los tems son
relevantes para que los que responden).
Una respuesta central del tipo indiferente, no s, indeciso, puede tener problemas de
interpretacin y no representar adecuadamente la magnitud o intensidad pretendida (punto medio
entre las respuestas extremas) porque se puede escoger por razones distintas; en general esta
respuesta central funciona mejor si verbalmente se expresa su posicin de manera explcita
(como a veces, entre los extremos nunca y siempre) (Hernndez, Espejo y Gonzlez Rom,
2006).
Figura 13
9. Preparar preguntas o instrumentos adicionales
Cuando se construye una escala de actitudes, la atencin se centra en la redaccin de los
tems, pero esto no es suficiente. Adems de la escala que se est construyendo se deben preparar
otras preguntas para obtener informacin adicional sobre los sujetos.
26 Las respuestas se pueden introducir en EXCEL por el orden en que vienen en el cuestionario (primera respuesta = 1,
segunda respuesta = 2, etc.; lo que sea ms cmodo pero sin tener en cuenta la clave); despus si se dispone del SPSS se
recodifican los nmeros en los tems que corresponda. Las opciones en el SPSS son TransformarRecodificarEn las mismas
variables.
27 Estos dos tems estn tomados de Seifert y OKeefe (2001); con un cuestionario de 15 tems miden cinco variables
relacionadas con el estudio (atribucin externa del xito, percepcin de significado, etc.; cada variable est expresada por tres
tems (que no van juntos tal como se presentan a los sujetos); en una muestra de 512 alumnos de secundaria los coeficientes de
fiabilidad de estas cinco breves escalas estn entre .75 y .85
Estos nuevos datos suelen ser de dos tipos como exponemos a continuacin.
9.1. Datos censales o sociolgicos
Estos datos suelen ser edad, sexo, ocupacin, antigedad o curso, estado civil, etc. Estas
preguntas suelen ir al comienzo del cuestionario.
Estos datos servirn para describir la muestra y tambin para hacer anlisis adicionales,
como pueden ser.
a) Exponer datos descriptivos por sexos, subgrupos, etc.
b) Comparar subgrupos en la variable medida por nuestro instrumento
c) Verificar relaciones del rasgo medido por nuestro instrumento con este tipo de datos
(edad, etc.)
d) Preparar normas de interpretacin individual (tambin denominadas baremos) como los
percentiles, para los distintos subgrupos (se pueden calcular percentiles segn edades,
sexos, etc.)28.
9.2. Datos sobre otras variables relacionadas con lo que medimos
Adems es conveniente recoger informacin adicional sobre otras variables (rasgos,
actitudes, valores, etc.) que pueden estar relacionadas con lo que queremos medir con nuestro
instrumento.
Esta informacin se puede obtener con simples preguntas, o incluso con otras escalas o
instrumentos que pueden estar ya hechos, y que los sujetos respondern al mismo tiempo para
recoger estos datos adicionales29. Ms adelante (puede verse en el ndice) presentamos
sugerencias sobre cmo recoger esta informacin.
El objetivo de estos datos adicionales es en primer lugar facilitar la comprobacin de la
validez de nuestra escala30 y responder a otras preguntas de investigacin (comparar grupos en la
actitud medida, ver con qu otras variables se relaciona, etc.).
El recoger ms o menos informacin adicional depender de la amplitud de nuestro
estudio, pero alguna informacin adicional habr que recoger porque tendr que ver en primer
lugar con la verificacin de la validez del instrumento31 y adems nos permitirn hacer otros
anlisis sin limitarnos a la mera construccin del instrumento. Estas preguntas adicionales se
suelen hacer despus de haber redactado los tems de la escala pero se pueden ir pensando desde
el comienzo del proceso. En el cuestionario que se presenta a los sujetos estas preguntas
adicionales suelen ir al final.
El obtener datos adicionales de inters es importante por varias razones:
1 El buscar ms datos hipotticamente relacionados con lo que queremos medir
contribuye a que nos hagamos una idea ms clara del rasgo o actitud que nos interesa medir.
28 Los percentiles (porcentaje de sujetos por debajo de cada puntuacin; expresan la posicin relativa del sujeto en el grupo)
son un mtodo habitual para interpretar resultados individuales pero hay otros tipos de puntuaciones que pueden resultar tiles
(explicados en Morales, 2008, cap. 3).
29 En Morales (2006, en los anexos) pueden verse numerosos ejemplos de escalas junto con preguntas adicionales de
diverso tipo (preguntas independientes, listas de adjetivos, Diferencial Semntico, etc.), para hacer estudios de validacin y otros
anlisis; tambin hay ejemplos de estas preguntas en Morales, Urosa y Blanco (2003).
30 Sobre la validez tratamos ms adelante como puede verse en el ndice.
31 Hablando con propiedad la validez no es una propiedad del instrumento, sino de las inferencias e interpretaciones que
hagamos con los datos obtenidos.
Como dijimos antes adems de pensar en un rasgo hay que pensar simultneamente en una teora
o red de relaciones de la que forma parte el rasgo que vamos a medir. Es adems mucho ms
interesante.
2 La experiencia nos dice que el recoger datos adicionales al mismo tiempo que se prueba
el instrumento en una primera muestra que puede ser ya la muestra definitiva, supone un
considerable ahorro de tiempo y esfuerzo, en vez de construir primero el instrumento, y luego,
con la versin definitiva, volver a buscar otros datos en otros sujetos.
3 Las relaciones que vamos encontrando con otras variables (cuando vamos leyendo
sobre el rasgo o actitud que queremos medir, o revisamos otros estudios y vamos preparando el
marco terico) se pueden incorporar de alguna manera al proceso de construccin del
instrumento, en el sentido de que nos pueden sugerir ideas vlidas como criterio en la misma
seleccin de los tems, en la bsqueda de muestras determinadas, etc.
4 Sobre todo el pensar en otros datos tiene que ver con la comprobacin de la validez de
nuestro instrumento y de los datos que con l recojamos.
Cuando se va a construir un instrumento, como una escala de actitudes, conviene repasar
los temas referidos a la validez y a su comprobacin. Comprobar la validez de un instrumento
tiene que ver con la comprobacin o confirmacin del significado de lo que medimos, y tambin
con su utilidad. El primer control de la validez est en la misma redaccin de los tems32.
El tener previsto desde el comienzo qu vamos a hacer para confirmar la validez de nuestro
instrumento (o al menos cmo vamos a apoyar el significado previsto o la utilidad del
instrumento) nos sugerir qu otros datos conviene recoger, y por qu.
Es til tener desde el principio una idea clara no solamente del rasgo que queremos medir,
sino tambin con qu otros rasgos puede estar relacionado ese rasgo, a qu grupos puede
diferenciar, etc. Ms que pensar en un rasgo, conviene pensar desde el comienzo en toda una
teora, aunque sea muy modesta en torno a ese rasgo (con qu otros rasgos o caractersticas de la
persona puede estar relacionado).
10. Obtener datos de una muestra
10.1. Tipo de muestra y nmero de sujetos
Una vez preparada la versin inicial del instrumento, se recogen las respuestas de una
muestra para poder hacer los anlisis correspondientes, sobre todo el anlisis de tems y el
clculo de la fiabilidad. Estos anlisis nos van a permitir dar forma al instrumento definitivo; la
primera redaccin de los tems tiene un carcter en principio hipottico; suponemos que todos
los tems redactados en primer lugar describen bien un determinado rasgo o actitud, pero esta
hiptesis hay que verificarla analizando las respuestas de los sujetos.
1. El tipo de muestra elegido debe ser semejante al tipo de poblacin con el que se piensa
utilizar despus (con nios, adultos, etc.). A mayor heterogeneidad en la muestra (pero
perteneciente a la poblacin seleccionada) obtendremos son mayor facilidad una fiabilidad alta,
pero no es legtimo forzar la heterogeneidad de la muestra en esta primera prueba.
2. Sobre el nmero de sujetos necesario: para que los anlisis tengan suficiente
consistencia y sean extrapolables a muestras semejantes, conviene que haya al menos cinco
sujetos por tem inicial (si partimos de 40 tems nos harn falta 5x40 = 200 sujetos
32 Ms adelante ampliamos todo lo referido a la validez incluyendo ejemplos sobre estas preguntas adicionales.
aproximadamente)33. Si se piensa hacer despus un anlisis factorial debe haber unos 10 sujetos
por tem y en cualquier caso no deben ser menos de 200. Con muestras ms reducidas los
anlisis pueden presentarse como tentativos que se pueden confirmar (o no) en otras muestras.
En cualquier caso siempre es preferible un nmero grande de sujetos.
10.2. Cuando la muestra es muy pequea
Los instrumento hechos con muestras pequeas (como pueden ser los alumnos de una clase
o simplemente los sujetos disponibles), lo mismo que los anlisis de tems, fiabilidad, etc., que
hagamos, pueden tambin ser informativos y tiles pero referidos solamente a la muestra que nos
ha servido para construir el instrumento. El problema est en utilizar despus este instrumento en
otras muestras (los tems que discriminan en una muestra pueden no discriminar en otras, la
fiabilidad puede variar apreciablemente, etc.).
Aun as un instrumento construido con una muestra pequea (porque es lo que queremos
hacer en un trabajo de investigacin y es suficiente para nuestros objetivos) puede convertirse en
un buen estudio piloto y hay que presentarlo as; adems tambin se pueden ir acumulando datos
y anlisis de muestras pequeas (y semejantes) hasta llegar a un nmero de sujetos apropiado y
obtener unos resultados ms definitivos y extrapolables.
A veces deseamos construir un instrumento (una escala) que vamos a utilizar en una
investigacin con una muestra necesariamente muy pequea (por ejemplo para evaluar una
terapia, una experiencia hecha con pocos sujetos, verificar un cambio en un grupo pequeo, etc.).
En estos casos puede ser aconsejable construir el instrumento con una muestra grande (por
ejemplo con 100 o 200 sujetos) de la misma poblacin, es decir, de caractersticas similares a la
que pertenecen los sujetos experimentales a los que se aplicar despus ese instrumento.
El construir con una muestra grande un instrumento que luego se va a utilizar
experimentalmente en una o varias muestras pequeas tiene adems la ventaja que se da ms
cuerpo, ms amplitud y complejidad, a una investigacin que si se limita a un grupo muy
pequeo puede quedar (o parecer) muy limitada (por ejemplo en una tesis doctoral).
10.3. Las pruebas piloto
Al construir un test o escala de actitudes a veces se aconseja probarla antes con una
muestra piloto para detectar deficiencias, corregir tems que no han funcionado bien, etc.
a) Ya hemos indicado antes que si construimos una escala con un grupo pequeo, porque
es la nica muestra disponible o es suficiente para un determinado trabajo de investigacin,
podemos considerarla como una prueba piloto y no definitiva que posteriormente se puede
probar de nuevo con oras muestras y mejorarla, pero no es en principio la mejor prctica; una
escala o test hay que analizarlo en una muestra de tamao suficiente.
b) Como criterio general las pruebas piloto pueden ser una prdida de tiempo y de
recursos. Esto hay que valorarlo racionalmente, pero para analizar una escala hace falta una
muestra suficientemente grande que puede ser ya la muestra definitiva. Analizamos los tems,
prescindimos los que no funcionan bien y la misma muestra es a la vez la muestra piloto y
tambin la definitiva con la que hacemos todos los anlisis.
c) Una cuestin distinta es que una versin provisional de la escala y de todo el
instrumento lo revisen o respondan un nmero pequeo de sujetos para detectar fallos en la
redaccin de los tems, verificar que todo se entiende bien, etc.; esto s se puede recomendar,
pero sin entrar en los anlisis que solamente se deben hacer en muestras suficientemente
grandes.
A esta revisin de los tems por parte de un pequeo grupo (con frecuencia denominados
expertos) se le llama a veces validar la escala, pero esta expresin es equvoca; una escala o un
test no es vlido simplemente porque lo han revisado unos expertos; la validez se confirma con
estudios experimentales; s se puede hablar de una validacin previa de tipo conceptual, como
parte del proceso de validacin o de asegurar que en principio el instrumento mide lo que se
pretende.
10.4. Cuando algunos sujetos omiten la respuesta a algunos tems
Un problema que puede surgir es cuando los sujetos omiten su respuesta a algunos tems.
Hay varios procedimientos para sustituir estos valores que faltan y que ms o menos dan los
mismos resultados. De estos procedimientos el que parece ms sencillo y recomendable consiste
en sustituir los valores que faltan por el valor de la respuesta media del sujeto34. Tambin, y si
no hay una prdida grande de sujetos, se puede prescindir de los sujetos que omiten alguna
respuesta35.
Otra solucin propuesta es utilizar como puntuacin total de todos los sujetos no la suma
de sus respuestas a todos los tems, sino la media, dividiendo la suma de las respuestas por el
nmero de tems que ha respondido cada uno. Es decir, no se utiliza la media de los tems
respondidos para sustituir las omisiones, sino que esta media calculada para cada sujeto es el
total (en vez de la suma) de cada sujeto que se utiliza en el resto de los anlisis (para calcular
medias, desviaciones, anlisis de tems, correlaciones, etc.) (Bortz y Dring 2006, p.224;
Wuensch, 2006).
Por ejemplo: si un sujeto en una escala de 4 tems responde solamente a tres tems (por
ejemplo responde 3, 3 y 4 a tres tems) y omite la respuesta a un tem, la media de los tres tems
respondidos sera 3.33 (= 3+3+4/3); este 3.33: solucin 1 se pone como respuesta al tem
omitido, o solucin 2 se utiliza esta media como el total de este sujeto y se hace lo mismo con
todos los dems sujetos aunque hayan respondido a todos los tems.
Como criterio general parece preferible la solucin 1 (utilizar la media individual para
sustituir las omisiones) porque la prctica ms habitual es sumar a cada sujeto todas sus
respuestas y as se facilita la comparacin con las medias de otros grupos que son calculadas
habitualmente a partir de los totales de todos los sujetos36.
Los tems no respondidos por algunos sujetos pueden ser ms problemticos cuando no
podemos suponer que la omisin de respuestas es aleatoria, por ejemplo si un determinado tipo
de sujetos no responde a determinadas preguntas. En este sentido las respuestas omitidas pueden
ser mayor problema en los cuestionarios sociolgicos o en las preguntas sobre caractersticas
personales que tambin suelen incluirse en tests y escalas aunque no como tems de la escala
(como podra suceder con preguntas de identificacin tnica o pertenencia a determinados
34 Qu hacer cuando algunos sujetos no responden a algunos tems puede verse tratado e investigado (precisamente en
escalas de actitudes tipo Likert) en Dodeen (2003) quien recomienda poner la respuesta media del sujeto (su total dividido por el
nmero de tems que ha respondido) en lugar de las respuestas omitidas.
35 En cualquier caso si se van a hacer anlisis con EXCEL (no con el SPSS) no puede haber casillas en blanco; es necesario
que todos respondan a todo y hay que prescindir de los sujetos que omiten algn tem (o sustituir la respuesta omitida por su
respuesta media).
36 Cualquier media calculada dividiendo la suma total por el nmero de tems nos da la media por tem, pero no sucede lo
mismo con la desviacin tpica. El calcular la media por tem es sin embargo til para hacer grficos ilustrativos que permiten
comparar grupos intuitivamente (o un mismo grupo en varias variables) independientemente del nmero de tems de cada
variable o instrumento.
37 SPSS son las siglas de Statistical Package for the Social Sciences.
38 Un tratamiento ms amplio de la fiabilidad de tests y escalas en Morales (2008, captulo 6).
sujetos ms distintos en lo que estamos midiendo. No se puede ordenar o diferenciar bien a los
muy semejantes. Tambin, y por la misma razn, el mismo instrumento aplicado a la misma
muestra despus de un proceso puede tener una fiabilidad menor porque la muestra se ha hecho
ms homognea en funcin de ese proceso.
La fiabilidad en sentido propio no es una propiedad del instrumento sino de los datos
recogidos en una muestra y debe calcularse en cada nueva muestra, y, como hemos indicado, la
fiabilidad ser mayor en la medida en que la muestra sea ms heterognea en el rasgo medido.
11.2. Anlisis de tems
Los tems, tal como los hemos redactado, constituyen una definicin operativa, provisional
e hipottica, del rasgo que vamos a medir. Ahora tenemos que comprobar si cada tem, supuestos
los controles lgicos iniciales (los hemos redactado para que midan el mismo rasgo) mide lo
mismo que los dems, y por lo tanto es sumable en una puntuacin total que supuestamente mide
el rasgo y que es la que despus interpretamos y utilizamos. Esta comprobacin la hacemos en
cada tem mediante el denominado anlisis de tems.
Lo que queremos comprobar es si las respuestas tienden a covariar, es decir, si los sujetos
tienden a responder de manera coherente, de manera que podamos deducir que todos los tems
expresan el mismo rasgo. En definitiva comprobamos si los tems tienden a diferenciar a los
sujetos, si discriminan adecuadamente.
Los procedimientos que podemos utilizar para analizar los tems son dos, la correlacin
tem-total y el contraste de medias de los grupos extremos. Con ambos mtodos llegaremos a
resultados muy parecidos.
11.2.1. Correlacin tem-total
Propiamente no se trata de la correlacin de cada tem con el total, sino de la correlacin
de cada tem con la suma de todos los dems (o correlacin de cada tem con el total menos el
tem) que tambin suele denominarse correlacin tem-total corregida. Lo que deseamos
comprobar es en qu medida el puntuar alto en un tem supone de hecho obtener un total alto en
el resto de la escala (en todos los dems tems).
Estos coeficientes de correlacin deben ser al menos estadsticamente significativos (o
distintos de cero en la poblacin). Los tems con una mayor correlacin con el total (o suma de
todos los dems) son los que en principio tienen ms en comn y por lo tanto podemos suponer
que miden lo mismo que los dems. Los tems con correlaciones no significativas o muy bajas
con respecto a las de los otros tems, los eliminaremos de nuestra escala porque no miden
claramente lo mismo que los dems.
Si se calcula la correlacin de cada tem con el total (y no con el total menos el tem
analizado), que es lo ms sencillo con una hoja de clculo como EXCEL, hay una frmula que
convierte esta correlacin tem-total en la correlacin tem-total menos el tem, que es la que nos
interesa, pero este procedimiento es laborioso39.
Suponemos que habitualmente utilizamos el programa SPSS, que nos da para cada tem la
correlacin tem-total (menos el tem) y la fiabilidad de todo el test o escala si suprimimos ese
39 Esta frmula la tenemos en Morales, 2008, cap. 5, apartado 4.3. Con EXCEL lo que es sencillo es calcular la correlacin
tem-total sin restar al total cada tem, por lo que estas correlaciones sern algo mayores, sobre todo si los tems son pocos. En la
matriz de datos (filas sujetos, y columnas tems) aadimos una ltima columna con la suma de todos los tems; en la matriz de
correlaciones tendremos en la ltima fila la correlacin de cada tem con el total. Aun as con este procedimiento (sugerido por
Trochim, 2006) todava nos faltara calcular el coeficiente de fiabilidad; en conjunto y para construir escalas de actitudes y tests
en general, es preferible utilizar el programa SPSS.
tem y se puede apreciar rpidamente qu tems se pueden eliminar para que suba la fiabilidad.
Esta informacin es til y acelera el proceso, pero hay que tener presentes otras consideraciones:
En la tabla 1 tenemos un ejemplo de la informacin que nos da el SPSS.40. En este caso se
trata del anlisis de una breve escala de autoeficacia materna (Zurdo-Garay, 2010)41.
La informacin que nos da el SPSS la vemos en esta tabla: la media y la varianza de toda
la escala si suprimimos un tem, la correlacin de cada tem con la suma de todos los dems (eso
significa correlacin elemento-total corregida) y la fiabilidad de la escala si suprimimos el tem.
Adems nos da la informacin descriptiva de cada tem (si la pedimos; media y desviacin) y la
fiabilidad de toda la escala, con todos los tems iniciales (nueve tems en este ejemplo); la
fiabilidad de la escala formada por estos 9 tems es = .677.
40 Una explicacin detallada sobre cmo utilizar el SPSS en la construccin de escalas puede verse en Morales, Urosa y
Blanco (2003). El SPSS nos da hecho el anlisis de tems (correlacin tem-total), la fiabilidad de toda la escala y la fiabilidad si
suprimimos cada tem. Las opciones en el men del SPSS para el anlisis de tems y el clculo de la fiabilidad son
AnalizarEscalasAnlisis de Fiabilidad
41 De la tesis doctoral (en preparacin, Universidad Pontifica Comillas, Madrid) de Mara Mercedes Zurdo Garay
Gordovil Determinantes emocionales y cognitivos de la conducta de apoyo materna. Estudio comparativo de madres con hijos
que presentan o no problemas de rendimiento escolar de zona alto andina del Departamento de Cusco (Per)
42 Ya hemos indicado que es til calcular la correlacin entre los dos subtotales (sumando por separado las respuestas a los
tems positivos y negativos); si la correlacin est en torno a .50 podemos excluir el influjo de la aquiescencia en las respuestas.
11.2.2. Contraste de medias en cada tem de los dos grupos con puntuaciones mayores y
menores en el total de la escala.
El procedimiento anterior es el que ahora se hace habitualmente con el SPSS. Si no
disponemos del programa adecuado hay un procedimiento que aporta una informacin
semejante. Aunque suponemos que los anlisis los haremos habitualmente con el SPSS, no sobra
indicar cmo llevar a cabo el anlisis de tems con el otro procedimiento porque adems ayuda a
comprender lo que estamos haciendo43. Consiste en comparar en cada tem el 25% con
puntuacin total ms alta con el 25% con puntuacin total ms baja44.
Para llevar a cabo este anlisis:
1 Ordenamos a los sujetos de ms a menos, segn el total obtenido en toda la escala, y
seleccionamos dos subgrupos: grupo superior, el 25% con total ms alto, y grupo
inferior, el 25% con puntuacin total ms bajo; el 50% central no entra en este anlisis.
2 Calculamos la media y la desviacin tpica en cada tem de cada uno de los dos grupos,
superior e inferior;
3 Contrastamos las medias de estos dos grupos mediante la t de Student.
Lo que esperamos es que el 25% con una puntuacin total superior tenga una media
significativamente ms alta en cada tem que el 25% inferior. Podremos en este caso concluir
que los tems que simultneamente diferencian a los mismos sujetos estn midiendo lo mismo.
Prescindiremos de los tems que no discriminan (valores de t no significativos), y si son muchos
o demasiados los que discriminan (y esto sucede con frecuencia), podemos quedarnos con los
ms discriminantes; siempre hay tems mejores que otros en trminos relativos.
En la eleccin definitiva de los tems pueden intervenir adems otros criterios, como ya
hemos indicado y explicamos despus con ms detenimiento, pero en cualquier caso debe estar
claro su poder discriminatorio que a su vez nos confirma que los tems miden bsicamente lo
mismo.
Para hacer estos anlisis conviene disponer los datos de manera clara y tener a la vista
algn modelo como el de la tabla 3 (no hay un modo nico de presentar los datos).
En este ejemplo (ficticio y con resultados muy exagerados, tabla 2) de un total de 40
sujetos (nmero muy bajo para construir una escala de actitudes si se tratara de un caso real)
comparamos las respuestas de los 10 sujetos (25%) con totales ms altos y con los 10 sujetos
(25%) con totales ms bajos. Tambin es til calcular la media y la desviacin tpica de cada
tem en toda la muestra; las desviaciones tpicas de los tems en toda la muestra nos harn falta
despus para calcular la fiabilidad (si no utilizamos el SPSS).
Tambin se podran poner como ejemplos correlaciones tem-total, pero el contraste de
medias de los grupos extremos resulta ms grfico y es muy fcilmente comprensible.
43 Este procedimiento de anlisis de tems puede ser especialmente til en situaciones didcticas y con un ejemplo real en el
que los participantes han generado los tems.
44 Este anlisis se puede hacer fcilmente con una hoja de clculo tipo EXCEL; en Morales, Urosa y Blanco (2003) tambin
se explica cmo hacerlo con el SPSS, pero si se dispone del SPSS es preferible el mtodo anterior (correlacin tem-total).
tem 5 4 3 2 1 M M-M
N 1 25% Sp || (2) ||||| (5) ||| (3) 3.9 2.50
25% Inf | (1) || (2) ||||||| (7) 1.4 t = 1.79
p<.001
Tabla 3
45 El autor del procedimiento (Likert) recomienda y utiliza el contaste de medias, pero en su poca no se dispona de los
programas de ordenador con los que contamos hoy da.
k i2
= 1 2
k 1 t
En esta frmula k es el nmero de tems, i es la desviacin tpica de cada tem (hay que
sumar las varianzas o desviaciones tpicas de los tems elevadas previamente al cuadrado) y t es
la desviacin tpica de los totales.
La frmula es muy laboriosa (aunque puede quedar facilitada utilizando EXCEL) y ms
todava si tenemos que calcular la fiabilidad con distintas combinaciones de tems, pero estamos
suponiendo que para construir escalas utilizamos el programa SPSS.
Si no disponemos del SPSS una alternativa ms sencilla al clculo del coeficiente (que
en principio es el preferible) es utilizar alguna de las frmulas basadas en la particin del test o
escala en dos mitades. Para calcular estos coeficientes haremos lo siguiente:
1 Al corregir la escala a cada sujeto se le calculan dos puntuaciones totales, una en los
tems pares y otra en los tems impares (y la suma de los dos subtotales ser el total de
cada sujeto);
2 Despus se calcula la correlacin entre las dos mitades pues esta correlacin entra en
estas frmulas de la fiabilidad basadas en la particin del test en dos mitades46.
Conviene repasar en otro lugar todo lo referente a estas frmulas; en principio es preferible
utilizar las frmulas del coeficiente de Cronbach o Kuder-Richardson 20.
11.2.4. Cmo estimar la fiabilidad en una nueva muestra a partir de la fiabilidad conocida
en otra muestra y de las desviaciones de las dos muestras.
Entre las muchas frmulas en torno a la fiabilidad hay una que no es especialmente
laboriosa y puede ser ocasionalmente muy til cuando utilizamos un test o una escala ya hecha
(no necesariamente de confeccin propia) y utilizada en otros estudios. Cuando utilizamos una
escala ajena y ya probada en otras muestras (normalmente localizada en algn estudio publicado)
solemos encontrar el coeficiente de fiabilidad calculado en esa otra muestra, adems de otros
datos descriptivos, como la media y la desviacin tpica de los totales de la escala.
Como la magnitud de la fiabilidad depende de la heterogeneidad de la muestra (aunque no
se trata de una relacin sistemtica) conociendo la fiabilidad y la desviacin tpica encontradas
en otra muestra y conociendo tambin la desviacin tpica encontrada en nuestra muestra (que
podemos calcular sin problema en EXCEL) podemos estimar la fiabilidad aproximada en nuestra
muestra mediante esta frmula (Guilford y Fruchter, 1973:420; Morales, 2008:231):
o2 (1 roo ) rnn = fiabilidad estimada en la nueva muestra
rnn = 1 o y roo = desviacin tpica y fiabilidad ya calculadas
n2
(observadas) en una muestra
n = desviacin tpica en la nueva muestra (en la que
deseamos estimar la fiabilidad)
46 Hay varias frmulas de la fiabilidad basadas en la particin del test en dos mitades (en Morales, 2008, cap. 6) y conviene
revisarlas antes de escoger una, pero en cualquier caso siempre es preferible calcular el coeficiente de Cronbach.
Por ejemplo, si en una escala de actitudes hemos obtenido en una muestra (o hemos visto
publicada en otro lugar esta informacin) una desviacin tpica de 6.86 y una fiabilidad de =
.78 qu fiabilidad podemos esperar en otra muestra cuya desviacin tpica vemos que es 7.28?
Aplicando la frmula anterior de la fiabilidad estimada en nuestra muestra, tendramos:
6.68 2 (1 .78)
= 1 = .8147
7.28 2
Bien entendido que hay que presentar este coeficiente como una estimacin de la fiabilidad
en la nueva muestra.
11.2.5. Cundo un coeficiente de fiabilidad es suficientemente alto
No hay un valor ptimo de referencia; como orientacin podemos decir que en torno a .70
podemos considerarlo aceptable; es un valor muy habitual (Schmitt, 1996), es el mnimum
recomendado por Nunnally (1978:245-346) pero valores en torno a .60 son tambin aceptables.
Con valores muy inferiores (hasta .50) podemos utilizar el instrumento en trabajos de
investigacin (Schmitt, 1996; Guilford, 1954:388-389)47.
Para dar informacin fiable a cada sujeto deben ser bastante ms altos (en torno a .80)
porque baja el error tpico o margen de oscilacin entre ocasiones o medidas semejantes. Un
coeficiente de fiabilidad relativamente bajo puede ser problemtico para hacer diagnsticos
individuales. En definitiva no hay un valor mnimo sagrado para aceptar un coeficiente de
fiabilidad como adecuado y medidas con una fiabilidad relativamente baja pueden ser muy tiles
en trabajos de investigacin.
Cuando la fiabilidad obtenida nos parece baja (y siempre que lo estimemos oportuno)
podemos obtener otro tipo de informacin complementaria derivada del coeficiente de fiabilidad.
a) A partir del coeficiente de fiabilidad y de la desviacin tpica obtenida podemos calcular
el error tpico o margen de oscilacin probable de las puntuaciones individuales. De cada sujeto
la informacin ms razonable (sobre todo para tomar decisiones) no es la puntuacin obtenida de
hecho, sino entre qu lmites probables mximo y mnimo (intervalos de confianza) podemos
estimar que se encuentra48. Este margen de error es menor cuando la fiabilidad es mayor. En
situaciones de diagnstico y orientacin individual una baja fiabilidad podemos obviarla
calculando esos mrgenes de error; la informacin es ms imprecisa pero tambin ms segura.
b) Cuando calculamos correlaciones entre variables estas se ven afectadas por la baja
fiabilidad de los instrumentos pero siempre podemos estimar cul sera el valor de la correlacin
si la fiabilidad fuera ptima49.
47 Gmez Fernndez (1981) cita coeficientes inferiores a .50 en la versin espaola de un test de Cattell; los tests de
personalidad de Cattell suelen medir rasgos concebidos a un nivel muy complejo. Cattell no considera una fiabilidad muy alta
como deseable porque implica una simplicidad que juzga excesiva en la concepcin del rasgo (tems muy repetitivos) aunque
naturalmente este nivel de complejidad o simplicidad depende de lo que el autor del instrumento quiere medir y hacer.
48 Las frmulas del error tpico de la medida (de las puntuaciones individuales), los intervalos de confianza y su
interpretacin en Morales (2008, cap. 6).
49 Las frmulas adecuadas (denominadas corregidas por atenuacin) pueden verse en Morales, 2008, cap. 5 y no deben
utilizarse con muestras inferiores a unos 300 sujetos.
con distintos subconjuntos de tems para quedarnos finalmente con la seleccin de tems que ms
nos convenza como versin definitiva de nuestro instrumento.
El proceso, como vamos viendo, es ste:
1 Calculamos el coeficiente de fiabilidad con todos los tems iniciales;
2 Vamos eliminando los peores tems y volvemos a calcular la fiabilidad y as
sucesivamente hasta que nos quedamos con el conjunto de tems que nos da la mayor
fiabilidad.
3 Cuando al eliminar tems vemos que baja la fiabilidad, en principio damos por
terminado el trabajo de construccin de la escala; nos quedamos con el subconjunto de
tems que forme una escala con una fiabilidad ptima. Decimos en principio porque
caben otras consideraciones en la seleccin definitiva de los tems.
Los tems los vamos suprimiendo de uno en uno, o en pequeos bloques. No se trata de un
proceso totalmente mecnico, pues como comentaremos despus, pueden entrar otras
consideraciones en la eleccin de los tems, pero los tems que vamos reteniendo deben ser tems
que correlacionan bien con el total (o que diferencian bien a los sujetos en los grupos extremos).
En cualquier caso la norma de retener el subconjunto de tems que nos de una mxima fiabilidad
es vlida en principio, aunque siguiendo este criterio de manera muy literal no obtendremos
necesariamente el mejor instrumento posible, por eso veremos en otro apartado otros criterios
complementarios para elegir los tems.
Como vamos a calcular la fiabilidad con distintas combinaciones de tems, es til ir
dejando constancia del proceso, tal como aparece en la tabla 4; es una informacin til que
adems se puede presentar en un trabajo de investigacin o en una tesis.
nmero desviacin fiabilidad
tems en las versiones sucesivas media
de tems tpica
Todos los tems
Eliminamos tems n
Eliminamos tems n
Eliminamos tems n
Tabla 4
En vez de poner en la primera columna los tems que eliminamos, podemos poner los que
retenemos.
Tambin cabe seguir el procedimiento inverso, recomendado por algunos autores y que
puede ser preferible. En vez de ir eliminando progresivamente los tems que menos discriminan,
podemos seguir el proceso inverso.
1 Calculamos la fiabilidad con el subconjunto de tems que ms discriminan (mayor
correlacin con el total o mayor diferencia entre los grupos extremos).
2 Aadimos unos pocos tems, los ms discriminantes de los que nos quedan, y volvemos
a calcular la fiabilidad.
3 Damos la tarea por terminada cuando la fiabilidad empieza a bajar o simplemente no
sube de manera apreciable.
Con este procedimiento nos quedar normalmente una escala ms breve, sobre todo si
partimos de muchos tems. Los tems se pueden ir aadiendo de uno o en uno, o de cinco en
cinco, o en pequeos bloques de tems de discriminacin parecida. Como antes, se pueden tener
tambin criterios ms conceptuales, para que nos quede un instrumento equilibrado y a nuestro
gusto.
tratamos de manera especfica) suele utilizarse el anlisis factorial, que adems puede ser un
buen mtodo complementario para seleccionar los tems50.
f) Como estamos tratando del anlisis de tems y de la fiabilidad como criterios (no nicos)
de calidad, no debemos olvidar que aunque es verdad que en general a mayor nmero de tems
tendremos una mayor fiabilidad, tambin es verdad que con ms respuestas en los tems tambin
aumenta la fiabilidad.
12. Otras consideraciones en torno a la eleccin de los tems definitivos
Ya hemos indicado que todo el proceso (calcular la fiabilidad con diversos conjuntos de
tems) se hace fcilmente con un programa como el SPSS, pero la decisin sobre qu tems hay
que ir excluyendo (o incluyendo) supone tambin valoraciones racionales; las soluciones
automticas que nos puede dar un programa de ordenador no son necesariamente las mejores.
Por eso concretamos aqu algunas orientaciones ms especficas.
En la eleccin de los tems de la versin definitiva de la escala, el valor la correlacin
tem-total es importante pero supuesto un valor significativo y alto (alto en trminos relativos),
pueden entrar otros criterios en la eleccin de los tems (incluso aunque baje algo la fiabilidad
de toda la escala), como los que exponemos a continuacin.
1 Equilibrio entre tems positivos y negativos
Podemos incorporar un nmero ms o menos igual de tems favorables y desfavorables al
objeto de la actitud (con la clave de correccin controlamos que todas las respuestas se puedan
sumar: el mximo acuerdo en unos tems ser equivalente al mximo desacuerdo en otros tems).
Esta es una buena prctica como ya indicamos al principio al tratar de la redaccin de los
tems, porque con tems en las dos direcciones se controlan mejor las respuestas aquiescentes, y
adems el constructo suele quedar mejor expresado. Lo que no es tan fcil ni frecuente es que en
la edicin final haya un nmero de tems idntico en cada direccin (tampoco es especialmente
necesario).
Si tenemos un nmero de tems aproximadamente idntico en ambas direcciones
(favorables y desfavorables a la actitud medida) es til calcular a cada sujeto dos puntuaciones
parciales sumando por separado ambos tipos de tems, y calcular despus la correlacin entre
estas dos subescalas o totales parciales; si esta correlacin es del orden de .50 tenemos una
garanta razonable que ambos tipos de tems miden lo mismo y que no est operando la
aquiescencia (tendencia a responder preferentemente de acuerdo a cualquier tem).
2 Cuidar ms la representatividad del contenido de las formulaciones de los tems
En le seleccin definitiva de los tems que van a conformar nuestra escala, podemos buscar
una homogeneidad conceptual ms ntida. Quizs veamos, por ejemplo, que al eliminar dos
tems que discriminan poco, nos sobra un tercer tem que s discrimina y que incluye la misma
idea que los dos eliminados, pero el conjunto de la escala puede quedar muy desequilibrado en
cuanto al significado global. Todo esto puede depender de apreciaciones personales; siempre hay
que tener claro que es importante la interpretabilidad de los datos en funcin de un rasgo o una
actitud bien definida (aunque un rasgo se puede definir bien de manera muy genrica o compleja
y tambin de manera muy especfica).
Un ejemplo posible: en una escala de actitud general hacia el estudio incluimos cuatro
tems en torno a la idea de competitividad (y otros tres cuatro en torno a otras ideas: motivacin
50 Ejemplos de anlisis factoriales de diversas escalas e instrumentos en Morales (2009), un documento sobre el anlisis
factorial en la confeccin de escalas.
interna, gusto por aumentar los propios conocimientos, etc.). Si dos o tres de estos tems sobre
competitividad no discriminan en el conjunto de la escala, puede ser preferible no incluir en la
escala la idea de competitividad (aunque baje algo la fiabilidad) y medirla de otra manera si nos
interesa, con otro instrumento o con unas preguntas adicionales. Nos quedar un concepto de
actitud hacia el estudio con un significado ms restringido pero ms claro que el que
buscbamos en primer lugar.
3 Incluir de manera equilibrada aspectos distintos (subescalas) del mismo rasgo general
Tambin nos puede interesar que estn representadas con idntico nmero de tems (o en
nmero suficiente) ideas que reflejan matices distintos (subrasgos) dentro del rasgo general. En
ocasiones un instrumento, adems de medir un rasgo general, se puede subdividir en subescalas
para medir por separado aspectos distintos. Un instrumento que mida, por ejemplo, autoestima o
asertividad, etc., se puede dividir en subescalas que midan por separado aspectos distintos de la
autoestima o de la asertividad. En este caso tanto las subescalas como la escala formada por
todos los tems, deben tener una fiabilidad aceptable. Si se pretende construir un instrumento de
este estilo, es til estudiar las posibilidades del anlisis factorial como ya se ha indicado; este
tipo de escalas suelen denominarse escalas factoriales.
4 Incorporacin de nuevos tems
Cuando con pocos tems que en principio nos convencen porque expresan bien lo que
deseamos medir, no alcanzamos una fiabilidad adecuada, podemos acudir a las frmulas que nos
dicen cuntos tems del mismo estilo (de formulaciones parecidas) deberamos aadir para
alcanzar una fiabilidad determinada51. Tambin puede suceder que algunos de los tems
eliminados en el anlisis, y que conceptualmente nos parecen adecuados, simplemente no estn
bien formulados y podemos intentar una redaccin nueva.
5 Preparacin de dos versiones, corta y larga, de la misma escala
Con frecuencia podremos observar que un nmero reducido de tems nos da una fiabilidad
aceptable. Puede ser interesante hacer dos versiones, una la versin normal o larga, y otra breve,
quizs con una fiabilidad menor, pero apta para muchos de los usos de estos instrumento.
Podemos verificar qu fiabilidad obtenemos seleccionando solamente los mejores tems, que
pueden ser muy pocos (cinco o seis, por ejemplo).
Estas versiones breves suelen ser tiles como instrumentos complementarios en
investigaciones en las que el nfasis o el inters del investigador est en otro rasgo distinto, pero
le interesa adems medir otras variables con suficiente precisin utilizando instrumentos breves
y econmicos.
6 Explicacin o redefinicin del rasgo medido por nuestro instrumento
En esta observacin no nos referimos a la seleccin definitiva de los tems, sino a las
consecuencias de esta seleccin. A veces, y a la vista de los tems que han sido retenidos en la
escala definitiva, habr que redefinir lo que pretendemos medir o al menos explicarlo
adecuadamente aunque se mantenga el nombre del instrumento.
Los trminos para designar los rasgos suelen ser muy genricos, y de hecho instrumentos
con el mismo nombre (como actitud hacia el estudio, autoestima, etc.) pueden no coincidir en lo
que de hecho miden, que puede ser definido con unos lmites ms amplios o ms ajustados.
Podemos comenzar, por ejemplo, construyendo una escala de actitud hacia el estudio, pero al
51 Estas frmulas que relacionan la longitud de un test y su fiabilidad suelen encontrarse en textos en los que se trata de la
fiabilidad de manera ms especfica y en Morales, Urosa y Blanco (2003).
eliminar una serie de tems y fijarnos en los que nos quedan, puede ser preferible hablar de nivel
de aspiraciones, o de constancia en el estudio, etc. (lo que de hecho vemos estemos midiendo
con los tems seleccionados). Al menos debe quedar explicado de alguna manera.
13. Comprobacin de la validez y otros anlisis posteriores
Una vez que tenemos ya la versin definitiva de la escala, se hacen los dems anlisis
segn los datos de que dispongamos.
a) Se pueden calcular datos descriptivos (medias y desviaciones) de las diversas
submuestras si las hay,
b) Podemos construir baremos o normas de interpretacin de los resultados individuales
(como los percentiles, estaninos, u otro tipo de puntuaciones)52.
c) Se pueden comprobar diferencias entre grupos, correlaciones con otras variables, etc.;
segn los datos que hayamos obtenido simultneamente; o podemos pasar la escala a
muestras nuevas obteniendo a la vez otros datos que nos permitan hacer ms anlisis.
d) Sobre todo podemos comprobar de manera ms especfica y planificada la validez del
nuevo instrumento con los datos obtenidos simultneamente (o ya en estudios
posteriores y con otras muestras, pero esto es ms laborioso)53.
La confirmacin de la validez ms que un clculo es un proceso; los llamados coeficientes
de validez son simples correlaciones con un determinado criterio que no confirman
necesariamente la validez de un instrumento, sino una interpretacin especfica de los datos
obtenidos con ese instrumento; (hablar de coeficientes de validez es un tanto equvoco; no hay un
coeficiente de validez anlogo a los coeficientes de fiabilidad).
No tratamos aqu de manera especfica sobre la validez, pero es til recordar ahora algunas
ideas bsicas sobre la validez y cmo confirmarla. No hay una prueba de validez en sentido
estricto, pero s podemos tener datos que apoyen una determinada interpretacin o avalen la
utilidad del instrumento.54
La validez de un instrumento no se prueba de manera categrica, pero s se van
acumulando datos que van aclarando y ampliando el significado de lo que medimos viendo con
qu otras variables se relaciona, etc.; en expresin Cronbach (1971) validar es investigar.
Cuando se construye un instrumento (una escala) para hacer una determinada investigacin
(como una tesis), la misma investigacin ya suele aportar informacin sobre la validez del
instrumento.
Una visin de conjunto de lo que entendemos por validez y de los modos de comprobarla
est resumida la figura 14.
52 Cmo construir estas normas de interpretacin en Morales (2008, cap. 4, Tipos de puntuaciones individuales).
53 Ya indicamos al comienzo, al explicar el proceso de construccin de una escala (figura 1) que adems de redactar los
tems conviene pensar en preguntas adicionales.
54 Sobre la validez las normas de la American Educational Research Association (A.P.A.) dicen que la validez se refiere al
grado en el que la evidencia y la teora apoyan (support) las interpretaciones de los tests de acuerdo con el uso que se va a
hacer de estos tests.
Figura 14
Con los estudios de validacin pretendemos, sobre todo, dos finalidades (que se apoyan
mutuamente):
1 Confirmar el significado previsto de la variable (de la actitud o rasgo) que pretendemos
medir (validez de constructo). Es el significado ms habitual de validez aplicado a tests y
escalas.
Se trata de verificar que la interpretacin es correcta. Si, por ejemplo, decimos que estamos
midiendo actitud hacia el estudio, verificamos que es eso, y no otra cosa. En las respuestas
pueden influir otras variables, como pueden ser el deseo del que responde de presentar una
buena imagen de s mismo, capacidad lectora, etc.; por esos necesitamos o es conveniente una
verificacin experimental. Este tipo de validez suele denominarse validez de constructo
(constructo = rasgo).
Confirmamos el significado comprobando hiptesis basadas en el mismo significado;
podemos utilizar dos tipos de estrategias que se complementan:
1. Validez convergente: por ejemplo comprobando relaciones esperadas y plausibles
(positivas o negativas) con otras medidas:
a) unas medidas pueden ser otros instrumentos que pretendidamente miden lo mismo (si
hacemos una escala de autoconcepto esperaremos una correlacin significativa con
otras escalas de autoconcepto);
b) otros instrumentos pueden medir otras cosas pero con las que esperamos que haya
relacin (como entre actitud hacia el estudio y calificaciones escolares).
2. Validez divergente: comprobando que el rasgo no tiene relacin con otros con los que
no esperamos que la tenga o que se diferencia de otros del mismo mbito (la asertividad
de la agresividad, puede haber relacin pero no tan alta que nos permita concluir que
b) Otro mini-test de pocos tems que ms o menos mida lo mismo, por ejemplo:
1. Desde otra perspectiva (pueden ser conductas probables en vez de opiniones),
2. Con un breve instrumento que mide el mismo rasgo pero construido con una
tcnica distinta (por ejemplo eleccin entre alternativas o un Semntico
Diferencial).
c) Otra escala o test (o factor, o subescala, o seleccin de tems, etc.) de otro autor y que
supuestamente comprueba lo mismo (o algo muy semejante).
d) Si es posible, se puede comprobar la relacin entre autoevaluacin (sobre todo si se
trata de la medicin de un rasgo propio ms que la actitud hacia otra cosa) y
hteroevaluacion.
Estos nuevos instrumentos tienen un valor complementario, pueden ser muy breves y
tambin pueden limitarse a simples preguntas.
56 En definitiva se trata de comprobar, de una manera u otra, si las diferencias en una variable se corresponden con
diferencias en otra variable
57 Morales (2008), p. 284
b) El instrumento mide algo que no est relacionado con lo que no se espera que lo est
(validacin divergente). La no relacin tambin es til para ver que no confundimos unas
cosas con otras, y porque tambin son datos informativos.
14.2 Confirmacin de la utilidad del instrumento (validez predictiva)
Bsicamente trata de calcular coeficientes de correlacin entre el instrumento (lo que mide
el test o escala) y determinados criterios (como rendimiento acadmico, determinadas
habilidades, etc.) y confirmar de esta manera hiptesis plausibles que apoyan o confirman el
significado de lo que estamos midiendo con nuestra escala. Estos coeficientes de correlacin
suelen denominarse coeficientes de validez aunque el trmino es equvoco porque la validez no
se concreta en un coeficiente especfico como el de fiabilidad.
Otra estrategia para confirmar la validez es verificar diferencias entre grupos que tambin,
segn hiptesis razonadas, podemos suponer que son distintos en aquello que estamos midiendo.
Tambin cabe hacer estudios meramente exploratorios o que respondan a hiptesis no
directamente relacionadas con la validez.
El complemento de la construccin de un instrumento pueden ser adems unas normas de
interpretacin (baremos), para los sujetos que respondan puedan interpretar sus resultados
individuales, como son los percentiles, estaninos, etc.58
15. Bibliografa
15.1. Referencias bibliogrficas citadas
AMERICAN EDUCATIONAL RESEARCH ASSOCIATION, AMERICAN PSYCHOLOGICAL
ASSOCIATION and NATIONAL COUNCIL ON MEASUREMENT IN EDUCATION (1999).
Standards for Educational and Psychological Testing. Washington DC: American
Educational Research Association
BARNETTE, JACKSON J. (2000). Effects of stem and Likert response option reversals on survey
internal consistency: if you feel the need, there is a better alternative to using those
negatively worded stems. Educational and Psychological Measurement, 60 (3), 361-370.
BORTZ, JRGEN; DRING, NICOLA (2006) Forschungsmethoden und Evaluation. (4 ed.
revisada). Heidelberg: Springer.
BOURNER, HILL; HUGHES, MARK & BOURNER TOM (2001). First-year Undergraduate
Experiences of Group Project Work. Assessment & Evaluation in Higher Education, Vol.
26, No. 1, 20-39
BURDEN, PETER (2008). The use of 'Ethos indicators' in tertiary education in Japan. Assessment
& Evaluation in Higher Education, Vol. 33 Issue 3, p315-327
CAADAS OSINSKI, ISABEL y SNCHEZ BRUNO, ALFONSO (1998), Categoras de respuesta en
escalas tipo Likert. Psicothema, vol. 10, n 3, 623-631.
CHANG, LEI (1997). Dependability of Anchoring Labels of Likert-Type Scales. Educational and
Psychological Measurement, 57 (5), 800-807.
CRONBACH, L.J. (1971). Test Validation en THORNDIKE, R.L., (Ed.) (1971) Educational
Measurement. Washington D.C.: American Council of Education, 2nd edit., 335-355.
CRUMBAUGH, JAMES C. and MAHOLIC, LEONARD T. (1969). Manual for The Purpose in Life
Test. Brookport, Illinois: Psychometric Affiliates
DAVEY H., BARRATT A., BUTOW P. and DEEKS J. (2007). A one-item question with a Likert or
Visual Analog Scale adequately measured current anxiety. Journal of Clinical
Epidemiology, 60 (4):356-360
DAVIES, RANDALL S. (2008). Designing a Response Scale to Improve Average Group Response
Reliability Evaluation & Research in Education, 2008, Vol. 21 Issue 2, p134-146.
DODEEN, HAMZEH M. (2003). Effectiveness of Valid Mean Substitution in Treating Missing
Data in Attitude Assessment. Assessment & Evaluation in Higher Education. Vol. 28, n 5,
505-513.
FANNING, ELIZABETH (2005). Formatting a Paper-based Survey Questionnaire: Best Practices.
Practical Assessment Research & Evaluation, 10(12). Available online:
http://pareonline.net/getvn.asp?v=10&n=12
FRARY, ROBERT B. (1996). Hints for designing effective questionnaires. Practical Assessment,
Research & Evaluation, 5 (3) http://pareonline.net/getvn.asp?v=5&n=3
GARDNER, DONALD G.; CUMMINGS, L.L.; DUNHAM, RANDALL B. and PIERCE, JON L. (1998).
Single-item versus multiple item measurement: an empirical comparison. Educational and
Psychological Measurement, 58 (6), 898-915.
GARVIN, J., BUTCHER, A., STEFANI, A., TARIQ, V., LEWIS, N., BLUMSOM, R., GOVIER, R. &
HILL, J. (1995) Group projects for .first-year university students: an evaluation ,
Assessment & Evaluation in Higher Education, 20, pp. 279294
GISMERO GONZLEZ, ELENA (1996). Habilidades sociales y anorexia nerviosa. Madrid:
Universidad Pontificia Comillas.
GMEZ FERNNDEZ, D. (1981). El 'ESP-E', un nuevo cuestionario de personalidad a disposicin
de la poblacin infantil espaola. Revista de Psicologa General y Aplicada, 36, 450-472.
GUILFORD, JOY P. (1954). Psychometric Methods. New York: McGraw-Hill.
GUILFORD, JOY P. and FRUCHTER, B. (1973). Fundamental Statistics in Psychology and
Education. New York: McGraw-Hill (en espaol, Estadstica aplicada a la psicologa y la
educacin, 1984, Mxico: McGraw-Hill).
HERNNDEZ, ANA; ESPEJO, BEGOA and GONZLEZ-ROM VICENTE (2006). The functioning
of central categories middle level and sometimes in graded response scales: does the label
matter? Psicothema,Vol. 18, n 2, pp. 300-306
http://www.psicothema.com/psicothema.asp?id=3214
KEMBER, DAVID and LEUNG, DORIS Y.P. (2005). The influence of active learning experiences
on the development of graduate capabilities. Studies in Higher Education, Vol. 30 Issue 2,
p155-170.
MEANA, RUFINO (2003). La experiencia subjetiva de sentido y su relacin con variables
psicolgicas y sociodemogrficas. Tesis doctoral. Madrid: Universidad Pontificia
Comillas.
MILLS, PAUL C.; WOODALL, PETER F. (2004). A comparison of the responses of first and second
year veterinary science students to group project work. Teaching in Higher Education,
Vol. 9 Issue 4, p477-489;
MORALES VALLEJO, PEDRO (2006). Medicin de actitudes en Psicologa y Educacin,
construccin de escalas y problemas metodolgicos, tercera edicin revisada. Madrid:
Universidad Comillas.
MORALES VALLEJO, PEDRO (2010). Anlisis factorial en la construccin e interpretacin de
tests, escalas y cuestionarios.
http://www.upcomillas.es/personal/peter/investigacion/AnalisisFactorial.pdf
MORALES VALLEJO, PEDRO; UROSA SANZ, BELN y BLANCO BLANCO, NGELES (2003).
Construccin de escalas de actitudes tipo Likert. Una gua prctica. Madrid: La Muralla.
NUNNALLY, JUM C. (1978). Psychometric Theory. Second Edit. New York: McGraw-Hill.
SCHMITT, NEAL (1996). Uses and abuses of Coefficient Alpha. Psychological Assessment, 8 (4),
350-353 (disponible en http://ist-socrates.berkeley.edu/~maccoun/PP279_Schmitt.pdf,
consultado 30, 09, 2008).
SEIFERT, T.L. and OKEEFE, B.A. (2001). The relationship of work avoidance and learning goals
to perceived competence, externality and meaning. British Journal of Educational
Psychology, 71, 81-92.
SIMONS, JOKE; DEWITTE, SIEGFRIED and LENS, WILLY (2004). The role of different types of
instrumentality in motivation, study strategies, and performance: Know why you learn, so
you'll know what you learn! British Journal of Educational Psychology, Vol. 74 Issue 3,
p343-360,
SUPER, DONALD E. (1968) Work Values Inventory. New York: Houghton-Mifflin. Disponible en
University of Richmond, Career Development Center, Work Values Inventory,
http://cdc.richmond.edu/common/pdf/valuesworkinventory.pdf . Una adaptacin para
responder online en Saint Anselm College, Career Education Services, Work Values
Inventory, http://www.anselm.edu/administration/CES/WorkValues.htm
TRECHERA, JOSE LUIS (1997). El trastorno narcisista de la personalidad: concepto, medida y
cambio. Crdoba: Publicaciones ETEA
TROCHIM, WILLIAM M. The Research Method Knowledge Base, 2nd Edition,
http://www.socialresearchmethods.net/kb/ (version current as of October 20, 2006)
(consultado 9, o5, 2009).
WENG, LI-JEN (2004). Impact of the Number of Response Categories and Anchor Labels on
Coefficient Alpha and Test-Retest Reliability. Educational and Psychological
Measurement, 64, 6, 956-972.
WILDING, JOHN and ANDREWS, BERNICE (2006). Life goals, approaches to study and
performance in an undergraduate cohort. British Journal of Educational Psychology,
Mar2006, Vol. 76 Issue 1, p171-182
WUENSCH, KARL L. (2006) Research Design Lessons, scaling,
http://core.ecu.edu/psyc/wuenschk/docs2210/Research-5-Scaling.doc (consultado 3, Dic.
2009).
15.2. Sobre construccin de instrumentos
DEVELLIS, ROBERT (1991). Scale Development, Theory and Applications. Newbury Park: Sage.
EDWARDS, A.L., (1957a). Techniques of Attitude Scale Construction. New York: Appleton-
Century-Crofts.
GABLE, ROBERT K. and WOLF, MARIAN B. (1986). Instrument Development in the Affective
Domain. Boston/Dordrecht/Lancaster: Kluwer-Nijhoff Publishing.
HENERSON, M.E., MORRIS, L.L. and FIZT-GIBBON, C.T. (1978). How to Measure Attitudes,
Beverly Hills: Sage.
KING, M. AND ZIEGLER, M. (1975). Research Projects in Social Psychology. Monterrey:
Brooks-Cole.
KLINE, P. (1986). A Handbook of Test Construction. New York: Methuen.
LIKERT, R. (1932). A Technique for the Measurement of Attitudes, Archives of Psychology,
140, 44-53 [en espaol en WAINERMAN, C.H. (Ed.), (1976). Escalas de medicin en las
ciencias sociales. Buenos Aires: Nueva Visin, 199-260 y en SUMMERS, GENE F. (Ed.)
(1976). Medicin de actitudes. Mxico: Trillas, 182-193].
MORALES VALLEJO, PEDRO (2010). Cuestionarios y escalas
http://www.upcomillas.es/personal/peter/otrosdocumentos/CuestionariosyEscalas.doc
MORALES VALLEJO, PEDRO (2010). Anlisis factorial en la construccin e interpretacin de
tests, escalas y cuestionarios.
http://www.upcomillas.es/personal/peter/investigacion/AnalisisFactorial.pdf
MORALES VALLEJO, PEDRO (2008). Estadstica aplicada a las ciencias sociales. Madrid:
Universidad Pontificia Comillas.