Uía para Construir Escalas de Actitudes: Indice

GUA PARA CONSTRUIR
ESCALAS DE ACTITUDES
Universidad Pontificia Comillas Madrid
Facultad de Ciencias Humanas y Sociales
Pedro Morales Vallejo (ltima revisin, 13, Dic. 2006)1
INDICE
1. Por qu construimos una escala (o un test) en vez de limitarnos a una sola pregunta ....................
2. Proceso de construccin de una escala de actitudes...................................................................
3. Definicin de la actitud que se desea medir ..............................................................................
4. Redaccin de los tems...........................................................................................................
5. Redaccin y nmero de respuestas ..........................................................................................
a) Redaccin de las respuestas ..............................................................................................
b) Nmero de respuestas.......................................................................................................
c) Nmero par o impar de respuestas ....................................................................................
6. Preparar la clave de correccin ...............................................................................................
7. Preparar preguntas o instrumentos adicionales ..........................................................................
8. Obtener datos de una muestra.................................................................................................
9. Anlisis de tems y comprobacin de la fiabilidad......................................................................
9.1. Anlisis de tems ............................................................................................................
9.1.1. Correlacin tem-total ..........................................................................................
9.1.2. Contraste de medias en cada tem de los dos grupos
con puntuaciones mayores y menores en el total de la escala ..................................
9.2. Comprobacin de la fiabilidad y seleccin de los tems definitivos....................................
10. Otras consideraciones en torno a la eleccin de los tems definitivos ...........................................
1 Equilibrio entre tems positivos y negativos .........................................................................
2 Cuidar ms la representatividad del contenido de las formulaciones de los tems....................
3 Incluir de manera equilibrada aspectos distintos (subescalas) del mismo rasgo general.............
4 Incorporacin de nuevos tems...........................................................................................
5 Preparacin de dos versiones, corta y larga, de la misma escala ............................................
6 Explicacin o redefinicin del rasgo medido por nuestro instrumento ....................................
11. Comprobacin de la validez y otros anlisis posteriores..............................................................
12. Sugerencias para obtener datos adicionales que faciliten la validacin de la escala.........................
12.1. Confirmacin del significado pretendido (validez de constructo)......................................
12.1.1. Anlisis correlacionales ..................................................................................
1 Relacin con otros modos de medir el mismo rasgo.........................................
2 Comprobacin de relaciones esperadas (positivas o negativas)
con otros rasgos distintos..............................................................................
3 Comprobar que no existe relacin donde no esperamos que la haya .................
1.2.1.2. Comparaciones entre grupos...........................................................................
12.2. Confirmacin de la utilidad del instrumento (validez predictiva)......................................
13. Bibliografa............................................................................................................................
13.1. Referencias bibliogrficas citadas ...................................................................................
13.2. Bibliografa sobre construccin de instrumentos ..............................................................
13.3. Bibliografa sobre colecciones de instrumentos ................................................................
2
3
3
4
5
5
6
6
6
7
8
8
9
9
10
12
15
15
15
15
16
16
16
16
18
18
18
18
19
19
19
20
21
21
21
22
1 Una gua ms extensa sobre construccin de escalas y que incluye cmo utilizar el programa SPSS puede verse
en Morales, Urosa y Blanco (2003) (referencia completa en la bibliografa).
1. Por qu construimos una escala (o un test) en vez de limitarnos a una sola

pregunta.
Construimos escalas de actitudes (o tests de personalidad e instrumentos semejantes) para medir
determinados rasgos. Aqu entendemos por medir, de una manera muy genrica, el apreciar
cuantitativamente si un sujeto tiene poco o mucho del rasgo en cuestin, el ver dnde se sita un sujeto en
un continuo de menos a ms. Podemos preguntarnos por qu tenemos que construir una escala compuesta
de varios tems en vez de hacer una sola pregunta, clara y bien pensada, con un nmero de respuestas
adecuado.
Lo primero que hay que decir es que tambin se pueden medir actitudes con una sola pregunta, y
esto es comn en muchos cuestionarios sociolgicos. A un sujeto se le puede preguntar que se site en una
escala de 1 a 6 (poco o muy en cualquier rasgo: conservador, extravertido, amigo de los animales). As
se miden actitudes con frecuencia, tenemos numerosos ejemplos y est bien hecho. Con frecuencia es lo
ms conveniente o al menos suficiente, sobre todo cuando no se pretende obtener una informacin muy
precisa sobre cada sujeto (no es lo mismo describir grupos que hacer un diagnstico individual). A veces el
medir actitudes (u otros rasgos psicolgicos) con una sola pregunta es muy til como medida
complementaria de instrumentos ms complejos2.
Sin embargo aun en el caso de los cuestionarios sociolgicos, que no son escalas en sentido propio,
puede ser til y conveniente el disponer de varios indicadores de una misma actitud (o de una misma
variable, como nivel socioeconmico) que van a ser sumados despus como indicador de esa actitud o
variable.
Tenemos varias razones para construir escalas, o simplemente para disponer de varios indicadores
del mismo rasgo.
1 Con una serie de tems describimos y medimos mejor constructos relativamente complejos. De
hecho en la vida cotidiana juzgamos sobre cmo es una persona (si tiene ms o menos de una determinada
variable, como gusto por el deporte, religiosidad, conservadurismo, asertividad) en funcin de varios
indicadores (como pueden ser diversas conductas o diversas opiniones sobre aspectos distintos referidos a la
misma actitud). Una nica pregunta frecuentemente simplifica en exceso el concepto que vamos a medir. De
manera anloga en la consulta de un mdico nos hacen muchas preguntas, y no una solamente, que pueden
ser indicadores o sntomas de una determinada patologa.
2 En conjunto una medida compuesta por varios tems es ms vlida, no solamente porque describe
mejor un constructo complejo, sino porque una nica pregunta puede de hecho ser poco afortunada, o
equvoca o ser mal entendida por muchos sujetos. Cuando hay varios indicadores de la misma actitud (o
rasgo en general) se obvian mejor las limitaciones de cada tem en particular. Adems una nica pregunta
puede distorsionar la informacin que el sujeto aporta de s mismo; por ejemplo uno puede definirse como
muy liberal en una nica pregunta, porque esa es la imagen que tiene de s mismo, pero puede no aparecer
tan liberal ante cuestiones ms especficas.
De manera anloga podemos pensar en la medida del rendimiento acadmico que quizs es un
ejemplo ms claro: si queremos saber si un alumno sabe qumica, no le hacemos una sola pregunta porque
puede saber esa pregunta pero no otras muchas posibles preguntas, o esa pregunta puede ser de hecho
ambigua o muy difcil, etc.; una serie de preguntas sobre el mismo tema o asignatura nos da una idea ms
certera sobre si sabe ms o menos. Despus de todo nuestra conclusin y nuestro juicio no va a ser sobre si
sabe o no sabe unas preguntas concretas, sino sobre si sabe o no sabe en general de unas pocas
preguntas extrapolamos nuestras conclusiones a otras muchas preguntas semejantes. Algo anlogo hacemos
con las escalas de actitudes, tests de inteligencia, etc.; una muestra relativamente amplia de preguntas
(tems) constituye una mejor base para formarnos un juicio ms preciso y fundado sobre cmo est una
persona en un rasgo concreto.
2 Tambin hay investigaciones que muestran que utilizar un solo tem puede ser til (Gardner, Cummings; Dunham
and Pierce (1998).
Gua para construir escalas de actitudes
Este tipo de razones tiene ms peso cuando se van a tomar decisiones sobre los sujetos o interesa un
buen diagnstico individual.
3 Aumenta la fiabilidad de la medida y por las razones dichas: se minimizan las limitaciones de cada
tem en particular; merecen ms confianza varias preguntas que una sola. Un solo tem est ms sujeto a los
errores de medicin, que tienden a cancelarse mutuamente si sumamos varios tems. En un sentido ms
psicomtrico, si disponemos de una serie de tems podemos calcular el coeficiente de fiabilidad como
veremos ms adelante. La fiabilidad puede ser alta o baja, pero eso es algo que podemos verificar, de la
misma manera que podemos analizar la calidad de cada tem.
4 Una razn de peso para sumar varios indicadores del mismo rasgo es que las diferencias entre los
sujetos van a quedar ms ntidas; va ser ms fcil clasificarlos; en definitiva va a aumentar la varianza.
El detectar diferencias es de inters en cualquier estudio o investigacin porque sin diferencias claras
es muy difcil encontrar relaciones entre variables. De nuevo esto es importante incluso en cuestionarios
ms de corte sociolgico: diferenciamos mejor a las personas en un determinado rasgo si disponemos de
varios indicadores y consecuentemente detectaremos mejor las relaciones de ese rasgo con otras variables.
De los diversos tipos de escalas nos limitamos aqu al denominado escalas tipo-Likert. Son las ms
conocidas y se denominan as por el autor que sistematiz el proceso de construccin (en 1932).
En conjunto es el sistema ms sencillo y de caractersticas no inferiores a los otros tipos de escalas (o
son incluso mejores) por lo que es posiblemente el ms utilizado. Lo que hizo Likert fue extender a la
medicin de las actitudes lo que ya era comn en la medicin de los rasgos de personalidad: la suma de una
serie de respuestas a tems supuestamente homogneos (que expresan el mismo rasgo) sita al sujeto en la
variable medida.
2. Proceso de construccin de una escala de actitudes

Es conveniente tener desde el principio una ida general de los pasos que integran el proceso de
construccin de una escala de actitudes (o en general de cualquier tipo de test, aunque aqu tratamos de
manera ms explcita de las escalas de actitudes que de los tests de personalidad o de otro tipo)3.
El proceso se puede describir de varias maneras, pero bsicamente se puede concretar en los pasos
enunciados a continuacin (en un orden lgico ms que estrictamente cronolgico).
1. Definir la actitud que se desea medir
2. Redactar los tems
3. Determinar el modo de respuesta y el nmero de respuestas
4. Preparar la clave de correccin
5. Preparar preguntas o instrumentos adicionales
6. Obtener datos de una muestra
7. Analizar los tems: ver si discriminan y se pueden considerar indicadores del mismo rasgo
8. Comprobar la fiabilidad
9. Seleccionar los tems definitivos en funcin de los anlisis anteriores
10. Comprobar de la validez y otros anlisis posteriores
La validez y la fiabilidad van a ser dos consideraciones importantes en todo el proceso, por esta
razn son conceptos que debemos tener suficientemente claros desde el principio.
3. Definicin de la actitud que se desea medir

El primer paso es siempre clarificar el rasgo que se desea medir; una definicin o explicacin previa
da coherencia al resto del proceso. Puede ayudar el hacer previamente una descripcin de la persona que
supuestamente tenga de manera clara la actitud que se desea medir; la descripcin puede ser tanto del que
3 Una exposicin ms detallada de este proceso puede verse en Morales (2006), sobre todo en el captulo II, y en
Morales, Urosa y Blanco (2003). En la bibliografa indicamos otras publicaciones que orientan sobre la
construccin de escalas de actitudes y de tests en general, y tambin se enumeran una serie de obras en las que se
reproducen muchas escalas e instrumentos semejantes.
tenga una actitud positiva como negativa. Si, por ejemplo, se desea construir una escala para medir actitud
hacia el estudio, uno puede preguntarse qu caracteriza al que tiene una actitud muy favorable o muy
desfavorable tal como conceptualizamos nosotros esa actitud: le gusta estudiar, tiene un nivel alto de
aspiraciones, no confa en la suerte, etc.
No hay que olvidar que las actitudes, como cualquier otro rasgo que queramos medir, se pueden
concebir en diversos grados de abstraccin, y pueden ser muy genricos (como actitud general hacia el
estudio) o muy especficos (como nivel de aspiraciones o actitud hacia el estudio de un determinado tipo
de materias, etc.).
Este retrato robot ayudar a redactar los tems en torno a un plan coherente; interesa desde el
principio asegurar la validez conceptual y poder justificarla. Este retrato robot se puede pensar en funcin
de supuestas caractersticas personales, de opiniones con las que estara de acuerdo, de actividades que le
gustara hacer, etc.
Puede ayudar tambin el revisar otros instrumentos ya hechos. Si se utiliza una escala ya hecha (o
varias) como fuente de inspiracin, o se toman determinadas ideas de un autor, etc., esto se debe hacer
constar.
4. Redaccin de los tems

Pueden redactarse de diversas maneras, pero en general y tratndose de escalas de actitudes, suelen
formularse en forma de opiniones con las que se puede estar o no de acuerdo. Una opinin es una actitud
verbalizada, y a travs de las opiniones podemos inferir la actitud subyacente.
Los tems deben tener estas caractersticas:
a) Deben ser relevantes, claramente relacionados con la actitud que se desea medir.
b) Deben ser opiniones (o rasgos y conductas personales, segn lo que se desee medir) con las que
se pueda estar o no estar de acuerdo, no hechos o datos que se pueden saber o no saber, pues no se trata de
medir ciencia.
c) Deben redactarse con claridad, de manera que todos los entiendan de la misma manera (en la
medida de lo posible). Por esta razn:
1 Hay que tener cuidado con expresiones como no, nunca, etc. que pueden crear confusin en la
respuesta;
2 Deben contener una nica idea, pues cuando hay ms de una idea se puede estar de acuerdo
con una y no con la otra. Es conveniente que la redaccin provisional la revise ms de una
persona. Una misma idea se puede formular de ms de una manera para comprobar despus
qu formulacin es ms eficaz.
d) Deben ser discriminantes, es decir, se deben redactar los tems de tal manera que previsiblemente
unos sujetos estarn de acuerdo y otros no, o no tanto. Para medir debemos encontrar diferencias; los
tems que todos o casi todos acepten o rechacen no van a contribuir a la fiabilidad de la escala y sern
eliminados en el anlisis de tems. Adems tenemos ms garanta de que los tems miden lo mismo
(expresan el mismo rasgo) si simultneamente diferencian a los mismos sujetos. Naturalmente
verificaremos despus, en el anlisis de tems, si discriminan o no discriminan, pero ya en al redactarlos
debemos procurar que sean discriminantes.
e) Cabe formular tems repetitivos, la misma idea dicha de diversas maneras: frecuentemente una
manera de decir las cosas resulta de hecho ms discriminante que otra. Luego nos quedaremos con la
formulacin que ms nos convenza si no queremos que haya varios tems excesivamente semejantes. Con
tems muy similares se consiguen fcilmente coeficientes de fiabilidad altos, pero el constructo queda
expresado de una manera muy simple (a veces eso es lo que interesa, por lo que no hay que sostener por
principio que los tems deben ser muy variados).
f) Es preferible redactar los tems en las dos direcciones positiva y negativa, es decir, que unas veces
el estar de acuerdo manifieste una actitud favorable (estudiar es divertido) y otras manifieste una actitud
desfavorable (estudiar es aburrido) pero sin introducir palabras negativas, como no o nunca, que se prestan
a confusiones al responder. Esta redaccin bipolar tiene estas ventajas4:
1. Obliga a una definicin previa ms matizada del rasgo o constructo.
2. Requiere una atencin mayor por parte del que responde;
3. Permite comprobar la coherencia de las respuestas, verificando si hay contradicciones
sistemticas. Si hay un nmero aproximado de tems positivos y negativos, y sumamos a cada
sujeto sus respuestas a los dos tipos de tems, podemos calcular la correlacin entre los dos
totales parciales como si se tratara de dos subescalas. Esta correlacin debe alcanzar un valor de
.50 o ms, y mostrar en este caso una coherencia global en las respuestas.
4. Comprobar la coherencia es prcticamente lo mismo que comprobar que no se da la
aquiescencia o tendencia a mostrar acuerdo casi con cualquier afirmacin, incluso con
afirmaciones que se contradicen (cuando se da esta aquiescencia suele deberse a ambigedad en
la redaccin, falta de claridad; se da ms en niveles educacionales bajos)5.
Los errores y ambigedades en la formulacin de los tems suelen manifestarse en el anlisis. La
irrelevancia o ambigedad puede sospecharse cuando demasiados sujetos escogen la respuesta central o los
tems no discriminan; tambin la no discriminacin puede indicar que un tem no mide lo mismo que los
dems o que los sujetos lo entienden de hecho de otra manera. Si un tem discrimina en sentido contrario
(puntan ms alto en ese tem los que en el conjunto de la escala puntan ms bajo) puede haber un error
en la clave de correccin.
Sobre el nmero inicial de tems que deben redactarse: no hay un nmero ptimo, pero a mayor
nmero inicial de tems, mayor probabilidad de encontrar en el anlisis un conjunto de tems definitivos con
una fiabilidad suficiente. A mayor nmero de tems buenos (que no tienen que ser muchos) tambin ser
mayor la fiabilidad.
5. Redaccin y nmero de respuestas

a) Redaccin de las respuestas
Las respuestas ms habituales en las escalas de actitudes suelen expresar grado de acuerdo con el
contenido del tem, pero puede haber otro tipo de respuestas ms adecuadas a la formulacin del tem
(como grado de inters, de importancia, etc.). Respuestas tpicas, segn el nmero de respuestas que se
empleen, son, por ejemplo, las puestas en el cuadro 1.
de acuerdo
de acuerdo
de acuerdo
muy de acuerdo
muy de acuerdo
de acuerdo
en desacuerdo
indiferente
ms bien
de acuerdo
ms bien
de acuerdo
ms bien
de acuerdo
en desacuerdo
ms bien
en desacuerdo
indiferente
ms bien
en desacuerdo
en desacuerdo
ms bien
en desacuerdo
en desacuerdo
muy en desacuerdo
muy en desacuerdo
Cuadro 1
Caben otros formatos en las respuestas, como utilizar nmeros especificando con palabras el
significado de los extremos (muy de acuerdo y muy en desacuerdo o expresiones equivalentes), o se pueden
redactar las respuestas en trminos de una mayor o menor importancia, frecuencia, etc. Es til ver modelos
antes de hacer nuestra redaccin y presentacin definitiva de la escala 6.
4 Las ventajas de una formulacin de los tems pero en ambas direcciones y eliminando expresiones negativas est
muy investigada, por ejemplo Barnette (2000).
5 Un tratamiento amplio de la aquiescencia y otros problemas metodolgicos puede verse en Morales (2006)
6 En general las diversas maneras de expresar las respuestas (todas con expresiones verbales, o describiendo
solamente las dos respuestas extremas, o utilizando nmeros, etc.) dan resultados semejantes por lo que respecta
Las respuestas en trminos de frecuencia estn especialmente avaladas por la investigacin

experimental y en concreto se han propuesto las posibles respuestas indicadas en el cuadro 27.
casi nunca
casi nunca
casi nunca
a veces
ocasionalmente
de vez en cuando
normalmente
casi siempre
siempre
ordinariament con frecuencia muchsimas veces

e
a veces
normalmente
muy a menudo
siempre
muchsimas
veces
siempre
Cuadro 2
Las respuestas pueden indicarse tambin con nmeros (1= en desacuerdo, 2 = indiferente, 3= de
acuerdo, etc. ) o con palabras y con nmeros, o con letras, pero siempre debe estar muy claro para el que
responde el significado de sus respuestas. En general parece preferible el empleo de letras o de palabras (al
menos cuando se juzgue que los nmeros pueden condicionar la respuesta).
Cuando se ponen nmeros, todos deben ir en la misma direccin (muy de acuerdo siempre tiene el
valor mximo), aunque despus se cambien estos valores en la clave de correccin como indicamos ms
adelante.
b) Nmero de respuestas
El nmero habitual de respuestas es de cinco, pero pueden ser ms o pueden ser menos. En general,
y aunque esto no sucede siempre, a mayor nmero de respuestas en los tems, suele haber en toda la escala
una mayor fiabilidad, con tal de que el nmero de respuestas no supere la capacidad de discriminacin de
los que responden; en torno a seis o siete respuestas puede ponerse el nmero mximo, y en tres el mnimo
(en cualquier caso con tres respuestas suele subir la fiabilidad con respecto a dos nada ms).
c) Nmero par o impar de respuestas
Una cuestin distinta es si se debe incluir un nmero par o impar de respuestas (con o sin una
respuesta central de indecisin). No hay normas claras sobre este punto; lo ms claro es que son
preferibles tres respuestas a dos (la fiabilidad es casi siempre mayor con tres respuestas que con dos, y
adems con slo dos respuestas los que responden pueden sentirse incmodos).
El incluir un nmero par de respuestas (4 6) tiene la ventaja de que siempre cabe la posibilidad de
agruparlas en dos categoras (se hace fcilmente con ordenador), de acuerdo y en desacuerdo, y esto puede
ser til para determinados anlisis. Adems se elimina la posibilidad de que los sujetos se evadan escogiendo
la respuesta central (casi nunca hay verdadera indecisin si la actitud medida y los tems son relevantes para
que los que responden porque realmente expresan esa actitud).
6. Preparar la clave de correccin

Las respuestas se codifican siempre con nmeros ntegros sucesivos. Si por ejemplo las respuestas
son cuatro, se pueden codificar de 0 a 3 o de 1 a 4. En principio es preferible evitar el 0 y comenzar a partir
de 1 (aunque cuando slo hay dos respuestas suelen codificarse como 0 1).
La clave en nmeros debe hacerse de acuerdo con el sentido del tem, de manera que la respuesta
ms favorable a la actitud tenga el nmero mayor, tal como puede verse en el ejemplo del cuadro 3.
a la validez y fiabilidad (por ejemplo Chang, (1997). La fiabilidad test-retest suele ser mayor cuando todas las
categoras de respuesta estn expresadas verbalmente (Weng, 2004, con una muestra de 1247 estudiantes
universitarios).
7 La justificacin de estas categoras de respuesta, y un listado mayor, puede verse en Caadas y Snchez Bruno,
(1998).
respuestas y clave de codificacin

tems:
Me gusta estudiar
Estudiar
es
aburrido
de acuerdo
ms bien
de acuerdo
ms bien
en desacuerdo
en desacuerdo
4
1
3
2
2
3
1
4
Cuadro 3
7. Preparar preguntas o instrumentos adicionales

Cuando se construye una escala de actitudes, la atencin se centra en la redaccin de los tems, pero
esto no es suficiente. Adems de la escala que se est construyendo se deben preparar otras preguntas, o
incluso otras escalas o instrumentos que pueden estar ya hechos, y que los sujetos respondern al mismo
tiempo, para recoger datos adicionales8. Esto se suele hacer despus de haber redactado los tems de la
escala. Estos nuevos datos o preguntas tienen que ver con la verificacin de la validez del instrumento9 y
adems nos permitirn hacer otras investigaciones sin limitarnos a la mera construccin del instrumento.
El obtener datos adicionales de inters es importante por varias razones:
1 El buscar ms datos hipotticamente relacionados con lo que queremos medir contribuye a que
nos hagamos una idea ms clara del rasgo o actitud que nos interesa medir; como dijimos antes adems de
pensar en un rasgo hay que pensar simultneamente en una teora o red de relaciones de la que forma parte
el rasgo que vamos a medir. Es adems mucho ms interesante.
2 La experiencia nos dice que el recoger datos adicionales al mismo tiempo que se prueba el
instrumento en una primera muestra, supone un considerable ahorro de tiempo y esfuerzo, en vez de
construir primero el instrumento, y luego, con la versin definitiva, volver a buscar otros datos en otros
sujetos.
3 Las relaciones que vamos encontrando con otras variables se pueden incorporar de alguna manera
al proceso de construccin del instrumento, en el sentido de que nos pueden sugerir ideas vlidas como
criterio en la misma seleccin de los tems, en la bsqueda de muestras determinadas, etc.
4 Sobre todo el pensar en otros datos tiene que ver con la comprobacin de la validez de nuestro
instrumento y de los datos que con l recojamos.
Cuando se va a construir un instrumento, como una escala de actitudes, conviene repasar los temas
referidos a la validez y su comprobacin. Comprobar la validez de un instrumento tiene que ver con la
comprobacin o confirmacin del significado de lo que medimos, y tambin con su utilidad. El primer
control de la validez est en la misma redaccin de los tems.
El tener previsto desde el comienzo qu vamos a hacer para confirmar la validez de nuestro
instrumento (o al menos cmo vamos a apoyar el significado previsto o la utilidad del instrumento) nos
sugerir qu otros datos conviene recoger, y por qu.
Es til tener desde el principio una idea clara no solamente del rasgo que queremos medir, sino
tambin con qu otros rasgos puede estar relacionado ese rasgo, a qu grupos puede diferenciar, etc. Ms
que pensar en un rasgo, conviene pensar desde el comienzo en toda una teora, aunque sea muy modesta,
en torno a ese rasgo.
El recoger este tipo de datos al mismo tiempo que los sujetos responden a la escala en construccin,
ahorra tiempo y obliga a matizar y explicar mejor lo que queremos medir con nuestro instrumento.
8 En Morales (2006, en los anexos) pueden verse numerosos ejemplos de escalas junto con preguntas
adicionales para hacer estudios de validacin y otros anlisis; tambin hay ejemplos de estas preguntas en
Morales, Urosa y Blanco (2003).
9 Hablando con propiedad la validez no es una propiedad del instrumento, sino de las inferencias e
interpretaciones que hagamos con los datos obtenidos.
La conveniencia de obtener ms o menos informacin adicional variar segn la situacin y la

finalidad. Podemos limitarnos a construir una escala y en un momento posterior obtener nuevos datos, pero
siempre es til obtener informacin adicional de los sujetos (adems de los datos que podemos denominar
censales o muy obvios: sexo, curso o profesin, etc.).
Ms adelante presentamos sugerencias sobre cmo recoger datos adicionales, pero bsicamente
estos datos son de dos tipos:
1. Datos censales o sociolgicos, como edad, sexo, ocupacin o curso, estado civil, etc. Estos datos
servirn para describir la muestra y para hacer anlisis adicionales (como exponer datos
descriptivos por sexos, comparar subgrupos, preparar normas de interpretacin individual como los
percentiles, para los distintos subgrupos, etc.).
2. Datos de otro tipo, como pueden ser preguntas relacionadas con lo que se pretende medir, u otros
tests o escalas que pueden estar relacionados con la variable que estamos midiendo, etc.; el
objetivo de estos datos adicionales es facilitar la comprobacin de la validez de nuestra escala.
8. Obtener datos de una muestra

Una vez preparada la versin inicial del instrumento, se recogen las respuestas de una muestra para
poder hacer los anlisis correspondientes, sobre todo el anlisis de tems y el clculo de la fiabilidad. Estos
anlisis nos van a permitir dar forma al instrumento definitivo; la primera redaccin de los tems tiene un
carcter en principio hipottico (suponemos que todos los tems redactados en primer lugar describen bien
un determinado rasgo o actitud, pero esta hiptesis hay que verificarla analizando las respuestas de los
sujetos).
1. El tipo de muestra elegido debe ser semejante al tipo de poblacin con el que se va a utilizar
despus. A mayor heterogeneidad en la muestra obtendremos son mayor facilidad una fiabilidad alta, pero
no es legtimo forzar la heterogeneidad de la muestra en esta primera prueba.
2. Sobre el nmero de sujetos necesario: para que los anlisis tengan suficiente consistencia y sean
extrapolables a muestras semejantes, conviene que haya al menos cinco sujetos por tem inicial (si partimos
de 40 tems nos harn falta 5x40 = 200 sujetos aproximadamente)10. Si se piensa hacer despus un anlisis
factorial debe haber unos 10 sujetos por tem y en cualquier caso no deben ser menos de 200. Con
muestras ms reducidas los anlisis pueden presentarse como tentativos que se pueden confirmar (o no) en
otras muestras. En cualquier caso siempre es preferible un nmero grande de sujetos.
Los instrumento hechos con muestras pequeas, lo mismo que los anlisis de tems, fiabilidad, etc.,
que hagamos, pueden tambin ser informativos y tiles con la muestra que nos ha servido para construir el
instrumento. El problema est en utilizar este instrumento en otras muestras. Aun as un instrumento
construido con una muestra pequea puede convertirse en un buen estudio piloto, y adems tambin se
pueden ir acumulando datos y anlisis de muestras pequeas (y semejantes) hasta llegar a un nmero de
sujetos apropiado.
Un problema que puede surgir es cuando los sujetos omiten sus respuesta a algunos tems. Hay varios
procedimientos para sustituir los valores que faltan que ms o menos dan los mismos resultados; el ms
recomendable parece ser el sustituir los valores que faltan por el valor de la respuesta media del sujeto11.
9. Anlisis de tems y comprobacin de la fiabilidad

En primer lugar y una vez obtenidos los datos calculamos: 1 la media y la desviacin de los totales
(cada sujeto tiene una puntuacin total, que es la suma de todas sus respuestas a los tems) y 2 la media y
la desviacin de cada tem. A continuacin llevaremos a cabo el anlisis de tems y calcularemos la
fiabilidad.
10 Esta recomendacin es de Nunnally (1978).

11 Puede
verse tratado este tema en Dodeen (2003).

9.1. Anlisis de tems

Los tems, tal como los hemos redactado, constituyen una definicin operativa, provisional e
hipottica, del rasgo que vamos a medir. Ahora tenemos que comprobar si cada tem mide lo mismo que los
dems, y por lo tanto es sumable en una puntuacin total que supuestamente mide el rasgo y que es la que
despus interpretamos y utilizamos. Esta comprobacin la hacemos mediante el anlisis de tems.
Lo que queremos comprobar es si las respuestas tienden a covariar, es decir, si los sujetos tienden a
responder de manera coherente, de manera que podamos deducir que todos los tems expresan el mismo
rasgo. En definitiva comprobamos si los tems tienden a diferenciar a los sujetos, si discriminan
adecuadamente.
Los procedimientos que podemos utilizar son dos, la correlacin tem-total y el contraste de medias
de los grupos extremos. Con ambos mtodos llegaremos a resultados muy parecidos.
9.1.1. Correlacin tem-total

Propiamente no se trata de la correlacin de cada tem con el total, sino de la correlacin de cada
tem con la suma de todos los dems (o correlacin de cada tem con el total menos el tem). Lo que
deseamos comprobar es en qu medida el puntuar alto en un tem supone de hecho obtener un total alto en
el resto de la escala (en todos los dems tems).
Estos coeficientes de correlacin deben ser al menos estadsticamente significativos (o distintos de
cero en la poblacin). Los tems con una mayor correlacin con el total (o suma de todos los dems) son los
que tienen ms en comn y por lo tanto podemos pensar que miden lo mismo que los dems. Los tems
con correlaciones no significativas o muy bajas con respecto a las de los otros tems, los eliminaremos de
nuestra escala.
Cuando se calcula la correlacin con el total (y no con el total menos el tem), que es lo ms sencillo
con un programa de ordenador o con una hoja de clculo, hay una frmula que convierte esta correlacin
tem-total en la correlacin tem-total menos el tem, que es la que nos interesa.
Hay programas de ordenador (como el SPSS) que dan rutinariamente para cada tem la correlacin
tem-total (menos el tem) y la fiabilidad de todo el test o escala si suprimimos ese tem y se puede
apreciar rpidamente qu tems se pueden eliminar para que suba la fiabilidad. Esta informacin es til y
acelera el proceso, pero hay que tener presentes otras consideraciones:
En el cuadro 4 tenemos un ejemplo de la informacin que nos da el SPSS12.
RELIABILITY ANALYSIS - SCALE (ALPHA)
Item-total Statistics
V1
V2
V3
V4
Scale Mean
if Item Deleted
Scale Variance
if Item Deleted
Corrected Item
Total Correlation
Alpha
if Item Deleted
11,8156
11,9798
12,5663
12,9524
11,4695
9,5754
9,3022
10,0684
3618
,5028
,5548
,3131
,6177
,5207
,4835
,6695
Reliability Coefficients
N of Cases = 694
N of Items = 4
Alpha = ,6450
Cuadro 4
12
Una explicacin detallada sobre cmo utilizar el SPSS en la construccin de escalas en Morales, Urosa y
Blanco (2003). Este programa nos hecho el anlisis de tems (correlacin tem-total), la fiabilidad de toda la
escala y la fiabilidad si suprimimos un tem.
10
En este ejemplo metodolgico tenemos el anlisis de una breve escala de slo cuatro tems. Las
columnas que nos interesa examinar son las dos ltimas: la correlacin tem-total (menos el tem) y la
fiabilidad de todo el test o escala si suprimimos ese tem. En este ejemplo la fiabilidad obtenida es de .645,
pero si suprimimos el tem 4 (es el que tiene una menor correlacin con el total), sube a casi .67; si
suprimimos cualquier otro tem, baja la fiabilidad; habra que suprimir por la tanto el tem 4.
Estos programas facilitan notablemente el proceso, pero conviene hacer algunas observaciones
(aplicables tambin si utilizamos el contraste de los grupos extremos que veremos a continuacin).
a) Es cuestionable seguir cuasi mecnicamente procedimientos automticos; el constructor del
instrumento debe intervenir con sus propios criterios sobre lo que quiere medir y sobre las caractersticas
del instrumento (por ejemplo, incluir un nmero idntico de tems positivos y negativos)13.
b) Por otra parte estos programas nos dan la fiabilidad si suprimimos tems de uno en uno, pero no si
suprimimos ms de uno a la vez, y normalmente no interesa ir eliminando tems uno a uno sino en bloques
escogidos con algn criterio (como el tener una casi idntica correlacin tem-total, o buscando que haya un
nmero idntico de tems positivos y negativos).
c) Adems es normal que varios subconjuntos de tems tengan un fiabilidad idntica o similar, por lo
que habr que acudir a otros criterios en la seleccin definitiva de los tems (como consideraciones
conceptuales y resultados del anlisis factorial).
La correlacin tem-total que podemos encontrar ya programada es sumamente til, pero en principio
no debe ser la nica consideracin en la seleccin de los tems definitivos. Por esta razn en un apartado
posterior aadimos algunas consideraciones sobre la eleccin definitiva de los tems.
9.1.2. Contraste de medias en cada tem de los dos grupos con puntuaciones mayores y
menores en el total de la escala.
El procedimiento anterior es muy laborioso si no se hace con un programa de ordenador; un
procedimiento ms sencillo, y que aporta una informacin semejante, es comparar en cada tem el 25% con
puntuacin total ms alta con el 25% con puntuacin total ms baja14. Para esto:
1 Ordenamos a los sujetos de ms a menos, segn el total obtenido en toda la escala, y seleccionamos
dos subgrupos: grupo superior, el 25% con total ms alto, y grupo inferior, el 25% con puntuacin
total ms bajo; el 50% central no entra en este anlisis.
2 Calculamos la media y la desviacin tpica en cada tem de cada uno de los dos grupos, superior e
inferior;
3 Contrastamos las medias de estos dos grupos mediante la t de Student.
Lo que esperamos es que el 25% con una puntuacin total superior tenga una media
significativamente ms alta en cada tem que el 25% inferior. Podremos en este caso concluir que los tems
que simultneamente diferencian a los mismos sujetos estn midiendo lo mismo. Prescindiremos de los
tems que no discriminan (valores de t no significativos), y si son muchos o demasiados los que discriminan
(y esto sucede con frecuencia), podemos quedarnos con los ms discriminantes; siempre hay tems mejores
que otros en trminos relativos.
En la eleccin definitiva de los tems pueden intervenir adems otros criterios, como ya hemos
indicado y explicamos despus con ms detenimiento, pero en cualquier caso debe estar claro su poder
discriminatorio que a su vez nos confirma que los tems miden bsicamente lo mismo.
Para hacer estos anlisis conviene disponer los datos de manera clara y tener a al vista algn modelo
(no hay un modo nico de presentar los datos). Aunque hagamos todo el proceso con ordenador es
13 Ya hemos indicado que es til calcular la correlacin entre los dos subtotales (sumando por separado las
respuestas a los tems positivos y negativos); si la correlacin est en torno a .50 podemos excluir el influjo de
la aquiescencia en las respuestas.
14 Este anlisis se hace muy fcilmente con una hoja de clculo tipo EXCEL.
11
importante saber qu estamos haciendo, y adems, tal como nos vienen los resultados del ordenador, no es
siempre la mejor manera de presentarlos.
En este ejemplo (ficticio y con resultados muy exagerados, cuadro 5) de un total de 40 sujetos
(nmero muy bajo si se tratara de un caso real) comparamos las respuestas de los 10 sujetos (25%) con
totales ms altos y ms bajos. Tambin es til calcular la media y la desviacin tpica de cada tem en toda
la muestra; las desviaciones tpicas de los tems en toda la muestra nos harn falta despus para calcular la
fiabilidad.
Tambin se podran poner como ejemplos correlaciones tem-total, pero el contraste de medias de los
grupos extremos resulta ms grfico y es muy fcilmente comprensible.
5
tem
|| (2)
4
||||| (5)
||| (3)
n 1
en toda la muestra:
X =
=
25%
Superior
n 2
en toda la muestra:
X =
=
25%
Superior
|||| (4)
|||||| (6)
25%
Inferior
||| (3)
||||| (5)
|| (2)
n 3
en toda la muestra:
X =
=
25%
Superior
|| (2)
||||| (5)
|| (2)
|| (2)
||| (3)
| (1)
| (1)
25%
Inferior
25%
Inferior
||| (4)
diferencia
X s =3.9
= .70
|| (2)
||||||| (7)
X i = 1.4
= .66
t = 7.79
p < .001
X s = 4.4
= .49
X s - X i=
.3
t = 1.05
p > .05
X i = 4.1
= .70
| (1)
X s - X i=
2.50
X s = 2.8
= .49
X s - X i=
- 1.1
X i = 3.9
= 1.04
t=
p
Cuadro 5
En este ejemplo ficticio (cuadro 4; con datos exagerados, de fcil interpretacin):
El tem n 1 discrimina bien, el valor de t nos muestra que la diferencia entre los grupos superior e
inferior es muy superior a lo puramente aleatorio; este tem habra que retenerlo.
El tem n 2 discrimina poco, la diferencia no es significativa y habr que eliminarlo en la escala
definitiva.
El tem n 3 tiene discriminacin negativa, los del grupo inferior superan a los del grupo superior;
claramente este tem no es sumable con los dems, no mide lo mismo y hay que rechazarlo. En este
caso tambin puede suceder que est mal la clave de correccin.
Con cualquiera de los dos procedimientos (correlacin tem-total y contraste de medias entre los dos
grupos extremos) obtenemos un dato (r t) sobre la calidad del tem; ambos tipos de informacin nos dicen
si podemos considerar que el tem discrimina adecuadamente y consecuentemente si podemos considerar
que mide lo mismo que los dems.
Cul de los dos anlisis es preferible?
Los dos anlisis aportan informacin semejante; un tem que diferencia adecuadamente a los grupos
con total mayor y menor est claramente relacionado con el total de la escala; prcticamente con los dos
procedimientos se llega a la misma seleccin de tems, sobre todo si nos vamos a quedar con los mejores
tems. En la prctica el escoger un mtodo u otro es cuestin de conveniencia. Si disponemos de un
programa de ordenador como el SPSS, con la correlacin tem-total y la fiabilidad ya programados, es el
procedimiento ms cmodo y el que hoy da suele seguirse. En procesos de aprendizaje sobre cmo
construir escalas quizs el contraste de medias entre los grupos extremos es intuitivamente ms claro15.
15 El autor del procedimiento (Likert) recomienda y utiliza el contaste de medias, pero en su poca no se dispona
de los programas de ordenador con los que contamos hoy da.
12
9.2. Comprobacin de la fiabilidad y seleccin de los tems definitivos

Despus del anlisis de tems calculamos la fiabilidad (consistencia interna). Las frmulas ms
apropiadas son el coeficiente de Cronbach (o Kuder-Richardson 20 si se trata de tems dicotmicos; los
resultados son los mismos):
2i
1
=
k 1
2
t
k
k = nmero de tems
i2 = suma de las varianzas de todos los tems
2t = varianza de las puntuaciones totales
Aunque llevemos a cabo todo el proceso con un programa de ordenador, debemos tener muy claro
qu es lo que estamos haciendo. Lo que vamos a hacer es calcular la fiabilidad con distintos subconjuntos
de tems para quedarnos finalmente con la seleccin de tems que ms nos convenza como versin
definitiva de nuestro instrumento.
El proceso es el siguiente:
1 En primer lugar calculamos la fiabilidad de la escala inicial con todos los tems,
2 En un segundo lugar:
a) Eliminamos los tems que con ms claridad no son discriminantes (no diferencian bien a los
dos grupos extremos, o tienen las correlaciones tem-total ms bajas);
b) De nuevo recontamos a los sujetos su nueva puntuacin total (pues hemos eliminado algunos
tems)
c) Volvemos a calcular la fiabilidad de la nueva versin de la escala ms reducida.
3 Vamos repitiendo el proceso del paso anterior, calculando la fiabilidad cada vez con menos tems,
hasta que la fiabilidad empieza a bajar.
4 Nos quedamos en principio con la versin de la escala que tiene una fiabilidad ptima.
Los tems los vamos suprimiendo de uno en uno, o en pequeos bloques. No se trata de un proceso
totalmente mecnico, pues como comentaremos despus, pueden entrar otras consideraciones en la eleccin
de los tems, pero los tems que vamos reteniendo deben ser tems que correlacionan bien con el total (o que
diferencian bien a los sujetos en los grupos extremos).
En cualquier caso la norma de retener el subconjunto de tems que nos de una mxima fiabilidad es
vlida en principio, aunque siguiendo este criterio de manera literal no obtendremos necesariamente el mejor
instrumento posible.
Para calcular estos coeficientes de fiabilidad necesitamos estos datos que son los que entran en las
frmulas:
1. El nmero de tems, que ir variando cada vez segn vamos eliminando algunos.
2. La varianza de cada tem en toda la muestra, que debe estar calculada previamente; se suman las
varianzas de los tems que componen cada versin de la escala pues la suma de las varianzas de
los tems entra en la frmula el coeficiente de fiabilidad ( de Cronbach).
3. La varianza de los totales. sta es la parte ms laboriosa si no se hace con un programa de
ordenador, pues a cada sujeto hay que recontarle su nueva puntuacin segn se van eliminando
tems. De estos nuevos totales se calcula la varianza (y la media, que siempre ser un dato
descriptivo importante aunque no sea necesaria en el clculo de la fiabilidad).
Aunque no dispongamos de un programa de ordenador, estos clculos resultan ms sencillos si
tenemos los datos bien organizados, y siempre es til tener algn modelo a la vista. Una manera de ir
controlando el proceso es preparar un cuadro en el que se van viendo las sucesivas versiones de la escala
13
segn se va calculando la fiabilidad con unos tems y otros (como figura en el cuadro 6). Aunque utilicemos
un programa de ordenador es conveniente entender lo que realmente estamos haciendo, y adems un cuadro
como ste es una buena manera de presentar el proceso.
tems en las
versiones
sucesivas
nmero de tems
de cada versin
k
media de los
totales
desviacin tpica
Suma de las
de los totales
varianzas de los
2
tems i
coeficiente de
fiabilidad
todos los tems

eliminamos
tems n
eliminamos
tems n
eliminamos
tems n
Cuadro 6
En la tabla vamos colocando los datos que intervienen en la frmula. La media de los totales (de
cada nueva versin) no es necesaria para calcular la fiabilidad, pero conviene ponerla como dato descriptivo
de inters.
Si utilizamos este cuadro para presentar el proceso seguido, podra sobrar la columna de la suma de
las varianzas de los tems, porque este dato no es especialmente informativo aunque entra en la frmula de
la fiabilidad.
El proceso, como vamos viendo, es ste:
1 Calculamos el coeficiente de fiabilidad con todos los tems iniciales;
2 Eliminamos los peores tems y volvemos a calcular la fiabilidad y as sucesivamente hasta que
nos quedamos con el conjunto de tems que nos da la mayor fiabilidad.
Los datos de la frmula del de Cronbach van variando segn vamos eliminando tems. Cada vez
que eliminamos algn tem hay que contar a cada sujeto su nueva puntuacin total, pues
necesitamos conocer la varianza de los nuevos totales.
3 Cuando al eliminar tems vemos que baja la fiabilidad, damos por terminado el trabajo. Al final nos
quedamos con el subconjunto de tems que forme una escala con una fiabilidad ptima.
Este proceso, seguido de manera casi automtica, nos lleva a construir instrumentos (escalas de
actitudes en nuestro caso) de una calidad adecuada: la validez, al menos conceptual, la hemos ya procurado
al redactar los tems, y con un anlisis de tems que nos permite a desechar los peores, podemos garantizar
una fiabilidad aceptable (al menos la mayor posible en nuestro caso).
Sin embargo en estos procesos caben niveles de perfeccionismo, y a partir del mismo conjunto inicial
de tems cabe llegar a instrumentos mejores o peores. La inversin en tiempo, anlisis, confeccin y
comparacin de versiones distintas del mismo instrumento, etc., puede depender del uso pretendido del
mismo; no es lo mismo preparar una escala para una evaluacin sencilla de actitudes sin muchas
pretensiones, que para hacer una investigacin ms seria en torno a la actitud medida por nuestro
instrumento (no es lo mismo construir un instrumento como un simple ejercicio acadmico, o para una
experiencia didctica o para aportar un feedback a unos sujetos en una determinada situacin, que construir
una escala para medir un rasgo que va ser central en una tesis doctoral o en una investigacin ms seria o
que pensamos publicar). El rigor metodolgico no tiene que ser siempre el mismo, con tal de garantizar
siempre un rigor suficiente.
Si pretendemos construir un instrumento de una calidad superior, o simplemente deseamos hacerlo lo
mejor posible, ya hemos repetido que este proceso no tiene por qu ser automtico. Tambin tienen su
lugar nuestras propias ideas sobre lo que queremos medir, nuestra propia concepcin del rasgo. En la
eleccin definitiva del conjunto de tems que van a formar la escala deben entrar tambin otros criterios ms
14
conceptuales que modulen esta seleccin; con frecuencia tendremos versiones con distinto nmero de tems
que apenas difieren en fiabilidad.
En principio deben eliminarse aquellos tems que hacen que la fiabilidad sea menor, pero a veces
eliminando un tem apenas baja la fiabilidad y si no lo eliminamos la escala puede quedar menos coherente
con otros criterios (una idea o aspecto del constructo puede quedar mal representada o de manera muy
incompleta).
Otras veces entre los tems que contribuyen a una mejor fiabilidad hay alguno que, una vez
eliminados otros previamente, puede tener poco sentido porque desequilibra el significado, etc., y puede ser
mejor eliminarlo tambin. El que la fiabilidad vare en el tercer decimal importa poco.
Tambin puede suceder que con menos tems obtengamos una fiabilidad igual o semejante que con
un nmero mayor de tems. Frecuentemente tendremos ms tems de los que necesitamos para llegar a una
escala con una fiabilidad ms que aceptable.
Adems, y a la vista de lo que va sucediendo, podremos probar qu sucede si incluimos o excluimos
algunos tems en particular, o podemos ir comprobando la estructura factorial de las distintas versiones.
Es normal que de un conjunto de tems amplio nos pueda quedar ms de una escala, sobre todo si el
constructo medido tiene cierta complejidad. En estos casos la escala prevista puede quedar dividida en
subescalas, o podemos tener un instrumento largo que mide el rasgo ms general y que a la vez se puede
dividir en subescalas que dan puntuaciones de los componentes. Para este proceso (que aqu no tratamos de
manera especfica) suele utilizarse el anlisis factorial, que adems puede ser un buen mtodo
complementario para seleccionar los tems16.
Como estamos tratando del anlisis de tems y de la fiabilidad como criterios (no nicos) de calidad,
no debemos olvidar que aunque es verdad que en general a mayor nmero de tems tendremos una mayor
fiabilidad, tambin es verdad que con ms respuestas en los tems tambin aumenta la fiabilidad.
Procedimiento inverso, recomendado por algunos autores, y que puede ser preferible.
En vez de calcular la fiabilidad primero con todos los tems y de nuevo eliminando progresivamente
los que menos discriminan, podemos seguir el proceso inverso:
1 Calculamos la fiabilidad con el subconjunto de tems que ms discriminan (mayor correlacin con
el total o mayor diferencia entre los grupos extremos).
2 Aadimos unos pocos tems, los ms discriminantes de los que nos quedan y volvemos a calcular
la fiabilidad.
3 Damos la tarea por terminada cuando la fiabilidad empieza a bajar.
Con este procedimiento nos quedar normalmente una escala ms breve, sobre todo si partimos de
muchos tems. Los tems se pueden ir aadiendo de uno o en uno, o de cinco en cinco, o en pequeos
bloques de tems de discriminacin parecida. Como antes, se pueden tener tambin criterios ms
conceptuales, para que nos quede un instrumento equilibrado y a nuestro gusto.
Una alternativa ms sencilla (no siempre, depende de los medios disponibles) al clculo del coeficiente
(que en principio es el preferible) es utilizar alguna de las frmulas basadas en la particin del test o escala
en dos mitades. Para esto:

1 Al corregir la escala a cada sujeto se le calculan dos puntuaciones totales, una en los tems pares y
otra en los tems impares (y la suma de los dos subtotales ser el total de cada sujeto);
2 Despus se calcula la correlacin entre las dos mitades pues esta correlacin entra en estas
frmulas de la fiabilidad basadas en la particin del test en dos mitades17.
Conviene repasar en otro lugar todo lo referente a estas frmulas; en principio es preferible utilizar las
frmulas del coeficiente de Cronbach o Kuder-Richardson 20.
16 Ejemplos de anlisis factoriales de diversas escalas e instrumentos en Morales (2005).
17 Hay varias frmulas de la fiabilidad basadas en la particin del test en dos mitades y conviene revisarlas antes
de escoger una, pero en cualquier caso siempre es preferible calcular el coeficiente de Cronbach.
15
10. Otras consideraciones en torno a la eleccin de los tems definitivos

Ya hemos indicado que todo el proceso (calcular la fiabilidad con diversos conjuntos de tems) puede
hacerse tambin con programas de ordenador, pero la decisin sobre qu tems hay que ir excluyendo (o
incluyendo) supone tambin valoraciones racionales; las soluciones automticas que nos puede dar un
programa de ordenador no son necesariamente las mejores. Por eso concretamos aqu algunas orientaciones
ms especficas.
En la eleccin de los tems de la versin definitiva de la escala, el valor de t ( o de rit) es importante
(indica discriminacin y sin discriminacin no hay medida), pero supuesto un valor significativo y alto (alto
en trminos relativos), pueden entrar otros criterios en la eleccin de los tems (incluso aunque baje algo la
fiabilidad de toda la escala), como los que exponemos a continuacin.
1 Equilibrio entre tems positivos y negativos
Podemos incorporar un nmero ms o menos igual de tems positivos y negativos (con la clave de
correccin controlamos que todas las respuestas se puedan sumar: el mximo acuerdo en unos tems ser
equivalente al mximo desacuerdo en otros tems).
Esta es una buena prctica como ya indicamos al principio al tratar de la redaccin de los tems,
porque con tems en las dos direcciones se controlan mejor las respuestas aquiescentes, y adems el
constructo suele quedar mejor expresado. Lo que no es tan fcil ni frecuente es que en la edicin final haya
un nmero de tems idntico en cada direccin (tampoco es especialmente necesario).
Si tenemos un nmero de tems aproximadamente idntico en ambas direcciones (favorables y
desfavorables a la actitud medida) es til calcular a cada sujeto dos puntuaciones parciales sumando por
separado ambos tipos de tems, y calcular despus la correlacin entre estas dos subescalas o totales
parciales; si esta correlacin es del orden de .50 tenemos una garanta razonable que ambos tipos de tems
miden lo mismo y que no est operando la aquiescencia (tendencia a responder preferentemente de
acuerdo a cualquier tem).
2 Cuidar ms la representatividad del contenido de las formulaciones de los tems
En le seleccin definitiva de los tems que van a conformar nuestra escala, podemos buscar una
homogeneidad conceptual ms ntida. Quizs veamos, por ejemplo, que al eliminar dos tems que
discriminan poco, nos sobra un tercer tem que s discrimina y que incluye la misma idea que los dos
eliminados, pero el conjunto de la escala puede quedar muy desequilibrado en cuanto al significado global.
Todo esto puede depender de apreciaciones personales; siempre hay que tener claro que es importante la
interpretabilidad de los datos en funcin de un rasgo o actitud bien definida (aunque un rasgo se puede
definir bien de manera muy genrica o compleja y tambin de manera muy especfica).
Un ejemplo posible: en una escala de actitud hacia el estudio incluimos cuatro tems en torno a la
idea de competitividad. Si dos o tres de estos tems no discriminan en el conjunto de la escala, puede ser
preferible no incluir en la escala la idea de competitividad (aunque baje algo la fiabilidad) y medirla de otra
manera si nos interesa, con otro instrumento o con unas preguntas adicionales. Nos quedar un concepto de
actitud hacia el estudio con un significado ms restringido que el que buscbamos en primer lugar.
3 Incluir de manera equilibrada aspectos distintos (subescalas) del mismo rasgo general
Tambin nos puede interesar que estn representados con idntico nmero de tems (o en nmero
suficiente) ideas que reflejan matices distintos (subrasgos) dentro del rasgo general. En ocasiones un
instrumento, adems de medir un rasgo general, se puede subdividir en subescalas para medir por separado
aspectos distintos. Un instrumento que mida, por ejemplo, autoestima o asertividad, etc., se puede dividir en
subescalas que midan por separado aspectos distintos de la autoestima o de la asertividad. En este caso tanto
las subescalas como la escala formada por todos los tems, deben tener una fiabilidad aceptable. Si se
pretende construir un instrumento de este estilo, es til estudiar las posibilidades del anlisis factorial como
ya se ha indicado; este tipo de escalas suelen denominarse escalas factoriales.
16
4 Incorporacin de nuevos tems

Cuando con pocos tems que en principio nos convencen porque expresan bien lo que deseamos
medir, no alcanzamos una fiabilidad adecuada, podemos acudir a las frmulas que nos dicen cuntos tems
del mismo estilo (de formulaciones parecidas) deberamos aadir para alcanzar una fiabilidad determinada18.
Tambin puede suceder que algunos de los tems eliminados en el anlisis, y que conceptualmente nos
parezcan adecuados, simplemente estn mal formulados y haya que hacer una redaccin nueva.
5 Preparacin de dos versiones, corta y larga, de la misma escala
Con frecuencia podremos observar que un nmero reducido de tems nos da una fiabilidad aceptable.
Puede ser interesante hacer dos versiones, una la versin normal o larga, y otra breve, quizs con una
fiabilidad menor, pero apta para muchos de los usos de estos instrumento. Podemos verificar qu fiabilidad
obtenemos seleccionando solamente los mejores tems, que pueden ser muy pocos (cinco o seis, por
ejemplo).
Estas versiones breves suelen ser tiles como instrumentos complementarios en investigaciones en las
que el nfasis o el inters del investigador est en otro rasgo distinto, pero le interesa adems medir otras
variables con suficiente precisin pero utilizando instrumentos breves y econmicos.
6 Explicacin o redefinicin del rasgo medido por nuestro instrumento
En esta observacin no nos referimos a la seleccin definitiva de los tems, sino a las consecuencias
de esta seleccin. A veces, y a la vista de los tems que han sido retenidos en la escala definitiva, habr que
redefinir lo que pretendemos medir o al menos explicarlo adecuadamente aunque se mantenga el nombre
del instrumento.
Los trminos para designar los rasgos suelen ser muy genricos, y de hecho instrumentos con el
mismo nombre (como actitud hacia el estudio, autoestima, etc.) pueden no coincidir en lo que de hecho
miden, que puede ser definido con unos lmites ms ajustados. Podemos comenzar, por ejemplo,
construyendo una escala de actitud hacia el estudio, pero al eliminar una serie de tems y fijarnos en los
que nos quedan, puede ser preferible hablar de nivel de aspiraciones, o de constancia en el estudio, etc.
(lo que de hecho estemos midiendo). Al menos debe quedar explicado de alguna manera.
11. Comprobacin de la validez y otros anlisis posteriores

Una vez que tenemos ya la versin definitiva de la escala, se hacen los dems anlisis segn los datos
de que dispongamos.
a) Se pueden calcular datos descriptivos (medias y desviaciones) de las diversas submuestras si las
hay,
b) Podemos construir baremos o normas de interpretacin (como los percentiles, estaninos, u otro
tipo de puntuaciones).
c) Se pueden comprobar diferencias entre grupos, correlaciones con otras variables, etc.; segn los
datos que hayamos obtenido simultneamente; o podemos pasar la escala a muestras nuevas
obteniendo a la vez otros datos que nos permitan hacer ms anlisis.
d) Sobre todo podemos comprobar de manera ms especfica y planificada la validez del nuevo
instrumento con los datos obtenidos simultneamente (o ya en estudios posteriores y con otras
muestras, pero esto es ms laborioso).
La confirmacin de la validez ms que un clculo es un proceso (los llamados coeficientes de validez
son simples correlaciones con un determinado criterio que no confirman necesariamente la validez de un
instrumento, sino una interpretacin especfica de los datos obtenidos con ese instrumento)
18 Estas frmulas que relacionan la longitud de un test y su fiabilidad suelen encontrarse en textos en los que se
trata de la fiabilidad de manera ms especfica y en la obra citada de Morales, Urosa y Blanco (2003).
17
No tratamos aqu de manera especfica sobre la validez, pero es til recordar ahora algunas ideas
bsicas sobre la validez y cmo probarla. No hay una prueba de validez en sentido estricto, pero s podemos
tener datos que apoyen una determinada interpretacin, avalen la utilidad del instrumento, etc.19
Una visin de conjunto de lo que entendemos por validez y de los modos de comprobarla est
resumida en el cuadro 7.
Cmo comprobamos el significado y la utilidad
Las interpretaciones se pueden
reducir a dos grandes tipos:
a) Interpretaciones sobre el
significado de lo que medimos
(validez de constructo)
A pesar de la validez aparente
de los tems, podemos medir, al
menos parcialmente, algo distinto
de lo que pretendemos, como
capacidad lectora, deseo de
presentar una buena imagen, etc.;
adems los que responden pueden
entender otra cosa distinta o no
entender lo que se les pregunta,
etc.
b) Interpretaciones sobre la utilidad
del instrumento (validez
predictiva, en sentido amplio)
analizando el contenido
con mtodos experimentales
Necesario pero no siempre

suficiente
Ms fcil en pruebas de rendimiento
escolar (nos ajustamos a un plan, a
una tabla de especificaciones);
Ms difcil o ms limitado:
a) Cuando tratamos de medir rasgos
ms abstractos (como son los
rasgos de personalidad);
b) Cuando queremos ampliar el
significado, o generalizarlo a
otras situaciones;
c) Cuando en las respuestas es ms
probable que influyan otras
variables (aquiescencia, deseo
de quedar bien, etc.)
No es una estrategia vlida o al
menos es insuficiente; pero el
anlisis del contenido ayuda a
formular hiptesis predictivas
Estrategias: comprobar hiptesis

sobre el significado de la variable
que medimos;
dos estrategias bsicas:
Validacin convergente;
Validacin divergente
Necesario siempre;
Mtodos correlacionales;
Problemas posibles: validez y
fiabilidad del criterio que se
pretende predecir
Cuadro 7
Con los estudios de validacin pretendemos, sobre todo, dos finalidades (que se apoyan
mutuamente):
1 Confirmar el significado previsto de la variable (de la actitud o rasgo) que pretendemos medir.
Se trata de verificar que la interpretacin es correcta (si, por ejemplo, decimos que estamos midiendo
actitud hacia el estudio, verificamos que es eso, y no otra cosa, como inteligencia, lo que de hecho
medimos). Este tipo de validez suele denominarse validez de constructo (constructo = rasgo). Confirmamos
el significado comprobando hiptesis basadas en el mismo significado; podemos utilizar dos tipos de
estrategias que se complementan:
1. Validez convergente: por ejemplo comprobando relaciones esperadas y plausibles (positivas o
negativas) con otras medidas:
a) unas pueden ser otros instrumentos que pretendidamente miden lo mismo (si hacemos una
escala de autoconcepto esperaremos una correlacin significativa con otras escalas de
autoconcepto);
b) otras pueden medir otras cosas pero con las que esperamos que haya relacin (como entre
actitud hacia el estudio y calificaciones escolares).
19 Sobre la validez las normas de la American Educational Research Association (A.P.A.) dicen que la validez se
refiere al grado en el que la evidencia y la teora apoyan (support) las interpretaciones de los tests de
acuerdo con el uso que se va a hacer de estos tests.
18
2. Validez divergente: comprobando que el rasgo no tiene relacin con otros con los que no
esperamos que la tenga o que se diferencia de otros del mismo mbito (la asertividad de la
agresividad, puede haber relacin pero no tan alta que nos permita concluir que ambos
instrumentos miden lo mismo); podemos tambin comprobar si la escala diferencia grupos que ya
sabemos que son diferentes en esa variable.
Hay otros mtodos para confirmar, matizar, describir mejor o explorar el significado de lo que
medimos, como es el anlisis factorial y otros tipos de anlisis.
2 Comprobar la utilidad prctica del instrumento
En este caso verificamos, por ejemplo si existen correlaciones apreciables con determinados criterios
(como rendimiento acadmico, xito en una tarea, etc.; se trata de validez predictiva en sentido amplio).
Esta comprobacin de la utilidad tambin aporta datos a la comprobacin del significado.
12. Sugerencias para obtener datos adicionales que faciliten la validacin de la

escala
Las sugerencias puestas a continuacin estn estructuradas pensando en los posibles anlisis sobre la
validez, pero en cualquier caso siempre es til e informativo hacer algn estudio de tipo correlacional o de
comparacin de grupos.
12.1. Confirmacin del significado pretendido (validez de constructo)
Los anlisis pueden tener dos enfoques bsicos (hay ms), como son 1 los estudios correlacionales y
2 las comparaciones entre grupos.
Por lo que respecta a los anlisis correlacionales, y para tener una visin de conjunto, vamos a
pensar en tres tipos de relaciones (o en su caso, de no relaciones):
1 con instrumentos que miden el mismo rasgo (ms o menos)
2 con instrumentos que no miden el mismo rasgo, pero s otros rasgos que estn relacionados
(al menos como hiptesis razonable) con el que medimos nosotros
3 con instrumentos que miden otros rasgos con los que esperamos que no haya relacin (o
menor que si midieran el mismo rasgo).
12.1.1. Anlisis correlacionales
Podemos distinguir tres estrategias basadas en estudios correlacionales.
1 Relacin con otros modos de medir el mismo rasgo
Comprobamos la relacin entre nuestro instrumento y otros modos de medir el mismo rasgo.
Otros modos de medir lo mismo pueden ser:
a) Una pregunta amplia (hasta qu punto crees que eres as: etc.?) y sigue una descripcin de un
par de lneas del que supuestamente tiene el rasgo en un grado alto.
b) Otro mini-test de pocos tems que ms o menos mida lo mismo, por ejemplo:
1. Desde otra perspectiva (por ejemplo conductas probables en vez de opiniones),
2. Con un instrumento que mide el mismo rasgo pero construido con una tcnica distinta (por
ejemplo eleccin entre alternativas o un Semntico Diferencial)
c) Otra escala o test (o factor, o subescala, o seleccin de tems, etc.) de otro autor y que
supuestamente comprueba lo mismo (o muy parecido)
d) Si es posible, se puede comprobar la relacin entre autoevaluacin (si se trata de la medicin de
un rasgo propio ms que la actitud hacia otra cosa) y hteroevaluacion.
19
Estos nuevos instrumentos tienen un valor complementario, pueden ser muy breves y tambin
pueden ser simples preguntas.
2 Comprobacin de relaciones esperadas (positivas o negativas) con otros rasgos
Podemos comprobar tambin la relacin entre lo que mide nuestro instrumento y otros rasgos o
caractersticas distintas con las que esperamos que haya relacin (positiva o negativa):
a) Una lista de adjetivos o rasgos autodescriptivos que podran equivaler a una serie de tests de
personalidad; tambin se pueden sumar adjetivos que reflejen ms o menos el mismo rasgo
(mediante el anlisis factorial se pueden encontrar grupos de adjetivos relacionados entre s y
que reflejan un mismo rasgo subyacente a todos ellos).
b) Tests de personalidad (completos o en parte, subtests, etc. ),
c) Preguntas sueltas sobre diversos temas, otras actitudes, preferencias, etc. que, como hiptesis,
puedan tener relacin con la actitud medida; (por ejemplo preguntas de este estilo: de estas
profesiones cual te hubiera gustado ms para ti? Se escoge una entre varias, o se escoge una
de cada par, o se valoran todas independientemente, etc.).
3 Comprobar que no existe relacin donde no esperamos que la haya
Esta no relacin nos ayuda a distinguir unos rasgos de otros, sobre todo cuando pertenecen al misma
mbito conceptual y es fcil confundirlos.
La no relacin no hay que entenderla de manera literal; puede tratarse de relaciones, incluso
estadsticamente significativas, pero menores que con otros rasgos, y de acuerdo con un razonamiento
plausible.
1.2.1.2. Comparaciones entre grupos
El otro enfoque mencionado al principio de este apartado consiste en comparar grupos
supuestamente distintos en aquello que estamos midiendo.
a) Todas las comparaciones entre grupos equivalen a anlisis correlacionales (como en definitiva
todos los anlisis estadsticos): nos da lo mismo, por ejemplo, preguntarnos si los nios superan a las nias
en el rasgo o actitud A (y haremos un contraste de medias), que preguntarnos si el sexo est relacionado o
tiene que ver con la actitud A (y calcularemos un coeficiente de correlacin entre el gnero, 1 0, y la
actitud medida). Es ms, no slo hay una obvia relacin conceptual entre las dos preguntas (diferencia entre
medias o relacin), sino que mediante las frmulas oportunas podemos transformar un valor de la t de
Student en un coeficiente de correlacin.
b) Aun as nuestras preguntas espontneas son unas veces en trminos de relacin, y otras en
trminos de diferencias; ambos enfoques nos ayudan a formular hiptesis que podemos intentar confirmar,
y adems los procedimientos de anlisis son en principio distintos aunque en ltima instancia aporten la
misma informacin.
c) Al preparar nuestro instrumento de recogida de datos, debemos pensar qu preguntas podemos
hacer que identifiquen a los sujetos segn grupos de pertenencia (segn profesiones, edades, sexos, etc.) o
segn caractersticas personales de inters que permitan subdividir la muestra en subgrupos (preferencias
por A B, preguntas en relacin con el estilo de vida, valores, etc.)
d) El anlisis estadstico obvio ser un contraste de medias, o anlisis de varianza si las muestras son
ms de dos.
Resumiendo
Los anlisis sugeridos (correlaciones y comparaciones de grupos) no agotan todos los anlisis posibles
en relacin con la validez, pero s son los ms obvios y con frecuencia suficientes. Como ya hemos indicado
antes se trata en todos los casos de obtener datos para poder verificar hiptesis (y tambin para
explorar):
20
a) El instrumento mide algo relacionado (positiva o negativamente) con otras cosas con las que
lgicamente esperamos que haya relacin (validacin convergente).
Unas veces comprobamos relacin con el mismo rasgo medido de otra manera (o por otras
personas, por ejemplo auto y htero-evaluacion);
Otras veces comprobamos relacin con rasgos distintos pero lgicamente relacionados.
b) El instrumento mide algo que no est relacionado con lo que no se espera que lo est (validacin
divergente). La no relacin tambin es til para ver que no confundimos unas cosas con otras, y
porque tambin son datos informativos.
12.2 Confirmacin de la utilidad del instrumento (validez predictiva)
Bsicamente se trata de calcular coeficientes de correlacin entre el instrumento (lo que mide el test
o escala) y determinados criterios (como rendimiento acadmico, determinadas habilidades, etc.). Estos son
los coeficientes que suelen denominarse coeficientes de validez.
Tambin cabe hacer estudios meramente exploratorios o que respondan a hiptesis no directamente
relacionadas con la validez.
El complemento de la construccin de un instrumento pueden ser adems unas normas de
interpretacin (baremos), para los sujetos individuales que respondan: percentiles, estaninos, etc.
21
13. Bibliografa
13.1. Referencias bibliogrficas citadas
AMERICAN EDUCATIONAL RESEARCH ASSOCIATION, AMERICAN P SYCHOLOGICAL ASSOCIATION
and NATIONAL COUNCIL ON MEASUREMENT IN EDUCATION (1999). Standards for Educational
and Psychological Testing. Washington DC: American Educational Research Association
BARNETTE, JACKSON J. (2000). Effects of stem and Likert response option reversals on survey internal
consistency: if you feel the need, there is a better alternative to using those negatively worded stems.
Educational and Psychological Measurement, 60 (3), 361-370.
CAADAS OSINSKI, ISABEL y SNCHEZ BRUNO, ALFONSO (1998), Categoras de respuesta en escalas
tipo Likert. Psicothema, vol. 10, n 3, 623-631.
CHANG, LEI (1997). Dependability of Anchoring Labels of Likert-Type Scales. Educational and
Psychological Measurement, 57 (5), 800-807.
DODEEN, HAMZEH M. (2003). Effectiveness of Valid Mean Substitution in Treating Missing Data in
Attitude Assessment. Assessment & Evaluation in Higher Education. Vol. 28, n 5, 505-513.
GARDNER, DONALD G.; CUMMINGS, L.L.; DUNHAM, RANDALL B. and P IERCE, JON L. (1998). Singleitem versus multiple item measurement: an empirical comparison. Educational and Psychological
Measurement, 58 (6), 898-915.
MORALES VALLEJO, P EDRO (2005). Anlisis factorial en la construccin e interpretacin de tests,
escalas y cuestionarios. http://www.upcomillas.es/personal/peter/
MORALES VALLEJO, P EDRO (2006). Medicin de actitudes en Psicologa y Educacin, construccin de
escalas y problemas metodolgicos, tercera edicin revisada. Madrid: Universidad Comillas.
MORALES VALLEJO, P EDRO; UROSA SANZ, BELN y BLANCO BLANCO, NGELES (2003).
Construccin de escalas de actitudes tipo Likert. Una gua prctica. Madrid: La Muralla.
NUNNALLY, JUM C. (1978). Psychometric Theory. Second Edit. New York: McGraw-Hill.
WENG, LI-JEN (2004). Impact of the Number of Response Categories and Anchor Labels on Coefficient
Alpha and Test-Retest Reliability. Educational and Psychological Measurement, 64, 6, 956-972.
13.2. Sobre construccin de instrumentos

DEVELLIS, ROBERT (1991). Scale Development, Theory and Applications. Newbury Park: Sage.
EDWARDS, A.L., (1957a). Techniques of Attitude Scale Construction. New York: Appleton-CenturyCrofts.
GABLE, ROBERT K. AND WOLF, MARIAN B. (1986). Instrument Development in the Affective Domain.
Boston/Dordrecht/Lancaster: Kluwer-Nijhoff Publishing.
HENERSON, M.E., MORRIS, L.L. AND FIZT-GIBBON, C.T. (1978). How to Measure Attitudes, Beverly
Hills: Sage.
KING, M. AND ZIEGLER, M. (1975). Research Projects in Social Psychology. Monterrey: Brooks-Cole.
KLINE, P. (1986). A Handbook of Test Construction. New York: Methuen.
22
LIKERT, R. (1932). A Technique for the Measurement of Attitudes, Archives of Psychology, 140, 44-53
[en espaol en WAINERMAN, C.H. (Ed.), (1976). Escalas de medicin en las ciencias sociales.
Buenos Aires: Nueva Visin, 199-260 y en SUMMERS, GENE F. (Ed.) (1976). Medicin de
actitudes. Mxico: Trillas, 182-193].
MORALES VALLEJO, P EDRO (2006). Medicin de actitudes en Psicologa y Educacin, construccin de
escalas y problemas metodolgicos, tercera edicin revisada. Madrid: Universidad Comillas.
MORALES, PEDRO (2005). Anlisis factorial en la construccin e interpretacin de tests, escalas y
cuestionarios. http://www.upcomillas.es/personal/peter/
MORALES VALLEJO, P EDRO; UROSA SANZ, BELN y BLANCO BLANCO, NGELES (2003).
Construccin de escalas de actitudes tipo Likert. Una gua prctica. Madrid: La Muralla.
MORRIS, LYNN LYONS, FIZT-GIBBON, CAROL T AYLOR, AND LINDHEIM, ELAINE (1987). How to
measure attitudes. Newbury Park & London: Sage.
NUNNALLY, JUM C. (1978). Psychometric Theory. New York: McGraw-Hill.
SPECTOR, P AUL E. (1992). Summating Ratings Scale Construction: An Introduction. Newbury Park &
London: Sage.
WAINER, HOWARD AND MESSICK, SAMUEL (Eds.) (1983). Principals of Psychological Measurement.
Hillsdale, N. J.: Lawrence Erlbraun.
13.3. Colecciones de instrumentos

BEARDEN, WILLIAM O.; NETEMEYER, RICHARD G. AND MOBLEY, MARY E. (1993). Handbook of
Marketing Scales. Newbury Park: Sage.
BORICH, G.D., AND MADDEN, S.K. (1977). Evaluating Classroom Instruction, A Sourcebook of
Instruments. Reading, Mass.: Addison-Wesley.
COHEN, L. (1976). Educational Research in Classrooms and Schools. London: Harper & Row.
FISHER, JOEL AND CORCORAN, KEVIN J. (1994). Measures for Clinical Practice: A Sourcebook;
Couples, Families and Children. Portland: Portland State University, Oregon.
LAKE, D.G., MILES, M.B. AND EARLE JR., R.B. (1973). Measuring Human Behavior. New York:
Teachers College, Columbia University
MILLER, D.C. (1977). Handbook of Research Design. New York: David McKay.
NEWMARK, CHARLES S. (Ed.) (1996). Major Psychological Assessment Instruments. Second Edition.
Boston: Allyn & Bacon.
ROBINSON, JOHN P. AND SHAVER, P HILLIP R. (1980). Measures of Social Psychological Attitudes.
Ann Arbor, Mich.: Institute of Social Research, the University of Michigan.
ROBINSON, JOHN P.; SHAVER, P HILLIP R. AND WRIGHTSMAN, LAWRENCE S. (Eds.) (1991).
Measures of Personality and Social Psychological Attitudes. New York: Academic Press.
ROBINSON, JOHN P.; SHAVER, P HILLIP R. AND WRIGHTSMAN, LAWRENCE S. (Eds.) (1999).
Measures of Political Attitudes. New York: Academic Press.
SCHUESSLER, K.F. (1982). Measuring Social Life Feelings. San Francisco: Jossey-Bass
SHAW, M.E. AND WRIGHT, J.M. (1967). Scales for the Measurement of Attitudes. New York: McGrawHill.
STRAUSS, M.A. AND BROWN, B.W. (1978). Family Measurement Techniques, Abstracts of Published
Instruments, 1935-1974. Minneapolis: University of Minnesota Press.

Uía para Construir Escalas de Actitudes: Indice

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Uía para Construir Escalas de Actitudes: Indice

Cargado por

Copyright:

Formatos disponibles

GUA PARA CONSTRUIR

1. Por qu construimos una escala (o un test) en vez de limitarnos a una sola

2. Proceso de construccin de una escala de actitudes

3. Definicin de la actitud que se desea medir

4. Redaccin de los tems

Gua para construir escalas de actitudes

5. Redaccin y nmero de respuestas

Las respuestas en trminos de frecuencia estn especialmente avaladas por la investigacin

ordinariament con frecuencia muchsimas veces

6. Preparar la clave de correccin

respuestas y clave de codificacin

7. Preparar preguntas o instrumentos adicionales

La conveniencia de obtener ms o menos informacin adicional variar segn la situacin y la

8. Obtener datos de una muestra

9. Anlisis de tems y comprobacin de la fiabilidad

10 Esta recomendacin es de Nunnally (1978).

verse tratado este tema en Dodeen (2003).

9.1. Anlisis de tems

9.1.1. Correlacin tem-total

9.2. Comprobacin de la fiabilidad y seleccin de los tems definitivos

todos los tems

Gua para construir escalas de actitudes

en dos mitades. Para esto:

Gua para construir escalas de actitudes

10. Otras consideraciones en torno a la eleccin de los tems definitivos

Gua para construir escalas de actitudes

4 Incorporacin de nuevos tems

11. Comprobacin de la validez y otros anlisis posteriores

con mtodos experimentales

Necesario pero no siempre

Estrategias: comprobar hiptesis

12. Sugerencias para obtener datos adicionales que faciliten la validacin de la

Gua para construir escalas de actitudes

Gua para construir escalas de actitudes

Gua para construir escalas de actitudes

13.2. Sobre construccin de instrumentos

Gua para construir escalas de actitudes

13.3. Colecciones de instrumentos

Gua para construir escalas de actitudes

También podría gustarte