Fiabilidad de Los Tests

LA FIABILIDAD DE LOS TEST Y ESCALAS
Recordemos que la validez se refera al significado que podemos atribuir. Es decir, estar seguro de que se
mide lo que se dice medir, pero NO hay que entenderlo como una caracterstica del instrumento. Con una
validez alta podemos garantizar el significado de las puntuaciones de los sujetos.
Por tanto si cambio de muestra puede cambiar mi fiabilidad y mi validez, porque cambio de sujetos. Hay que
intentar que las muestras sean heterogneas.
CONCEPTOS PRELIMINARES DE FIABILIDAD.
La fiabilidad es una caracterstica de los resultados, de unas puntuaciones obtenidas en una muestra
determinada. Un mismo instrumento puede medir bien a los sujetos de una muestra, con mucha precisin y
mal, con un margen de error grande, a los sujetos de otra muestra.
En principio la fiabilidad expresa el grado de precisin en la medida. Con una fiabilidad alta los sujetos en
ocasiones sucesivas quedaran ordenados de manera semejante. Ej. Si tiene una actitud favorable hacia la
homosexualidad no puede a veces ser desfavorable.
Otro concepto es el de consistencia o predictibilidad. Un test es fiable si sabemos de antemano como va a
contestar un sujeto, y lo sabemos porque lo hemos comprobado en muchas ocasiones.
Errores sistemticos: son los que siempre ocurren. Ej. A cada sujeto se le dan dos puntos mas Estn
relacionados con la validez.
Errores aleatorios: los que ocurren al azar. Relacionados con la fiabilidad.
ENFOQUES DE LA FIABILIDAD.
1. Como formas paralelas.
Son dos versiones del mismo test: los tems son distintos pero se pretende medir lo mismo. Se espera que un
sujeto saque en ambos test las mismas puntuaciones verdaderas.
La puntuacin emprica se divide en la puntuacin verdadera y en los errores (modelo lineal de Spearman).
Condiciones para que sean formas paralelas:
1 Las puntuacin empricas pueden ser diferentes pero las verdaderas son siempre iguales.
2 La dispersin de los errores o la varianza error debe ser la misma en ambos test.
Indicador de equivalencia.
Puede ser un indicador de equivalencia entre los dos test: si la correlacin es alta, las dos formas del mismo
test dan resultados parecidos, es decir, ambas son intercambiables. Si la correlacin es baja, miden cosas
distintas.
Confirmacin adicional.
Una confirmacin adicional para ver que son formas paralelas es comprobar si la correlacin media Inter
tem dentro de cada forma es de magnitud similar y tambin la correlacin de los tems de una forma con los
de la otra versin.
2. Estabilidad Temporal (Test Retest)
Los sujetos responden dos veces al mismo test dejando un intervalo de tiempo entre ambas.
Se refiere a que si el test se aplica hoy o dentro de un tiempo, siga siendo valido y fiable, es decir, que se
encuentre una relacin entre lo que se obtiene hoy y lo que se obtiene mas adelante.
Indicador de estabilidad.
Es un indicador de estabilidad o de no ambigedad en la medida en que en ambas ocasiones los resultados son
parecidos.
3. Consistencia Interna.
Expresa hasta que punto las respuestas son suficientemente coherentes y relacionadas para concluir que todos
los tems miden lo mismo y son sumables en una puntuacin nica que representa o mide un rasgo
(recordemos que estamos en la escala tipo Lickert y que para sumar tems deben medir lo mismo).
Podemos hallarla de dos maneras:
Procedimiento de las dos mitades: mediante a) la formula de Spearman Brown, b) Flanagan, c) de
Cronbach.
Es habitual dividir el test en tems pares e impares, pero puede dividirse en dos mitades cualesquiera, teniendo
ambas el mismo numero de tems.
Si emparejamos los tems segn contenido de manera que cada mitad del test conste de tems muy parecidos,
obtendremos una estimacin ms alta de la fiabilidad.
Cuando la mitad de los tems son positivos y la otra negativos es til que las dos mitades estn compuestas
una por tems positivos y otra por los negativos. Una correlacin entre los dos subtest en torno a 0,50 o mayor
indica suficiente coherencia entre los dos tipos de tems y no se manifiesta aquiescencia.
Se parte el test en dos mitades, y para decir que son formas paralelas tienen que tener: a) la misma media, b) la
misma varianza. Y si los correlaciono me dara la fiabilidad de una parte o de otra (son la misma) y con el
coeficiente de Spearman Brown hallamos la fiabilidad del conjunto.
R12 = correlacin entre las dos mitades del test
Esta formula calcula la fiabilidad de todo el test.
Supone que las dos mitades tienen medias y varianzas idnticas, por lo que sobreestima la fiabilidad.
Procedimiento informativo de cada tem: cuando parto el test en tantas partes como tems hay.
Podemos usar el de Cronbach (para tems continuos) y la KuderRichardson (para tems
dicotmicos).
Son preferibles a los mtodos de las dos mitades porque equivalen a la fiabilidad media que obtendramos
2
dividiendo un test en todas sus posibles dos mitades.

SUPUESTOS DE LA TEORIA CLASICA
1 La media emprica es igual a la media verdadera mas los errores. X = V + E
2 La media de los errores tiene que ser 0, es decir aleatorios.
3 No tiene que haber relacin entre la puntuacin verdadera y los errores, porque sino serian sistemticos.
4 La correlacin entre los errores de dos test paralelos tiene que ser 0 porque sino serian sistemticos.
COEFICIENTES DE CONSISTENCIA INTERNA
La varianza de las puntuaciones totales de un test es:
= Varianza total: expresa todo lo que hay de diferente en las puntuaciones totales. La varianza ser mayor si
los sujetos difieren mucho entre si y estar asociada a mayor fiabilidad.
= Varianza verdadera: expresa lo que hay de diferente debido a que los sujetos son distintos en lo que
pretendemos medir, es decir, lo que hay de diferente debido a lo que los tems tienen en comn.
= Varianza debida a errores de medicin: debida a que los tems miden en parte cosas distintas. Puede haber
ms fuentes de error pero controlamos la debida a falta de homogeneidad.
La fiabilidad es la proporcin de varianza verdadera, es decir la fiabilidad es igual a la varianza debida a lo
que hay de coherente en las respuestas entre la varianza debida tanto a lo que hay de coherente como de no
coherente en las respuestas y su formula bsica es:
REQUISITOS PARA UNA FIABILIDAD ALTA.
1 Tendremos una fiabilidad alta cuando haya diferencias en las respuestas a los tems, es decir, cuando los
tems discriminan. Si un tem no esta relacionado con los dems puede ser que no este midiendo lo mismo y
que no sea discriminante.
2 Y tambin cuando las respuestas de los tems estn relacionadas entre si, entonces habr consistencia
interna. Esto es que los sujetos tienden a puntuar alto en todos o bajo en todos.
Con respuestas diferentes y adems coherentes, los sujetos quedan ms diversificados, mejor clasificados por
sus puntuaciones totales y esto se refleja en una mayor varianza.
La fiabilidad viene a expresar la capacidad del instrumento para discriminar, para diferenciar a los sujetos a
travs de sus respuestas en todos los tems.
FORMULAS DE KUDER RICHARDSON 20 Y DE CRONBACH
Se trata de la misma formula, una expresada para tems dicotmicos y otra para tems continuos.
El denominador es la varianza de las puntuaciones totales del test.

El numerador es la varianza verdadera, o la suma de covarianzas de los tems.
Si los tems no discriminan sus desviaciones tpicas sern pequeas, bajara el numerador y bajara la fiabilidad.
Si las desviaciones tpicas son grandes pero los tems no estn relacionados bajara la fiabilidad, porque esa no
relacin entre los tems hace que las puntuaciones totales estn menos diferenciadas.
Coeficiente de Cronbach.
K = numero de tems
= suma de las varianzas de los tems
= varianza de los totales.

Formula Kuder Richardson.
FACTORES QUE INCIDEN EN LA MAGNITUD DEL COEFICIENTE DE FIABILIDAD.
Los coeficientes de fiabilidad tienden a aumentar cuando:
La muestra es heterogenea: es ms fcil clasificar a los sujetos cuando son distintos.
La muestra es grande: es ms probable que haya sujetos muy distintos.
Las respuestas a los tems son ms de dos: mayor probabilidad de que las respuestas difieran mas,
de que se manifiesten las diferencias que de hecho existen.
Cuando los tems son muchos: hay ms oportunidad de que los sujetos queden ms diferenciados en
la puntuacin total.
Si queremos aumentar la fiabilidad del test podemos aumentar el numero de tems siempre que sean buenos y
relacionados. Pero la relacin longitud fiabilidad no es lineal (porque sino seria infinita), la relacin que hay
entre ambas muestra un efecto techo.
En test cortos no muy fiables si aumentamos el numero de tems aumentara mucho la fiabilidad, sin embargo
en test largos pasa lo contrario, la fiabilidad aumenta poco por el efecto techo.
Para aumentar los tems existen unas formulas (Pg. 9)
La formulacin de los tems es muy semejante: si hay diferencias entre los sujetos, aparecern en
todos los tems y subirn sus intercorrelaciones.
INTERPRETACION DE LOS COEFICIENTES DE CONSISTENCIA INTERNA.
Expresa la proporcin de varianza debida a lo que los tems tienen de relacionado. Un coeficiente de
0,70 indica el 70% de la varianza se debe a lo que los tems tienen en comn, y un 30% se debe a
errores de medicin.
4
Son indicadores de homogeneidad de los tems, de que todos midan lo mismo. La homogeneidad
conceptual se interpreta como descriptor del rasgo que suponemos presente en todos los tems.
Son una estimacin del coeficiente de correlacin que podemos esperar con un test similar, con el
mismo nmero y tipo de tems. De un universo de posibles tems hemos escogido una muestra de
tems. Si la fiabilidad es alta, con otra muestra de tems de la misma poblacin de tems obtendramos
unos resultados semejantes.
La fiabilidad nos dice si un test discrimina adecuadamente, si clasifica bien a los sujetos, si detecta
bien las diferencias en aquello que es comn a todos lo tems.
La raz cuadrada de un coeficiente de fiabilidad equivale al coeficiente de correlacin entre las
puntuaciones obtenidas y las puntuaciones verdaderas, a estos e le llama ndice de precisin.
Una fiabilidad de 0,75 indicara una correlacin de 0,86 (=
). Este ndice expresa el valor mximo que puede alcanzar el coeficiente de fiabilidad.
El error tpico es la oscilacin probable de las puntuaciones si los sujetos hubieran respondido a una
serie de test paralelos. A mayor fiabilidad bajara la magnitud del error probable.
CUANDO UN COEFICIENTE DE FIABILIAD ES SUFICIENTEMENTE ALTO.
Tabla 3
Cuando baja la fiabilidad sube el error tpico, que con una forma paralela del mismo test podra ser distinta.
Los valores del coeficiente de fiabilidad oscilan entre 0 y 1.
UTILIDAD DE LOS COEFICIENTES DE FIABILIDAD.
1 En principio confirman que todos los tems miden lo mismo y se utilizan como un control de calidad.
2 Permiten calcular el error tpico de las puntuaciones individuales, es decir, entre que valores se encontrara
nuestra puntuacin verdadera, entendiendo por ello la que tendramos si passemos varios test.
3 Permiten estimar los coeficientes de correlacin que hubiramos obtenido entre dos variables si su
fiabilidad fuera perfecta (se denominan corregidos por atenuacin).
Los coeficientes no dependen exclusivamente de la redaccin de los tems, de la complejidad o simplicidad de
la definicin del rasgo que queremos medir y adems influyen en la fiabilidad caractersticas de la muestra.
Por que un coeficiente alto no expresa necesariamente que los tems son suficientemente homogneos.
1 La consistencia interna expresa una relacin de hecho, estadstica, entre los tems pero no supone
necesariamente una coherencia conceptual.
2 Una fiabilidad alta puede deberse a un numero grande de tems que en ocasiones no se prestan a una
interpretacin clara.
Una fiabilidad alta se puede conseguir con muchos tems con relaciones bajas entre si y tambin con dos
bloques de tems con claras correlaciones entre los tems dentro de cada bloque, pero con poca o nula relacin
con los tems del otro bloque.
3 Puede deberse tambin a una concepcin del rasgo muy limitada, con tems de contenido casi idntico.
Error tpico de la medida.

Es de utilidad en interpretaciones individuales.
Viene a ser la desviacin tpica de las puntuaciones verdaderas, e indica el margen de error o variacin de las
puntuaciones individuales.
El mejor uso del coeficiente de fiabilidad es utilizarlo para calcular el error tpico cuando interese situar a casa
uno en su banda de posibles probables resultados.
El error tpico se interpreta como cualquier desviacin tpica e indica la variabilidad probable de las
puntuaciones obtenidas, observadas
Las puntuaciones verdaderas.
Es la media ms probable que un sujeto hubiera obtenido si le hubiramos medido repetidas veces en el
mismo rasgo.
Las puntuaciones verdaderas tienden a ser menores que las obtenidas cuando estas son superiores a la media y
mayores cuando son inferiores a la media.
La puntuacin verdadera exacta no la sabemos pero podemos estimar entre que limites se encuentra.
Correlacin corregida por atenuacin.
La correlacin calculada entre dos variables queda siempre disminuida por los errores de medicin, por su no
perfecta fiabilidad. Esta correlacin corregida por atenuacin es la que hubiramos obtenido si hubisemos
podido suprimir los errores de medicin en las dos variables.
Conociendo la fiabilidad de las dos variables podemos estimar la verdadera relacin:
rxx y ryy son coeficientes de fiabilidad.
CUANDO TENEMOS COEFICIENTES DE FIABILIDAD BAJOS.
1 Puede ser debido a una inadecuada formulacin de los tems.
Puede que los sujetos entiendan los tems de una manera distinta a como lo pretende el autor del instrumento.
La coherencia conceptual prevista la comprobamos con la coherencia que de hecho encontramos en las
respuestas; y si no entienden el significado previsto habr que eliminarlos.
2 Homogeneidad de la muestra.
A veces la causa es que apenas hay diferencias entre los sujetos. Y si no hay diferencias tampoco habr
relacin clara y verificada entre las respuestas.
3 Definicin compleja del rasgo medido.
Una fiabilidad baja con una muestra heterogenea puede significar una concepcin del rasgo excesivamente
compleja.
Los rasgos definidos de manera compleja pueden tener tems poco relacionados entre si.
4 Utilidad del error tpico cuando la fiabilidad es baja.
Con coeficientes bajos siempre es conveniente utilizar el error tpico, sobre todo cuando se trata de tomar
decisiones sobre sujetos.
FORMULAS QUE RELACIONAN FIABILIDAD CON NMERO DE ITEMS
Si queremos saber en cuanto aumentara la fiabilidad si aumentamos el numero de tems multiplicando
el numero de tems inicial, tenemos la formula de Spearman Brown :
rxx es el coeficiente de fiabilidad conocido.
Rxx es el nuevo coeficiente de fiabilidad estimado.
n es el numero de formas paralelas que alargo en el test inicial.
Ejemplo: tenemos un test inicial de 20 tems con una fiabilidad de 0,42, y le vamos a aadir otros 20 tems.
20 tems rxx = 0,42
40 tems rxy
NO podramos hacer una regla de tres porque eso supondra una relacin lineal, que ya hemos dicho que no
existe entre longitud del test y fiabilidad, pues sino aumentara hasta el infinito.
En este ejemplo n (numero de formas paralelas) no es 20 porque eso supondra que tendramos 400 tems en
vez de 40. El test inicial de 20 tems tiene 1 forma paralela, as que si ahora aado otros 20 tems aado otra
forma paralela, n = 2. Cuando ya tenemos 40 tems y 2 formas paralelas se le llama forma alargada del test.
Si tenemos una fiabilidad conocida y queremos llegar a otra ms alta, en cuantos tems tendramos
que alargar el test?
rnn es la fiabilidad deseada.
r11 es la fiabilidad obtenida con el nmero original de tems.
Ejemplo del ejercicio 7:
Si tenemos una fiabilidad de 0,70 y queremos llegar a una fiabilidad de 0,90, sustituiramos en la formula y
nos dara n = 3, 86 formas paralelas.
Ahora en este caso si se podra utilizar la regla de tres.
40 tems 1 forma paralela
X tems n 1 = 2,86 formas paralelas
Y el resultado seria 115 tems que vamos a aadir..
OJO!: no confundirnos al poner n = 3,86 que ha sido lo que nos ha dado en la formula, porque hay que
7
restarle la forma paralela que ya tenamos en el test inicial. Si no la restamos nos saldran 154 tems que son el
total, no los que hemos aadido (115).
Los casos que hemos visto siempre nos salen nmeros redondos pero puede suceder que no lo sean, en
cualquier caso el procedimiento seria el mismo:
Inicial 15 tems 1 forma paralela
Aado 10 tems n 1 = 0,66 (sale de una regla de tres)
Final 25 tems n = 1,66 forma paralela.
TEMA V. INTRODUCCION A LOS METODOS NO PARAMTRICOS:
Los mtodos no paramtricos no suponen condiciones previas en la poblacin. Se han hecho especialmente
populares como alternativa los mtodos paramtricos cuando los datos no se ajustan a los supuestos tericos
de dichos mtodos. Son relativamente sencillos y especialmente aptos para muestras pequeas.
I. LOS SUPUESTOS DE LOS METODOS PARAMTRICOS:
EN RELACION AL TIPO DE ESCALA O NIVEL DE MEDIDA:
Lo que supone es que la escala utilizada es de intervalo, es decir, que hay una unidad propiamente dicha
aunque el punto cero sea arbitrario.
El problema de la unidad esta relacionado con las escalas de medida. En principio, el nivel de medida
condiciona las operaciones matemticas permisibles.
Los nmeros pueden significar un criterio de clasificacin:
En este caso no son nmeros en sentido propio. Se trata de las denominadas escalas nominales. En estos
casos podemos contar cuantos elementos hay en cada categora de clasificacin, pero los nmeros con los que
designamos los grupos no expresan necesariamente ni orden ni cantidad.
Los nmeros pueden significar orden:
En este caso tenemos escalas ordinales. Podemos ordenar los sujetos u objetos de ms a menos, pero no hay
una unidad en sentido propio.
Los nmeros pueden significar cantidad o distancia:
Aqu disponemos de una unidad en sentido propio (4 es el doble que 2) se trata de las escalas de intervalo (y
que si tienen un punto cero absoluto se denominan escalas de razn). Cuando disponemos de una unidad
podemos hacer los operaciones aritmticas habituales.
Si se da una correspondencia suficiente entre los modelos matemticos y los datos observados se denomina
isomorfismo.
El investigador Stevens plante el problema de la utilizacin de mtodos paramtricos con medidas que, en
sentido estricto, solo son ordinales y no disponen de una unidad.
Justificacin de la suposicin de una unidad en los datos de que disponemos:
8
Las razones aducidas para actuar de este modo son de dos tipos:
Unas consideraciones son de corte ms terico:
Suponemos que las escalas que utilizamos son de intervalo aunque imperfectas; las variables subyacentes o
rasgos los conceptualizamos como continuos y con distribucin normal. No se trata de escalas literalmente de
intervalo pero se aproximan lo suficiente como para tratar los datos como si lo fueran.
Otras razones son de tipo puramente experimental:
Los datos tericamente ordinales funcionan bien como si se tratara de escalas de intervalo. Podemos suponer
en la practica que, por ejemplo, entre poco y algo hay la misma distancia que entre algo y bastante como si
hubiera una unidad, por lo que podemos asignar a esas respuestas nmeros consecutivos.
Estas y parecidas razones hacen que el punto de vista dominante hoy da es que la distincin entre escalas
ordinales y de intervalo es irrelevante para determinar cual es el mtodo de anlisis apropiado para comprobar
hiptesis estadsticas. As, las pruebas paramtricas se consideran legitimas con medidas ordinales.
EN RELACION A LAS CARACTERISTICAS DE LAS POBLACIONES:
Se supone:
Una distribucin normal.
Homogeneidad de varianzas.
Esta suficientemente probado que en la mayora de las situaciones la violacin de estos supuestos no afecta al
poder (de rechazar la hiptesis nula cuando es falsa) de las pruebas paramtricas.
II. CUANDO ES PREFERIBLE UTILIZAR LOS METODOS NO PARAMETRICOS:
Los mtodos no paramtricos son una alternativa preferible cuando se dan estas dos circunstancias:
Cuando no se pueda presumir la normalidad en la poblacin: cuando muestras pequeas tienen
una distribucin obviamente muy alejada de la distribucin normal.
El supuesto de normalidad en la poblacin se puede asegurar mejor cuidando la calidad del instrumento. Lo
que ocurre es que a veces la calidad del instrumento no es modificable o simplemente se trata de estudios
improvisados en los que no se puede o no interesa invertir tiempo en el instrumento.
Con muestras pequeas de tamao claramente desigual y con varianzas obviamente muy
desiguales.
Independientemente de los problemas de los mtodos paramtricos, esta bien demostrada la calidad de los
mtodos no paramtricos.
Aun as, si los mtodos alternativos paramtricos se pueden utilizar son en principio preferibles porque en
ellos se utiliza toda la informacin disponible (no solamente el orden). La perdida de informacin es mayor en
la medida en que aumenta el numero de sujetos.
III. METODOS NO PARAMTRICOS MAS UTILIZADOS:
Los mtodos no paramtricos podemos dividirlos en dos grandes grupos segn se trate de datos nominales
9
(sujetos u observaciones clasificados en categoras) u ordinales (lo que conocemos y utilizamos de cada
observacin es su rango o numero de orden).
1. METODOS APROPIADOS PARA DATOS NOMINALES:
Clasificaciones:
En esta categora entran todas las variantes del ji cuadrado. Estos mtodos deben utilizarse junto con los
coeficientes de asociacin correspondientes (como el coeficiente , el coeficiente de contingencia,...etc)
Con frecuencia mtodos que requieren mtodos ordinales desembocan en la distribucin de ji cuadrado (sobre
todo al aumentar el tamao de la muestra) o simplemente se utiliza el orden para dicotomizar las puntuaciones
y aplicar despus el ji cuadrado convencional (como en la prueba de la mediana).
Para muestras independientes y muy pequeas, que se pueden disponer en cuadros de 2x2, y en las que por
el bajo numero de sujetos el ji cuadrado convencional no es aplicable, tenemos la prueba exacta de
Fhiser.
Para dos muestras relacionadas, tambin dispuestas en cuadros de 2x2, es muy til la prueba de McNemar
para detectar cambios: los sujetos se clasifican segn sus respuestas, 1 0, antes y despus. Lo que se
compara es la proporcin de unos antes y despus.
Para muestras muy pequeas divididas solo en dos categoras (equivale al contraste entre proporciones) es
muy til la aplicacin directa de la distribucin binomial (solo requiere consultar tablas).
La distribucin binomial es tambin aplicable a muestras grandes, pero en este caso la distribucin pasa a ser
normal y estamos en el caso habitual de diferencias entre proporciones.
Algunos mtodos que requieren datos ordinales terminan en la distribucin nominal, como la prueba de los
signos para verificar cambios; numero de sujetos con cambio positivo y numero de sujetos con cambio
negativo.
2. METODOS ORDINALES EN LOS QUE SE UTILIZAN RANGOS:
En estos mtodos se sustituye la puntuacin directa por su rango o numero de orden y se opera con estos
rangos. Aunque es cierto que existen algunos de ellos en los que no se utilizan sino que se supone que la
variable es ordinal y continua.
Los mtodos en los que se utilizan los rangos tienen en principio una ventaja obvia, y es que no se ven
afectados por sujetos con puntuaciones muy extremas y atpicas.
2.1. Cuando Tenemos Solamente Dos Muestras:
La U de MannWhitney para comparar dos muestras independientes: Es la alternativa ms utilizada a la t
de Student para muestras independientes. Comprueba si dos distribuciones son distintas.
La T de Wilcoxon para dos muestras relacionadas: Es tambin la alternativa ,ms utilizada a la t de Student
para muestras relacionadas. Se utiliza para detectar cambios o en diseos de sujetos igualados.
Para comprobar cambios (muestras relacionadas) es tambin popular la prueba de los signos, que solo requiere
datos ordinales y no utilizan los rangos.
Otros mtodos no paramtricos de inters suponen variables al menos ordinales y continuas aunque no se
utilicen los rangos, como sucede en:
10
La prueba de KolmogorovSmirnov para una muestra o para dos muestras independientes: no se utilizan
rangos sino frecuencias acumuladas, pero se supone, al menos, una escala ordinal.
Cuando se trata de dos muestras lo que se detecta con estas pruebas es si las muestras tienen distribuciones
distintas.
Aplicada a una sola muestra, esta prueba es especialmente til, como prueba de bondad de ajuste, para
verificar si la distribucin observada se aparta de una distribucin hipottica que suele ser la distribucin
normal.
La prueba de las rachas de WaldWolfowitz, semejante a la prueba de KolmogorovSmirnov, nos permite
determinar si las dos muestras pertenecen a poblaciones distintas en tendencia central o dispersin.
2.2 Cuando Tenemos Mas De Dos Muestras:
Cuando tenemos mas de dos muestras, estamos ante las alternativas no paramtricas al anlisis de varianza.
Para mas de dos muestras independientes:
La H de KruskalWallis: es una alternativa al anlisis de varianza ms sencillo: Anova AEFCA.
Cuando el supuesto de homogeneidad de varianzas no es sostenible, permite poner a prueba la hiptesis de
que varias medias proceden de la misma poblacin. Si hay rangos repetidos es ms difcil rechazar la
hiptesis nula pero el mismo procedimiento incluye los ajustes necesarios.
La prueba de Jonckheere comprueba si se da una tendencia significativa a aumentar de menos a mas, entre
varias muestras independientes.
Para mas de dos muestras relacionadas:
La prueba de Friedman: Es tambin una alternativa no paramtrica del anlisis de varianza convencional de
varias muestras relacionadas: Anova AEFMR.
En este anlisis de varianza parametrico disponemos, como calculo complementario, de los coeficientes de
fiabilidad. De manera anloga, como complemento de la prueba de Friedman se puede utilizar el coeficiente
W de Kendall, denominado coeficiente de concordancia, porque suele utilizarse para comprobar el grado de
coincidencia entre varios evaluadores que ordenan a los mismos sujetos u objetos. A partir del valor de W se
puede calcular rpidamente el valor medio de la correlacin entre las columnas y la fiabilidad de las filas
(sujetos) al ordenar a las columnas.
Este tipo de clculos son de inters precisamente para verificar el grado de concordancia, unanimidad,... etc.
Para mas de dos muestras relacionadas y cuando la variable dependiente es dicotmica contamos con la
prueba Q de Conchran (una extensin de la prueba de McNemar), que nos dice si las diferencias en las
condiciones (columnas) tiene un efecto significativo en las respuestas de los sujetos (filas).
La prueba de tendencia L de Page, que puede considerarse como una extensin de la prueba de Friedman,
se utiliza para comprobar si en una serie de puntuaciones se da una tendencia a aumentar o disminuir.
IV. LOS METODOS NO PARAMETRICOS MS COMUNES:
Si categorizamos las muestras segn sean dos o ms de dos, e independientes o relacionadas, los mtodos no
paramtricos posiblemente mas utilizados son:
11
PSICOMETRIA:
I. ANALISIS DE ITEMS EN LAS PRUEBAS OBJETIVAS:
1. EL CONTEXTO: LAS PRUEBAS OBJETIVAS:
Al estudiar el anlisis de tems de las pruebas objetivas, hay que tener en cuenta todo el contexto.
Las pruebas objetivos (tipotest) pueden ser muy cmodas fundamentalmente porque:
Las pruebas objetivas se pueden corregir con lectura ptica, la tarea es mecnica, simple,...,etc.
Con las pruebas objetivas es mas sencillo establecer criterios de clasifican y tambin pueden justificarse
mejor estos criterios.
En las pruebas objetivas la correccin s es objetiva, pero tanto la formulacin de las preguntas como donde se
pone el mnimo para el apto son decisiones subjetivas del autor.
Su frecuente mala calidad se debe sobre todo a:
No es tan fcil redactar buenas preguntas objetivas.
No es frecuente planificar estas pruebas aunque sea de manera muy elemental, puede por lo tanto haber mas
preguntas de lo que es fcil preguntar y no tanto de lo mas importante.
Una manera de mejorar la calidad de estas preguntas objetivas es analizarlas. Este tipo de pruebas se prestan a
hacer una serie de anlisis de inters que pueden referirse:
A toda la muestra.
A cada pregunta en particular.
2. UTILIDAD DEL ANALISIS DE LOS ITEMS:
Analizar las pruebas objetivas puede ser de inters porque:
Sirve para ir mejorando su calidad: la informacin que nos dan este tipo de anlisis nos permite ir
mejorando las pruebas sucesivas que vallamos haciendo.
Esta informacin que puede ser muy especifica puede ayudar a caer en la cuenta de errores generalizados, a
entender puntos difciles, a condicionar un estudio posterior de mas calidad,...,etc.
Tambin nos aportan datos que pueden influir indirectamente en nuestros criterios de calificacin: podemos
descubrir preguntas ambiguas, con dos respuestas correctas o con la clave de correccin equivocada,...,etc.
Por otra parte todos estos anlisis son fcilmente programables, y si utilizamos una hoja de respuestas de
lectura ptica y un programa adecuado de ordenador casi sin darnos cuenta podemos acumular una
informacin muy til.
1. ANALISIS ESTADISTICOS CONVENCIONALES:
1. ANALISIS REFERIDOS A TODA LA PRUEBA:
EL COEFICIENTE DE FIABILIDAD:
Este coeficiente indica en que medida en pruebas semejantes los sujetos habran quedado ordenados de
manera parecida. Dos factores influyen en la magnitud de este coeficiente.
12
La homogeneidad de los tems: En la medida en que los tems midan lo mismo la fiabilidad ser mayor;
con preguntas muy distintas y poco relacionadas la fiabilidad ser menor.
Homogeneidad de la muestra o diferencias entre los sujetos: Si los sujetos tienen resultados muy
parecidos la fiabilidad tender a bajar; no se puede clasificar u ordenar bien a sujetos muy semejantes.
Fundamentalmente la fiabilidad depende de las diferencias entre los sujetos por lo que se puede cuestionar la
fiabilidad de un test o de una prueba objetiva como indicador necesario de su calidad; si todos saben todo o
casi todo o casi nada.
Un coeficiente de fiabilidad alto es claramente deseable cuando las diferencias entre los sujetos son legitimas
y esperadas; y esto es lo que suele suceder en los test psicolgicos.
No hay que olvidar que una fiabilidad alta no es sinnimo sin mas de calidad porque puede faltar lo que es
mas importante, la validez.
EL ERROR TIPICO DE LAS PUNTUACIONES INDIVIDUALES:
El error tpico se deriva del coeficiente de fiabilidad y viene a indicar el margen probable de oscilacin de las
puntuaciones de unas ocasiones a otras en exmenes hipotticamente semejantes. Puede servir para relativizar
los resultados individuales. Equivale a una desviacin tpica y se interpreta de manera semejante.
2. ANALISIS DE CADA PREGUNTA O DE CADA ALTERNATIVA:
LA CORRELACION ITEMTOTAL O INDICE DE HOMOGENEIDAD CORREGIDO:
Se trata de un dato de cada e indica en que medida cada uno de ellos discrimina, es decir, diferencia a los que
saben mas de los que saben menos. Se trata de la correlacin de cada pregunta con la suma de todas las
dems.
Lo que expresa esta correlacin es en que medida el responder correctamente a un tem est relacionado con
puntuar alto en todo el test.
Una correlacin positiva: quiere decir que puntuar bien en esa pregunta esta relacionado con puntuar
bien en el conjunto de la prueba.
Una correlacin prxima a 0: quiere decir que responder bien a eso pregunta no tiene que ver con
estar bien en el conjunto del test.
Una correlacin negativa: quiere decir que responder bien a esa pregunta esta relacionado con estar
mas bien mal en el conjunto de la prueba.
LA CORRELACION DE CADA ALTERNATIVA CON EL TOTAL:
Es la correlacin entre escoger cada una de las alternativas ( tanto la verdadera como las falsas) y el total del
test. Lo que podemos esperar es que el escoger una alternativa falsa correlacione negativamente con el total.
2. ANALISIS DE LAS DIVERSAS ALTERNATIVAS: TABULACION DE LAS RESPUESTAS:
Este anlisis, se limita a la mera tabulacin de las respuestas. Se trata de organizar las respuestas de manera
que permitan una reflexin rpida.
El proceso es el siguiente:
Se ordenan los sujetos de mas a menos segn su puntuacin total en la prueba y se seleccionan el 25% con
13
puntuacin total mas alta (grupo superior) y el 25% con puntuacin total mas baja (grupo inferior).
Se tabulan las respuestas de estos dos grupos en cada tem, de manera que se pueda ver cuantos de cada
grupo, superior e inferior, han escogido cada opcin.
Cuadro 1
En el supuesto numerador tenemos el numero de alumnos del grupo superior que ha escogido cada opcin, y
debajo el numero de alumnos del grupo inferior que ha escogido esa misma opcin; la respuesta correcta esta
sealada con un asterisco.
3. INDICES DE DIFICULTAD Y DISCRIMINACION:
1. PARA CADA ITEM:
Estos ndices no se calculan para toda la muestra sino para el 25% con una puntuacin total mas alta en todo
el test y para el 25% con una puntuacin total mas baja. El numero de sujetos entre ambos grupos es por lo
tanto el mismo; solo se analiza el 50% de la muestra. Este tipo de anlisis es anlogo al que se hace cuando se
construye una escala de actitudes.
SIMBOLOS UTILIZADOS:
N: Numero de sujetos en uno de los dos grupos (los
dos grupos tienen idntico numero de sujetos).
N + N: Numero total de sujetos analizados.
AS: Numero de acertantes en el grupo superior

AI: Numero de acertantes en el grupo inferior.
INDICE DE DIFICULTAD:
Indica la proporcin de aciertos en la muestra de alumnos que estamos utilizando. Es la media de ste 50% de
sujetos analizados.
El trmino de dificultad se presta a equvocos: in ndice mayor indica un pregunta mas fcil.
Las preguntas que discriminan mucho tienden a ser de dificultad media (responden bien la mitad de
los sujetos analizados). Df = 0.50
(AS = N; AI = 0)
INDICES DE DISCRIMINACION:
Los ndices de discriminacin expresan en que medida cada pregunta o tem diferencia a los que mas saben de
los que menos saben
Indice de discriminacin 1:
Depende del grado de dificultad del tem. Es la diferencia entre dos proporciones, los acertantes del grupo
superior menos los acertantes del grupo inferior.
Es el ndice probablemente mas utilizado. Expresa hasta que punto la pregunta discrimina, establece
diferencias, contribuye a situar a un sujeto en el grupo superior e inferior.
A mayor diferencia, en numero de acertantes entre los grupos superior e inferior, el tem es mas
discriminante, contribuye mas a situar a un sujeto entre los primeros o entre los ltimos.
14
Equivale a una estimacin de la correlacin itemtotal y puede interpretarse de la misma manera.

Los valores extremos que puede alcanzar son 0 y 1.
Si todos responden correctamente (pregunta muy fcil), tendremos que: Dc1=0.
(AS = AI = N)
Si todos se equivocan (pregunta muy difcil) tendremos que: Dc1=0.
(AS = AI = 0)
Es decir, las preguntas muy fciles y muy difciles no discriminan, no establecen diferencias; nos dicen que
todos saben o no saben una pregunta, pero no quien sabe mas y quien menos. Estas preguntas no contribuyen
a la fiabilidad del test, pero eso no quiere decir necesariamente que sean malas preguntas.
Si todos y solos los del grupo superior responden correctamente, tendremos que: Dc1=1.
(AS = N; AI = 0)
Si todos y solos los del grupo inferior responden correctamente, tendremos que: Dc1= 1.
(AS = 0; AI = N)
Las preguntas con discriminacin negativa favorecen al grupo inferior y en principio deberan ser revisadas
(mal formuladas, ambiguas, error en la clave de correccin,...,etc.).
Una limitacin de este ndice es que el valor mximo de 1 solo se alcanza cuando aciertan todos los del
grupo superior y se equivocan todos los del inferior.
Puede haber preguntas que discriminen bien pero que sean difciles y fallen algunos del grupo
superior.
Puede ocurrir que discriminen bien pero que sean fciles y las acierten algunos del grupo inferior.
Por estas razones algunos refieren al otro ndice de discriminacin.
El indice maximo de dificultad cuando aciertan mas de la mitad es el que hubiera habido manteniendo el
mismo numero de aciertos y que ninguno del grupo superior hubiera fallado.
El valor maximo de discriminacin manteniendo los 12 aciertos es que el hubieramos obtenido si AS = 10
(todos los del grupo superior aciertan) y los dos aciertos restantes se los dejamos al grupo inferior.
El indice maximo de discriminacin cuando han acertado menos de la mitad es el que hubieramos obtenido si
todos los acertantes pertenecieran al grupo superior.
Indice de discriminacin 2.
Indica la proporcion de aciertos en el grupo superior con respecto al numero total de acertantes.
Es satisfactorio si es superior a o,50: mas de la mitad de los acertantes pertenecen al grupo que sabe mas.
Este indice es independiente del grado de dificultad de la pregunta. Llega a 1 si todos los acertantes,
aunque sean pocos, pertenecen al grupo superior.
15
Nos dice cuanto discrimina el item, tanto si es facil como si es muy difcil.
1 Una pregunta muy facil, con N =10 en casa grupo. La aciertan 10 del superior y 9 del inferior.
El Dc1 diria que apenas discrimina, que es muy facil.
El Dc2 diria que aunque es muy facil, de fallar alguien esta pregunta pertenece al grupo de los que
menos saben.
2 Una pregunta muy difcil.
El Dc1 dice que discrimina muy poco porque es muy difcil.
El Dc2 dice que la discriminacin es perfecta, que de saberla alguien, este perteneceria al grupo
superior.
Este indice es util para comparar la dificultad de varios test, sobre todo si tienen un numero distinto de tems.
El numero de tems es la diferencia maxima posible, la que habria entre un sujeto que hubiera respondido bien
a todos y el que no hubiera respondido a ninguno.
Valoracin de estos indices.
Describen como ha funcionado una pregunta en una situacin dada, pero no hacen juicios sobre la calidad de
la pregunta.
Las preguntas muy discriminantes nos indican donde falla los que tienen malos resultados sobre todo.
La discriminacin supoen diferencias y el que haya diferencias no es necesariamente un buen resultado.
En examenes amplios la no discriminacin puede indicar que no se detectan diferencias que de hecho existen.
En el conjunto del examen y para poder calificar con cierto matiz debe haber preguntas de dificultad media
que discriminen bien.
Las preguntas muy discriminantes (nunca seran las mas difciles) son utiles en examenes de segunda
convocatoria, prescindiendo de lo muy facil y de lo muy difcil.
Para extrapolar los resultados harian falta muestras grandes, N=400, sin embargo los indices obtenidos con
grupos pequeos, si se mantiene constante el tipo de muestra, dan lo que se puede esperar en grupos similares.
Estos indices describen como han funcionado los tems, y son utiles para evaluar las preguntas, sugerir que se
puede revisar pero malas preguntas pueden tener indicen que podrian considerarse optimos. Es peligroso
interpretar estos indices como indicadores automaticos de la calidad de una pregunta.
El analisis de las diversas alternativas, comprobando cuantos eligen cada una, es util para ir mejorando las
preguntas.
PSICOMETRIA:
I. GUIA PARA CONSTRUIR ESCALAS DE ACTITUDES:
POR QUE CONSTRUIMOS UNA ESCALA EN VEZ DE LIMITARNOS A UNA SOLA PREGUNTA?:
Construimos escalas de actitudes para medir determinados rasgos; entendiendo por medir, el apreciar
16
cuantitativamente si un sujeto tiene poco o mucho del rasgo en cuestin, o ver donde se sita un sujeto en un
continuo de menos a mas.
A veces el medir actitudes con una sola pregunta es muy til como medida complementaria de instrumentos
mas complejos. Sin embargo, puede ser conveniente el disponer de varios indicadores de una misma actitud
que van a ser sumados despus como indicador de esta actitud o variable.
Tenemos varias razones para construir escalas o disponer de varios indicadores del mismo rasgo:
Con una serie de tems describimos y medimos mejor constructos relativamente complejos. Una nica
pregunta simplifica frecuentemente en exceso el concepto que vamos a medir.
En conjunto una medida formada por varios tems es mas valida, no solamente porque describen mejor un
constructo complejo, sino porque una nica pregunta puede ser de hecho poco afortunada, o ser mal
entendida por muchos sujetos.
Una muestra relativamente amplia de preguntas constituye una mejor base para formarnos un juicio mas
preciso y fundado sobre como cmo est una persona en un rasgo concreto.
Este tipo de razones tiene mas peso cuando se van a tomar decisiones sobre los sujetos o interesa un buen
diagnostico individual.
Aumenta la fiabilidad de la medida y se minimizan las limitaciones de cada tem en particular, merecen mas
confianza varias preguntas que una sola. En un sentido mas psicometrico, si disponemos de una serie de
tems podemos calcular el coeficiente de fiabilidad.
Una razn de peso para sumar varios indicadores del mismo rasgo es que las diferencias entre los sujetos
van a quedar mas ntidas, va a ser mas fcil clasificarlos y, en definitiva, va a aumentar la varianza.
Diferenciamos mejor a las personas en un determinado rasgo si disponemos de varios indicadores y
consecuentemente detectaremos mejor las relaciones de ese rasgo con otras variables.
De los diversos tipos de escalas nos limitaremos aqu a tratar las denominadas escalas tipo Likert en las que
la suma de una serie de respuestas a tems supuestamente homogneos sita al sujeto en la variable medida.
1. PROCESO DE CONSTRUCCION DE UNA ESCALA DE ACTITUDES:
El proceso se puede describir de varias maneras, pero bsicamente se puede concretar en los pasos siguientes:
1. DEFINICION DE LA ACTITUD QUE SE DESEA MEDIR:
El primer paso es siempre clarificar el rasgo que se desea medir; una definicin o explicacin previa da
coherencia al resto del proceso. Puede ayudar el hacer previamente una descripcin de la persona que
supuestamente tenga de manera clara la actitud que se desea medir.
No hay que olvidar que las actitudes, como cualquier otro rasgo que queramos medir, se pueden concebir en
diversos grados de abstraccin, y pueden ser muy genricos o muy especficos.
Puede ayudar tambin revisar otros instrumentos ya hechos.
2. REDACCION DE LOS ITEMS:
Pueden redactarse de diversas maneras pero, en general, y tratndose de escalas de actitudes, suelen
formularse en forma de opiniones con las que se puede estar o no estar de acuerdo.
17
Los tems deben tener las siguientes caractersticas:

Deben ser relevantes: claramente relacionados con la actitud que se desea medir.
Deben ser opiniones con las que se pueda estar o no estar de acuerdo.
Deben redactarse con claridad, de manera que todos los entiendan de la misma manera. Por esta razn:
Hay que tener cuidado con expresiones como no, nunca, etc. que pueden crear confusin en la
respuesta.
Deben contener una nica idea, pues cuando hay mas de una idea se puede estar de acuerdo con una o
con otra. Una misma idea se puede formular de mas de una manera para comprobar despus que
formulacin es mas eficaz.
Deben ser discriminantes, es decir, se deben redactar de tal manera que previsiblemente unos sujetos
estarn de acuerdo y otros no, o no tanto. Para medir debemos encontrar diferencias; tenemos mas garanta
de que los tems miden lo mismo si simultneamente diferencian a los mismos sujetos.
Cabe formular tems repetitivos, la misma idea dicha de diversas maneras. No obstante, aunque con tems
muy similares se consiguen fcilmente coeficientes de fiabilidad altos, el constructo queda expresado de
una manera muy simple.
Es preferible redactar los tems en las dos direcciones positiva y negativa, es decir, que unas veces el estar
de acuerdo manifiesta una actitud favorable y otras manifieste una actitud desfavorable; eso si, sin
introducir palabras negativas como no o nunca que se prestan a confusiones al responder. Esta redaccin
bipolar tiene varias ventajas:
Obliga a una definicin previa mas matizada del rasgo o constructo.
Requiere una atencin mayor por parte del que responde.
Permite comprobar la coherencia de las respuestas, verificando si hay contradicciones sistemticas.
Si hay un numero aproximado de tems positivos y negativos, y sumamos a cada sujeto sus
puntuaciones a los dos tipos de tems, podemos calcular la correlacin entre los dos totales parciales
como si se tratara de dos subescalas. Esta correlacin debe alcanzar un valor de 0.50 o mas, y
mostrar en este caso una coherencia global en las respuestas.
Comprobar la coherencia es prcticamente lo mismo que comprobar que no se da la aquiescencia o
tendencia a mostrar acuerdo casi con cualquier afirmacin, incluso con afirmaciones que se
contradicen. Cuando se de esta aquiescencia suele deberse a la ambigedad en la redaccin o falta de
claridad de los tems.
La irrelevancia o ambigedad puede sospecharse cuando demasiados sujetos escogen la respuesta central o los
tems no discriminan. La no discriminacin puede indicar tambin que un tem no mide lo mismo que los
dems o que los sujetos lo entienden de otra manera. Si un tem discrimina en sentido contrario puede haber
un error en la clave de correccin.
Sobre el numero inicial de tems que deben redactarse: no hay un numero optimo, pero a mayor numero
inicial de tems, mayor probabilidad de encontrar en el anlisis un conjunto de tems definitivos con una
fiabilidad suficiente. A mayor numero de tems buenos tambin ser mayor la fiabilidad.
3. REDACCION Y NUMERO DE RESPUESTAS:
Redaccin de las respuestas:
Las respuestas mas habituales en las escalas de actitudes suelen expresar el grado de acuerdo con el contenido
del item, pero puede haber otras mas apropiadas como grado de inters, de importancia,...,etc.
18
Cuadro 1
Caben otros formatos en las respuestas como utilizar nmeros especificando con palabras el significado de los
extremos (muy de acuerdo o muy en desacuerdo). O con letras. En general parece preferible el empleo de
letras o palabras, al menos si se juzga que los nmeros pueden condicionar la respuesta.
Las repuestas en trminos de frecuencia estn muy avaladas por la investigacin cientfica.
Cuadro 2
Numero de respuestas:
El numero habitual de repuestas es de cinco. En general, aunque no sucede siempre, a mayor numero de
respuestas en los tems, suele haber en toda la escala una mayor fiabilidad, con tal de que el numero de
respuestas no supere la capacidad de discriminacin de los que responden: el numero mximo se suele situar
entre seis y siete respuestas y el mnimo en tres.
Numero par o impar de respuestas:
Lo mas claro es que son preferibles tres respuestas a dos, ya que la fiabilidad es casi siempre mayor.
El incluir un numero par de categoras tiene la ventaja de que siempre cabe la posibilidad de agruparlas en dos
categoras, de acuerdo y en desacuerdo, y se elimina adems la posibilidad de que los sujetos se evadan
escogiendo la respuesta central.
4. PREPARAR LA CLAVE DE CORRECCION:
Las respuestas se codifican siempre con nmeros ntegros sucesivos. En principio es preferible evitar el 0 y
comenzar a partir de 1.
La clave en nmeros debe hacerse de acuerdo con el sentido del tem, de manera que la respuesta mas
favorable a la actitud tenga el numero mayor.
Cuadro 3
5. PREPARAR PREGUNTAS O INSTRUMENTOS ADICIONALES:
Adems de la escala que se esta construyendo se deben preparar otras preguntas, o incluso otras escalas o
instrumentos que puedan estar ya hechos, y que los sujetos respondern al mismo tiempo, para recoger datos
adicionales. Estos nuevos datos o preguntas tienen que ver con la verificacin de la validez del instrumento.
El obtener datos adicionales de inters es importante por varias razones:
Buscar mas datos hipotticamente relacionados con lo que queremos medir contribuye a que nos hagamos
una idea mas clara del rasgo o actitud que nos interesa medir.
Recoger datos adicionales al mismo tiempo que se prueba el instrumento en una primera muestra supone un
considerable ahorro de tiempo y esfuerzo.
Las relaciones que vamos encontrando con otras variables se pueden incorporar de alguna manera al
proceso de construccin del instrumento, en el sentido de que nos pueden sugerir ideas validas como
criterio en la misma seleccin de los tems, en la bsqueda de muestras determinadas,...,etc.
El pensar en otros datos tiene que ver con la comprobacin de la validez de nuestro instrumento y de los
datos que con l recojamos.
19
Comprobar la validez de un instrumento tiene que ver con la comprobacin o confirmacin del significado de
lo que medimos, y tambin de su utilidad.
Es importante tener desde el principio una idea clara no solamente del rasgo que queremos medir, sino
tambin con que otros rasgos puede estar relacionado ese rasgo, a que grupos puede diferenciar,...,etc.
Estos datos adicionales son bsicamente de dos tipos:
Datos cesales o sociolgicos: Como edad, sexo, ocupacin o curso, estado civil, etc. Estos datos servirn
para describir la muestra y para hacer anlisis adicionales.
Datos de otro tipo: Como pueden ser preguntas relacionadas con lo que se pretende medir, u otros test o
escalas que pueden estar relacionados con la variable que estamos midiendo.
6. OBTENER DATOS DE UNA MUESTRA:
Una vez preparada la versin inicial del instrumento, se recogen las respuestas de una muestra para poder
hacer los anlisis correspondientes, sobre todo el anlisis de tems y el calculo de la fiabilidad; estos anlisis
nos van a permitir dar forma al instrumento definitivo.
El tipo de muestra elegido debe ser semejante al tipo de poblacin con el que se va a utilizar despus. A
mayor heterogeneidad en la muestra obtendremos con mayor facilidad una fiabilidad alta.
Sobre el numero de sujetos necesario; para que los anlisis tengan suficiente consistencia y sean
extrapolables a muestras semejantes, conviene que haya al menos 5 sujetos por tem inicial. Si se piensa
hacer despus una anlisis factorial debe haber unos 10 sujetos por tem; en cualquier caso no deben ser
menos de 200.
7. ANALISIS DE ITEMS Y COMPROBACION DE LA FIABILIDAD:
En primer lugar y una vez obtenidos los datos calculamos:
La media y la desviacin tpica de los totales: cada sujeto tiene un total que es la suma de todas sus
respuestas a los tems.
La media y la desviacin de cada tem.
A continuacin llevaremos a cabo el anlisis de tems y calcularemos la fiabilidad.
anlisis de tems
Tenemos que comprobar si cada tem mide lo mismo que los dems, y por tanto es sumable en una puntuacin
total que supuestamente mide el rasgo y que es la que despus interpretamos y utilizamos.
Lo que queremos comprobar es si las respuestas tienden a covariar, es decir, si los sujetos tienden a responder
de manera que podamos deducir que todos los tems expresan el mismo rasgo. En definitiva comprobamos si
los tems tienden a diferenciar a los sujetos, si discriminan adecuadamente.
Los procedimientos que podemos utilizar son dos:
1. Correlacin temtotal
Se trata de la correlacin de cada tem con la suma de todos los dems o correlacin de cada tem con el total
menos el tem. Lo que deseamos comprobar es en que medida el puntuar alto en un tem supone el hecho de
obtener un total alto en el resto de la escala.
20
Estos coeficientes deben ser al menos estadsticamente significativos o distintos de cero. Los tems con una
mayor correlacin con el total son los que tienen mas en comn y por tanto podemos pensar que miden lo
mismo que los dems. Los tems con correlaciones no significativas o muy bajas los eliminaremos de nuestra
escala.
Cuando se calcula la correlacin con el total, hay una formula que convierte esta correlacin temtotal en la
correlacin temtotal menos tem, que es la que nos interesa.
Hay programas de ordenador que dan rutinariamente para cada tem la correlacin temtotal, pero hay que
tener presentes otras consideraciones:
Es cuestionable seguir mecnicamente procedimientos automticos; el constructor del
instrumento debe intervenir con sus propios criterios sobre lo que quiere medir y sobre las
caractersticas del instrumento.
Esos programas nos dan la fiabilidad si suprimimos tems de uno en uno, y normalmente no interesa ir
eliminando tems as, sino en bloques escogidos con algn criterio.
Es normal que varios subconjuntos de tems tengan una fiabilidad idntica o similar, por lo que habr
que acudir a otros criterios en la seleccin definitiva de los tems.
2. Contraste de medias en cada tem de los dos grupos con puntuaciones mayores y menores en el total de
la escala.
El procedimiento anterior es muy laborioso si no se hace con ordenador; un procedimiento mas sencillo, y que
aporta una informacin semejante, es comparar en cada tem el 25% con una puntuacin total mas alta con el
25% con puntuacin total mas baja. Para esto:
Ordenamos a los sujetos de mas a menos, segn el total obtenido en toda la escala, y seleccionamos dos
subgrupos: grupo superior ! el 25% con total mas alto, y grupo inferior ! el 25% con puntuacin total mas
bajo. El 50% central no entra en este anlisis.
Calculamos la media y la desviacin tpica en cada tem de cada uno de los dos grupos, superior e inferior.
Contrastamos las medias de estos dos grupos mediante la T de student.
Lo que esperamos es que el grupo superior tenga una media significativamente mas alta en cada tem que el
grupo inferior. Podremos concluir que los tems que simultneamente diferencian a los mismos sujetos estn
midiendo lo mismo. Prescindiremos de los tems que no discriminan y nos quedaremos con los mas
discriminantes; Siempre hay tems mejores que otros en trminos relativos. En la eleccin definitiva de los
tems pueden intervenir adems otros criterios.
Ej. de este procedimiento:
En este ejemplo:
El tem n 1 discrimina bien, el valor de t nos muestra que la diferencia entre los grupos superior e
inferior, es muy superior a lo puramente aleatorio; este tem habra que retenerlo.
El tem n 2 discrimina poco, la diferencia no es significativa y habr que eliminarlo de la escala
definitiva.
El tem n 3 tiene discriminacin negativa, los del grupo inferior superan a los del grupo superior;
claramente este tem no es sumable con los dems, no mide lo mismo y hay que rechazarlo. En este
caso tambin puede suceder que este mal la clave de correccin.
Con cualquiera de los dos procedimientos obtenemos un dato sobre la calidad del tem; ambos tipos de
informacin nos dicen si podemos considerar que el tem discrimina adecuadamente y consecuentemente si
21
podemos considerar que mide lo mismo que los dems.

Cul de los dos anlisis es preferible? Los dos aportan informacin semejante; prcticamente con los dos se
llega a la misma seleccin de items.
Comprobacin de la fiabilidad y seleccin de los tems definitivos
Despus del anlisis de tems calculamos la fiabilidad (consistencia interna). La formula mas apropiada es el
coefiente de Cronbach.
k ! numero de tems
2i ! suma de las varianzas de todos los tems
2t ! varianza de las puntuaciones totales
Lo que vamos a hacer es calcular la fiabilidad con distintos subconjuntos de tems para quedarnos finalmente
con la seleccin de tems que mas nos convenza como versin definitiva de nuestro instrumento.
El proceso es el siguiente:
En primer lugar calculamos la fiabilidad de la escala inicial con todos los tems.
en segundo lugar:
eliminamos los tems que con mas claridad no son discriminativos.
recontamos a los sujetos su nueva puntuacin total.
volvemos a calcular la fiabilidad de la nueva versin de la escala mas reducida
Vamos repitiendo el proceso del paso anterior, calculando la fiabilidad cada vez con menos tems, hasta que
la fiabilidad empieza a bajar.
Nos quedamos en principio con la versin de la escala que tiene una fiabilidad optima.
*Los tems los vamos suprimiendo de uno en uno, o en pequeos bloques.
Para calcular estos coeficientes de fiabilidad necesitamos estos datos:
En numero de tems, que ira variando cada vez segn vamos eliminando algunos.
La varianza de cada tem en toda la muestra, que debe estar calculada previamente; es suman las varianzas
de los tems que componen cada versin de la escala pues la suma de las varianzas de los tems entra en la
formula del coeficiente de fiabilidad.
La varianza de los totales, a cada sujeto hay que recontarle su nueva puntuacin segn se van eliminando
tems. Se estos nuevos totales se calcula la varianza.
Una manera de ir controlando el proceso es preparar un cuadro en el que se van viendo las sucesivas versiones
de la escala segn se va calculando la fiabilidad con unos tems y otros.
En la tabla vamos colocando los datos que intervienen en la formula (la media de los totales no es necesaria
para calcular la fiabilidad, pero conviene ponerla como dato descriptivo de inters)
El rigor metodolgico no tiene que ser siempre el mismo, con tal de garantizar siempre un rigor suficiente.
22
Si pretendemos construir un instrumento de una calidad superior, el proceso no tiene que ser automtico.
Tambin tienen su lugar nuestras propias ideas sobre lo que queremos medir.
En principio deben eliminarse aquellos tems que hacen que la fiabilidad sea menor, pero a veces eliminando
un tem apenas baja la fiabilidad y si no lo eliminamos la escala puede quedar menos coherente con otros
criterios.
Otras veces entre los tems que contribuyen a una mejor fiabilidad hay alguno que, una vez eliminados otros
previamente, puede tener poco sentido porque desequilibra el significado... y puede ser mejor eliminarlo
tambin. El que la fiabilidad vare en el tercer decimal importa poco.
Tambin puede suceder que con menos tems obtengamos una fiabilidad igual o semejante que con un numero
mayor de tems.
Como estamos tratando el anlisis de tems y de la fiabilidad como criterio de calidad, no debemos olvidar
que en general a mayor numero de tems tendremos una mayor fiabilidad, y que con mas respuestas en los
tems tambin aumenta la fiabilidad.
Tambin se puede hacer el procedimiento inverso, y a veces es preferible. Se hace siguiendo estos pasos:
Calculamos la fiabilidad con el subconjunto de tems que ms discriminan.
Aadimos unos pocos tems, los ms discriminantes de los que nos quedan y volvemos a calcular la
fiabilidad.
Damos la tarea por terminada cuando la fiabilidad empieza a bajar.
Con este procedimiento nos quedara una escala ms breve.
Una alternativa mas sencilla al calculo del coeficiente es utilizar alguna de las formulas basadas en la
particin del test o la escala en dos mitades. Pero en principio, es preferible utilizar las formulas del
coeficiente .
OTRAS CONSIDERACIONES EN TORNO A LA ELECCIN DE LOS ITEMS DEFINITIVOS
Las soluciones automticas que nos puede dar un programa de ordenador no son necesariamente las mejores.
El valor de t tiene que ser significativo y alto, pero adems hay que tener en cuenta otros criterios en la
eleccin de los tems.
Equilibrio entre tems positivos y negativos
Podemos incorporar un numero mas o menos igual de tems positivos y negativos. Porque con tems en las
dos direcciones se controlan mejor las respuestas aquiescentes, y adems el constructo suele quedar mejor
expresado.
Si tenemos un numero de tems aproximadamente idntico en ambas direcciones, es til calcular a cada sujeto
dos puntuaciones parciales sumando por separado ambos tipos de tems, y calcular despus la correlacin
entre estas dos subescalas o totales parciales; si esta correlacin es del orden de .50 tenemos una garanta
razonable de que ambos tipos de tems miden lo mismo y que no esta operando la aquiescencia.
Cuidar mas la representatividad del contenido de las formulaciones de los tems
El la seleccin definitiva de los tems podemos buscar una homogeneidad conceptual mas ntida. Quizs
veamos, por ejemplo, que al eliminar dos tems que discriminan poco, nos sobra un tercer tem que si
23
discrimina y que incluye la misma idea que los dos eliminados, pero el conjunto de la escala puede quedar
muy desequilibrado en cuanto al significado global. Todo esto puede depender de apreciaciones personales;
siempre hay que tener claro que es importante la interpretabilidad de los datos en funcin de un rasgo o
actitud bien definida.
Incluir de manera equilibrada aspectos distintos (subescalas) del mismo rasgo general
Tambin nos puede interesar que estn representadas con idntico numero de tems ideas que reflejan matices
distintos dentro de un rasgo general. En ocasiones un instrumento adems de medir un rasgo general, se puede
subdividir en subescalas para medir por separado aspectos distintos.
En este caso tanto las subescalas como la escala formada por todos los tems, deben tener una fiabilidad
aceptable. Este tipo de escalas suelen denominarse escalas factoriales.
Incorporacin de nuevos tems
Cuando con pocos tems, que en principio nos convencen porque expresan bien lo que deseamos medir, no
alcanzamos una fiabilidad adecuada, podemos acudir a las formulas que nos dicen cuantos tems del mismo
estilo deberamos aadir para alcanzar una fiabilidad determinada. Tambin puede suceder que algunos de los
tems eliminados en el anlisis, simplemente estn mal formulados y haya que hacer una redaccin nueva.
Preparacin de dos versiones, corta y larga, de la misma escala
Con frecuencia podemos observar que un numero reducido de tems nos da una fiabilidad aceptable. Puede ser
interesante hacer dos versiones, una larga o normal y la otra breve, quizs con una fiabilidad menor, pero apta
para muchos de los usos de estos instrumentos.
Explicacin o redefinicin del rasgo medido por nuestro instrumento
A veces, y a al vista de los tems de la escala definitiva, habr que redefinir lo que pretendemos medir o al
menos explicarlo adecuadamente aunque se mantenga el nombre del instrumento.
Los trminos para designar los rasgos suelen ser muy genricos, y de hecho instrumentos con el mismo
nombre pueden no coincidir en lo que miden, que debe ser definido con unos limites mas ajustados.
COMPROBACIN DE LA VALIDEZ Y OTROS ANLISIS POSTERIORES
Una vez que tenemos ya la versin definitiva de la escala, se hacen los dems anlisis segn los datos de que
dispongamos.
Se pueden calcular datos descriptivos de las diversas submuestras si las hay.
Podemos construir baremos o normas de interpretacin.
Se pueden comprobar diferencias entre grupos, correlaciones con otras variables... segn los datos que
hayamos obtenido simultneamente; o podemos pasar la escala a muestras nuevas obteniendo a la vez
otros datos que nos permitan hacer mas anlisis.
Podemos comprobar de manera mas especifica y planificada la validez del nuevo instrumento con los
datos obtenidos simultneamente.
La confirmacin de la validez mas que un calculo es un proceso.
Este es un resumen de lo que entendemos por validez y los modos de comprobarla:
24
Con los estudios de validacin pretendemos dos finalidades:

Confirmar el significado previsto de la variable (de la actitud o rasgo) que pretendemos medir.
comprobar la utilidad practica del instrumento
confirmacin del significado pretendido (validez de constructo)
Los anlisis pueden tener dos enfoques bsicos, como son: 1 los estudios correlacionales y 2 las
comparaciones entre grupos.
Anlisis correlacionales
Podemos distinguir tres estrategias basadas en estudios correlacionales.
1. relacin con otros modos de medir el mismo rango
Comprobamos la relacin entre nuestro instrumento y otros modos de medir el mismo rasgo. Otros modos de
medir lo mismo pueden ser:
Una pregunta amplia y sigue una descripcin del modelo que supuestamente tiene el rasgo en
grado alto.
Otro mini test de pocos tems que mas o menos mida lo mismo, por Ej.
1. desde otra perspectiva
2. con un instrumento que mide el mismo rasgo pero construido con una tcnica distinta
Otra escala o test de otro autor y que supuestamente compruebe lo mismo.
Si es posible, se puede comprobar la relacin entre autoevaluacion y heteroevaluacion.
Estos nuevos instrumentos tienen un valor complementario, pueden ser muy breves y tambin pueden ser
simples preguntas.
2. Comprobacin de relaciones esperadas (positivas o negativas) con otros rasgos
podemos comprobar tambin la relacin entre lo que mide nuestro instrumento y otros rasgos o caractersticas
distintas con las que esperamos que haya relacin:
Una lista de adjetivos o rasgos autodescriptivos que podran equivaler a una serie de test de
personalidad; Tambin se pueden sumar adjetivos que reflejen mas o menos el mismo rasgo.
Test de personalidad
Preguntas sueltas sobre diversos temas, otras actitudes, preferencias... que como hiptesis
puedan tener relacin con la actitud medida.
3. Comprobar que no existe relacin donde no esperamos que la haya
Esta no relacin nos ayuda a distinguir unos rasgos de otros, sobre todo cuando pertenecen al mismo mbito
conceptual y es fcil confundirlos.
La no relacin no hay que entenderla de manera literal; Puede tratarse de relaciones, incluso estadsticamente
significativas, pero menores que con otros rasgos, y de acuerdo con un razonamiento plausible.
25
Comparaciones entre grupos

Consiste en comparar grupos supuestamente distintos en aquello que estamos midiendo.
Todas las comparaciones entre grupos equivalen a anlisis correlacionales: nos da lo mismo por ejemplo,
preguntarnos si los nios superan a las nias en la actitud A, que preguntarnos si el sexo esta relacionado o
tiene que ver con la actitud A. No solo hay una obvia relacin conceptual entre las dos preguntas, sino que
mediante las formulas oportunas podemos transformar un valor de la t se Student en un coeficiente de
correlacion.
Aun as nuestras preguntas espontneas son unas veces en trminos de relacin, y otras en trminos de
diferencias; Ambos enfoques nos ayudan a formular hiptesis que podemos intentar confirmar, y adems
los procedimientos de anlisis son en principio distintos aunque en ultima instancia aporten la misma
informacin.
Al preparar nuestro instrumento de recogida de datos, debemos pensar que preguntas podemos hacer que
identifiquen a los sujetos segn grupos de pertenencia o segn caractersticas personales de inters que
permitan subdividir la muestra en subgrupos.
El anlisis estadstico ser un contraste de medias, o anlisis de varianza si las muestras son mas de dos.
Confirmacin de la utilidad del instrumento (validez predictiva)
En este caso verificamos, por ejemplo si existen correlaciones apreciables con determinados criterios, se trata
de validez predictiva en sentido amplio. Esta comprobacin de la utilidad tambin aporta datos a la
comprobacin del significado.
Se trata de calcular coeficientes de correlacin entre el instrumento y determinados criterios. Estos son los
coeficientes que suelen denominarse coeficientes de validez.
PSICOMETRIA:
I. GUIA PARA CONSTRUIR ESCALAS DE ACTITUDES:
POR QUE CONSTRUIMOS UNA ESCALA EN VEZ DE LIMITARNOS A UNA SOLA PREGUNTA?:
Construimos escalas de actitudes para medir determinados rasgos; entendiendo por medir, el apreciar
cuantitativamente si un sujeto tiene poco o mucho del rasgo en cuestin, o ver donde se sita un sujeto en un
continuo de menos a mas.
A veces el medir actitudes con una sola pregunta es muy til como medida complementaria de instrumentos
mas complejos. Sin embargo, puede ser conveniente el disponer de varios indicadores de una misma actitud
que van a ser sumados despus como indicador de esta actitud o variable.
Tenemos varias razones para construir escalas o disponer de varios indicadores del mismo rasgo:
Con una serie de tems describimos y medimos mejor constructos relativamente complejos. Una nica
pregunta simplifica frecuentemente en exceso el concepto que vamos a medir.
En conjunto una medida formada por varios tems es mas valida, no solamente porque describen mejor un
constructo complejo, sino porque una nica pregunta puede ser de hecho poco afortunada, o ser mal
entendida por muchos sujetos.
Una muestra relativamente amplia de preguntas constituye una mejor base para formarnos un juicio mas
preciso y fundado sobre como cmo est una persona en un rasgo concreto.
26
Este tipo de razones tiene mas peso cuando se vana tomar decisiones sobre los sujetos o interesa un buen
diagnostico individual.
Aumenta la fiabilidad de la medida y se minimizan las limitaciones de cada tem en particular, merecen mas
confianza varias preguntas que una sola. En un sentido mas psicometrico, si disponemos de una serie de
tems podemos calcular el coeficiente de fiabilidad.
Una razn de peso para sumar varios indicadores del mismo rasgo es que las diferencias entre los sujetos
van a quedar mas ntidas, va a ser mas fcil clasificarlos y, en definitiva, va a aumentar la varianza.
Diferenciamos mejor a las personas en un determinado rasgo si disponemos de varios indicadores y
consecuentemente detectaremos mejor las relaciones de ese rasgo con otras variables.
De los diversos tipos de escalas nos limitaremos aqu a tratar las denominadas escalas tipo Likert en las que
la suma de una serie de respuestas a tems supuestamente homogneos sita al sujeto en la variable medida.
1. PROCESO DE CONSTRUCCION DE UNA ESCALA DE
ACTITUDES:
El proceso se puede describir de varias maneras, pero bsicamente se puede concretar en los pasos siguientes:
1. DEFINICION DE LA ACTITUD QUE SE DESEA MEDIR:
El primer paso es siempre clarificar el rasgo que se desea medir; una definicin o explicacin previa da
coherencia al resto del proceso. Puede ayudar el hacer previamente una descripcin de la persona que
supuestamente tenga de manera clara la actitud que se desea medir.
No hay que olvidar que las actitudes, como cualquier otro rasgo que queramos medir, se pueden concebir en
diversos grados de abstraccin, y pueden ser muy genricos o muy especficos.
Puede ayudar tambin revisar otros instrumentos ya hechos.
2. REDACCION DE LOS ITEMS:
Pueden redactarse de diversas maneras pero, en general, y tratndose de escalas de actitudes, suelen
formularse en forma de opiniones con las que se puede estar o no estar de acuerdo.
Los tems deben tener las siguientes caractersticas:
Deben ser relevantes: claramente relacionados con la actitud que se desea medir.
Deben ser opiniones con las que se pueda estar o no estar de acuerdo.
Deben redactarse con claridad, de manera que todos los entiendan de la misma manera. Por esta razn:
Hay que tener cuidado con expresiones como no, nunca, etc. que pueden crear confusin en la
respuesta.
Deben contener una nica idea, pues cuando hay mas de una idea se puede estar de acuerdo con una o
con otra. Una misma idea se puede formular de mas de una manera para comprobar despus que
formulacin es mas eficaz.
Deben ser discriminantes, es decir, se deben redactar de tal manera que previsiblemente unos sujetos
estarn de acuerdo y otros no, o no tanto. Para medir debemos encontrar diferencias; tenemos mas garanta
de que los tems miden lo mismo si simultneamente diferencian a los mismos sujetos.
27
Cabe formular tems repetitivos, la misma idea dicha de diversas maneras. No obstante, aunque con tems
muy similares se consiguen fcilmente coeficientes de fiabilidad altos, el constructo queda expresado de
una manera muy simple.
Es preferible redactar los tems en las dos direcciones positiva y negativa, es decir, que unas veces el estar
de acuerdo manifiesta una actitud favorable y otras manifieste una actitud desfavorable; eso si, sin
introducir palabras negativas como no o nunca que se prestan a confusiones al responder. Esta redaccin
bipolar tiene varias ventajas:
Obliga a una definicin previa mas matizada del rasgo o constructo.
Requiere una atencin mayor por parte del que responde.
Permite comprobar la coherencia de las respuestas, verificando si hay contradicciones sistemticas.
Si hay un numero aproximado de tems positivos y negativos, y sumamos a cada sujeto sus
puntuaciones a los dos tipos de tems, podemos calcular la correlacin entre los dos totales parciales
como si se tratara de dos subescalas. Esta correlacin debe alcanzar un valor de 0.50 o mas, y
mostrar en este caso una coherencia global en las respuestas.
Comprobar la coherencia es prcticamente lo mismo que comprobar que no se da la aquiescencia o
tendencia a mostrar acuerdo casi con cualquier afirmacin, incluso con afirmaciones que se
contradicen. Cuando se de esta aquiescencia suele deberse a la ambigedad en la redaccin o falta de
claridad de los tems.
La irrelevancia o ambigedad puede sospecharse cuando demasiados sujetos escogen la respuesta central o los
tems no discriminan. La no discriminacin puede indicar tambin que un tem no mide lo mismo que los
dems o que los sujetos lo entienden de otra manera. Si un tem discrimina en sentido contrario puede haber
un error en la clave de correccin.
Sobre el numero inicial de tems que deben redactarse: no hay un numero optimo, pero a mayor numero
inicial de tems, mayor probabilidad de encontrar en el anlisis un conjunto de tems definitivos con una
fiabilidad suficiente. A mayor numero de tems buenos tambin ser mayor la fiabilidad.
3. REDACCION Y NUMERO DE RESPUESTAS:
Redaccion de las respuestas:
Las respuestas mas habituales en las escalas de actitudes suelen expresar el grado de acuerdo con el contenido
del item, pero puede haber otras mas apropiadas como grado de interes, de imprtancia,...,etc.
Cuadro 1
Caben otros fomatos en las respuestas como utilizar numeros especificando con palabras el significado de los
extremos (muy de acuerdo o muy en desacuerdo). O con letras. En genreral parece preferible el empleo de
letras o palabras, al menos si se juzga que los numeros pueden condicionar la respuesta.
Las repuestas en terminos de fracuencia estan muy avaladas por la investigacion cientifica.
Cuadro 2
Numero de respuestas:
El numero habitual de repuestas es de cinco. En general, aunque no sucede siempre, a mayor numero de
respuestas en los items, suele haber en toda la escala una mayor fiabilidad, con tal de que el numero de
28
respuestas no supere la capacidad de discriminacion de los que responden: el numero maximo se suele situar
entre seis y siete respuestas y el minimo en tres.
Numero par o impar de rspuestas:
Lo mas claro es que son preferibles tres respuestas a dos, ya que la fiabilidad es casi siempre mayor.
El incluir un numero par de categorias tiene la ventaja de que siempre cabe la posibilidad de agruparlas en dos
categorias, de acuerdo y en desacuerdo, y se elimina ademas la posibilidad de que los sujetos se evadan
escogiendo la respuesta central.
4. PREPARAR LA CLAVE DE CORRECCION:
Las respuestas se codifican siempre con numeros integros sucesivos. En principio es preferible evitar el 0 y
comnezar a partir de 1.
La clave en numeros debe hacerse de acuerdo con el snetido del item, de manera que la respuesta mas
favorable a la actitud tenga el numero mayor.
Cuadro 3
5. PREPARAR PREGUNTAS O INSTRUMENTOS ADICIONALES:
Ademas de la escala que se esta construyendo se deben preparar otras preguntas, o incluso otras escalas o
instrumentos que puedan estar ya hechos, y quie los sujetos responderan al mismo tiempo, para recoger datos
adicionales. Estos nuevos datos o preguntas tienen que ver con la verificacion de la validez del instrumento.
El obtener datos adicionales de interes es importante por varias razones:
Buscar mas datos hipoteticamente relacionados con lo que queremos medir contribuye a que nos hagamos
una idea mas clara del rasgo o actitud que nos interesa medir.
Recoger datos adicionales al mismo tiempo que se prueba el instrumento en una primera muestra supone un
considerable ahorro de tiempo y esfuerzo.
Las relaciones que vamos encontrando con otras variables se pueden incorporar de alguna manera al
proceso de construccion del instrumento, en el sentido de que nos pueden sugerir ideas validas como
criterio en la misma seleccin de los items, en la busqueda de muestras determinadas,...,etc.
El pensar en otros datos tiene que ver con la comprobacion de la validez de nuestro instrumento y de los
datos que con l recogamos.
Comprobar la validez de un instrumento tiene que ver con la comprobacion o confirmacion del significado de
lo que medimos, y tambien de su utilidad.
Es importante tener desde el principio una idea clara no solamente del rasgo que queremos medir, sino
tambien con que otros rasgos puede estar relacionado ese rasgo, a que grupos pede diferenciar,...,etc.
Estos datos adicionales son basicamente de dos tipos:
Datos cesales o sociologicos: Como edad, sexo, ocupacion o curso, estado civil, etc. Estos datos serviran
para describir la muestra y para hacer analisis adicionales.
Datos de otro tipo: Como pueden ser preguntas relacionadas con lo que se pretende medir, u otros test o
escalas que pueden estar relacionados con la variable que estamos midiendo.
29
6. OBTENER DATOS DE UNA MUESTRA:

Una vez preparada la version inicial del instrumento, se recogen las respuestas de una muestra para poder
hacer los analisis correspondientes, sobre todo el analisis de items y el calculo de la fiabilidad; estos analisis
nos van a permitir dar forma al instrumento definitivo.
El tipo de muestra elegido debe ser semejante al tipo de poblacion con el que se va a utilizar despues. A
mayor heterogeneidad en la muestra obtendremos con mayor facilidad una fiabilidad alta.
Sobre el numero de sujetos necesario; para que los analisis tengan suficiente consistencia y sean
extrapolables a muestras semejantes, conviene que haya al menos 5 sujetos por item inicial. Si se piensa
hacer despues una analisis factorial debe haber unos 10 sujetos por item; en cualquier caso no deben ser
menos de 200.
7. ANALISIS DE ITEMS Y COMPROBACION DE LA FIABILIDAD:
En primer lugar y una vez obtenidos los datos calculamos:
La media y la desviacion tipica de los totales: cada sujeto tiene un total que es la suma de todas sus
respuestas a los items.
La media y la desviacion de cada item.
A continuacion llevaremos a cabo el analisis de items y calcularemos la fiabilidad.
EJERCICIO DE FIABILIDAD (tipo examen)
Media
Desviacin
Hc
tem 1
2,42
0,99
0,20
tem 2
2,38
0,84
0,49
tem 3
2,74
1,09
0,32
tem 4
2,18
1,18
0,28
tem 2
tem 3
tem 4
0,71
0,52
0,48
1,18
0,25
1,40
Covarianzas entre tems.
tem 1
tem 2
tem 3
tem 4
tem 1
0,97
0,22
0,14
0,13
Se trata de una prueba de rendimiento ptimo?

No es una prueba de rendimiento ptimo porque las medias exceden a la unidad y en estas pruebas el rango es
entre 0 y 1. Y la desviacin tpica entre 0 y 0,5.
En que tem los sujetos contestan de manera mas parecida?
El de la desviacin tpica ms pequea: tem 2.
Interpreta la media del tem 3.
Si fuese una prueba de rendimiento ptimo tendramos que decir que es el ndice de dificultad.
30
Pero como es una prueba de rendimiento tpico solo decimos que es la media mayor.
Hay algn tem mal cuantificado?
Para esto miramos el Hc, que es el que relaciona el tem con todos los dems.
El 0,20 del tem 1 quiere decir que cuando todos puntan alto, este punta bajo, con lo cual esta mal
cuantificado.
Cul es el tem que menos relaciona?
El tem 1 (no por ser negativo sino por el numero) por ser el mas bajo, y luego tambin lo comprobamos en
las covarianzas.
Eliminar el menos discriminativo y hallar la media del nuevo test.
Quitamos el tem 2.
Para tener la media total, voy sacando la de la media del tem 1, del tem 3 y la del 4, y la suma de ambas es la
total.
La varianza seria:
S2 =
Eliminar el tem que menos contribuye a la consistencia interna y luego calcular el ndice de consistencia
interna.
Eliminamos el tem 1, por ser el Hc mas bajo.
Y como nos piden consistencia hallaramos el de Cronbach.
k es el nmero de tems.
se suman las varianzas del tem 2, 3, 4 (los que NO quitamos).
0,71 =
Covarianza del 23 = 0,52
++
31
1,18 =
++
1,40 =
EJERCICIO 3
Rxx=
es la fiabilidad por el procedimiento de las dos mitades para los 6 tems.
Una correlacin de 0,51 es moderadamente significativa, la coherencia entre ambas partes es moderada.
El 51% de las diferencias encontradas quedan explicadas por el verdadero nivel de rasgo.
EJERCICIO 4
se halla sumando el tem 2, 3, 4 (X = X2 + X3 + X4 = 4, 7, 3, 5, 6, 11, 8, 4) de ah se halla la varianza, que en

este caso es 6.
Interpretacin: el 78% de las diferencias encontradas se explican por el verdadero nivel de rasgo.
O bien, el 78% de las diferencias encontradas se explican por lo que los sujetos tienen de comn y adems
distinguen las diferencias.
EJERCICIO 7
Si tenemos una fiabilidad de 0,70 y queremos llegar a una fiabilidad de 0,90, sustituiramos en la formula y
nos dara n = 3, 86 formas paralelas.
rnn es la fiabilidad deseada.
r11 es la fiabilidad obtenida con el nmero original de tems.
Ahora en este caso si se podra utilizar la regla de tres.
40 tems 1 forma paralela
X tems n 1 = 2,86 formas paralelas
Y el resultado seria 115 tems que vamos a aadir...
32
OJO!: no confundirnos al poner n = 3,86 que ha sido lo que nos ha dado en la formula, porque hay que
restarle la forma paralela que ya tenamos en el test inicial. Si no la restamos nos saldran 154 tems que son el
total, no los que hemos aadido (115).
EJERCICIO 9
N = 4 quiere decir que he aadido 3 formas paralelas a la inicial.
Cuando duplico el nmero de tems incremento un 0,17 de fiabilidad.
La siguiente vez (de n =2 a n=3) incremento un 0,10.
La prxima vez (de n=3 a n=4) incremento un 0,12.
Esto nos indica que es incorrecto, porque la fiabilidad aumenta pero por el efecto techo no puede ser mayor
que la fiabilidad anterior.
El incremento debera ser 0,6, con una fiabilidad de 0,73.
A EF CA
V.D: criminalidad operativizada en numero actos delictivos.
V.I: Tipos de ciudad, operativizada en 3 niveles: Centros Industriales, C. Comerciales, C. Polticos.
Ho: no existen diferencias estadsticamente significativas en los promedios de criminalidad en funcin del
tipo de ciudad.
Clculos previos.
A1
A2
A3
Media
6,625
5,5
3,5
Desviacin
1,218
1,5
1,5
Varianza
1,484
2,25
2,25
meter todas las medias y hallar la desviacin.
meter todos los datos y hallar la desviacin.
Anova A EF CA
F
33
Origen de la
Variacin
Suma de
cuadrados
Grados de
libertad
Cuadrados
medios
CM entre
CM dentro
(numerador de la (denominador de
varianza)
la varianza)
ENTRE
DENTRO
TOTAL.
40,08
47,872
87,936
2
21
23
(Varianza)
SC/GL
20,04
2,279
8,793
0,05= 3,47 Si nuestra F > F tablas R Ho p <

F2, 21
0,01 = 5,78
DECISION
Con una F2, 21 = 8,793; p < 0,01 Rechazo Hiptesis Nula.
CONCLUSION.
Existen diferencias estadsticamente significativas en los promedios de criminalidad en funcin del tipo de
ciudad.
2. INDICE DE ASOCIACION.
SCentre (K 1) SCdentro = 0,39
SCtotal + SCdentro
El 39 % de la variabilidad encontrada en la criminalidad es atribuible al tipo de ciudad. Tiene una relevancia
grande.
0,001 Baja 0,06 Media 0,14 Grande
3. CONTRASTE DE TUKEY.
0,05 = 3,58
DHS =
q
0,01 = 4,64
DHS0,05 =
DHS0,01 =
34
M1 M2
1,125
3,125
2
A1 A2
A1 A3
A2 A3
P
P>0,05
P<0,01
P<0,05
NO
SI
SI
Rechazo si (M1M2) > DHS

Existen diferencias estadsticamente significativas entre todos los promedios de los diferentes niveles de la
variable dependiente, menos en el del grupo A1 A2, dndose las diferencias mas pronunciadas en funcin
de pertenecer al grupo A1 A3.
4. CONCLUSION.
Con una F 2, 21 =8,793; P< 0,01 vemos que existen diferencias estadsticamente significativas en los
promedios de criminalidad en funcin del tipo de centro.
Mas en concreto esas diferencias se localizan entre los centros industrial y poltico (M1 M3 = 3,125 P< 0,01)
Centros industriales (M = 6,625) y centros industriales (M = 5,5) no difieren, a pesar de tener un ndice de
criminalidad mas altamente significativo que el poltico.
Adems un 39% de la variabilidad encontrada en la criminalidad es atribuible al tipo de ciudad, teniendo una
relevancia grande.
ANOVA AB EF CA
V.D: conducta motora infantil, operativizada en muero de bolas metidas en una caja en 4 minutos.
V.I: privacion social; operativizada en 4 niveles: 10, 20, 40 y 60 minutos.
Magnitud del reforzador; operativizada en 2 niveles: con o sin esfuerzo.
Ho Factor A: no existen diferencias estadisticamente significativas en los promedios en la conducta motora
infantil en funcion de la magnitud del reforzador.
Ho Factor B: no existen diferencias estadsticamente significativas en los promedios en la conducta motora

infantil en funcion del tiempo de privacin social.
Ho Interaccion: no existen diferencias estadsticamente significativas en los promedios en la conducta motora

infantil en funcion de las distintas combinaciones entre privacin social y magnitud del refuerzo.
Calculos Previos.
10
Con
media
3,25
Refuerzo
desviacin
1,639
varianza
2,687
Sin
media
1,5
Refuerzo
desviacin
0,5
varianza
0,25
35
min
20
min
40
min
60
min
4,5
1,118
1,25
0,707
0,5
5,5
0,5
0,25
0,707
0,5
9,75
0,433
0,1875
Mb1=2,375
Sb1 = 0,569
Mb2= 3,75
Sb2 = 0,2055
Mb3 = 6,25
Sb3 = 0,25
Mb4= 8,875
Sb4 = 0,137
Ma1= 5,687 S= 2,228 Ma2= 4,93 S = 3,1715
Ej. La Mb1 se halla metiendo las medias de la 1 fila, se suman y se halla su media
La Ma2 se halla metiendo las medias de la 1 columna y hallando su media.
La Sb1 se halla metiendo las desviaciones de la 1 fila y hallando su desviacin.
La Sa1 se halla metiendo las puntuaciones individuales (enunciado del ejercicio) de la 1 columna (con
refuerzo) y hallando la desviacin.
M factor A: 5, 3085 se meten las 2 medias de A y se halla la media.
S factor A: 0, 3785 se meten las 2 medias de A y se halla la desviacion.
S2 factor A: 0, 1432 se meten las 2 medias de A, se halla la desviacin y se eleva.
M factor B: 5,3125 Se meten las 4 medias y se halla la media.
S factor B: 2,481 Se meten las 4 medias de B y se halla la desviacin.
S2factor B: 6,16 Se meten las 4 medias de B, se halla la desviacion y se eleva.
Mtotal: 5,3125 meter todas las puntuaciones individuales y hallar la media.
Stotal: 2,7662 meter todas las puntuaciones y hallar la desviacion.
S2total: 7,6523 elevar al cuadrado la desviacion de los totales.
36
S2AxB: 6,824 se meten las 8 medias de cada celda (3,25, 4, 5, 7, 8, 1,5, 3, 5,5, 9,75) y se halla la varianza.
Meter la desviacin de las celdas y luego hallar el sumatorio al cuadrado.
n = numero de puntuaciones en cada celda.
A: numero de niveles del factor A.
B: numero de niveles del factor B.
Anova AB EF CA
Suma de
cuadrados
Origen de la
Variacin
Factor A
Factor B
Interaccin
Error
TOTAL
Grados de
libertad
varianza)
la varianza)
4,5824
197,12
16,665
25,2128
244,87
3
1
3
24
31
Cuadrados
medios
F
CM entre
(Varianza)
SC/GL
1,527
197,12
5,555
0,8694
CM
dentro
4,087
59,52
4,99
P
(probabilidad)
>0,05 A
<0,01 R
<0,01 R
0,05 = 4,86 0,05 = 3,01

F1, 24 F3, 24
0,01 = 7,82 0,01 = 4,72
Existen diferencias estadsticamente significativas en la conducta motora infantil en funcion de la privacin
social.
F1, 24 = 59, 52 p < 0,01
Sin embargo no existen diferencias estadsticamente significativas en la conducta motora infantil en funcion
del tiempo de privacin social. F3, 24 = 4,087 p > 0,05
INDICE DE ASOCIACION.
Se halla de los factores que hemos rechazado la Hiptesis Nula.
SCB (B 1) CMerror = 0,7986
SCtotal + CMerror
El 79,86% de la variabilidad encontrada en la conducta motora infantil esta asociada a la privacion social.
SCAB (A 1) (B1) CMerror = 0,057
SCtotal + CMerror
37
El 5,7% de la variabilidad encontrada viene explicada por las diferentes combinaciones de reforzador y
privacin social.
0,001 es bajo. 0,06 media 0,14 alta
Y el coeficiente eta es < 0,05 pequea y < que 0,10 grande
CONTRASTE DE TUKEY.
Hallamos el de factor B porque hemos rechazado Hiptesis Nula y tenemos varios niveles.
En el factor A no hace falta porque solo tenemos 2 niveles.
0,05 = 3,90
DHS =
q 4, 24
0,01 = 4,41
El 4 de la q se refiere a que hay 4 niveles en el factor B.
DHS0,05 =
DHS0,01 =
12
13
14
23
24
34
M1 M2
1,375
3,875
6,5
2,5
5,125
2,625
P
P>0,05
P<0,01
P<0,01
P<0,05
P<0,01
p<0,01
NO
SI
SI
Si
Si
Si
Rechazo si (M1M2) > DHS

Se encuentran diferencias estadisticamente significativas en todos menos en el de 10 y 20 minutos.
GRAFICO DE LAS MEDIAS.
Se meten las medias de las celdillas.
En los primeros momentos (10 20 min) la conducta motora aumenta, mas si tiene refuerzo, pero llegado a
40 60 minutos los que tienen refuerzo disminuyen y los otros aumentan.
Si son lneas paralelas no hay interaccin.
38
Si no son paralelas hay interaccin.

Cuando las lneas se cruzan la interaccin es NO ordinal
Y cuando las lneas no paralelas no las veo cruzarse la interaccin es ordinal.
INTERPRETACION Y CONCLUSION.
Ho Factor A: no existen diferencias estadisticamente significativas en los promedios en la conducta motora
infantil en funcion de la magnitud del reforzador.
Ho Factor B: no existen diferencias estadsticamente significativas en los promedios en la conducta motora
infantil en funcion del tiempo de privacin social.
Ho Interaccion: no existen diferencias estadsticamente significativas en los promedios en la conducta motora
infantil en funcion de las distintas combinaciones entre privacin social y magnitud del refuerzo.
Decisiones.
F1, 24 = 59, 52 p < 0,01
Como se observa en los datos hemos rechazado la hiptesis nula relacionada con la privacion social, lo que
significa que existen diferencias estadsticamente significativas en la conducta motora infantil en funcion del
tiempo de privacin social. Tras hallar la diferencia honestamente significativa podemos afirmar que esas
diferencias estadsticamente significativas se dan entre todos los grupos, excepto en el de 10 20 minutos.
F3, 24 = 4,087 p > 0,05
Sin embargo hemos aceptado la hiptesis nula relacionada con la magnitud del refuerzo, lo que indica que no
existen diferencias estadsticamente significativas en la conducta motora infantil en funcion del tiempo de
privacin social. Ademas al estar operativizada en dos niveles (con reforzador, sin reforzador) no ha sido
necesario realizar contrastes posteriores.
F3, 24 = 4,087 p > 0,05
De igual manera hemos rechazado la hiptesis nula de la interaccion, lo que quiere decir que existen
diferencias estadsticamente significativas en la conducta motora en funcion de las distintas combinaciones
entre magnitud del esfuerzo y privacin social.
Mas concretamente podemos afirmar que el 79% de la variabilidad encontrada en la variable dependiente, que
en este caso es la conducta motora, viene explicada por el tiempo de privacin social en que se mantiene al
nio (0,7986), siendo un porcentaje alto, porque excede al 14%. Y un 5,7% de dicha variabilidad por la
interaccion entre la privacin social y la magnitud del refuerzo.
ANOVA A EF MR
Ho Filas: no existen diferencias estadsticamente significativas en los promedios de los alumnos.
Ho Columnas: no existen diferencias estadsticamente significativas en los promedios en la manera de evaluar
de los profesores.
Clculos previos:
39
Columnas.
A
B
C
D
E
F
media
5,71
4,714
5,857
5,857
5,142
5,714
desviacin
2,11
2,05
1,958
1,641
2,294
1,979
varianza
4,49
4,20
3,836
2,693
5,265
3,918
M columnas: 5,499
S m columnas: 0,426 se meten todas las medias y se halla la desviacin.
S2 M columnas: 0,1817 hallar la desviacin tipica de todas las medias y luego al cuadrado.
Filas.
El total de las filas es la suma de las puntuaciones de cada sujeto.
1
2
3
4
5
6
7
Media
2,833
5,5
7
2,83
6,83
5,166
7,66
Desviacion
0,687
0,957
0,816
1,343
1,572
1,213
0,94
Varianza
0,472
0,916
0,666
1,805
2,472
1,472
0,888
M filas: 5,402
S m filas: 1,811 se meten todas las medias y se halla la desviacin.
S2 M filas: 3,281 se eleva al cuadrado la desviacin.
M total: 5,404
S total: 2,127 meter todos los datos y hallar la desviacin.
S2total:4,526 meter todos los datos y hallar la varianza.
Anova A EF MR
meto las medias de las columns al cuadrado y hallo el sumatorio.
meto las varianzas y hallo el sumatorio
meto las medias de las columnas, hallo la media y lo elevo al cuadradp.
40
aplico la formula
meto los totales de las filas y hallo la varianza
meto las medias de las columnas y hallo la varianza.
SCT =
Suma de
cuadrados
Origen de la
Variacin
Grados de
libertad
varianza)
la varianza)
Cuadrados
medios
F
CM entre
(Varianza)
SC/GL
CM
dentro
P
(probabilidad)
Filas
(alumnos).
Columnas
(Profesores)
Interaccin
Variabilidad
TOTAL.
137,802
22,967
15,428
< 0,01 R
7,6314
1,5263
0,88
> 0,05 A
44,6586
30
1,4886
190,092
41
0,05 = 2,53 0,05 = 2,42

F5, 30 F 6, 30
0,01 = 3,70 0,01 = 3,47
A la vista de los datos concluimos que no existen diferencias estadsticamente significativas entre los
profesores a la hora de clasificar a los candidatos. Hemos aceptado la hiptesis nula de las columnas.
F5, 30= 1,025 p > 0,05
Son los sujetos los que son diferentes entre si. Es decir existen diferencias estadsticamente significativas entre
los candidatos. Hemos rechazado la Ho de las filas; incluso con los grados de libertad mas conservadores (1,
n1; 4,08, 7,31)
F 6, 30 = 15,428 p < 0,01
2. Calcula el coeficiente de fiabilidad que tenga mas sentido calcular de acuerdo con los resultados
obtenidos. Interpretacin.
Cuando se rechaza la Ho de las Columnas es conveniente hallar el coeficiente de fiabilidad de las filas.
Y cuando se rechaza la Ho de las filas hay que hallar el coeficiente de fiabilidad de las columnas para ver en
que grado las columnas son consistentes.
41
Como hemos podido comprobar mediante el anlisis de varianza no existen diferencias estadsticamente
significativas entre los profesores a la hora de clasificar a los candidatos.
A travs del coeficiente fiabilidad y una vez cuantificado su grado de unanimidad, podemos afirmar que
tienen un grado de consistencia de en torno al 14%
Fiabilidad en los test y escalas.
54
X=V+E
r11=
r11=
=
ndice de precisin =
XV =
Rxx=
42
AS AI
Dc1=
N
AS + AI
Df=
N +N
AS + AI
Df=
N +N
Dc2=
Indice dificultad para todo el test =
Indice discriminacion para todo el test =
K 2i
= 1
k 1 2t
43

Fiabilidad de Los Tests

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Fiabilidad de Los Tests

Cargado por

Copyright:

Formatos disponibles

LA FIABILIDAD DE LOS TEST Y ESCALAS

dividiendo un test en todas sus posibles dos mitades.

El denominador es la varianza de las puntuaciones totales del test.

= suma de las varianzas de los tems

= varianza de los totales.

Error tpico de la medida.

AS: Numero de acertantes en el grupo superior

Equivale a una estimacin de la correlacin itemtotal y puede interpretarse de la misma manera.

Los tems deben tener las siguientes caractersticas:

podemos considerar que mide lo mismo que los dems.

Con los estudios de validacin pretendemos dos finalidades:

Comparaciones entre grupos

6. OBTENER DATOS DE UNA MUESTRA:

Covarianzas entre tems.

Se trata de una prueba de rendimiento ptimo?

se suman las varianzas del tem 2, 3, 4 (los que NO quitamos).

se halla sumando el tem 2, 3, 4 (X = X2 + X3 + X4 = 4, 7, 3, 5, 6, 11, 8, 4) de ah se halla la varianza, que en

meter todas las medias y hallar la desviacin.

meter todos los datos y hallar la desviacin.

0,05= 3,47 Si nuestra F > F tablas R Ho p <

Rechazo si (M1M2) > DHS

Ho Factor B: no existen diferencias estadsticamente significativas en los promedios en la conducta motora

Ho Interaccion: no existen diferencias estadsticamente significativas en los promedios en la conducta motora

0,05 = 4,86 0,05 = 3,01

Rechazo si (M1M2) > DHS

Si no son paralelas hay interaccin.

0,05 = 2,53 0,05 = 2,42

Indice dificultad para todo el test =

Indice discriminacion para todo el test =

También podría gustarte