Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Fiabilidad de Los Tests
Fiabilidad de Los Tests
Recordemos que la validez se refera al significado que podemos atribuir. Es decir, estar seguro de que se
mide lo que se dice medir, pero NO hay que entenderlo como una caracterstica del instrumento. Con una
validez alta podemos garantizar el significado de las puntuaciones de los sujetos.
Por tanto si cambio de muestra puede cambiar mi fiabilidad y mi validez, porque cambio de sujetos. Hay que
intentar que las muestras sean heterogneas.
CONCEPTOS PRELIMINARES DE FIABILIDAD.
La fiabilidad es una caracterstica de los resultados, de unas puntuaciones obtenidas en una muestra
determinada. Un mismo instrumento puede medir bien a los sujetos de una muestra, con mucha precisin y
mal, con un margen de error grande, a los sujetos de otra muestra.
En principio la fiabilidad expresa el grado de precisin en la medida. Con una fiabilidad alta los sujetos en
ocasiones sucesivas quedaran ordenados de manera semejante. Ej. Si tiene una actitud favorable hacia la
homosexualidad no puede a veces ser desfavorable.
Otro concepto es el de consistencia o predictibilidad. Un test es fiable si sabemos de antemano como va a
contestar un sujeto, y lo sabemos porque lo hemos comprobado en muchas ocasiones.
Errores sistemticos: son los que siempre ocurren. Ej. A cada sujeto se le dan dos puntos mas Estn
relacionados con la validez.
Errores aleatorios: los que ocurren al azar. Relacionados con la fiabilidad.
ENFOQUES DE LA FIABILIDAD.
1. Como formas paralelas.
Son dos versiones del mismo test: los tems son distintos pero se pretende medir lo mismo. Se espera que un
sujeto saque en ambos test las mismas puntuaciones verdaderas.
La puntuacin emprica se divide en la puntuacin verdadera y en los errores (modelo lineal de Spearman).
Condiciones para que sean formas paralelas:
1 Las puntuacin empricas pueden ser diferentes pero las verdaderas son siempre iguales.
2 La dispersin de los errores o la varianza error debe ser la misma en ambos test.
Indicador de equivalencia.
Puede ser un indicador de equivalencia entre los dos test: si la correlacin es alta, las dos formas del mismo
test dan resultados parecidos, es decir, ambas son intercambiables. Si la correlacin es baja, miden cosas
distintas.
Confirmacin adicional.
Una confirmacin adicional para ver que son formas paralelas es comprobar si la correlacin media Inter
tem dentro de cada forma es de magnitud similar y tambin la correlacin de los tems de una forma con los
de la otra versin.
2. Estabilidad Temporal (Test Retest)
Los sujetos responden dos veces al mismo test dejando un intervalo de tiempo entre ambas.
Se refiere a que si el test se aplica hoy o dentro de un tiempo, siga siendo valido y fiable, es decir, que se
encuentre una relacin entre lo que se obtiene hoy y lo que se obtiene mas adelante.
Indicador de estabilidad.
Es un indicador de estabilidad o de no ambigedad en la medida en que en ambas ocasiones los resultados son
parecidos.
3. Consistencia Interna.
Expresa hasta que punto las respuestas son suficientemente coherentes y relacionadas para concluir que todos
los tems miden lo mismo y son sumables en una puntuacin nica que representa o mide un rasgo
(recordemos que estamos en la escala tipo Lickert y que para sumar tems deben medir lo mismo).
Podemos hallarla de dos maneras:
Procedimiento de las dos mitades: mediante a) la formula de Spearman Brown, b) Flanagan, c) de
Cronbach.
Es habitual dividir el test en tems pares e impares, pero puede dividirse en dos mitades cualesquiera, teniendo
ambas el mismo numero de tems.
Si emparejamos los tems segn contenido de manera que cada mitad del test conste de tems muy parecidos,
obtendremos una estimacin ms alta de la fiabilidad.
Cuando la mitad de los tems son positivos y la otra negativos es til que las dos mitades estn compuestas
una por tems positivos y otra por los negativos. Una correlacin entre los dos subtest en torno a 0,50 o mayor
indica suficiente coherencia entre los dos tipos de tems y no se manifiesta aquiescencia.
Se parte el test en dos mitades, y para decir que son formas paralelas tienen que tener: a) la misma media, b) la
misma varianza. Y si los correlaciono me dara la fiabilidad de una parte o de otra (son la misma) y con el
coeficiente de Spearman Brown hallamos la fiabilidad del conjunto.
R12 = correlacin entre las dos mitades del test
Esta formula calcula la fiabilidad de todo el test.
Supone que las dos mitades tienen medias y varianzas idnticas, por lo que sobreestima la fiabilidad.
Procedimiento informativo de cada tem: cuando parto el test en tantas partes como tems hay.
Podemos usar el de Cronbach (para tems continuos) y la KuderRichardson (para tems
dicotmicos).
Son preferibles a los mtodos de las dos mitades porque equivalen a la fiabilidad media que obtendramos
2
= Varianza total: expresa todo lo que hay de diferente en las puntuaciones totales. La varianza ser mayor si
los sujetos difieren mucho entre si y estar asociada a mayor fiabilidad.
= Varianza verdadera: expresa lo que hay de diferente debido a que los sujetos son distintos en lo que
pretendemos medir, es decir, lo que hay de diferente debido a lo que los tems tienen en comn.
= Varianza debida a errores de medicin: debida a que los tems miden en parte cosas distintas. Puede haber
ms fuentes de error pero controlamos la debida a falta de homogeneidad.
La fiabilidad es la proporcin de varianza verdadera, es decir la fiabilidad es igual a la varianza debida a lo
que hay de coherente en las respuestas entre la varianza debida tanto a lo que hay de coherente como de no
coherente en las respuestas y su formula bsica es:
REQUISITOS PARA UNA FIABILIDAD ALTA.
1 Tendremos una fiabilidad alta cuando haya diferencias en las respuestas a los tems, es decir, cuando los
tems discriminan. Si un tem no esta relacionado con los dems puede ser que no este midiendo lo mismo y
que no sea discriminante.
2 Y tambin cuando las respuestas de los tems estn relacionadas entre si, entonces habr consistencia
interna. Esto es que los sujetos tienden a puntuar alto en todos o bajo en todos.
Con respuestas diferentes y adems coherentes, los sujetos quedan ms diversificados, mejor clasificados por
sus puntuaciones totales y esto se refleja en una mayor varianza.
La fiabilidad viene a expresar la capacidad del instrumento para discriminar, para diferenciar a los sujetos a
travs de sus respuestas en todos los tems.
FORMULAS DE KUDER RICHARDSON 20 Y DE CRONBACH
Se trata de la misma formula, una expresada para tems dicotmicos y otra para tems continuos.
Son indicadores de homogeneidad de los tems, de que todos midan lo mismo. La homogeneidad
conceptual se interpreta como descriptor del rasgo que suponemos presente en todos los tems.
Son una estimacin del coeficiente de correlacin que podemos esperar con un test similar, con el
mismo nmero y tipo de tems. De un universo de posibles tems hemos escogido una muestra de
tems. Si la fiabilidad es alta, con otra muestra de tems de la misma poblacin de tems obtendramos
unos resultados semejantes.
La fiabilidad nos dice si un test discrimina adecuadamente, si clasifica bien a los sujetos, si detecta
bien las diferencias en aquello que es comn a todos lo tems.
La raz cuadrada de un coeficiente de fiabilidad equivale al coeficiente de correlacin entre las
puntuaciones obtenidas y las puntuaciones verdaderas, a estos e le llama ndice de precisin.
Una fiabilidad de 0,75 indicara una correlacin de 0,86 (=
). Este ndice expresa el valor mximo que puede alcanzar el coeficiente de fiabilidad.
El error tpico es la oscilacin probable de las puntuaciones si los sujetos hubieran respondido a una
serie de test paralelos. A mayor fiabilidad bajara la magnitud del error probable.
CUANDO UN COEFICIENTE DE FIABILIAD ES SUFICIENTEMENTE ALTO.
Tabla 3
Cuando baja la fiabilidad sube el error tpico, que con una forma paralela del mismo test podra ser distinta.
Los valores del coeficiente de fiabilidad oscilan entre 0 y 1.
UTILIDAD DE LOS COEFICIENTES DE FIABILIDAD.
1 En principio confirman que todos los tems miden lo mismo y se utilizan como un control de calidad.
2 Permiten calcular el error tpico de las puntuaciones individuales, es decir, entre que valores se encontrara
nuestra puntuacin verdadera, entendiendo por ello la que tendramos si passemos varios test.
3 Permiten estimar los coeficientes de correlacin que hubiramos obtenido entre dos variables si su
fiabilidad fuera perfecta (se denominan corregidos por atenuacin).
Los coeficientes no dependen exclusivamente de la redaccin de los tems, de la complejidad o simplicidad de
la definicin del rasgo que queremos medir y adems influyen en la fiabilidad caractersticas de la muestra.
Por que un coeficiente alto no expresa necesariamente que los tems son suficientemente homogneos.
1 La consistencia interna expresa una relacin de hecho, estadstica, entre los tems pero no supone
necesariamente una coherencia conceptual.
2 Una fiabilidad alta puede deberse a un numero grande de tems que en ocasiones no se prestan a una
interpretacin clara.
Una fiabilidad alta se puede conseguir con muchos tems con relaciones bajas entre si y tambin con dos
bloques de tems con claras correlaciones entre los tems dentro de cada bloque, pero con poca o nula relacin
con los tems del otro bloque.
3 Puede deberse tambin a una concepcin del rasgo muy limitada, con tems de contenido casi idntico.
Los rasgos definidos de manera compleja pueden tener tems poco relacionados entre si.
4 Utilidad del error tpico cuando la fiabilidad es baja.
Con coeficientes bajos siempre es conveniente utilizar el error tpico, sobre todo cuando se trata de tomar
decisiones sobre sujetos.
FORMULAS QUE RELACIONAN FIABILIDAD CON NMERO DE ITEMS
Si queremos saber en cuanto aumentara la fiabilidad si aumentamos el numero de tems multiplicando
el numero de tems inicial, tenemos la formula de Spearman Brown :
rxx es el coeficiente de fiabilidad conocido.
Rxx es el nuevo coeficiente de fiabilidad estimado.
n es el numero de formas paralelas que alargo en el test inicial.
Ejemplo: tenemos un test inicial de 20 tems con una fiabilidad de 0,42, y le vamos a aadir otros 20 tems.
20 tems rxx = 0,42
40 tems rxy
NO podramos hacer una regla de tres porque eso supondra una relacin lineal, que ya hemos dicho que no
existe entre longitud del test y fiabilidad, pues sino aumentara hasta el infinito.
En este ejemplo n (numero de formas paralelas) no es 20 porque eso supondra que tendramos 400 tems en
vez de 40. El test inicial de 20 tems tiene 1 forma paralela, as que si ahora aado otros 20 tems aado otra
forma paralela, n = 2. Cuando ya tenemos 40 tems y 2 formas paralelas se le llama forma alargada del test.
Si tenemos una fiabilidad conocida y queremos llegar a otra ms alta, en cuantos tems tendramos
que alargar el test?
rnn es la fiabilidad deseada.
r11 es la fiabilidad obtenida con el nmero original de tems.
Ejemplo del ejercicio 7:
Si tenemos una fiabilidad de 0,70 y queremos llegar a una fiabilidad de 0,90, sustituiramos en la formula y
nos dara n = 3, 86 formas paralelas.
Ahora en este caso si se podra utilizar la regla de tres.
40 tems 1 forma paralela
X tems n 1 = 2,86 formas paralelas
Y el resultado seria 115 tems que vamos a aadir..
OJO!: no confundirnos al poner n = 3,86 que ha sido lo que nos ha dado en la formula, porque hay que
7
restarle la forma paralela que ya tenamos en el test inicial. Si no la restamos nos saldran 154 tems que son el
total, no los que hemos aadido (115).
Los casos que hemos visto siempre nos salen nmeros redondos pero puede suceder que no lo sean, en
cualquier caso el procedimiento seria el mismo:
Inicial 15 tems 1 forma paralela
Aado 10 tems n 1 = 0,66 (sale de una regla de tres)
Final 25 tems n = 1,66 forma paralela.
TEMA V. INTRODUCCION A LOS METODOS NO PARAMTRICOS:
Los mtodos no paramtricos no suponen condiciones previas en la poblacin. Se han hecho especialmente
populares como alternativa los mtodos paramtricos cuando los datos no se ajustan a los supuestos tericos
de dichos mtodos. Son relativamente sencillos y especialmente aptos para muestras pequeas.
I. LOS SUPUESTOS DE LOS METODOS PARAMTRICOS:
EN RELACION AL TIPO DE ESCALA O NIVEL DE MEDIDA:
Lo que supone es que la escala utilizada es de intervalo, es decir, que hay una unidad propiamente dicha
aunque el punto cero sea arbitrario.
El problema de la unidad esta relacionado con las escalas de medida. En principio, el nivel de medida
condiciona las operaciones matemticas permisibles.
Los nmeros pueden significar un criterio de clasificacin:
En este caso no son nmeros en sentido propio. Se trata de las denominadas escalas nominales. En estos
casos podemos contar cuantos elementos hay en cada categora de clasificacin, pero los nmeros con los que
designamos los grupos no expresan necesariamente ni orden ni cantidad.
Los nmeros pueden significar orden:
En este caso tenemos escalas ordinales. Podemos ordenar los sujetos u objetos de ms a menos, pero no hay
una unidad en sentido propio.
Los nmeros pueden significar cantidad o distancia:
Aqu disponemos de una unidad en sentido propio (4 es el doble que 2) se trata de las escalas de intervalo (y
que si tienen un punto cero absoluto se denominan escalas de razn). Cuando disponemos de una unidad
podemos hacer los operaciones aritmticas habituales.
Si se da una correspondencia suficiente entre los modelos matemticos y los datos observados se denomina
isomorfismo.
El investigador Stevens plante el problema de la utilizacin de mtodos paramtricos con medidas que, en
sentido estricto, solo son ordinales y no disponen de una unidad.
Justificacin de la suposicin de una unidad en los datos de que disponemos:
8
Las razones aducidas para actuar de este modo son de dos tipos:
Unas consideraciones son de corte ms terico:
Suponemos que las escalas que utilizamos son de intervalo aunque imperfectas; las variables subyacentes o
rasgos los conceptualizamos como continuos y con distribucin normal. No se trata de escalas literalmente de
intervalo pero se aproximan lo suficiente como para tratar los datos como si lo fueran.
Otras razones son de tipo puramente experimental:
Los datos tericamente ordinales funcionan bien como si se tratara de escalas de intervalo. Podemos suponer
en la practica que, por ejemplo, entre poco y algo hay la misma distancia que entre algo y bastante como si
hubiera una unidad, por lo que podemos asignar a esas respuestas nmeros consecutivos.
Estas y parecidas razones hacen que el punto de vista dominante hoy da es que la distincin entre escalas
ordinales y de intervalo es irrelevante para determinar cual es el mtodo de anlisis apropiado para comprobar
hiptesis estadsticas. As, las pruebas paramtricas se consideran legitimas con medidas ordinales.
EN RELACION A LAS CARACTERISTICAS DE LAS POBLACIONES:
Se supone:
Una distribucin normal.
Homogeneidad de varianzas.
Esta suficientemente probado que en la mayora de las situaciones la violacin de estos supuestos no afecta al
poder (de rechazar la hiptesis nula cuando es falsa) de las pruebas paramtricas.
II. CUANDO ES PREFERIBLE UTILIZAR LOS METODOS NO PARAMETRICOS:
Los mtodos no paramtricos son una alternativa preferible cuando se dan estas dos circunstancias:
Cuando no se pueda presumir la normalidad en la poblacin: cuando muestras pequeas tienen
una distribucin obviamente muy alejada de la distribucin normal.
El supuesto de normalidad en la poblacin se puede asegurar mejor cuidando la calidad del instrumento. Lo
que ocurre es que a veces la calidad del instrumento no es modificable o simplemente se trata de estudios
improvisados en los que no se puede o no interesa invertir tiempo en el instrumento.
Con muestras pequeas de tamao claramente desigual y con varianzas obviamente muy
desiguales.
Independientemente de los problemas de los mtodos paramtricos, esta bien demostrada la calidad de los
mtodos no paramtricos.
Aun as, si los mtodos alternativos paramtricos se pueden utilizar son en principio preferibles porque en
ellos se utiliza toda la informacin disponible (no solamente el orden). La perdida de informacin es mayor en
la medida en que aumenta el numero de sujetos.
III. METODOS NO PARAMTRICOS MAS UTILIZADOS:
Los mtodos no paramtricos podemos dividirlos en dos grandes grupos segn se trate de datos nominales
9
(sujetos u observaciones clasificados en categoras) u ordinales (lo que conocemos y utilizamos de cada
observacin es su rango o numero de orden).
1. METODOS APROPIADOS PARA DATOS NOMINALES:
Clasificaciones:
En esta categora entran todas las variantes del ji cuadrado. Estos mtodos deben utilizarse junto con los
coeficientes de asociacin correspondientes (como el coeficiente , el coeficiente de contingencia,...etc)
Con frecuencia mtodos que requieren mtodos ordinales desembocan en la distribucin de ji cuadrado (sobre
todo al aumentar el tamao de la muestra) o simplemente se utiliza el orden para dicotomizar las puntuaciones
y aplicar despus el ji cuadrado convencional (como en la prueba de la mediana).
Para muestras independientes y muy pequeas, que se pueden disponer en cuadros de 2x2, y en las que por
el bajo numero de sujetos el ji cuadrado convencional no es aplicable, tenemos la prueba exacta de
Fhiser.
Para dos muestras relacionadas, tambin dispuestas en cuadros de 2x2, es muy til la prueba de McNemar
para detectar cambios: los sujetos se clasifican segn sus respuestas, 1 0, antes y despus. Lo que se
compara es la proporcin de unos antes y despus.
Para muestras muy pequeas divididas solo en dos categoras (equivale al contraste entre proporciones) es
muy til la aplicacin directa de la distribucin binomial (solo requiere consultar tablas).
La distribucin binomial es tambin aplicable a muestras grandes, pero en este caso la distribucin pasa a ser
normal y estamos en el caso habitual de diferencias entre proporciones.
Algunos mtodos que requieren datos ordinales terminan en la distribucin nominal, como la prueba de los
signos para verificar cambios; numero de sujetos con cambio positivo y numero de sujetos con cambio
negativo.
2. METODOS ORDINALES EN LOS QUE SE UTILIZAN RANGOS:
En estos mtodos se sustituye la puntuacin directa por su rango o numero de orden y se opera con estos
rangos. Aunque es cierto que existen algunos de ellos en los que no se utilizan sino que se supone que la
variable es ordinal y continua.
Los mtodos en los que se utilizan los rangos tienen en principio una ventaja obvia, y es que no se ven
afectados por sujetos con puntuaciones muy extremas y atpicas.
2.1. Cuando Tenemos Solamente Dos Muestras:
La U de MannWhitney para comparar dos muestras independientes: Es la alternativa ms utilizada a la t
de Student para muestras independientes. Comprueba si dos distribuciones son distintas.
La T de Wilcoxon para dos muestras relacionadas: Es tambin la alternativa ,ms utilizada a la t de Student
para muestras relacionadas. Se utiliza para detectar cambios o en diseos de sujetos igualados.
Para comprobar cambios (muestras relacionadas) es tambin popular la prueba de los signos, que solo requiere
datos ordinales y no utilizan los rangos.
Otros mtodos no paramtricos de inters suponen variables al menos ordinales y continuas aunque no se
utilicen los rangos, como sucede en:
10
La prueba de KolmogorovSmirnov para una muestra o para dos muestras independientes: no se utilizan
rangos sino frecuencias acumuladas, pero se supone, al menos, una escala ordinal.
Cuando se trata de dos muestras lo que se detecta con estas pruebas es si las muestras tienen distribuciones
distintas.
Aplicada a una sola muestra, esta prueba es especialmente til, como prueba de bondad de ajuste, para
verificar si la distribucin observada se aparta de una distribucin hipottica que suele ser la distribucin
normal.
La prueba de las rachas de WaldWolfowitz, semejante a la prueba de KolmogorovSmirnov, nos permite
determinar si las dos muestras pertenecen a poblaciones distintas en tendencia central o dispersin.
2.2 Cuando Tenemos Mas De Dos Muestras:
Cuando tenemos mas de dos muestras, estamos ante las alternativas no paramtricas al anlisis de varianza.
Para mas de dos muestras independientes:
La H de KruskalWallis: es una alternativa al anlisis de varianza ms sencillo: Anova AEFCA.
Cuando el supuesto de homogeneidad de varianzas no es sostenible, permite poner a prueba la hiptesis de
que varias medias proceden de la misma poblacin. Si hay rangos repetidos es ms difcil rechazar la
hiptesis nula pero el mismo procedimiento incluye los ajustes necesarios.
La prueba de Jonckheere comprueba si se da una tendencia significativa a aumentar de menos a mas, entre
varias muestras independientes.
Para mas de dos muestras relacionadas:
La prueba de Friedman: Es tambin una alternativa no paramtrica del anlisis de varianza convencional de
varias muestras relacionadas: Anova AEFMR.
En este anlisis de varianza parametrico disponemos, como calculo complementario, de los coeficientes de
fiabilidad. De manera anloga, como complemento de la prueba de Friedman se puede utilizar el coeficiente
W de Kendall, denominado coeficiente de concordancia, porque suele utilizarse para comprobar el grado de
coincidencia entre varios evaluadores que ordenan a los mismos sujetos u objetos. A partir del valor de W se
puede calcular rpidamente el valor medio de la correlacin entre las columnas y la fiabilidad de las filas
(sujetos) al ordenar a las columnas.
Este tipo de clculos son de inters precisamente para verificar el grado de concordancia, unanimidad,... etc.
Para mas de dos muestras relacionadas y cuando la variable dependiente es dicotmica contamos con la
prueba Q de Conchran (una extensin de la prueba de McNemar), que nos dice si las diferencias en las
condiciones (columnas) tiene un efecto significativo en las respuestas de los sujetos (filas).
La prueba de tendencia L de Page, que puede considerarse como una extensin de la prueba de Friedman,
se utiliza para comprobar si en una serie de puntuaciones se da una tendencia a aumentar o disminuir.
IV. LOS METODOS NO PARAMETRICOS MS COMUNES:
Si categorizamos las muestras segn sean dos o ms de dos, e independientes o relacionadas, los mtodos no
paramtricos posiblemente mas utilizados son:
11
PSICOMETRIA:
I. ANALISIS DE ITEMS EN LAS PRUEBAS OBJETIVAS:
1. EL CONTEXTO: LAS PRUEBAS OBJETIVAS:
Al estudiar el anlisis de tems de las pruebas objetivas, hay que tener en cuenta todo el contexto.
Las pruebas objetivos (tipotest) pueden ser muy cmodas fundamentalmente porque:
Las pruebas objetivas se pueden corregir con lectura ptica, la tarea es mecnica, simple,...,etc.
Con las pruebas objetivas es mas sencillo establecer criterios de clasifican y tambin pueden justificarse
mejor estos criterios.
En las pruebas objetivas la correccin s es objetiva, pero tanto la formulacin de las preguntas como donde se
pone el mnimo para el apto son decisiones subjetivas del autor.
Su frecuente mala calidad se debe sobre todo a:
No es tan fcil redactar buenas preguntas objetivas.
No es frecuente planificar estas pruebas aunque sea de manera muy elemental, puede por lo tanto haber mas
preguntas de lo que es fcil preguntar y no tanto de lo mas importante.
Una manera de mejorar la calidad de estas preguntas objetivas es analizarlas. Este tipo de pruebas se prestan a
hacer una serie de anlisis de inters que pueden referirse:
A toda la muestra.
A cada pregunta en particular.
2. UTILIDAD DEL ANALISIS DE LOS ITEMS:
Analizar las pruebas objetivas puede ser de inters porque:
Sirve para ir mejorando su calidad: la informacin que nos dan este tipo de anlisis nos permite ir
mejorando las pruebas sucesivas que vallamos haciendo.
Esta informacin que puede ser muy especifica puede ayudar a caer en la cuenta de errores generalizados, a
entender puntos difciles, a condicionar un estudio posterior de mas calidad,...,etc.
Tambin nos aportan datos que pueden influir indirectamente en nuestros criterios de calificacin: podemos
descubrir preguntas ambiguas, con dos respuestas correctas o con la clave de correccin equivocada,...,etc.
Por otra parte todos estos anlisis son fcilmente programables, y si utilizamos una hoja de respuestas de
lectura ptica y un programa adecuado de ordenador casi sin darnos cuenta podemos acumular una
informacin muy til.
1. ANALISIS ESTADISTICOS CONVENCIONALES:
1. ANALISIS REFERIDOS A TODA LA PRUEBA:
EL COEFICIENTE DE FIABILIDAD:
Este coeficiente indica en que medida en pruebas semejantes los sujetos habran quedado ordenados de
manera parecida. Dos factores influyen en la magnitud de este coeficiente.
12
La homogeneidad de los tems: En la medida en que los tems midan lo mismo la fiabilidad ser mayor;
con preguntas muy distintas y poco relacionadas la fiabilidad ser menor.
Homogeneidad de la muestra o diferencias entre los sujetos: Si los sujetos tienen resultados muy
parecidos la fiabilidad tender a bajar; no se puede clasificar u ordenar bien a sujetos muy semejantes.
Fundamentalmente la fiabilidad depende de las diferencias entre los sujetos por lo que se puede cuestionar la
fiabilidad de un test o de una prueba objetiva como indicador necesario de su calidad; si todos saben todo o
casi todo o casi nada.
Un coeficiente de fiabilidad alto es claramente deseable cuando las diferencias entre los sujetos son legitimas
y esperadas; y esto es lo que suele suceder en los test psicolgicos.
No hay que olvidar que una fiabilidad alta no es sinnimo sin mas de calidad porque puede faltar lo que es
mas importante, la validez.
EL ERROR TIPICO DE LAS PUNTUACIONES INDIVIDUALES:
El error tpico se deriva del coeficiente de fiabilidad y viene a indicar el margen probable de oscilacin de las
puntuaciones de unas ocasiones a otras en exmenes hipotticamente semejantes. Puede servir para relativizar
los resultados individuales. Equivale a una desviacin tpica y se interpreta de manera semejante.
2. ANALISIS DE CADA PREGUNTA O DE CADA ALTERNATIVA:
LA CORRELACION ITEMTOTAL O INDICE DE HOMOGENEIDAD CORREGIDO:
Se trata de un dato de cada e indica en que medida cada uno de ellos discrimina, es decir, diferencia a los que
saben mas de los que saben menos. Se trata de la correlacin de cada pregunta con la suma de todas las
dems.
Lo que expresa esta correlacin es en que medida el responder correctamente a un tem est relacionado con
puntuar alto en todo el test.
Una correlacin positiva: quiere decir que puntuar bien en esa pregunta esta relacionado con puntuar
bien en el conjunto de la prueba.
Una correlacin prxima a 0: quiere decir que responder bien a eso pregunta no tiene que ver con
estar bien en el conjunto del test.
Una correlacin negativa: quiere decir que responder bien a esa pregunta esta relacionado con estar
mas bien mal en el conjunto de la prueba.
LA CORRELACION DE CADA ALTERNATIVA CON EL TOTAL:
Es la correlacin entre escoger cada una de las alternativas ( tanto la verdadera como las falsas) y el total del
test. Lo que podemos esperar es que el escoger una alternativa falsa correlacione negativamente con el total.
2. ANALISIS DE LAS DIVERSAS ALTERNATIVAS: TABULACION DE LAS RESPUESTAS:
Este anlisis, se limita a la mera tabulacin de las respuestas. Se trata de organizar las respuestas de manera
que permitan una reflexin rpida.
El proceso es el siguiente:
Se ordenan los sujetos de mas a menos segn su puntuacin total en la prueba y se seleccionan el 25% con
13
puntuacin total mas alta (grupo superior) y el 25% con puntuacin total mas baja (grupo inferior).
Se tabulan las respuestas de estos dos grupos en cada tem, de manera que se pueda ver cuantos de cada
grupo, superior e inferior, han escogido cada opcin.
Cuadro 1
En el supuesto numerador tenemos el numero de alumnos del grupo superior que ha escogido cada opcin, y
debajo el numero de alumnos del grupo inferior que ha escogido esa misma opcin; la respuesta correcta esta
sealada con un asterisco.
3. INDICES DE DIFICULTAD Y DISCRIMINACION:
1. PARA CADA ITEM:
Estos ndices no se calculan para toda la muestra sino para el 25% con una puntuacin total mas alta en todo
el test y para el 25% con una puntuacin total mas baja. El numero de sujetos entre ambos grupos es por lo
tanto el mismo; solo se analiza el 50% de la muestra. Este tipo de anlisis es anlogo al que se hace cuando se
construye una escala de actitudes.
SIMBOLOS UTILIZADOS:
N: Numero de sujetos en uno de los dos grupos (los
dos grupos tienen idntico numero de sujetos).
N + N: Numero total de sujetos analizados.
INDICE DE DIFICULTAD:
Indica la proporcin de aciertos en la muestra de alumnos que estamos utilizando. Es la media de ste 50% de
sujetos analizados.
El trmino de dificultad se presta a equvocos: in ndice mayor indica un pregunta mas fcil.
Las preguntas que discriminan mucho tienden a ser de dificultad media (responden bien la mitad de
los sujetos analizados). Df = 0.50
(AS = N; AI = 0)
INDICES DE DISCRIMINACION:
Los ndices de discriminacin expresan en que medida cada pregunta o tem diferencia a los que mas saben de
los que menos saben
Indice de discriminacin 1:
Depende del grado de dificultad del tem. Es la diferencia entre dos proporciones, los acertantes del grupo
superior menos los acertantes del grupo inferior.
Es el ndice probablemente mas utilizado. Expresa hasta que punto la pregunta discrimina, establece
diferencias, contribuye a situar a un sujeto en el grupo superior e inferior.
A mayor diferencia, en numero de acertantes entre los grupos superior e inferior, el tem es mas
discriminante, contribuye mas a situar a un sujeto entre los primeros o entre los ltimos.
14
Nos dice cuanto discrimina el item, tanto si es facil como si es muy difcil.
1 Una pregunta muy facil, con N =10 en casa grupo. La aciertan 10 del superior y 9 del inferior.
El Dc1 diria que apenas discrimina, que es muy facil.
El Dc2 diria que aunque es muy facil, de fallar alguien esta pregunta pertenece al grupo de los que
menos saben.
2 Una pregunta muy difcil.
El Dc1 dice que discrimina muy poco porque es muy difcil.
El Dc2 dice que la discriminacin es perfecta, que de saberla alguien, este perteneceria al grupo
superior.
Este indice es util para comparar la dificultad de varios test, sobre todo si tienen un numero distinto de tems.
El numero de tems es la diferencia maxima posible, la que habria entre un sujeto que hubiera respondido bien
a todos y el que no hubiera respondido a ninguno.
Valoracin de estos indices.
Describen como ha funcionado una pregunta en una situacin dada, pero no hacen juicios sobre la calidad de
la pregunta.
Las preguntas muy discriminantes nos indican donde falla los que tienen malos resultados sobre todo.
La discriminacin supoen diferencias y el que haya diferencias no es necesariamente un buen resultado.
En examenes amplios la no discriminacin puede indicar que no se detectan diferencias que de hecho existen.
En el conjunto del examen y para poder calificar con cierto matiz debe haber preguntas de dificultad media
que discriminen bien.
Las preguntas muy discriminantes (nunca seran las mas difciles) son utiles en examenes de segunda
convocatoria, prescindiendo de lo muy facil y de lo muy difcil.
Para extrapolar los resultados harian falta muestras grandes, N=400, sin embargo los indices obtenidos con
grupos pequeos, si se mantiene constante el tipo de muestra, dan lo que se puede esperar en grupos similares.
Estos indices describen como han funcionado los tems, y son utiles para evaluar las preguntas, sugerir que se
puede revisar pero malas preguntas pueden tener indicen que podrian considerarse optimos. Es peligroso
interpretar estos indices como indicadores automaticos de la calidad de una pregunta.
El analisis de las diversas alternativas, comprobando cuantos eligen cada una, es util para ir mejorando las
preguntas.
PSICOMETRIA:
I. GUIA PARA CONSTRUIR ESCALAS DE ACTITUDES:
POR QUE CONSTRUIMOS UNA ESCALA EN VEZ DE LIMITARNOS A UNA SOLA PREGUNTA?:
Construimos escalas de actitudes para medir determinados rasgos; entendiendo por medir, el apreciar
16
cuantitativamente si un sujeto tiene poco o mucho del rasgo en cuestin, o ver donde se sita un sujeto en un
continuo de menos a mas.
A veces el medir actitudes con una sola pregunta es muy til como medida complementaria de instrumentos
mas complejos. Sin embargo, puede ser conveniente el disponer de varios indicadores de una misma actitud
que van a ser sumados despus como indicador de esta actitud o variable.
Tenemos varias razones para construir escalas o disponer de varios indicadores del mismo rasgo:
Con una serie de tems describimos y medimos mejor constructos relativamente complejos. Una nica
pregunta simplifica frecuentemente en exceso el concepto que vamos a medir.
En conjunto una medida formada por varios tems es mas valida, no solamente porque describen mejor un
constructo complejo, sino porque una nica pregunta puede ser de hecho poco afortunada, o ser mal
entendida por muchos sujetos.
Una muestra relativamente amplia de preguntas constituye una mejor base para formarnos un juicio mas
preciso y fundado sobre como cmo est una persona en un rasgo concreto.
Este tipo de razones tiene mas peso cuando se van a tomar decisiones sobre los sujetos o interesa un buen
diagnostico individual.
Aumenta la fiabilidad de la medida y se minimizan las limitaciones de cada tem en particular, merecen mas
confianza varias preguntas que una sola. En un sentido mas psicometrico, si disponemos de una serie de
tems podemos calcular el coeficiente de fiabilidad.
Una razn de peso para sumar varios indicadores del mismo rasgo es que las diferencias entre los sujetos
van a quedar mas ntidas, va a ser mas fcil clasificarlos y, en definitiva, va a aumentar la varianza.
Diferenciamos mejor a las personas en un determinado rasgo si disponemos de varios indicadores y
consecuentemente detectaremos mejor las relaciones de ese rasgo con otras variables.
De los diversos tipos de escalas nos limitaremos aqu a tratar las denominadas escalas tipo Likert en las que
la suma de una serie de respuestas a tems supuestamente homogneos sita al sujeto en la variable medida.
1. PROCESO DE CONSTRUCCION DE UNA ESCALA DE ACTITUDES:
El proceso se puede describir de varias maneras, pero bsicamente se puede concretar en los pasos siguientes:
1. DEFINICION DE LA ACTITUD QUE SE DESEA MEDIR:
El primer paso es siempre clarificar el rasgo que se desea medir; una definicin o explicacin previa da
coherencia al resto del proceso. Puede ayudar el hacer previamente una descripcin de la persona que
supuestamente tenga de manera clara la actitud que se desea medir.
No hay que olvidar que las actitudes, como cualquier otro rasgo que queramos medir, se pueden concebir en
diversos grados de abstraccin, y pueden ser muy genricos o muy especficos.
Puede ayudar tambin revisar otros instrumentos ya hechos.
2. REDACCION DE LOS ITEMS:
Pueden redactarse de diversas maneras pero, en general, y tratndose de escalas de actitudes, suelen
formularse en forma de opiniones con las que se puede estar o no estar de acuerdo.
17
Cuadro 1
Caben otros formatos en las respuestas como utilizar nmeros especificando con palabras el significado de los
extremos (muy de acuerdo o muy en desacuerdo). O con letras. En general parece preferible el empleo de
letras o palabras, al menos si se juzga que los nmeros pueden condicionar la respuesta.
Las repuestas en trminos de frecuencia estn muy avaladas por la investigacin cientfica.
Cuadro 2
Numero de respuestas:
El numero habitual de repuestas es de cinco. En general, aunque no sucede siempre, a mayor numero de
respuestas en los tems, suele haber en toda la escala una mayor fiabilidad, con tal de que el numero de
respuestas no supere la capacidad de discriminacin de los que responden: el numero mximo se suele situar
entre seis y siete respuestas y el mnimo en tres.
Numero par o impar de respuestas:
Lo mas claro es que son preferibles tres respuestas a dos, ya que la fiabilidad es casi siempre mayor.
El incluir un numero par de categoras tiene la ventaja de que siempre cabe la posibilidad de agruparlas en dos
categoras, de acuerdo y en desacuerdo, y se elimina adems la posibilidad de que los sujetos se evadan
escogiendo la respuesta central.
4. PREPARAR LA CLAVE DE CORRECCION:
Las respuestas se codifican siempre con nmeros ntegros sucesivos. En principio es preferible evitar el 0 y
comenzar a partir de 1.
La clave en nmeros debe hacerse de acuerdo con el sentido del tem, de manera que la respuesta mas
favorable a la actitud tenga el numero mayor.
Cuadro 3
5. PREPARAR PREGUNTAS O INSTRUMENTOS ADICIONALES:
Adems de la escala que se esta construyendo se deben preparar otras preguntas, o incluso otras escalas o
instrumentos que puedan estar ya hechos, y que los sujetos respondern al mismo tiempo, para recoger datos
adicionales. Estos nuevos datos o preguntas tienen que ver con la verificacin de la validez del instrumento.
El obtener datos adicionales de inters es importante por varias razones:
Buscar mas datos hipotticamente relacionados con lo que queremos medir contribuye a que nos hagamos
una idea mas clara del rasgo o actitud que nos interesa medir.
Recoger datos adicionales al mismo tiempo que se prueba el instrumento en una primera muestra supone un
considerable ahorro de tiempo y esfuerzo.
Las relaciones que vamos encontrando con otras variables se pueden incorporar de alguna manera al
proceso de construccin del instrumento, en el sentido de que nos pueden sugerir ideas validas como
criterio en la misma seleccin de los tems, en la bsqueda de muestras determinadas,...,etc.
El pensar en otros datos tiene que ver con la comprobacin de la validez de nuestro instrumento y de los
datos que con l recojamos.
19
Comprobar la validez de un instrumento tiene que ver con la comprobacin o confirmacin del significado de
lo que medimos, y tambin de su utilidad.
Es importante tener desde el principio una idea clara no solamente del rasgo que queremos medir, sino
tambin con que otros rasgos puede estar relacionado ese rasgo, a que grupos puede diferenciar,...,etc.
Estos datos adicionales son bsicamente de dos tipos:
Datos cesales o sociolgicos: Como edad, sexo, ocupacin o curso, estado civil, etc. Estos datos servirn
para describir la muestra y para hacer anlisis adicionales.
Datos de otro tipo: Como pueden ser preguntas relacionadas con lo que se pretende medir, u otros test o
escalas que pueden estar relacionados con la variable que estamos midiendo.
6. OBTENER DATOS DE UNA MUESTRA:
Una vez preparada la versin inicial del instrumento, se recogen las respuestas de una muestra para poder
hacer los anlisis correspondientes, sobre todo el anlisis de tems y el calculo de la fiabilidad; estos anlisis
nos van a permitir dar forma al instrumento definitivo.
El tipo de muestra elegido debe ser semejante al tipo de poblacin con el que se va a utilizar despus. A
mayor heterogeneidad en la muestra obtendremos con mayor facilidad una fiabilidad alta.
Sobre el numero de sujetos necesario; para que los anlisis tengan suficiente consistencia y sean
extrapolables a muestras semejantes, conviene que haya al menos 5 sujetos por tem inicial. Si se piensa
hacer despus una anlisis factorial debe haber unos 10 sujetos por tem; en cualquier caso no deben ser
menos de 200.
7. ANALISIS DE ITEMS Y COMPROBACION DE LA FIABILIDAD:
En primer lugar y una vez obtenidos los datos calculamos:
La media y la desviacin tpica de los totales: cada sujeto tiene un total que es la suma de todas sus
respuestas a los tems.
La media y la desviacin de cada tem.
A continuacin llevaremos a cabo el anlisis de tems y calcularemos la fiabilidad.
anlisis de tems
Tenemos que comprobar si cada tem mide lo mismo que los dems, y por tanto es sumable en una puntuacin
total que supuestamente mide el rasgo y que es la que despus interpretamos y utilizamos.
Lo que queremos comprobar es si las respuestas tienden a covariar, es decir, si los sujetos tienden a responder
de manera que podamos deducir que todos los tems expresan el mismo rasgo. En definitiva comprobamos si
los tems tienden a diferenciar a los sujetos, si discriminan adecuadamente.
Los procedimientos que podemos utilizar son dos:
1. Correlacin temtotal
Se trata de la correlacin de cada tem con la suma de todos los dems o correlacin de cada tem con el total
menos el tem. Lo que deseamos comprobar es en que medida el puntuar alto en un tem supone el hecho de
obtener un total alto en el resto de la escala.
20
Estos coeficientes deben ser al menos estadsticamente significativos o distintos de cero. Los tems con una
mayor correlacin con el total son los que tienen mas en comn y por tanto podemos pensar que miden lo
mismo que los dems. Los tems con correlaciones no significativas o muy bajas los eliminaremos de nuestra
escala.
Cuando se calcula la correlacin con el total, hay una formula que convierte esta correlacin temtotal en la
correlacin temtotal menos tem, que es la que nos interesa.
Hay programas de ordenador que dan rutinariamente para cada tem la correlacin temtotal, pero hay que
tener presentes otras consideraciones:
Es cuestionable seguir mecnicamente procedimientos automticos; el constructor del
instrumento debe intervenir con sus propios criterios sobre lo que quiere medir y sobre las
caractersticas del instrumento.
Esos programas nos dan la fiabilidad si suprimimos tems de uno en uno, y normalmente no interesa ir
eliminando tems as, sino en bloques escogidos con algn criterio.
Es normal que varios subconjuntos de tems tengan una fiabilidad idntica o similar, por lo que habr
que acudir a otros criterios en la seleccin definitiva de los tems.
2. Contraste de medias en cada tem de los dos grupos con puntuaciones mayores y menores en el total de
la escala.
El procedimiento anterior es muy laborioso si no se hace con ordenador; un procedimiento mas sencillo, y que
aporta una informacin semejante, es comparar en cada tem el 25% con una puntuacin total mas alta con el
25% con puntuacin total mas baja. Para esto:
Ordenamos a los sujetos de mas a menos, segn el total obtenido en toda la escala, y seleccionamos dos
subgrupos: grupo superior ! el 25% con total mas alto, y grupo inferior ! el 25% con puntuacin total mas
bajo. El 50% central no entra en este anlisis.
Calculamos la media y la desviacin tpica en cada tem de cada uno de los dos grupos, superior e inferior.
Contrastamos las medias de estos dos grupos mediante la T de student.
Lo que esperamos es que el grupo superior tenga una media significativamente mas alta en cada tem que el
grupo inferior. Podremos concluir que los tems que simultneamente diferencian a los mismos sujetos estn
midiendo lo mismo. Prescindiremos de los tems que no discriminan y nos quedaremos con los mas
discriminantes; Siempre hay tems mejores que otros en trminos relativos. En la eleccin definitiva de los
tems pueden intervenir adems otros criterios.
Ej. de este procedimiento:
En este ejemplo:
El tem n 1 discrimina bien, el valor de t nos muestra que la diferencia entre los grupos superior e
inferior, es muy superior a lo puramente aleatorio; este tem habra que retenerlo.
El tem n 2 discrimina poco, la diferencia no es significativa y habr que eliminarlo de la escala
definitiva.
El tem n 3 tiene discriminacin negativa, los del grupo inferior superan a los del grupo superior;
claramente este tem no es sumable con los dems, no mide lo mismo y hay que rechazarlo. En este
caso tambin puede suceder que este mal la clave de correccin.
Con cualquiera de los dos procedimientos obtenemos un dato sobre la calidad del tem; ambos tipos de
informacin nos dicen si podemos considerar que el tem discrimina adecuadamente y consecuentemente si
21
Si pretendemos construir un instrumento de una calidad superior, el proceso no tiene que ser automtico.
Tambin tienen su lugar nuestras propias ideas sobre lo que queremos medir.
En principio deben eliminarse aquellos tems que hacen que la fiabilidad sea menor, pero a veces eliminando
un tem apenas baja la fiabilidad y si no lo eliminamos la escala puede quedar menos coherente con otros
criterios.
Otras veces entre los tems que contribuyen a una mejor fiabilidad hay alguno que, una vez eliminados otros
previamente, puede tener poco sentido porque desequilibra el significado... y puede ser mejor eliminarlo
tambin. El que la fiabilidad vare en el tercer decimal importa poco.
Tambin puede suceder que con menos tems obtengamos una fiabilidad igual o semejante que con un numero
mayor de tems.
Como estamos tratando el anlisis de tems y de la fiabilidad como criterio de calidad, no debemos olvidar
que en general a mayor numero de tems tendremos una mayor fiabilidad, y que con mas respuestas en los
tems tambin aumenta la fiabilidad.
Tambin se puede hacer el procedimiento inverso, y a veces es preferible. Se hace siguiendo estos pasos:
Calculamos la fiabilidad con el subconjunto de tems que ms discriminan.
Aadimos unos pocos tems, los ms discriminantes de los que nos quedan y volvemos a calcular la
fiabilidad.
Damos la tarea por terminada cuando la fiabilidad empieza a bajar.
Con este procedimiento nos quedara una escala ms breve.
Una alternativa mas sencilla al calculo del coeficiente es utilizar alguna de las formulas basadas en la
particin del test o la escala en dos mitades. Pero en principio, es preferible utilizar las formulas del
coeficiente .
OTRAS CONSIDERACIONES EN TORNO A LA ELECCIN DE LOS ITEMS DEFINITIVOS
Las soluciones automticas que nos puede dar un programa de ordenador no son necesariamente las mejores.
El valor de t tiene que ser significativo y alto, pero adems hay que tener en cuenta otros criterios en la
eleccin de los tems.
Equilibrio entre tems positivos y negativos
Podemos incorporar un numero mas o menos igual de tems positivos y negativos. Porque con tems en las
dos direcciones se controlan mejor las respuestas aquiescentes, y adems el constructo suele quedar mejor
expresado.
Si tenemos un numero de tems aproximadamente idntico en ambas direcciones, es til calcular a cada sujeto
dos puntuaciones parciales sumando por separado ambos tipos de tems, y calcular despus la correlacin
entre estas dos subescalas o totales parciales; si esta correlacin es del orden de .50 tenemos una garanta
razonable de que ambos tipos de tems miden lo mismo y que no esta operando la aquiescencia.
Cuidar mas la representatividad del contenido de las formulaciones de los tems
El la seleccin definitiva de los tems podemos buscar una homogeneidad conceptual mas ntida. Quizs
veamos, por ejemplo, que al eliminar dos tems que discriminan poco, nos sobra un tercer tem que si
23
discrimina y que incluye la misma idea que los dos eliminados, pero el conjunto de la escala puede quedar
muy desequilibrado en cuanto al significado global. Todo esto puede depender de apreciaciones personales;
siempre hay que tener claro que es importante la interpretabilidad de los datos en funcin de un rasgo o
actitud bien definida.
Incluir de manera equilibrada aspectos distintos (subescalas) del mismo rasgo general
Tambin nos puede interesar que estn representadas con idntico numero de tems ideas que reflejan matices
distintos dentro de un rasgo general. En ocasiones un instrumento adems de medir un rasgo general, se puede
subdividir en subescalas para medir por separado aspectos distintos.
En este caso tanto las subescalas como la escala formada por todos los tems, deben tener una fiabilidad
aceptable. Este tipo de escalas suelen denominarse escalas factoriales.
Incorporacin de nuevos tems
Cuando con pocos tems, que en principio nos convencen porque expresan bien lo que deseamos medir, no
alcanzamos una fiabilidad adecuada, podemos acudir a las formulas que nos dicen cuantos tems del mismo
estilo deberamos aadir para alcanzar una fiabilidad determinada. Tambin puede suceder que algunos de los
tems eliminados en el anlisis, simplemente estn mal formulados y haya que hacer una redaccin nueva.
Preparacin de dos versiones, corta y larga, de la misma escala
Con frecuencia podemos observar que un numero reducido de tems nos da una fiabilidad aceptable. Puede ser
interesante hacer dos versiones, una larga o normal y la otra breve, quizs con una fiabilidad menor, pero apta
para muchos de los usos de estos instrumentos.
Explicacin o redefinicin del rasgo medido por nuestro instrumento
A veces, y a al vista de los tems de la escala definitiva, habr que redefinir lo que pretendemos medir o al
menos explicarlo adecuadamente aunque se mantenga el nombre del instrumento.
Los trminos para designar los rasgos suelen ser muy genricos, y de hecho instrumentos con el mismo
nombre pueden no coincidir en lo que miden, que debe ser definido con unos limites mas ajustados.
COMPROBACIN DE LA VALIDEZ Y OTROS ANLISIS POSTERIORES
Una vez que tenemos ya la versin definitiva de la escala, se hacen los dems anlisis segn los datos de que
dispongamos.
Se pueden calcular datos descriptivos de las diversas submuestras si las hay.
Podemos construir baremos o normas de interpretacin.
Se pueden comprobar diferencias entre grupos, correlaciones con otras variables... segn los datos que
hayamos obtenido simultneamente; o podemos pasar la escala a muestras nuevas obteniendo a la vez
otros datos que nos permitan hacer mas anlisis.
Podemos comprobar de manera mas especifica y planificada la validez del nuevo instrumento con los
datos obtenidos simultneamente.
La confirmacin de la validez mas que un calculo es un proceso.
Este es un resumen de lo que entendemos por validez y los modos de comprobarla:
24
25
26
Este tipo de razones tiene mas peso cuando se vana tomar decisiones sobre los sujetos o interesa un buen
diagnostico individual.
Aumenta la fiabilidad de la medida y se minimizan las limitaciones de cada tem en particular, merecen mas
confianza varias preguntas que una sola. En un sentido mas psicometrico, si disponemos de una serie de
tems podemos calcular el coeficiente de fiabilidad.
Una razn de peso para sumar varios indicadores del mismo rasgo es que las diferencias entre los sujetos
van a quedar mas ntidas, va a ser mas fcil clasificarlos y, en definitiva, va a aumentar la varianza.
Diferenciamos mejor a las personas en un determinado rasgo si disponemos de varios indicadores y
consecuentemente detectaremos mejor las relaciones de ese rasgo con otras variables.
De los diversos tipos de escalas nos limitaremos aqu a tratar las denominadas escalas tipo Likert en las que
la suma de una serie de respuestas a tems supuestamente homogneos sita al sujeto en la variable medida.
1. PROCESO DE CONSTRUCCION DE UNA ESCALA DE
ACTITUDES:
El proceso se puede describir de varias maneras, pero bsicamente se puede concretar en los pasos siguientes:
1. DEFINICION DE LA ACTITUD QUE SE DESEA MEDIR:
El primer paso es siempre clarificar el rasgo que se desea medir; una definicin o explicacin previa da
coherencia al resto del proceso. Puede ayudar el hacer previamente una descripcin de la persona que
supuestamente tenga de manera clara la actitud que se desea medir.
No hay que olvidar que las actitudes, como cualquier otro rasgo que queramos medir, se pueden concebir en
diversos grados de abstraccin, y pueden ser muy genricos o muy especficos.
Puede ayudar tambin revisar otros instrumentos ya hechos.
2. REDACCION DE LOS ITEMS:
Pueden redactarse de diversas maneras pero, en general, y tratndose de escalas de actitudes, suelen
formularse en forma de opiniones con las que se puede estar o no estar de acuerdo.
Los tems deben tener las siguientes caractersticas:
Deben ser relevantes: claramente relacionados con la actitud que se desea medir.
Deben ser opiniones con las que se pueda estar o no estar de acuerdo.
Deben redactarse con claridad, de manera que todos los entiendan de la misma manera. Por esta razn:
Hay que tener cuidado con expresiones como no, nunca, etc. que pueden crear confusin en la
respuesta.
Deben contener una nica idea, pues cuando hay mas de una idea se puede estar de acuerdo con una o
con otra. Una misma idea se puede formular de mas de una manera para comprobar despus que
formulacin es mas eficaz.
Deben ser discriminantes, es decir, se deben redactar de tal manera que previsiblemente unos sujetos
estarn de acuerdo y otros no, o no tanto. Para medir debemos encontrar diferencias; tenemos mas garanta
de que los tems miden lo mismo si simultneamente diferencian a los mismos sujetos.
27
Cabe formular tems repetitivos, la misma idea dicha de diversas maneras. No obstante, aunque con tems
muy similares se consiguen fcilmente coeficientes de fiabilidad altos, el constructo queda expresado de
una manera muy simple.
Es preferible redactar los tems en las dos direcciones positiva y negativa, es decir, que unas veces el estar
de acuerdo manifiesta una actitud favorable y otras manifieste una actitud desfavorable; eso si, sin
introducir palabras negativas como no o nunca que se prestan a confusiones al responder. Esta redaccin
bipolar tiene varias ventajas:
Obliga a una definicin previa mas matizada del rasgo o constructo.
Requiere una atencin mayor por parte del que responde.
Permite comprobar la coherencia de las respuestas, verificando si hay contradicciones sistemticas.
Si hay un numero aproximado de tems positivos y negativos, y sumamos a cada sujeto sus
puntuaciones a los dos tipos de tems, podemos calcular la correlacin entre los dos totales parciales
como si se tratara de dos subescalas. Esta correlacin debe alcanzar un valor de 0.50 o mas, y
mostrar en este caso una coherencia global en las respuestas.
Comprobar la coherencia es prcticamente lo mismo que comprobar que no se da la aquiescencia o
tendencia a mostrar acuerdo casi con cualquier afirmacin, incluso con afirmaciones que se
contradicen. Cuando se de esta aquiescencia suele deberse a la ambigedad en la redaccin o falta de
claridad de los tems.
La irrelevancia o ambigedad puede sospecharse cuando demasiados sujetos escogen la respuesta central o los
tems no discriminan. La no discriminacin puede indicar tambin que un tem no mide lo mismo que los
dems o que los sujetos lo entienden de otra manera. Si un tem discrimina en sentido contrario puede haber
un error en la clave de correccin.
Sobre el numero inicial de tems que deben redactarse: no hay un numero optimo, pero a mayor numero
inicial de tems, mayor probabilidad de encontrar en el anlisis un conjunto de tems definitivos con una
fiabilidad suficiente. A mayor numero de tems buenos tambin ser mayor la fiabilidad.
3. REDACCION Y NUMERO DE RESPUESTAS:
Redaccion de las respuestas:
Las respuestas mas habituales en las escalas de actitudes suelen expresar el grado de acuerdo con el contenido
del item, pero puede haber otras mas apropiadas como grado de interes, de imprtancia,...,etc.
Cuadro 1
Caben otros fomatos en las respuestas como utilizar numeros especificando con palabras el significado de los
extremos (muy de acuerdo o muy en desacuerdo). O con letras. En genreral parece preferible el empleo de
letras o palabras, al menos si se juzga que los numeros pueden condicionar la respuesta.
Las repuestas en terminos de fracuencia estan muy avaladas por la investigacion cientifica.
Cuadro 2
Numero de respuestas:
El numero habitual de repuestas es de cinco. En general, aunque no sucede siempre, a mayor numero de
respuestas en los items, suele haber en toda la escala una mayor fiabilidad, con tal de que el numero de
28
respuestas no supere la capacidad de discriminacion de los que responden: el numero maximo se suele situar
entre seis y siete respuestas y el minimo en tres.
Numero par o impar de rspuestas:
Lo mas claro es que son preferibles tres respuestas a dos, ya que la fiabilidad es casi siempre mayor.
El incluir un numero par de categorias tiene la ventaja de que siempre cabe la posibilidad de agruparlas en dos
categorias, de acuerdo y en desacuerdo, y se elimina ademas la posibilidad de que los sujetos se evadan
escogiendo la respuesta central.
4. PREPARAR LA CLAVE DE CORRECCION:
Las respuestas se codifican siempre con numeros integros sucesivos. En principio es preferible evitar el 0 y
comnezar a partir de 1.
La clave en numeros debe hacerse de acuerdo con el snetido del item, de manera que la respuesta mas
favorable a la actitud tenga el numero mayor.
Cuadro 3
5. PREPARAR PREGUNTAS O INSTRUMENTOS ADICIONALES:
Ademas de la escala que se esta construyendo se deben preparar otras preguntas, o incluso otras escalas o
instrumentos que puedan estar ya hechos, y quie los sujetos responderan al mismo tiempo, para recoger datos
adicionales. Estos nuevos datos o preguntas tienen que ver con la verificacion de la validez del instrumento.
El obtener datos adicionales de interes es importante por varias razones:
Buscar mas datos hipoteticamente relacionados con lo que queremos medir contribuye a que nos hagamos
una idea mas clara del rasgo o actitud que nos interesa medir.
Recoger datos adicionales al mismo tiempo que se prueba el instrumento en una primera muestra supone un
considerable ahorro de tiempo y esfuerzo.
Las relaciones que vamos encontrando con otras variables se pueden incorporar de alguna manera al
proceso de construccion del instrumento, en el sentido de que nos pueden sugerir ideas validas como
criterio en la misma seleccin de los items, en la busqueda de muestras determinadas,...,etc.
El pensar en otros datos tiene que ver con la comprobacion de la validez de nuestro instrumento y de los
datos que con l recogamos.
Comprobar la validez de un instrumento tiene que ver con la comprobacion o confirmacion del significado de
lo que medimos, y tambien de su utilidad.
Es importante tener desde el principio una idea clara no solamente del rasgo que queremos medir, sino
tambien con que otros rasgos puede estar relacionado ese rasgo, a que grupos pede diferenciar,...,etc.
Estos datos adicionales son basicamente de dos tipos:
Datos cesales o sociologicos: Como edad, sexo, ocupacion o curso, estado civil, etc. Estos datos serviran
para describir la muestra y para hacer analisis adicionales.
Datos de otro tipo: Como pueden ser preguntas relacionadas con lo que se pretende medir, u otros test o
escalas que pueden estar relacionados con la variable que estamos midiendo.
29
Media
Desviacin
Hc
tem 1
2,42
0,99
0,20
tem 2
2,38
0,84
0,49
tem 3
2,74
1,09
0,32
tem 4
2,18
1,18
0,28
tem 2
tem 3
tem 4
0,71
0,52
0,48
1,18
0,25
1,40
tem 1
tem 2
tem 3
tem 4
tem 1
0,97
0,22
0,14
0,13
Pero como es una prueba de rendimiento tpico solo decimos que es la media mayor.
Hay algn tem mal cuantificado?
Para esto miramos el Hc, que es el que relaciona el tem con todos los dems.
El 0,20 del tem 1 quiere decir que cuando todos puntan alto, este punta bajo, con lo cual esta mal
cuantificado.
Cul es el tem que menos relaciona?
El tem 1 (no por ser negativo sino por el numero) por ser el mas bajo, y luego tambin lo comprobamos en
las covarianzas.
Eliminar el menos discriminativo y hallar la media del nuevo test.
Quitamos el tem 2.
Para tener la media total, voy sacando la de la media del tem 1, del tem 3 y la del 4, y la suma de ambas es la
total.
La varianza seria:
S2 =
Eliminar el tem que menos contribuye a la consistencia interna y luego calcular el ndice de consistencia
interna.
Eliminamos el tem 1, por ser el Hc mas bajo.
Y como nos piden consistencia hallaramos el de Cronbach.
k es el nmero de tems.
0,71 =
Covarianza del 23 = 0,52
++
31
1,18 =
Covarianza del 24 = 0,48
++
1,40 =
Covarianza del 34 = 0,25
EJERCICIO 3
Rxx=
es la fiabilidad por el procedimiento de las dos mitades para los 6 tems.
Una correlacin de 0,51 es moderadamente significativa, la coherencia entre ambas partes es moderada.
El 51% de las diferencias encontradas quedan explicadas por el verdadero nivel de rasgo.
EJERCICIO 4
32
OJO!: no confundirnos al poner n = 3,86 que ha sido lo que nos ha dado en la formula, porque hay que
restarle la forma paralela que ya tenamos en el test inicial. Si no la restamos nos saldran 154 tems que son el
total, no los que hemos aadido (115).
EJERCICIO 9
N = 4 quiere decir que he aadido 3 formas paralelas a la inicial.
Cuando duplico el nmero de tems incremento un 0,17 de fiabilidad.
La siguiente vez (de n =2 a n=3) incremento un 0,10.
La prxima vez (de n=3 a n=4) incremento un 0,12.
Esto nos indica que es incorrecto, porque la fiabilidad aumenta pero por el efecto techo no puede ser mayor
que la fiabilidad anterior.
El incremento debera ser 0,6, con una fiabilidad de 0,73.
A EF CA
V.D: criminalidad operativizada en numero actos delictivos.
V.I: Tipos de ciudad, operativizada en 3 niveles: Centros Industriales, C. Comerciales, C. Polticos.
Ho: no existen diferencias estadsticamente significativas en los promedios de criminalidad en funcin del
tipo de ciudad.
Clculos previos.
A1
A2
A3
Media
6,625
5,5
3,5
Desviacin
1,218
1,5
1,5
Varianza
1,484
2,25
2,25
Anova A EF CA
F
33
Origen de la
Variacin
Suma de
cuadrados
Grados de
libertad
Cuadrados
medios
CM entre
CM dentro
(numerador de la (denominador de
varianza)
la varianza)
ENTRE
DENTRO
TOTAL.
40,08
47,872
87,936
2
21
23
(Varianza)
SC/GL
20,04
2,279
8,793
DHS0,01 =
34
M1 M2
1,125
3,125
2
A1 A2
A1 A3
A2 A3
P
P>0,05
P<0,01
P<0,05
NO
SI
SI
10
Con
media
3,25
Refuerzo
desviacin
1,639
varianza
2,687
Sin
media
1,5
Refuerzo
desviacin
0,5
varianza
0,25
35
min
20
min
40
min
60
min
4,5
1,118
1,25
0,707
0,5
5,5
0,5
0,25
0,707
0,5
9,75
0,433
0,1875
Mb1=2,375
Sb1 = 0,569
Mb2= 3,75
Sb2 = 0,2055
Mb3 = 6,25
Sb3 = 0,25
Mb4= 8,875
Sb4 = 0,137
Ma1= 5,687 S= 2,228 Ma2= 4,93 S = 3,1715
Ej. La Mb1 se halla metiendo las medias de la 1 fila, se suman y se halla su media
La Ma2 se halla metiendo las medias de la 1 columna y hallando su media.
La Sb1 se halla metiendo las desviaciones de la 1 fila y hallando su desviacin.
La Sa1 se halla metiendo las puntuaciones individuales (enunciado del ejercicio) de la 1 columna (con
refuerzo) y hallando la desviacin.
M factor A: 5, 3085 se meten las 2 medias de A y se halla la media.
S factor A: 0, 3785 se meten las 2 medias de A y se halla la desviacion.
S2 factor A: 0, 1432 se meten las 2 medias de A, se halla la desviacin y se eleva.
M factor B: 5,3125 Se meten las 4 medias y se halla la media.
S factor B: 2,481 Se meten las 4 medias de B y se halla la desviacin.
S2factor B: 6,16 Se meten las 4 medias de B, se halla la desviacion y se eleva.
Mtotal: 5,3125 meter todas las puntuaciones individuales y hallar la media.
Stotal: 2,7662 meter todas las puntuaciones y hallar la desviacion.
S2total: 7,6523 elevar al cuadrado la desviacion de los totales.
36
S2AxB: 6,824 se meten las 8 medias de cada celda (3,25, 4, 5, 7, 8, 1,5, 3, 5,5, 9,75) y se halla la varianza.
Meter la desviacin de las celdas y luego hallar el sumatorio al cuadrado.
n = numero de puntuaciones en cada celda.
A: numero de niveles del factor A.
B: numero de niveles del factor B.
Anova AB EF CA
Suma de
cuadrados
Origen de la
Variacin
Factor A
Factor B
Interaccin
Error
TOTAL
Grados de
libertad
(numerador de la (denominador de
varianza)
la varianza)
4,5824
197,12
16,665
25,2128
244,87
3
1
3
24
31
Cuadrados
medios
F
CM entre
(Varianza)
SC/GL
1,527
197,12
5,555
0,8694
CM
dentro
4,087
59,52
4,99
P
(probabilidad)
>0,05 A
<0,01 R
<0,01 R
El 5,7% de la variabilidad encontrada viene explicada por las diferentes combinaciones de reforzador y
privacin social.
0,001 es bajo. 0,06 media 0,14 alta
Y el coeficiente eta es < 0,05 pequea y < que 0,10 grande
CONTRASTE DE TUKEY.
Hallamos el de factor B porque hemos rechazado Hiptesis Nula y tenemos varios niveles.
En el factor A no hace falta porque solo tenemos 2 niveles.
0,05 = 3,90
DHS =
q 4, 24
0,01 = 4,41
El 4 de la q se refiere a que hay 4 niveles en el factor B.
DHS0,05 =
DHS0,01 =
12
13
14
23
24
34
M1 M2
1,375
3,875
6,5
2,5
5,125
2,625
P
P>0,05
P<0,01
P<0,01
P<0,05
P<0,01
p<0,01
NO
SI
SI
Si
Si
Si
Columnas.
A
B
C
D
E
F
media
5,71
4,714
5,857
5,857
5,142
5,714
desviacin
2,11
2,05
1,958
1,641
2,294
1,979
varianza
4,49
4,20
3,836
2,693
5,265
3,918
M columnas: 5,499
S m columnas: 0,426 se meten todas las medias y se halla la desviacin.
S2 M columnas: 0,1817 hallar la desviacin tipica de todas las medias y luego al cuadrado.
Filas.
El total de las filas es la suma de las puntuaciones de cada sujeto.
1
2
3
4
5
6
7
Media
2,833
5,5
7
2,83
6,83
5,166
7,66
Desviacion
0,687
0,957
0,816
1,343
1,572
1,213
0,94
Varianza
0,472
0,916
0,666
1,805
2,472
1,472
0,888
M filas: 5,402
S m filas: 1,811 se meten todas las medias y se halla la desviacin.
S2 M filas: 3,281 se eleva al cuadrado la desviacin.
M total: 5,404
S total: 2,127 meter todos los datos y hallar la desviacin.
S2total:4,526 meter todos los datos y hallar la varianza.
Anova A EF MR
meto las medias de las columns al cuadrado y hallo el sumatorio.
meto las varianzas y hallo el sumatorio
meto las medias de las columnas, hallo la media y lo elevo al cuadradp.
40
aplico la formula
meto los totales de las filas y hallo la varianza
meto las medias de las columnas y hallo la varianza.
SCT =
Suma de
cuadrados
Origen de la
Variacin
Grados de
libertad
(numerador de la (denominador de
varianza)
la varianza)
Cuadrados
medios
F
CM entre
(Varianza)
SC/GL
CM
dentro
P
(probabilidad)
Filas
(alumnos).
Columnas
(Profesores)
Interaccin
Variabilidad
TOTAL.
137,802
22,967
15,428
< 0,01 R
7,6314
1,5263
0,88
> 0,05 A
44,6586
30
1,4886
190,092
41
41
Como hemos podido comprobar mediante el anlisis de varianza no existen diferencias estadsticamente
significativas entre los profesores a la hora de clasificar a los candidatos.
A travs del coeficiente fiabilidad y una vez cuantificado su grado de unanimidad, podemos afirmar que
tienen un grado de consistencia de en torno al 14%
Fiabilidad en los test y escalas.
54
X=V+E
r11=
r11=
=
ndice de precisin =
XV =
Rxx=
42
AS AI
Dc1=
N
AS + AI
Df=
N +N
AS + AI
Df=
N +N
Dc2=
K 2i
= 1
k 1 2t
43