Test Psicologicos Analisis de Item 3 U

Prof. René Castro Test Psicológicos.
Análisis de ítems UBA
Unidad IV. Test Psicológicos

Análisis de los Items/Reactivos/Preguntas
Los test psicológicos o pruebas psicológicas son:
 instrumentos experimentales
 objetivo: medir o evaluar una característica psicológica específica, o los rasgo, constructo, variable
psicológicas generales de la personalidad de un individuo
 justificación teórica de la validez de una medición: mediante el uso de test psicológicos se argumenta
que el comportamiento individual frente a los reactivos de la prueba pueden ser valorados en
comparación estadística o cualitativa con el de otros individuos sometidos a la misma situación
experimental, con lo que se da lugar a una determinada clasificación del sujeto.
 construcción del test: debe procurar que el comportamiento específico ante determinado reactivo
represente lo más fielmente posible el funcionamiento del sujeto en situaciones cotidianas donde se pone
en ejecución real la capacidad que el test pretende evaluar.
Características
 Objetivo
 Estandarizado
Estos test son una medida objetiva y estandarizada de una conducta psicológica. Es objetiva porque el resultado
es independiente del propio sujeto evaluado y del psicólogo que realiza la evaluación. Es estandarizado porque
cada prueba posee una metodología y procedimientos reconocidos en la aplicación y calificación de la prueba
realizada.
Clasificación de los test
 Test psicométricos
 Test proyectivos
Prof. René Castro Test Psicológicos. Análisis de ítems UBA
El test psicométrico es un procedimiento estandarizado compuesto por ítemes seleccionados y organizados,

concebidos para provocar en el individuo ciertas reacciones registrables; reacciones de toda naturaleza en
cuanto a su complejidad, duración, forma, expresión y significado (Rey, 1973).
Los Psicométricos están inscritos desde una corriente cognitivo conductual que parten del supuesto de que
las personas son sinceras al responder un instrumento estadístico. Básicamente miden y asignan un valor a
determinada cualidad o proceso psicológico (inteligencia, memoria, atención, funcionamiento cognitivo,
felicidad, optimismo, tristeza, daño cerebral, comprensión verbal, etc.), y se dirigen a actividades de evaluación
y selección, como también al diagnóstico clínico, su organización, administración, corrección e interpretación
suele estar más estandarizada.
Características:
 El contenido y la dificultad de los ítems están sistemáticamente controlados (construcción del test).
 La situación de aplicación del test: el ambiente en el cual se le administra, el material del test, la
administración, debe estar bien definida y estandarizada, y debe ser reproducida idénticamente para
todos los sujetos examinados con el test.
 El registro del comportamiento provocado en el sujeto examinado debe ser preciso y objetivo. Las
condiciones de cómo hacer este registro deben estar bien definidas y deben ser cumplidas
rigurosamente.
 Poseen confiabilidad y validez claramente expresados, tanto las cantidades como la metodología
empleada en su cuantificación.
 Son aquellos cuyos resultados se encuentran estandarizados en baremos (o escalas). Esto significa
que cuando una persona completa el test, sus resultados se comparan con los de otras personas que ya
han realizado el test y cuyos resultados se consideran un parámetro para medir los nuevos resultados.
 Un célebre test psicométrico es el Inventario MMPI, el Inventario Multifásico de Personalidad de
Minnesota. Es uno de los test más usados en el campo de la salud mental y la detección de
psicopatologías que evalúa la personalidad de un sujeto mediante las respuestas que éste da a un
cuestionario de más de 400 preguntas. También se usan la Escala de Inteligencia para Adultos de
Wechsler (WAIS) y su contraparte para niños (WISC), otro test es el Test de Matrices Progresivas de
Raven; en personalidad, tests psicométricos son, el Cuestionario 16PF de Cattell y el Inventario de la
Personalidad de Eysenck (EPI).
 Fundamentalmente, las respuestas tienden a ser dicotómicas “si o no“, esto permite que haya una
cantidad limitada de respuestas y de resultados, podrás encontrar preguntas que en un principio pueden
resultarte similares o muy diferentes pero que buscan la respuesta real de tu personalidad, de la misma
manera, que hay preguntas que miden si el sujeto está siendo sincero o no, lo que también se conoce
como si está respondiendo demasiado “favorablemente” por lo que puede invalidar el test.
Las técnicas psicométricas son más sencillas de administrar y muchas veces hasta pueden ser auto
administradas lo que permite tomar muchos de estos test a la vez a muchos sujetos, por esta razón suelen ser
las favoritas a la hora de experimentos o entrevistas laborales que requieren evaluar mucha gente en poco
tiempo. En cambio, la administración de técnicas psicométricas suele llevar más tiempo y requerir más esfuerzo
de interpretación.
En selección de personal suelen utilizarse diferentes tipos de test psicométricos:
Pruebas de inteligencia: las escalas de Wechsler como el WAIS (Wechsler Adult Intelligence Scale) y el
WISC (Wechsler Intelligence Scale for Children), que éste último siendo de niños no suele ser utilizado en la
selección de personal o el test Dominó por ejemplo, para medir el razonamiento no verbal. Un aspecto que
tenemos que tener en cuenta a la hora de seleccionar un determinado tipo de test, es que tiene que obtener
información acerca de estas variables: test de información general, test de comprensión verbal, test de memoria,
razonamiento verbal y no verbal, etc.
Pruebas de aptitud: Nos permite pronosticar cuáles son las aptitudes del posible trabajador para un
determinado puesto y ante una tarea cualquiera. Puede ser el determinante idóneo para comprobar si este
trabajador es lo que la empresa necesita. Por ejemplo, Test de Mando de M. Bruce.
Pruebas de personalidad: En este caso nos centraremos sólo en las pruebas psicométricas, pues estamos en
esta categoría, pero en el siguiente apartado hablaremos de las proyectivas que cada vez son más utilizadas en
recursos humanos. Hay personas que consideran que pueden modificar su personalidad en función de las
respuestas que den a los test, como mencionábamos anteriormente, esto no es tan sencillo ya que todas estas
posibilidades se han medido a la hora de diseñar el test. Algunos de los test de personalidad que son los más
conocidos son: 16PF Test de los Factores de Personalidad de Cattell, test de personalidad Enagrama o el Test
Neo PI-R.
Los test proyectivos son aquellos que permiten llegar fácilmente al inconsciente, debido a que el sujeto
desconoce qué aspecto de su personalidad se está evaluando. Por lo tanto, no puede controlar conscientemente
su respuesta. Están inscritos dentro de la corriente dinámica de la Psicología. Su empleo parte de una hipótesis
que pone a prueba la individualidad de la respuesta de cada persona para así presumir rasgo, constructo,
variable psicológicas de su personalidad. Por lo general se utilizan mucho en el área clínica y en la educativa.
En este tipo de test se debe conocer muy bien la variable que se estudia y evalúa, por lo que se debe conocer la
exactitud del mismo (ver anexo al final de esta guía).
Las técnicas proyectivas, fundamentalmente, toman a una persona como un caso único, como una
personalidad única. En las técnicas proyectivas no existe la auto aplicación, sino que debe de estar el psicólogo
tomando nota tanto de lo que dice el sujeto como la forma en que dibuja, si el test es gráfico..
De las técnicas proyectivas posiblemente la más conocida por todos sea el Test de Rorscharch, un test de
manchas que nos permiten conocer mucho más de la persona a la que pasamos el test que lo que uno puede
imaginar. La administración no es compleja pero sí que lo es la corrección. Para que un psicólogo pueda
aprender, aplicar, interpretar y corregir el Test de Rorscharch suelen ser necesarios de dos o tres años de
preparación en cursos especializados. A pesar de esto, cada vez son más psicólogos tanto clínicos como de
recursos humanos que utilizan este test para la selección de personal y el psicodiagnóstico por la cantidad de
información que se obtiene.
Otros test proyectivos que se suelen utilizar para conocer la personalidad del sujeto es el Test del Árbol de
Koch, donde se observa desde cómo dibuja el sujeto, por donde comienza, cómo es el trazo, si borra o no borra,
y se analiza cada parte del dibujo (tronco, raíces o no raíces, copa del árbol, frutos o no frutos), en qué lugar de
la hoja lo ha dibujado, etc. (ver anexo al final de esta guía).
Formatos de respuesta
De acuerdo al propósito de medición, el formato de respuesta va a depender:
Test de Rendimiento óptimo:
Pretenden medir el rendimiento o capacidad máxima de una persona o al que llega una persona ante una serie de
preguntas o tareas, en las cuales hay desempeños o respuestas correctas e incorrectas. Este tipo de test permite
evaluar algunos constructos como: competencias, aptitudes, capacidad intelectual, capacidad de memoria y la
velocidad de procesamiento de la información. Igualmente este tipo de pruebas son muy útiles en la selección
de personal en psicología organizacional; en procesos de orientación académica y vocacional en psicología
educativa; y en el diagnóstico de problemas de retardo mental o de capacidad intelectual superior. Usualmente,
las preguntas de este tipo de test se presentan en formatos de (Abad; Garrido; Olea; Ponsoda, 2006):
Las mismas pueden tener las siguientes características:
Opciones de respuestas:
a) Opción binaria: de dos alternativas, que elige la que considera correcta, por ejemplo, ante cualquier
pregunta, la respuesta es; SI NO.
b) Elección múltiple: entre más de dos alternativas de respuesta, se elige la que se considera correcta, por
ejemplo: el primer país que utilizó test para ocupar puestos militares fue: EEUU Gran Bretaña
China
c) Emparejamiento: consiste en encontrar la pareja o respuesta correcta entre dos conjuntos de conceptos,
ejemplo: emparejar el país apropiado a cada una de las siguientes observaciones:
______ El primer país que utilizó test para seleccionar sujetos para ocupar puestos militares
______ el país que ideó un sistema de test militares en 1855
a) EEUU
b) Gran Bretaña
c) China
Estas preguntas deben seleccionarse con cuidado, ya que existen distintos tipos de test en esta categoría, ya que
dentro de los test de rendimiento óptimo tenemos los:
a) Test de habilidad
b) Test de capacidad
c) Test de aptitudes.
Test de Rendimiento típico:
Tienen como objetivo medir o reflejar atributos del comportamiento ordinario de persona o personas, tales
como: las opiniones, actitudes, hábitos, los rasgo, constructo, variable psicológicas de personalidad. No hay
respuestas correctas o incorrectas. Entre estos test se encuentran los de personalidad, los de actitud y los de
intereses. Además, estas pruebas tienen gran aplicabilidad en psicología social para la identificación de las
opciones y actitudes de las personas ante un evento particular; en psicología jurídica para levantar perfiles de
personalidad de criminales; en procesos de adopción, para determinar a través de pruebas de personalidad si los
padres adoptantes son aptos emocional y psíquicamente para ser padres; en psicología de la salud para estudiar
los estilos de vida y hábitos saludables de las personas; y en psicología clínica para detectar la presencia de
síntomas asociados a patologías mentales o problemas de adaptación psicosocial, mediante listas de chequeo,
inventarios y cuestionarios estandarizados. El formato de preguntas de este tipo de pruebas puede ser de (Abad;
Garrido; Olea; Ponsoda, 2006):
Formato de respuesta:
a) Elección binaria: la persona se manifiesta si está de acuerdo o en desacuerdo con una afirmación que se
le presenta en el test. Ejemplo:
Supóngase que uno de los ítems de un cuestionario sobre la actitud de los padres hacia los profesores
de sus hijos dice lo siguiente:
Los profesores en el colegio hacen poco más que cuidar a nuestros hijos cuando nosotros trabajamos
( ) de acuerdo ( ) en desacuerdo
b) Categoría ordenada: establece categorías ordinales. Pueden estar formados por 5 o 7 opciones de
respuestas. Este es un tipo de formato de respuestas tipo Likert.
c) Adjetivos bipolares: es aquel formato de respuestas formado por pares de adjetivos opuestos o
diferencial semántico, ejemplo:
Alegre triste
Listo tonto
Feliz infeliz
Una vez establecido el formato de la respuesta, se determina la cuantificación de la misma, estableciendo una
puntuación de las distintas respuestas. Para los:
Cuantificación de la respuesta:
Test de rendimiento óptimo: se emplea el 0 y 1.
Test de rendimiento típico: acuerdo desacuerdo.
Análisis de los Items/Reactivos/Preguntas.

En un test psicométrico de rendimiento óptimo/máximo de 6 preguntas aplicado a 10 personas, se encontraron
las siguientes respuestas:
Test psicométrico con 6 Items/reactivos

Sujeto
1 2 3 4 5 6
1 0 0 0 1 1 1
2 0 1 - 0 - 1
3 0 0 1 - 0 1
4 0 0 0 - 1 1
5 0 1 0 1 - 1
6 0 1 - - - 1
7 0 0 - 1 1 1
8 0 0 1 - 0 -
9 0 1 0 - 0 1
10 0 1 0 - 0 1
Leyenda:
0 = incorrecto 1 = correcto - = no contesto

Parámetros a estudiar:
 Índice de dificultad (según 3 definiciones o fuentes, solo aplicable a test de rendimiento óptimo)
 Índice de discriminación (solo aplicable a test de rendimiento óptimo)
 Índice de homogeneidad
 Criterio de validez
 Análisis de opciones incorrectas de respuesta y corrección de los efectos del azar
Índice de dificultad
Sirve para identificar y establecer cuantitativamente el nivel o grado de dificultad de un ítem o pregunta.
El índice de dificultad de un ítem j se define como el cociente entre el nº de sujetos que lo han acertado (Aj) y el
nº total de sujetos que lo han intentado resolver (Nj).
Su cálculo solo tiene sentido en los test de rendimiento óptimo, ya que los mismos miden el rendimiento
máximo al que llega cada persona ante una serie de preguntas.
A medida que este índice se acerca a 0 (cero) significa que el reactivo o ítem es muy difícil para los sujetos
evaluados, si en cambio se acerca a 1 (uno), indica que es muy fácil, si es 0,5, significa que posee un nivel de
dificultad intermedio (ni fácil ni difícil). Lo ideal es que se encuentre en un grado de dificultad medio o
intermedio.
Formula:
Donde:
D = índice de dificultad
A = sujetos que han acertado en la respuesta adecuada.
N = número total de sujetos que han contestado el ítem, no deben contabilizarse los sujetos o individuos que no
contestan.
Atendiendo a la disposición de datos en la matriz expuesta más arriba, el índice de dificultad de un ítem
(columna) j será el cociente entre el nº de unos y el total de unos y ceros que tiene la columna. Los sujetos que
han omitido el ítem (no han contestado) no se contabilizan en Nj.
Evaluación del test anterior:
1er ítems: D = 0/10 = 0 el reactivo o ítem es muy difícil para los sujetos evaluados
2do ítems: D = 5/10 = 0,5 el reactivo o ítem es intermedio o medianamente difícil para los sujetos
evaluados
3er ítems: D = 2/7 = 0,28 el reactivo o ítem es difícil para los sujetos evaluados
4to ítems: D = 3/4 = 0,75 el reactivo o ítem es fácil para los sujetos evaluados.
5to ítems: D = 3/7 = 0,42 el reactivo o ítem es difícil para los sujetos evaluados
6to ítems: D = 9/9 = 1 el reactivo o ítem es muy fácil para los sujetos evaluados
Dj está relacionado con la varianza de los ítems: Si Dj es 0 ó 1, la varianza es igual a cero; a medida que Dj
se acerca a 0,5, la varianza del ítem aumenta. De nada sirve un ítem con Dj = 0 o Dj = 1, ya que no
discriminaría entre los diferentes sujetos (todos aciertan o todos fallan el ítem o pregunta).
Al diseñar un cuestionario de rendimiento óptimo, al inicio se sitúan los ítems más fáciles (con mayor Dj); en
la parte central, los de dificultad media (entre 0,30 y 0,70); y al final, los más difíciles (con menor Dj). El
número de ítems de cada categoría de dificultad que deben incluirse en el test depende de los objetivos que
quiera conseguir la persona que diseña el cuestionario. En general, la mayor parte de los ítems deben ser de
dificultad media.
Calcular el índice de dificultad de los resultados de la siguiente prueba:
Items/reactivo
Sujetos
1 2 3
1 1 0 -
2 1 1 0
3 1 1 0
4 1 0 0
5 0 1 1
1er ítems: D = 4/5 = 0,8 el reactivo o ítem es fácil para los sujetos evaluados
2do ítems: D = 3/5 = 0,6 el reactivo o ítem es medianamente difícil para los sujetos evaluados
3er ítems: D = 1/4 = 0,25 el reactivo o ítem es difícil para los sujetos evaluados
Otra definición (2) del índice de dificultad, según ACP, sería:
Donde:
PR0 = Pregunta contestada incorrectamente. PR1 = Pregunta contestada correctamente.
En otras palabras, el índice expresa el número respuestas correctamente contestadas de una pregunta respecto
del número total de respuestas (correcta e incorrectamente contestadas) de la pregunta. Ahora bien, el índice de
dificultad, que cae entre los límite 0 y 1, califica a la pregunta de acuerdo al valor y su ubicación en una escala
de intervalo desarrollado. Los intervalos de calificación y clasificación de la pregunta son los siguientes:
Valor Clasificación
<= 0,2499999 Extremadamente difícil
0,25 – 0,449999 Difícil
0,45 – 0,549999 Intermedio
0,55 – 0,749999 Fácil
>= 0,75 Extremadamente fácil
Otra definición (3) del índice de dificultad, según Kaplan; Saccuzzo, 2006, sería:
El análisis de los elementos se hace con la finalidad de averiguar las características de estos en lo que se refiere
a: su dificultad (Kaplan; Saccuzzo, 2006). El conocimiento del índice de dificultad de un ítem es de utilidad
para: a) identificar los ítems que sirven o no y el grado de dificultad de cada uno, b) para escoger sólo aquellos
ítems que presentan el mismo grado de dificultad, c) para elegir una serie que nos permita ordenarlos en función
de su progresiva dificultad p; el valor del índice p puede ser de 0 a 1. Los pasos para sacar la el índice de
dificultad de una prueba son:
a. Sacar el puntaje bruto de cada sujeto. Esto es calificar el total de los ítems correctos en cada hoja de
respuestas y anotar la puntuación en la misma.
b. Ordenar los puntajes obtenidos por los sujetos de mayor a menor o viceversa.
c. Identificar el 27% del total de sujetos que respondieron el test.

d. Separar el 27 % de los puntaje altos que se llamaran el grupo de los altos o (Up) y el otro 27% de los puntajes
bajos, que se llamarán (Lp). Estos se designan como grupo de los altos (GA o Up) y grupo de los bajos (GB
o Lp), respectivamente. Se trabaja con los puntajes extremos. Con el 54% de la población, que corresponde
al 27 % de los puntajes mayores (grupo de los altos) y el 27% de los puntajes inferiores (grupo de los bajos).
Los puntajes que se encuentran en el área normal, es decir, el 46% se desechan porque no permiten
diferencias significativas.
e. Encontrar en cada ítem, cuantas personas del grupo de los altos (GA) contestaron correctamente el ítem 1.
Cuantas personas del grupo de los bajos (GB) contestaron correctamente el ítem 1. Luego, continuar con
todos los ítems. Cada uno visto en el grupo de los altos y de los bajos. Es posible contar sólo las respuestas
correctas, pero resulta interesante saber también el número de selecciones de alternativas erróneas, por lo que
generalmente se cuentan todas las respuestas.
f. Una vez que se tienen los valores de Up y Lp de cada ítem se puede identificar el análisis de dificultad así: p
= (Up + Lp) / (U + L). Donde p es el nivel de dificultad, Up número de personas del grupo de los altos
que contestó correctamente el ítem, Lp el número de personas del grupo de los bajos que contestó
correctamente el ítem, U el total de evaluados del grupo superior y L el total de evaluados del grupo inferior.
Con el índice de dificultad se establece la proporción de examinados que contestaron correctamente el ítem
según los criterios que se muestran en la siguiente tabla:
Estas no son las únicas escalas o métodos de evaluación de la magnitud del índice de dificultad, existen otras
que usted puede consultar para ampliar su conocimiento.
Índice de discriminación
En cuanto al índice de discriminación de una prueba, se define como una propiedad asociada con los test de
rendimiento óptimo y permite determinar qué sujetos tienen la capacidad/habilidad/competencia evaluada por la
prueba y cuáles no (Kaplan; Saccuzzo, 2006). La medición de la discriminación, se encuentra mediante el
índice de discriminación D cuya fórmula es: D = (Up - Lp) / U. Donde, U es el total de evaluados del grupo
superior, Up es el número de personas del grupo de los altos que contestó correctamente el ítem, L es el total de
evaluados del grupo inferior, y Lp es número de personas del grupo de los bajos que contestó correctamente el
ítem. Si los ítems tienen un índice de discriminación D =>0.30 entonces se dice que discriminan adecuadamente
aquellos sujetos que tienen la capacidad evaluada de los que no la tienen, pero si D es inferior a 0,30 entonces
esto quiere decir que el ítem está mal elaborado. Ejemplo:
Item
Sujeto
1 2 3 4 5 6 7 8 9 10 11 12 13 14
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
2 1 1 1 1 1 1 1 1 0 1 0 1 1 1
3 1 0 1 1 1 1 1 1 1 0 0 1 0 1
4 1 1 1 0 1 1 0 1 1 0 0 1 1 1
5 1 1 1 1 1 0 0 0 1 0 0 1 0 1
6 1 1 1 1 0 0 1 0 0 0 0 1 1 1
7 0 1 1 0 1 1 1 1 0 0 0 0 0 1
8 1 1 1 1 1 0 0 0 0 0 0 1 1 0
9 0 1 0 1 1 0 0 0 0 1 0 0 1 0
10 1 0 0 1 0 1 0 0 0 0 0 1 1 0
11 1 1 1 0 0 0 0 0 0 0 0 1 1 0
12 1 0 0 1 0 0 0 0 0 0 0 1 0 0
13 0 0 0 0 0 0 0 0 0 0 0 0 0 0
14 0 0 0 0 0 0 0 0 0 0 0 0 0 0
15 0 0 0 0 0 0 0 0 0 0 0 0 0 0
Indice de Discriminación (D)

Datos
para ID Item
1 2 3 4 5 6 7 8 9 10 11 12 13 14
Up G.Sup.
aciertos 4,00 3,00 4,00 3,00 4,00 4,00 3,00 4,00 3,00 2,00 1,00 4,00 3,00 4,00
Lp G.Inf.
aciertos
1,00 0,00 0,00 1,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 1,00 0,00 0,00
U/L 4,00 4,00 4,00 4,00 4,00 4,00 4,00 4,00 4,00 4,00 4,00 4,00 4,00 4,00
D= 0,75 0,75 1,00 0,50 1,00 1,00 0,75 1,00 0,75 0,50 0,25 0,75 0,75 1,00
Ya que la mayoría de los ítems tienen un índice de discriminación D =>0.30 puede afirmarse que los mismos
discriminan adecuadamente aquellos sujetos que tienen la capacidad evaluada de los que no la tienen, pero el
ítem 11 tiene un D inferior a 0,30 entonces esto quiere decir que el ítem está mal elaborado y debe revisarse.
Estas no son las únicas escalas o métodos de evaluación de la magnitud del índice de discriminación, existen
otras que usted puede consultar para ampliar su conocimiento.
Índice de Homogeneidad
Consiste en calcular la correlación entre cada ítem y la puntuación total en el cuestionario o test (es decir, la
suma de todos los ítems). Esta correlación es conocida en el marco de la Teoría Clásica de los Tests como
índice de homogeneidad (H o IH). Si el ítem analizado mide lo mismo que el resto de ítems, el índice de
homogeneidad será elevado, de manera que los sujetos que puntúan alto en el ítem, también tenderán a puntuar
alto en el cuestionario, y los sujetos que puntúan bajo en el ítem, tenderán a puntuar bajo en el cuestionario. Si
el índice de homogeneidad es bajo o cercano a cero, entonces el ítem analizado no mide lo que mide el resto de
ítems. Likert denominó a los ítems con un índice de homogeneidad bajo como ítems indiferenciadores (Likert,
1932).
Los ítems indiferenciadores aportan escasa o ninguna información útil sobre la actitud que se está midiendo, por
ello no tiene sentido combinarlos con el resto de ítems para obtener una puntuación total (McIver y Carmines,
1981). Además, como demuestra la Teoría Clásica de los Tests, su uso puede perjudicar a la fiabilidad y a la
validez del test. Por todo ello, los ítems indiferenciadores deben eliminarse.
El índice de homogeneidad, llamado a veces índice de discriminación, de un ítem/reactivo/pregunta (Hj), se
define como la correlación de Pearson entre las puntuaciones de los N sujetos en el ítem j y las
puntuaciones X en el total del test. Veamos el siguiente ejemplo.
Hj= rjx
Según la disposición de la matriz de datos, para obtener los Hj de los ítems, debemos calcular la correlación
entre las columnas j y la columna X de puntuaciones directas en la prueba.
Ejemplo: Supongamos un test formado por 3 ítems con formato de respuesta de categorías ordenadas, que se
valoran entre 0 y 5. Después de aplicarse a un grupo de 5 sujetos se obtienen los siguientes datos o matriz de
resultados:
Items (j)
Sujetos ΣXi
1 2 3
1 2 3 5 10
2 3 1 0 4
3 5 4 5 14
4 0 1 0 1
5 4 3 0 7
ΣX total de las puntuaciones en el test.
Formula de correlación de Pearson:
Donde:
rxy es el coeficiente de correlación de Pearson X = variable (independiente)
Y = variable (dependiente) Σ = sumatoria total
N es el número de datos
En esta fórmula:
H = rxy H = índice de homogeneidad

rxy = correlación entre los puntajes totales del test (X) y los ítems individuales (y).
Para el ítems 1:
Sujeto X(ΣXi)* Y(j)** X*Y X2 Y2
1 10 2 20 100 4
2 4 3 12 16 9
3 14 5 70 196 25
4 1 0 0 1 0
5 7 4 28 49 16
2
ΣX=36 ΣY=14 ΣXY=130 ΣX =362 ΣY2=54
*Sumatoria datos totales ** datos parciales por reactivo
rxy = 0,74
Para el ítems 2:

1 10 3 30 100 9
2 4 1 4 16 1
3 14 4 56 196 16
4 1 1 1 1 1
5 7 3 21 49 9
ΣX=36 Σ Y=12 ΣXY=112 Σ X2=362 Σ Y2=36
rxy = 0,94
Para el ítems 3:
1 10 5 50 100 25
2 4 0 0 16 0
3 14 5 70 196 25
4 1 0 0 1 0
5 7 0 0 49 0
2
ΣX=36 ΣY=10 ΣXY=120 ΣX =362 Σ Y2=50
rxy = 0,87
El índice de homogeneidad de un ítem:
 refleja que un ítem está midiendo la variable o constructo que la prueba en general quiere medir o evaluar.
 Es el grado en que dicho ítem está midiendo lo mismo (el constructo) que la prueba globalmente
 el grado de semejanza, de relación entre las respuestas de un ítem y el resto de los ítems del test, que
representan el constructo
 grado o nivel en que un ítem contribuye a la homogeneidad o consistencia interna del test.
 informa del grado en que dicho ítem está midiendo lo mismo que la globalidad del test; es decir, del grado
en que es consistente, homogéneo con el total de la prueba.
 la correlación existente entre las puntuaciones obtenidas por los sujetos en un determinado ítem y la
puntuación total de esos mismos sujetos en el test completo.
Dado que el índice de homogeneidad de un ítem es un indicador del grado en que ese ítem mide lo mismo
que la prueba completa, es “coherente” con el total de la prueba, habrá que eliminarlo si su Hj. está muy
próximo a 0 ya que esto indicará que ítem y prueba completa tienen muy poca relación entre sí; es decir, miden
cosas completamente diferentes. Dicho de otro modo, los ítems con bajos índices de homogeneidad miden algo
diferente a lo que refleja la prueba en su conjunto o lo que se quiere medir en la prueba. Si con el test se
pretende evaluar un rasgo, constructo, variable psicológica o constructo unitario, deberían eliminarse los que
tienen un Hj próximo a cero.
Por el contrario, los ítems cuya correlación con la puntuación total sea cercana a 1 serán muy homogéneos,
muy consistentes entre sí y medirán todos lo mismo (como en el caso de los tres ítems utilizados en el ejemplo).
En ocasiones, un test está formado por diferentes subtests con contenidos distintos. En este caso, los Hj
deben obtenerse con relación a las puntuaciones directas del subtest concreto.
Cuando un Hj es negativo y alto, debemos cuestionar el sistema de cuantificación de las respuestas que se ha
seguido en ese ítem. Si un ítem obtiene una correlación negativa y alta con el total de la prueba, seguramente es
debido a que se ha cuantificado erróneamente el ítem (se ha tomado como directo siendo inverso, o viceversa).
El cálculo del índice de homogeneidad como la correlación entre la puntuación en el ítem y la puntuación en
el test (en adelante, correlación ítem-test) tiene el siguiente inconveniente: la puntuación total en el test incluye
al ítem como componente, es decir, el ítem analizado aparece en las dos variables que se correlacionan, y esto
aumentará artificialmente el coeficiente de correlación que se obtenga. Para evitar este efecto, lo que se hace es
calcular la correlación entre el ítem y el test una vez que se ha eliminado de este último la contribución del ítem.
Esta correlación recibe el nombre de índice de homogeneidad corregido (Hc o IHc), y se indica mediante la
expresión (rj,x-j) o ri(T-i).
Esta operación se realiza específicamente cuando un test tiene un número pequeño de ítems. Existen 2
métodos para realizar este cálculo. El primero consiste en correlacionar las puntuaciones en un ítem con las
puntuaciones en el total del test después de restar de este total las puntuaciones del ítem cuyo índice queremos
obtener. Método 1 o de las diferencias test – ítem.
∑X-Y
Sujeto ∑X Y Xd Y Xd*Y Xd² Y²
1 10 2 8 2 16 64 4
2 4 3 1 3 3 1 9
3 14 5 9 5 45 81 25
4 1 0 1 0 0 1 0
5 7 4 3 4 12 9 16
∑ 22 14 76 156 54
n= 5

rxy = 0,4865
En el ejemplo precedente, el índice de homogeneidad corregido para el ítem 1 será 0.49, resultado de restar
las puntuaciones generales de los test (10, 4, 14, 1, 7) con las puntuaciones del ítem 1 (2, 3, 5, 0, 4)
obteniéndose una la columna con los siguientes resultados (10-2 = 8, 4-3 = 1, 14-5 = 9, 1-0 = 1, 7-4 = 3).
Posteriormente, esta nueva columna, denominada Xd, se correlaciona con las calificaciones del ítem 1.
Análogamente, los índices de homogeneidad corregidos para los ítems 2 y 3 son, respectivamente, 0.89 y 0.54.
El segundo método sería aplicar la fórmula para calcular el índice de homogeneidad corregido (Peters y Van
Vorhis, 1940):
donde, riT es la correlación ítem-test, Si es la desviación típica que muestran las puntuaciones en el ítem, y ST es
la desviación típica que presentan las puntuaciones en test.
Para interpretar el índice de homogeneidad corregido suele tomarse como valor de referencia 0.20. De
manera que todos los ítems que presentan ri(T-i) con valores inferiores a 0.20 son eliminados del banco de ítems
por ser indiferenciadores.
Ejemplo de cálculo.
Supongamos que 16 sujetos han contestado a los cuatro ítems del cuestionario de un test psicométrico de
rendimiento típico que mide actitudes hacia una universidad. Después de transformar los ítems invertidos, se
han calculado las puntuaciones en el test. Las puntuaciones en los ítems después de realizar las
transformaciones y en el test aparecen en la tabla que se muestra a continuación.
SUJETOS ITEM 1 ITEM 2 ITEM 3 ITEM 4 ∑X test

1 4 5 5 4 18
2 2 2 1 2 7
3 5 6 4 5 20
4 3 2 3 3 11
5 5 6 4 5 20
6 2 1 1 1 5
7 5 3 2 5 15
8 4 5 5 5 19
9 2 1 1 2 6
10 3 2 1 1 7
11 2 3 1 2 8
12 4 5 6 4 19
13 2 3 1 1 7
14 4 5 4 6 19
15 1 2 1 2 6
16 4 5 6 5 20
Estadísticos obtenidos de los ítems y test presentados en la tabla anterior
Estadística ITEM 1 ITEM 2 ITEM 3 ITEM 4 ∑X test

∑X 52 56 46 53 207
n= 16 16 16 16 16
3,25 3,50 2,88 3,31 12,94
∑X² 194 242 190 221 3261
∑X²/N 12,125 15,125 11,875 13,8125 203,813
² 10,56 12,25 8,27 10,97 167,38
(∑X²/N)- ² 1,563 2,875 3,609 2,840 36,434
Ѵ[(∑X²/N)- ²] 1,250 1,696 1,900 1,685 6,036
σi(excel) 1,250 1,696 1,900 1,685 6,036
Vamos a ilustrar cómo calcularíamos el índice de homogeneidad corregido (IHc) del ítem 1.
Para el ítem 1:
1 18 4 72 324 16
2 7 2 14 49 4
3 20 5 100 400 25
4 11 3 33 121 9
5 20 5 100 400 25
6 5 2 10 25 4
7 15 5 75 225 25
8 19 4 76 361 16
9 6 2 12 36 4
10 7 3 21 49 9
11 8 2 16 64 4
12 19 4 76 361 16
13 7 2 14 49 4
14 19 4 76 361 16
15 6 1 6 36 1
16 20 4 80 400 16
2
Totales ΣX=207 ΣY=52 ΣXY=781 ΣX =3261 Σ Y2=194
Aplicando la fórmula para calcular el índice de homogeneidad corregido según Peters y Van Vorhis, (1940):
donde, riT es la correlación ítem-test, Si es la desviación típica que muestran las puntuaciones en el ítem, y ST es
la desviación típica que presentan las puntuaciones en test.
El resultado obtenido indica que el ítem está muy relacionado con el resto de ítems que componen el test,
debido a que miden la misma actitud. Como cabía esperar, el Hjc o IHjc de un ítem suele ser inferior a su Hj o
HI sin corregir y la diferencia es apreciable debido a la pequeña longitud del test o el escaso número de ítems:
tan sólo 4 ítems. En este caso un 25% del test (es decir, 1 ítem de 4) es parte de las dos variables que
correlacionamos cuando calculamos el IH. Este porcentaje se reduce a medida que aumenta la longitud del test
(cuando la longitud del test es 5, el porcentaje es del 20%; cuando 6, el 17%; cuando 7, el 14%, ...). Por ello,
cuanto mayor sea la longitud del test menor será la diferencia entre el IH y el IHc. Cuando trabajamos con tests
muy largos la diferencia es muy pequeña.
Si realizamos el cálculo del índice de homogeneidad corregido por el método de las diferencias test – ítem al
primer ítem del ejemplo de los 16 sujetos que contestaron los cuatro ítems del cuestionario de un test
psicométrico de rendimiento típico que mide actitudes hacia una universidad, obtendremos similares resultados.
Sujeto X(ΣXi)* Y(j)** Xd Y(j)** X*Y X2 Y2

1 18 4 14 4 56 196 16
2 7 2 5 2 10 25 4
3 20 5 15 5 75 225 25
4 11 3 8 3 24 64 9
5 20 5 15 5 75 225 25
6 5 2 3 2 6 9 4
7 15 5 10 5 50 100 25
8 19 4 15 4 60 225 16
9 6 2 4 2 8 16 4
10 7 3 4 3 12 16 9
11 8 2 6 2 12 36 4
12 19 4 15 4 60 225 16
13 7 2 5 2 10 25 4
14 19 4 15 4 60 225 16
15 6 1 5 1 5 25 1
16 20 4 16 4 64 256 16
∑ 155 52 587 1893 194
Como resulta lógico suponer, el Hj corregido de un ítem suele ser inferior a su Hj sin corregir.
Hasta ahora se ha estudiado el índice de homogeneidad para preguntas/ítem/reactivos cuyo formato de
respuesta es politómico, cuyo ejemplo típico es la escala de Likert. En una prueba objetiva, ya sea un test un
examen o algún instrumento de este tipo, pueden emplearse ítem cuya respuesta tenga un formato dicotómico,
cuyo empleo sería SI/NO, ALTO/BAJO, BLANCO/NEGRO, etc., de manera que hay dos posibles respuestas
que son de carácter mutuamente excluyente.
Como consecuencia de lo anterior podría definirse el índice de homogeneidad como la correlación entre las
puntuaciones de los sujetos en el ítem y sus puntuaciones en el test (puntuación total). La correlación a utilizar
dependerá de los formatos de ítems y test y teniendo en cuenta que ha de descontarse la contribución que hace
el ítem al test total ya que si no se estaría elevando impropia y espuriamente la estimación. Veamos los 4 casos
más importantes:
1) Biserial-puntual. Item dicotómico y el test es cuantitativo continuo.
2) Biserial. Item dicotomizado a partir de una variable continua normal y el test es cuantitativo continuo (i.e.
ítems que admiten gradación de Resp. pero se dicotomizan).
3) Coeficiente PHI. Item y test son casos dicotómicos. Es una mera aplicación de Pearson, luego se puede
estimar con dicha fórmula.
4) Tetracórica. Si las 2 están dicotomizadas a partir de variables continuas y según un modelo de la Normal.
También es una aplicación de Pearson y su cálculo es complejo, luego se puede usar Pearson como
aproximación.
5) Basado en Pearson. Si tanto el ítem como el total son variables contínuas.
A continuación calcularemos la relación entre el puntaje de ítem y el criterio de validación:

Validez de Criterio:
Es una medida diferente de test para reflejar el mismo rasgo, constructo, variable psicológica u otro muy
relacionado. Establece la validez de un instrumento de medición comparándola con algún criterio externo.
Entre más se relacionen los resultados del instrumento con el criterio externo, mayor será su validez (Silva;
2009).
La fórmula general del coeficiente de validez es: (Coeficiente de Correlación de Pearson):
donde "x" hace referencia a las puntuaciones obtenidas en el test, e "y" hace referencia a las puntuaciones
obtenidas en la variable criterio.
Pretende expresar el grado en que un ítem es capaz de predecir (pronosticar) el rendimiento de un sujeto
medido a través de una variable externa elegida como indicadora del mismo; por lo tanto, el índice de validez se
calculará mediante la correlación entre las puntuaciones de un grupo de sujetos en ese ítem y las puntuaciones
de esos mismos sujetos en la variable o criterio externo elegido como criterio de validación o referencia.
También conocida como «validez criterial», «validez relativa al criterio» o «validez de pronóstico», se
refiere al grado de eficacia con que se puede predecir o pronosticar una variable de interés (criterio) a partir de
las puntuaciones en un test. Es frecuente que en los procesos de selección de personal se utilicen instrumentos
que pretendan determinar o predecir el rendimiento futuro de los candidatos al puesto de trabajo basándose en
las respuestas obtenidas. Para ello es necesario que se haya obtenido una evidencia empírica de que los
resultados obtenidos en la prueba correlacionen efectivamente con el rendimiento futuro en el puesto de trabajo.
Así pues, la operacionalización del concepto se realiza a partir del denominado coeficiente de validez, que
es la correlación entre el test y el criterio. A mayor correlación, mayor capacidad predictiva del test. Existen
distintos enfoques o definiciones aplicables a los diferentes diseños experimentales que permiten determinar
esta correlación. La elección de una definición/diseño u otro dependerá de las necesidades y circunstancias
específicas de cada caso:
 Validez concurrente o simultánea: El test y el criterio se miden al mismo tiempo (concurrentemente).

Puede utilizarse para validar un nuevo test por comparación con otro ya validado previamente.
 Validez de predictiva o pronóstico: El criterio se mide pasado un periodo de tiempo tras la aplicación
del test. Es el tipo más habitual en los procesos de selección de personal, en los que se pretende predecir
el rendimiento futuro de los sujetos.
Ejemplo: un criterio para validar un test de inteligencia verbal.
Un criterio para validar un test de inteligencia verbal puede ser un test que incluya ítems verbales. Ejemplos:
un criterio para validar un test de motivación laboral puede ser un test de motivación personal o un criterio para
validar un test de satisfacción laboral puede ser un test de satisfacción personal o satisfacción vital.
Ejemplo:
Items
1 2 3 ΣY(C.Ext.)
1 2 3 5 5
2 3 1 0 3
Sujetos 3 5 4 5 6
4 0 1 0 0
5 4 3 0 6
ΣX total de las puntuaciones en el test.
La ΣY corresponde a los resultados de otro test, que son los empleados para establecer el criterio de validación.
Nota: en criterio de validación los datos de la X pasan a ser el ítem Y, y este pasa a ser el valor dado por el
profesor.
Para correlacionar con el criterio establecido: ítem 1.
Sujeto X* Y** ΣY(C.Ext.) X*Y X2 Y2

1 2 5 10 4 25
2 3 3 9 9 9
3 5 6 30 25 36
4 0 0 0 0 0
5 4 6 24 16 36
Σ14 Σ20 Σ73 Σ54 Σ106
* Datos parciales por reactivo **Sumatoria datos totales de otro test.
rxy = 0,86
Sujeto X* Y** X*Y X2 Y2

1 3 5 15 9 25
2 1 3 3 1 9
3 4 6 24 16 36
4 1 0 0 1 0
5 3 6 18 9 36
2
ΣX=12 ΣY=20 ΣXY=60 ΣX =36 ΣY2=106
rxy = 0,877
Sujeto X* Y** X*Y X2 Y2

1 5 5 25 25 25
2 0 3 0 0 9
3 5 6 30 25 36
4 0 0 0 0 0
5 0 6 0 0 36
2 2
ΣX=10 ΣY=20 ΣXY=55 ΣX =50 ΣY =106
rxy = 0,537
Los elementos que tengan una correlación con el criterio próxima a cero deberían eliminarse de la prueba, en la
medida que no contribuyen ni a evaluar el rasgo, constructo, variable psicológica que se pretende medir ni
contribuye demasiado a que la prueba global cumpla el objetivo para el cual ha sido diseñada; es decir, no es un
ítem “válido”.
Si lo que se pretende es seleccionar los ítems que más contribuyen a la validez del cuestionario, de entre los
ítems de igual varianza, serían preferibles los que tienen alto Vj.
ANÁLISIS DE OPCIONES INCORRECTAS DE RESPUESTA

Muy en relación con el análisis de ítems se encuentra el tema del estudio de los patrones de respuesta que se han
dado a las diferentes alternativas de cada ítem. Para un ítem concreto de una prueba de rendimiento óptimo, lo
ideal es que la alternativa seleccionada en mayor medida sea la correcta; cada una de las alternativas incorrectas
del ítem debe también ser seleccionada por un número de personas que, aun siendo inferior al que selecciona la
alternativa correcta, ratifique como adecuadas (como bien planteadas) dichas alternativas incorrectas.
Observemos los siguientes porcentajes de respuesta obtenidos en las diferentes opciones de tres ítems de un
determinado test:
Opción
Ítem Porcentaje obtenido de las distintas opciones de respuesta
correcta
A B C D E
1 B 16 40 15 14 15
2 C 35 15 21 17 12
3 A 60 1 21 18 0
El patrón de respuestas obtenido para el ítem 1 es adecuado (ver gráfica inferior), pues la mayor parte de la
muestra selecciona la alternativa correcta, mientras que las incorrectas son seleccionadas por un porcentaje
parecido de personas. El ítem 2 seguramente no es muy adecuado, pues la muestra de sujetos selecciona en
mayor grado una alternativa incorrecta como la buena; al menos, habría que reformular esa alternativa
incorrecta. Para el ítem 3, los problemas se refieren a dos alternativas incorrectas que apenas si son
seleccionadas por la muestra; también habría que reformular esas dos opciones de respuesta.
En otro orden de cosas, y volviendo al caso de haber estado diseñando un test de rendimiento óptimo, no
deberíamos conformarnos con calcular los índices de “calidad” que acabamos de describir para todos los ítems
que lo constituyen, sino que también deberíamos asegurarnos de que los sujetos que los han respondido de
forma correcta no lo han hecho por pura casualidad, por “azar”, sino porque realmente disponen del
conocimiento o “aptitud” que les permite dar las respuestas acertadas. En este sentido, debemos proceder a
corregir los efectos que el azar pueda estar teniendo sobre esas puntuaciones. Vamos a verlo:
% de las 5 opciones de respuesta de los 3 items

60
P 60
o
r 50
c 40 A
e 40 35 B
n C
t 30 D
a 21 21 E
j 17 18
20 16 15 14 15 15
e 12
10
(
% 1 0
)
0
1 2 3
Items
CORRECCIÓN DE LOS EFECTOS DEL AZAR

En los tests formados por ítems de opción múltiples de las que sólo una es correcta, podemos sobrestimar la
puntuación directa de una persona dado que alguno de sus aciertos ha podido producirse por azar. El problema
entonces consiste en establecer un procedimiento para descontar del número total de aciertos (A) los que se han
producido por azar (Aa).
Si asumimos que, cuando no se conoce la respuesta correcta a un ítem, todas las alternativas de respuesta son
equiprobables, la probabilidad de acertar al azar ese ítem se puede establecer como:
P (Aa) = 1/n
siendo n el número de alternativas de respuesta del ítem.
De la misma forma, la probabilidad de errar el ítem será:
P(E) = 1 - (1/n)
Llamemos Ra el nº de respuestas aleatorias que proporciona (es decir, el número de ítems que ha contestado sin
saber la solución). De las Ra, algunas serán aciertos aleatorios (Aa) y otras serán errores (E). Nuestro objetivo
es estimar los Aa para descontarlos del número total de aciertos que ha tenido en realidad la persona. Lo
haremos de la siguiente forma:
La ecuación para estimar Aa es la siguiente:
Esta va a ser la fórmula para estimar Aa, a partir de los errores cometidos ( E ) y del número de alternativas que
tienen los ítems (n). Podemos observar que cada error se pondera por la expresión 1/(n-1), lo que significa que
por cada error hay que descontar el resultado de ese cociente: en tests de 2 alternativas de respuesta, hay que
descontar 1 punto por cada error; en tests de 3 alternativas, hay que descontar 0,5 por cada error; en tests de 4
alternativas, hay que descontar 0,33 puntos por cada error; y así sucesivamente.
La puntuación directa corregida de una persona en el test se obtiene entonces haciendo:
Xc = A – Aa
Xc = A -
Ejemplo: Un test de conocimientos del idioma inglés está formado por 140 ítems con 5 opciones de respuesta
cada uno. A continuación se detallan el nº de aciertos (A), errores (E) y
omisiones (O) que obtuvieron 3 personas:
Persona A E O
1 112 28 0
2 110 12 18
3 109 0 31
Si atendemos únicamente al número de aciertos obtenidos, parece claro que quien más inglés sabe es la persona
1, seguida de la 2 y en último lugar la persona 3. Sin embargo, corrigiendo los efectos del azar, obtenemos las
puntuaciones directas corregidas siguientes:
Xc = A -
Xc1 = 112 - = 105

Xc2 = 110 - = 107
Xc3 = 109 - = 109
Podemos comprobar que la corrección afecta sensiblemente al orden que establecemos respecto al dominio del
idioma inglés. Además, si nos fijamos en la corrección hecha para la persona 3, vemos que no se le ha
descontado nada; esto es debido a que no cometió ningún error.
Confiabilidad y validez (Práctica y cálculo)
Confiabilidad, indica que los resultados sean constantes y estables, interpretados de la misma manera (puntajes
estables). Todos los psicólogos los interpretarán de la misma manera. La confiabilidad de un instrumento de
medición se refiere al grado en que su aplicación repetida al mismo sujeto u objeto produce iguales resultados.
La validez se refiere al grado en que un instrumento realmente mide la variable que pretende medir (ampliar y
repasar estos puntos en el primer anexo al final de esta guía).
Técnicas para medir o calcular la confiabilidad mediante el uso de coeficientes.
a) Dos mitades: mediante el coeficiente de Spearman-Brown

b) Equivalencia racional: empleando el coeficiente de Kuder y Richardson 20 (KR20), además del alfa de
Cronbach.
c) Medida de la estabilidad, empleando el coeficiente de Pearson.
d) Formas paralelas o equivalentes, empleando el coeficiente de Pearson.
Ejemplos:
MÉTODO DE DOS MITADES

Este procedimiento consiste en dividir el test en dos mitades equivalentes (normalmente una con los elementos
pares y otra con los impares, pero pueden existir variantes como dividir el test en 2 partes, etc.). Para cada
sujeto se obtiene la puntuación directa en ambas mitades. Disponemos entonces de dos variables (P e I), cuya
correlación de Pearson (rPI) indica su grado de relación.
Si la mitad par e impar fueran entre sí formas paralelas (ya sabemos cómo comprobarlo estadísticamente), la
correlación entre ambas sería una medida de la fiabilidad de cada una de ellas. Ahora bien, cuando hemos
deducido la fórmula general de Spearman-Brown hemos visto que los tests más largos (con más items) suelen
ser más fiables, por lo que rPI estará subestimando el coeficiente de fiabilidad del test total en la medida que P e
I son variables extraídas de la mitad de ítems que tiene el test. Para superar este problema, y así obtener el
coeficiente de fiabilidad del test completo, debemos aplicar la fórmula de Spearman-Brown, considerando
ahora que estamos trabajando con datos muestrales, y haciendo n = 2 ya que el test completo tiene el doble de
items que cualquiera de sus mitades:
A partir de esta fórmula podemos comprobar que el coeficiente de confiabilidad, entendido como la expresión
de la consistencia entre dos mitades, es mayor que la correlación de Pearson entre ambas mitades.
Ejemplo: Supongamos que la siguiente tabla refleja los resultados de una muestra de 10 personas que responden
a un cuestionario psicométrico/rendimiento óptimo de 6 ítems valorados de forma dicotómica:
Items Items pareados

Sujeto 1 2 3 4 5 6 Pares Impares Total
1 1 0 1 0 1 0 0 3 3
2 0 1 1 1 0 1 3 1 4
3 0 0 1 0 0 0 0 1 1
4 0 1 1 1 0 0 2 1 3
5 0 0 0 1 0 0 1 0 1
6 1 1 1 1 1 1 3 3 6
7 1 1 1 1 1 1 3 3 6
8 0 1 1 1 0 1 3 1 4
9 0 1 0 0 0 0 1 0 1
10 0 0 0 0 0 0 0 0 0
Tabla con los datos para el cálculo de correlación:
Sujeto X(Pares) Y(Impares) X*Y X2 Y2
1 0 3 0 0 9
2 3 1 3 9 1
3 0 1 0 0 1
4 2 1 2 4 1
5 1 0 0 1 0
6 3 3 9 9 9
7 3 3 9 9 9
8 3 1 3 9 1
9 1 0 0 1 0
10 0 0 0 0 0
ΣX=16 ∑Y=13 ∑XY=26 ∑X2=42 ∑Y2=31
n= 10
Según el coeficiente producto momento de Pearson:
rxy = 0,34
En este caso se obtiene que rPI = 0.34, y por tanto:
= 0,51
De nuevo el tope de rxy lo tenemos en 1, con lo que podemos decir que las dos mitades del test no son muy
consistentes entre sí. Únicamente un 51 % de la varianza de las puntuaciones empíricas se debe a la varianza de
las puntuaciones verdaderas. No podríamos afirmar con suficiente certeza que ambas mitades miden con
precisión el rasgo, constructo, variable psicológica de interés.
La razón de dividir el test en la mitad par y la impar es garantizar su equivalencia. Los tests de rendimiento
óptimo suelen tener ítems ordenados en dificultad, de tal forma que se comienza a responder los ítems más
fáciles hasta llegar a los situados al final del test, que son los más difíciles. Si realizásemos la partición en dos
mitades atendiendo a su disposición en la prueba (la primera mitad formada por los primeros n/2 ítems, la
segunda por los n/2 ítems últimos) difícilmente podría cumplirse que ambas tuvieran la misma media.
Método de las dos mitades partidas (split-halves o split-half reliability). El método de mitades-partidas
requiere sólo una aplicación de la medición. Específicamente, el conjunto total de ítems (o componentes) es
dividido en dos mitades y las puntuaciones o resultados de ambas son comparados. Si el instrumento es
confiable, las puntuaciones de ambas mitades deben estar fuertemente correlacionadas. En individuo con baja
puntuación en una mitad, tenderá a mostrar también una baja puntuación en la otra mitad. La confiabilidad varía
de acuerdo con el número de ítems que incluye el instrumento de medición. Cuantos más items mayor es la
confiabilidad, entendiendo como confiabilidad el grado de estabilidad, precisión o consistencia que manifiesta
el test como instrumento de medición de un rasgo, constructo, variable psicológica determinado. Si un herrero
mide varias veces con una cinta métrica la longitud de una barra de hierro, siempre obtendrá la misma
medición, debido a que tanto la cinta métrica como la barra permanecen invariantes.
Ahora bien, cuando empleamos un test para medir un rasgo, constructo, variable psicológica psicosocial
determinado, puede ocurrir que ni uno ni otro permanezcan invariantes de una situación a otra; análogamente,
sería como disponer de una cinta métrica elástica y de una barra de hierro sometida a diferentes temperaturas (y,
por lo tanto, más o menos dilatada). Es labor de la psicometría establecer en cada caso el grado de estabilidad
del instrumento de medición.
Hasta el momento, el modelo clásico de puntuación verdadera y el planteamiento de la confiabilidad como
correlación entre formas paralelas, se han establecido en términos paramétricos; es decir, suponiendo conocidos
los datos de la población de referencia. Lo real es que en la práctica vamos a disponer de datos obtenidos en una
muestra o grupo normativo concreto. Esto significa que, de modo directo, únicamente vamos a disponer de las
puntuaciones empíricas de dicha muestra, a partir de las cuales podemos obtener los estadísticos que sean
oportunos.
Tradicionalmente, la confiabilidad de un test puede entenderse de tres maneras diferentes:
a) Aludiendo a la estabilidad temporal de las medidas que proporciona.
b) Haciendo referencia al grado en que diferentes partes del test miden un rasgo, constructo, variable
psicológica de manera consistente.
c) Enfatizando el grado de equivalencia entre dos formas paralelas.
CONFIABILIDAD COMO ESTABILIDAD TEMPORAL
Si disponemos de las puntuaciones de N personas en un test y, después de transcurrido un tiempo, volvemos
a medir a las mismas personas en el mismo test, cabe suponer que siendo el test altamente fiable, deberíamos
obtener una correlación de Pearson elevada entre ambos mediciones. Dicha correlación entre la evaluación test
y la evaluación retest (rxx) se denomina coeficiente de fiabilidad test-retest, e indicará tanta mayor estabilidad
temporal de la prueba cuanto más cercano a uno sea.
Este modo de operar se desprende directamente del modelo lineal clásico, según el cual se define la
fiabilidad como la correlación entre las puntuaciones empíricas en dos formas paralelas, ya que no existe mayor
grado de paralelismo entre dos tests que cuando en realidad es uno aplicado dos veces.
Ejemplo: A una muestra de 5 estudiantes se le aplica un cuestionario de hábitos de estudio. Transcurridos
dos meses, se vuelve a aplicar el mismo test a las mismas personas bajo las mismas condiciones. Sus
puntuaciones directas en las dos aplicaciones fueron las siguientes:
Test Retest Cálculos

Sujeto X Y X*Y X2 Y2
1 16 10 160 256 100
2 14 14 196 196 196
3 12 8 96 144 64
4 11 12 132 121 144
5 10 10 100 100 100
∑ 63 54 684 817 604
n= 5
Coeficiente de correlación:
rxy = 0,16
Puede observarse que el nivel ce correlación es muy bajo y no es confiable. De aplicarse este test a un mayor
número de personas, este resultado puede alterarse. Veamos:
El test anterior se aplicó a 10 personas. Para obtener el coeficiente de fiabilidad test-retest basta con
correlacionar los datos de las dos primeras columnas de datos:
Test retest Cálculos

Sujeto X Y X*Y X2 Y2
1 16 10 160 256 100
2 14 14 196 196 196
3 12 8 96 144 64
4 11 12 132 121 144
5 10 10 100 100 100
6 8 8 64 64 64
7 8 7 56 64 49
8 6 5 30 36 25
9 4 4 16 16 16
10 1 2 2 1 4
∑ 90 80 852 998 762
n= 10
Según el coeficiente producto momento de Pearson:

rxy = 0,87
Puede observarse que el nivel de correlación es alto, confiable y aceptable. En este caso se obtiene una
elevada estabilidad de las puntuaciones. Si los niveles de rasgo, constructo, variable psicológica (hábitos de
estudio) de las personas no han variado a lo largo de los dos meses transcurridos entre las dos aplicaciones,
podemos decir que el test proporciona bastantes garantías respecto a la precisión con la que mide, dado que una
persona concreta obtiene puntuaciones muy parecidas (o similares) en las dos aplicaciones.
Más concretamente, y haciendo uso del teorema demostrado en el tema anterior, podemos interpretar que el
87 % de la varianza empírica se debe a la variabilidad de las personas a nivel de puntuaciones verdaderas.
Este coeficiente se obtiene, sobre todo, en pruebas cuyo objetivo de medida es un rasgo, constructo, variable
psicológica estable (pruebas de inteligencia general, aptitudes, rasgo, constructo, variable psicológicas de
personalidad, etc.) dado que, de lo contrario, no se podría discernir entre la inestabilidad debida al rasgo,
constructo, variable psicológica de la causada por el instrumento de medición. Es aconsejable dejar periodos
largos entre la evaluación test y la retest cuando los ítems y las respuestas pueden memorizarse con facilidad; de
lo contrario, los sujetos podrían emitir pautas de respuesta similares en las dos aplicaciones del test únicamente
por efectos del recuerdo y del deseo de responder de manera congruente, con lo que rxx se incrementaría debido
a factores ajenos a la fiabilidad de la prueba. Debe tenerse en cuenta, sin embargo, que cuanto mayor es el
intervalo temporal que se deja entre ambas aplicaciones, mayor es la posibilidad de que las puntuaciones de los
sujetos oscilen diferencialmente debido a factores de tipo madurativo y, por lo tanto, esto tiene un efecto
concreto en el decremento de la correlación entre las puntuaciones del test y del retest.
Confiabilidad. Coeficiente alfa de Cronbach.

Este coeficiente es un índice de la consistencia interna o fiabilidad de un test. Desarrollado por J. L. Cronbach,
requiere de una sola administración del instrumento de medición y produce valores que oscilan entre 0 y 1, los
valores más bajos de este índice nos indican mayor consistencia. Si su valor supera el 0,8, podemos hablar de
fiabilidad.
Su ventaja reside en que no es necesario dividir en dos mitades a los items del instrumento de medición,
simplemente se aplica la medición y se calcula el coeficiente. Existen dos métodos para calcular este índice, el
primero es el cálculo de la varianza de los ítems/reactivos y el segundo se denomina matriz de correlación.
El primer método o la fórmula más empleada para calcular este tipo de coeficiente es el cálculo de la varianza
de los items:
- es la varianza del ítem i, o de cada item

- es la varianza de los valores totales observados y
- es el número de preguntas o ítems.
- [valor absoluto de la expresión matemática]
La fórmulas equivalentes de la varianza son:
O la siguiente:
El segundo método para calcular este coeficiente es la matriz de correlación de los items:
- p es el promedio de las correlaciones lineales entre cada uno de los items

- n es el número de preguntas o ítems.
Permite establecer el grado en que los diferentes ítems están midiendo una única dimensión o rasgo, constructo,
variable de tipo psicológico. Podemos observar en la última expresión que α tendrá un valor alto (cercano a 1)
cuando los ítems covaríen fuertemente entre sí; asumirá valores cercanos a cero si los ítems son linealmente
independientes (si covarían de forma escasa). Se puede interpretar como una medida de unidimensionalidad.
Ejemplo:
A una muestra de 6 sujetos de experimentación se les aplica, mediante una prueba piloto, un instrumento de
recolección de datos (test psicométrico de rendimiento óptimo/máximo) compuesto por 4 items para medir un
rasgo, constructo o variable psicológica. En la siguiente tabla se presentan los datos obtenidos:
Item/Reactivo
Sujeto 1 2 3 4 ΣX ∑X- (∑X- ²
1 0 0 0 1 1 2,00 -1,00 1,00
2 1 0 0 0 1 2,00 -1,00 1,00
3 1 0 0 0 1 2,00 -1,00 1,00
4 1 1 1 1 4 2,00 2,00 4,00
5 1 1 0 1 3 2,00 1,00 1,00
6 1 1 0 0 2 2,00 0,00 0,00
∑X 5 3 1 3 12 ∑ 8,00
n= 6 6 6 6 6 n= 6,00
0,83 0,50 0,17 0,50 2,00 S²x= 1,333
∑X² 5 3 1 3 32
∑X²/N 0,8333 0,5 0,1667 0,5 5,3333
² 0,69 0,25 0,03 0,25 4,00
(∑X²/N)- ² 0,139 0,250 0,139 0,250 1,333
S²i 0,139 0,250 0,139 0,250 1,333
S²i(excel) 0,139 0,250 0,139 0,250 1,333
Varianza 0,13889 0,25 0,13889 0,25 1,33333
Según el método del cálculo de la varianza de los items: para calcular la varianza del item 1:
Para calcular el valor del alfa de Cronbach, se aplica la siguiente ecuación:
= 0,55
Según el método del cálculo de la matriz de correlación de los items:

Matriz de correlaciones (hemimatriz superior: coeficientes de correlación lineal de Pearson (casillas en azul),
hemimatriz inferior(casillas en rojo): niveles de significancia o valores P).
Item 1 Item 2 Item 3 Item 4 Sumas filas

Item 1 0,4472 0,2000 -0,4472 0,2000
Item 2 0,3739 0,4472 0,3333 0,7805
Item 3 0,7040 0,3739 0,4472 0,4472
Item 4 0,3739 0,5185 0,3739
Suma (∑) 1,4277
# correlaciones 6
Promedio ( ) 0,2379
Esta tabla muestra en la hemimatriz superior, las correlaciones lineales producto momento de Pearson, entre
cada par de items. El rango de estos coeficientes de correlación va de -1 a +1, y miden la fuerza de la relación
lineal entre las variables. En la hemimatriz inferior se muestran los valores-P que prueba la significancia
estadística de las correlaciones estimadas para cada par de items. Valores-P numéricamente menores
(0,04/0,03/0,02/0,01/0,005, etc) que el valor 0,05 indican correlaciones relevantes o significativamente
diferentes de cero, con un nivel de confianza del 95,0%. Valores-P numéricamente superiores
(0,06/0,07/0,08/0,1/0,9, etc) que el valor 0,05 indican correlaciones no relevantes o no significativamente
diferentes de cero, con un nivel de confianza del 95,0%. Como puede observarse, las correlaciones arrojan
valores medianos a bajos y los niveles de significancia indican la no existencia de relaciones relevantes entre los
ítems.
= 0,55
Escala de los valores de confiabilidad
Muy Bajo Bajo Regular o moderada Buena o aceptable Alta o elevado

Entre 0,21 y 0,40 Entre 0,41 y 0,60 Entre 0,81 y 1,00
Entre 0 y 0,20 Entre 0,61 y 0,80
Medición con pocos Medición con algo de Medición sin
Medición con error Medición sin errores
errores error errores. Test fiable.
En este caso, el coeficiente α obtenido en ambos métodos representa un valor medio, que nos indica que no
existe un elevado grado de covariación entre los ítems. No podemos afirmar con rotundidad que este test mide
un rasgo, constructo, variable psicológica unitario.
El coeficiente α puede obtenerse también entre diferentes grupos de ítems (subtests). En ese caso, k será el
número de subtests y ΣS2j la suma de las varianzas de los subtests. Un coeficiente α bajo indicará que los
diferentes subtests miden rasgo, constructo, variable psicológica o constructo diferentes.
Para complementar este punto, ver los siguientes documentos:
http://es.slideshare.net/cmassuh/alpha-de-cronbach
http://es.slideshare.net/ViancaFatima_1990/alfa-de-cronbach-para-los-test?related=1
http://es.slideshare.net/maestriacvhuacho/validacion-instrumentos-alfadecrombach?related=2
Confiabilidad. Kuder – Richardson 20 (KR-20)
En Psicometría, la fórmula Kuder – Richardson 20 (KR-20) fue publicada por primera vez en 1937 y representa
una medida de confiabilidad de consistencia interna para medidas con opciones dicotómicas. Es análogo al
indicador α de Cronbachs, excepto que α de Cronbachs también se utiliza para medidas no dicotómicas o
politómicas (continuas) basadas en escalas como Likert. A menudo se afirma que un valor alto del coeficiente
KR-20 (por ejemplo 0,90) se asocia con una prueba homogénea. Esto realmente es una suposición, no una
conclusión, basado en estos coeficientes de confiabilidad.
Los valores de KR20 pueden variar desde 0 a 1 (a veces expresada como porcentaje), con altos valores
indicando que el examen es probable que se correlacionan con formas alternas (una característica deseable). El
KR-20 puede verse afectada por la dificultad de la prueba, la propagación en las puntuaciones y la longitud del
examen.
Para emplear este coeficiente, es deseable que los ítems/reactivos tengan un índice de dificultad homogéneo y
no un índice de dificultad creciente.
La fórmula para KR-20 para una test o prueba con K ítems/reactivos numerados de 1 a K es:
Donde K es el número de ítems/reactivos, p es la proporción o fracción de las respuestas correctas de cada

ítem/reactivo del test, q es es la proporción o fracción de las respuestas incorrectas o fallidas de cada
ítem/reactivo del test, de tal forma que p+q=1 y es la varianza.
También se puede emplear:
Donde n es el tamaño total de la muestra.
Desde α de Cronbachs fuera publicado en 1951, no ha habido ninguna ventaja conocida a KR-20 sobre
Cronbach. KR-20 es visto como un derivado de la fórmula de Cronbach, con la ventaja de Cronbach que puede
manejar tanto variables dicotómicas como continuas. No puede utilizarse la fórmula de KR-20 cuando hay
preguntas de opción múltiple, debe usarse solo para variables de respuesta dicotómica.
Ejemplo: se está desarrollando un test psicométrico/rendimiento óptimo de 4 ítems para selección de personal y
se desea estudiar la confiabilidad de este test de respuestas dicotómicas. Para ello se administra a un grupo de 6
sujetos. Los datos se muestran a continuación:
Item o reactivo
Sujetos ∑xi ∑xi2
1 2 3 4
1 1 1 1 0 3 9
2 1 1 1 0 3 9
3 0 0 0 0 0 0
4 1 1 0 0 2 4
5 0 0 0 0 0 0
N=6 1 0 1 0 2 4
∑ 10 26
n 6
1,667
P (a/n) 0,6667 0,5 0,5 0
Q (e/n) 0,3333 0,5 0,5 1
P*q 0,2222 0,2500 0,2500 0 ∑P*q = 0,7222

1 respuesta correcta al ítem. 0 respuesta incorrecta al ítem.
Cálculo de la varianza:
Calculando KR20 nos da:
Este es el valor de la confiabilidad o consistencia interna de los datos obtenidos empíricamente. También
pudiera decirse que el 71,4% de la varianza de las puntuaciones empíricas se debe al grado de la covariación
entre los ítems/reactivos del test con respuestas dicotómicas. El restante se deba a los errores de la medida
ocurridos durante la realización del test.
Escala de los valores de confiabilidad
Muy Bajo Bajo Regular Aceptable Elevado

Entre 0,21 y 0,40 Entre 0,41 y 0,60
Entre 0 y 0,20 Entre 0,61 y 0,80 Entre 0,81 y 1,00
Medición con pocos Medición con algo de
Medición con error Medición sin errores Medición sin errores
errores error
En este caso, el coeficiente KR20 obtenido representa un valor aceptable, que nos indica que existe un
moderado grado de covariación entre los ítems. Podemos afirmar con aceptable seguridad que este test mide un
rasgo, constructo, variable psicológica unitario.
Para ampliar conocimientos, puede consultar la bibliografía especializada del curso, además de:
 Kuder, G. F., & Richardson, M. W. (1937). The theory of the estimation of test
reliability. Psychometrika, 2(3), 151–160.
 Cortina, J. M., (1993). What Is Coefficient Alpha? An Examination of Theory and Applications. Journal
of Applied Psychology, 78(1), 98–104.
También puede ver los siguientes videos:

1.- Cómo Calcular el Alfa de Cronbach (El alfa de Cronbach es el Indice de Consistencia Interna más Utilizado
para Evaluar Fiabilidad en las Escalas)
https://www.youtube.com/watch?v=scCL458Eqyw&src_vid=6x0_LUnXR1E&feature=iv&annotation_id=
annotation_3202564557
2.- Confiabilidad Instrumentos Investigación. Alfa Cronbach SPSS. Constructos Componentes Principales
https://www.youtube.com/watch?v=V0eKtCKh7yY
ANEXO1. CONFIABILIDAD Y VALIDEZ

REQUISITOS DE UN INSTRUMENTO DE MEDICIÓN?
La confiabilidad de un instrumento de medición se refiere:
a) al grado en que su aplicación repetida al mismo sujeto u objeto produce iguales resultados según Hernández, Fernández y
Baptista (2010) (p.200).
b) al grado en que su aplicación repetida al mismo sujeto u objeto produce iguales resultados según Silva (2009),
c) a la consistencia temporal de los resultados. En el análisis de la confiabilidad se busca que los resultados de un cuestionario
concuerden con los resultados del cuestionario en otra ocasión, según Menéndez (2009).
d) La fiabilidad (también llamada técnicamente confiabilidad) se refiere (según la psicometría), a la ausencia de errores de
medida, o al grado de consistencia y estabilidad de las puntuaciones obtenidas a lo largo de sucesivos procesos de medición
con un mismo instrumento en similares condiciones (Morales, 2011).
La confiabilidad significa precisión, consistencia, estabilidad en repeticiones. Una definición conceptual bastante ilustrativa indica
que un instrumento es confiable si aplicado en las mismas condiciones a los mismos sujetos produce los mismos resultados (Nunnally
& Bernstein, 1995).
Ejemplo, lecturas seriadas repetidas de un termómetro ambiental que indican: 22 0C, 5ºC, 400C. Ese termómetro no sería confiable
(su aplicación repetida produce resultados distintos). Igualmente, si una prueba sensorial de un mismo producto se aplica hoy a un
grupo de personas y proporciona ciertos valores, se aplica una semana después y proporciona valores diferentes, al igual que en
subsecuentes mediciones, tal prueba no es confiable. Si un test psicométrico sobre inteligencia se aplica hoy a un grupo de personas
arrojando determinados resultados, se aplica un tres días después y proporciona equivalentes valores, al igual que en subsecuentes
mediciones, tal prueba se considera confiable. La confiabilidad/fiabilidad está asociada con la precisión de una medida, implica
ausencia de variabilidad y estabilidad temporal en la cuantificación. Este concepto está relacionado con las definiciones de precisión,
reproducibilidad, estabilidad, predictibilidad y por lo tanto consistencia temporal interna y homogeneidad.
La validez se refiere al grado en que un instrumento realmente mide la variable que pretende medir según Hernández, Fernández
y Baptista (1998) (p.21). Según Ruiz (2003) es la exactitud con que pueden hacerse mediciones significativas y adecuadas con un
instrumento, en el sentido que mide realmente el rasgo, constructo, variable psicológica que pretende medir. También incluye la
ausencia de sesgos. Representa la relación entre lo que se mide y aquello que realmente se quiere medir (Palella y Martins; 2006).
Ejemplo, un instrumento para medir pH debe medir pH y no milivoltios. Un instrumento que mida válidamente la inteligencia debe
medir inteligencia y no memoria, una prueba sobre conocimientos de anatomía debe medir eso y no conocimientos de Biología. No es
tan simple cuando se trata de variables como el sabor, la calidad de servicio a los clientes, la actitud hacia un candidato político, déficit
de atención, hiperactividad y agresividad, inteligencia intrapersonal, interpersonal y alexitimia, afrontamiento, optimismo y
resiliencia, etc. Dicho de otra forma, no es fácil desarrollar ítems y test que midan la variable psicológica o el constructo que se desea
medir y no otro, sobre todo si estos constructos tienen similares definiciones conceptuales y operacionales.
Según Samuel Messick (1989) la validez es el grado de propiedad de las inferencias e interpretaciones derivadas de los puntajes de
los tests, incluyendo las consecuencias sociales que se derivan de la aplicación del instrumento (Padilla et al, 2006).
Así, en vez de hablar de diferentes tipos de validez, Messick indica que la idea es recolectar diferentes tipos de evidencias, de
acuerdo con los propósitos y usos de los instrumentos, entre ellas evidencias de contenido, predictivas y de constructo, pero
concibiendo todas esas evidencias como contribuyentes a la validez de constructo.
La validez es un concepto del cual pueden tenerse diferentes tipos de evidencia: a) evidencia relacionada con el contenido, b) con
el criterio y c) evidencia relacionada con el constructo.
l. Evidencia relacionada con el contenido
Definiciones: se refiere:
 al grado en que un instrumento refleja un dominio específico de contenido de lo que se mide según Hernández, Fernández y
Baptista (1998).
 el grado en que la medición representa al concepto medido (Bohrnstedt, 1976).
 cuán representativo es el contenido elegido como muestra del universo de información que se intenta representar (Regalado,
2014).
 También determina hasta donde los items de un instrumento son representativos de las variables que se desea medir (grado
de representatividad) (Palella y Martins; 2006).
 Si una prueba o test constituye una muestra adecuada y representativa de los contenidos y alcance del constructo o dimensión
a evaluar (Col. Wikipedia).
El dominio de contenido de una variable normalmente está definido o establecido por la literatura especializada en el tema (teoría
y estudios antecedentes). En los casos en los que la materia objeto de medición se puede precisar con facilidad, la población de
contenidos que se pretende evaluar está bien definida, por lo que la selección de los ítems del test no ofrece mayores dificultades,
pudiéndose recurrir a métodos estadísticos de muestreo aleatorio para obtener una muestra representativa de ítems. No obstante, en el
campo de la psicología no siempre es posible disponer de poblaciones de contenidos bien definidas (por ejemplo, si se pretenden
medir variables psicológicas clásicas, como la introversión, la extraversión, la inteligencia, el liderazgo, la resiliencia, la empatía, la
alexitimia, déficit de atención, fobias, etc.). En estos casos suele recurrirse a un análisis racional de ítems, consistente en la evaluación
de los contenidos del test por parte de un grupo de expertos en el área a tratar. La validez de contenido es esencial a la hora de realizar
inferencias o generalizaciones a partir de los resultados del test.
La pregunta que se responde con la validez de contenido es: ¿el instrumento mide adecuadamente las principales dimensiones de
la variable en cuestión? En un cuestionario, por ejemplo, cabría interrogar: ¿las preguntas qué tan bien representan a todas las
preguntas que pudieran hacerse?
Ejemplo, una prueba sensorial debe incluir todos los aspectos sensoriales y no solo gusto. Una prueba de operaciones aritméticas
básicas no tendrá validez de contenido si incluye solo ítems de resta y excluye preguntas sobre suma, multiplicación y división. Un
instrumento de medición debe contener representados a todos los ítems del dominio de contenido de las variables a medir. Una técnica
muy usada para establecer la validez de contenido es el Juicio de Expertos en el tema en estudio, en el cual estos realizan un análisis
racional de ítems, consistente en la evaluación y ponderación de los contenidos del test, los cuales deben constituir una muestra
adecuada y representativa de los contenidos y alcance del constructo o dimensión a evaluar (ver adelante la sección cálculo de la
validez).
2. Evidencia relacionada con el criterio (concurrente y predictiva)
Establece la validez de un instrumento de medición comparándola con algún criterio externo. Entre más se relacionen los
resultados del instrumento con el criterio externo, mayor será su validez (Silva; 2009). Con este tipo de validez se desea predecir la
actuación de una persona/sujeto a partir de su ejecución en la prueba a la que se sometió. Este criterio es un estándar con el que se
juzga la validez del instrumento. Entre más se relacionen los resultados del instrumento de medición con el criterio, la validez del
criterio será mayor. Ejemplo, un investigador valida un examen sobre manejo de aviones, mostrando la exactitud con que el examen
predice qué tan bien un grupo de pilotos puede operar un aeroplano. De igual manera se puede extrapolar este punto a los test que
tratan de predecir nuestro desempeño futuro como conductores de automóviles.
Si el criterio se fija en el presente de manera paralela, se habla de validez concurrente (inspectiva, concomitante o simultánea)
(los resultados del instrumento se correlacionan con el criterio en el mismo momento o punto de tiempo).
Esto se debe a que generalmente resulta demasiado costoso someter a prueba la validez predictiva; suele estar fuera de las
posibilidades prácticas del psicólogo. Por ello, con frecuencia se recurre al método de la validez inspectiva, concomitante o
concurrente en el cual el criterio se miden en el mismo periodo concomitante o concurrentemente ya que el test y el criterio se miden
al mismo tiempo (concurrentemente). Puede utilizarse para validar un nuevo test por comparación con otro ya validado previamente.
Ejemplos:
Cuando Wechsler desarrolló su WAIS (test de inteligencia para adultos), obtuvo la validez de criterio concurrente respecto al test
de inteligencia de Stanford-Binet (aprox. 0,90).
Núñez (2001) desarrolló una herramienta para medir el sentido de vida de acuerdo con la visión de Viktor Frankl, el test Celaya.
Para aportar evidencia de validez en relación con su instrumento, lo aplicó y a su vez administró otros instrumentos que miden
conceptos parecidos, tal como el PIL (Prueba de Propósito Vital) de Crumbaugh y Maholick (1969) y el Logo Test de Lukas (1984).
Posteriormente comparó las puntuaciones de los participantes en las tres pruebas, demostró que las correlaciones entre las
puntuaciones eran significativamente elevadas, de esta manera fue como aportó validez concurrente para su instrumento.
Si el criterio se fija en el futuro, se habla de validez predictiva (prospectiva o de pronóstico). La misma se refiere al grado de
eficacia con que se puede predecir o pronosticar una variable de interés (criterio) a partir de las puntuaciones en un test. Es frecuente
que en los procesos de selección de personal se utilicen instrumentos que pretendan determinar o predecir el rendimiento futuro de los
candidatos al puesto de trabajo basándose en las respuestas obtenidas. Para ello es necesario que se haya obtenido una evidencia
empírica de que los resultados obtenidos en la prueba correlacionen efectivamente con el rendimiento futuro en el puesto de trabajo.
Por ejemplo, una prueba para determinar la capacidad gerencial de candidatos a ocupar altos puestos ejecutivos se validaría
comparando sus resultados con el desempeño posterior de los ejecutivos en su trabajo regular. Un cuestionario para detectar las
preferencias del electorado por los distintos partidos contendientes y por sus candidatos en la época de las campañas, puede validarse
comparando sus resultados con los resultados finales y definitivos de la elección.
Dicho de otra forma, este tipo de validez es la que se comprueba mediante la correlación entre el test y un criterio medido
ulteriormente o “a posteriori”.
Por ejemplo, si tenemos muchos aspirantes a pilotos y queremos seleccionar a los que tengan más probabilidad de convertirse,
pasados los estudios y prácticas, en buenos pilotos. Podemos aplicarles ciertos tests que aprecien los requisitos de ser buen piloto, y
admitir a todos los aspirantes. Después de los estudios y las prácticas oportunas, mediremos a los sujetos en el criterio que garantice
ser un buen piloto. Si los tests contestados por los sujetos en el momento de la admisión tienen una alta correlación con la pericia
como piloto, medida después del aprendizaje, a lo mejor años después, se puede afirmar que estos tests tienen alta validez
predictiva/prospectiva. Esta validez se ha llamado validez prospectiva, predictiva y de pronóstico, ya que permite pronosticar o
predecir convenientemente los resultados de los sujetos en el criterio, sirve para seleccionar a los aspirantes que con más probabilidad
van a ser buenos pilotos.
El principio de la validez de criterio es sencillo: si diferentes instrumentos o criterios miden el mismo concepto o variable, deben
arrojar resultados similares. Bostwick y Kyte (2005) lo expresan de la siguiente forma:
Si hay validez de criterio, las puntuaciones obtenidas por ciertos individuos en un instrumento deben estar correlacionadas y
predecir las puntuaciones de estas mismas personas logradas en otro criterio.
La pregunta que se responde con la validez de criterio es: ¿en qué grado el instrumento comparado con otros criterios externos
mide lo mismo?, o ¿qué tan cercanamente
El método empleado es el análisis correlacional mediante el Coeficiente de Correlación (Pho de Spearman o rxy de Pearson)
entre X e Y (datos del instrumento de medición con los del criterio externo). La fórmula general del coeficiente de validez es:
:
donde "x" hace referencia a las puntuaciones obtenidas en el test, e "y" hace referencia a las puntuaciones obtenidas en la variable
criterio.
3. Evidencia relacionada con el constructo (convergente y divergente)
Se refiere al grado en que una medición se relaciona consistentemente con otras mediciones de carácter similar de acuerdo con
hipótesis derivadas teóricamente y que conciernen a los conceptos (o constructos) que están siendo medidos. Por ejemplo: a)
síndrome de déficit de atención e hiperactividad, b) alexitimia con inteligencia intra e interpersonal, etc. son constructos relacionados
con apoyo teórico. Un constructo es una variable medida y que tiene lugar dentro de una teoría o esquema teórico. Respondería a las
preguntas ¿qué significado tiene el comportamiento registrado por el instrumento con respecto a los atributos del individuo que son
de interés para la medición? y ¿Hasta que punto un instrumento mide realmente un determinado rasgo, constructo, variable psicológica
latente, cualidad, rasgo, constructo, variable psicológica o una característica de las personas?, ¿Con cuanta eficacia lo hace? (Ruiz;
2003). Este tipo de validez permite verificar que el instrumento contenga todas las variables, dimensiones e indicadores que se
reflejan en la operacionalización de variables. (Palella y Matins; 2006).
Por ejemplo, supongamos que un investigador desea evaluar la validez de constructo de una escala de motivación hacia una cátedra.
Se afirma que el nivel de motivación hacia esa materia está relacionado positivamente con el índice de rendimiento académico
(ejemplo, los empleados con mayor motivación son los que suelen tener mayor IRA). La predicción es que a mayor IRA, mayor
motivación tendrá el alumno. El investigador administra dicho cuestionario de motivación intrínseca a un grupo de alumnos y los
relaciona con su IRA. Ambas mediciones son correlacionadas. Si la correlación es positiva y sustancial, se aporta evidencia para la
validez de constructo del cuestionario.
La validez de constructo incluye tres etapas:

1. Se establece y específica la relación teórica entre los conceptos.
2. Se correlacionan ambos conceptos y se analizo cuidadosamente la correlación.
3. Se interpreto la evidencia empírica de acuerdo con el nivel en que clasificó la validez de constructo de una medición en particular
(Hernández, Fernández y Baptista (1998)).
Otras técnicas utilizadas para la obtención de datos referentes a la validez de constructos psicológicos han sido el análisis factorial
y la matriz multirrasgo-multimétodo. Ambos sistemas son indicadores respectivos de las denominadas "validez factorial" y "validez
convergente-discriminante", los cuales permiten comprobar que las dimensiones incluidas en el instrumento tengan soporte empírico
en los datos obtenidos.
El proceso de validación de un constructo está vinculado con la teoría. No es posible llevar a cabo la validación de constructo, a
menos que exista un marco teórico que soporte a la variable en relación con otras variables Desde luego, no es necesaria una teoría
sumamente desarrollada, pero sí investigaciones que hayan demostrado que los conceptos están relacionados. Entre más elaborado y
comprobado se encuentre el marco teórico que apoya la hipótesis, la validación de constructo puede arrojar mayor luz sobre la validez
de un instrumento de medición. Y mayor confianza tenemos en la validez de constructo de una medición, cuando sus resultados se
correlacionan significativamente con un mayor número de mediciones de variables que teóricamente y de acuerdo con estudios
antecedentes están relacionadas.
Validez total = validez de contenido + validez de criterio + validez de constructo
Así, la validez de un instrumento de medición se evalúa sobre la base de tres tipos de evidencia. Entre mayor evidencia de validez
de contenido, validez de criterio y validez de constructo tenga un instrumento de medición; éste se acerca más a representar la variable
o variables que pretende medir.
Para ampliar estos conceptos, consultar los siguientes links (entre otros):
 https://explorable.com/es/tipos-de-validez
 http://www.academia.edu/1982369/Validez_y_Fiabilidad_con_SPSS
 http://es.slideshare.net/melgarejomiguel/validez-y-confiabilidad-37403200
 http://es.slideshare.net/maule/validez-y-confiabilidad-de-instrumentos-en-la-investigacin-cuantitativa?from_action=save
 http://es.slideshare.net/Dexi-25-Bastidas/validez-y-confiabilidad-37407908
 http://es.wikipedia.org/wiki/Validez_(psicometr%C3%ADa)
Factores que pueden afectar la confiabilidad y validez

 Improvisación. Aun a los investigadores experimentados les toma cierto tiempo desarrollar un instrumento de medición. Es por ello
que los construyen con cuidado y frecuentemente están desarrollándolos, para que cuando los necesiten con premura se encuentren
preparados para aplicarlos. Además, para poder construir un instrumento de medición se requiere conocer muy bien la variable que
se pretende medir y la teoría que la sustenta. Por ejemplo, generar o simplemente seleccionar un instrumento para medir diferencias
en sabor o textura; o que mida la inteligencia, la personalidad, requiere amplios conocimientos y actualización en la materia.
 Instrumentos extranjeros que no han sido validados a nuestro contexto: cultura y tiempo. Traducir un instrumento, adaptarlo a
nuestro lenguaje actual y lo contextualicemos, no es validarlo.
 Características intrínsecas y extrínsecas como el nivel sociocultural, utilizar un lenguaje muy elevado para el encuestado, no tomar
en cuenta diferencias en cuanto a sexo, edad, conocimientos, capacidad de respuesta, memoria, nivel ocupacional y educativo,
motivación para responder y otras diferencias en los entrevistados, son errores que pueden afectar la validez y confiabilidad del
instrumento de medición.
 Condiciones en las que se aplica el instrumento de medición. El ruido, el frío (por ejemplo en una encuesta de casa en casa), un
instrumento demasiado largo o tedioso, son factores que afectan negativamente la validez y la confiabilidad.
Cálculo de la confiabilidad
Existen diversos procedimientos para calcularla confiabilidad de un instrumento de medición Todos utilizan fórmulas que producen
coeficientes de confiabilidad. Estos coeficientes pueden oscilar entre O y 1. Donde un coeficiente de O significa nula confiabilidad y 1
representa un máximo de confiabilidad. Entre más se acerque el coeficiente a cero (O), hay mayor error en la medición.
Los procedimientos más utilizados para determinar la confiabilidad mediante un coeficiente son:
1. Medida de estabilidad (confiabilidad por test-retest). En este procedimiento un mismo instrumento de medición (o de ítems o
indicadores) es aplicado dos o más veces a un mismo grupo de personas, después de cierto período. Si la correlación entre los
resultados de las diferentes aplicaciones es altamente positiva, el instrumento se considera confiable. Se trata de una especie de
diseño panel. Desde luego, el periodo de tiempo entre las mediciones es un factor a considerar. Si el periodo es largo y la variable
susceptible de cambios, ello puede confundir la interpretación del coeficiente de confiabilidad obtenido por este procedimiento. y
si el periodo es corto las personas pueden recordar cómo contestaron en la primera aplicación del instrumento, para aparecer como
más consistentes de lo que son en realidad. Método: Coeficiente De Correlación rxy de Pearson. Mide la consistencia en el tiempo
de los puntajes. Formula de correlación de Pearson:
Esta fórmula emplea datos que se obtienen de tablas donde la primera columna izquierda son los sujetos/personas/participantes.
En la subsiguiente columna se colocan: a) la sumatoria de los ítems/preguntas de la primera aplicación (columna de datos X), b) la
sumatoria de los ítems/ preguntas de la segunda aplicación (columna de datos Y). De las últimas dos columnas se obtienen los
datos para la correlación de Pearson (∑x, ∑y, ∑xy, ∑x2 y ∑y2).
2. Método de formas alternativas, equivalentes o paralelas. En este procedimiento no se administra el mismo instrumento de
medición, sino dos o más versiones equivalentes de éste. Las versiones son similares en contenido, instrucciones, duración y otras
características. Las versiones (generalmente dos) son administradas a un mismo grupo de personas dentro de un periodo de tiempo
relativamente corto. El instrumento es confiable si la correlación entre los resultados de ambas administraciones es
significativamente positiva. Los patrones de respuesta deben variar poco entre las aplicaciones. Método: Coeficiente de
Correlación rxy de Pearson. Mide la Estabilidad Temporal, la consistencia de las respuestas.
3. Método de mitades partidas (split-halves o split-half reliability). Los procedimientos anteriores (medida de estabilidad y método
de formas alternas), requieren cuando menos dos administraciones de la medición en el mismo grupo de individuos. En cambio, el
método de mitades-partidas requiere sólo una aplicación de la medición. Específicamente, el conjunto total de ítems (o
componentes) es dividido en dos mitades (como se muestra en los esquemas anexos) y los ítem/reactivos se emparejan según
contenido y dificultad. Posteriormente, las puntuaciones o resultados de ambas son comparados.
Test 1 (forma Test 2 (forma

Operacionalización de la Variable Pregunta Respuestas Respuestas
equivalente) equivalente)
Item 1
Indicador 1 1 Item 1 R1 Item 2 R2
Item 2
Dimensión 1
Item 3
Item 4
Item 5
Item 6
Dimensión 2
Item 7
Item 8
Item 9
Item 10
Dimensión 3
Item 11
Item 12
Si el instrumento es confiable, las puntuaciones de ambas mitades deben estar fuertemente correlacionadas. En individuo con
baja puntuación en una mitad, tenderá a mostrar también una baja puntuación en la otra mitad. La confiabilidad varía de acuerdo
con el número de items que incluye el instrumento de medición. Cuantos más items mayor es la confiabilidad. Esto resulta lógico,
veámoslo con un ejemplo cotidiano: Si se desea probar qué tan confiable o consistente es la lealtad de un amigo hacia nuestra
persona, cuantas más pruebas le pongamos, su confiabilidad será mayor Claro está que demasiados ítems provocarán cansancio en
el respondiente.
Método: Coeficiente de Correlación rxy de Pearson, Pho de Spearman-Brown, coeficiente de Rulón y el coeficiente de
Guttman. Miden la Homogeneidad de los items al medir el constructo.
Este tipo de datos (politómicos, números enteros como respuesta de opciones Likert) se obtiene de tablas donde la columna
izquierda son los sujetos/personas/participantes y la fila superior son los ítems/preguntas, en cada casilla se colocan las respuestas de
cada sujeto para cada item (casilla: sujeto/ítem) y en las columnas de la derecha se colocan la sumatoria de: a) sumatoria de los
ítems/preguntas pares (columna de datos X), b) la sumatoria de los ítems/ preguntas impares (columna de datos Y). De las últimas dos
columnas se obtienen los datos para la correlación de Pearson (∑x, ∑y, ∑xy, ∑x2 y ∑y2).
La fórmula de Spearman-Brown:
r pi =coeficiente de correlación de Pearson entre las dos mitades (las preguntas pares y las preguntas impares)
En este tipo de cálculo de confibilidad, se procede como en el caso anterior, obteniendo la correlación de Pearson para las preguntas
pares e impares. Posteriormente, este valor se introduce en la fórmula de Spearman-Brown para obtener el valor del coeficiente
.
Ecuación de Rulon (1939):
d = diferencia entre las puntuaciones pares e impares

S2d = varianza de las diferencias entre las puntuaciones pares e impares.
S2x = varianza de las puntuaciones empíricas de los sujetos, también llamada varianza total.
izquierda son los sujetos/personas/participantes y la fila superior son los ítems/preguntas, en cada casilla se colocan las respuestas
sujeto/item y en las columnas de la derecha se colocan la sumatoria de: a) sumatoria de los ítems/preguntas pares, b) la sumatoria
de los ítems/ preguntas impares, c) la diferencia par-impar o se restan los datos de las columnas pares e impares y d) la sumatoria
total de estas respuestas. De las últimas dos columnas se obtienen la varianza S2dpi (diferencia ítem par-impar), y de la total la S2T.
La varianza puede obtenerse mediante las siguientes fórmulas:
Siendo:
Xi cada dato n el número de datos la media aritmética de los datos
La fórmula de Guttman (1937) y Flanagan (1945):
S 2p y S 2i son las varianzas de las puntuaciones de los ítems pares e impares respectivamente.
S 2x es la varianza de las puntuaciones empíricas de los sujetos estudiados.
izquierda son los sujetos/personas/participantes y la fila superior son los ítems/preguntas, en cada casilla se colocan las respuestas
sujeto/item y en las columnas de la derecha se colocan la sumatoria de: a) sumatoria de los ítems/preguntas pares, b) la sumatoria
de los ítems/ preguntas impares y c) la sumatoria total de estas respuestas. De cada columna se obtiene la varianza S2ip (ítem pares),
S2iI (ítem impares) y de la total la S2T.
Análisis de la homogeneidad de los ítems (consistencia interna):
4. Coeficiente alfa de Cronbach. Este coeficiente desarrollado por J. L. Cronbach requiere una sola administración del instrumento de
medición y produce valores que oscilan entre 0 y 1. Su ventaja reside en que no es necesario dividir en dos mitades a los items del
instrumento de medición, simplemente se aplica la medición y se calcula el coeficiente. Mide la homogeneidad de los items con
escala tipo Lickert. La fórmula más empleada para este tipo de coeficiente es:
- S2i es la varianza del ítem i,

- S2t es la varianza de los valores totales observados y
- k es el número de preguntas o ítems.
Este tipo de datos (dicotómicos, tipo 0 error y 1 acierto o no dicotómicos, números enteros como respuesta de opciones Likert) se
obtiene de tablas donde la columna izquierda son los sujetos/personas/participantes y la fila superior son los ítems/preguntas, en
cada casilla se colocan las respuestas sujeto/item y en la columna derecha se coloca la sumatoria total de estas respuestas. De cada
columna se obtiene la varianza S2i (ítem) y de la total la S2T.
5 Coeficiente KR-20. Se desarrolló un coeficiente para estimar la confiabilidad de una medición, su interpretación es la misma que la
del coeficiente alfa. En Psicometría, la fórmula Kuder – Richardson 20 (KR-20) fue publicada por primera vez en 1937 y
representa una medida de confiabilidad de consistencia interna para medidas con opciones dicotómicas. Es análogo al indicador α
de Cronbachs, excepto que α de Cronbachs también se utiliza para medidas no dicotómicas (continuas). A menudo se afirma que
un valor alto del coeficiente KR-20 (por ejemplo 0,90) se asocia con una prueba homogénea. Esto realmente es una suposición, no
una conclusión, basado en estos coeficientes de confiabilidad. Este coeficiente mide la fiabilidad como consistencia interna para
items dicotómicos.
Los valores de KR20 pueden variar desde 0 a 1 (a veces expresada como porcentaje), con altos valores indicando que el examen es
probable que se correlacionan con formas alternas (una característica deseable). El KR-20 puede verse afectada por la dificultad de
la prueba, la propagación en las puntuaciones y la longitud del examen.
Para emplear este coeficiente, es deseable que los ítems/reactivos tengan un índice de dificultad homogéneo y no un índice de
dificultad creciente.
La fórmula para KR-20 para una test o prueba con K ítems/reactivos numerados de 1 a K es:
Donde:
K= es el número de ítems q= es la proporción de errores (# errores entre total de sujetos)

S2x= es la varianza total de test. p= es la proporción de aciertos (# aciertos entre total de sujetos)
Este tipo de datos (dicotómicos, tipo 0 error y 1 acierto) se obtiene de tablas donde la columna izquierda son los
sujetos/personas/participantes y la fila superior son los ítems/preguntas, en cada casilla se colocan las respuestas sujeto/item y en la
columna de la derecha se coloca la sumatoria total de estas respuestas por participante. De esta columna se obtiene la varianza total
(S2X). De la columna correspondiente para cada ítem se obtiene: a) p que es la proporción de aciertos (# aciertos entre el # total de
sujetos), b) q que es la proporción de errores o no aciertos (# errores entre el # total de sujetos). Posteriormente se multiplica p*q y se
obtiene la sumatoria ∑piqi.
Un resumen de los métodos, técnicas y propósito para estimar la confiabilidad puede leerlo en: Palella y Martins (2006).
Metodología de la investigación cuantitativa.
A continuación se presenta un cuadro resumen de los métodos, técnica y propósito para medir confiabilidad:
MÉTODO TÉCNICA PROPÓSITO

Test/retest Coeficiente r correlación de Pearson Consistencia en el tiempo de los puntajes
Estabilidad Temporal, consistencia de las
Formas Equivalentes Coeficiente r correlación de Pearson
respuestas.
Pearson/Spearman-Brown.
División por dos mitades Homogeneidad de los items al medir el constructo
Rulón y Guttman-Flanagan
Coeficientes de fiabilidad como consistencia
Kuder – Richardson 20 (KR20)
Análisis de homogeneidad de interna para items dicotómicos (KR20).
los Itemes Homogeneidad de los items con escala tipo
Alfa (α) de Cronbach
Lickert.
Cálculo de la validez
Resulta complejo obtener la validez de contenido. Primero, es necesario revisar cómo ha sido utilizada la variable por otros
investigadores. Y con base en dicha revisión elaborar un universo de items posibles para medir la variable v sus dimensiones (el
universo debe ser lo más exhaustivo que sea factible. Posteriormente, se consulta con investigadores familiarizados con la variable
para ver si el universo es exhaustivo Se seleccionan los ítems bajo una cuidadosa evaluación. Y si la variable está compuesta por
diversas dimensiones o facetas, se extrae una muestra probabilística de ítems, ya sea al azar o estratificada (cada dimensión
constituiría un estrato). Se administran los items, se correlacionan las puntuaciones de los items entre si (debe haber correlaciones
altas, especialmente entre items que miden una misma dimensión), y se hacen estimaciones estadísticas para ver si la muestra es
representativa. Para calcular la validez de contenido son necesarios varios coeficientes.
La validez de criterio es más sencilla de estimar, lo único que hace el investigador es correlacionar su medición con el criterio, y
este coeficiente se toma como coeficiente de validez.
La validez de constructo se determina mediante el procedimiento denominado "análisis de factores". Su aplicación requiere de
estadística y de programas de computadora que evalúen las variables según las pruebas.
Todas estas medidas son características de un test estandarizado, el cual es una prueba que ha sido normalizada o normatizada; es
decir que ésta ha sido probada en una población con distribución normal para la característica a estudiar, ya sea el cociente intelectual,
un ensayo químico como la determinación de la glucosa en la sangre, conocimientos de historia, etc., puesto que un test estandarizado
es una herramienta empleada por diversas áreas de estudio, como algunas que pertenecen por ejemplo a las ciencias de la salud.
En el proceso de estandarización se determinan las normas para su aplicación e interpretación de resultados, es así que para la
aplicación de una prueba debe hacerse bajo ciertas condiciones, las cuales deben cumplir, tanto quienes la aplican, como a quienes
se les aplica.
Esta estandarización persigue que los resultados sean útiles para la toma de decisiones, si se realiza una prueba para decidir si una
persona es o no aceptada en determinada disciplina, la prueba debe garantizar lo mejor posible, que aquellos que se aceptan llenan los
requisitos requeridos y aquellos que se rechazan, verdaderamente no los cumplen.
Un ejemplo de test estandarizado es el WAIS (Escala Wechsler de Inteligencia para Adultos), el cual fue desarrollado por primera
vez en 1939 por David Wechsler y fue llamada entonces el Wechsler-Bellevue Intelligence Test.
Las escalas de Wechsler introdujeron muchos conceptos novedosos e innovaciones al movimiento de los tests de inteligencia.
Primero, Wechsler se deshizo de las puntuaciones de cociente de tests más viejos, (la C en "CI"). En lugar de eso, asignó un valor
arbitrario de cien a la inteligencia media y agregó o sustrajo otros 15 puntos por cada desviación estándar arriba o abajo de a
media en la que se encontraba el sujeto. Rechazando un concepto de inteligencia global (como el propuesto por Spearman), dividió el
concepto de inteligencia en dos áreas principales: área verbal y área de ejecución (no-verbal), cada una subdividida y evaluada con
diferentes subtests. Estas conceptualizaciones aun se reflejan en las versiones más recientes de las escalas de Wechsler.
Estos tests están todavía basados en su filosofía de que la inteligencia es "la capacidad global de actuar intencionalmente, de
pensar racionalmente, y de interactuar efectivamente con el ambiente" (citado en Kaplan & Saccuzzo, p. 256).(Ver anexo al final de
esta guía).
ANEXO 2
Clasificación
Clasificación general
La mayor clasificación de los test se da en dos grandes vertientes:
1. Test Psicométricos: Inscritos desde una corriente cognitivo conductual que parten del supuesto de que
las personas son sinceras al responder un instrumento estadístico. Básicamente miden y asignan un
valor a determinada cualidad o proceso psicológico (inteligencia, memoria, atención, funcionamiento
cognitivo, felicidad, optimismo, tristeza daño cerebral, comprensión verbal, etc.), y se dirigen a
actividades de evaluación y selección, como también al diagnóstico clínico, su organización,
administración, corrección e interpretación suele estar más estandarizada. Algunas fichas técnicas de los
test psicométricos más importantes:
 Test de Dominos.
Autor: Edgar Anstey.
Significación: Inteligencia general. Medir aptitudes, reconocimiento de semejanzas y diferencias, noción
de número y rapidez visual.
Administración: Individual y colectiva.
 Test de Matrices Progresivas de Raven.

Autores: J. C. Raven & Charles Spearmann y Court.
Significación: Medir inteligencia, capacidad intelectual por medio de la comparación de formas y el
razonamiento por analogías.
 Test de Aptitudes Diferenciales.

Autores: George K. Bennett, Harold G. Seashore, Alexander G. Wesman.
Aplicación: Individual y colectiva.
Significación: Evaluación del razonamiento verbal, razonamiento numérico, razonamiento abstracto,
razonamiento mecánico, relaciones espaciales, ortografía y rapidez y exactitud perceptiva.
Material: Manual DAT-5, cuadernillo nivel 1 y 2, hojas de respuestas
 Cuestionario de los 16 factores de personalidad.

Autor: R. B. Cattell.
Aplicación: Individual y colectiva; adolescentes y adultos.
Significación: Realizar una evaluación de la personalidad con las 16 escalas primarias y 5 dimensiones
secundarias o factores secundarios de la personalidad en sujetos normales.
Material: Cuadernillo. La Forma A compuesta por 187 reactivos, cada reactivo tiene 3 opciones de
respuesta, Hoja de respuestas, Hoja de Perfil y Dimensiones Globales. Lápiz.
 Inventario Multifásico de la Personalidad de Minnesota.

Autores: Starke. Hathaway (psicólogo) y J. C. Mc Kinley (neuropsiquiatra)

Significación: Medición de la personalidad multi fases.
2. Test Proyectivos: inscritos dentro de la corriente dinámica de la Psicología, parten de una hipótesis que
pone a prueba la individualidad de la respuesta de cada persona para así presumir rasgo, constructo,
variable psicológicas de su personalidad, la actividad proyectiva puede ser gráfica (Bender, DFH
Machover, Koppitz, HTP), o narrativa (T.A.T, Symonds, CAT, Rorschach), su uso suele ser más en el
ámbito clínico, forense e infantil.
Se clasifican en 5 grupos:
1. Técnicas estructurales. Material visual de poca estructuración, que el examinado ha de organizar,

diciendo lo que ve o aquello a lo que se puede parecer. Entre los más destacados se pueden mencionar
los siguientes:
 Test de Rorschach. La constituyen diez láminas con manchas de tinta, susceptibles de diversas
interpretaciones.
Autor: H. Rorschach y H. Zulliger.
Administración: Individual.
Duración: Flexible.
Aplicación: Jóvenes y adultos.
Significación: Evaluación de diversos aspectos de la personalidad profunda.
Material: 10 láminas.
 Técnica de manchas de tinta de Holtzman. Se utilizan dos series paralelas de 15 tarjetas cada
una, al examinado se le permite sólo una respuesta para cada diseño y la puntuación es
predominantemente más objetiva que subjetiva.
Autor: Wayne H. Holtzman.
2. Técnicas Temáticas. Material visual con varios grados de estructuración formal de contenido
humano, con el cual el examinado deberá narrar una historia.
 Test de percepción temática - CAT (CAT-H y CAT-A). Se utilizan tarjetas con dibujos que evocan
fantasías relacionadas con problemas de alimentación y otras actividades orales, como la relación
con los padres y hermanos, el entrenamiento de intereses y la agresión verbal. Se aplica a niños
de 3 a 10 años de edad.
 Autor: H. A Murray y L. Bellak .
Administración: Individual .
Duración: Flexible .
Aplicación: Niños y adultos .
Significación: Evaluación a diversos aspectos de la personalidad (impulsos, emociones, sentimientos,

complejos, etc.) .
Materiales: Láminas.
 Test de Rosenzweig de imágenes frustrantes. Presenta una serie de caricaturas en las que una
persona frustra a otra. En un espacio en blanco, el individuo escribe lo que la persona frustrada
podría contestar, las respuestas se clasifican de acuerdo con el tipo y la dirección. Se encuentra
en formatos para adultos, adolescentes y niños.
3. Técnicas Expresivas. Se indica al examinado que describa verbalmente o dibuje una o varias
figuras.
 Test de la Figura Humana de Karen Machover. El dibujo de la figura humana sirve como vehículo
hacia aspectos de la personalidad del sujeto en relación a su auto concepto y a su imagen corporal.
Aceptación o no de su etapa vital, Identificación y asunción del propio sexo y El grado de
estabilidad y dominio de sí mismo.
Autor: Karen Machover .
Administración: Individua l.
Duración: Flexible .
Aplicación: Jóvenes y adultos.
 Significación: Proyectan toda una gama de rasgo, constructo, variable psicológicas significativos y
útiles .
Material: Papel, lápiz.
 Test del dibujo de la familia. Con ella se pueden conocer las dificultades de adaptación al medio
familiar, incluidos los conflictos de rivalidad fraterna. En esta prueba se ponen en evidencia, de
manera más resaltada, los aspectos emocionales.
 Autor: J. M. Lluis.
 Administración: Individual .
Duración: Variable .
Aplicación: A partir de los 5 años .
Significación: de la afectividad infantil que facilita la exploración de las vivencias conflictivas del
niño. 
Material: Papel y lápiz.
 El test del árbol. Es un test los contenidos que se analizan son el tronco, la copa, las ramas, el
suelo y otros elementos accesorios que a veces aparecen. Y tiene como finalidad identificar
problemas de adaptación en diversos rasgo, constructo, variable psicológicas de personalidad.
 Autor: R. Stora.
 Administración: Individual.
 Duración: Libre.
 Aplicación: A partir de 5 años.
 Significación: Apreciación proyectiva de problemas de evolución y adaptación.
 H-T-P (casa, árbol y persona). Con la elaboración de estos tres dibujos se pretende obtener una
autoimagen del examinado, así como sus mecanismos de defensa, su situación familiar y un
concepto más profundo del Yo del examinado.
Autor: John N. Buck y W.L. Warren .
Duración: Entre 30 y 90 minutos .
Aplicación: Niños, adolescentes y adultos.
 Significación: Evaluación de las funciones del ego, conflictos de personalidad, autoimagen, percepción
familiar. 
Material: El Manual.
4. Técnicas Constructivas. Material específico y concreto, que el examinado ha de organizar

partiendo de varias consignas.
 Test del pueblo. El examinado deberá organizar una serie de piezas en una estructura
determinada que le sea asignada.
5. Técnicas asociativas. Se indica al examinado que indique verbalmente sus asociaciones
ante palabras, frases o breves historias.
 Las Fábulas de Düss. Su plataforma es el psicoanálisis y tiene como objetivo detectar las
estructuras ocultas e inconscientes que explican conductas anormales manifiestas.
 Autor: L. Düss .
Duración: No tienen tiempo prefijado.
 Aplicación: A partir de los 3 años .
Significación: Diagnóstico de complejos inconscientes y conflictos de comportamiento.
Material: Cartillas y hoja de anotación .
Clasificación por niveles

Tradicionalmente el uso de los test está reservado para los psicólogos, y la mayoría de las legislaciones
nacionales e internacionales con respecto al ejercicio de la Psicología lo contemplan de esta manera, no obstante
existe una clasificación dirigida a regular este particular:
 Tests de Nivel I: pueden ser aplicados, corregidos y administrados por profesionales no psicólogos luego del
entrenamiento debido por parte de un psicólogo (educadores, psicopedagogos, médicos, etc.), quizás el
exponente más obvio de los Test Nivel I son las pruebas y exámenes de evaluación de conocimientos y de
selección e ingreso a instituciones educativas.
 Test de Nivel II: pueden ser aplicados por profesionales no psicólogos pero su corrección e interpretación
debe ser realizada por un psicólogo, como por ejemplo los dibujos de la figura humana, de la familia que
realizan los niños en su cotidianidad dentro de la escuela.
 Test de Nivel III: son de la exclusiva administración, corrección e interpretación de un psicólogo

capacitado, suelen ser los test más relevantes y complejos de su área así cómo los de más difícil
interpretación y análisis, entre ellos se encuentran las Escalas de Wechsler (WAIS, WISC y WPPSI), el Test
de Bender, el MMPI 2 y A, el T.A.T., el Rorschach y las baterías neuropsicológicas (Luria, Halstead-
Reitan, K-ABC, etc.).
Áreas de aplicación
El uso de test para la evaluación puede ser de diversos tipos, así encontramos que existen test meramente
clínicos, así como otros que si bien pueden ser usados clínicamente también se aplican en otros contextos
psicológicos, como la selección de personal, la orientación vocacional y la investigación pura y aplicada, así la
evaluación psicológica por medio de test no se limita a la corrección impersonal de los resultados, sino que
exige del psicólogo una debida integración de todos sus conocimientos y una suficiente aptitud y actitud
profesional para elaborar a partir de los resultados un perfil válido, sustentable y coherente con respecto al
funcionamiento de una persona en determinada área, así cómo sacar el mayor provecho posible de cada prueba
para realizar de forma eficaz y eficiente la labor que es de su competencia. Entre las de las áreas de aplicación
se encuentran:
 Psicología clínica: quizás la más popularmente relacionada con el uso de tests, ya sea para la práctica
privada o institucional, los tests le permiten al clínico tener una mayor cantidad de información del
individuo en un menor tiempo así como acceder a elementos difícilmente alcanzables por otros métodos, así
como también proporcionan un paneo con respecto a la forma de funcionamiento predominante en el
paciente en determinadas áreas lo que contribuye tanto al proceso de diagnóstico y despistaje, como al
momento de planificar determinada intervención, remisión a otros profesionales o incluso al inicio de un
proceso de psicoterapia.
 Psicología educativa y orientación vocacional: en esta área permite evaluar de una forma estandarizada,
relativamente sencilla y muy enriquecedora, los procesos de niños, adolescentes o adultos relacionados con
el aprendizaje y las posibles dificultades que se puedan presentar en éste, también es fundamental en las
asesorías de elección vocacional, pues permiten visualizar las capacidades, aptitudes y preferencias que la
persona posee pero que realmente no es capaz aún de identificar y de eleborar por sí mismo.
 Psicología organizacional y laboral: al igual que en las áreas anteriores, permite acceder a una gran cantidad
de información en un tiempo mínimo, permite despistar trastornos mentales mayores, identificar actitudes,
potencialidades y debilidades y aplicar este perfil en el proceso de selección de personal para un cargo
determinado.

Test Psicologicos Analisis de Item 3 U

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Test Psicologicos Analisis de Item 3 U

Cargado por

Copyright:

Formatos disponibles

Prof. René Castro Test Psicológicos.

Análisis de ítems UBA

Unidad IV. Test Psicológicos

Clasificación de los test

El test psicométrico es un procedimiento estandarizado compuesto por ítemes seleccionados y organizados,

En selección de personal suelen utilizarse diferentes tipos de test psicométricos:

De acuerdo al propósito de medición, el formato de respuesta va a depender:

Test de Rendimiento óptimo:

Las mismas pueden tener las siguientes características:

Test de Rendimiento típico:

Test de rendimiento óptimo: se emplea el 0 y 1.

Test de rendimiento típico: acuerdo desacuerdo.

Análisis de los Items/Reactivos/Preguntas.

Test psicométrico con 6 Items/reactivos

0 = incorrecto 1 = correcto - = no contesto

Otra definición (2) del índice de dificultad, según ACP, sería:

c. Identificar el 27% del total de sujetos que respondieron el test.

Indice de Discriminación (D)

H = rxy H = índice de homogeneidad

Formula de correlación de Pearson:

Sujeto X(ΣXi)* Y(j)** X*Y X2 Y2

El índice de homogeneidad de un ítem:

Formula de correlación de Pearson:

SUJETOS ITEM 1 ITEM 2 ITEM 3 ITEM 4 ∑X test

Estadística ITEM 1 ITEM 2 ITEM 3 ITEM 4 ∑X test

Sujeto X(ΣXi)* Y(j)** Xd Y(j)** X*Y X2 Y2

A continuación calcularemos la relación entre el puntaje de ítem y el criterio de validación:

 Validez concurrente o simultánea: El test y el criterio se miden al mismo tiempo (concurrentemente).

Ejemplo: un criterio para validar un test de inteligencia verbal.

Para correlacionar con el criterio establecido: ítem 1.

Sujeto X* Y** ΣY(C.Ext.) X*Y X2 Y2

Para correlacionar con el criterio establecido: ítem 2.

Sujeto X* Y** X*Y X2 Y2

Formula de correlación de Pearson:

Para correlacionar con el criterio establecido: ítem 3.

Sujeto X* Y** X*Y X2 Y2

ANÁLISIS DE OPCIONES INCORRECTAS DE RESPUESTA

% de las 5 opciones de respuesta de los 3 items

CORRECCIÓN DE LOS EFECTOS DEL AZAR

siendo n el número de alternativas de respuesta del ítem.

De la misma forma, la probabilidad de errar el ítem será:

Xc1 = 112 - = 105

Xc2 = 110 - = 107

Xc3 = 109 - = 109

Confiabilidad y validez (Práctica y cálculo)

Técnicas para medir o calcular la confiabilidad mediante el uso de coeficientes.

a) Dos mitades: mediante el coeficiente de Spearman-Brown

MÉTODO DE DOS MITADES

Items Items pareados

Test Retest Cálculos

Test retest Cálculos

Según el coeficiente producto momento de Pearson:

Confiabilidad. Coeficiente alfa de Cronbach.

- es la varianza del ítem i, o de cada item

La fórmulas equivalentes de la varianza son:

- p es el promedio de las correlaciones lineales entre cada uno de los items

Para calcular el valor del alfa de Cronbach, se aplica la siguiente ecuación:

Según el método del cálculo de la matriz de correlación de los items:

Item 1 Item 2 Item 3 Item 4 Sumas filas

Escala de los valores de confiabilidad

Muy Bajo Bajo Regular o moderada Buena o aceptable Alta o elevado

Confiabilidad. Kuder – Richardson 20 (KR-20)

Donde K es el número de ítems/reactivos, p es la proporción o fracción de las respuestas correctas de cada

Sujeto X(ΣXi)* Y(j) Xd Y(j) X*Y X2 Y2

Pq 0,2222 0,2500 0,2500 0 ∑Pq = 0,7222