Manual de Medicion Psicologica 2011 2

PRIMERA UNIDAD
FUNDAMENTOS DE LA MEDICION PSICOLOGICA
LECCION 1
INTRODUCCION A LA MEDICION
1. INTRODUCCION
Hace algunos siglos, medir resultaba algo muy complicado. Como decíamos, medir es
simplemente comparar, y cada persona, cada pueblo, cada país comparaba las cosas
con lo que más se le antojaba. Por ejemplo, usaban la medida mano para medir
distancias, y aún hoy mucha gente, cuando no tiene una regla o una cinta métrica, mide
la mesa con la mano o el largo del cuarto con pasos.
Desde la aparición del ser humano sobre la tierra surgió la necesidad de contar y medir,
no es posible saber cuando surgen estas unidades para contar y medir, pero la
necesidad de hacerlo aporta ingredientes básicos que requiere la metrología como
mínimo, para desarrollar su actividad fundamental como ciencia que estudia los sistemas
de unidades, los métodos, las normas y los instrumentos para medir.
Se ha dicho que todos los descubrimientos han tenido lugar gracias a las mediciones
precisas del tiempo, masa o longitud; de estas tres, la medición exacta de la longitud es
la que ofrece más dificultades y han adquirido mayor importancia, hasta el momento
presente en que sigue constituyendo uno de los mayores problemas con que deben
enfrentarse el mundo de la mecánica.
2. ¿QUÉ ES MEDIR?
La medición es la determinación de la proporción entre la dimensión o suceso de un

objeto y una determinada unidad de medida. La dimensión del objeto y la unidad deben
ser de la misma magnitud. Una parte importante de la medición es la estimación de
error o análisis de errores.
Para establecer medidas debemos partir de nuestra observación del mundo real o
dominio.
Debemos identificar cuáles son las entidades que queremos medir (p.ej., tamaño) y
definir qué atributo deseamos caracterizar (p.ej., estatura).
Medir: asignar números a las cantidades e las propiedades de una persona de acuerdo
con reglas preestablecidas y que se puede comparar; Es decir, cuantificamos
cualidades.
En psicología las características las inferimos por lo que es importante que los
instrumentos de medida constaten que esas inferencias son reales.
Los instrumentos son los test psicométricos que pretenden ser una medida objetiva y
tipificada de pequeñas muestras de conducta significativas del sujeto.
Para que un test tenga valor debe servir para:

a. diagnosticar y describir el estado actual del sujeto
b. predecir el comportamiento futuro
La medida en psicología es algo concreto: Se miden características psicológicas en

personas, por lo que son aspectos individuales y concretos.
3. CONCEPTO DE MEDICION
Medición, refiere a la acción y resultado de medir; realizaron una medición sobre la

vivienda para así poder tasarla y posteriormente venderla. En tanto, por medir, se indica
la acción de comparar una determinada cantidad con su unidad respectiva, con la clara
finalidad de conocer cuántas veces la segunda se encuentra contenida en la primera.
Entonces, más concretamente, la medición es la determinación de la proporción entre la

dimensión o suceso de un objeto y una determinada unidad de medida. Para poder llevar
a cabo la medición de lo que sea, será necesario que tanto la dimensión del objeto como
la unidad correspondan a la misma magnitud.
Cuando se encuentra midiendo cualquier cosa, deberá serse lo más cuidadoso que se
pueda para no alterar el sistema, si bien el margen de error siempre se considera
presente, ya sea por las imperfecciones que pueden presentar el medidor, el instrumental
o hasta de los errores experimentales, deberá tratarse que el mismo sea el mínimo
posible.
El patrón que facilita llevar a cabo las mediciones se conoce como unidad de medida y
deberá cumplir con tres condiciones básicas: universalidad (utilizado en todos los países
del mundo), inalterable (no podrá presentar variación en el tiempo ni por quien realice la
medición), reproducible.
Para facilitar la cuestión, los científicos, han reunido las unidades tipo patrón más
conveniente y desarrollaron los sistemas de unidades, por ejemplo el Sistema
Internacional (S.I.), el mencionado fue acuñado en el año 1960 en la XI Conferencia
General de Pesos y Medidas, siendo las magnitudes fundamentales que se tomaron las
siguientes: longitud, masa, tiempo, temperatura termodinámica, cantidad de sustancia,
intensidad luminosa, ángulo plano, ángulo sólido e intensidad de corriente eléctrica.
El resultado de una medición se conoce como medida.
Si la medición es concretada a través de un instrumento de medida creado para tal

menester se llamará a la misma medición directa, en tanto, cuando esta condición no se
cumpla porque no existe un instrumento adecuado que nos permita medir, por ejemplo,
en los casos en los que la cosa a medir es muy grande o mu pequeña, la medición
deberá efectuarse a través de una variable que permita calcular otra diferente y
entonces, la misma será considerada como una medición indirecta.
Stevens (1951), afirma que “medir es asignar números a objetos o datos de acuerdo
con ciertas reglas”. Togerson (1958), crítica esta definición señalando que, al medir no
se asignan números a los objetos, por lo cual estará más de acuerdo con la definición
de Campbell (1938).
Campbell (1938), sostiene que “medición es la asignación de números para

representar las propiedades de los sistemas materiales en virtud de leyes que
gobiernan estas propiedades”.
Lord y Novick (1968), definen medición como un “procedimiento para la asignación de

números a propiedades específicas de unidades experimentales de modo que las
características preserven las relaciones especificadas en el dominio comportamental.
Magnusson (1969), dice que “medir es asignar números a las cantidades de las
propiedades o atributos de los objetos, de acuerdo con ciertas reglas cuya validez
puede probarse.
Kerlinger (1973), dice que, “en cierto sentido, la medición es sólo un juego y el objeto
de dicho juego es producir una correspondencia entre la medición y la realidad; cuanto
mayor sea esa correspondencia, tanto mejor será la medición”.
Bunge (1983), “la medición es la contrapartida empírica de la cuantificación o

determinación de la medida, y consiste en interpretar ciertas señales convencionales
(cifras, por ejemplo), como números que suministran una imagen más o menos fiable
de porciones o grados de esa propiedad”….”Además, exige un cero absoluto y
unidades de medida que pertenezcan a un sistema de unidades coherentes
(teóricamente fundado)”.
Herrera Rojas (1993), dice que “la medición comprende la definición del atributo que se
quiere medir, el establecimiento de la unidad de medida a emplear, la operación de
comparar el primero con la segunda y la asignación de valores numéricos como
resultado de esa comparación siguiendo reglas convencionales”
Nunally y Berstein (1995), es importante tener presente que no se miden las personas
sino atributos, es decir, características particulares de los objetos de medición.
Ejemplo: en la práctica no medimos a un adolescente, sino algunos de sus atributos,
como: su inteligencia, su personalidad, sus preferencias vocacionales, sus hábitos de
estudio, etc.
4. SISTEMA NUMERICO
4.1 NUMERACIÓN
Sistema de símbolos o signos utilizados para expresar los números.

Las primeras formas de notación numérica consistían simplemente en líneas rectas,
verticales u horizontales; cada una de ellas representa el numero 1. Por lo que este
sistema era extremadamente engorroso para manejar grandes números y para hacer
operaciones. Ya en el año 3400 a.C. en Egipto y Mesopotamia se utilizaba un
símbolo específico para representar el número 10.
En la notación cuneiforme de babilonia el símbolo utilizado para el 1, era el mismo
para el 60 y sus potencias.; el valor del símbolo venía dado por su contexto.
a. Numeración Griega
Coexistieron dos sistemas de numeración paralelos. El primero de ellos estaba
basado en las iniciales de los números, el número 5 se indicaba con (eta); elη
(delta) el 100 con la letra δ (PI); el 10 con la letra π la letra (mu). En el µ (chi) y el
1000 con la letra χ1000 con la letra segundo sistema eran usadas todas las
letras del alfabeto griego más otras tres tomadas del alfabeto fenicio como
guarismos. La ventaja de este sistema era que con poca cantidad de números se
podían expresar grandes cifras; pero había que saberse de memoria un total de
27 símbolos.
b. Numeración Romana
Este sistema (tan bien conocido por nosotros) tuvo el mérito de ser capaz de
expresar los números del 1 al 1.000.000 con solo siete símbolos: I para el 1, V
para el 5, X para el 10, L para el 50, C para el 100, D para el 500 y M para el
1000. Es importante acotar que una pequeña línea sobre el número multiplica su
valor por mil.
En la actualidad los números romanos se usan para la historia y con fines
decorativos. La numeración romana tiene el inconveniente de no ser práctica
para realizar cálculos escritos con rapidez.
c. Numeración Arábiga
El sistema corriente de notación numérica que es utilizado hoy y en casi todo el

mundo es la numeración arábiga. Este sistema fue desarrollado primero por los
hindúes y luego por los árabes que introdujeron la innovación de la notación
posicional; en la que los números cambian su valor según su posición. La
notación posicional solo es posible si existe un número para el cero. El guarismo
0 permite distinguir entre 11, 101 y 1001 sin tener que agregar símbolos
adicionales. Además todos los números se pueden expresar con sólo diez
guarismos, del 1 al 9 más el 0. La notación posicional ha facilitado muchísimo
todos los tipos de cálculos numéricos por escrito.
En matemáticas, varios sistemas de notación que se han usado o se usan para

representar cantidades abstractas denominadas números. Un sistema numérico está
definido por la base que utiliza. La base de un sistema numérico es el número de
símbolos diferentes o guarismos, necesarios para representar un número cualquiera de
los infinitos posibles en el sistema.
A lo largo de la historia se han utilizado multitud de sistemas numéricos diferentes.
a. Valores posiciónales
La posición de una cifra indica el valor de dicha cifra en función de los valores
exponenciales de la base. En el sistema decimal, la cantidad representada por uno
de los diez dígitos - 0, 1, 2, 3, 4, 5, 6, 7, 8 y 9-depende de la posición del número
completo.
Para convertir un número n dado en base 10 a un número en base b, se divide (en
el sistema decimal) n por b, el cociente se divide de nuevo por b, y así
sucesivamente hasta obtener un cociente cero.
b. Sistema binario
El sistema binario desempeña un importante papel en la tecnología de los

ordenadores. Los números se pueden representar en el sistema binario como la
suma de varias potencias de dos.
Ya que sólo se necesitan dos dígitos; el sistema binario se utiliza en ordenadores y
computadoras.
c. Números
Palabra o símbolo utilizado para designar cantidades o entidades, que se

comporten como cantidades. Es la expresión de la relación existente entre una
cantidad y otra magnitud que sirve de unidad. Se pueden considerar números
todos aquellos conceptos matemáticos para los cuales se definen dos operaciones,
de adición y multiplicación, cada una de las cuales obedece a las propiedades
conmutativa y asociativa.
c.1 Números Naturales

Dicho en términos muy simples, los números naturales son los que sirven para
contar.
El conjunto de los números naturales tiene las siguientes propiedades:
• Al conjunto de los números naturales pertenecen el 0 y el 1.
• Si se suma a un natural el número 1 el resultado es otro número natural.
• Por lo tanto el conjunto de los naturales es un conjunto infinito.
• Las propiedades enunciadas anteriormente constituyen el Axioma de
Inducción Completa.
c.2 Números Enteros
El conjunto de números enteros, es también infinito.
Son parejas de números naturales (x,y), cuya resta x-y define un número
entero. Por ejemplo: la pareja (7,3) define el entero positivo 4 ya que 7 - 3 = 4,
la pareja (2,4) define el entero negativo -2 ya que 2 - 4 = -2.
Existe un isomorfismo entre parte del conjunto de los números enteros y el de
los números naturales; ya que el conjunto de los naturales es el de los enteros
positivos.
Al conjunto de los enteros también pertenece el 0 que está definido por todas
aquellas parejas de naturales iguales (1,1); (56,56); etc.
c.3 Números Racionales

El conjunto de números racionales está integrado por parejas de números
enteros cuyos elementos se dividen entre sí.
A este conjunto también pertenece el 0, que está definido por todas aquellas
fracciones que tienen al 0 por numerador.
Los racionales serán positivos o negativos según sea el signo de cada uno de
los integrantes de las parejas que los definen.
Así será que parejas de enteros de igual signo definirán un racional positivo; y
parejas de enteros de distinto signo definirán un racional negativo.
No existen racionales cuyo denominador sea 0.
c.4 Números Reales

El campo de los números reales es más amplio que el de los racionales; ya
que incluye números que no están formados por parejas de enteros. Por
ejemplo la relación que existe entre una circunferencia y su diámetro. Se trata
de un conjunto también infinito.
Siempre entre dos números reales hay otro número real; de ahí que se asocie
al conjunto de los números reales con una recta. La recta está formada por
infinitos puntos y cada punto representaría un número real.
5. PROPIEDADES LOGICAS
Para aplicar a las propiedades de la naturaleza un modelo matemático hay que cumplir
ciertos requisitos, por lo tanto nos podemos preguntar ¿cuáles son las características
de la serie real de los números? Los números reales del sistema numérico presentan
tres características fundamentales:
a. Orden,
Es decir que los números están ordenados de mayor a menor. Ejemplos: 1 menor
que 2; 2 menor que 3; 3 menor que 4, etc.
b. Distancia,
Significa que la diferencia entre dos números o pares de números puede ser de
tres tipos: “mayor que”; “menor que” e “igual que”. Ejemplos: 7 es mayor que
1; 7 es igual a siete y 7 es menor que 28. También podemos decir: 9-7 es
menor que 9-6; o que 7-4 es mayor que 6-4, etc.
c. Origen,
Es decir, la serie numérica tiene un origen único llamado “cero” y la diferencia
entre cualquier par de números que tiene a O en un miembro es igual al número
del otro miembro. Ejemplo: 6 – 0 = 6
Los hechos o fenómenos no pueden satisfacer todas las propiedades de los números,
no obstante, nos permiten hacer ciertas mediciones de los mismos. Campbell (1938),
sostiene que existen nueve postulados básicos para la medición:
a) Postulados básicos de identidad o equivalencia:
 Si a es igual a b; o bien a es diferente a b. Los números son iguales o
diferentes.
 Si a es igual a b, entonces b es igual a a. Es decir, la relación de igualdad es
simétrica.
 Si a es igual a b y b es igual a c, entonces a es igual a c. Es decir, dos cosas
iguales a una tercera son iguales entre si. Transitividad.
b) Postulados relativos al orden jerárquico:

 Si a es mayor que b, luego b es menor que a. La relación “mayor que”, es
asimétrica.
 Si a es mayor que b, y b es mayor que c, entonces a es mayor que c.
Propiedad transitiva.
c) Postulados relativos a la aditividad:

 Si a es igual a p, y b es mayor que cero, entonces a más b es mayor que p.
Indica la posibilidad de sumar.
 Si a más b es igual a b mas a. El orden de los sumandos no afecta el
resultado.
 Si a es igual a p, y b es igual a q, entonces a más b es igual a p más q. Es
decir, los objetos idénticos pueden ser sustituídos.
A pesar de que la medición en psicología ha sido difícil de aceptar básicamente debido

por una parte a que no se comprendía cómo se podían medir fenómenos
cualitativamente diferentes y de otro lado a la gran cantidad de factores que interviene
en la aparición de cualquier fenómeno psicológico, que hacen difícil establecer los
controles adecuados, asunto que no ocurre en las ciencias naturales en un laboratorio.
Asimismo la influencia de algunos pensadores como Kant, que sostuvo que las
matemáticas no pueden aplicarse a la psicología, o de Bergson en contra del
positivismo, retardaron la aplicación de la estadística en psicología; sin embargo, otros
estudiosos como cita Cortada de Kohan (1999), afirman que la medición es posible
porque la estructura del pensamiento del hombre y la actividad psicológica en general
poseen propiedades desde el punto de vista lógico que son suficientemente similares a
la estructura de las matemáticas y por lo tanto se puede establecer un isomorfismo.
Lord y Novick (1968), definen la medición como un “procedimiento para la asignación de

números (puntajes o medidas), a propiedades especificadas de unidades
experimentales de modo que las caractericen y preserven, las relaciones especificadas
en el dominio comportamental”. En esta definición, el “preservar las relaciones” de Lord
y Novick suponen que para representar la propiedad debe existir un isomorfismo entre
las características del sistema numérico y las relaciones entre las diversas cantidades
de la propiedad medida.
6. ELEMENTOS ESENCIALES EN LA MEDICIÓN
En psicología medimos para tener datos más precisos y además ahorra tiempo, esfuerzo
y dinero. Cuanto más complejo es lo que se pretende analizar la medida simplifica la
realidad compleja.
Cada ítem de un test es una pequeña muestra de conducta.
Los elementos esenciales para medir en psicología son:
a. señalar o definir la cualidad o atributo que queremos medir
b. operativizar el atributo en base a las manifestaciones del mismo
c. ver la relación entre cualidades y cantidades.
d. Traducir e interpretar los datos cuantitativos para darles una cualidad. Es decir,
interpretar los datos cuantitativos en base a unas normas de interpretación.
7. CLASES DE MEDICION
Según Campbell (1959), la medición en ciencia de mayor a menor precisión, responde

a la siguiente categorización:
a. La medición fundamental o medición de magnitudes A.

En este caso los números se asignan según leyes naturales que representan la
propiedad misma. Ejemplo: la longitud, el volumen, el peso, la altura, la
resistencia física, poseen significado constitutivo y no presuponen la medición
de ninguna otra variable.
b. La medición derivada o medición de magnitudes B.

En este caso la característica de una escala obtiene sentido mediante leyes
que relacionan una propiedad con otras propiedades. Ejemplo: la densidad de
una sustancia es la relación entre su masa y su volumen. Esta relación difiere
en las distintas sustancias y por lo tanto el valor de esta relación puede medir
la densidad de la sustancia.
c. La medición por fiat.

En esta categoría el significado se debe a una definición arbitraria que depende
de relaciones supuestas entre las observaciones y el concepto. En la práctica,
esto es lo común en las ciencias sociales cuando usamos índices como por
ejemplo, el nivel socioeconómico, o en psicología el cociente intelectual o la
capacidad de aprendizaje de un animal por cantidad de ensayos que necesita
para solucionar un problema o recorrer un laberinto. El caso es que, los
índices tienen sólo un significado operacional más no constitutivo.
8. FINALIDAD DE LA MEDICION PSICOLOGICA
Según Levine y Feeman, 1975, la finalidad de la medición es proporcionar una base

objetiva, exacta y comunicable para describir, diferenciar y clasificar las características y
conductas de las personas. Ejemplo: los puntajes correspondientes a eneatipos son
diferenciaciones cuantitativas que permiten clasificar a las personas en función a sus
recursos o potencialidades intelectuales; rasgos de temperamento; aptitudes específicas;
hábitos de estudio, según los casos.
Para clasificar primero se debe diferenciar, por lo tanto la diferenciación precede a la

clasificación. En psicometría, para diferenciar a los sujetos sobre la base de una
determinada variable se deben cumplir dos requisitos:
1.Se debe dar una definición de la variable, por ejemplo: “inteligencia”; “aptitud”;
“hábitos”; “temperamento”, etc.
2.Se debe dar una regla o un conjunto de ellas, por la cual se establezcan las
operaciones que permitirán diferenciar entre los sujetos.
La definición de una variable es generalmente abstracta mientras que las reglas son
definidas operacionalmente. Técnicamente, cuanto más específica es la regla más
exacta es la medición.
9. PROCESO DE EVALUACION
El concepto de evaluación es mucho más amplio que el de medición. La medición

implica tanto descripciones cuantitativas como cualitativas del comportamiento y
además, y esto es lo más importante, supone siempre un juicio de valor en relación con
ese comportamiento.
Ejemplo: Cuando en la práctica decimos que un niño posee un CI de 85, sólo hemos
medido algo. Para que esto constituya una evaluación, debemos concluir que el
resultado obtenido por dicho niño es inferior al promedio de la población escolar y que
es probable que el niño tenga dificultades de aprendizaje y que por lo tanto requiera
aprestamiento y nivelación, etc.
En resumen, la evaluación implica un proceso sistemático destinado a obtener
información sobre ciertas características de los sujetos examinados que nos sirvan de
base para tomar decisiones. Asimismo, la evaluación psicológica se da en diferentes
ámbitos especializados: clínico o de la salud; educacional; organizacional; social-
comunitaria; deportiva; penitenciaria, etc. Es evidente que la evaluación no sólo se
refiere a la aplicación de tests, sino que implica la observación conductual, la entrevista,
la observación y las calificaciones, entre otros elementos, utilizados por el evaluador
para la toma de decisiones (Cohen y Serdilk, 2000).
La principal debilidad de la evaluación es que permite la intervención directa de las

personalidades del observador como del observado. En la actualidad, la evaluación se
orienta hacia las técnicas donde se puedan combinar las aproximaciones de la
psicometría y la observación, utilizando esta última con sus diversos procedimientos:
registros, informes, técnicas sociométricas, etc., en el estudio de las situaciones o
escenarios donde se desenvuelven las personas.
Reconociendo la complejidad del estudio de la personalidad e involucrando en este

concepto a lo cognitivo, Catell (1982), propone para el estudio de la personalidad un
doble modelo: psicométrico y econéctico, éste último se ocuparía del estudio de las
situaciones o escenarios donde se da el comportamiento. Catell, Eysenck y Guilford
dedicaron toda su vida al desarrollo del primer modelo mencionado, en tanto que el
segundo recién empieza a evolucionar y probablemente va a constituir el objetivo de
otras generaciones de psicólogos investigadores (Catell y Kline, 1982).
10. VARIABLES DE LA MEDICION
a. Definición de Variable
Variable es toda característica o atributo susceptible de tomar un valor y ser
medido.
Una variable es cada una de las características o cualidades que poseen los
individuos de una población.
Cuando hablemos de variable haremos referencia a un símbolo (X, Y, A, B,...) que
puede tomar cualquier modalidad o categoría (valor) de un conjunto determinado,
que llamaremos dominio de la variable o rango.
Al observar el mundo, la naturaleza, la realidad, nos llama la atención la gran cantidad

de distinciones sensibles que podemos hacer en ella. Ejemplo: si nuestro interés se
orienta a estudiar un grupo de adolescentes universitarios, seleccionaremos una
muestra que podrán ser dos grupos de alumnos: uno de ellos pertenecientes a una
Universidad Privada y el otro a una Universidad Nacional. Sobre estos grupos,
elegiremos algunas características que nos interesen como por ejemplo: peso, talla,
capacidad intelectual, hábitos de estudio, enfermedades que han padecido, edad
cronológica, lugar de procedencia, trabajo que realizan sus padres, su rendimiento en
lenguaje, etc.
Estas características o propiedades de los adolescentes universitarios se llaman

variables toda vez que varían de un alumno a otro y son precisamente sobre estas
variables que trabajará el estadístico. El término “variable” indica que un símbolo
representa diversos valores y dichos símbolos suelen ser las últimas letras del
alfabeto: x, y, z.
A diferencia de una variable que puede tener valores diferentes, una constante puede
ser reemplazada sólo y únicamente por un valor. Ejemplo, en la expresión C = 2phi r,
los símbolos C y r pueden ser reemplazados por un conjunto infinito de números
positivos; sin embargo, el símbolo phi es una constante y sólo puede ser reemplazado
por 3.1416.
Por otra parte, observamos también que en este caso C y r son variables que están
funcionando relacionadas, es decir, el valor de C depende del valor de r. Del mismo
modo, las variables son muy diversas y por lo tanto conviene que las clasifiquemos ya
que no todos los cálculos estadísticos se pueden hacer con todas las variables.
Para efectos de nuestra temática, podemos dividir las variables en varios tipos:
1. Variables cualitativas o atributos.
El rasgo específico que caracteriza estas variables es que pueden ser divididas
en clases separadas y mutuamente exclusivas. Ejemplo: el sexo, la raza, la
religión, el partido político, la ocupación, la actitud hacia los maestros, el estado
civil, etc.
Asimismo, en el sexo tenemos hombre y mujer; en la raza tenemos: negros,
blancos, orientales, etc.; en la religión tenemos a católicos, protestantes, judíos,
budistas, musulmanes, etc.
En algunos casos, las variables cualitativas consideran una pauta de orden.
Ejemplo: el promedio de los exámenes calificado como: reprobado, aprobado,
bueno, distinguido y sobresaliente. Cuando se trata de medir actitudes hacia la
política en adolescentes universitarios podemos considerar los siguientes
niveles: muy favorables, favorables y desfavorables.
En resumen, las variables cualitativas son muy frecuentes en la psicología y en
las ciencias sociales pero son las más difíciles de evaluar desde el punto de vista
estadístico.
2. Variables cuantitativas.
Se pueden clasificar a su vez en discretas y continuas.

Las variables cuantitativas discretas. Son aquellas que se tienen la propiedad de
poderse contar. Ejemplo: número de hijos de una familia; ingreso anual de la
familia; goles que haya hecho un equipo de fútbol. De esta manera, una familia
puede tener 1, 2, 3 o 4 hijos, pero no hay posibilidades de tener dos hijos y
medio, es decir, hay separación total entre un valor y otro, pero siempre están
ordenados y podemos contar sus elementos.
Las variables cuantitativas continuas. Estas variables se caracterizan porque no
se cuentan sino se miden y pueden tener cualquier valor en un ámbito finito de
valores continuos. Ejemplo: edad cronológica, talla, peso, temperatura, presión
arterial, altura de una montaña, cantidad de metros cúbicos de agua de un lago,
etc. En tal sentido, un estudiante universitario al entrar a la Universidad hace un
año tenía 17 años, 3 meses, 6 días, 2 horas y 5 minutos. Seis meses después,
tendrá valores diferentes a la medición realizada al momento del ingreso. La
fineza con que midamos en este momento, establecerá el límite entre un valor y
otro, en donde desde luego existe una continuidad cuyo corte sólo depende del
instrumento con que efectuamos la medición. La mayoría de las variables en las
ciencias físicas y biológicas son cuantitativas continúas.
En conclusión: Las variables cualitativas son esencialmente variables para la
clasificación de las entidades que en la psicología son sujetos; las variables
cuantitativas discretas son variables en donde las entidades se cuentan y las
variables continuas son aquellas variables que se pueden medir.
LECCION 2
MEDICION PSICOLOGICA
1. INTRODUCCION
Primera vista parecería que el sistema de conocimientos psicológicos y el matemático no

tienen nada en común. A pesar de esto los científicos cada día utilizan más modelos
matemáticos en sus ciencias y no sólo en las ciencias físicas y naturales, sino también en
las ciencias sociales y del comportamiento. Esto ha dado lugar a la teoría de la medición
que trata precisamente de la posibilidad de usar los números en los fenómenos naturales
y psicológicos. Existe en la actualidad una importante rama de la psicología que ubica a
la matemática en el eje de su metodología. La psicología matemática se caracteriza por
buscar representaciones o modelos matemáticos del objeto de estudio, capaces de
recoger, predecir y explicar las propiedades de este tal como lo proponen entre otros
Luce, Bush y Galanter (1963).
La medición en Psicología ha sido difícil de aceptar en parte por la gran influencia de dos
grandes pensadores como Kant, que no creía que la psicología como estudio de la
experiencia interna pudiera ser sometida a una comprobación objetiva (Toloso Gil,1998)
y Bergson que había insinuado que las matemáticas no podían aplicarse a la psicología.
Sin embargo, hoy se acepta la medición en psicología porque la estructura del
pensamiento del hombre y de la actividad psicológica en general posee propiedades que
desde el punto de vista lógico son suficientemente similares a la estructura de las
matemáticas. Es posible por lo tanto, establecer un isomorfismo. Por ejemplo Lord y
Novick (1968 p.17) definen la medición como “un procedimiento para la asignación de
números (puntajes o medidas) a propiedades especificadas de unidades experimentales
de tal modo que las caractericen y preserven las relaciones señaladas en el dominio
comportamental”. Las “reglas” en el sentido de Stevens(1951) y el “preservar las
relaciones” de Lord y Novick suponen que para representar la propiedad debe existir un
isomorfismo entre las características del sistema numérico y las relaciones entre las
diversas cantidades de la propiedad medida.
El problema de la construcción de escalas ha recibido una gran atención desde los

trabajos de Stevens siendo actualmente la Teoría Representacional de la medición la
posición más ortodoxa en cuanto a la conceptualización de la medida. Esta teoría es
axiomática y formalizada y trata el tema de la medición articulándolo en tres grandes
áreas: el problema de la representación, el de la unicidad y el de la significación. La
teoría tiene su origen en los trabajos de Hölder y Russell alrededor de 1900, pero
quienes han dado las formulaciones más completas son Luce, Krantz, Tversky y Suppes
(1979) y Mitchewll (1990). No podemos entrar en detalle en estas nuevas teoría.
Digamos sólo que desde el punto de vista de la representación la medición supone
encontrar un sistema relacional numérico con una estructura semejante al relacional
empírico que se pretende medir. Dada esta semejanza uno de los sistemas puede
utilizarse para representar al otro. El problema de la unicidad hace referencia a la
arbitrariedad de los números elegidos según la teoría representacional. Una vez
establecidas las relaciones numéricas es posible asignar distintos conjuntos de números
a los elementos del sistema manteniendo el homomorfismo es decir pueden obtenerse
distintas escalas de números para la misma variable o atributo. El problema de la
significación se refiere a la validez de una conclusión numérica. Esta validez siempre es
relativa al tipo de escala en que se basan las inferencias. Stevens plantea la solución en
términos de los estadísticos admisibles para cada tipo de escala.
2. MEDICION PSICOLOGICA
Proceso de asignar números u otros símbolos a los objetos de tal forma que las
propiedades de los números o símbolos reflejan propiedades del atributo medido Se
aplica a las propiedades de los objetos más que a los objetos mismos.
Es asignar un valor dentro a un continuo a las cualidades psicológicas, es usada esta

función pues es más fácil trabajar y comparar los atributos intra e interpersonales con
números y/o datos objetivos.
Así, se usa para medir diferentes aspectos psicológicos de una persona, tales como
conocimiento, habilidades, capacidades, o personalidad
La medición sirve para cuantificar y expresar en forma de números las características de

los estímulos y de las personas, de forma que podamos utilizarlos como si fuese lo
representado
La medición en psicología establece las condiciones de representación de constructos o

características latentes por indicadores empíricos y los indicadores empíricos por
números.
Los instrumentos que se utilizan para llevar a cabo tal medición se les denominan
Escalas de medición.
Según Cohen y Swerdilk (2000) citado en Delgado, Escurra y Torres (1996) la

medición, es la asignación de números, símbolos o características de los objetos
(personas, eventos, fenómenos, etc.) de acuerdo a reglas, como lineamientos para
representar las características (y/o atributos) del objeto que se está midiendo.
Según Stevens (1951, 1970b) citado en Alarcón (2008), considera a la medición como
la asignación de numerales a objetos o eventos de acuerdo a reglas.
La psicometría es el campo de la psicología cuyo objeto es aportar soluciones al

problema de la medición en cualquier proceso de la investigación psicológica (Aliaga,
2007).
La Psicometría es una disciplina científica encuadrada dentro del marco de la

Metodología de las Ciencias del Comportamiento y directamente relacionada con el
campo de la medición psicológica.
A un nivel práctico, la psicometría hace uso intensivo sobre todo de cálculos y análisis
estadísticos para extraer información útil a partir de la administración repetida de un
mismo test a un grupo amplio de personas.
La Psicometría es una rama de la psicología y es una ciencia cuyo objeto es medir los
aspectos psicológicos de una persona (conducta humana).
Se le considera además, un campo metodológico que hace uso del lenguaje formal de
la ciencias matemáticas, cuyos niveles de acción incluyen contribuciones teóricas y
aplicativas a la medición de los fenómenos psicológicos
3. MÉTODOS DE MEDICIÓN:
a.Método de prueba:
Analizar y controlar de forma estricta la situación; Hay estandarización y la tarea es
predeterminada. Ej. Prueba objetiva
b.Método observacional:
Trata de medir la conducta en situaciones naturales por lo que no hay
estandarización.
c.Método mixto:
Observación planificada: se estandariza la observación y el modo de medición pero
hay libertad en cuando a que se realiza en el medio natural. Permite cuantificar de
forma natural.
4. ESCALAS DE MEDICIÓN
Antes que una variable sea tratada estadísticamente debe ser observada / medida para
un conjunto de unidades observacionales, las unidades observacionales son aquellos
entidades que se observan, cuando las observaciones se cuantifican (es decir se
expresan numéricamente) se dice que los números son medibles, una medición es una
observación que se expresa físicamente ò en forma numérica, es decir cuando se le
otorga un valor determinado según su magnitud.
La medición de las variables puede realizarse por medio de cuatro escalas de medición.
Dos de las escalas miden variables categóricas y las otras dos miden variables
numéricas (Therese L. Baker, 1997). Los niveles de medición son las escalas nominal,
ordinal, de intervalo y de razón. Se utilizan para ayudar en la clasificación de las
variables, el diseño de las preguntas para medir variables, e incluso indican el tipo de
análisis estadístico apropiado para el tratamiento de los datos.
Una característica esencial de la medición es la dependencia que tiene de la posibilidad

de variación. La validez y la confiabilidad de la medición de una variable depende de las
decisiones que se tomen para operacionalizarla y lograr una adecuada comprensión del
concepto evitando imprecisiones y ambigüedad, por en caso contrario, la variable corre el
riesgo inherente de ser invalidada debido a que no produce información confiable.
A. Medición Nominal o Clasificatoria:
Son variables numéricas cuyos valores representan una categoría o identifican un

grupo de pertenencia. Este tipo de variables sólo nos permite establecer relaciones
de igualdad/desigualdad entre los elementos de la variable. La asignación de los
valores se realiza en forma aleatoria por lo que NO cuenta con un orden lógico. Un
ejemplo de este tipo de variables es el Género ya que nosotros podemos asignarle
un valor a los hombres y otro diferente a las mujeres y por más machistas o
feministas que seamos no podríamos establecer que uno es mayor que el otro.
Una variable está medida en escala nominal cuando se utilizan nombres para
establecer categorías. Para distinguir los agrupamientos se emplean símbolos,
letras e incluso números, aunque estos últimos solo cumplen una función de
carácter simbólico y no numérico. Los cálculos matemáticos con estos números no
tendrían sentido.
Constituye el nivel de medición más bajo de todos los mencionados. En este caso,
los objetos sólo pueden ser nombrados y contados. Consiste simplemente en
clasificar observaciones dentro de ciertas categorías, las cuales deben ser
mutuamente excluyentes y colectivamente exhaustivas. Por lo tanto, no puede haber
ninguna observación que no pueda ser asignada a una de las categorías; y, por otra
parte, una misma observación no puede ser clasificada en dos categorías diferentes,
a la vez.
Por ejemplo, sexo es una variable nominal; en consecuencia, podríamos clasificar a

todos los alumnos de una sección de clase en las siguientes categorías: masculino o
femenino. En tal sentido, algunos sujetos serán clasificados como masculino;
mientras que otros serán ubicados en la categoría femenino, pero ninguno de los
sujetos podrá ser clasificado, al mismo tiempo, en ambas categorías.
B. Medición ordinal o por Orden Jerárquico:
Son variables numéricas cuyos valores representan una categoría o identifican un

grupo de pertenencia contando con un orden lógico. Este tipo de variables nos
permite establecer relaciones de igualdad/desigualdad y a su vez, podemos
identificar si una categoría es mayor o menor que otra. Un ejemplo de variable
ordinal es el nivel de educación, ya que se puede establecer que una persona con
título de Postgrado tiene un nivel de educación superior al de una persona con título
de bachiller. En las variables ordinales no se puede determinar la distancia entre sus
categorías, ya que no es cuantificable o medible.
En este nivel también se definen varias categorías, pero además de mostrar un
ordenamiento existe una relación de “mayor o menor que” entre ellas. Las etiquetas,
símbolos o números asignados si indican jerarquía, aunque no es posible conocer la
magnitud de la diferencia entre cada una de las categorías.
Las observaciones, además de poder ser clasificadas en categorías, también pueden

ser ordenadas por rango, de manera creciente o decreciente. En tal sentido, una
primera observación puede ser mayor que una segunda, y ésta, a su vez ser, mayor
que una tercera, y así sucesivamente. Sin embargo, ello no implica una secuencia de
intervalos iguales. Así, por ejemplo, podemos ordenar a tres estudiantes de acuerdo
con su desempeño en una prueba de estadística; sus puntuaciones fueron 20, 18 y
10; aquí se cumple la condición de que 20 > 18 > 10, pero la distancia entre 20 y 18
no es la misma que la que existe entre 18 y 10.
C. Medición de intervalo o de distancias iguales:

Son variables numéricas cuyos valores representan magnitudes y la distancia entre
los números de su escala es igual. Con este tipo de variables podemos realizar
comparaciones de igualdad/desigualdad, establecer un orden dentro de sus valores
y medir la distancia existente entre cada valor de la escala. Las variables de intervalo
carecen de un cero absoluto, por lo que operaciones como la multiplicación y la
división no son realizables. Un ejemplo de este tipo de variables es la temperatura,
ya que podemos decir que la distancia entre 10 y 12 grados es la misma que la
existente entre 15 y 17 grados. Lo que no podemos establecer es que una
temperatura de 10 grados equivale a la mitad de una temperatura de 20 grados.
Esta escala mide las variables de manera numérica. Los números de esta escala
permiten establecer “distancias” entre dos individuos, y las operaciones aritméticas
de suma y resta son perfectamente realizables y significativas, no así la
multiplicación y división.
Posee las características de los dos niveles de medición ya mencionados (nominales

y ordinales), pero además contiene distancias equivalentes, que representan
distancias iguales en la propiedad objeto de medición. Por ejemplo, supongamos que
hemos medido cuatro objetos con una escala de intervalo y los resultados fueron 10,
8, 7 y 5. Entonces podemos decir legítimamente que la diferencia entre el primero y
el tercer objeto en la propiedad medida, 10 - 7 = 3, es equivalente a la diferencia
entre el segundo y el cuarto objeto, 8 - 5 = 3. Otra manera de expresar la idea de lo
que significan los intervalos iguales consiste en decir que los intervalos pueden ser
sumados y restados. Veamos el siguiente ejemplo de una escala de intervalo:
El intervalo incluido entre a y c es 3 - 1 = 2. El intervalo comprendido entre c y d es 4
- 3 = 1. Ahora observemos que el intervalo que va de a hasta d es 4 - 1 = 3.
Expresado en una ecuación: (d-a) = (c-a) + (d-c). Si estos intervalos fueran las
medidas de aprovechamiento de cinco estudiantes en una prueba de rendimiento, la
diferencia entre el estudiante a y c y entre b y d deberían ser iguales; sin embargo,
no podríamos decir que el rendimiento del estudiante d fue dos veces mayor que el
del estudiante b.
De la misma manera, sería incorrecto decir que una persona que tiene 40ºC de
temperatura tiene el doble que otra que sólo tiene 20ºC, o que una persona que tiene
cero (0) temperatura no tiene ninguna temperatura. En este último caso se trata de
que en este nivel de medición no existe un cero absoluto, sino relativo. Por lo tanto,
la medición cero no implica la ausencia de la característica.
D. Medición de razón:
Las variables de razón poseen las mismas características de las variables de

intervalo, con la diferencia que cuentan con un cero absoluto; es decir, el valor cero
(0) representa la ausencia total de medida, por lo que se puede realizar cualquier
operación Aritmética (Suma, Resta, Multiplicación y División) y Lógica (Comparación
y ordenamiento). Este tipo de variables permiten el nivel más alto de medición. Las
variables altura, peso, distancia o el salario, son algunos ejemplos de este tipo de
escala de medida.
Debido a la similitud existente entre las escalas de intervalo y de razón, SPSS las ha
reunido en un nuevo tipo de medida exclusivo del programa, al cual denomina Escala.
Las variables de escala son para SPSS todas aquellas variables cuyos valores
representan magnitudes, ya sea que cuenten con un cero (0) absoluto o no. Teniendo
esto en cuenta discutiremos a continuación los diferentes procedimientos estadísticos
que se pueden utilizar de acuerdo al tipo de medida de cada variable.
Es la escala más fuerte, dado que usa un sistema numérico en el que el cero es un
valor que indica ausencia de la característica que se está midiendo. Las
operaciones aritméticas de multiplicación y división adquieren significación. La
diferencia entre dos valores es importante y de magnitud definida. Así por ejemplo,
el valor de cero quetzales en ingresos de una tienda, puede interpretarse de manera
lógica que no se han producido ventas.
Constituye el nivel más alto de medición. Posee las características de los niveles de
medición señalados anteriormente, pero además tiene un cero absoluto que tiene un
significado empírico. Si una medición con una escala de razón es igual a cero, existe
razón para pensar que existen objetos que no poseen la propiedad que se pretende
medir. Ahora bien, puesto que existe la presencia de un cero natural o absoluto,
todas las operaciones aritméticas pueden ser ejecutadas (suma, resta, multiplicación
y división). Los números de escala indican el "quantun" de la propiedad que se
pretende medir. Si existiera una escala de razón para medir el rendimiento
académico, entonces sí se podría decir que un estudiante que obtuvo 20 puntos en
una prueba sabe el doble de otro que sólo obtuvo 10 puntos.
Cuadro 1: Pruebas estadísticas descriptivas más frecuentes de acuerdo a la escala de
medición de la variable en estudio.
Tipo de Escala de la variable o

Método o técnica estadística
descripción asociación
Variables  Frecuencias, Proporciones o porcentajes representados
Categóricas (nominal y ordinal)
individuales por gráficos de barras, pastel o pictogramas.
 Distribución de frecuencias en clases
 Frecuencias acumuladas
Variables
Numéricas (intervalo y razón)  Percentiles
individuales
 Medidas de tendencia centra, dispersión, curtosis y
oblicuidad
 Tablas de contigencias
Asociación entre
Categóricas con categóricas  Gráficos de barras
variables
 Pruebas de Kendall, de Kramer, de Spearman
Asociación entre  Tablas con clasificación categórica, con promedios y
Categórica con numérica desviaciones o error estándar en cada entrada
variables
 Gráfico de puntos
Asociación entre
Numérica con numérica  Coeficiente de correlación
variables
 Recta de regresión
Cuadro 2: Pruebas estadísticas inferenciales más frecuentes de acuerdo la escala de

medición de la variable en estudio.
Tipo de Escala de la variable o

Método o técnica estadística
descripción asociación
 Prueba de Z para una proporción poblacional
Variables
Nominales  Prueba de X2 para varias proporciones en un sola población
individuales
 Intervalos de confianza para proporciones
Variables  Prueba del signo o Binomial para la mediana poblacional
Ordinales
individuales  Intervalo de confianza para proporciones
Asociación entre Muestras grandes con  Prueba de “t” para un promedio poblacional
variables distribución normal  Intervalo de confianza para el promedio
Asociación entre Muestras pequeñas sin  Prueba del signo o Binomial para la mediana poblacional
variables distribución normal  Intervalo de confianza para el promedio
Cuadro 3: Pruebas estadísticas para estudios comparativos más frecuentes de acuerdo a

la escala de medición de la variable en estudio.
Escala de
la variable Método o técnica estadística
Tipo de descripción
o
asociación
 Prueba exacta de Fisher
Independientes (sin control de factores  Prueba de X2
Nominal
de confusión)  Cálculo de riesgo relativo
 Modelos logísticos y logarítmico-lineales
 Prueba U de Mann Whitney (dos poblaciones)
Independientes (sin control de factores
Ordinal  Prueba de Kruskall Wallis (dos o más poblaciones)
de confusión)
 Modelos logarítmicos-lineales
 Prueba de “t” (dos poblaciones)
 Análisis de varianza para la prueba de F (más de dos
poblaciones) seguida de prueba de medias de Tukey,
Independientes Razón
Duncan, SNK, etc.
 Prueba de Logrank para comparar sobreviva
 Regresión múltiple
 Prueba de McNemar
Dependientes con bloques o igualación  Método de Mantel Haenzel
de atributos (con control de factores de Nominal  Prueba Prueba de X2 para cada nivel de confusión
confusión)  Modelos logísticos Modelos logísticos y logarítmico-
lineales
Dependientes con bloques o igualación  Prueba de Friedman
de atributos (con control de factores de Ordinal  Prueba de Wilcoxon para rangos señalados
confusión)  Modelos logarítmico-lineales
 Prueba de “t” apareada
Dependientes con bloques
 Análisis de varianza para prueba de F con dos criterios
o igualación de atributos (con control de Razón
de clasificación con prueba de Tukey
factores de confusión)
 Regresión múltiple
5. NORMAS DE MEDIDA Y ESCALAS NORMATIVAS:
Son necesarias porque lo que medimos no es obvio, medimos de forma indirecta los
atributos a través de sus manifestaciones.
Las normas permiten saber como asignar los números a las características con el
propósito de que representen el grado en que se manifiesta el atributo en cada sujeto. La
medición concierne a un atributo particular. Debemos saber que lo que medimos son
manifestaciones de atributos y no personas.
Generalmente medimos para comparar y hay dos modos de comparar:

a. normas: para comparar grupos
b. criterios: para comparar individuos consigo mismos
Las normas deben estar especificadas de antemano y son de diferentes tipos

A través de las reglas hacemos medidas significativas.
Las reglas son convenios que pueden ser cambiados si son incorrectos. Las normas
básicas en psicología son:
a. Normas de edad: se extraen eligiendo una muestra normativa a partir de la que
extraemos el promedio de actuación típico en las diferentes edades.
b. Normas de grado: se extraen de un grupo normativo, y en base al grado o nivel
se extrae un promedio de actuación.
c. Normas de porcentaje: partimos de un grupo normativo en el que no se realizan
comparaciones externas sino solo internas, dentro del mismo grupo. Se extraen
los percentiles.
d. Normas estándar o tipificadas: siempre tienen el mismo significado. Permiten
comparar diferentes grupos y diferentes características.
Hay diferentes escalas normativas:

a. Coeficiente intelectual: pretenda dar idea de la inteligencia en función de la
comparación entre la edad mental y la edad cronológica.
b. Problemas: se extrae de un grupo normativo y si el sujeto no es del mismo grupo
no se hará una comparación adecuada.
Ventajas: se ha usado para seleccionar porque es fácil de calcular.

a. Centiles: son escalas ordinales. Se refiere al porcentaje de sujetos que queda
por debajo de una puntuación determinada.
Ventaja: fácil de calcular y de interpretar.

a. Típicas transformadas: transforman la puntuación bruta en indirectas.
b. Típicas normalizadas: puntuaciones típicas no lineales, no hay una
transformación lineal. Suponemos que se aproxima a la normal.
Típicas normalizadas y transformadas:

a. Eneatipos: van de 1 a 9. Se basan en la z normalizada. Se parte de una media
de 5 y una desviación típica de 2. Muy fácil de interpretar, no hay puntuaciones
negativas, son equivalentes permitiendo todo tipo de comparaciones.
b. Decatipo: de 1 a 10. Media 6 y desviación típica de 3.
c. Coeficientes intelectuales típicos: siempre se redondea. No hay limite superior.
Se puede aplicar a cualquier edad.
Tipos de comparaciones:
a. Intrasujeto: comparar a un sujeto consigo mismo en diferentes momentos.
b. Intersujeto: comparar a un sujeto con otro de su mismo grupo.
c. Intragrupo: comparar a un grupo consigo mismo en diferentes situaciones.
d. Intergrupo: comparar a un grupo con otro grupo; Diferencia de medias de dos
muestras.
6. FINALIDAD DE LA ESCALAS DE MEDICION

Ante la necesidad de medición de aspectos cada vez más complejos y de obtención de
medidas cada vez más precisas, nos lleva a la generación de instrumentos de medida o
escalas.
a. Funciones
• Medición de aspectos complejos
• Identificación de intensidad
• Identificación de dirección o sentido de respuesta
• Simplificación de las preguntas para medir aspecto muy complejo
b. Aspectos principales
• Condicionante del tipo de información a obtener y de su posterior tratamiento
• Simplicidad aparente de formulación
• Necesidad de adecuación entre escala y objetivo
• Necesidad de comprobación de validez y fiabilidad
7. EL PROBLEMA DE LA MEDICION EN PSICOLOGÍA:
Definir claramente la característica a medir. Esto es un problema ya que en psicología no

encontramos una única definición de un atributo.
Saber cual es la definición mas útil y cuales son los atributos que representan mejor as la
persona evaluada. Los datos obtenidos son relativos y son solo una parte de la persona
evaluada.
Las medidas pretenden llegar a atributos muy complejos e intangibles, por lo que hay una
gran diversidad de manifestaciones. Es necesario que los ítems estén basados en
muestras muy amplias para que los datos sean significativos.
8. CRÍTICAS A LA MEDICIÓN EN PSICOLOGÍA Y A SUS INSTRUMENTOS
a. VENTAJAS:
• Ahorro
• Objetividad
• Ayuda a pronosticar aunque con una posibilidad de error
• Ayuda a la comunicación entre profesionales de forma más precisa y más
significativa.
b. INCONVENIENTES:
• No hay consenso, cada uno mide una cosa diferente dependiendo de su modelo de
partida.
• El problema de sí los ítems son representativos o no
• Critica social
• Muchos test tienen una gran carga cultural y verbal
• Hay que tener en cuenta las condiciones de los sujetos de la muestra para saber la
representatividad de los porcentajes
• Critica ética: hasta que punto se entromete en la vida privada
• Los test favorecen clasificar y etiquetar y esto en psicología es un error.
LECCION 3
TEST PSICOMETRICOS
1. INTRODUCCION
Probablemente, la evaluación es tan antigua como la humanidad. Desde tiempos antiguos

padres y maestros han contrastado el comportamiento de los niños para establecer juicios
de valor sobre la base de sus acciones. Estas comparaciones basadas generalmente en
impresiones subjetivas y en observaciones incidentales podían ser acertadas en casos
extremos de las diferencias individuales. Ejemplo: un profesor puede saber cuál es el niño
más estudioso de su clase; el más indisciplinado; el más ordenado; el más tímido, etc.
Sin embargo, cuando las diferencias son menos evidentes, entonces se producen muchos
errores si la evaluación no cuenta con algún instrumento de medición objetiva. En tal
sentido, los errores en la evaluación probablemente han sido fuente de muchas
frustraciones en la historia del ser humano ya que, además de los de evaluación en los
grados de una variable, también se producen errores de juicio al interpretar que se está
evaluando una determinada variable cuando en realidad la que esta operando es otra.
En los tiempos actuales, la evaluación supone casi siempre la aplicación de pruebas que
nos llevan a resultados numéricos, pero también se complementa con la observación
sistemática de la conducta de los sujetos, con las técnicas de entrevista individual o grupal,
con información oral o escrita propia de los sujetos que rodean el entorno del examinado:
padres, hermanos, maestros, jefes, etc., es decir, con infinidad de procedimientos que
expresan resultados verbales de tipo cualitativo.
No todas las medidas que se utilizan en psicología son pruebas o tests. En el caso de la
psicología por ejemplo: las medidas de los niveles de la audición humana. Por otra parte,
no todas las pruebas o tests son, o arrojan medidas. Ejemplo en psicología son las
llamadas técnicas proyectivas como el Psicodiagnóstico de Rorschach; el Test de la Figura
Humana de Machover; El Test de la Familia de Corman; etc., los cuales no arrojan medida
alguna.
A las pruebas o tests que emplean medidas se les denomina tests psicométricos; algunos
especialistas los denominan tests objetivos.
Los tests psicométricos tienen diversos usos y se clasifican de diversos modos. Una
clasificación bastante utilizada es la de Crombach (1972), el cual divide a los tests en dos
grandes tipos: tests de respuesta máxima y tests de conducta típica.
En los tests de respuesta máxima, quien se somete a ellos trata de obtener la máxima
calificación posible, de tal modo que la meta es medir los límites de sus capacidades. En
este tipo se encuentran las pruebas de rendimiento, aptitudes y habilidades.
Los tests de conducta típica, intentan evaluar las reacciones y conductas habituales o
usuales de una persona, es decir, lo que el sujeto acostumbra hacer en una amplia gama
de circunstancias. En este caso, interesa conocer su comportamiento o reacción habitual y
no lo que puede hacer o sabe. En este tipo se encuentran los cuestionarios de
personalidad, las escalas de actitudes, etc.
Los usos a los cuales están destinados los tests psicológicos influyen en su proceso de
construcción, pues delimitan sus características técnicas deseables.
2. CLASIFICACIÓN DE LOS INSTRUMENTOS DE MEDICIÓN

Los instrumentos de medición pueden ser agrupados atendiendo a diferentes criterios, así
tenemos:
a. De acuerdo con el proceso de elaboración, pueden ser formales e informales.
Los instrumentos formales son aquellos que requieren de un alto refinamiento
técnico, especialmente en lo que respecta al establecimiento de normas, validez,
confiabilidad y objetividad de la medida; por ejemplo, las pruebas o test, las escalas,
los inventarios y los cuestionarios. Los instrumentos informales, por su parte, son
aquellos cuya elaboración no requiere de tanta meticulosidad como los instrumentos
formales; por ejemplo, listas de cotejo, guías de observación, guiones de entrevista,
diarios de campo, entre otros.
b. De acuerdo con su propósito

Los instrumentos de medición comprenden las pruebas o test, escalas, cuestionarios,
listas de cotejos o guías de observación, guiones de entrevista y diario de campo.
Las pruebas tienen por objeto hacer una estimación cuantitativa del comportamiento
de una persona con respecto a un rasgo, atributo o característica, para lo cual los
sujetos son expuestos a determinadas tareas con el propósito de provocar en ellos
ciertas reacciones registrables; reacciones de toda naturaleza en cuanto a su
complejidad, duración, forma, expresión y significado.
b.1 Las escalas

Permiten ubicar al sujeto en el valor escalar que mejor representa el "quantun"
del constructo objeto de medición; por lo tanto, las respuestas en este tipo de
instrumento no son correctas ni incorrectas, sino que representan un valor en la
escala de medición.
b.2 Los cuestionarios

Por su parte, son instrumentos conformados por un conjunto de preguntas de
naturaleza variada y expresadas en diferentes formatos a los fines de sus
respuestas.
b.3 Las listas de cotejo

Son instrumentos que constituyen una enumeración de conductas o eventos a
ser observados en una situación determinada que nos interesa investigar.
b.4 Los guiones de entrevista

Están conformados por un conjunto de preguntas sobre diferentes aspectos en
relación con un problema que nos interesa estudiar.
b.3 el diario de campo son los registros completos

Es preciso y detallado que hacen los investigadores, producto de sus
observaciones participantes, en el estudio de un problema, hecho o fenómeno.
c. De acuerdo con su campo de aplicación

Los instrumentos pueden ser clasificados, a su vez, atendiendo a diferentes criterios;
por ejemplo, tomando en cuenta su campo de aplicación, pueden ser psicométricos
(pruebas de: inteligencia, personalidad, aptitudes), edumétricos (pruebas para la
evaluación diagnóstica, formativa y sumativa) y sociométricos (pruebas de
interacción social, liderazgo y cohesión del grupo).
d. Los instrumentos también pueden ser agrupadas de acuerdo con:

(a) La forma de proceder: de lápiz y papel, de manipulación, de tipo oral; (b) el grado
de objetividad en la respuesta: objetivo, subjetivo; (c) los criterios utilizados para la
interpretación de sus resultados: estandarizados, no-estandarizados; (d) la forma de
aplicación: individual, colectivo; (e) el tiempo disponible para responder: test de
tiempo, test de poder.
3. TEST PSICOMETRICOS
La palabra test tiene una raíz latina y proviene de testa, testis que en latín medieval
significaba la vasija de barro con la que los alquimistas probaban o examinaban la
autenticidad del oro. Fue usada por primera vez por el psicólogo norteamericano James
McKeen Cattell en un artículo publicado en 1890. Cattell, se había formado en el
Laboratorio de Psicología Experimental de Wundt en Leipzig en donde el interés se
centraba en el estudio de las percepciones visuales y auditivas. El caso es que Cattell
comprendió que en los experimentos sobre sensaciones y percepciones como la medición
del tiempo de reacción, resultaba indispensable un control riguroso de las observaciones y
precisar que las condiciones que rodeaban a los sujetos con los que se experimentaba
debían ser exactamente iguales, es decir, sistemáticamente tipificadas o estandarizadas,
tal como se exige en los tests psicológicos.
La influencia principal de Cattell en relación a los tests fue Sir. Francis Galton, científico
inglés que a fines del siglo XIX había introducido las estadísticas y las matemáticas al
campo de la psicología generando por primera vez la posibilidad de medición cuantitativa
en las diferencias individuales. Cattell viajó a Cambridge en 1898 y su trabajo con Galton
reforzó su interés por la temática anteriormente mencionada. Los tests elegidos por Cattell
fueron: velocidad de movimiento, esfuerzo visual y auditivo, discriminación de pesos,
tiempos de reacción e ingenuamente, de acuerdo con los planteamientos de Galton,
pensaba que con dichos tests se podía obtener una medición de las funciones mentales
más elevadas.
H. Pieron (1952), define los tests de la siguiente manera: “test es una prueba definida, que
fija una terea a realizar, idéntica para todos los sujetos examinados” Según esta definición,
debe disponer de una técnica precisa que permita discriminar entre soluciones acertadas y
erróneas o bien de un sistema numérico que permita puntuar el resultado. La tarea puede
consistir en poner de manifiesto conocimientos adquiridos (tests pedagógico) o bien
funciones sensorio-motoras o mentales (test psicológico).
Esta definición fue adoptada por la antigua Asociación Internacional de Psicotecnia , hoy
Asociación Internacional de Psicología Aplicada que la formalizó de la siguiente manera:
test “es una prueba definida, que implica una tarea que se ha de cumplir, idéntica para
todos los sujetos examinados, con técnica precisa para la apreciación del éxito o del
fracaso, o para la valoración numérica del resultado logrado”.
La definición de Pieron adoptada por la Asociación Internacional de Psicotecnia presentaba

la limitación de que puede aplicarse solamente a los tests de inteligencia, aptitudes o
conocimientos.
Pichot (1954), propone una definición más amplia y general que sostiene que: “test es una
situación experimental estandarizada que sirve de estímulo a un comportamiento”;
posteriormente Anastasi (1968), sostiene que “un test es una medida objetiva y
estandarizada de una muestra de conducta”. Cronbach (1973), dice que “un test es una
técnica sistemática para comparar la conducta de dos o más personas”. Anstey (1976),
indica que “un test es un instrumento de evaluación cuantitativa de los atributos
psicológicos de un sujeto”. Según Graham. y Lilly (1984), “un test es una muestra
estandarizada de conductas de las que pueden inferirse o predecirse otras conductas
importantes”. El psicometrista español Mariano Yela (1980), sostiene que “un test es una
situación problemática previamente dispuesta y estudiada a la que el sujeto debe
responder siguiendo ciertas instrucciones y de cuyas respuestas se estima, por
comparación con las de un grupo normativo (o un criterio u objetivo), la calidad, índole o
grado de algún aspecto de la personalidad.
Anastasi y Urbina (1998), un test es un instrumento de evaluación cuantitativa de los

atributos psicológicos de un individuo”. Cortada de Kohan (1999), afirma que “los tests son
en última instancia un conjunto de tareas, preguntas, problemas, estímulos, situaciones,
etc., que intentan poner de relieve una muestra de los comportamientos del sujeto
representativa del atributo que se quiere evaluar.
La APA (1999), define tests como: “un procedimiento evaluativo por medio del cual una
muestra de comportamiento de un dominio especificado es obtenida y posteriormente
evaluada y puntuada empleando un proceso estandarizado”. Esta definición abarca no
sólo los tests de respuesta máxima sino las pruebas de conducta típica.
Kline (2000), afirma que “los tests psicológicos son procedimientos valiosos por sus
contribuciones a la psicología aplicada pero carecen de la exactitud de las verdaderas
medidas científicas y es una tarea futura de la psicometría desarrollar genuinas medidas
científicas, vale decir, con unidades de medición significativas, cero absoluto e iguales
intervalos (características de una escala de razón, proporción o cociente).
Finalmente, podemos indicar que una prueba o test psicológico es “un patrón de estímulos,
elementos, ítemes, reactivos, preguntas; seleccionados y organizados de tal manera que
permiten provocar respuestas (conductas), las cuales pueden revelar ciertas características
(rangos), de las personas que se someten a ellos.
En esta última definición quedan comprendidas tanto las pruebas de respuesta máxima
como las de conducta típica, a las cuales se agregan las llamadas técnicas proyectivas.
4. OBJETIVOS DE LOS TEST PSICOMETRICOS
Las pruebas objetivas se caracterizan por contener un número elevado de preguntas,

involucrar áreas más amplias de conocimientos, exigir respuestas cortas, bien definidas en
su forma y contenido.
5. CARACTERÍSTICAS DE LAS PRUEBAS O TESTS PSICOMÉTRICOS
Una prueba psicométrica es un “procedimiento sistemático destinado a medir una muestra

de conducta”. Esta definición presenta las siguientes características:
a. En primer lugar, la frase: “procedimiento sistemático”, indica que una prueba se

construye, se administra y se califica según reglas preestablecidas de antemano que
tienen como objetivo final establecer las comparaciones directas entre los sujetos.
b. El segundo término fundamental es el de “conducta”. En el sentido más estricto, una

prueba mide sólo la conducta registrada por la prueba, es decir, las respuestas dadas por
una persona a los ítemes de la prueba.
En buena cuenta, no medimos directamente a la persona sino que inferimos sus

características (rasgos), a partir de sus respuestas a los ítemes de la prueba. Si las
conductas que muestran los sujetos reflejan de modo adecuado el constructo que se
mide, por ejemplo: “inteligencia”, “motivación”, “hábitos”, etc., la prueba proporcionará
información útil. Caso contrario, si los comportamientos no reflejan adecuadamente la
característica subyacente, entonces las inferencias que se hagan resultarán erróneas.
c. En tercer lugar, una prueba contiene solamente una muestra de todos los ítemes
posibles. Ninguna prueba es tan completa como para incluir todos las preguntas posibles
que se pueden desarrollar con la finalidad de medir el dominio conductual.
Un dominio o campo conductual es la agrupación hipotética de todos los ítemes o

preguntas posibles que pueden cubrir un área particular. Al hablar de este conjunto de
elementos o reactivos posibles, se emplean los términos de: dominio, universo o
población como sinónimos. Ejemplo: un test de vocabulario debe ser una muestra
representativa del dominio o universo de ítemes posibles.
En la medida que una prueba contiene sólo una muestra de todos los reactivos posibles,
se plantean dos problemas: 1) Asegurarnos de que los ítemes incluidos en el test sean
una muestra representativa de todos los posibles existentes; y 2) Debemos determinar,
si una persona obtendría la misma calificación al responder a una muestra diferente de
ítemes extraída del mismo dominio o población. Sobre el punto surge una pregunta
básica: ¿obtendría un sujeto la misma calificación en una forma equivalente o paralela
del test?
El caso es que, el primer punto es un problema de validez y el segundo constituye un
problema de confiabilidad.
6. REQUISITOS DE UN TEST PSICOLÓGICO PARA SER CONSIDERADO

PSICOMÉTRICO
a. El contenido y la dificultad de los ítems están sistemáticamente controlados

(construcción del test).
b. La situación experimental debe estar perfectamente definida y debe ser reproducida
idénticamente para todos los sujetos. Este punto se refiere al ambiente en el cual se
aplica la prueba, el material del test, la administración, etc.
c. El registro del comportamiento, provocado en el examinado debe ser tan preciso y
objetivo como resulte posible, por lo tanto, las condiciones del registro deben definirse
y observarse rigurosamente.
d. El comportamiento registrado, debe ser evaluado estadísticamente con respecto al de
un grupo de individuos llamado grupo de referencia o grupo normativo. (Pichot, 1963).
e. Las personas examinados son clasificadas en función de normas resultantes del
examen previo del grupo de referencia o normativo (baremo), lo que permite situar
cada una de las respuestas, totales o parciales, en una distribución estadística
(contraste).
f. Las respuestas a las cuestiones planteadas dan una medida correcta del
comportamiento al que el test apunta (validez).
g. Si las condiciones no cambian, la repetición del examen debe conducir siempre al
mismo resultado, o a otro muy próximo (fiabilidad)
7. LIMITACIONES EN EL USO DE UN TEST PSICOMÉTRICO
a. Una prueba o test debe emplearse solamente para apreciar los aspectos para las
cuales se ha elaborado.
b. Las normas (baremo) de una prueba no tienen validez universal. Sólo son válidas si las
personas que toman el test poseen características similares a las de los sujetos que
formaron la muestra que sirvió para obtener dichas normas
c. Si esos grupos difieren de aquellos en los cuales se hicieron los baremos que aparecen
en el manual de la prueba.
d. Si las condiciones que influyen sobre el individuo se modifican, existe la posibilidad de
que tales cambios influyan en los puntajes resultantes del test.
e. Los resultados de un test no deben emplearse para diagnosticar por ser estados
patológicos. Deben considerarse como elementos de información que juiciosamente
analizados e integrados con otros elementos de información ayudarán al diagnóstico.
f. Sólo deben utilizarse para los test cuyos puntajes le dieron origen. Por ejemplo, la tabla
de categorías del WAIS sólo debe ser utilizada con este test y no con otro.
8. USOS DE LAS PRUEBAS PSICOLÓGICAS
En su sentido más amplio, las pruebas psicológicas miden la naturaleza y amplitud de las
diferencias individuales, de tal manera que podrían darse varias situaciones: si se aplica
una prueba que mide un rasgo determinado a un grupo de sujetos, se puede inferir: ¿cómo
se clasifica cada persona en esa característica? De otro lado, si un sujeto se somete a
varias pruebas, entonces podemos describir su desempeño relativo en varias dimensiones.
Asimismo, al aplicar cierto número de pruebas (en una gran variedad de condiciones), a
muestras grandes de personas, tendremos los medios para estudiar la naturaleza y rango
de las habilidades humanas y también las características de la personalidad.
Se distinguen dos grandes grupos de usos de las pruebas:

a. Usos teóricos vs. usos aplicados
b. Usos predictivos vs. usos descriptivos
En lo que se refiere a usos teóricos vs. usos aplicados, debemos tener presente que las
pruebas se utilizan para proporcionar datos que ayuden a tomar decisiones prácticas. Por
ejemplo: selección, diagnóstico, etc.
No obstante, es importante señalar que la información que proporciona una prueba es una
condición necesaria, pero no suficiente para tomar buenas decisiones. Asimismo, las
pruebas pueden ayudar también a desarrollar teorías psicológicas.
En lo que respecta a usos predictivos vs. usos descriptivos, en la mayoría de situaciones

en la que utilizamos pruebas deseamos saber ¿qué resultados se pueden predecir a partir
de las calificaciones obtenidas en las pruebas? En otras situaciones, se utilizan las
pruebas para proporcionar descripciones de un individuo, por ejemplo, durante un
asesoramiento psicológico en donde proporcionamos al examinado una descripción
objetiva de sus capacidades intelectuales, de los factores de su personalidad, de sus
hábitos de estudio, etc.
9. Los test como pruebas auxiliares
Existen varias clases de situaciones en las que se utilizan las pruebas como ayuda para la
toma de decisiones. Estas situaciones son las siguientes: selección, clasificación,
diagnóstico, investigación (comprobación y construcción de hipótesis), y evaluación.
Todas estas situaciones se relacionan con tomar alguna decisión: En la selección, la

decisión consiste en aceptar o rechazar a un solicitante; en la clasificación, la decisión
implica el curso alternativo de acción que se debe instigar; en el diagnóstico, la decisión se
relaciona con el tratamiento de corrección; en la investigación, la decisión guarda relación
con dos aspectos: en la comprobación de hipótesis, la exactitud de la formulación teórica y
en la construcción de hipótesis, las pruebas o las informaciones adicionales que se
requieran. Finalmente, en la evaluación, la decisión se refiere a la calificación que se le
dará al examinado o el punto hasta donde el procedimiento será o no eficiente.
En todo caso, la pregunta más importante en esta temática no es analizar si las pruebas
son precisas o no, sino de que manera nos ayudan a tomar mejores decisiones sobre los
examinados. Al respecto, debemos tener en cuenta que las pruebas no son de ninguna
manera perfectas y ningún psicólogo que se respete pretenderá que lo sean, sin embargo,
en la práctica existen múltiples evidencias de los excelentes resultados obtenidos con las
pruebas frente a otros métodos disponibles de evaluación.
10. CLASIFICACIÓN DE LOS TEST
A. PRUEBAS DE RESPUESTA MÁXIMA

Las pruebas de respuesta máxima se clasifican en tres grandes tipos: rendimiento,
aptitudes y habilidades. Aunque estas tres categorías no se excluyen mutuamente y
aunque una prueba dada puede servir para medir más de una de estas funciones,
existen suficientes diferencias para analizar por separado estas tres modalidades de
pruebas.
a. PRUEBAS DE RENDIMIENTO.
Se clasifica una prueba como de rendimiento, si mide el aprendizaje que se ha
producido: (a) como resultado de las experiencias en una situación de aprendizaje
relativamente circunscrita como la que se produce en un programa de estudios o de
entrenamiento.
Ejemplo: curso de física, curso de construcción de pruebas, entrenamiento en
mecánica, etc.; y (b) cuando el marco de referencia está en el presente o en el
pasado, o sea, en lo que se ha aprendido.
Un ejemplo de prueba de rendimiento, son los exámenes que construyen los
profesores universitarios para evaluar el grado de aprendizaje en las asignaturas que
dictan; otro ejemplo podría ser los tests estandarizados de rendimiento, etc.
b. PRUEBAS DE APTITUDES.
Se considera una prueba como de aptitud, si: (a) mide los resultados de experiencias
de aprendizaje generales e incidentales; y (b) si su marco de referencia se enfoca en
el aprendizaje futuro. También se puede decir que las pruebas de aptitudes abordan
los aprendizajes de toda la vida del individuo y que la finalidad de la prueba es predecir
lo que puede aprender en el futuro. La definición de aptitudes comprende la capacidad
de aprender cierta variedad de conductas, de tal manera que el factor común es la
capacidad para aprender y no el tipo de conductas aprendidas. Ejemplo: Los tests de
C.I.
c. PRUEBAS DE HABILIDADES.
La habilidad indica el poder para realizar una tarea. Situación que implica un contraste
con las aptitudes que se refieren al poder para aprender a realizar una tarea. En otras
palabras, la habilidad se refiere a un estado actual y la aptitud a un estado futuro.
Desde esta perspectiva, la habilidad es similar al rendimiento; sin embargo, las
habilidades y el rendimiento difieren en el sentido que el segundo miden habitualmente
las consecuencias de experiencias específicas de aprendizaje en tanto que las
habilidades miden los resultados de experiencias de aprendizaje más amplias y
generales.
B. PRUEBAS DE RESPUESTA TÍPICAS

Características
a. Evalúan reacciones y conductas habituales de la persona, lo que la persona hace en
amplia gama de situaciones.
b. Interesa su reacción habitual y no lo que puede hacer o sabe.
c. Pueden ser cuestionarios, inventarios de personalidad, escalas de actitud.
a. CUESTIONARIOS DE PERSONALIDAD
Características
a.Son test colectivos que suelen aplicarse a la vez a un número de variable de
personas.
b.Están compuesto por un número de enunciados que tratan sobre nuestras
opiniones, actitudes sentimientos, etc.
c. La forma de respuesta es dicotómica: si – no; verdadero – falso.
d.Se clasifican en unidimensional o unifásicos que miden un solo rasgo de la
personalidad multidimensional o multifásicos que miden simultáneamente varios
rasgos de personalidad.
e.Los reactivos no deben estar redactados en forma general, por ello deberán ser
precisas y claras.
f. Disponen de un sistema para detectar mentiras, reactivos que no se pueden
falsear las respuestas.
b. INVENTARIO DE PERSONALIDAD
Características
a. Es una prueba que permite la evaluación de la personalidad desde diferentes
ángulos, multidimensional o Multifásicos.
b. Evalúa características normales y anormales de la personalidad-
c. Consiste en una lista considerable de preguntas, proposiciones o afirmaciones
pertenecientes a distintos constructos (personalidad, intereses, valores) dentro de
la psicología que se consideran importantes para motivar y dirigir la conducta de
los individuos. Puede ser respondido de forma afirmativa o negativa, algunos
utilizan el formato de selección o el formato de respuesta escalonada.
c. ESCALAS DE ACTITUD
Características
a. Son instrumentos de medición que nos permite acercarnos a la variabilidad
afectiva de las personas.
b. Una actitud constituye una predisposición organizada para responder de una
manera favorable o desfavorable ante un objeto.
11. MODELO PSICOMÉTRICO

Las pruebas psicológicas psicométricas se sustentan en el siguiente modelo teórico
propuesto por Magnusson (1969):
a. Todos los ítemes del test miden exactamente el mismo “rasgo” y los ítemes a su vez
pueden tener diferentes grados de dificultad.
b. La medida de la capacidad que tiene cada individuo puede hacerse sin ningún error, es
decir, cada item puede diferenciar sin error en el continuo de dificultad del “rasgo”.
La suposición (A), del modelo se refiere a la dimensionalidad del test. Es una cuestión de
suma importancia saber si los datos que obtenemos cuando aplicamos un test expresan las
posiciones de los individuos en uno o varios continuos o “rasgos”. En la fase de la
construcción de un test, es necesario establecer rápidamente la unidimensionalidad.
Resulta importante indicar que nunca podemos satisfacer exactamente esta suposición.
La suposición (B), se refiere a que las medidas psicológicas siempre tienen errores y en la
mayoría de los casos es de importancia decisiva para el empleo de los datos, precisar el
tamaño del error, cálculo que se efectúa a través del estudio de la confiabilidad del test
con sus diversos procedimientos.
La variable que indica la medida en que son satisfechas las condiciones de

unidimensionalidad y la independencia de error de medida se denomina homogeneidad.
La completa homogeneidad es algo puramente teórico. Según Magnusson (1969), en
situaciones prácticas tenemos varios grados de homogeneidad en las pruebas que
construimos y utilizamos.
Otros autores como Brown (1982), caracterizan la homogeneidad como la consistencia de

todos los reactivos de una prueba psicológica (en una prueba homogénea, el saber como
se desempeña una persona en un ítem nos permite predecir ¿cómo lo hará en otros?. A
pesar de que la homogeneidad no está claramente definida en la teoría psicométrica, sin
embargo, las pruebas homogéneas son necesarias para poder desarrollar una teoría
psicológica adecuada. La homogeneidad es un aspecto crucial de la validez,
especialmente de la validez de constructo.
El modelo que hemos detallado se ha mostrado esencialmente correcto en psicometría,

aunque no sirve para la construcción de todos los tipos de tests psicométricos y esto se
pone de manifiesto cuando la solución de un ítem queda determinada por la relación entre
la posición del individuo y la del ítem sobre el continuo (“rasgo”).
Este modelo se complementa con otro: el modelo lineal. Si un test es dimensional y

homogéneo, puede decirse que existe una relación monotónica entre los puntajes de una
prueba que obtiene un individuo y su posición en el continuo (“rasgo”) medido; es decir, a
más puntaje, mayor “cantidad” del rasgo medido y viceversa. Luego, puede emplearse un
modelo lineal para obtener la puntuación total del sujeto en el test.
El resultado final es el producto de la suma de los valores de los ítemes acertados o

correctamente contestados. En este punto cabe mencionar que los ítemes del test pueden
ser ponderados o no ponderados, por lo que pueden tener todos ellos signos positivo en la
combinación o tener algunos de ellos signo negativo. Todas estas posibilidades están
incluídas en el concepto de una combinación lineal de ítemes del test. Aunque hay
modelos rivales para problemas especiales de medición, hasta la actualidad se usa con
éxito el modelo lineal (Nunally, 1968).
LECCION 4
PROCEDIMIENTOS PARA LA MEDICION PSICOLOGICA

1. INTRODUCCION
La construcción de pruebas psicológicas es un proceso que tiene sus orígenes en la

concepción de la teoría de la medición psicológica (Nunally, 1987).
En términos generales, la medición psicológica implica el uso de procedimientos u

operaciones, sujetas a determinadas reglas y que tienen como objetivo lograr un resultado
en el que se han asignado valores a una cualidad, rendimiento o característica psicológica
de un individuo.
Existen tres enfoques metodológicos para la construcción de pruebas psicológicas: el

enfoque centrado en el sujeto; el enfoque centrado en el estímulo o enfoque del juicio y el
enfoque centrado en la respuesta. En el campo de la psicometría, la mayor parte de la
medición está basada en el enfoque centrado en el sujeto.
Si bien el proceso de construcción varía en razón del tipo de prueba psicológica a

elaborarse, podemos establecer un esquema general con los pasos más relevantes para
orientar y conducir el proceso de construcción. Este esquema presenta un conjunto de
pasos que pueden ser variados en cuanto al orden de presentación e incluso algunos de
ellos se pueden llevar a cabo simultáneamente. Asimismo, debe quedar claro que en este
esquema no se agotan todos los puntos a tomarse en cuenta en la elaboración de pruebas.
El diseño y la construcción de un test psicométrico es una tarea cualificada que requiere de

una notable fecundidad, creatividad, originalidad e imaginación así como de ensayos
experimentales elaborados por el constructor o constructores.
Un test psicométrico bien construído y adecuadamente utilizado constituye un valioso

instrumento auxiliar o de ayuda para el trabajo profesional del psicólogo, que hace bien en
rechazar o dejar de lado pruebas que no han sido cuidadosamente elaboradas en base a
las normas o reglas pre-establecidas por la Psicometría.
En esta publicación, nos ocuparemos de los criterios de construcción de los tests de

respuesta máxima: rendimiento, aptitudes y habilidades. El proceso de elaboración de
estos tipos de pruebas si bien tiene mucho en común, también tiene algunas variaciones o
diferencias que están relacionadas con el uso principal del test. Ejemplo: si la meta es
construir una prueba de rendimiento en matemáticas, el muestreo de los ítemes se
efectuará en el dominio o universo conductual de los problemas de matemáticas, siendo
este muestreo la condición principal para la selección de los ítemes. En otras palabras,
esta operación hace alusión a la validez de contenido o validez curricular del test.
En otro ejemplo, si la meta es hacer un test que permita predecir algún criterio, entonces la
representatividad del muestreo de los ítemes se va a subordinar al poder predictivo de tales
ítemes como base para su selección. Esta operación se refiere a la validez predictiva o
validez relacionada con el criterio, diferente a la del ejemplo anterior.
2. CARACTERIZACIÓN DEL PROCESO DE CONSTRUCCIÓN DE UNA PRUEBA

PSICOLÓGICA
El proceso de construcción de una prueba psicológica es una ciencia y un arte. Utiliza

tanto el razonamiento estadístico como el razonamiento lógico y equilibra las
consideraciones prácticas con las teóricas. Su meta es la de construir un instrumento
técnicamente apropiado, dentro de las limitaciones prácticas (Brown, 1982).
3. CONSIDERACIONES PREVIAS AL PROCESO DE CONSTRUCCIÓN DE UNA PRUEBA
El psicólogo antes de iniciar el proceso de construcción de una prueba psicológica debe

tener en cuenta dos puntos que se pasan por alto con demasiada frecuencia:
a. Debe considerar que, en muchas situaciones una prueba psicológica es sólo una de
entre varias técnicas posibles de obtención de la información que se desea. Ejemplo:
si deseamos medir los conocimientos en matemáticas de un estudiante secundario: le
podemos tomar un examen; asimismo, podríamos utilizar como referencia sus
calificaciones en los cursos de matemáticas; del mismo modo, podemos solicitarle a los
maestros que califiquen sus conocimientos, es decir, si hay algún otro método más
preciso o práctico para obtener la información deseada se deberá de utilizar de
preferencia a un test. En el caso de que lo mencionado anteriormente no exista,
recién se deberá optar por construir una prueba.
b. Estimar que existen publicaciones disponibles e incluso pruebas listas para ser
utilizadas en la mayoría de los campos de la actividad psicológica. En tales casos, el
psicólogo puede utilizar una prueba existente en lugar de construir otra nueva; puede
también adaptar una prueba de acuerdo a sus necesidades. En ambos casos, ahorro
en tiempo, dinero, etc., es significativo. El mayor inconveniente que podría surgir es
que, no haya pruebas publicadas que sean óptimas para una determinada tarea -que
es la que le interesa a determinado psicólogo-, y que por lo tanto se vea en la
necesidad de elaborar una prueba. Frente a esta situación, se infiere que el psicólogo
debe estar muy bien informado acerca de la bibliografía respectiva, sugiriéndose para
ello la lectura de los BUROS y de los catálogos y manuales de tests provenientes de
las diversas editoras tales como: TEA Ediciones S.A.; Paidós; Manual Moderno; Distap,
etc.(español), así como de la: Psychological Corporation; California Test Boreu;
American Psychological Association, etc. (inglés).
4. ENFOQUES METODOLÓGICOS PARA LA CONSTRUCCIÓN DE TESTS
Un test pesenta al sujeto estímulos destinados a provocar respuestas en él. El caso es

que, los sujetos varían sus respuestas a un mismo estímulo, es decir, todos no responden
de la misma manera.
Precisamente, los enfoques metodológicos principales para la construcción de tests se

deben fundamentalmente a las diferencias acerca de la atribución de la variabilidad de las
respuestas de los sujetos a los estímulos.
Los datos primarios siempre consisten en una cantidad de respuestas a una serie de
estímulos o combinaciones de estímulos. Esto puede tomar la forma de: muchos sujetos
donde cada uno responde una vez; un sujeto que responde muchas veces y varios sujetos
que responde varias veces a cada uno de una serie de estímulos. Como consecuencia de
ello, tenemos:
a. El enfoque centrado en el sujeto. Aquí la variación sistemática en las reacciones

de los sujetos frente a los estímulos se atribuye a las diferencias individuales de los
sujetos. El propósito es escalonar a los sujetos, que son los únicos a los que se
asignan valores. Agregar o quitar al azar estímulos de la misma población o dominio
conductual de preguntas, no afectaría más que en fluctuaciones muestrales. La
mayor parte del campo de la psicometría está basado en mediciones de este tipo. La
mayoría de tests de rendimiento, aptitudes y habilidades, en los que el puntaje
compuesto de un individuo es la suma simple de la cantidad de ítemes contestados
constituyen ejemplos de este enfoque. En esta modalidad, el psicólogo elige las
preguntas y las posibilidades o alternativas de respuestas que tienden a destacar las
diferencias individuales entre los sujetos.
b. El enfoque centrado en el estímulo o enfoque del juicio. En este enfoque, la

variación sistemática en las respuestas de los sujetos frente a los estímulos se
atribuye a diferencias de los estímulos con respecto a un determinado atributo o
cualidad.
El propósito inmediato del experimento es escalonar los estímulos, que son los
únicos a los que se le asignan valores. Agregar o eliminar individuos elegidos al azar
de la misma población no tendría otro efecto sobre los resultados que las
fluctuaciones muestrales comunes. Un ejemplo típico de este enfoque es el método
de las escalas de actitudes, tales como la de intervalos aparentemente iguales de
Thurstone, en la que la tarea de los sujetos, en este caso llamados jueces, es
disminuir las fuentes de variación debida a su propia posición respecto a una actitud
y se orienta a clasificar una cantidad de enunciados respecto de una actitud
subyacente sobre un determinado continuo de actitud, según el grado de mayor o
menor saturación con que dicha proposición o enunciado refleja la actitud
subyacente.
c. El enfoque centrado en la respuesta. En este caso, la variabilidad de las

reacciones frente a los estímulos se atribuye a una combinación de los dos enfoques
anteriores, es decir: a la de los individuos y a la de los estímulos. Un ejemplo de este
enfoque puede ser la técnica de Gutman para la elaboración y análisis de las escalas
de actitudes, en donde si se intenta ordenar tanto a los sujetos como a los estímulos
con respecto al continuo subyacente de actitudes, a ambos componentes se le
pueden asignar valores.
En nuestro caso, para la construcción de pruebas, vamos a desarrollar el enfoque

centrado en el sujeto, anteriormente descrito.
5. LA PLANIFICACIÓN DEL TEST
La mayoría de los tests psicológicos siguen construyéndose según la teoría clásica de la

medición (TCT), en tal sentido, nuestro texto va a tener como base los métodos propuestos
por ese paradigma de la medición psicológica. Sin embargo, no podemos desconocer que
en la actualidad, es creciente la influencia de la teoría de la respuesta al ítem (TRI), con
sus distintas variantes en la elaboración de pruebas.
En general, existen varios criterios de planificación de un test. En tal sentido, uno de los
procedimientos que se emplean actualmente para planificar la construcción de una prueba
psicométrica comprende los siguientes pasos (Herrera Rojas, 1993):
a. Delimitación del dominio del test, descripción de las características de la población a

la cual va dirigido y estructura formal del test: instrucciones, contenido y formato de
las respuestas a los ítemes.
b. Redacción de los ítemes.
c. Revisión de los ítemes por expertos.
d. Análisis de las propiedades psicométricas de los ítemes y/o escalas del test.
e. Elaboración de los materiales definitivos de prueba: manual, cuadernillo de ítemes y
protocolos u hojas de respuesta.
A continuación ofrecemos una breve exposición sobre los primeros tres pasos señalados
por (Herrera Rojas, 1993), toda vez que los puntos restantes se encuentran ubicados en
los diversos capítulos del texto.
a. Definición del dominio del test
La elaboración de cualquier escala de medición de algún aspecto del

comportamiento humano exige a priori un minucioso análisis conceptual del dominio
o rasgo a medir; en tal sentido, se deben obtener definiciones conceptuales ad hoc
del rasgo en cuestión y luego decidir cual tipo de indicadores operacionales son
adecuados para describirlo.
Ejemplo: si queremos medir “habilidades para el estudio”, la prueba deberá

comprender todas las sub-habilidades implícitas en ese rasgo, tales como: uso de
diccionarios y enciclopedias, subrayado de ideas principales, elaboración de mapas
conceptuales, etc., entre otras competencias. Tornimbeni (2008), menciona un
ejemplo de Bandura (2001), sobre una prueba de autoeficacia para el manejo del
peso corporal. Ya que el peso depende de factores tales como los alimentos
ingeridos, el nivel de ejercicio para quemar calorías y factores genéticos que regulan
los procesos metabólicos, la conducta de que autocontrol del peso será mejor
predicha por una escala que incluya ítemes que comprendan equitativamente los
factores causales y no se limite, por ejemplo, sólo a los hábitos alimenticios. El
proyecto inicial de la prueba deberá incluír también una estimación de la longitud del
test, el tiempo y la forma de administración y calificación. Asimismo, dada la
mortandad de los ítemes que habitualmente se dan en el proceso de elaboración,
resulta conveniente elaborar el doble o triple de lo que se requiere.
Si se trata de una prueba para medir “rendimiento”, la definición del dominio puede
realizarse delimitando el universo de situaciones a ser evaluadas. Ejemplo: en el
caso de un examen de psicometría, el universo comprendería los objetivos y
contenidos del programa de la asignatura.
En el caso de una prueba de evaluación de currículo correspondiente a un nivel

determinado del sistema educativo, por ejemplo nivel secundario, el dominio a ser
definido incluirá los objetivos y contenidos correspondientes a ese nivel según los
lineamientos explicitados por el Ministerio de Educación.
Sobre el punto, es interesante tener en cuenta que en la medición del rendimiento se

pueden utilizar tests referidos a normas o referidos a criterio, y los procedimientos de
elaboración de pruebas utilizados para cada modalidad son diferentes. En la
construcción de pruebas referidas a normas se parte de la elaboración de una tabla
de contenido como vamos a ver más adelante, la cual consiste en una tabla de doble
entrada a través de la cual se relacionan los objetivos cuyo logro se desea evaluar,
con los contenidos específicos correspondientes. En resumen, tomando dicha tabla
como marco de referencia se determina el número de ítemes que conformarán la
prueba y se procede a la redacción de los mismos.
En el caso de las pruebas con referencia a criterio, en lugar de construir una tabla de
contenido, se define y delimita el dominio de comportamiento correspondientes a
cada objetivo. Al elaborar este tipo de pruebas, definir con claridad las habilidades o
conocimientos que se intenta evaluar, se convierte en un requisito fundamental de
este tipo de tests. Según Hambleton y Rogers (1991), el “dominio” puede ser de
conductas, objetivos y competencias y su amplitud varía en relación a la finalidad del
test. Si el dominio comprende más de un objetivo, pueden elaborarse subtests para
cada objetivo y se evalúa el rendimiento de los sujetos en cada uno de ellos.
Existen varios procedimientos para evaluar la especificación del dominio de

conductas o clases de tareas que el sujeto debe realizar:
1. Definición del objetivo. En este caso se establece cuál o cuáles serán los
objetivos que se evaluarán a través de la prueba. Ejemplo: la habilidad para la
comprensión lectura, que incluye aquellas conductas o respuestas que se
refieren únicamente a la comprensión de los mensajes literales contenidos en
un texto determinado.
2. Indicadores operacionales del objetivo. Los cuales se describen en términos
de conductas observables. Si tomamos como referencia el ejemplo anterior,
un indicador operacional de la habilidad de comprensión podría ser resumir
adecuadamente un testo breve.
3. Especificación de las características de la situación de evaluación.
Ejemplo: en un texto de divulgación científica, seleccionar las ideas principales
y parafrasear el contenido de las mismas.
4. Características de la respuesta. En este caso, se especifica cuál es la
respuesta que se espera del sujeto evaluado. Ejemplo: que seleccione
correctamente las ideas principales.
Además de definir el dominio es necesario delimitar aspectos complementarios del

test, tales como: la finalidad y la población meta del test; el modo de aplicación; el
formato de la respuesta y el tiempo de administración, según otras consideraciones
preliminares (Hogan, 2004). El plan inicial del test también debe considerar lo
referente a las instrucciones de administración y el modo de calificación e
interpretación de las respuestas.
b. Redacción de los Ítemes
Existen normas convencionales para la redacción de ítemes de tests, las cuales

incluyen sugerencias tales como:
-Redactar ítemes congruentes con los objetivos de medición.

-Evitar los ítemes demasiado extensos, es decir, de más de veinte vocablos.
-Evitar las oraciones complejas con ambigüedades de sentido.
-Evitar las frases con doble negación.
-Evitar el uso de expresiones extremas: nunca, siempre, todos.
-Utilizar el lenguaje más apropiado con el grado de maduración y el nivel educativo
de la población (Oesterlind, 1990).
Para Nunally (1991), los dos errores más frecuentes en la redacción de los ítemes
son:
1. La ambigüedad, con reactivos que admiten varias preguntas, por ejemplo:

¿Qué pasó con la psicología en el siglo XVII?, y 2) La trivialidad, al centrarse en
aspectos poco importantes del constructo o dominio conductual, por ejemplo,
requerir la memorización de fechas irrelevantes.
En la evaluación educativa, merece un espacio diferenciado la elaboración de

pruebas objetivas con preguntas cerradas en algunas de las modalidades de
ítemes tipo selección, ya sea del tipo disyuntivo verdadero/falso o de opción
múltiple. Según Bloom (1966), estas pruebas son útiles para la medición de
algunos objetivos cognoscitivos a nivel básico tales como:
- Recordar (por ejemplo, el creador del rayo laser o del teléfono).

- Comprender (por ejemplo, el concepto de “resiliencia”, “burnout” o “bulling”).
- Aplicar un concepto general o utilizar información para resolver un problema
(por ejemplo, dada la media o promedio aritmético y la desviación estándar
del D48 de Pichot aplicado a una muestra representativa de estudiantes
secundarios, elaborar el baremo por eneatipos).
- Analizar, que se refiere al pensamiento crítico, es decir, a identificar causas y
realizar inferencias en base a información específica (interpretar los bajos
valores obtenidos en el coeficiente Kuder-Richardson 21 en una prueba
factorial e indicar los factores que pueden haber afectado la confiabilidad del
test).
Para los objetivos cognoscitivos de nivel superior, tales como la evaluación que
implica por ejemplo, juzgar el valor de materiales, tests o materiales; y la creatividad,
que infiere por ejemplo, diseñar una investigación para verificar la estabilidad de un
test, se requiere otro tipo de pruebas, tales como las compuestas por ítemes de
suministro (abiertas o ensayo), así como reactivos que combinan la computación con
el audio; el video y la realidad virtual en la formulación de los ítemes y el formato de
la respuesta, dentro de lo que en la actualidad se denomina la evaluación auténtica
(Moreno, Martínez y Muñiz, 2004). En todo este avance, es probable que la
evaluación del futuro demandará instrumentos que permitan medir de modo más
adecuado el pensamiento creativo (divergente), y la resolución de problemas reales
de una disciplina (Woolfolk, 2006).
Los ítemes de opción múltiple, son difíciles de contruír adecuadamente, al extremo

que (Woolfolk, 2006), comentó que muchos estudiantes denominan a estas pruebas
“de adivinación múltiple”, por lo mal que frecuentemente se elaboran.
Estas pruebas comprenden un enunciado, pié, tronco o base, y una serie de

alternativas o respuestas posibles y en donde en razón a la modalidad de respuesta
correcta, las principales sugerencias en su construcción, teniendo en cuenta a
(Gronlund, 1974), son:
1. Elaborar cada ítem para medir un resultado importante de la temática elegida.

La situación problema sobre la que se ha de contruír el ítem debe estar
directamente relacionada con los objetivos del tema. Evite elaborar ítemes
sobre detalles sin importancia, trozos de información no relacionados, así como
de material no pertinente a los resultados deseados.
2. Presentar sólo un problema, claramente formulado, en la base o pié del ítem.

La tarea que se presente en el tronco o base del reactivo, deberá ser tan clara
que se la pueda entender sin necesidad de leer las opciones u alternativas de
respuesta.
3. Enunciar la base o pié del ítem en un lenguaje claro y sencillo. El problema

formulado en la base de un ítem debe enunciarse tan precisamente como sea
posible y por lo tanto libre de palabras y fraseos innecesariamente complejos,
de tal modo que quienquiera que tenga el conocimiento medido por dicha
pregunta deberá ser capaz de elegir la respuesta correcta.
4. Cuando resulte necesario, incluir tantas palabras como sea posible en la base o
pié del ítem. En este caso, debe evitarse la repetición del mismo material en
cada una de las alternativas u opciones de respuesta.
5. Enunciar la base o pié del ítem en forma afirmativa siempre que sea posible.
Una pregunta enunciada afirmativamente tiende a medir resultados más
importantes que un reactivo enunciado negativamente; esto se debe a que
conocer las cosas con el mejor método o el argumento más importante, tiene
por lo general una implicancia mayor que conocer el método más deficiente o
el argumento menos pertinente.
6. Hacer hincapié en la construcción negativa siempre que la utilice en la base o

pié del ítem. Existen casos en que la redacción negativa de la pregunta es
fundamental para medir un resultado importante del aprendizaje. Ejemplo:
saber que no se debe cruzar la calle durante la luz roja o que no se deben
mezclar ciertos elementos químicos, son cosas tan importantes que se deben
enseñar y probar directamente.
7. Asegurarse que la respuesta que se pretende es la correcta o, claramente la

mejor. Cuando utilizamos la forma de respuesta correcta o el ítem de opción
múltiple, debe haber solamente una respuesta correcta y ésta debe ser sin
lugar a dudas correcta. Cuando se usa la forma de mejor respuesta, la
respuesta deseada debe ser tal que los responsables de la materia estén
seguros en que claramente es la mejor.
8. Hacer que todas las opciones u alternativas de respuesta sean gramaticalmente

consistentes con la base o pie del ítem y que tengan formas paralelas a la de
éste. La redacción de la respuesta correcta debe ser tan minuciosa, que debe
ser gramaticalmente consistente con la base o pié del ítem. Es al enunciar los
distractores cuando existe la probabilidad de que el constructor del test incurra
en alguna inexactitud, de allí que una medida general que se puede tomar para
prevenir la inconsistencia gramatical es evitar el uso de los artículos “un” o
“uno” al final de la base o tronco del reactivo.
9. Evite claves verbales que permitan a los estudiantes seleccionar la clave o

respuesta correcta o eliminar una opción incorrecta. Aquí se pueden presentar
los siguientes casos:
a. La similitud de la redacción de la base o pie del ítem con la clave o
respuesta correcta.
b. Enunciar la clave o respuesta correcta en el lenguaje del libro de texto
o con una fraseología estereotipada.
c. Enunciar la respuesta correcta más detalladamente que las opciones
incorrectas.
d. Incluír términos absolutos en las respuestas de distracción, distractores
o distrayentes.
e. Utilizar dos respuestas que sean completamente inclusivas.
f. Incluír dos respuestas que tengan el mismo significado.
10. Hacer que las respuestas de distracción, distractores o distrayentes aparezcan

como posibles y atractivas para el probando poco informado. En tal sentido,
debemos tener presente las siguientes estrategias:
a. Utilizar los conceptos equivocados de los probandos o sus errores
comunes.
b. Enunciar las opciones incorrectas en el lenguaje de los probandos.
c. Usar palabras “que suenen bien”, tanto en las respuestas de distracción
o distractores como en la clave o respuesta correcta.
d. Elaborar los distractores o distrayentes con criterios afines a la clave o
respuesta ón correcta, tanto en su extensión como en su complejidad
de redacción.
e. Utilizar claves extrañas en los distractores, pero sin exageración en
su uso, y estar alerta contra las preguntas engañosas.
f. Estructurar de manera homogénea las opciones incorrectas.
11. Hacer variar la longitud relativa de la respuesta correcta para eliminar la

longitud o extensión como una posible clave. Por la necesidad de elaborar
adecuadamente los enunciados para hacerlos inequívocamente correctos, la
clave tiende a ser más extensa que los distractores. Frente a esta situación, es
recomendable construir los distractores ón aproximadamente con la misma
extensión en vez de ajustar la longitud de la clave o respuesta correcta.
12. Evitar cuidadosamente el uso de la opción “todas las anteriores” y utilice con
extrema precaución “ninguna de las anteriores”. Cuando el constructor de
pruebas tiene problemas para encontrar un número suficientes de distractores,
a menudo considera las alternativas “todas las anteriores” o “ninguna de las
anteriores” para utilizarlas como opción final; el caso es que, dichas
alternativas rara vez se usan adecuadamente y por lo general terminan
haciendo al ítem menos eficaz de lo que sería sin ellas.
13. Variar al azar la posición de la respuesta correcta. La clave o respuesta
correcta debe aparecer en cada pregunta, pero sin seguir una pauta que pueda
resultar evidente para el probando que resuelve la prueba. En tal sentido se
pueden evitar tales indicadores colocando al azar la clave o respuesta correcta.
14. Controlar la dificultad del ítem ya sea variando el problema en la base o pié o
cambiando las opciones. Generalmente, es preferible aumentar el grado o
índice de dificultad del ítem elevando el nivel de conocimiento requerido o
haciendo más complejo el problema. Por otra parte, sin embargo, también es
posible aumentar la dificultad haciendo más homogéneas las opciones.
15. Asegurarse de que cada ítem es independiente de los demás. Para ello,
deberán evitarse la presencia de cadenas de ítemes interdependientes, es
decir, cada ítem debe ser, una unidad calificable independientemente.
16. Usar un formato eficaz de ítem. Las alternativas u opciones de respuestas

deberán presentarse en forma de lista, en renglones diferentes, una bajo la
otra, lo cual facilitará la lectura y la comparación de las opciones. Es
conveniente el uso de letras al inicio de las opciones, lo cual evita posibles
confusiones si se utilizaran respuestas numéricas en un ítem.
En cuanto al ítem verdadero – falso, este constituye una oración expositiva que el
probando debe juzgar como verdadera o falsa; no obstante hay variaciones de esta
forma básica en la que el sujeto debe responder sí o no, acuerdo o desacuerdo, bien
o mal, hecho u opinión y otras respuestas afines. En cualquier caso, este tipo de
ítem se caracteriza por el hecho de que sólo son posibles dos alternativas de
respuesta y en donde el probando debe decidir por una de ellas.
Siguiendo a (Gronlund, 1974), podemos señalar las siguientes reglas para la

elaboración de este tipo de ítemes:
1. Incluír en la base o pie del ítem, sólo una idea central significativa. La decisión de
verdadero-falso, no debe depender de un aspecto subordinado ni de un detalle
trivial, de provenir de algo esencial por lo que se deben evitar el uso de varias
ideas en cada enunciado.
2. Redactar el enunciado de manera que se le puede juzgar sin lugar a dudas como
verdadero o falso. Los enunciados verdaderos deben serlo en cualquier
circunstancia por lo que resulta importante usar palabras definidas y precisas y
evitar términos ambiguos.
3. Los enunciados deben ser breves y de estructura sencilla. La base o pié del ítem
simples y breves aumentarán la probabilidad de que la idea central del ítem sea
clara y de que el acierto o el error esté determinado por el conocimiento del
examinado; más bien los enunciados extensos y complicados se orientan a medir
la comprensión de lectura, que constituye un objetivo diferente al tratado.
4. Usar muy limitadamente los enunciados negativos y evitar la doble negación. Los
enunciados negativos se malinterpretan frecuentemente como afirmativos, esto es,
por lo sencillo que es pasar por alto la palabra “no”; asimismo, las negaciones
dobles son confusas y por lo general los enunciados que las contienen se pueden
volver a redactar afirmativamente.
5. Los enunciados de opinión se deben atribuir a alguna causa. Debemos tener

presente que los enunciados de opinión no son verdaderos o falsos por sí mismos
y hacer que los probandos respondan a ellos como enunciados factuales
constituye una práctica deficiente, de tal manera que sólo se podrían usar sin
modificación cuando se indique al examinado que distinga entre enunciados de
hechos y enunciados de opiniones.
6. Evítense claves ajenas a la respuesta. Existen algunos modificadores específicos

que proporcionan claves verbales de la verdad o falsedad de un ítem. Los
enunciados que incluyen absolutos como “siempre”, “nunca”, “todo”, “ninguno” y
“solamente”, tienden a ser falsos y por el contrario, los enunciados con
modificadores como “usualmente”, “acaso” y “a veces”, tienden a ser verdaderos.
c. Revisión de Expertos
La mayoría de especialistas en el tema sugiere que los ítemes preliminares sean
revisados por jueces expertos. Resulta conveniente que estos jueces tengan
experiencia en la construcción de pruebas, en el dominio del constructo a medir y en
la población a la cual se dirige el test. Los aspectos esenciales (Tornimbeni, Pérez y
Olaz, 2008), que los expertos deben evaluar en cada ítem son:
1. Claridad semántica y corrección gramatical.

2. Adecuación al nivel de comprensión de la población meta.
3. Congruencia con el constructo o dominio medido.
El último de los nombrados constituye el principal parámetro y hace referencia al

grado de consistencia que debe haber entre un ítem particular y los constructos a
medir por el test. El respeto por dicha variable va a contribuir significativamente a la
confiabilidad y validez de las puntuaciones del test a contruir (Osterlind, 1990).
Técnicamente, se recomienda que los ítemes seleccionados sean aquellos que, por
lo menos, un 60% de los jueces consideren meritorios (Herrera Rojas, 1998).
Resulta de gran utilidad la inclusión de preguntas adicionales sobre los ítemes, que
faciliten una redacción más adecuada de alguno de ellos. Finalmente, tal y como
señalan (Tornimbeni, Pérez y Olaz, 2008), no deberíamos confiar exclusivamente en
el juicio de los expertos y siempre es conveniente llevar a cabo una prueba piloto en
una muestra pequeña, con la finalidad de demostrar empíricamente que los ítemes
sean más claros y comprensibles para la población donde se desea generalizar los
resultados.
Existen otros esquemas de planificación como el que indicamos a continuación y que

podríamos tener en cuenta en la tarea de construcción de una prueba. Dicho
esquema comprende los siguientes pasos:
6. ESQUEMA GENÉRICO DE CONSTRUCCION DE UN TEST PSICOMETRICO
A. Primer Paso: ESPECIFICACIÓN DE LA FINALIDAD DEL TEST
a. Elección del Constructo o variable de estudio

b. Elaboración del propósito del test
c. Limitación de las características de los sujetos a examinarse
B. Segundo Paso: TRADUCCION DE LA FINALIDAD EN TERMINOS

OPERACIONALES
a. Elaboración del marco teórico del constructo
b. Definición teórica del constructo
c. definición operacional del constructo
C. Tercer Paso: DETERMINACION DE LAS CARACTERISTICAS PSICOMÉTRICAS

QUE DEBE TENER EL TEST
a. Pruebas de ejecución máxima
a.1 Pruebas de aptitud
a.2 Pruebas de rendimiento
a.3 Pruebas de habilidad
b. Pruebas de ejecución típica
b.1 Inventario de Personalidad
b.2 Cuestionario de Personalidad
b.3 Escalas de actitudes
D. Cuarto Paso: ELABORACIÓN DEL ENSAYO O PRE-TEST
a. Construcción de los ítemes, reactivos, elementos o preguntas
b. Redacción de instrucciones preliminares
c. Elaboración del procedimiento preliminar de calificación
d. Elaboración del material del pre-test
e. Establecimiento de los tiempos de resolución del pre-test
f. Revisiones de juicio de expertos
E. Quinto Paso: ANÁLISIS DE ÍTEMES, REACTIVOS, ELEMENTOS O PREGUNTAS

a. Administración del ensayo o pre-test a una muestra representativa de la población a
la cual está destinado el test.
b. Obtención de los índices de dificultad, de discriminación o poder discriminativo, de
homogeneidad, de validez, de confiabilidad, de asimetría, de curtosis, de cada uno
de los ítemes; así como el análisis de los distractores, distrayentes u opciones
incorrectas.
c. Cálculo de los coeficientes de correlación item-item, item-test, varianza, co-varianza,
correlación máxima, etc.
F. Sexto Paso: ELABORACIÓN DEL FORMATO FINAL DEL TEST

a. Selección de los ítemes que han superado el análisis de reactivos
b. Ajuste de los tiempos y modalidades de administración o aplicación y cómputo o
calificación.
c. Revisión
G. Séptimo Paso: CÁLCULO DE LA VALIDEZ Y CONFIABILIDAD DEL TEST

a. Administración del test a una muestra representativa de sujetos de la población a la
cual está destinada la prueba.
b. Obtención de los índices estimadores de la validez
c. Obtención de los índices estimadores de la confiabilidad
H. Octavo Paso: ESTABLECIMIENTO DE LAS NORMAS DEL TEST

a. Estudio de las distribuciones de puntajes
b. Obtención de las normas en los puntajes derivados más convenientes
c. Elaboración de las tablas de normas o baremos
I. Noveno Paso: REDACCIÓN DEL MANUAL DEL TEST

a. Elaboración de la ficha técnica
b. Redacción de documentos que sintetizen el proceso de construcción y comuniquen
los índices estadísticos y normas que permitan al usuario evaluar el test.
J. Décimo Paso: PUBLICACIÓN

SEGUNDA UNIDAD
DESARROLLO DE LOS TEST PSICOMETRICOS
LECCION 1
ORIGEN DE LOS TEST PSICOMETRICOS
1. INTRODUCCION
En los últimos 30 años, la metodología y las técnicas de elaboración de tests han

manifestado un desplazamiento cada vez más marcado de los sistemas tradicionales de
exámenes, fundamentados en la teoría clásica de los tests, hacia los sistemas adaptativos
de evaluación. Esta transición ha sido propiciada por los desarrollos que han tenido lugar
en el contexto de la teoría de los tests y, en particular, en la teoría de respuestas por ítem,
así como por el desarrollo alcanzado por la tecnología computacional. El desarrollo de la
teoría clásica de los tests ha evolucionado de una posición pragmática caracterizada por la
elaboración de reactivos y pruebas, cuyo único requisito era mantener cierta consistencia
entre sí, hacia una fase en la cual las pruebas cuentan con un mayor sustento en
postulados teóricos acerca de la personalidad, el aprendizaje, el comportamiento y los
principios que regulan la interacción entre los factores estructurales hereditarios y los
factores ambientales. La elaboración de tests de acuerdo a la teoría clásica, conlleva
ciertas limitaciones debidas principalmente a la dependencia que hay entre cada reactivo y
la prueba de que forma parte, así como la que existe entre cada reactivo y la población
utilizada para normar la prueba, lo que limita las posibilidades de predecir el
comportamiento ante reactivos específicos. Nuevas aproximaciones, como la teoría de
respuestas por ítem, han sido elaboradas para resolver las limitaciones planteadas por la
teoría clásica de los tests y han presentado nuevas técnicas para el desarrollo de estos
instrumentos de medida. Uno de los resultados de la teoría de respuestas por ítem es que
al permitir establecer estadísticos para cada reactivo individual y de manera independiente,
se proporciona un modelo teórico excelente para la elaboración de tests adaptativos
computarizados, caracterizados básicamente por presentar reactivos diferentes a cada
examinado, dependiendo de sus respuestas a los reactivos anteriores. Otra de las
herramientas que han sido de considerable valor para los nuevos tests adaptativos
computarizados es el desarrollo de los sistemas de cómputo que permiten manejar grandes
bases de reactivos de una manera interactiva y con una gran velocidad de proceso.
2. HISTORIA Y ORIGEN DE LOS TEST
Para (Anastasi, 1977) los orígenes de los test se pierden en la antigüedad, en el Imperio
Chino se utilizaba un sistema de exámenes para elegir a los administradores públicos
durante 3000 años, por su parte, el Imperio Griego realizó exámenes que constituían un
complemento integrado en el sistema educativo, para estimar el dominio de habilidades
físicas e intelectuales. El método socrático de enseñanza, de preguntas y respuestas, es
similar al utilizado en la Edad Media en las universidades europeas donde los exámenes
eran regulares.
En el siglo XIX se despertó el interés por los retrasados mentales, y con ello, se encontró
que era necesario establecer criterios para la identificación y clasificación de estos casos,
entonces el médico francés Esquirol en 1838 indicó que existen muchos grados de retraso
mental, desde la normalidad hasta el grado mas agudo de la idiocia, y que la mejor forma
de saber el grado en el que se encuentra es mediante su lenguaje. De esta manera, en
1837 se estableció la primera escuela dedicada a la educación de los niños mentalmente
deficientes.
Por su parte, los psicólogos experimentales formulaban descripciones generalizadas de la

conducta humana, donde las afinidades mas que las diferencias en la conducta, las que
constituían el foco de atención, pero debido a la presencia de la variabilidad las
generalizaciones eran aproximadas.
a. Aportaciones de Francis Galton

El biólogo inglés Sir Francis Galton, considerado el padre de la psicología diferencial,
tuvo como objetivo básico la descripción y medición de las características humanas y
para ello creó un “Laboratorio Antropométrico” en 1884 (Fernández-Ballesteros, 1996).
Se interesó por la herencia humana y para eso midió las características de las
personas emparentadas y no emparentadas, creía que no solo se heredaban rasgos
físicos, sino también habilidades (Anastasi, 1977).
Nunnally (1970) menciona que Galton acuñó la expresión de test mental y comenzó a
medir muchos atributos humanos diferentes, reconoció la necesidad de la
estandarización en el examen de sujetos, que se refiere, a la necesidad de
presentarles a todos ellos el mismo problema en condiciones uniformes. Afirmaba que
la persona que tuviera los sentidos mas agudos sería la mas dotada y la de mas
capacidad de conocimiento, por lo que, la mayoría de sus test eran de discriminación
sensorial.
Galton recurrió a métodos estadísticos y determinó promedios y medidas de varianza, y

además hizo los primeros intentos de establecer la estadística de correlación.
b. Los primeros “test mentales”

El psicólogo americano Cattell es un personaje destacado en el desarrollo de los test
psicológicos, tuvo contacto con Galton y se interesó por las diferencias individuales. En
1890 se empleó por primera vez en la literatura psicológica la expresión “test mental”.
Los test que se habían de aplicar individualmente incluían medidas de energía
muscular, velocidad de movimiento, sensibilidad al dolor, agudeza visual y auditiva,
discriminación de pesos, tiempo de reacción, memoria y otras, pero, la ejecución del
individuo presentaba escasa correspondencia de un test a otro, Ohern en 1889, indagó
sobre las mismas cuestiones (Anastasi, 1977).
El objetivo de los test de Cattell, según Fernández- Ballesteros (1996), los caracterizó
su determinación del rango, exactitud y naturaleza de las facultades psicológicas, así
como la posibilidad de reunir suficiente material como para hallar los factores que
regulan el desenvolvimiento de estas facultades, sus conexiones, así como sus
perturbaciones.
Ebbinhaus en 1897 aplicó a escolares algunos test de cálculo aritmético, de memoria

inmediata y de completación de frases.
Según Nunnally (1970), se produjeron en Francia algunos acontecimientos de

importancia para la historia de la medición psicológica. Pinel, en un principio liberó a los
locos de sus cadenas e insistía en que se trataba de enfermos y no de poseídos por el
demonio. Charcot, Janet y Ribot crearon el campo de la psiquiatría y elaboraron las
primeras teorías aceptables de la psicopatología. Freud se apoyó en los conocimientos
de estos hombres y avanzó hasta fundar el psicoanálisis.
c. Test de inteligencia
Alfred Binet completó su primer test en 1905, donde estudiaba la capacidad del niño
para comprender y razonar acerca de los objetos de su ambiente cultural, los ítems
incluían nombrar objetos, completar oraciones o comprender preguntas, en 1908 se
hizo una revisión del test y se graduaron los ítems según los niveles de edad, sobre la
base de ítems característicos de la inteligencia promedio de cada edad (Nunnally,
1970).
Binet, según Fernández-Ballesteros (1996), planteaba tres tipos de requisitos: Que

estén formados por tareas sencillas, que en su aplicación se invierta poco tiempo, que
sean independientes del examinador y que los resultados obtenidos puedan ser
contrastados por otros observadores.
Los resultados podían expresarse como una “edad mental”, es decir la edad de los
niños normales que su ejecución se igualaba, según Anastasi (1977), este concepto
contribuyó a popularizar la aplicación de los test de inteligencia, así como, los test
colectivos fueron creados para satisfacer una urgente necesidad práctica, los cuales
eran instrumentos para la prueba de masas que permitían el examen simultáneo y
simplifican las instrucciones, adicionalmente, requerían un mínimo de formación por
parte del examinador.
Se crearon exámenes orales, aunque algunos estudiosos se quejaron y objetaron que

los exámenes escritos colocaban a todos los estudiantes en las mismas circunstancias.
Se introdujeron test de personalidad donde se medían las cuestiones afectivas como la
adaptación emocional, las relaciones sociales, la motivación, los intereses y las
actitudes. Test de aptitudes especiales donde se evaluaba la orientación profesional y
en la selección de personal industrial y militar.
3. TEORÍAS DE LOS TESTS

Existen diversos paradigmas o modelos que permiten explicar el significado de las
puntuaciones obtenidas con los Tests. El análisis o modelado de las matrices de datos
obtenidas da como resultado:
• la estimación del nivel en que poseen los sujetos la(s) característica(s) que mide el
test (valores escalares de los sujetos)
• la estimación de los parámetros de los items (valores escalares de los items).
El problema central de la teoría de los tests es la relación que existe entre:
• el nivel del sujeto en la variable inobservable que se desea estudiar y
• su puntuación observada en el test.
Es decir que el objetivo de cualquier teoría de tests es realizar inferencias sobre el nivel
en que los sujetos poseen la característica o rasgo inobservable que mide el test, a partir
de las respuestas que éstos han dado a los elementos que forman el mismo. Así para
medir o estimar las características latentes de los sujetos es necesario relacionar éstas
con la actuación observable en una prueba y esta relación debe de ser adecuadamente
descrita por una función matemática. Las distintas teorías de tests difieren justamente en
la función que utilizan para relacionar la actuación observable en el test con el nivel del
sujeto en la variable inobservable. Y sirven para dar cuenta del error de medida inherente
a toda medición psicológica o estimación del error; y proporcionar una estimación del
rasgo o característica evaluada (estimación del rasgo)
a. TEORÍA CLÁSICA DE LOS TESTS
La Teoría Clásica de los Tests, iniciada por Spearman, sostiene que la puntuación
observable de una persona en un test es una función de dos componentes: su
puntaje verdadero (inobservable) y el error de medición implícito en la prueba. El TCT
(modelo lineal de la teoría clásica) es un modelo de puntuación verdadera como valor
esperado, esperado como concepto matemático, probabilístico. Es decir, el puntaje
verdadero de un sujeto en un test sería el promedio aritmético de las puntuaciones
empíricas obtenidas en infinitas aplicaciones (Muñiz, 2001).
La Teoría Clásica de los Tests (TCT) es, en síntesis, el conjunto de principios

teóricos y métodos cuantitativos derivados de ellos, que fundamentan la
construcción, aplicación, validación e interpretación de distintos tipos de tests y que
permiten derivar escalas estandarizadas aplicables a una población (Hambleton,
1994). Los principios en que se basa son relativamente simples y se aplican tanto a
las pruebas de desempeño, como a las de aptitud. Durante sus diferentes fases de
desarrollo, se han elaborado procedimientos de análisis cuantitativo que han sido de
gran utilidad, destacándose en lo general, tres grandes etapas que se identifican por
su objeto de interés primordial, así como por los métodos cuantitativos y tipos de
análisis teóricos que utilizan.
La primera etapa que Cattell (1986) denomina itemetría, se caracteriza

principalmente por la construcción de pruebas conformadas por reactivos cuyas
propiedades estadísticas eran el centro de atención principal. Los tests se
consideraban como el producto de la integración de un conjunto de reactivos cuyas
propiedades estadísticas tenían que ser determinadas antes de que se les incluyera
en esa prueba particular. Esto propició que el concepto de confiabilidad adquiriera
prominencia como la principal virtud de la escala y se medía a partir de la correlación
entre los reactivos individuales y el instrumento en su conjunto. Si la correlación era
alta, se decía que los reactivos eran los adecuados. Sin embargo, con frecuencia
resultaba que la correlación no era tan buena, y el resultando era que se obtenían
reactivos deficientes y la prueba en su conjunto era de escaso valor. El concepto
mismo de confiabilidad implicaba al de error de la medida y tuvieron que
desarrollarse procedimientos distintos para determinar la confiabilidad del test de una
manera más precisa. Tal fue el caso de los procedimientos de pruebas paralelas y de
división por mitades.
La itemetría hizo contribuciones valiosas a la psicología debido al énfasis que puso

en el análisis del error. Entre sus contribuciones se encuentran varios conceptos
sobre precisión de la medida, las técnicas para el tratamiento del error y el uso
generalizado del error estándar de la medida como la medida básica del error.
Además, dio lugar a contribuciones tales como las fórmulas de Spearman-Brown
(Spearman, 1904), Kuder-Richardson (Kuder & Richardson, 1937), Alfa de Cronbach
(Cronbach, 1951) y a varios principios básicos de escalamiento, así como al uso
generalizado de la curva normal, el uso de las correlaciones múltiples y la fórmula de
atenuación, etc. La siguiente etapa es la que Cattell (1986) denomina psicometría
estructural y se caracteriza por el uso de las nuevas herramientas estadísticas tales
como el análisis factorial con sus diversas variantes técnicas, como un medio para
encontrar la "estructura natural" de las habilidades en el contexto de los factores
culturales, la dotación genética, la personalidad, los rasgos, los motivos dinámicos y
las dimensiones que dan lugar a la acción y al comportamiento. Su objetivo
primordial no era como tal, aplicar pruebas, sino determinar la relación que hay entre
los conceptos clínicos sobre personalidad, y los fundamentos de la investigación
experimental multivariada (cuantitativa por naturaleza), así como analizar las
interacciones dinámicas entre los rasgos y los estadíos de la personalidad. Los tests
se consideraban significativos en la medida que armonizaban con los constructos
teóricos formulados conceptualmente.
La etapa funcional en el desarrollo de los tests es aquella que "trasciende a las

aplicaciones inmediatas y simplistas que identificaban a las estadísticas con factores
conductuales, y profundiza en las leyes y formulaciones conceptuales del
comportamiento: que relaciona rasgos, procesos y estados psicológicos con las
mediciones y estrategias estructurales" (Cattell, 1986). Ese tipo de leyes, según
Cattell, se refieren a las relaciones sistemáticas y consistentes obtenidas de los
estudios empíricos sobre el desarrollo, en el conocimiento acerca de los rasgos
determinados en forma hereditaria, de los rasgos modificables por las experiencias y
el aprendizaje y de la modulación de los estados psicológicos producidos por las
relaciones psicofisiológicas.
En resumen, el desarrollo de la teoría clásica de los tests ha procedido de etapas

orientadas en forma pragmática para desarrollar tests y validar reactivos, (donde los
constructos psicológicos teóricos se definían operacionalmente como "aquéllo que
mide la prueba x"); hacia etapas conceptualmente más elaboradas en que los tests
se derivan de teorías del comportamiento más articuladas y donde cada reactivo
tiene un significado conceptual definido en un contexto teórico particular.
Limitaciones de la Teoría Clásica de los Tests: De acuerdo a la Teoría Clásica de los

Tests (TCT), la elaboración de pruebas de desempeño máximo involucra la selección
de reactivos de acuerdo a su contenido, nivel de dificultad y poder de discriminación.
Los reactivos más deseables son los que poseen un nivel mayor de discriminación.
El nivel de dificultad por su parte, se ajusta de acuerdo a: 1. El propósito de la
prueba, y; 2. El criterio preestablecido para el grupo al cual se aplicará la prueba. Los
índices estadísticos empleados por la TCT no se mantienen constantes cuando se
aplican a poblaciones que difieren en habilidad respecto de la población empleada
para obtener las normas del test. Por lo tanto, el éxito de las técnicas clásicas de
selección de reactivos depende de qué tan parecida es la población con la cual se
obtuvieron los índices respecto de la población a la que se pretenden aplicar. Si la
diferencia es grande, los índices obtenidos de los ítems no serán apropiados para la
población objetivo. En otros términos, la teoría clásica de los tests no puede predecir
cómo responderá un individuo a los ítems a menos que esos ítems hayan sido
previamente administrados a personas similares (Lord, 1980) Durante el trabajo
práctico de elaboración de tests, normalmente el grupo a partir del cual se obtienen
los índices y el grupo al cual el test va dirigido, difieren considerablemente. Un caso
especial en el cual los índices clásicos de los reactivos se obtienen a partir de grupos
que difieren de la población a la que van dirigidos, puede verse al estructurar bancos
de reactivos. Al elaborar un banco de reactivos, las características de los ítems que
van a ser incluidos en el banco, deben ser determinadas. Los ítems con frecuencia
denominados "experimentales", se incluyen en un test que es administrado a un
grupo de personas de tal manera que se obtienen como resultado, los índices de
esos reactivos. Por supuesto, no todos los reactivos experimentales serán incluidos
en un test particular. Por lo tanto, se crean múltiples formas del test, cada uno de los
cuales contiene diferentes reactivos experimentales y las diferentes formas se
aplican a grupos distintos de examinados. Dado que generalmente no es posible
asegurar que las diferentes formas del examen sean administradas a grupos
equivalentes, los índices de los reactivos experimentales que se aplicaron a grupos
distintos no pueden ser equivalentes (Hambleton & Swaminathan, 1985). Por lo tanto,
si los reactivos fueron incluidos en el examen bajo el supuesto de que sus índices
eran comparables, entonces cualquier test construído a partir de ese banco de
reactivos no podrá ser apropiado para ninguna de las poblaciones que pudieran ser
seleccionadas en un momento dado. Por otra parte, aún cuando un banco de
reactivos se encuentre bien conformado, otro problema de la TCT es la precisión de
la medición. Y es que en la teoría clásica de los Tests, la contribución de un ítem a la
confiabilidad de la prueba no depende de las características del reactivo sólamente,
sino que también depende de la relación que hay entre el reactivo en cuestión y los
otros reactivos del test. Por lo tanto, no es posible aislar la contribución de un ítem a
la confiabilidad de la prueba y por lo consiguiente, tampoco su participación al error
estándar de la medida (Hambleton, Swaminathan, & Rogers, 1991).
Finalmente, no obstante que el desarrollo de la teoría clásica de los tests llegó, con la
etapa funcional de los tests, a un punto en que la conceptualización de los resultados
de los tests, y consecuentemente su proceso de desarrollo, permitían mediante
sofisticados procedimientos estadísticos, sacar a los reactivos de los límites
impuestos por la prueba en su conjunto, la limitación teórica aún permanecía y se
hacía necesario un nuevo marco conceptual para salvarlo. Este nuevo esquema para
la conceptualización de los reactivos como unidades independientes del test y del
grupo utilizado para normarlo, se obtuvo con la Teoría de Respuesta al ítem.
LECCION 2
TEORIA DE LA GENERALIZABILIDAD Y
DE RESPUESTA AL ITEM
1. INTRODUCCION
Las Teorías de Medición sirven como marco teórico para el diseño e implementación de
instrumentos de medición. Proporcionan métodos o procedimientos para determinar las
características de los estímulos o preguntas que forman las pruebas.
A partir de las características obtenidas se derivan métodos para efectuar otros análisis
que sean de interés para los usuarios de las pruebas.
2. TEORÍA DE LA GENERALIZABILIDAD
Cronbach y Glaser (1972) postularon la Teoría de la Generalizabilidad (TG) que es una

extensión del modelo clásico en el que diversas mediciones del mismo individuo pueden
variar tanto por efecto de una variación en lo que se mide como por el error de medición
(Nunnally y Bernstein, 1995). En esta teoría las decisiones sobre la bondad de un
instrumento se basan en estudiar las fuentes y tipos de error, utilizando el análisis de
varianza. Cuando se mide una variable se trata de generalizar los resultados a un dominio
o universo confiable de observaciones. El puntaje del universo es semejante al puntaje
verdadero en el modelo clásico. La diferencia es que en la TCT se considera que la
varianza de error es de una sola clase y, en cambio, la TG reconoce que existen otros
universos de generalización y por lo tanto muchos puntajes de universo posibles. Solo
cuando el universo se ha definido podemos afirmar cuáles son las fuentes de variación que
producen error. Las diferentes fuentes de error en esta teoría se denominan facetas,
término que introdujo Cronbach para designar cadauna de las características de la
situación de medición que pueden cambiar de un momento a otro y, por tanto, hacer variar
los resultados obtenidos.
Según esta teoría los puntajes observados solo poseen interés si son representativos de
todos los puntajes posibles de un mismo universo. Población es el conjunto de personas de
las que se extrae una muestra; y Universo es el conjunto de todos los ítems posibles de un
constructo; y Universo de Condiciones de Medición al conjunto de todas las facetas
estudiadas. Las distintas fuentes de variaciones asociadas a las facetas y a sus
interacciones se estima que contribuyen a la varianza de error y disminuyen la
generalizabilidad de los puntajes observados en las personas evaluadas.
3. TEORÍA DE RESPUESTA AL ÍTEM
La literatura sobre tests registra en los últimos 30 años un desplazamiento progresivo del
esquema proporcionado por la Teoría Clásica de los Tests, hacia el contexto y los
procedimientos delineados por la Teoría de Respuestas al Ítem (TRI) [Del inglés: Ítem
Response Theory - IRT]. Esta teoría, fue desarrollada para resolver varios de los
problemas que presentaba la TCT (Hambleton & Swaminathan, 1985) y que no habían sido
resueltos de una manera satisfactoria. Algúnos de esos problemas son: (1) El uso de
índices de los reactivos cuyos valores dependen de la población particular de la cuál fueron
obtenidos, y (2) La estimación de la habilidad del examinado depende del conjunto
específico de reactivos incluidos en la prueba.
Es decir, las características del examinado y las características de la prueba no pueden

separarse en un instrumento elaborado conforme a los principios de la Teoría Clásica de
los Tests; y por el contrario, cada uno sólo puede ser interpretado en términos del otro. Las
características del examinado en las cuales la teoría TRI está interesada, son la "habilidad"
que mide el test. Para la TCT, la noción de habilidad se expresa por medio del llamado
puntaje verdadero que se define como "el valor esperado a partir de la destreza observada
en la prueba en cuestión" (Hambleton, Swaminathan, y Rogers, 1991).La habilidad del
examinado se define sólo en términos de una prueba específica. Si el test es "difícil", el
examinado parecerá tener un nivel bajo de habilidad. Si el test es "fácil", el examinado
parecerá tener un mayor nivel de habilidad. Y el nivel de dificultad de la prueba se define
como "la proporción de examinados en el grupo de interés, que contestó el reactivo
correctamente" (Hambleton, Swaminathan y Rogers, 1991) Por lo tanto, el que un ítem sea
difícil o fácil depende de la habilidad de los examinados a quienes se aplicó la prueba y a
su vez, la habilidad de los examinados depende del nivel de dificultad de la prueba. De la
misma forma, el nivel de discriminación de los reactivos y los coeficientes de validez y
confiabilidad de la prueba se definen también en base a las características del grupo
particular de examinados. Así, las características del test y de los reactivos cambian a
medida que cambia el contexto de la prueba. Por lo tanto, es muy difícil comparar
examinados a quienes se aplican diferentes tests; o aún, comparar ítems cuyas
características se obtuvieron utilizando diferentes grupos de examinados. Esto significa que
los coeficientes de los reactivos son dependientes del grupo al mismo tiempo que son
dependientes del test. Esta clase de dependencia es la que se trata de eliminar mediante la
TRI. Otro problema de la TCT es que es centrada-en-el-test, más que centrada-en-el-
reactivo. No se toma en consideración cómo responde el examinado a un reactivo dado, y
por lo tanto, no se tienen bases para determinar qué tan bien podría desempeñarse un
examinado particular ante un reactivo individual. Es decir, la TCT no permite hacer
predicciones acerca de cómo se comportará un individuo o grupo particular ante un
reactivo dado. Esta posibilidad de predicción es importante en una gran variedad de
situaciones como por ejemplo, cuando se intenta predecir el comportamiento de un
profesional ante diferentes tipos de situaciones prácticas. De acuerdo a Hambleton,
Swaminathan y Rogers (1991), las principales características de la TRI como una
alternativa a la teoría clásica de los tests son: 1. Las características de los reactivos no
dependen del grupo del cuál fueron obtenidos; 2. Los puntajes que describen la habilidad
del examinado no dependen del test en su conjunto; 3. El modelo se expresa a nivel del
reactivo más que a nivel del test; 4. El modelo no requiere de pruebas paralelas para
determinar el índice de confiabilidad; y 5. Provee una medida de la precisión de cada índice
de habilidad. Los postulados básicos de la TRI son:
1) El resultado de un evaluado en un ítem puede ser explicado por un conjunto de

factores llamados rasgos latentes o aptitudes
2) La relación entre la respuesta de un sujeto a un ítem y el rasgo latente que

subyace puede describirse como una función monotónica creciente que se llama
función característica del ítem o curva característica del ítem (CCI) Esta función
específica que a medida que la aptitud aumenta la probabilidad de una respuesta
correcta al ítem también aumenta.
3) Las estimaciones de la aptitud obtenidas con distintos ítems serían iguales y las
estimaciones de los parámetros de los ítems obtenidos en distintas muestras de
examinados serán iguales. Es decir que en la TRI los parámetros de aptitud y de
los ítems son invariantes.
La ejecución de un examinado en una prueba puede ser predichos por un conjunto

de rasgos, rasgos latentes y habilidades; y (2) la relación entre las respuestas de
los examinados a los reactivos y el conjunto de rasgos que subyacen a la
respuesta ante el reactivo, pueden describirse por una función monotónicamente
incrementada llamada función característica del reactivo o curva característica del
ítem (CCI). Esta función especifica que a medida que el nivel del rasgo incrementa,
también incrementa la probabilidad de una respuesta correcta ante ese reactivo."
Son supuestos de la TRI:
1. La unidimensionalidad del rasgo latente: que las respuestas del examinado

estén determinadas por una única variable denominada Rasgo. Ej.: Un ítem
de un test espacial medirá solo habilidad espacial y no ninguna otra cosa
(Ferreres Traver, 2005)
2. La independencia local: Las respuestas de un evaluado a cualquier par de

ítem son independientes y la probabilidad de responder correctamente a un
ítem es independiente de la probabilidad de responder correctamente
cualquier otro ítem (Ferreres Traver, 2005).
Existen muchos modelos de la TRI, pero los básicos son:
- Modelo Logístico de un parámetro o Modelo de Rasch que está medido en la

misma escala que el parámetro zeta que representa el nivel de habilidad, el
parámetro b representa la dificultad del ítem. Cuanto mayor sea el valor de b,
más difícil será el ítem ya que mayor será el nivel de habilidad necesario para
tener una probabilidad de acertar de 0.5
- Modelo Logístico de dos parámetros o Modelo de Birnbaum que indica en qué

medida el ítem diferencia entre examinados con un nivel alto y bajo de
habilidad. Cuanto mayor sea el valor de a, mayor poder discriminativo del ítem,
parámetro a que representa la discriminación del ítem.
- Modelo Logístico de tres parámetros incorpora junto con el a y el b al c que

representa la probabilidad de acertar el ítem que tienen las personas con un
nivel de habilidad muy bajo; o parámetro del pseudo azar.
Para construir una prueba de acuerdo a los principios de la TRI, es necesario construir un
banco de reactivos con parámetros estimados para cada ítem, de acuerdo almodelo
seleccionado. El procedimiento recomendado por Lord (1977) consiste en los siguientes
cuatro pasos:
1. Decidir acerca de la forma deseada de la función de información de la prueba

o curva de información deseada (target information curve).
2. Seleccionar los reactivos del banco cuya curva de información deseada cae
bajo el área de la curva de información de la prueba, de tal manera que
saturen el área bajo la curva de la función deseada de la prueba.
3. Conforme se adicionan reactivos a la prueba, se recalcula la curva de

información de la prueba con los reactivos seleccionados hasta ese
momento.
4. Continuar la selección de los reactivos hasta que la función de información de

la prueba se aproxime a la función de información deseada con un grado
satisfactorio."
Sin embargo, la TRI no se encuentra libre de problemas y su aplicación contiene ciertos

puntos riesgosos debido a que el uso de criterios estadísticos para la selección de los
reactivos no asegura una prueba con contenidos completamente válidos. Deficiencias en
los procedimientos de selección de los contenidos pueden generar una prueba con un bajo
nivel de validez de contenido (Hambleton, Swaminathan y Rogers;1991). Otro problema de
la TRI es que cuando se utilizan funciones de información de los reactivos durante el
desarrollo de una prueba, es probable que los valores sean sobrevalorados y por lo tanto,
la función de información podría sesgarse. Una prueba construida con ítems de valores
elevados puede ser que no corresponda a los de la prueba esperada. Como consecuencia,
la función de información de la prueba será sobrevalorada y por lo tanto, habrá que añadir
varios reactivos adicionales para compensar esta sobrevaloración.
Sin embargo, una de las ventajas de la construcción de los tests de acuerdo a los modelos
de la TRI es que se pueden elaborar tests individualizados, es decir, “a la medida” de los
sujetos que permiten inferir en cada uno de los evaluados un verdadero valor del rasgo de
la manera más precisa.
LECCION 3
DEFINICION TEORICA Y OPERACIONAL

DE LOS CONSTRUCTOS
1. INTRODUCCION
Un constructo es algo de lo que se sabe que existe, pero cuya definición es difícil o
controvertida. Son constructos la inteligencia, la personalidad y la creatividad, por ejemplo.
Los constructos no son empíricos, es decir, no se pueden demostrar. Estos conceptos no
son directamente manipulables, igual que lo es algo físico, pero sí son observables a través
de la conducta.
Los constructos no tienen referentes empíricos inmediatos Nadie ha visto ni ha tocado la

inteligencia de alguien pero sí la puede inferir de la manera en que una persona es capaz
de resolver ciertos problemas en relación con la manera en que otros los resuelven. Los
constructos tienen como referentes relaciones lógicas entre conceptos. Por ejemplo, se
puede decir que la “ansiedad se caracteriza por períodos alternativos de miedo y
esperanza”.
Un constructo se refiere a las operaciones mediante las cuales un investigador determina la

presencia o ausencia (o la magnitud) de un fenómeno. Estas operaciones son mediciones
o registros numéricos, por ejemplo: los puntajes de los tests para medir inteligencia y otras
aptitudes, la longitud del recorrido de un ratón en un laberinto, los tiempos de reacción
frente a distintos estímulos, la cantidad de errores que se presentan en alguna actividad
motora, la cantidad de palabras memorizada, entre otras. De ahí la ingerencia de las
técnicas estadísticas en la investigación psicológica en donde siempre hay que
operacionalizar los constructos.
2. CONSTRUCTOS
Un constructo es una propiedad que se supone posee una persona, la cual permite explicar
su conducta en determinadas ocasiones. Como tal, el constructo es un concepto teórico,
hipotético. Por ejemplo, la inteligencia, la motivación, la creatividad, las actitudes, etc.
Los constructos se definen como propiedades subyacentes, que no pueden medirse en
forma directa, sino mediante manifestaciones externas de su existencia, es decir, mediante
indicadores. En otras palabras, los constructos son variables subyacentes, por lo cual,
habitualmente, caen en la denominación común de variables.
Por su lado, las variables son propiedades, características o atributos que se dan en
grados o modalidades diferentes en las personas y, por derivación de ellas, en los grupos o
categorías sociales. Así, son variables, la edad, el ingreso, la educación, el sexo, la
ocupación, etc., que, como se ve, corresponden a grados diferentes o iguales de darse una
cierta propiedad en las personas o de darse en modalidades diferentes.
La psicología se caracteriza por el estudio de la conducta y de los atributos que subyacen a

la conducta del individuo. Estos atributos psicológicos, como los procesos mentales, no
pueden medirse directamente como hacemos con rasgos físicos tales como la altura o el
peso; son constructos o conceptos hipotéticos que forman parte de las teorías que intentan
explicar la conducta humana.
Debido a que los constructos psicológicos constituyen abstracciones de la realidad que

sólo pueden ser evaluadas indirectamente, el desarrollo del proceso de medición para este
tipo de variables presenta algunos problemas específicos.
• No hay una única aproximación a la medida de cualquier constructo que sea

universalmente aceptada. Ya que las medidas de un constructo psicológico son
siempre indirectas, basadas en conductas que se perciben como relevantes al
constructo, siempre existe la posibilidad de que dos teorías diferentes seleccionen
conductas diferentes para definir operacionalmente el constructo.
• Las medidas psicológicas generalmente se basan en muestras limitadas de conducta, lo

que plantea un importante problema a la hora de decidir qué muestras serían
adecuadas y cuáles insuficientes.
• La medida obtenida siempre está sujeta a error. Las medidas en Ciencias del
Comportamiento, como consecuencia de tomar muestras limitadas de conducta y de
trabajar sobre personas, cambian por efecto de factores muy diversos como la fatiga, el
olvido, el aburrimiento, etc.
• Escasez de unidades bien definidas en las escalas de medida a las que se ajustan las
variables psicológicas.
• Los constructos psicológicos no pueden ser expresados exclusivamente en términos de

definiciones operacionales sino que también deben haber demostrado relaciones con
otros constructos o fenómenos observables. Se hace necesario un segundo nivel en el
que los constructos sean definidos en términos de sus relaciones, ya lógicas ya
matemáticas, con otros constructos dentro de un sistema teórico amplio.
El grado en el que un individuo posee uno de estos atributos, solamente puede inferirse a
partir de la observación de su conducta. Este carácter no observable de la mayor parte de
las variables psicológicas, hace especialmente difícil el diseño de tests o instrumentos para
su medida. Lo cual sucede por ejemplo con la inteligencia, la creatividad, la dependencia
de campo, etc.
De esta manera el constructo debe tener cierta correspondencia con las conductas que se
derivan de él y la manera más objetiva de establecer este tipo de correspondencias una
vez que se han establecido los items es a través de la validez de constructo: la
determinación de que los ítems están referidos al constructo que se ha señalado, a su vez,
la correcta especificación del constructo en términos observables.
La validación de constructo, entendida como las evidencias que apoyan que las conductas
observables del test son indicadores del constructo, es el aspecto esencial de la validez y
permite unificar las otras categorías.
El proceso de definición de constructos ha sido uno de los principales aspectos que más
controversias ha creado, ya que siempre en las investigaciones ha sido uno de los
aspectos más olvidado, por considerarse algo privado-subjetivo, informal o indocumentado.
Estas conclusiones han sido avaladas por los estudios hechos al respecto sobre test de
logros, llevados a cabo por Cronbach (1970) o Roid y Haladyna (1980).
Este tipo de conclusiones nos lleva es a definir los constructos a partir de una serie de
comportamientos manifiestos, es decir, se piensa que un determinado constructo está
determinado de una manera y que a este constructo le corresponde una conducta, y se
afirma que después de establecer una serie de ítems con respecto a esta conducta, el
constructo está formulado y/o se corresponde con la realidad observada.
Los inconvenientes a este tipo de formulaciones o desarrollos, es que se pueden dejar
áreas de conducta sin cubrir, así como incluir una serie de conductas que no pertenecen en
realidad al constructo de interés.
De esta manera las formas más objetivas de desarrollar los constructos son las siguientes:
a) Análisis de contenidos. Se plantean una serie de cuestiones abiertas a los participantes

sobre el constructo que se quiere evaluar, y sus respuestas se clasifican en tópicos o
temáticas. Los tópicos predominantes se toman entonces como componentes mayores
del constructo y a su vez serán los que produzcan mayor proporción de ítems.
b) Revisión de las investigaciones publicadas. Se trata de realizar búsquedas bibliográficas

relacionadas con el tipo de variables que se quieren medir y establecer
aproximaciones con los items deseables en función de lo más representativo en la
literatura.
c) Incidentes críticos. Se trata de analizar los patrones característicos de los extremos del
continuo que se desea medir y en función de esto se redactan los ítems que permitan
graduar a los sujetos en un atributo determinado.
d) Observación natural. Observar las conductas relacionados con el constructo a medir en

situaciones naturales y usarlas para definir el constructo y las colaterales a la hora de
establecer los criterios de selección de items. Es análogo al proceso de elaboración y
construcción de categorías de observación propio del esquema de investigación
cualitativo-descriptivo.
e) Juicio de expertos. Recurrir a un experto –personas que tienen experiencia de primera

mano con todo aquello que tiene que ver con el constructo- en el tema para que nos
defina el constructo mediante el uso de cuestionarios o entrevistas estandarizadas.
f) Objetivos instruccionales o de programas de intervención. Es similar al anterior lo que lo

diferencia es la materia a la que va dirigida, en este caso se trata de materias
educativas y en concreto tests de instrucción y se recurre a juicios expertos para que
nos indiquen qué objetivos debe cubrir nuestra investigación, qué preguntas debe
llevar el cuestionario. Un objetivo instruccional especifica conductas observables que
se deberían de cubrir si el evaluado ha alcanzado el objetivo y por lo tanto conductas
que los estudiantes deben de ser capaces de exhibir después de haber completado un
curso de instrucción. Estos objetivos sirven para que la persona que construye el test
conozca los contenidos específicos en los que se focalizarán los ítems así como la
naturaleza de las tareas que los examinados deberían de ser capaces de realizar.
Como señalan Crocker y Algina (1989) estos métodos son algunos de los que
podemos usar para definir el dominio en el que estamos interesados, así como la
combinación de más de uno de ellos. No obstante hay que destacar que aunque
fundamentados en conceptos teóricos, la mayoría de estos procedimientos no se
aplican. Lo que puede deberse a cuestiones pragmáticas, ya que en los casos en los
que nos sustenta una buena teoría se tendrán menos costes y los beneficios serán
mayores, no obstante no hay que olvidar que la ciencia es más confirmatoria que
exploratoria.
En la formulación y plasmación de nuestra teoría además de ayudarnos de nuestro criterio

lógico del tema, hemos recurrido en algún momento a estudiosos del tema, que nos han
señalado las fuentes teóricas más importantes.
Es importante determinar el constructo o atributo, para determinar a su vez el grado en el

que un individuo posee determinado atributo, o este sirve para predecir otro tipo de
constructos. En otras palabras, es preciso plantearse el constructo en su complejidad y
adoptar decisiones en torno a la representatividad de los ítems de cara a muestrearlo
adecuadamente. Lo que requiere hacer una diferenciación entre medidas referidas a la
norma o al criterio.
Medidas como inteligencia, creatividad o desarrollo moral son de interés primario en cuanto
al grado en el que los individuos difieren en la cantidad de atributo. El desarrollo de tests
para diferenciaciones típicamente requiere:
• Conceptualización de los componentes mayores que representan el constructo (recordar

el apartado precedente).
• Producción de ítems en estas áreas.
• Selección de ítems en los cuales se espera un cierto grado de variación en función de la

ejecución. Es decir, que efectivamente se discrimine a los examinados por el grado de
manifestación del atributo/constructo. Uno de los análisis más importantes viene dado de
hecho por el índice de discriminación, tal y como se verá en temas posteriores.
En referencia al constructo, y a las conductas que son derivadas de él, y a partir de los
cuales se forman los items, se van a presentar una serie de items sobre los que se va a
producir al menos una mínima variación. Puesto que en esta perspectiva la construcción
del test viene dada por la comparación de la ejecución diferencial de los diferentes
examinados, estos tests son denominados como “referidos a la norma”.
En contraposición, en la medida en la que se establece como algo importante el logro del

propio sujeto con referencia a un objetivo externo, estamos imponiendo medidas con
respecto a criterios, es decir, test referidos al criterio. En estos casos la ejecución se mide
en términos más absolutos de capacidad, por ejemplo para determinar si se ha alcanzado
un nivel de competencia mínima en un aspecto académico para evaluar en general la
efectividad de un programa instruccional.
En este nuevo tipo de test, los métodos del apartado precedente son insuficientes para
definir adecuadamente el constructo. Más bien se procede de la siguiente manera:
• Se empieza fijando un conjunto de objetivos instruccionales.
• Se define un dominio de actuación, llamado domino del ítem, ligado a cada objetivo a
partir del cual poder hacer inferencias correctas sobre la base de las puntuaciones en
el test.
• Este dominio es su campo o esfera. Una población bien definida de ítems a partir de la
que se podría construir más de una forma –paralela- del test, por selección de una
muestra de ítems a partir de la misma. Por ello también se denomina a esta
aproximación como muestreo de un domino.
• Se opta por producir un conjunto de especificaciones del dominio del ítem más que
crear todos los posibles ítems uno por uno, de manera que sean tan estructurados que
al concretarlas en ítems concretos, éstos sean intercambiables.
Así se establecen una serie de métodos para describir los items referidos al dominio, pero
uno de los más comentados es referido a la especificación de los items. Este tipo de
procedimiento incluye:
• Especificar las fuentes de contenido del ítem.

• Descripciones del problema o del estímulo.
• Características de respuesta correcta.
• Y en el caso de respuestas de elección múltiple, la respuesta incorrecta.
3. OPERACIONALIZACIÓN DE CONSTRUCTOS
La operacionalización de constructos es el proceso que va de la definición de un concepto

al instrumento de medida.
Los constructos es una categoría, una abstracción que se define a través de la alusión a
otros conceptos, un concepto se define a partir de otros conceptos.
El grado de precisión de la definición de un constructo, va a depender de los conceptos que

se utilizan en su definición. Como un concepto se define a partir de otros, según las
relaciones que tengan entre ellos, de la teoría de los otros conceptos, dependerá la
precisión de un concepto, por ello cuanto mayor es el desarrollo de la teoría mayor será la
precisión en los conceptos.
Los conceptos no se pueden medir directamente, se miden las definiciones operativas de

ese concepto, por ello los conceptos requieren operacionalización.
Los conceptos que se manejan en enfermería son vagamente definidos.
Constructo ---- Facetas ---- Dimensiones ---- Indicadores de definiciones operativas.
El Concepto se puede situar en una escala en arreglo a su complejidad y esto depende de

las facetas que contenga.
Facetas o factores de un concepto: son los diferentes aspectos que componen un

concepto, organizados y en estrecha relación entre ellos. No todos contribuyen de la misma
forma ni en el mismo grado. Ejemplo: Satisfacción - trato. Facetas que lo componen:
información, pericia, continuidad cuidados, organización de los cuidados, etc.
Dimensiones: miden los aspectos o facetas, es lo medible dentro del concepto. Ejemplo: se
mide la frecuencia, la intensidad, el ritmo, el ciclo, etc.
Indicadores: son las características observables. Es traducir un concepto en valoración

numérica. Ejemplo: la risa, el llanto, la agitación.
Los hay mejores y peores, para valorarlo hay que tener en cuenta ver un conjunto de
criterios:
Kerlinger (1988, 3ª edic.) dice que los constructos pueden ser definidos usando otros
constructos Por ejemplo, al definir inteligencia como “la aptitud para pensar en forma
abstracta” o como “agudez mental”. Una definición es constitutiva cuando define un
constructo por medio de otro constructo. Por ejemplo, definir “ansiedad como miedo
subjetivo”. Según Torgerson (1958) todos los constructos para ser útiles científicamente
deben poseer un significado constitutivo.
Existen otro tipo de definiciones que son las definiciones operacionales. Una definición
operacional de un constructo se refiere a las operaciones mediante las cuales un
investigador determina la presencia o ausencia (o la magnitud) de un fenómeno. Estas
operaciones son mediciones o registros numéricos, por ejemplo: los puntajes de los tests
para medir inteligencia y otras aptitudes, la longitud del recorrido de un ratón en un
laberinto, los tiempos de reacción frente a distintos estímulos, la cantidad de errores que se
presentan en alguna actividad motora, la cantidad de palabras memorizada, entre otras. De
ahí la ingerencia de las técnicas estadísticas en la investigación psicológica en donde
siempre hay que operacionalizar los constructos para poder estudiarlos.
4. TABLA DE ESPECIFICACIONES
En definitiva, se construye una tabla de especificaciones cruzando contenidos y operaciones

y se detallan los ítems para cada combinación, indicando en los márgenes la proporción de
ítems de cada categoría o contenido cubierto.
"Una tabla de especificaciones sirve para relacionar los objetivos con la evaluación”.
Una tabla de especificaciones representa la forma en que la prueba será diseñada, es un plano
previo de ella o un esbozo del alcance y énfasis respecto de los contenidos y objetivos vistos
en clase y en un determinado período lectivo.
Es una modalidad de planificación.

Permite orientar la confección de un instrumento evaluativo
Cautela una representatividad a un nivel muy específico.
Considera como elementos centrales: las conductas y contenidos de los objetivos a evaluar, el
número de ítemes, el tipo, su puntuación y el tiempo que involucra la respuesta de cada uno
de ellos.
a. CARACTERISTICAS DE LA TABLA DE ESPECIFICACIONES
a. Tener en cuenta los objetivos pretendidos

b. Tener presente la materia o contenidos
c. Determinar la importancia relativa de cada objetivo y área para darles en el examen una
extensión proporcional a su importancia
d. Seleccionar el tipo de prueba más adecuada a la situación
e. Calcular el número de preguntas que corresponden a cada objetivo y área
f. Determinar el grado de dificultad de las preguntas.
g. Hacer un esquema general del examen.
TABLA DE ESPECIFICACIONES
Variable a Dimensiones
Definición Operacionalización Indicadores Ítemes
medir
Se consigna Definición del Miden los Se especifica el tipo Explicitar el Para pruebas
el constructo constructo, aspectos o de respuesta que se producto objetivas pueden
debe contener facetas, es lo requiere adecuado al del contenido ser:
categorías, medible dentro objetivo que hace requerido Completamiento
dimensiones o del concepto. referencia al proceso Jerarquización
capítulos Ejemplo: se subyacente: Verdadero falso
mide la Comprender, Aparejamiento
frecuencia, la analizar, deducir, Elección múltiple
intensidad, el inferir
ritmo, el ciclo,
etc.
Ejemplo de Variable: Paranoia

VARIABLE DEFINICION DIMENSIONES INDICADORES ITEM
TEORICA
Es una Desconfían de las Enunciados Afirmativos
psicosis personas Siempre sospecho si lo que me dicen no es
delirante verdad.
generalmente _No confió fácilmente en mis amigos
crónicas, _pienso que lo que realice yo siempre estará
cuya bien.
gravedad Enunciados Negativos
puede variar _Siempre acepto invitaciones de personas
según sea la que me llamen la atención.
estructura de _acepto los consejos de mis amigos porque
la sé que les intereso.
personalidad _no cuestiono las explicaciones que me dan
que se ve mis allegados.
afectada y se Abusan del Enunciados Afirmativos
organizan razonamiento _.Pienso que las personas que usan armas
como deductivo que pueden lastimarme.
desarrollos parten de los _creo que las personas que me miran mucho
delirantes. prejuicios están tramando contra mí.
1. COGNITIVA Forman sus Enunciados Afirmativos
propias _Siempre debo fijarse que nadie me este
creencias mirando mucho.
_ No debo sentarme cerca de otras personas
en el autobús.
_Si una persona saluda a mi enamorado(a)
antes que a mí, es porque está interesado en
PARANOIA él (la)
Piensan que los Enunciados Afirmativos
demás quieren _No comparto mis ideas porque sé que me
perjudicarlos las podrian robar.
_Las personas que se me acercan sin que les
llame deben estar planeando algo contra mí.
Enunciados Negativos
_siempre confió en los buenos deseos de los
demás
Tienen Enunciados Afirmativos
pensamiento _Siempre debo hacer lo que pienso sin
obstinado importar lo que lo digan los demás
_ Aunque todo este en contra de lo que yo
quiero hacer igual lo hago.
_Siempre defiendo lo que pienso aunque mis
argumentos ya no sean validos para otros.
_ cuando me doy cuenta que mis ideas no
son lógicas desisto de ellas.
_me desagrada aferrarme a algo que me
causa malestar.
Tienen la idea Enunciados Afirmativos
contante de que _ Sé que en algún momento alguien me
algo malo les querrá lastimarme.
podría suceder _ Debo cuidar mi salud siempre, porque
podría enfermar de algo grave.
_No exagero en mis cuidados personales.
_no me sugestiono con que algo malo me
sucederá.
_realizo mis actividades diarias sin la
preocupación de que una desgracia me
asecha.
pensamiento _Pienso que sólo hay una manera de resolver
rígido un problema.
_ Escucho los consejos de los demás pero
nunca les tomo interés.
_siempre busco diferentes alternativas para
resolver un problema.
pensamiento _Si una persona no me apoya significa que no
extremista. me estima.
_Si una persona no es mi amiga entonces es
mi enemiga.
_si una persona piensa distinto de mí no
significa necesariamente que este
equivocada.
Piensan que sus Enunciados Afirmativos
ideas triviales _Creo que las cosas sin importancia nos
tienen una darán las respuestas que buscamos.
verdadera lógica _Me preocupo mucho porque sé que sólo así
me respetaran.
Tienen ideas de Enunciados Afirmativos
grandiosidad _Los demás deberían imitar todas mis
actitudes.
_en una reunión social siempre soy el punto
de atención.
_Las personas me tienen envidia porque
saben que soy la mejor.
_Pienso que todos tenemos algo especial
que demostrar.
Se preocupan _Siempre estoy atenta de las acciones de
por encontrar algunas personas que me pareciesen
las claves que sospechosas para desenmascararlos
revelan las _Utilizo artefactos como camaras, filmadoras,
intenciones de grabadoras para vigilar a ciertos individuos
los demás que no gozan de mi confianza.
_no me interesa observar demasiado a
alguien hasta que comenta un error.
Recuerdan Enunciados Afirmativos
constantemente _Recuerdo perfectamente un momento en mi
sus malas vida en el que me humillaron.
experiencias Enunciados Negativos
_No conservo aquellas experiencias que
fueron desagradables para mí.
Piensan que los Enunciados Afirmativos
demás tienen _Siempre llevo una vestimenta elegante
sus mismos porque sino las personas me criticaran.
prejuicios _Mis amigos (as) no se acercan a las
personas de color porque saben que son de
mal vivir.
_ Al dialogar con alguien noto que esta
cuidando de no mencionarme detalles íntimos
de su vida.
_Las personas no dan datos importantes de
su vida
Por temor a que se aprovechen de ello.
Piensan que Enunciados Afirmativos
razonan mejor _Nadie que conozco es tan analista como yo.
que los demás _Mis conclusiones siempre son las más
acertadas.
_para realizar un trabajo pienso que dos
cerebros piensan mejor que uno
Creen que Enunciados Afirmativos
merecen mayor _Siempre espero que me saluden primero
respeto que los antes de hacerlo yo.
demás _No me agrada tener que esperar turno para
que se me atienda.
_pienso que todos tenemos los mismos
derechos.
Se preocupan Enunciados Afirmativos
en exceso de la _no me es suficiente las explicaciones de mi
fidelidad de pareja.
quienes los _Siempre exijo pruebas para poder creer en
rodea lo que me dicen.
_vigilo a mi pareja para comprobar si lo que
me dice es cierto.
_no dudo de las explicaciones de mi pareja
_ no necesito seguir a alguien para creer en lo
que me dice.
Temen dar Enunciados Afirmativos
información que _temo que si comparto mis vivencias lo usen
pueda ser para dañarme.
utilizada como _siento angustia cuando alguien quiere ser mi
arma por sus amigo.
enemigos.
LECCION 4
ELABORACION DE LOS ITEMS
1. INTRODUCCION
Mientras que la mayoría de los atributos físicos (altura, peso, etc.) resultan directamente
medibles, los atributos (constructos o rasgos) psicosociales resultan ser
conceptualizaciones teóricas que no son accesibles a la medición directa y para los que no
existen "metros" o "balanzas" diseñados para medirlos de manera precisa. La actitud hacia
el aborto, el nivel de cohesión grupal, el grado de extroversión, el cociente intelectual, la
postura hacia el consumo de drogas, el grado de liderazgo, todos ellos son constructos que
deben medirse mediante instrumentos específicamente diseñados: los tests, cuestionarios
o inventarios. Nadie dudaría de que un metro bien diseñado mide longitud y que lo hace de
manera precisa, pero la bondad y la precisión de un cuestionario no se puede presuponer;
más bien son una cuestión de grado y siempre susceptibles de mejora.
En definitiva, un cuestionario está formado por una serie de elementos o ítems (elementos,
reactivos, preguntas, cuestiones, situaciones análogas) a los que cada individuo debe
responder. Después de cuantificar las respuestas de una persona a los elementos del
cuestionario, se pretende asignar una puntuación (a veces varias) a esa persona respecto
al constructo o atributo que se pretende medir con el cuestionario, una puntuación que
debería indicar el grado en que la persona participa del atributo, constructo o rasgo a
evaluar.
Nos enfrentamos así a un proceso de medición indirecta que incluye la misma construcción
del instrumento de medida, proceso que se inicia con la definición clara del constructo a
evaluar.
2. ELABORACION DE ITEMS
Conjunto de enunciado, cuyo objetivo es medir las características de un constructo.

Es una unidad básica de información de un instrumento de evaluación y generalmente
consta de una jerarquía y de una respuesta cerrada o abierta.
La definición de cada ítem ha de ser exhaustiva y mutuamente excluyente. Por otro lado, al
formular la pregunta deben tenerse en cuenta factores como la comprensión, así como la
aceptabilidad para el paciente.
Se deben utilizar preguntas breves y fáciles comprensión. No emplear palabras que
induzcan una reacción estereotipada. No redactar preguntas en forma negativa. Evitar el
uso de las interrogaciones (por qué). No formular preguntas tan obvias. Evitar preguntas
que obliguen el uso de cálculos o memoria. Los ítems deben de ordenarse de acuerdo a su
complejidad.
Según lo afirman Tornimbeni (2004) existen pautas convencionales para la redacción de

ítems de prueba. Estas incluyen recomendaciones tales como: redactar ítems congruentes
con el objetivo de medición y evitar los ítems demasiado largos (de más de 20 vocablos),
las oraciones complejas con ambigüedades de sentido, las frases con dobles negaciones,
el uso de expresiones extremas (nunca, siempre, todos) y utilizar el lenguaje más
apropiado al nivel de maduración y educativo de la población (Osterlind, 1990).
Para Nunnally (1991) los dos errores más comunes en la redacción de ítems son: a)
ambigüedad (preguntas difusas que admiten varias respuestas) y b) trivialidad (centrarse
en aspectos poco importantes del rasgo o dominio en cuestión).
Existen formatos de selección de respuesta y de construcción de respuesta, los primeros
facilitan la calificación automatizada y pueden aplicarse con facilidad a gran cantidad de
evaluados. El formato de selección de respuesta en presentar una elección de respuestas y
requerir la selección de una alternativa. Existen tres tipos: los ítems de opción múltiple, los
ítems de relación y los ítems de verdadero/falso. Un reactivo de opción múltiple consta de
tres elementos un enunciado o base del ítem, una alternativa u opción correcta o clave y
varias alternativas u opciones incorrectas llamadas distractores.
3. REGLAS GENERALES
a. Verificar que el ítem corresponda con los propósitos de la evaluación, la estructura de

la prueba y con las dimensiones disciplinares Todas las preguntas de una prueba
deben ser independientes entre sí.
b. La información de un ítem no debe servir de pauta para contestar otra, ni la respuesta a
un ítem debe depender de haber encontrado primero la de otra anterior.
c. Evitar los ítems que pueden contestarse por sentido común y aquellos cuya respuesta
dependa únicamente de recordar un término, un símbolo, un dato o la fecha en que
ocurrió un evento.
d. Evitar expresiones rebuscadas que puedan confundir. Se recomienda emplear un
lenguaje directo, sencillo y comprensible.
e. Los ítems no deben tener juicios de valores explícitos o implícitos.
4. REGLAS SOBRE LOS ENUNCIADOS
a. Los enunciados deben ser afirmativos, en caso de ser necesaria la negación, se debe
resaltar para llamar la atención hacia la formulación negativa. La doble negación afecta
la comprensión (“No es cierto que no procedan los recursos”).
b. Evitar enunciados demasiado extensos y poco atractivos ya que desmotivan la lectura,
disminuyen el tiempo de respuesta y fatigan.
c. Garantizar la coherencia interna del enunciado y de este con las opciones de
respuesta.
5. REGLAS SOBRE LAS OPCIONES
a. Las opciones de respuesta deben pertenecer al mismo campo semántico.

b. Las opciones de un ítem no deben dar indicaciones sobre la clave por ofrecer un cierto
contraste evidente de:
o longitud precisión / imprecisión
o uso común / técnico
o generalización/particularización
c. No se deben repetir expresiones en las opciones de respuesta, si éstas se pueden
incluir en el enunciado del ítem. Repetir la misma palabra del enunciado en cualquiera
de las opciones lleva a que sea elegida como respuesta, sin serlo necesariamente.
d. Debe evitarse en las opciones las expresiones “todas o ninguna de las anteriores”, en
su lugar es necesario construir alternativas de respuesta plausibles para las personas
que no tengan el dominio conceptual que exige el ítem.
e. Realizar una revisión gramatical y ortográfica de cada uno de los Ítems.
6. REACTIVOS DE ENSAYO
a. Requieren menos tiempo para la elaboración

b. Reducen la probabilidad de que los examinandos respondan en forma correcta a los
reactivos por simple adivinación.
c. A veces son tan generales que pueden ser interpretadas de manera diferente por
diferentes personas.
d. El número de preguntas que pueden ser respondidas generalmente en una clase
puede ser insuficiente para determinar el conocimiento que tiene una persona de la
materia de la prueba.
e. Otra desventaja que presentan las pruebas de ensayo son la susceptibilidad al engaño
por los individuos con facilidad de palabra que no cuentan con información
f. Su calificación es subjetiva y lleva mucho tiempo.
g. Como regla general no deberán usarse reactivos de ensayo cuando el mismo
conocimiento o habilidad puedan ser evaluados por reactivos objetivos.
h. Cuando se plantean preguntas de ensayo, la persona que redacta los objetivos debe
tener en cuenta una serie de indicaciones para tratar de hacer las preguntas de manera
tan objetiva como sea posible:
o Definir la tarea y redactar los reactivos de manera clara
o usar un número pequeño de reactivos que deberán responder todos los
examinados
o estructurar la respuesta de los reactivos de forma que los expertos en la materia
estén de acuerdo que una respuesta es mejor que otra
o hacer que los examinandos respondan a cada reactivo en una hoja por separado
7. REACTIVOS DE RESPUESTA CORTA, DE VERDADERO Y FALSO Y DE

APAREJAMIENTO
a. Pueden calificarse de manera fácil e imparcial

b. Permiten un muestreo más amplio del contenido que en las pruebas de ensayo.
c. Al preparar las pruebas objetivas debe tenerse cuidado de lograr que los reactivos
resulten claros, precisos y gramaticalmente correctos.
d. Las personas que redactan reactivos deben tener sumo cuidado de no incluir claves
para las respuestas correctas y evitar los reactivos interrelacionados o entrelazados.
o Dos reactivos están interrelacionados cuando el planteamiento de uno proporciona
una señal para la respuesta del otro.
o Dos reactivos están entrelazados cuando es necesario conocer la respuesta a uno
de ellos para llegar a la respuesta correcta del otro.
8. REACTIVOS DE RESPUESTA CORTA
a. Se encuentran a caballo entre los reactivos de ensayo y los reactivos de

reconocimiento.
b. Se plantea una tarea en la que se requiere que los examinados completen uno o más
espacios en blanco de una afirmación incompleta con las palabras o frases correctas, o
que den una respuesta breve a una pregunta.
c. Tienen serias limitaciones :
o Son inapropiados para medir objetivos instruccionales complejos
o Debido a que puede haber más de una respuesta correcta, la calificación no
siempre es por completo objetiva
d. Al elaborar reactivos de respuesta corta deberán seguirse las siguientes directrices:
o Las preguntas directas son preferibles a las afirmaciones incompletas.
o Plantee los reactivos de forma que las respuestas sean breves y no ambiguas.
o Si se utiliza información incompleta, coloque el espacio en blanco al final de la
afirmación.
o Haga que todos los espacios en blanco sean de la misma extensión.
o Evite usar múltiples espacios en blanco en el mismo reactivo, en especial si es
poco claro el significado de la tarea.
o Indique las unidades en que se deben expresar las respuestas numéricas.
9. REACTIVOS DE VERDADERO Y FALSO
a. Es de los más sencillo de elaborar

b. Permiten un amplio rastreo del contenido de la materia
c. Inconvenientes:
o Se interesan por información trivial o se elaboran copiando afirmaciones literales
de un texto.
o Fomentan la memorización
o Son de carácter ambiguo
o No pueden usarse para medir objetivos instruccionales más complejos.
o Debido a que la calificación total de una prueba de este tipo, puede estar afectada
por la tendencia del examinado a adivinar, la precisión de la calificación puede ser
cuestionable.
d. Sirven para afirmar el grado de dominio que tienen los estudiantes en un área particular
del conocimiento
e. Si los reactivos están bien diseñados, pueden medir más que la simple memoria. Para
ello podemos preguntar si:
o un concepto, condición o evento implica o es una consecuencia de otro evento
o un concepto, condición o evento es un subconjunto, ejemplo o categoría de otro
evento
o ambos conceptos, condiciones o eventos son verdaderos
f. A la hora de elaborar reactivos es recomendable que atendamos a las siguientes
sugerencias:
o Las afirmaciones plantean asuntos importantes, de un carácter que no es rival.
o Afirmaciones relativamente cortas, y verdaderas o falsas sin lugar a dudas.
o Evitar los reactivos planteados de forma negativa, especialmente los de doble
negación.
o Evitar los reactivos ambiguos y capciosos.
o Evite los determinantes específicos del tipo nunca, siempre, a menudo, en
ocasiones…E n caso de que se usen deben incluirse tanto en las afirmaciones
verdaderas como en las falsas.
o En las afirmaciones de opinión, cite la fuente.
o Las afirmaciones verdaderas y las falsas deben ser aproximadamente de la misma
longitud y el número de afirmaciones verdaderas debe ser similar al de las falsas.
o Las respuestas erróneas debemos plantearlas de modo más atractivo que las
falsas, de tal manera que los errores populares o los determinantes específicos
sugieran que las respuestas erróneas son correctas.
10. REACTIVOS DE EMPAREJAMIENTO
a. Tanto los reactivos de verdadero y falso como los de opción múltiple son en cierto
sentido, variedades de los reactivos de aparejamiento.
o La tarea del examinando en un reactivo de aparejamiento es acoplar las opciones
con la respuesta correcta.
o El aparejamiento normalmente es uno a uno, pero también puede ser de una
respuesta a varias premisas, de varias respuestas a una premisa o de varias
respuestas a varias premisas.
b. Lamentablemente los reactivos de aparejamiento se utilizan normalmente para la
memorización de acontecimientos.
c. Para la elaboración de los reactivos de acontecimiento es preciso que tengamos en
cuenta una serie de consideraciones:
o Ordenar la premisa y las opciones de respuesta en un formato claro y lógico de
columnas.
o Usar entre seis y quince premisas, con dos o tres opciones de respuesta más que
premisas.
o Numerar las premisas de manera sucesiva y colocar letras (a, b, etc.) antes de las
respuestas
o Especificar con claridad las bases para realizar el aparejamiento.
o Colocar todo el reactivo en una sola página.
d. Hay dos tipos especiales de reactivos de aparejamiento el reactivo de reordenamiento,
en el cual se requiere que los examinados clasifiquen un número fijo de categorías
predeterminadas. También hay otro tipo de reactivos conocidos como reactivo de
rango, los individuos reordenan un conjunto de opciones en orden de la primera a la
última (de la más alta a la más baja).
11. SELECCIÓN MÚLTIPLE CON ÚNICA RESPUESTA
Las partes básicas de un ítem de selección múltiple son el contexto, el enunciado y las
opciones de respuesta, como se muestra en el gráfico.
a. CONTEXTO
Es la información que sitúa conceptualmente al evaluado. Provee elementos
necesarios y suficientes para focalizar la tarea de evaluación. En un sentido amplio, el
contexto abarca todo el saber previo del evaluado sobre el objeto de evaluación; no
obstante, en el proceso de elaboración de un ítem, es usual que el evaluador encuentre
pertinente y necesario presentar un texto u otro tipo de información que contribuya a
precisar las condiciones del problema, las variables que es prudente considerar, o para
ubicar en el tiempo y en el espacio la problemática, etc. El contexto puede ser un texto
–por ejemplo, en ítems de comprensión de lectura-, una gráfica, un dibujo, una tabla o
cualquier otra forma de presentación de la información a partir de la cual se deriva el
enunciado. La selección o elaboración del contexto es una labor exigente en cuanto su
propósito es justamente contextualizar y no confundir al evaluado; debe estar articulado
con la tarea de evaluación y no debe convertirse en factor que disminuya del tiempo
disponible para responder; es decir, su extensión y complejidad deben considerarse,
también, a la luz de las condiciones logísticas de la evaluación.
b. ENUNCIADO
Es el planteamiento, propiamente dicho, de la problemática que se espera sea resuelta
por el evaluado. En el enunciado se hace explícita la tarea de evaluación y, por tanto,
dirige el esfuerzo del evaluado para generar o seleccionar una respuesta, por lo cual es
fundamental que esté escrito en lenguaje claro y preciso.
Tradicionalmente los enunciados de ítems de selección múltiple se plantean en forma
de pregunta, o como una proposición. En el primer caso, las opciones se redactan
como respuestas a la pregunta; en el segundo caso, el enunciado constituye la primera
parte de una proposición y cada una de las opciones debe completar coherentemente
el enunciado.
La utilización de una u otra forma de plantear el enunciado es decisión del evaluador y
generalmente tiene que ver con la facilidad para redactar, tanto el enunciado como las
opciones. Conviene tener en cuenta, eso sí, que la redacción en forma de pregunta
resulta mucho más clara para poblaciones infantiles; es decir, los niños parecen
responder mejor a la tarea de evaluación cuando el enunciado es una pregunta que
cuando es una proposición incompleta. Cualquiera sea la forma en que se redacte el
enunciado, es importante verificar su claridad, precisión y articulación con las opciones
de respuesta.
c. OPCIONES DE RESPUESTA
Las opciones son posibles respuestas a la problemática planteada en el enunciado. En
el formato de selección múltiple con única respuesta, como su nombre lo indica, sólo
una de estas opciones es verdaderamente pertinente y completa para solucionar el
problema –tarea de evaluación-; las demás opciones, aunque pueden ser vistas como
respuestas plausibles por los evaluados que no dominan la tarea de evaluación, no
responden en forma completa o pertinente a la problemática formulada.
Otros formatos de selección admiten más de una opción como respuesta válida. En la
actualidad, cada vez con más frecuencia, los instrumentos de evaluación educativa
incorporan formatos de ítems en los cuales cada opción de respuesta es ponderada de
acuerdo con su grado de validez o pertinencia; es lo que se denomina ítems de crédito
parcial, y su elaboración supone que todas las opciones son respuestas válidas,
aunque cada una en distinto grado, dependiendo de diferentes condiciones planteadas
o posibles de inferir del contexto y del enunciado. Se busca con este tipo de ítems, más
que valorar, en una categorización dicotómica, si el evaluado respondió o no respondió
a la tarea de evaluación, que sea posible identificar perfiles o estilos de desempeño.
12. REGLAS PARA LA ELABORACIÓN DE ÍTEMS DE SELECCIÓN MÚLTIPLE CON ÚNICA
RESPUESTA
a. ASPECTOS GENERALES
• No es recomendable trabajar contrarreloj cuando se busca tener un instrumento de

calidad. Haga una programación juiciosa de todas las fases del diseño del
instrumento y, particularmente, de la fase de elaboración de ítems contemplando
tiempos de revisión, ajustes y edición.
• Conforme el equipo de trabajo con base en las competencias de cada miembro y en
su saber sobre el objeto de evaluación; el dominio en la disciplina o campo que se
evaluará debe combinarse con el conocimiento en medición y evaluación. En lo
posible, cuente con el apoyo de alguien con experiencia en el tema.
• Planee sesiones de inducción para quienes vayan a elaborar ítems y asegúrese de
que comprenden el propósito del instrumento y los demás planteamientos básicos del
marco de fundamentación y de las especificaciones de prueba. Si se trata de
personas sin experiencia, deben ser entrenados además en las técnicas de
elaboración de ítems.
• Un buen ítem, por lo general, ha experimentado toda una metamorfosis desde su
versión original. Durante la fase de elaboración de los ítems, realice sesiones de
socialización o análisis conjunto de los ítems elaborados por cada miembro del
equipo, con el fin de que cada uno tenga oportunidad de hacer aportes a la
cualificación de todos los ítems (tanto en lo que refiere a la forma como al contenido).
• Evite usar eufemismos y prefiera un lenguaje directo, sin sacrificar el nivel técnico y
académico del proceso. La claridad y concreción en el lenguaje debe ser una
consideración permanente; utilice dibujos, gráficos o tablas sólo si estos en realidad
aportan a la comprensión de la tarea de evaluación; tenga en cuenta el tiempo que el
evaluado debe emplear para leer instrucciones, contextos, enunciados y opciones, y
el tiempo total del cual dispone para responder.
• Asegúrese de que en ninguna parte del instrumento (portada, textos, instrucciones,
ítems, etc.) haya errores de ortografía, de gramática o de puntuación, que no se
incluya incorrectamente abreviaciones, citas, nombres, cifras, fechas, etc.
13. REGLAS SOBRE EL CONTENIDO DE LOS ÍTEMS
• Evite elaborar ítems que confunden al evaluado. Diferentes estudios han establecido
cuáles son algunas de las situaciones que llevan a percibir los ítems como confusos;
entre éstas están:
a) Contenido trivial
b) Presencia de información irrelevante
c) Presentación ambigua de las opciones de respuesta
d) Discriminación muy fina –difícil de percibir entre las opciones de respuesta
e) Presentación de información en modo distinto a como ha sido aprendida por la
población evaluada, dentro de su proceso educativo.
• Cada ítem debe corresponder a una tarea de evaluación definida en la estructura de

prueba.
• Evite evaluar el mismo aspecto específico con varios ítems. Aproveche cada ítem
para hacer cada vez más completa la evaluación.
• Plantee una sola problemática en cada ítem.
• Evite ítems que incluyan posiciones ideológicas o prejuicios; tenga en cuenta que las
proposiciones prejuiciosas pueden resultar en una ofensa para cualquiera de los
evaluados. Se exceptúa esta recomendación si justamente dichas posiciones son el
objeto de evaluación; entonces será obligatorio incluirlas.
• El vocabulario utilizado debe ser adecuado para la población objetivo.
• Cada ítem debe ser independiente y no proveer información para responder a otros.
• No utilice ítems que aparezcan en libros, revistas u otros documentos, como base
para sus ítems. Elabore ítems originales.
• Evite ítems en los cuales se indague la opinión (parecer no argumentado) del
evaluado (a menos que el instrumento justamente pretenda servir para un sondeo de
opinión).
• Evite plantear ítems cuya respuesta válida se determine según la opinión de quien la
elabora.
• Balancee la complejidad de los ítems para que el instrumento cubra los niveles de
habilidad de la población objetivo, es decir, la prueba debe incluir ítems de dificultad
alta, media y baja.
14. REGLAS SOBRE CONSTRUCCIÓN DEL ENUNCIADO

• Si plantea el enunciado en forma de proposición incompleta asegúrese de usar
conjugaciones verbales, género y número adecuados para las opciones de respuesta
que planteará. Si lo escribe en forma de pregunta asegúrese de usar adecuadamente
signos de interrogación y la estructura gramatical de una pregunta.
• Presente en el enunciado la tarea de evaluación.
• Escriba con claridad.
• Evite texto excesivo.
• Redacte el enunciado en forma positiva; es decir, evite negaciones.
15. REGLAS SOBRE CONSTRUCCIÓN DE OPCIONES DE RESPUESTA

• Asegure la concordancia gramatical entre la proposición del enunciado y cada opción.
• Organice las opciones en un orden lógico (alfabético, longitud, etc.) o numérico.
• Mantenga la independencia entre las opciones. Éstas no deben solaparse o
intersectarse y no deben ser sinónimas.
• Refiérase en todas las opciones al problema planteado en el enunciado. Evite opciones
fácilmente descartables.
• Elabore opciones de respuesta de longitud similar.
• Evite colocar como opción:
- Todos los anteriores
- Ninguno de los anteriores
- A y B son correctas (o cualquier combinación de opciones)
- No sé
• Redacte las opciones en forma positiva, es decir, evite negaciones. Si debe colocar una
negación, resáltela (use negrilla o mayúsculas sostenidas).
• No repita en las opciones frases contenidas en el enunciado.
• Elabore ítems con 4 opciones de respuesta. Elaborar opciones plausibles es
dispendioso; seguramente ganará calidad en las que redacte si no son demasiadas.
Hay referencia de distintos estudios que analizaron la cantidad de opciones útiles para
los propósitos de evaluación12 13 ; si bien no existe consenso alrededor de un único
número de opciones, se encuentra a menudo conveniente, en cuanto a facilidad de
redacción y capacidad de discriminación, trabajar con 4 opciones; para poblaciones de
infantes puede ser conveniente usar 3 opciones.
• Evite en las opciones el uso de adverbios como: “Siempre” “Nunca” “Totalmente”
“Absolutamente” “Completamente”
• La posición de la opción válida debe balancearse entre todos los ítems del instrumento.
Es recomendable que aparezca proporcionalmente en cada posición posible.
• Evite que la opción válida pueda ser identificada fácilmente por contraste con las demás
opciones, por alguna de las siguientes situaciones:
- tener la mayor longitud
- ser la proposición de mayor precisión o imprecisión
- estar redactada en un tipo lenguaje diferente (técnico o común)
- tener el mayor nivel de generalización o de particularidad
- tener las mismas palabras que el enunciado
- referirse a una problemática o tema diferente
• Justifique adecuadamente cada una de las opciones para garantizar que sólo hay una
válida y que las demás son plausibles para quienes no dominan completamente la
tarea de evaluación
16. FORMACIÓN Y REPRODUCCIÓN DE UN TEST
Antes de formar un prueba deben tomarse decisiones finales sobre asuntos tales como si
la longitud de la prueba se ajusta para los límites de tiempo, la agrupación u ordenación de
los reactivos en las páginas del cuadernillo de prueba, dónde se marcarán las respuestas,
la reproducción del cuadernillo de la prueba y la hoja de respuestas, la información que
debe incluirse en las instrucciones de la prueba.
a. Extensión de la prueba
Hay que tener en cuenta los límites de tiempo, el grado y nivel de lectura de los
examinados, la extensión y dificultad de los reactivos.
o La experiencia previa con reactivos del mismo tipo general que los incluidos
en una prueba es un indicio que nos ayuda a determinar si los límites de
tiempo son apropiados.
o Responder a una pregunta de opción múltiple lleva el mismo tiempo que
contestar a 2 de V – F
o A menos que los reactivos sean muy largos o demasiado difíciles la mayoría de
los estudiantes terminarán la prueba en el tiempo asignada.
o Existen diferencias entre los estudiantes en cuanto al tiempo que requieren
para terminar una prueba.
Hay un conjunto de factores que interaccionan entre sí (preparación, personalidad,
estado emocional y físico del estudiante, naturaleza, dificultad del material de la prueba
y del ambiente del examen) haciendo difícil predecir cuánto tiempo le llevará a un
alumno terminar una determinada prueba.
b. Ordenamiento de los reactivos
o Es un indicio que tienen en consideración los estudiantes cuando están indecisos

de qué respuesta es más probable. De hecho es más posible que elijan las
opciones b y c que otras como a y d.
o Es aconsejable ordenar los reactivos de opción múltiple y de verdadero y falso de
tal manera que no sigan un patrón, por ejemplo ordenarlos por orden alfabético o
aleatorizando las opciones.
o En los reactivos de aparejamiento o reordenamiento, la tarea de los examinados no
es tan ardua para el examinado si colocamos todas las premisas y opciones de
respuesta en la misma página.
o Colocar los reactivos de respuesta corta en grupos de cinco o algo así también
puede reducir los errores al presentar y cualificar una prueba.
o Debe proporcionarse espacio suficiente para responder a los reactivos de
respuesta corta y a los de ensayo.
o Podemos suponer que la tarea de los examinados es más sencilla cuando se
agrupan juntos reactivos del mismo tipo, pero la evidencia al respecto no es
concluyente.
o En aquellas pruebas que contienen reactivos objetivos y reactivos de ensayo, estos
últimos suelen colocarse al final puesto que requieren más tiempo y diferentes
procesos de pensamiento que los primeros.
o El principal objetivo de los diseñadores debe ser preocuparse menos por el
ordenamiento de los reactivos e interesarse más en asegurarse de que están bien
escritos y que miden lo que se supone que deben medir.
c. Hoja de respuestas
o En la mayoría de las pruebas que se administran en un aula, especialmente en los

primeros grados, es aconsejable que los estudiantes marquen o escriban sus
respuestas en el cuadernillo de la prueba ya que ello genera menos errores al
indicar la respuesta.
o En los reactivos objetivos también facilita la calificación el hecho de que los
examinados escriban las letras o respuestas en los espacios marginales
situados a la izquierda de las preguntas.
o Las hojas de respuesta por separado, que son más fáciles de calificar, pueden
usarse a partir de los últimos años de la escuela elemental.
d. Instrucciones en los tests
o Es aconsejable escribir las instrucciones en negrita para evitar que los

examinados las salten
o En una prueba individual las instrucciones se dan de manera oral.
o Indiferentemente de si las instrucciones se dan de manera oral o escrita, en ellas
debe informarse a los examinados sobre cuál es el propósito de la prueba, cómo
deben indicarse las respuestas, el tipo de ayuda que pueden esperar si no
entienden algo, tiempo que tienen para terminar la prueba, calificación de las
respuesta, si es recomendable adivinar cuando se tenga duda y cómo corregir si
cometieron un error.
o Cuando las instrucciones se den de manera oral deben leerse de forma lenta, clara
y exactamente como aparecen impresas. Además después de haber leído las
instrucciones debe permitirse a los examinados hacer preguntas.
o En las pruebas de respuesta múltiple hay una gran variedad de temas y/o
tipos de reactivos en los que es necesario dar instrucciones específicas de
cada parte. Las instrucciones que atañen a muchos de los mismos asuntos
pueden variar con el tipo de reactivos objetivos.
TERCERA UNIDAD
VALIDACION DE LOS TEST PSICOMETRICOS
LECCION 1
ANALISIS DE ITEMS
1. INTRODUCCION
Se aplica el pre-test, a una muestra representativa de la población o universo a la cual está

destinada la prueba y con los resultados que se obtengan se efectuará el análisis de
ítemes.
Los tests psicométricos deben satisfacer ciertos requisitos inherentes a todo recurso
destinado a la medición, con el objeto de que sus resultados presenten la mayor
correspondencia con la realidad. En tal sentido, los psicólogos tratan de demostrar que
sus pruebas miden realmente aquello para la cual fueron elaboradas; que dichas
mediciones contienen un margen de error estándar tolerable de medida y que los
resultados que nos ofrecen, permiten describir, clasificar y/o predecir algún aspecto del
comportamiento de los testados a los cuales se les ha aplicado dichos instrumentos.
Los procedimientos para satisfacer tales requisitos pueden diferir en mayor o menor grado,
pero todos suponen un análisis estadístico de parámetros que la psicometría utiliza
comúnmente. El análisis de ítemes es uno de los recursos básicos utilizados en la
construcción de instrumentos de medición utilizables en psicología, educación y otros
campos relacionados (Tavella, 1978).
Para su realización, el análisis de ítemes requiere de un psicólogo con conocimientos en

estadística. Si bien existen en la actualidad programas para computadoras con los que se
realizan sofisticados análisis de ítemes , cuyo paso superior es el análisis factorial, es
conveniente que el profesional psicólogo tenga un conocimiento detallado de estos
procedimientos de análisis para una mejor interpretación y evaluación de los resultados de
las pruebas.
2. ANALISIS DE ITEMS
Es el estudio de las propiedades de los elementos (preguntas) de un test directamente
relacionada con las propiedades de éste.
Es la capacidad que posee cada ítem para discriminar entre aquellos sujetos que alcanzan
objetivos buscado, nos permite determinar fácilmente el grado con que esta propiedad se
cumple.
Es un conjunto de procedimientos estadísticos que tienen por objeto conocer el

comportamiento de cada una de las unidades básicas del test (ítemes), y el de su conjunto.
El uso de recursos estadísticos y la interpretación de esa información permite asegurar la
validez, confiabilidad, eficiencia predictiva, etc., del test en construcción (Tavella, 1978).
El análisis de ítemes no implica un procedimiento mecánico, pero impone un riguroso

respeto a un conjunto de normas cuya violación perjudica la validez de los de los
resultados obtenidos con el análisis estadístico.
El análisis de ítemes puede realizarse también en un test ya construido como es el caso de

pruebas extranjeras que son traídos a nuestro país. En este caso, dichos tests deben ser
adaptados y luego sometidos a un análisis de ítemes para averiguar sus cualidades
psicométricas en nuestras poblaciones. Para efectuar dicho análisis, el psicólogo debe
obtener la información más amplia posible acerca de la prueba (debe consultar artículos
científicos, manuales, monografías, técnicas, etc.), lo cual permitirá orientar
productivamente la adaptación y el análisis.
Es determinar el funcionamiento real de cada uno de los ítems o preguntas de un examen,

y la frecuencia con que cada una de las posibles respuestas fue elegida por los sujetos.
3. Etapas del análisis de ítemes
a. El psicólogo debe seleccionar la muestra a la cual se aplicará el pretest para investigar

el comportamiento psicométrico de la prueba en su conjunto, de sus subtests (si los
hubiera), y de cada uno de los ítemes que componen los subtests y la totalidad del test.
Es necesario que dicha muestra sea extraída al azar (mediante las técnicas de
muestreo), de la población a la cual está destinada la prueba; la muestra debe tener un
tamaño suficiente (el psicólogo debe estudiar los tipos de muestreo probabilística y los
procedimientos para estimar los tamaños de muestras necesarios).
b. El psicólogo debe tomar las medidas necesarias para asegurarse que el pretest sea
administrado de acuerdo con los requisitos que permitan el máximo aprovechamiento
de la información recogida durante la aplicación. Entre las medidas más importantes
tenemos:
b.1 Antes de la aplicación, reunir y revisar los materiales: cuadernillos, protocolos u

hojas de respuesta, lápices, borrador, tajador, cronómetro, etc. El material debe
tener un número suficiente para los examinados y estar en estado impecable de
presentación.
b.2 Decidir que harán los examinados que terminan antes del tiempo previsto,
¿abandonarán el aula? ¿se les asignará una tarea adicional?, etc.
b.3 Organizar el lugar físico de la aplicación: ambiente adecuado, iluminación, frío,
calor, ventilación; prevenir interrupciones innecesarias; comprobar que todos los
examinados estén cómodamente sentados y separados suficientemente.
b.4 Distribuir los materiales a los testados (cuadernillos, etc.)
b.5 Pedir a los examinados que llenen toda la información solicitada en el protocolo u
hoja de respuestas.
b.6 Leer en voz alta las instrucciones de la prueba y la manera como los examinados
deben registrar sus respuestas (marcar un aspa, encerrar en un círculo, sombrear
espacios, etc.
b.7 Dar las instrucciones respecto de lo que deben de hacer los examinados que
terminan antes del tiempo previsto.
b.8 Comprobar durante la aplicación si los testados están registrando sus respuestas
adecuadamente o en la forma indicada.
b.9 Si surge un inconveniente con el contenido de alguna pregunta, la cual implique
una revisión rápida por parte de los examinadores, indicar al testado que, por el
momento pase al siguiente reactivo.
b.10 Es conveniente, por razones de seguridad y vigilancia, considerar un número
suficiente de ayudantes en la aplicación de las pruebas, que eviten cualquier
posibilidad de copia u acto doloso.
b.11 Concluida la aplicación, recoger ordenadamente los materiales empezando por los
protocolos u hojas de respuesta.
b.12 Luego, en un recinto cómodo, analizar cada hoja de respuesta minuciosamente y

observar:
 Si hay reactivos a los que se les ha dado más de una respuesta, tratar de
determinar si alguna de ellas es la que el probando considera válida y si esto
no es posible, anular todas las alternativas que el testado ha marcado.
 Señalar las respuestas omitidas o no contestadas tachando los espacios
vacios.
 En la calificación o cómputo, contabilizar las respuestas correctas y registrar el
puntaje directo, crudo o bruto en el espacio o recuadro correspondiente en el
protocolo u hoja de respuestas.
 Siempre que sea posible, verificar el cómputo, haciendo que otra persona
califique nuevamente los protocolos u hojas de respuestas.
c. El psicólogo debe planificar el registro y el tratamiento de la información, de acuerdo

con los medios disponibles para el tratamiento estadístico de los datos, en virtud a los
siguientes pasos:
c.1 Ordenar los protocolos u hojas de respuesta en estricto orden de méritos, desde
el puntaje más alto hasta el puntaje más bajo.
c.2 Elaborar una matriz de puntajes de itemes binarios o dicotómicos (conjunto de
hileras o renglones y columnas ordenadas de manera horizontal y vertical,
respectivamente), en donde, los datos correspondientes a las hileras
corresponden a la performance de cada uno de los testados; en tanto que la
información proveniente de las columnas corresponde al funcionamiento de los
ítemes).
c.3 Computar los valores “p” de cada ítem (proporción de respuesta correcta que
alcanzó cada reactivo), y “q” (proporción de respuesta incorrecta que alcanzó
cada item).
c.4Calcular la varianza de cada item, que implica multiplicar la proporción de
respuesta correcta por la proporción de respuesta incorrecta (pq), así como
también calcular la desviación estándar del item que implica la raiz cuadrada de
la varianza.
c.5 Computar si la distribución de puntajes sigue un patrón normal (campana o curva
de Gauss), a través de las pruebas de Kolmogorov-Smirnov, Ji cuadrada o los
coeficientes de asimetría (alfa 3) y curtosis (alfa 4).
c.6 Calcular la media o promedio aritmético, la varianza y la desviación estándar de
las puntuaciones totales del item (y de las parciales en el caso de que hubiera
subtests).
c.7 Computar los coeficientes de consistencia interna del test ( o de los subtests en
caso los hubiere), a través de los coeficientes Kuder Richardson (KR).
c.8 Calcular los índices de homogeneidad (IH) de cada reactivo a través de los
coeficientes de correlación entre el ítem y el test (representado por la columna de
puntaje directo o puntaje compuesto); en buena cuenta se trata de una
correlación item-test (rit). En caso de haber subtests, se calculará la
correlación tomando el valor del item del subtest con el puntaje total del subtest,
y luego la del item con el puntaje total del test.
c.9 Calcular la concomitancia entre el puntaje del subtest (si los hubiere), y el puntaje
total del test, a través del coeficiente de correlación de Pearson. El coeficiente
resultante debe ser corregido por la fórmula de corrección, dado que cuando se
relaciona un subtest con el test, el coeficiente tiende a “inflarse” y arrojar valores
espúreos ya que el puntaje del subtest también forma parte del puntaje del test.
c.10 Computar la intercorrelación de puntajes de los subtests (si los hubiere), a
través del coeficiente de correlación de Pearson. El coeficiente resultante no
debe sobrepasar el valor de 0.40.
c.11 Calcular la correlación entre los ítemes (correlación item-item; rii ), a través del
coeficiente de correlación de Pearson. También se puede utilizar la fórmula
abreviada del coeficiente fi.
c.12 Cuando no se dispone de tiempo para realizar todo el proceso de análisis de

ítemes, pueden efectuarse procedimientos simplificados utilizando o dividiendo a
la muestra en dos grupos: superior e inferior (sobre el punto, ver más adelante la
técnica simplificada de análisis de ítemes).
c.13 Un análisis de ítemes completo incluye representaciones gráficas (polígonos de
frecuencias, histogramas, etc.), de la distribución de frecuencias de los puntajes
totales (y de los subtests -si los hubiere-); asimismo, tabulación de las
proporciones de respuestas correctas de cada ítem, corregidas para el efecto del
azar y proporción (o análisis) de elección de cada uno de las opciones
incorrectas o distractores; también elaboración de matrices de varianzas y
covarianzas para los subtests (si los hubiere) y de varianzas y covarianzas para
los ítemes.
c.14 Computar la correlación múltiple entre el puntaje total del test y los puntajes de
los subtests (si los hubiere), con estimación de los coeficientes de regresión
parcial, para la ponderación de cada uno de los subtests.
c.15 Finalmente, es optativo la realización del análisis factorial de la matriz de
intercorrelaciones de los ítemes para establecer factores comunes (Tavella,
1978).
Los ítems o cuestiones se han formulado de manera lógica para que midan (y lo hagan
bien) el constructo, variable, o rasgo que interesa evaluar con el cuestionario. Ahora bien,
el grado en que cada ítem es un "buen medidor" del rasgo de interés es algo que se puede
comprobar estadísticamente de manera sencilla si obtenemos tres indicadores para cada
ítem:
a) El índice de dificultad.
b) El índice de homogeneidad.
c) El índice de validez.
Para ello, tras aplicar el cuestionario provisional a una muestra de sujetos representativa de
la población a la que va dirigida la prueba (se aconseja entre 5 y 10 veces más sujetos que
ítems), y una vez cuantificadas las respuestas de cada individuo, se forma una matriz de
datos de sujetos x ítems:
a. ÍNDICE DE DIFICULTAD DEL ITEM (ID)

Este primer indicador sirve para cuantificar el grado de dificultad de cada cuestión, por
lo que sólo tiene sentido calcularlo para ítems de tests de rendimiento óptimo (con
respuestas correctas e incorrectas).
La dificultad de un ítem se entiende como la proporción de personas que responden

correctamente un reactivo de una prueba. Entre mayor sea esta proporción, menor
será su dificultad.
Lo que quiere decir que se trata de una relación inversa: a mayor dificultad del ítem,
menor será su índice (Wood, 1960).
Este primer indicador sirve para cuantificar el grado de dificultad de cada cuestión, por
lo que sólo tiene sentido su cálculo para ítems de tests de rendimiento óptimo.
Para calcular la dificultad de un ítem, se divide simplemente el número de personas
que contestó correctamente el ítem entre el número total de personas que contestó el
ítem (correcta o incorrectamente). Usualmente, a esta proporción se le denota con una
p, e indica la dificultad del ítem (Crocker & Algina, 1986). Se calcula con la siguiente
fórmula:
Donde:
pi = Indice de dificultad del reactivo i
Ai = Número de aciertos en el reactivo i
Ni = Número de aciertos más número de errores en el reactivo i
El nivel medio de dificultad del examen debe oscilar entre 0.5 y 0.6, distribuyéndose los
valores de p de la manera siguiente: 5% de reactivos fáciles, 20% medianamente
fáciles, 50% con una dificultad media, 20% medianamente difíciles y 5% difíciles.
Indicadores:
Muy difíciles : ID<0.25 (10%)

Difíciles : ID >0.25 y <0.45 (20%)
Normales : ID >0.44 y <0.55 (40%)
Fáciles : ID >0.54 y <0.75 (20%)
Muy fáciles : ID >0.74 (10%)
El valor del índice de dificultad esta directamente relacionado con la media del test: la
media del test es igual a la suma de los índices de dificultad de los ítems.
El nivel o grado de dificultad de un ítem esta determinado por la proporción de sujetos,

respecto al total, que responden en forma correcta una determinada pregunta.
Este índice nos muestra que tan fácil (valores cercanos a 1) o difícil (valores cercanos
a 0) es la prueba.
En los tests de personalidad o actitudes no cabe hablar de índice de dificultad, pero

todo lo que hemos dicho del I.D. cabe afirmarlo respecto de la proporción de sujetos
que saturan con el atributo, esto es, que responden en el sentido de manifestar el
constructo que estamos midiendo.
Pero además, el I.D. puede utilizarse también para ofrecer una idea aproximada del
poder discriminativo de un ítem. Si la dificultad de un ítem es nula (es decir, I.D.=1),
querrá decir que esa cuestión es demasiado fácil y todos los sujetos la acertarán
independientemente de su nivel de conocimiento; es decir, ese ítem no sirve para
distinguir (discriminar) a los sujetos que “saben” de los que “no saben” por lo que no
puede considerarse como un buen elemento evaluador. Exactamente lo mismo ocurrirá
con un ítem que tenga un índice de dificultad de 0, es decir, tan difícil que no lo acierte
ningún sujeto de la muestra.
Así pues, los ítems idóneos para incluir en una prueba de rendimiento óptimo serán
aquellos que tengan un I.D. próximo a 0.5 (dificultad media y discriminación alta),
siendo además aconsejable incluir siempre algún ítem más fácil (colocados al principio
por razones obvias de motivación) y alguno más difícil (al final del cuestionario) para
garantizar el poder discriminativo general del test.
Interpretación: a medida que el ID aumenta, el ítem es más fácil (en propiedad habría
que llamarlo índice de facilidad); además, en muchos tests no tiene sentido de hablar
de ID, ej, los cuestionarios de personalidad, que no tienen respuestas acertadas o
erróneas
Limitaciones: el ID no es una propiedad intrínseca del ítem, su valor depende de la
muestra de sujetos a la que se aplique (la solución la da la Teoría de Respuesta a los
Ítems)
En ítems de elección múltiple, para corregir los efectos del azar, se suele utilizar la
fórmula:
A − E /( K − 1)
ID =
N
Donde:
A: Número de sujetos que aciertan el ítem
E: Número de sujetos que fallan el ítem

K: Número de alternativas del ítem
N: Número de sujetos que intentan resolver el ítem
La varianza de un ítem puede expresarse en términos de su ID: σj2 = PjQj, donde Pj

sería la proporción de sujetos que aciertan el ítem (su ID) y Qj = (1 – Pj). (la dificultad
media de los ítems maximiza su varianza)
b. INDICE DE HOMOGENEIDAD O DISCRIMINACION DEL ITEM (IH)
El índice de homogeneidad de un ítem nos informa del grado en que dicho ítem está
midiendo lo mismo que la globalidad del test; es decir, del grado en que es consistente,
homogéneo con el total de la prueba.
Dicho IH se define como la correlación existente entre las puntuaciones obtenidas por
los sujetos en un determinado ítem y la puntuación total de esos mismos sujetos en el
test completo.
Dado que el índice de homogeneidad de un ítem es un indicador del grado en que ese
ítem mide lo mismo que la prueba completa, es “coherente” con el total de la prueba,
habrá que eliminarlo si su I.H. está muy próximo a 0 ya que esto indicará que ítem y
prueba completa tienen muy poca relación entre sí; es decir, miden cosas
completamente diferentes. Por el contrario, los ítems cuya correlación con la
puntuación total sea cercana a 1 serán muy homogéneos, muy consistentes entre sí y
medirán todos lo mismo (como en el caso de los tres ítems utilizados en el ejemplo).
Si la prueba y un ítem miden la misma habilidad o competencia, podemos esperar que

quien tuvo una puntuación alta en todo el test deberá tener altas probabilidades de
contestar correctamente el ítem. También debemos esperar lo contrario, es decir, que
quien tuvo bajas puntuaciones en el test, deberá tener pocas probabilidades de
contestar correctamente el reactivo. Así, un buen ítem debe discriminar entre aquellos
que obtuvieron buenas calificaciones en la prueba y aquellos que obtuvieron bajas
calificaciones.
Usualmente, se utilizan dos formas para determinar el poder discriminativo de un ítem:

el índice de discriminación y el coeficiente de discriminación. Aunque hay varias
maneras equivalentes de calcular el índice de discriminación, en este trabajo
utilizaremos la siguiente fórmula:
Donde:
Di = Índice de discriminación del reactivo i
GA aciertos = Número de aciertos en el reactivo i del 27% de personas con las
puntuaciones más altas en el test.
GB aciertos = Número de aciertos en el reactivo i del 27% de personas con las
puntuaciones más bajas en el test.
N grupo mayor = Número de personas en el grupo más numeroso (GA o GB).
Indicador:
D > 0.39 Conservar

D entre 0.30 y 0.39 Bueno Mejorar
D entre 0.20 - 0.29 Regular Revisar
D entre 0.00 - 0.20 Pobre Descartar
D < -0.01 Pésima Descartar
Un ítem tiene poder discriminativo si distingue entre los sujetos que puntúan alto y los
que puntúan bajo en el test (si permite distinguir entre sujetos eficaces frente a
ineficaces).
Indica la capacidad del ítem para distinguir entre los sujetos de mayor conocimiento y
los de menor.
Este índice mide qué tan capaz es un ítem para medir las diferencias individuales;
desde el punto de vista de objetivo evaluado.
Proporciona un indicador bruto del desempeño en cada item por separado de los
respondientes competentes frente a los menos competentes
a. Correlación biserial-puntual (ρbp) (aplicación de la correlación de Pearson entre

una variable dicotómica y otra cuantitativa; fórmula:
µ p − µx p
ρ bp =
σ 2
x q
Donde:
μp: media en el test de los sujetos que aciertan el ítem
μx: media del test
σx: desviación típica del test
p: proporción de sujetos que aciertan el ítem
q : (1 – p).
Al calcular el índice de discriminación, a la puntuación total del test hay que descontarle
el ítem cuyo índice de discriminación se pretende hallar (X – j); en caso contrario, se
puede usar la siguiente corrección:
ρ jxσ x − σ j
ρ j ( x− j ) =
σ + σ x2 − 2 ρ jxσ j σ x
2
j
Donde:
ρj(x-j): correlación entre el ítem j y el test tras descontar el ítem (x – j)
ρjx: correlación ítem-test cuando el ítem está incluido en el test
σj: desviación típica del ítem
b. Correlación biserial (ρb): se usa cuando una variable no dicotómica se dicotomiza

(se pierde información)
µ p − µx p
ρb =
σx y
Donde:
μp: media en el test de los sujetos que aciertan el ítem
μx: media del test
p: proporción de sujetos que aciertan el ítem
y: ordenada correspondiente al valor de la puntuación típica en la curva normal
que deja por debajo un área igual a p
Notas: es una estimación de la correlación de Pearson, y puede dar valores superiores

a 1 si alguna de las variables es platicúrtica o bimodal.
La relación entre ρbp y ρb viene dada por:
c. Coeficiente phi (φ): es la correlación de Pearson para dos variables dicotómicas
d. Correlación tetracórica: ambas variables dicotomizadas y se asumen distribuidas

normalmente
e. Índice basado en las proporciones de aciertos:
d = Pc – Pi
Donde:
Pc: proporción de sujetos competentes (puntúan > Md) que aciertan el ítem
Pi: proporción de sujetos incompetentes que también aciertan el ítem
Relación con algunos parámetros del test

a) Variabilidad: la desviación típica del test está estrechamente relacionada con el
índice de discriminación de los ítems
n
σ x = ∑σ j ρ j ( x − j )
j =1
Donde:
σX: desviación típica del test
σj: desviación típica del ítem j
ρj(x-j): índice de discriminación del ítem j
Si los ítems son dicotómicos, su desviación típica vendrá dada por:

n
σ j = Pj Q j = Pj (1 − Pj ) sustituyendo: σ x = ∑ Pj Q j ρ j ( x − j )
j =1
Donde Pj es la proporción de sujetos que aciertan el ítem (su ID)
b) Fiabilidad: la fiabilidad de un test puede expresarse en:

α=
n 
1 − ∑ σ 2j 

n − 1  ( ∑σ j ρ j ( x − j ) ) 2 
 
O en el caso de que los ítems sean dicotómicos:

 
α=
n 
1−
∑P (1 − P )
j j 
n −1 

 [∑ρ jX Pj (1 − Pj ) ] 2 


En suma, los parámetros de los tests, poder discriminativo (σx) y fiabilidad (α)
pueden expresarse en términos del índice de dificultad de los ítems (Pj) y de su
índice de discriminación (ρjX)
c. INDICE DE VALIDEZ DE UN ITEM (IV)
Pretende expresar el grado en que un ítem es capaz de predecir (pronosticar) el

rendimiento de un sujeto medido a través de una variable externa elegida como
indicadora del mismo; por lo tanto, el índice de validez se calculará mediante la
correlación entre las puntuaciones de un grupo de sujetos en ese ítem y las
puntuaciones de esos mismos sujetos en la variable externa elegida como criterio de
validación.
El índice de validez de un ítem refleja el grado en que el ítem esta conectado con la
variable que el test intenta predecir (criterio).
La puntuación de los N sujetos en un ítem pueden correlacionarse también con las que
estos sujetos obtienen en un criterio de validación externa del test, esta correlación
define el índice de validez del ítem.
El criterio de validación es una medida diferente del test para reflejar el mismo rasgo u
otro muy relacionado, de tal manera que si el test mide lo que se pretende, debería
correlacionar de forma elevada con el criterio.
La conexión entre el índice de validez de los ítems y el coeficiente de validez del test la
da:
n
∑σ
j =1
j ρ jY
ρ xy = n
∑σ
j =1
j ρ jX
donde:
ρxy: coeficiente de validez del test
n: número de ítems del test
σj: desviación típica del ítem j
ρjY: índice de validez del ítem j
ρjX: índice de discriminación del ítem j
Si los ítems son dicotómicos, entonces: σ j = Pj Q j = Pj (1 − Pj ) y por tanto:

n
∑ρ
j =1
jY Pj (1 − Pj )
ρ xy = n
∑ρ
j =1
jX Pj (1 − Pj )
La fórmula anterior es muy importante, pues expresa el coeficiente de validez del test
en función de tres parámetros de los ítems: dificultad (Pj), discriminación (ρjX) y validez
(ρjY)
Una paradoja clásica: al maximizar la fiabilidad del test eligiendo ítems con índices de
discriminación elevados se rebaja el coeficiente de validez del test (cuanto mayores
son los índices de validez de los ítems del test menores son sus índices de
discriminación)
Comentarios finales:
1) no confundir índice de validez con la validez factorial de los ítems
2) ponderación de ítems: puede ser interesante a veces ponderar ítems: regresión
múltiple
3) en el proceso de selección de ítems que van a constituir el test definitivo:
(i) se da mayor error si se eligen ítems con índices de discriminación y validez
elevados
(ii) el índice de discriminación de un ítem es la correlación ítem-test y depende
no sólo del ítem sino del resto de ítems: selección de ítems en pasos o
etapas
LECCION 2
VALIDEZ DEL TEST
1. INTRODUCCION
La validez es un aspecto crucial de la medición psicológica y se relaciona con la

investigación del significado teórico de las puntuaciones obtenidas por medio de un test
(Oliden, 2003).
Las puntuaciones evidencian propiedades de validez cuando se verifica que el test

realmente mide el constructo que pretende medir, justificando adecuadamente las
inferencias realizadas en función de sus resultados (Nunnally, 1991).
Cuando estimamos la validez de un test, necesitamos saber qué rasgo deseamos que
mida. Este rasgo se llama variable de criterio. Nos interesa saber qué tan bien
corresponden las posiciones de los sujetos en la distribución de los puntajes obtenidos a
sus posiciones en el continuo que representa la variable de criterio (Magnusson, 1969).
La situación ideal en lo concerniente a la validez es que una prueba represente

adecuadamente y mida la varianza relevante del constructo, o dicho de otra manera, que
las interpretaciones de los resultados de un test estén libres de sesgo de medición (Pérez y
Olaz, 2008). En tal sentido, la teoría de la validez se relaciona con el concepto de sesgo,
definido como un error sistemático que produce distorsión en las puntuaciones adulterando
su significado teórico (Oliden, 2003). El hecho que las puntuaciones de un test sean
confiables es una condición necesaria pero no suficiente para que sean validas (Muñiz,
1998).
A pesar de su importancia, el concepto de validez es uno de los más complejos y

controvertidos de la teoría de los tests (Angoff, 1998; APA, 1999).
En la historia del concepto de validez pueden identificarse tres etapas principales (Pérez y
Olaz, 2008). Según estos autores, en la primera etapa llamada operacional predomina el
operacionalismo dominante de la epistemotología de la primera mitad del siglo XX. Aquí, la
validez tratada desde una perspectiva meramente predictiva es sinónimo de la correlación
entre las puntuaciones de un test y algún criterio que intenta predecir (Martínez Arias,
1995). Sin embargo, este tipo de validez no resultaba útil para muchas pruebas en donde
ellas mismas constituyen su propio criterio como en el caso de los tests de rendimiento lo
cual llevó a introducir el concepto de validez de contenido
La segunda etapa coincide con la publicación del trabajo de Cronbach y Meehl (1955), los
cuales consideran por primera vez la llamada validez de constructo como aspecto esencial
e inclusivo de las restantes dimensiones de la validez (Martínez Arias, 1995).
En este período se distinguen tres tipos de validez: predictiva, de contenido y de

constructo. La última etapa guarda relación con la versión de las Normas Técnicas para
los Tests Psicológicos y Educativos (APA, 1999), donde se define la validez como la
adecuación, significación y utilidad de las inferencias específicas hechas a partir de las
puntuaciones de los tests.
Asimismo, la APA (1999), propuso cinco tipos de evidencia de la validez, basadas en: el
contenido del test, la estructura interna del test, el proceso de respuestas al test, las
relaciones con otras variables externas al test y las consecuencias de su aplicación.
Para verificar la validez de las inferencias realizadas a partir de las puntuaciones de un test
se usan procedimientos similares a los utilizados para contrastar cualquier hipótesis
científica, es decir, el acopio de evidencias que confirmen o refuten esas inferencias (Pérez
y Olaz, 2008).
El producto final del proceso de validación es la medición de un constructo que: a)Esté bien
definido en términos de una variedad de observación y eventualmente, b)Se correlacione
con otros constructos de interés.
Como podemos apreciar la validez, como la confiabilidad y la consistencia, es un término

genérico que se da a una clase de conceptos y procedimientos estrechamente
relacionados. Desde esta perspectiva y como ya hemos visto, la validez se puede definir
en varios niveles y de diversos modos. En el caso de la validez de las pruebas hay que
tener en cuenta (Brown, 1980): 1)¿Qué es lo que mide la prueba? y 2)¿Hasta qué punto
mide la prueba lo que dice medir?. Inclusive, el sentido del concepto se puede comunicar
mediante diversos tipos de interrogantes a los que intentan responder los análisis de
validez (Brown, 1980): ¿qué rasgos está midiendo la prueba?, ¿mide la prueba el rasgo
para el que fue construida?, ¿qué se puede predecir a partir de las calificaciones de la
prueba?, ¿qué porcentaje de la varianza en las calificaciones de la prueba se puede atribuir
a la variable que mide?.
Debido a que la determinación de la validez puede incluir varios procedimientos, la validez

como la confiabilidad es siempre específica de las situaciones, es decir que, en
condiciones diferentes, al utilizar muestras distintas o métodos diferentes de análisis, se
obtendrán resultados diversos. Así podemos hablar de la validez del test, en forma
legítima, sólo en ciertas condiciones específicas.
En términos estadísticos la validez se define como la proporción de la varianza verdadera

que es relevante para los fines del examen. En este caso, relevante se refiere a lo que
atribuible a la variable que mide la prueba.
Esta última puede ser un rasgo o atributo, o bien, alguna medida observada
independientemente. Por lo tanto, la validez de una prueba se define ya sea por medio de
(1) la extensión con que la prueba mide un rasgo subyacente específico hipotético o
construcción, o bien, (2) la relación entre las calificaciones de la prueba y alguna medida de
criterio externo (al primer aspecto también se le denomina validez interna o funcional y al
segundo validez externa).
Definir la validez como la proporción de la varianza relevante, implica que la varianza

verdadera se puede dividir en dos componentes: la varianza relevante y otra varianza
confiable, pero varianza irrelevante. En otras palabras, la variable estable (confiable o
verdadera) en las calificaciones de la prueba se compone de dos elementos: lo atribuible a
la variable que mide la prueba (varianza relevante o válida) y lo atribuible a otras causas
(varianza confiable o irrelevante); o, dicho de otra manera, la variabilidad de un conjunto de
calificaciones se determina por medio de la varianza válida, es decir, la atribuible a causas
confiables, pero irrelevantes (o sea los errores constantes), y la varianza de error de
medición (errores al azar).
La distinción entre confiabilidad y validez implica que, a diferencia de la confiabilidad, que

está influenciada sólo por los errores de medida no sistemáticos, la validez de una prueba
se ve afectada tanto por los errores no sistemáticos como por los sistemáticos
(constantes). Por esta razón, una prueba puede ser confiable sin ser válida, pero no puede
ser válida si no es confiable. En resumen, la confiabilidad es una condición necesaria, pero
no suficiente para la validez. Técnicamente, la validez (relacionada con los criterios) de
una prueba, como lo indica la correlación entre la prueba y una medida externa de criterio,
nunca podrá ser mayor que la raíz cuadrada del coeficiente de confiabilidad de las formas
paralelas (Aiken, 1996).
2. VALIDEZ
Validez es el grado en que una situación o instrumento de medida, mide lo que realmente
pretende o quiere medir. A la validez en ocasiones se le denomina “exactitud”. Validez es el
criterio fundamental para valorar si el resultado obtenido en un estudio es el adecuado.
La validez puede introducir error sistemático que afecta al tamaño y dirección del efecto
encontrado. El error de medida se suma al error de muestreo disminuyendo la capacidad.
El error sistemático se puede confundir con el efecto real que es el efecto sistemático, el
hecho de que existan unos sistemas se puede confundir con el resultado final. Una
situación de baja fiabilidad enmascara el efecto.
Cronbach en 1971 señalaba que la validación es el proceso por medio del cual el
investigador que desarrolla cuestionarios obtiene evidencia para sustentar sus inferencias.
Este proceso de validación requiere un estudio empírico dirigido a recolectar la evidencia
requerida.
La validez se ve como una evaluación -más que una característica- de cuán apropiadas y
adecuadas son las interpretaciones y los usos que se hacen de los resultados del
cuestionario.
En la evaluación de la validez de un cuestionario se busca que las interpretaciones de los

resultados se basen en evidencia de que el cuestionario mide lo que realmente se quiere
que mida, que los resultados no se vean afectados por variables o factores irrelevantes a lo
que se quiere medir. En otras palabras, la evaluación de la validez de un cuestionario
concierne los resultados y las consecuencias de las decisiones que se toman con esos
resultados.
Por otra parte, Trochim señala que el concepto de validez no debe limitarse solamente a la
validez del cuestionario, sino que debe poder hablarse de la validez de cualquier tipo de
operacionalización de un constructo.
La evidencia de validez es lo que permite al investigador estar relativamente seguro que no

ha errado en el proceso de traducir un constructo a una realidad operante. Según Trochim,
esta visión permite hablar de validez tanto cuando se trata de cuestionarios, pruebas,
programas, tratamientos y hasta de muestreo (si se considera que la muestra no es otra
cosa que la operacionalización de un constructo llamado población).
3. CARACTERÍSTICAS DE LA VALIDEZ
a. La validez se refiere a la adecuacidad

de la interpretación de los resultados para un grupo determinado de individuos. La
validez no es una propiedad del cuestionario; aunque, por costumbre, se sigue
hablando de la validez del cuestionario.
b. La validez es una cuestión de grado.
No existe en términos absolutos. No se puede decir que el cuestionario es válido o
inválido. Aumenta o disminuye dependiendo de la calidad de la evidencia que la
sustenta. Nuevas evidencias pueden incrementarla o reducirla. Hoy día la validación de
una inferencia se presenta como el proceso de determinar si la teoría y las evidencias
empíricas respaldan esta inferencia.
c. La validez se refiere siempre a un tipo
de uso o interpretación específico. No se puede hablar de la validez de un cuestionario
sea cual fuere su uso. A veces los usos son muy próximos, pero aún así hay
diferencias.
d. La validez es un concepto unitario. No
se puede hablar de diferentes tipos de validez (contenido, constructo, criterio). Se habla
más bien de un concepto –validez- y de diversos tipos de evidencia.
e. Para hablar de validez se requiere un
juicio evaluativo comprensivo que dictamine si las interpretaciones y usos de los
resultados se justifican con la evidencia producida.
4. TIPOS DE VALIDEZ
a. VALIDEZ DE CONTENIDO
Responde a la pregunta ¿los reactivos que constituyen la prueba son realmente una
muestra representativa del dominio de contenido (dominio conductual) que nos
interesa?. Así pues la validación de contenido consiste en determinar lo adecuado del
muestreo de reactivos del universo de reactivos potenciales y la validez de contenido
es una “medida” de lo adecuado del muestreo. Ponemos “medida” entre comillas,
debido a que, la validez de contenido consiste en una serie de estimaciones u
opiniones, que no proporcionan un índice cuantitativo de la validez (no utiliza
procedimientos estadísticos).
El contenido significa los constituyentes sustantivos de la “materia” o “tema”, sus

componentes reales o informativos. Este tipo de validez se asocia por lo común a las
pruebas de rendimiento, aunque no hay razón por la que no pueda aplicarse el
concepto en otros campos de las pruebas psicológicas (pruebas de aptitud,
habilidades, etc.). En las pruebas psicológicas de rendimiento, se hará hincapié,
primordialmente, en el área temática que se cubre (por ejemplo: geometría, lenguaje,
etc.), y en los procesos utilizados para responder a los reactivos. El modo de la
respuesta tendrá la menor importancia.
La validez de contenido alude a la necesidad de garantizar que el test constituye una

muestra adecuada y representativa de los contenidos que se pretende evaluar con él
(Muñiz, 1994). Este tipo de validez surge a partir del análisis del contenido de la
prueba (Aiken, 1996).
La validez de contenido es llamada algunas veces validez curricular y se refiere a la

adecuación del muestreo de un determinado universo de contenido. Se determina
examinando el contenido mismo del test y juzgando el grado en que mide
verdaderamente los objetivos importantes de un curso o que constituyen una muestra
verdaderamente representativa de la materia de instrucción en sus aspectos esenciales
(Cortada de Kohan, 1999). La validez de contenido cuando se trata de los tests de
personalidad se llama validez aparente.
La validez de contenido está en función de lo adecuado del muestreo de reactivos y el

procedimiento por excelencia para establecer este tipo de validez es someter a la
prueba a una valoración por jueces expertos, quienes evaluarán pregunta por pregunta
con respecto a los criterios de pertinencia, relevancia, claridad, redacción y suficiencia
y, los resultados de esta evaluación permitirán incluir, retirar o reestructurar los ítemes
(Medellín Lozano, 2001).
En la validez de contenido, los reactivos de la prueba deben ser una muestra
representativa del universo de las conductas o contenidos posibles. El muestreo
representativo implica la selección de reactivos en proporción a su enfásis o
importancia.
En la construcción de pruebas, el proceso de muestreo de reactivos, tomados de un

banco de ítemes potenciales, implica, primeramente la división del dominio de
contenido en cierto número de categorías o subcategorías cada una de las cuales
representa un área relevante de contenido. A continuación se asigna un peso
proporcional a cada categoría, y, finalmente, se muestrean al azar los reactivos de
cada categoría, hasta alcanzar el número requerido.
En la práctica, el muestreo de la última etapa no es al azar. Una de las razones para

esto es que los reactivos seleccionados (después del análisis de ítemes), tienen que
satisfacer, en general, ciertos requisitos estadísticos como por ejemplo, tener una
dificultad apropiada. Otra razón, en los tests de rendimiento, es que se puede desear
un equilibrio de contenido dentro de cada categoría. En tercer lugar, los reactivos se
escogen a veces para que desempeñen funciones específicas, por ejemplo, para que
sirvan de “calentamiento” o para probar los límites de los conocimientos de los mejores
alumnos.
Asimismo, no hay nada que exija que la prueba sea homogénea. Puesto que, hasta
las unidades de instrucción (unidades de aprendizaje, “lecciones”, etc.), más limitadas
suelen incluir una gran variedad de contenidos y capacidades, el exigir una elevada
homogeneidad sería indeseable y poco realista (Ebel, 1968).
Puede resultar conveniente un nivel elevado de homogeneidad dentro de las subáreas

(si el test tiene varias áreas); pero no es necesario que la prueba completa sea
homogénea; sin embargo, si nos interesa la validez de contenido de una prueba
destinada a medir alguna construcción o rasgo psicológico, será conveniente una
elevada homogeneidad (como vemos, todas estas situaciones influirán en el proceso
de construcción de un test dependiendo si éste es de rendimiento o de aptitud).
La validez de contenido se determina mediante la comparación sistemática de los

reactivos de la prueba con el dominio conductual de contenido postulado. La clave
está en el “muestreo”. Generalmente para esta operación se recurre a expertos.
Este procedimiento de validación es lógico y racional y tiene algunas dificultades: no

hay índices estadísticos, asimismo, los distintos jueces pueden no estar de acuerdo en
cuanto a la validez de contenido de una prueba; asimismo, la falta de claridad en la
especificidad del dominio hará que resulten difíciles los juicios de validez de contenido.
Existen varios procedimientos que hacen que el proceso sea más objetivo, por ejemplo,
se debe lograr una definición específica del dominio del contenido, una descripción que
delineará el universo, los conocimientos y las capacidades pertinentes y el origen de
los materiales utilizados (si se trata de un examen de rendimiento). También se
podrían definir subcategorías importantes y especificar su enfásis proporcional.
Además, el constructor de la prueba podría especificar qué contenidos y qué
habilidades fueron medidas por cada reactivo. Actualmente, se utilizan algunos de
estos pasos. El universo de contenido se suele establecer en forma bastante detallada
y casi siempre se dispone de una clasificación de reactivos por contenido y categoría
de habilidades.
En cierto sentido, la validez de contenido es una propiedad general de la prueba; más

bien que una situación específica. Si el constructor de la prueba define claramente el
universo de contenido y selecciona reactivos que lo representen, tendrá o no tendrá
éxito (de manera más precisa tendrá éxito en cierto grado), al alcanzar su meta.
Aún cuando podamos no estar de acuerdo con su definición de dominio, debemos
evaluar la prueba en función de lo bien que alcance la meta especificada, hasta que
punto represente el dominio, tal y como lo definió su constructor (también se le
denomina validez curricular).
Validez de Facie. Se confunde fácilmente con la de contenido. Una prueba tiene
validez de facie cuando los reactivos parece que miden lo que se supone que tiene que
medir la prueba. La validez de facie se determina mediante un examen bastante
superficial de la prueba y considera solamente la relevancia obvia. Esta validez puede
ser una consideración importante, si la relevancia aparente de los reactivos influye en
la motivación del sujeto, por ejemplo, poner preguntas en lenguaje y contenido infantil
en una prueba destinada a adultos. En algunas situaciones, el sujeto puede no
sentirse motivado a obtener buenos resultados, al sentir que la prueba es poco
importante para la decisión que va a tomar.
LECCION 3
VALIDEZ DE CONCURRENTE Y PREDICTIVA
1. INTRODUCCION
La validez, en términos generales, se refiere al grado en que un instrumento realmente

mide la variable que pretende medir. Por ejemplo, un instrumento para medir la inteligencia
válida debe medir la inteligencia y no la memoria.
Una prueba sobre conocimientos de Historia debe medir esto y no conocimientos de
literatura histórica.
Aparentemente es sencillo lograr la validez. Después de todo, como dijo un estudiante,
“pensamos en la variable y vemos cómo hacer preguntas sobre esa variable”. Esto seria
factible en unos cuantos casos (como lo sería el “sexo” de una persona).
Sin embargo, la situación no es tan simple cuando se trata de variables como la
motivación, la calidad de servicio a los clientes, la actitud hacia un candidato político y
menos aun con sentimientos y emociones, así como diversas variables con las que
trabajamos en ciencias sociales.
La validez es una cuestión más compleja que debe alcanzarse en todo instrumento de
medición que se aplica. Kerlinger (1979, p. 138) plantea la siguiente pregunta respecto a la
validez: ¿Está usted midiendo lo que usted cree que está midiendo? Si es así, su medida
es válida; si no, no lo es.
2. TIPOS DE VALIDEZ DE CRITERIO
La validez de criterio establece la validez de un instrumento de medición comparándolo con

algún criterio externo.
En la validez de criterio deseamos saber hasta qué punto podemos generalizar (o predecir)
hacia el éxito que habrá de tener una persona en la ejecución de una tarea diferente.
a. Validez concurrente. El criterio se fija en el presente. Los resultados del instrumento

se correlacionan con el criterio en el mismo momento del tiempo.
b. Validez predictiva. Los resultados del instrumento se correlacionan con un criterio

fijado en el futuro. Por ejemplo, una prueba de admisión a la universidad debe reflejar el
comportamiento del estudiante a lo largo de la carrera.
Características de la evaluación de criterio
a.Debe ser relevante. Debe reflejar los aspectos más relevantes del criterio conceptual.
b.Debe ser confiable. La confiabilidad del criterio afecta a la validez de criterio en la misma
medida que la confiabilidad del predictor.
3. VALIDEZ CONCURRENTE
La validez concurrente se da por medio de la comprobación, mediante el uso de medidas

estadísticas de coeficiente de correlación, con un coeficiente de validez, en que se juzga en
el sentido en que cuanto más alto sea este coeficiente, mayor será este tipo de validez.
El coeficiente se halla teniendo en cuenta un criterio de validación que se da al mismo

tiempo que los datos del instrumento. Se emplea esta validez para saber el estado de una
persona en el momento actual, por ello es necesario que el criterio externo se dé en el
momento presente. Relacionamos los datos del test con los datos externos que se están
dando al mismo tiempo. Sirve para clasificar al sujeto en base a esa medida; Conlleva
diagnóstico, clasificación y descripción. Incluye el error típico de medida del test como el
error de criterio. Si el criterio no es objetivo o significativo el test no es confiable, la validez
concurrente no da datos significativos. Si mide lo que se quiere medir este coeficiente de
validez se acercará a 1 y significa que el test es válido para hacer clasificaciones.
4. VALIDEZ PREDICTIVA
La palabra predicción o predictivo normalmente se la asocia con visión o anticipación de

futuro. En este sentido, cuando estudiamos la validez predictiva de un instrumento lo que
nos interesa es determinar hasta dónde podemos anticipar el desempeño futuro de una
persona en una actividad determinada, a partir de su ejecución actual en dicho instrumento;
por ejemplo, se podría estudiar, hasta dónde la Prueba de Aptitud de Universidades
predice el éxito académico de los estudiantes en los primeros semestres universitarios, o
anticipar el desempeño futuro de un vendedor a partir de su ejecución en un test de
inteligencia social.
En consecuencia, la validez predictiva, también llamada validez de criterio externo o validez

empírica, se estudia comparando los puntajes de un instrumento (variable independiente)
con una o más variables externas (variables dependientes) denominadas variables criterio.
Se asume que tales criterios, indicadores del desempeño futuro, están teórica y
lógicamente relacionados con el rasgo representado en el instrumento bajo estudio. Esta
comparación entre los puntajes de la variable en estudio y los de la variable criterio se
expresa a través de un coeficiente de correlación, el cual se interpreta como un índice de
validez. Entre más alta sea la correlación entre una medida o medidas de aptitud
académica y el promedio de notas, tomado como variable criterio, mejor será la validez
predictiva de la prueba de aptitud académica.
Es importante destacar que la validez predictiva suele estar asociada con problemas y
resultados prácticos; es decir, el interés no es tanto en lo que está detrás del desempeño
en la prueba, sino más bien en ayudar a resolver problemas prácticos y tomar decisiones.
Muchos de estos problemas y toma de decisiones están relacionados con la evaluación,
selección y asignación de personas para diferentes actividades (estudio, trabajo, deporte,
arte, etc).
La validez de criterio establece la validez de un instrumento de medición comparándola con

algún criterio externo. Este criterio es un estándar con el que se juzga la validez del
instrumento (Wiersma, 1986). Entre los resultados del instrumento de medición se
relacionen más al criterio, la validez del criterio será mayor. Por ejemplo, un investigador
valida un examen sobre manejo de aviones, mostrando la exactitud con que el examen
predice qué tan bien Un grupo de pilotos puede operar un aeroplano
Si el criterio se fija en el presente, se habla de validez concurrente (los resultados del
instrumento se correlacionan con el criterio en el mismo momento o punto del tiempo). Por
ejemplo, un cuestionario para detectar las preferencias del electorado por los distintos
partidos contendientes, puede validarse aplicándolo tres o cuatro días antes de la elección
y sus resultados compararlos con los resultados finales de la elección (si no hay
fraude,desde luego).
Si el criterio se fija en el futuro, se habla de validez predicativa. Por ejemplo, una prueba
para determinar la capacidad administrativa de altos ejecutivos se puede validar
comparando sus resultados con el futuro desempeño de los ejecutivos medidos.
La validez de criterio puede ser validez concurrente o validez predictiva. La validez concurrente
generalmente se alcanza fácilmente con estudios transversales pero la validez predictiva requiere
de un estudio longitudinal.
LECCION 4
VALIDEZ DE CONSTRUCTO
1. INTRODUCCION
La validez de constructo es la principal de los tipos de validez, en tanto que «la validez de
constructo es el concepto unificador que integra las consideraciones de validez de
contenido y de criterio en un marco común para probar hipótesis acerca de relaciones
teóricamente relevantes» (Messick, 1980; p.1015), en este mismo sentido (Cronbach,
1984; p.126) señala que «la meta final de la validación es la explicación y comprensión y,
por tanto, esto nos lleva a considerar que toda validación es validación de constructo».
La génesis de la validez de constructo como un concepto integrador de validez hay que

situarla en la primera versión de los Standards for Educational and Psychological Testing
(APA, 1954) y en la publicación del influyente trabajo de Cronbach y Meehl (1955). Según
estos autores, esta validez consiste en un análisis de la significación de las puntuaciones
de los instrumentos de medida expresada en términos de los conceptos psicológicos
asumidos en su medición. Como señala Martínez Arias (1995), este nuevo concepto de
validez se empieza a percibir fundamental y básico y, aún más importante, como
integrando a los anteriores enfoques de validez —heredados de las tradiciones empirista
(validez criterial) y racionalista (validez de contenido)—, poniéndose así los cimientos para
este enfoque globalizador que va a echar por tierra la concepción tripartita de la validez y
va a defender una concepción unificada de la misma, en la cual parece haber un consenso
emergente acerca del papel central desempeñado por la validez de constructo (Moss,
1992).
Los trabajos de Cronbach (1980, 1982, 1988), Guion (1977, 1980), Loevinger (1957) y
Tenopyr (1977) destacan por su apoyo a esta perspectiva integradora, mas la figura clave
es la de Samuel Messick (1975, 1980, 1981, 1988, 1989, 1994, 1995). Messick (1995)
afirma que ‘la validez unificada integra consideraciones de contenido, criterio y
consecuencias en un marco de referencia de constructo para la evaluación empírica de
hipótesis racionales acerca del significado de las puntuaciones y de relaciones relevantes
desde el punto de vista teórico, incluyendo las de naturaleza científica y aplicada’.
2. VALIDEZ DE CONSTRUCTO
La validez de construcción es importante, siempre que se diseñe una prueba

psicológica para medir algún atributo o alguna cualidad (construcción), que se
suponga, tengan las personas. Responde a la pregunta: ¿cómo se puede explicar
psicológicamente la puntuación del test?, ¿qué construcción psicológica mide la
prueba?, ¿hasta qué punto mide bien la prueba psicológica esta construcción?, etc. En
este tipo de validez, se enfoca la atención en la construcción (“en el constructo”) en la
característica que se está midiendo.
La validez de constructo (Crombach y Meehl, 1955), se refiere a la recogida de

evidencia empírica que garantice la existencia de un constructo psicológico en las
condiciones exigibles a cualquier otro modelo o teoría científica.
Una prueba no es un conjunto de ítemes que se juntan al azar para predecir un criterio,
es más bien una medida o índice de un concepto, teoría o constructo psicológico, o de
otro tipo (Muñiz, 1994).
Este tipo de validez se obtiene por medio de un estudio sistemático de la eficacia de la

prueba como medida de un constructo psicológico específico (Aiken, 1996).
(Cortada de Kohan, 1999), nos dice que la validez de constructo se refiere a precisar
“cuáles son las cualidades psicológicas que un test mide”, y se evalúa “demostrando
que ciertos constructos explican en cierta medida el desempeño en el test”.
(Medellín Lozano, 2001), nos dice que este tipo de validez se obtiene mediante la
acumulación de evidencias respecto al rasgo que mide la prueba y está centrada en el
rasgo y se puede utilizar para el estudio de las diferencias individuales y para el
desarrollo de teorías psicológicas.
En el ámbito de la psicología se han utilizado con mucha frecuencia dos

procedimientos metodológicos, el análisis factorial y la matriz multirrasgo-multimétodo,
para obtener datos acerca de la validez de constructos psicológicos, denominándose,
respectivamente, validez factorial y validez convergente-discriminante (Muñiz, 1994).
El proceso de la validación de construcción, puede verse como la construcción de una

miniteoría acerca de una prueba psicológica. La lógica de la validez de constructo, en
muchos aspectos, así como en sus métodos, son esencialmente los del método
científico.
La construcción de la miniteoría tiene tres pasos: (1) en base a la teoría sostenida en

ese momento respecto a la prueba psicológica, el investigador deduce ciertas hipótesis
sobre la conducta esperada de las personas que obtienen diferentes calificaciones en
ellas, (2) se reúne datos que confirman o no esas hipótesis, y (3) en base a los datos
acumulados, toma la decisión relativa a si la teoría, de hecho, explica adecuadamente
los datos. Si no es así, tiene que revisar su teoría y repetir el proceso hasta lograr una
explicación más adecuada. En este sentido, el proceso de validación es de continua
reformulación y refinamiento.
Al determinar la validez de construcción, el propósito es identificar todos los factores

que influyen en la ejecución del test y determinar el grado en que influyen cada uno de
ellos. Ejemplo: (Kline, 1985), sirviéndose de un test hipotético sobre la ansiedad:
propuso una serie de hipótesis cuyos resultados globales nos pueden decir si el test
tiene validez de constructo:
a. Los que obtienen elevadas puntuaciones será más probable que acaben en
clínicas psiquiátricas que aquellos con puntajes bajos.
b. Será más fácil que les receten drogas psicotrópicas a los que tienen altas
puntuaciones que a los de bajos puntajes.}
c. Los hijos de los de puntuaciones altas tendrán mayores probabilidades de tener
una puntuación alta en test de ansiedad, que los hijos de quienes tuvieron bajas
puntuaciones.
d. El test de ansiedad se correlacionará alta y significativamente (más allá de 0.60),
con otros sobre dicha ansiedad caracterizada.
e. El test de ansiedad no se correlacionará con variables que no resulten conexas
con la misma.
f. Los grupos psiquiátricos caracterizados como ansiosos alcanzarán en el test
unas puntuaciones más altas que los de control.
g. En el test de ansiedad, los sujetos evaluados por supervisores y colegas como
ansiosos, lograrán mayores puntuaciones que quienes están considerados como
no ansiosos.
Es necesario tener presente que los resultados de los estudios que hagamos realmente
no “validan” o “prueban” la teoría completa, puesto que nunca se puede demostrar una
construcción en forma absoluta; solamente se puede aceptar como la mejor definición
de trabajo.
Si los resultados son negativos, hay por lo menos tres interpretaciones posibles: la
prueba puede no medir la construcción, el marco teórico puede ser erróneo permitiendo
inferencias incorrectas o bien, quizá, el diseño del experimento no permite una prueba
apropiada de la hipótesis. La falla del diseño experimental suele ser la más fácil de
detectar; pero no siempre se puede experimentar con claridad el lugar exacto de la
falla. Esta interpretación ambigua de los resultados negativos es un inconveniente
evidente del procedimiento de validación de los constructos.
En la práctica, (Cortada de Kohan 1999), habla de dos categorías fundamentales de la

validez: la validez directa o primaria y la validez secundaria o derivada. Una prueba
tiene validez directa en la medida en que las tareas incluidas en ella representan
verdaderamente y en la debida proporción, las clases de tareas que dan lugar a una
definición operacional para la variable o rasgo en cuestión; mientras que, un test posee
validez secundaria cuando los puntajes se correlacionan con otros puntajes de un
criterio que posee, a su vez, validez directa o primaria.
En tal sentido, pertenecerían a la validez directa: la validez de contenido, la validez

curricular, la validez intrínseca, la validez aparente y la validez por definición; y,
corresponderían a la validez secundaria: la validez empírica, la validez concurrente, la
validez predictiva, la validez factorial y la validez de constructo (Cortada de Kohan,
1999).
a. Métodos para calcular la validez.
El método más simple para calcular la validez implica obtener el índice de

correlación de Pearson entre los puntajes del test y los puntajes del criterio externo
(Cortada de Kohan, 1999). Cuando por alguna razón este sistema no puede
utilizarse, ya que supone el mismo tipo de nivel de medición y homocedasticidad
las variables, se puede utilizar otro tipo de coeficiente de validez como los
biseriales o el índice de correlación tetracórico cuando el criterio tiene una
clasificación en dos categorías: si o no, o verdadero-falso. Algunas veces se utiliza
la correlación múltiple.
Cuando la prueba se utiliza para pronosticar el desempeño en alguna situación de

la vida cotidiana, la validez suele definirse como la correlación entre la prueba y
alguna medida del desempeño en la situación de la vida real. En este caso, la
correlación debe ser explicada lógicamente y uno de los enfoques más adecuados
es la teoría factorial (Crombach, 1984).
b. Validez y análisis factorial
Las evidencias relacionadas con la estructura interna de una prueba nos van a
indicar si las relaciones entre los reactivos y las dimensiones (factores, escalas),
permiten confirmar la existencia de los constructos que el test pretende medir. El
marco conceptual de una prueba puede proponer una dimensión unitaria de
comportamiento o varios factores ( Pérez y Olaz, 2008).
Una encuesta podría construirse para medir salud orgánica y emocional. Ejemplo:
si las intercorrelaciones entre los reactivos confirman la presencia de esos dos
factores teóricos, ésta es una información relevante para la evidencia de validez
vinculada con la estructura interna del test (APA, 1999).
Resulta necesario comprobar estadísticamente que los reactivos se agrupen de la
manera que se ha realizado la propuesta teórica, y para dicha finalidad el
procedimiento adecuado es el análisis factorial (Carretero-Dios y Pérez, 2005).
Debemos tener presente que el análisis factorial es un método estadístico utilizado
para analizar las intercorrelaciones entre datos observables (Martínez Arias, 1995).
Ejemplo: si se administran 90 reactivos o preguntas a 1,400 sujetos, el primer paso
implica calcular las correlaciones de cada elemento con los demás. Luego, al
observar la matriz de correlaciones obtenidas apreciaremos ciertas agrupaciones
entre los reactivos, lo cual va a revelar la presencia de rasgos o factores comunes.
En la práctica, cuando utilizamos el análisis factorial por lo general se va a reducir
el número de variables inicialmente consideradas y el comportamiento de cada
sujeto puede describirse con referencia a un número relativamente pequeño de
factores o rasgos comunes (Anastasi y Urbina, 1998).
c. El meta-análisis en la generalización de la validez
A lo largo del capítulo hemos mencionado en repetidas oportunidades que la

validez de una prueba está relacionada con la muestra particular que se ha
utilizado en dicho proceso, lo cual implica la presencia de una limitación que debe
ser tratada convenientemente con los procedimientos de generalización de la
validez.
En tal sentido, el método más utilizado en la actualidad es el meta-análisis, el cual
permite integrar y combinar los hallazgos de diversas investigaciones empíricas
mediante técnicas específicas. En el caso de la utilización de este método para el
tratamiento de la generalización de la validez, surgió como respuesta a los
coeficientes débiles de correlación obtenidos en muchos estudios relacionados con
la temática test-criterio (Martínez Arias, 1995). Todo ello estaba vinculado con
resultados contradictorios obtenidos en estudios relacionados sobre una misma
temática, los cuales eran resueltos por medio de revisiones narrativas o de
resúmenes verbales que implicaban una metodología subjetiva e informal, que sin
duda, fue sometida a todo tipo de críticas. Frente a esta situación los especialistas
consideraron al meta-análisis como la solución más atinada para enfrentar esta
problemática.
Metodológicamente, el meta-análisis convierte los hallazgos estadísticos de

estudios empíricos independientes a una métrica común, provee una estimación
simple de la fortaleza de la relación entre determinadas variables y permite
comprobar estadísticamente si una serie de investigaciones, conjuntamente
considerados, apoyan o refutan las hipótesis de investigación (Multon, Brown y
Lent, 1991).
Operativamente, el meta-análisis se inicia con la reunión, clasificación y
codificación de los estudios existentes sobre una temática, lo cual infiere la
consideración, clasificación y codificación de las características sustantivas y
metodológicas de los estudios particulares (tales como tipo y duración de una
intervención o tratamiento experimental, tipo de muestra e instrumentos utilizados)
(Pérez y Olaz, 2008).
En la medida que los hallazgos de los estudios a tener en cuenta podrían ser
difíciles de contrastar directamente, se les debe convertir a una medida común.
Las dos medidas más usadas para cuantificar e integrar los hallazgos de los
estudios independientes son los niveles de significación y las medidas de tamaño
del efecto. La primera informa los resultados obtenidos han ocurrido
probablemente al azar, mientras que la segunda nos indica la intensidad de la
relación o el efecto de interés (Gómez Benito, 1987).
No obstante su importancia actual, el meta-análisis no está exento de críticas y
entre las más importantes tenemos:
a. El sesgo de publicación o de selección editorial a favor de investigaciones
cuyos resultados favorecen las hipótesis de estudio. Sobre el punto, la
bibliografía especializada sugiere incluir en los meta-análisis, investigaciones sin
publicar, lo cual permite que el investigador contraste los hallazgos de
investigaciones publicadas frente a las no-publicadas y de ese modo inferir la
probabilidad de sesgo en la publicación.
b. La inclusión de investigaciones poco rigurosas conjuntamente con estudios
bien diseñados, lo cual afecta la interpretación que hace el meta-análisis, ya que
esta situación compromete la validez interna del procedimiento (Wolf, 1986).
c. La existencia en algunos casos del problema de las “peras y las manzanas”,
metáfora referida a que las conclusiones producto del meta-análisis son
inadecuadas toda vez que tienen como base la integración de investigaciones
que incluyen diferentes definiciones de variables y tipos de muestras o
instrumentos.
d. Técnicas de la validez de constructo
d.1 Técnica de los grupos conocidos
Tenemos una opinión que hay que valorar y no tenemos criterio o

estándar, el procedimiento consiste en aplicar el instrumento a dos o más
grupos y ver si discrimina.
Ejemplo: Un grupo de pacientes crónicos compuesto por un grupo de
pacientes hipertensos y otro grupo de pacientes con esclerosis múltiple. Si
mi instrumento de medida discrimina a ambos grupos (es decir me dice
que los hipertensos tienen mayor calidad de vida que los pacientes con
esclerosis múltiple) es que tiene validez.
d.2 Matriz multimétodo-multirrasgo
Es el más sofisticado de todos aunque se utiliza poco, por ser complejo en

el sentido de que requiere utilizar muchas medidas diferentes. El
instrumento de medida introduce una fuente de variación, es la
racionalidad.
Ejemplo: medir el grado de satisfacción mediante un cuestionario, una
entrevista y la observación y posteriormente se estudiará la convergencia
entre los tres resultados.
Que se debe esperar en las medidas, que haya convergencia (es decir
gran concordancia entre lo que miden los tres métodos). El método de
medida influye mucho en las puntuaciones como ocurre en el cuestionario,
hay que ver hasta que punto las mediciones son convergentes para una
misma medición.
MTMM nos permite medir varios métodos con varias variables.
d.3 Análisis factorial
Para cada faceta o dimensión hay varios ítems o indicadores, la validez

estructural o factorial intenta discernir el grado en que los indicadores de
un concepto reflejan dicho concepto, son parte de él o lo constituyen.
El análisis factorial es una técnica estadística que examina la estructura
interna de la unidad de medida, mide si los indicadores tienen algo en
común, es decir si tienen un común denominador, mide las correlaciones
entre los indicadores e intenta descubrir si hay algo subyacente. Los ítems
deben tener un común denominador que debe aflorar estadísticamente. La
estructura subyacente o común denominador se llama factor (faceta).
CUARTA UNIDAD
CONFIABILIDAD Y NORMATIVIDAD DE LOS TEST
LECCION 1
CONFIABILIDAD
1. INTRODUCCION
Al evaluar la utilidad de una prueba o test, a menudo hay dos preguntas que es necesario
formularse, las cuales aunque son diferentes, de alguna manera están relacionadas. La
primera pregunta es: ¿con cuánta exactitud la muestra de ítemes o tareas representa al
universo de donde fueron seleccionados? La segunda pregunta es ¿con qué fidelidad
corresponde este universo al atributo latente que se va a medir? La primera pregunta se
relaciona con lo que comúnmente se denomina confiabilidad de la medida; mientras que la
segunda se refiere a su validez.
En este artículo nos referiremos, particularmente, a la primera de estas dos características

de las pruebas y escalas, por ser éstos los instrumentos que plantean mayores exigencias
técnicas en su proceso de desarrollo. Esta característica es fundamental cuando se trata
de medir rasgos o atributos psicológicos. De allí que deban ser cuidadosamente
establecidas en las llamadas pruebas formales, como parte de lo que hemos denominado
el estudio técnico del instrumento.
2. CONFIABILIDAD
La confiabilidad se refiere a la consistencia de los resultados. En el análisis de la

confiabilidad se busca que los resultados de un cuestionario concuerden con los resultados
del mismo cuestionario en otra ocasión. Si esto ocurre se puede decir que hay un alto
grado de confiabilidad. También se habla de confiabilidad cuando dos o más evaluadores
evalúan al mismo estudiante sobre el mismo material y se obtienen puntuaciones
semejantes.
La mayoría de autores en psicometría define a la confiabilidad como “el grado de precisión

o consistencia con el cual una prueba mide lo que mide” (Tyler, 1972). Como quiera que
la confiabilidad se ve afectada por la naturaleza de la población a la cual se aplica la
prueba, se produce una ampliación de la primera definición: “la confiabilidad de un test es
la precisión con la que el test mide lo que mide, en una población dada y en las
condiciones normales de aplicación (Anstey, 1976).
La confiabilidad se refiere a la estabilidad de las mediciones cuando no existen razones
teóricas ni empíricas para suponer que la variable a medir haya sido modificada
diferencialmente para los sujetos, por lo que se asume su estabilidad, mientras no se
demuestre lo contrario (Muñiz, 1994).
La confiabilidad significa la consistencia entre los puntajes de un test obtenidos por los
mismos individuos en distintas ocasiones o entre diferentes conjuntos de ítemes
equivalentes (APA, 1999).
La confiabilidad puede entenderse como la exactitud o precisión de una medición, o el
grado en el cual las puntuaciones de un test están libres de esos errores de medición. Esta
exactitud o precisión de las puntuaciones permite que éstas se mantengan constantes en
diferentes circunstancias ( Tornimbeni, Pérez y Olaz, 2008).
La definición estadística de la confiabilidad en la teoría clásica de los tests, se entiende

como la proporción entre la varianza verdadera y la varianza total.
El coeficiente de confiabilidad para la relación entre dos tests paralelos da el valor
numérico para la proporción entre la varianza de la distribución de los puntajes verdaderos
y la varianza de la distribución de los puntajes obtenidos en los tests (Magnusson, 1969).
La confiabilidad de una prueba se expresa como un número decimal positivo que va desde
0.00 hasta 1.00. r11 = 1.00, indica la confiabilidad perfecta y r11 = 0.00, indica la total
falta de confiabilidad.
Técnicamente, la confiabilidad se calcula al analizar los efectos de las variaciones en las

condiciones de administración y el contenido de los tests en las calificaciones. Sobre el
particular, tenemos que tener en cuenta que la confiabilidad está influenciada sólo por los
cambios no sistemáticos que tienen efectos diferentes en las distintas personas e influyen
en la varianza de error del test y por tanto en su confiabilidad.
a. Tipos de Confiabilidad
a.1 Se pueden realizar varias estimaciones de la confiabilidad de una prueba

dependiendo de cuáles serán las fuentes de error que más nos interesan. La
mayoría de los índices de confiabilidad se expresan como coeficientes de
correlación y por tanto, se denominan coeficientes de confiabilidad cuyo valor
numérico va de 0 a +1.
a.2 El valor que se obtenga dependerá del grupo (muestra) de sujetos que ha sido
examinado y de los orígenes de error que influyen en las calificaciones. Por lo
tanto, no existe la confiabilidad de una prueba psicológica y lo que existe son
muchos coeficientes de confiabilidad para cualquier prueba, tantos como hay
diferentes condiciones para la estimación de la confiabilidad. Asimismo, un
coeficiente de confiabilidad es una medida de la cantidad de inconfiabilidad que no
indica las causas de esta falta de confiabilidad y más bien indica lo mucho que
puede esperarse que varíen las calificaciones y no las razones de su variación.
a.3 La estabilidad.
• Una medida de confiabilidad es la correlación entre medidas repetidas (o sea

entre una prueba y una reaplicación). Esta estimación se denomina coeficiente
de estabilidad, el cual es la correlación (obtenida a través del coeficiente
producto de los momentos de Pearson), entre las calificaciones de dos
aplicaciones de la misma forma de la prueba psicológica, separadas por un
período de tiempo.
• Este coeficiente se utiliza en las pruebas que miden rasgos psicológicos que se
supone que son relativamente estables a través del tiempo (por ejemplo: la
mayor parte de las aptitudes y las capacidades y muchas características de la
personalidad). Además, siempre que se utilizan las calificaciones de una
prueba en la toma de decisiones sobre planes a largo plazo (por ejemplo:
aptitudes e intereses), es esencial una medida de la estabilidad de las
calificaciones al paso del tiempo.
• Incluso, para las características que varían con el tiempo, conviene, por lo
común tener conocimientos sobre el grado de estabilidad de las calificaciones
de las pruebas en períodos cortos. Se parte de la suposición de que la
característica que mide la prueba es estable en el tiempo; asimismo, que no
existe ningún efecto diferencial del olvido (si el tiempo de reaplicación es muy
posterior), o de la práctica (si la reaplicación se produce en un lapso corto
respecto a la primera); y, por último, que no debe producirse ningún
aprendizaje diferencial entre las dos aplicaciones.
• Cualquier variable que influya en la ejecución de una aplicación, pero no en la

otra, reducirá también la correlación. El muestreo de los reactivos no afecta el
coeficiente de estabilidad, puesto que se utiliza la misma forma de la prueba en
las dos aplicaciones (o sea el mismo conjunto de reactivos). El coeficiente de
estabilidad se obtiene por el método test-retest.
a.4 Equivalencia.
• Se obtiene a través del método de las formas equivalentes. Puesto que
cualquier prueba contiene sólo una muestra de todos los reactivos posibles, se
pueden construir varias formas paralelas de una prueba. Estas cubren el
mismo contenido, utilizan los mismos tipos de reactivos, tienen un grado de
dificultad igual e igual variabilidad (media aritmética y varianza similares).
• La suposición primordial al calcular un coeficiente de equivalencia es la de que

las formas, de hecho, son equivalentes. Para determinar la confiabilidad se
aplicará primero una de ellas y a continuación, con un período mínimo de
tiempo transcurrido, la segunda. La correlación de los resultados (a través del
coeficiente de Pearson), nos dará el coeficiente de equivalencia.
• En este método, las faltas de similaridad en las calificaciones se pueden

atribuir principalmente a diferencias en el muestreo de reactivos (o sea formas
de la prueba).
a.5 Estabilidad y equivalencia.
• Si se dispone de formas alternativas de una prueba será posible determinar la

confiabilidad mediante una combinación de los dos métodos anteriores.
• El procedimiento consistirá en aplicar una forma de prueba (forma A), dejar que
transcurra cierto período de tiempo y, a continuación, administrar la otra forma
(forma B). El coeficiente de estabilidad y equivalencia será la correlación (a
través del coeficiente de Pearson), entre los dos conjuntos de calificaciones y
proporcionará la prueba más rigurosa y dará la estimación más baja de
confiabilidad.
a.6 Confiabilidad por mitades
• Se obtiene con el método de la división por mitades emparejadas o “Split half

method”, dado que en algunas situaciones no es posible utilizar el índice de
confiabilidad de estabilidad o de formas equivalentes, siendo siempre
necesario estimar de alguna forma la confiabilidad.
• Con el método de mitades emparejadas, los ítemes de una sola aplicación del
test se dividen en dos mitades (mitad A: ítemes pares; mitad B: ítemes
impares), y se califican en forma independiente. Los puntajes de las dos
mitades se correlacionan a través del coeficiente de Pearson. Como el
resultado es de la mitad del test, es necesario corregirlo para estimar la
confiabilidad de todo el test.
• Esta corrección se hace con la fórmula Spearman Brown. Este método supone
que las dos partes en que se divide el test son tests paralelos o equivalentes.
Se interpreta como un coeficiente de equivalencia. Puesto que las dos formas
(mitades), se aplican en esencia en forma simultánea, sólo las fluctuaciones a
corto plazo podrán afectar la confiabilidad.
a.7 Finalmente, queda claro que el coeficiente de confiabilidad (obtenido por cualquiera
de los métodos), es básicamente un coeficiente de correlación entre dos grupos de
puntajes e indica el grado con el cual los individuos mantienen sus posiciones
dentro de un grupo. Abarca valores desde 0 a +1 y no pueden ser negativos como
otros coeficientes de correlación.
En términos estadísticos, el valor numérico del coeficiente de confiabilidad de un

test corresponde exactamente a la proporción de la varianza de los puntajes del
test que se debe a las diferencias verdaderas entre los individuos en el “rasgo” que
estudiamos mediante el test.
b. Evaluación de la Confiabilidad
b.1 Según Cortada de Kohan, 1999, la evaluación de la confiabilidad de una prueba

implica dos tipos de operaciones: una experimental y otra estadística. Mediante la
primera se aplica la prueba a un grupo definido de sujetos en razón a un plan
experimental específico manteniendo las condiciones de control experimental.
En segundo lugar, los calificativos que constituyen el resultado de tal
administración deben analizarse a través de procedimientos adecuados para
producir un estadístico que represente la consistencia de la prueba. Estas dos
operaciones son algo independientes ya que los mismos procedimientos
estadísticos pueden usarse a datos logrados de maneras muy diversas.
b.2 Existen por los menos tres factores que influyen en la confiabilidad o la falta de
consistencia de una prueba (Cortada de Kohan, 1999):
a)La adecuación de las tareas a los sujetos. Las tareas que son demasiado fáciles
o que son suceptibles de distintas interpretaciones no generarán resultados
confiables.
b)La constancia o estabilidad de la aptitud del probando para realizar las tareas
que la prueba implica. Las personas varían hora a hora y día a día en su energía,
equilibrio emocional, cansancio, etc. Si estos factores afectan la realización de la
tarea del probando, la consistencia de la prueba se verá reducida
significativamente.
c)La coherencia y objetividad del sujeto que califica la prueba. En la medida que
los calificativos que se asignen dependan de elementos subjetivos del momento,
antes que de normas coherentes, aplicadas en forma objetiva a todos las pruebas,
entonces los puntajes carecerán de confiabilidad. Esta situación nos hace ver que
la confiabilidad no es una propiedad de la prueba en sí misma, sino una propiedad
del test cuando se administra a una determinada muestra de sujetos.
c. Teoría de la confiabilidad en el modelo clásico
c.1 En la teoría clásica de los tests, el calificativo que obtiene un probando en un test
consta de una calificación “real” más algún error no sistemático de medida.
La calificación real se define como la media o promedio de los puntajes que se
obtendrían si un sujeto respondiera el test una cantidad infinita de veces. Dicho
calificativo nunca puede medirse con exactitud sino que debe calcularse en base al
puntaje obtenido por el sujeto en el test.
c.2 En la teoría clásica de los tests, la varianza de las calificaciones obtenida por un
grupo de sujetos ( S Obs), es igual a la varianza de sus puntuaciones reales
(SReal), más la varianza de errores no sistemáticos de medición (SErr), tal y como
se indica a continuación:
c.3 Por lo tanto, la confiabilidad de la prueba (r11), se define como la relación entre la
varianza real con la varianza obtenida o la proporción de la varianza obtenida que
se explica por la varianza real, tal y como se indica a continuación:
c.4 La proporción de la varianza obtenida que se explica por la varianza de error, o no

se explica por la varianza real, puede deducirse de las fórmulas anteriores como:
d. Confiabilidad Absoluta. Error estándar de medida (ESm)
d.1 Hemos mencionado anteriormente que en la ecuación clásica, la confiabilidad

implica que, el puntaje obtenido por un sujeto, ( tj ), es el producto de sumar un
puntaje verdadero (Tj), más un puntaje de error (ej), respectivamente:
tj = Tj + ej
Los puntajes de error (ej), son debidos al azar y se producen por acción de factores
cuyo efecto varía de una ocasión a otra en que se aplique el test, es decir, por
factores diferentes a los que determinan los puntajes verdaderos (Tj), de los
sujetos. En la ecuación indicada, no sabemos el valor de Tj ni de ej.
En relación al error, es importante considerar los siguientes supuestos:
• El puntaje verdadero de un probando en un test es el calificativo que tendría

si no existe error en la medición y se puede definir como la media o promedio
de las puntuaciones alcanzadas por la misma persona en infinitas
aplicaciones del test.
• Se asume que no hay correlación entre los puntajes verdaderos y el error de

medición.
• Se asume que los errores en las pruebas diferentes no están

correlacionados.
• Estos tres supuestos no son comprobables directamente, sólo se van a

justificar si las inferencias realizadas a partir de las predicciones del modelo
se confirman.
d.2 El objetivo fundamental de la confiabilidad es calcular el error existente en las

medidas, es decir, el valor del error.
Esta estimación se expresa a través del coeficiente de confiabilidad que es la
correlación lineal entre administraciones de la misma prueba o de formas paralelas
o equivalentes en el mismo grupo de sujetos.
d.3 En el caso de que no existiesen errores entre las puntuaciones obtenidas en las
aplicaciones de los tests, la correlación sería perfecta y tendría un valor de 1, en
cuyo caso el test sería confiable.
d.4 Un estadístico muy utilizado para describir fuentes de variabilidad en los
calificativos de un test, es la varianza.
e. Causas de errores de medición
e.1 En la práctica, existen diversas causas que originan errores de medición. En

nuestro caso estudiaremos tres causas de errores de medición: los errores
inherentes a la prueba, sobre todo los que se deben al muestreo de reactivos; los
errores asociados a las condiciones de aplicación de la prueba; los errores
relacionados con el examinador y los errores debidos a las fluctuaciones de las
características del examinado.
e.2 En la medida que cada causa de error tendrá su mayor influencia en circunstancias
diferentes, serán posibles varios tipos de rangos que estimaciones de confiabilidad:
consistencia en el tiempo (el coeficiente de estabilidad); consistencia sobre las
formas de las pruebas (el coeficiente de equivalencia) y consistencia sobre el
tiempo y las formas de las pruebas, al mismo tiempo (el coeficiente de estabilidad y
equivalencia).
e.3 En cada caso, un índice apropiado de confiabilidad, el coeficiente de confiabilidad,
es la correlación entre las calificaciones de dos aplicaciones de la prueba.
Asimismo, existen procedimientos para determinar la confiabilidad cuando se
aplica sólo una forma de la prueba, además de un método (el error estándar de
medida: ESm), para determinar la cantidad de error en las calificaciones obtenidas
por un sujeto y los factores que influyen en los coeficientes de confiabilidad.
e.4 Finalmente, hay que tener en cuenta la consistencia interna u homogeneidad de las
pruebas.
e.5 Las fuentes de varianza de error de medición señalados por Ugarriza, 2004, son
los siguientes:
 Factores inherentes a la prueba misma

• Si los reactivos no son similares en contenido, en índices de dificultad y
distribución de sus puntuaciones en las pruebas equivalentes.
• También puede ocurrir en una sola prueba cuando los reactivos en su
mayoría no miden un rasgo puro.
• Reactivos muy difíciles que hacen que el sujeto tenga que adivinar.
• Ambigüedad en la redacción de los ítemes e instrucciones, lo que puede
originar respuestas inestables.
• Límites de tiempo restrictivo que fomentan el apresuramiento en la
lectura y en la respuesta.
• Longitud de la prueba.
 Errores en las condiciones de administración y otras situaciones que pueden

producir distracciones
• Errores al marcar las respuestas
• Errores en el registro de tiempo y calificación
• Interrupciones inesperadas y otras situaciones que pueden producir
distracciones
• Factores relacionados con el ambiente de la prueba: la temperatura del
salón, el nivel de iluminación y la cantidad de ventilación y ruido.
 Variables relacionadas con el examinador

• La subjetividad en la calificación de ciertas pruebas de personalidad no
estructuradas o semiestructuradas y en ciertas pruebas académicas
(como los exámenes de ensayo) e incluso en la observación conductual.
 Errores inherentes al examinado

• Entrenamiento específico, ansiedad, estar enfermo, fallas de atención o
el efecto de fármacos entre otros
f. Confiabilidad relativa. El coeficiente de confiabilidad
El coeficiente de confiabilidad es un coeficiente de correlación entre un grupo de puntajes

e indica el grado con el cual los sujetos mantienen sus posiciones dentro de un grupo.
Comprende valores que oscilan de 0 a +1. Técnicamente, cuanto más se acerque el
coeficiente a 1 más confiable será la prueba (o el procedimiento de medición), y
viceversa.
El coeficiente de confiabilidad señala la cuantía en que las medidas de las pruebas están
libres de errores aleatorios. Así por ejemplo: un coeficiente de 0.95 quiere decir que en
la muestra y condiciones establecidas (situación experimental, instrucciones, etc.), el
95% de la varianza de los calificativos se deben a la auténtica medida y sólo el 5% a
errores aleatorios (Crombach, 1972).
f.1 Factores que influyen en los coeficientes de confiabilidad
• Ya conocemos varias fuentes de error que influyen en la magnitud de la

correlación obtenida; sabemos que el coeficiente de estabilidad equivalencia da
por lo común la estimación más baja de confiabilidad debido a que hay más
factores que tienen probabilidades de influir en las puntuaciones.
• Contrariamente, la correlación de mitades corregida produce por lo común la

estimación más alta, puesto que tienen probabilidades de intervenir un número
menor de factores.
• Sin embargo, hay otros factores que influyen también en el coeficiente de

confiabilidad y son los siguientes:
 Rango de calificaciones (puntuaciones obtenidas). Todos los coeficientes

de correlación se ven afectados por el rango de distribución de las
calificaciones. Al disminuir la variabilidad (al hacerse más pequeña la
desviación estándar), el coeficiente de correlación disminuye y al aumentar
la variabilidad (al hacerse más grande la desviación estándar), el
coeficiente se incrementa.
 Longitud de la prueba. Al agregar más ítemes, asegurándonos que son

igualmente confiables, se incrementará la confiabilidad de la prueba.
Esto se produce porque el aumento de la longitud produce esencialmente
un rango más amplio de calificaciones (mayor variabilidad y por lo tanto
una desviación estándar más grande). El efecto del aumento de longitud
de la prueba se puede determinar, en igualdad de otros factores mediante
la fórmula de Spearman-Brown.
 Dificultad de la prueba. Si una prueba es muy fácil o muy difícil para un

grupo, el rango de calificaciones (la variabilidad), se estrechará y se
reducirá la confiabilidad. Esto implica que para elevar al máximo la
confiabilidad, el nivel de dificultad de una prueba debe ser tal que produzca
la distribución más amplia posible de puntuaciones (en el análisis de los
ítemes la distribución más amplia de las calificaciones, en unión de otros
factores, se obtendrá al utilizar reactivos con “p” = 0.50), es decir, cuando
la mitad del grupo responde al reactivo correctamente (o en la dirección
indicada).
 Velocidad. La velocidad puede influir en la confiabilidad. De hecho, la

confiabilidad por mitades no se practica cuando la velocidad es uno de los
factores importantes en la ejecución de la prueba. Los coeficientes de
confiabilidad obtenidos mediante la aplicación de una prueba de alta
velocidad, son sobreestimaciones y se deberán tomar con cuidado. En
este tipo de tests se deben utilizar los métodos de estimación de la
confiabilidad que se vean menos afectados por la velocidad.
g. Métodos prácticos para obtener el coeficiente de confiabilidad
Existen varios métodos prácticos para estimar el coeficiente de confiabilidad y cada

uno de ellos tiene sus propias ventajas y desventajas y controlan más o menos fuentes
de error que vienen por ejemplo de factores personales: cansancio, motivación,
fluctuación de la atención, etc., y factores ambientales: presencia de perturbaciones
externas que distraen al sujeto y otros factores más.
h. Reglas para obtener una elevada confiabilidad
1. Cuanto mayor es el número de ítemes que constituyen la prueba (que midan la

misma dimensión o factor), más elevada es la confiabilidad.
2. Cuanto más extenso el tiempo empleado para la resolución del test, mayor es la
confiabilidad.
3. Cuanto menor es la amplitud de dificultad de los ítemes, mayor será la confiabilidad
del test.
4. Cuanto más objetivo es el sistema de calificación o cómputo, más confiable será el
test.
5. Cuanto más alta la probabilidad de obtener una respuesta correcta por azar o
adivinación, más baja será la confiabilidad.
6. Cuanto más homogéneo sea el contenido, más confiable será el test.
7. Cuanto más acostumbrada esté la muestra de sujetos a que se le administren
pruebas, más alta será la confiabilidad.
8. Los reactivos de contenido emocional (en un test de conocimiento o
aprovechamiento), tienden a disminuir la confiabilidad.
9. La disposición mental de los examinados, la falta de motivación, o la mala
interpretación de las instrucciones del test, disminuyen la confiabilidad.
LECCION 2
METODOS DE LA CONFIABILIDAD
1. INTRODUCCION
Es importante tener en cuenta, que la confiabilidad se refiere, específicamente a los errores

aleatorios, tal cual menciona Martínez Arias (1996). Podemos hablar de dos tipos de
errores: los errores aleatorios que, como tales, no pueden ser controlados y no se pueden
predecir y los errores sistemáticos que son controlables y pueden ser explicados por
alguna fuente de variación sistemática. De ambos errores los únicos que interesan a la
teoría de la fiabilidad son los errores aleatorios.
2. METODO DEL TEST-RETEST
Este método consiste en aplicar la misma prueba en dos oportunidades a la misma

muestra de sujetos, con un determinado intervalo entre las dos aplicaciones, para
finalmente calcular la correlación entre los calificativos obtenidos en la primera y segunda
oportunidad. El coeficiente más comúnmente utilizado para calcular la confiabilidad con
este método es el de la correlación momento-producto de Pearson, aunque esto depende
del nivel o escala de medición (nominal, ordinal o de intervalo), empleado por el test.
Cuando un coeficiente de correlación es utilizado para estimar la estabilidad de los

calificativos de un test, también suele llamarse coeficiente de estabilidad.
Si bien su administración es sencilla, sin embargo presenta algunos inconvenientes. En

algunos casos por ejemplo, puede presentarse incomodidad o malestar en los sujetos que
son sometidos a la misma prueba en dos oportunidades produciéndose una disposición
desfavorable en la segunda aplicación.
Esta situación exige experiencia de parte del psicólogo para provocar una adecuada
motivación en las personas examinadas. En tal sentido, si se ha considerado una entrega
de resultados a los sujetos, esta puede efectuarse después de concluir la segunda
administración y así garantizar la motivación de los examinados.
En otros casos, si el intervalo de tiempo transcurrido entre las dos administraciones es muy
corto, en tests que miden habilidades, pueden obtenerse una correlación falsamente alta.
Por el contrario, si el intervalo de tiempo entre las dos aplicaciones es muy prolongado, se
corre el riesgo de que las diferencias entre los calificativos se deban a cambios reales en
los sujetos examinados en la variable que está estudiándose, más que a una escasa
confiabilidad de la prueba.
Por lo anteriormente señalado, es conveniente que el tiempo transcurrido entre una y otra
aplicación del test, debería delimitarse atendiendo a las características de la variable
medida y del universo meta de la prueba.
Consiste en correlacionar las puntuaciones obtenidas en dos ocasiones diferentes por los
mismos sujetos en el mismo test (y, por lo tanto, refleja el grado de estabilidad del test). El
principal problema de este método es el de determinar la cantidad óptima de tiempo que
debe transcurrir entre la primera y la segunda aplicación ya que si el período intermedio es
muy breve, las puntuaciones pueden variar por efecto del aprendizaje (recuerdo de las
respuestas a los ítems) y/o de la fatiga de los sujetos, alterando con ello la fiabilidad real
del test. Por el contrario, si el período entre aplicaciones es muy largo, las puntuaciones
empíricas pueden variar porque el rasgo que estamos midiendo no sea estable en el
tiempo, es decir, que evolucione, cambie, se modifique, por lo que este método sólo debe
emplearse con rasgos teóricamente estables, es decir, que no varíen con el paso del
tiempo como pueden ser el CI o la personalidad.
En este procedimiento un mismo instrumento de medición (o ítems o indicadores) es

aplicado dos o más veces a un mismo grupo de personas, después de un periodo de
tiempo. Si la correlación entre los resultados de las diferentes aplicaciones es altamente
positiva, el instrumento se considera confiable. Se trata de una especie de diseño panel.
Desde luego, el periodo de tiempo entre las mediciones es un factor a considerar. Si el
periodo es largo y la variable susceptible de cambios, ello puede confundir la interpretación
del coeficiente de confiabilidad obtenido por este procedimiento. Y si el periodo es corto las
personas pueden recordar cómo contestaron en la primera aplicación del instrumento, para
aparecer como más consistentes de lo que son en realidad (Bohrnstedt, 1976).
3. METODO DE FORMAS EQUIVALENTES O PARALELAS
Mediante este método se puede examinar la consistencia interna pero también la

estabilidad temporal de un conjunto de puntajes. La mecánica consiste en aplicar dos
formas equivalentes o paralelas de un test a un mismo grupo de sujetos. Cuando el
método se usa para verificar la estabilidad, la aplicación de la segunda forma se hace
después de transcurrido un tiempo prudencial y luego se correlacionan los resultados
obtenidos.
Si bien es cierto, este método es más completo que el anterior toda vez que permite
controlar algunas fuentes de error aleatorio como: diversos tipos de reactivos, diferentes
condiciones físicas y mentales de los probandos, diferente situación medio ambiental, etc.,
sin embargo, presenta algunos inconvenientes.
Para ser consideradas equivalentes, dos pruebas deben reunir ciertos requisitos tales
como: tener las mismas características formales (cantidad de ítemes, escala de respuesta,
etc.) y estadísticas (tener medias y desviaciones estándar semejantes, coeficientes de
correlación elevados entre ambas formas, etc.) (APA, 1999).
Un ejemplo de este método puede ser los resultados obtenidos de las correlaciones de las
formas S y T del APT (Test de Aptitudes Diferenciales de Bennett, Seashore y Wesman,
2,000).
Si dos formas de un test pretenden medir un mismo rasgo, parece razonable esperar que
los resultados empíricos de ambas en una población correlacionen de forma elevada. Si
esto es así, ambas formas manifiestan un elevado grado de precisión a la hora de reflejar
los diversos niveles de rasgo. Si ambas correlacionasen de forma mínima, no podemos
fiarnos de que reflejen fidedignamente los niveles de rasgo.
Pues bien, definimos inicialmente el coeficiente de fiabilidad como la correlación entre los
resultados que proporcionan dos formas paralelas de un mismo test. Teóricamente, este
método consistiría entonces en correlacionar las puntuaciones obtenidas por los sujetos en
dos formas paralelas de un mismo test (mide por tanto el grado de equivalencia entre
ellas). Aunque ésta es la forma que se deriva directamente del modelo de la TCT (recordad
la importancia que se da a su definición en esta teoría) tiene el enorme inconveniente de
que exige el diseño de dos formas paralelas de un mismo instrumento; diseño que, al
margen de costoso en tiempo y esfuerzo, es muy difícil de conseguir.
Sin embargo, el desarrollo teórico de este tercer método de aproximación al estudio de la

fiabilidad relativa de un test resulta muy útil para comprender mejor el significado y modo
de interpretación del coeficiente de fiabilidad de un test, así que vamos a verlo con
detenimiento.
En este procedimiento no se administra el mismo instrumento de medición, sino dos o más

versiones equivalentes de éste. Las versiones son similares en contenido, instrucciones,
duración y otras características. Las versiones generalmente dos, son administradas a un
mismo grupo de personas dentro de un periodo de tiempo relativamente corto. El
instrumento es confiable si la correlación entre los resultados de ambas administraciones
es significativamente positiva. Los patrones de respuesta deben variar poco entre las
aplicaciones
LECCION 3
METODOS DE LA CONFIABILIDAD
1. INTRODUCCION
El criterio de confiabilidad del instrumento, se determina en la presente investigación, por el

coeficiente de Alfa Cronbach, desarrollado por J. L. Cronbach, requiere de una sola
administración del instrumento de medición y produce valores que oscilan entre cero y uno.
(Hernández, y otros, ob. cit.). Es aplicable a escalas de varios valores posibles, por lo que
puede ser utilizado para determinar la confiabilidad en escalas cuyos ítems tienen como
respuesta más de dos alternativas. Su formula determina el grado de consistencia y
precisión; la escala de valores que determina la confiabilidad está dada por los siguientes
valores:
2. METODO DE DIVISION O MITADES EMPAREJADAS
Mediante este método se verifica la consistencia interna de las puntuaciones de una

prueba, en otras palabras, el grado en que las diferentes partes de la prueba miden la
misma variable.
La mecánica a seguir es primero aplicar la prueba en una ocasión a una muestra de

sujetos y posteriormente se divide el test en dos mitades comparables, obteniéndose de
este modo dos puntuaciones para cada sujeto de la muestra.
Finalmente, se correlacionan los calificativos correspondientes a ambas mitades de la

prueba por medio de un coeficiente de correlación. Este método fue muy utilizado antes de
que se dispusiera de computadoras personales en razón a que los estadísticos exigidos
son más fáciles de hallar manualmente que el coeficiente alfa.
Quizás el problema inicial de este método sea lograr que las mitades obtenidas puedan ser
comparables. Por ejemplo, los ítemes de muchos tests tienen un arreglo en espiral y se
construyen con un nivel de dificultad creciente, de tal manera que si se divide el test en dos
mitades, sin lugar a dudas, no resultarían compatibles. En otros casos puede ocurrir que
los sujetos se vean más afectados por el cansancio y la fatiga hacia el final del test
incidiendo en los calificativos de la segunda parte. Frente a esto, algunos especialistas
separan los reactivos en dos mitades, una de pares y otra de impares; y otros aparean los
reactivos con un criterio estadístico para luego asignarlos al azar a cada una de las
mitades.
Es el más utilizado porque sólo se necesita aplicar una vez el test y calcular la correlación
obtenida por los sujetos en cada una de las dos mitades en que se puede dividir dicho test.
Como un test puede tener múltiples “dos mitades”, habitualmente escogeremos las
puntuaciones de los ítems pares y las correlacionaremos con las de los ítems impares (rPI).
Basta con hacer una pequeña transformación sobre esta correlación (mediante la conocida
como fórmula de Spearman-Brown para la longitud doble y que veremos con más
detenimiento en próximos apartados) y tendremos el coeficiente de fiabilidad del test (que,
en este caso, es un indicador directo de la consistencia interna del test)
Los procedimientos anteriores (medida de estabilidad y método de formas alternas),

requieren cuando menos dos administraciones de la medición en el mismo grupo de
individuos. En cambio, el método de mitades-partidas requiere sólo una aplicación de la
medición. Específicamente, el conjunto total de ítems (o componentes) es dividido en dos
mitades y las puntuaciones o resultados de ambas son comparados. Si el instrumento es
confiable, las puntuaciones de ambas mitades deben estar fuertemente correlacionadas.
Un individuo con baja puntuación en una mitad, tenderá a tener también una baja
puntuación en la otra mitad.
3. METODOS DE COEFICIENTE ALFA DE CRONBACH
Comparten con el anteriormente mencionado dos aspectos importantes: en primer lugar,

permiten comprobar la consistencia interna de los calificativos del test y en segundo
término, requieren una sola aplicación del test (Thorndike, 1989).
El caso es que, a partir de una única administración de una prueba a una muestra de
sujetos, se logra una estimación del grado de covarianza de los reactivos, usando como
estadístico el coeficiente alfa de Crombach o la fórmula alternativa de Kuder-Richardson
(KR20), cuando los reactivos son dicotómicos o binarios y tienen diversos grados de
dificultad.
El coeficiente alfa puede considerarse como la media o promedio de todas las

correlaciones de partición por mitades posibles (Cohen y Swerdlik, 2000). Según Muñiz
(2001), el coeficiente alfa expresa el grado de covariación de los ítemes de un test, o en
qué medida los diferentes ítemes de un test miden una misma variable.
Actualmente, es el estadístico más utilizado para calcular la consistencia interna de una

prueba compuesta por ítemes politómicos, es decir, con varias alternativas y a cuya clave
o respuesta correcta puede puntuarse con diferentes valores.
Sobre el punto, existe otro estadístico llamado Kuder-Richardson 21, el cual es utilizado
cuando los reactivos también son binarios pero además poseen el mismo grado de
dificultad. KR21, tiene dos versiones: KR21A y KR21B, las cuales deben arrojar el
mismo resultado.
El coeficiente KR21, en cualquiera de sus formulaciones, generalmente no arroja los

mismos resultados que KR20. KR20, es un coeficiente más preciso y es el más utilizado
por los constructores de pruebas.
Los elaboradores de tests consideran que KR21 tiende a subestimar el valor de KR20, por
ello en las aplicaciones de sus modalidades A y B se logran puntajes inferiores a los
obtenidos con KR20. En la aplicación de la fórmula KR21 de Gronlund inclusive, se
obtienen valores inferiores a KR21A y KR21B y que podría considerarse como el nivel
mínimo posible de hallar acerca de la consistencia interna (Thorndike y Hagen, 1973).
A estas alturas podemos indicar que tanto el método de división o partición en mitades
como el coeficiente alfa, son inapropiados para verificar la confiabilidad de tests de
velocidad o tiempo limitado (Anastasi y Urbina, 1998). En estos casos deben utilizarse
métodos alternativos, como el test-retest o el de formas equivalentes o paralelas
( Tornimbeni, Pérez y Olaz, 2008).
Asimismo, cuando los ítemes de un test o escala son numerosos (superiores a 30), el
coeficiente alfa tiende a ser demasiado elevado (Cortina, 1993). En este caso se
recomienda el uso adicional del coeficiente de correlación inter-ítem, menos influido por el
número de ítemes de una escala. La magnitud recomendable del coeficiente de
correlación inter-ítem debe situarse entre 0.15 y 0.50 (Carretero-Dios y Pérez, 2005).
En muchos tests psicométricos, los indicadores de fiabilidad relativa no aparecen

expresados en función de sus coeficientes correspondientes sino en base a un potente
estimador de los mismos que se conoce como coeficiente de Cronbach.
Simplificando, podemos decir que el coeficiente alfa, propuesto por Cronbach (1951),
estudia la fiabilidad de un test entendiéndola como el grado en que todos los ítems que lo
componen miden el mismo rasgo (unidimensionalidad del test) y, por supuesto, si lo miden
bien. Es, por lo tanto, una medida de la consistencia interna del test, de la coherencia
existente entre todos sus ítems.
Su fórmula puede verse expresada en términos muy variados: varianzas, correlaciones e,

incluso, covarianza, por lo que existen múltiples alternativas para su cálculo como, por
ejemplo, la planteada por Kuder y Richardson. De este modo, lo único que nos va a
interesar a nosotros aquí es poder interpretarlo como medida de la fiabilidad de un test
cuando encontremos referencia a él al revisar las características psicométricas de alguno
de ellos.
En estos términos, debemos entender que es un estimador del coeficiente de fiabilidad de

un test, de tal manera que si el valor de es elevado, la fiabilidad del test también lo será.
Este coeficiente de consistencia interna siempre tendrá un valor menor o igual al de la
fiabilidad del test y sólo coincidirán cuando todos los ítems sean paralelos entre sí; es decir,
cuando la consistencia interna entre ellos sea máxima y, por lo tanto, podamos afirmar que
están midiendo la misma dimensión o rasgo psicológico.
Este coeficiente desarrollado por J. L. Cronbach requiere una sola administración del
instrumento de medición y produce valores que oscilan entre O y 1. Su ventaja reside en
que no es necesario dividir en dos mitades a los ítems del instrumento de medición,
simplemente se aplica la medición y se calcula el coeficiente.
LECCION 4
TRANSFORMACION DE PUNTAJES DIRECTOS
1. INTRODUCCION
Los puntajes directos, “crudos” o “brutos” de un test, sea éste los de una prueba
recientemente construída u otro test ya utilizado, no significan nada por sí mismas a menos
que se les compare con algún patrón o tabla de medida.
Para comprender el significado de una puntuación directa, “cruda” o “bruta” de un test

requerimos de una información complementaria. Para obtener dicha información existen
dos métodos básicos: referencia al criterio y referencia a la norma.
En este capítulo nos centraremos fundamentalmente en la referencia a la norma por ser la

más utilizada en nuestro medio. Dentro de esta perspectiva trataremos las puntuaciones
derivadas tales como los percentiles, las puntuaciones estándar o típicas y las
estandarizadas.
2. Interpretación de la puntuación de un test con referencia a la norma
Un puntaje directo, “crudo” o “bruto” de una prueba se interpreta con referencia a la norma
cuando se convierte el puntaje del sujeto en una posición con respecto al grupo que ha
sido examinado por el test y que se convierte en grupo normativo.
Ejemplo: Jaime resolvió los problemas de la escala avanzada de matrices progresivas de
Raven, mejor que el 85 por 100 de una muestra representativa de alumnos del quinto de
secundaria de Lima Metropolitana.
3. Estandarización o Tipificación
El proceso de estandarización implica adaptar una prueba a una realidad diferente para la
que fue creada. Infiere establecer procedimientos unívocos para la aplicación, calificación
e interpretación de un test. Por otra parte, la adaptación muchas veces supone traducir el
test a un idioma diferente, por lo que los psicólogos especialistas deben manejar
correctamente lo concerniente a traducción, dicción, vocabulario, ortografía, gramática,
etc., a fin de poner el instrumento “a punto”.
Si las condiciones de administración y cómputo están perfectamente definidas y su

utilización es idéntica para todos los sujetos a examinarse, es decir, se cumplen con todos
los requisitos de un test psicométrico, entonces queda como aspecto más importante la
interpretación, la cual (con relación a la norma), queda perfectamente definida con la
obtención de normas o baremos.
Las normas obtenidas se sistematizan en una tabla de normas o baremo que sirve para
transformar los puntajes directos en puntajes derivados susceptibles de interpretación
estadística.
4. Normalización o Baremación
Es un procedimiento que permite transformar los puntajes directos, “crudos” o “brutos” de

un test en puntajes equivalentes sobre la base de un criterio de baremación y teniendo
como base la curva de distribución normal.
La tabla de normas o baremo, permite comparar el puntaje directo obtenido por un sujeto
con la distribución de los puntajes obtenidos en el test por el grupo normativo.
5. El grupo normativo y sus características
El grupo normativo es llamado también muestra de normalización, constituye el “grupo

histórico” de sujetos sobre los cuales se han calculado las normas.
Una norma es una afirmación de cómo se han desempeñado una población o universo de
referencia en un test, basándose en los cálculos hechos sobre el grupo normativo.
Una población de referencia son los sujetos que comparten una o más características tales
como edad cronológica; sexo; nivel educativo; estado civil; ubicación geográfica; lugar de
residencia, etc.
Un grupo normativo comprende las siguientes características:
A. Definición.
El grupo debe estar perfectamente definido. Esto se realiza sobre la base de las
variables de estudio. Ejemplo: estudiantes secundarios de ambos sexos comprendidos
entre los 11 y 17 años de edad que cursan del 1° al 5° de secundaria diurna en
colegios nacionales de Lima Metropolitana. Las normas son válidas solamente para los
examinados que tengan las mismas características que definen al grupo normativo.
B. Representatividad
Cuando las medidas estadísticas (media o promedio; desviación estándar, etc.), que se
estimen van a ser generalizadas a la población general, es necesario que el grupo
normativo sea representativo de tal universo para que las medidas tengan validez.
C. Tamaño suficiente
El grupo normativo es una muestra para calcular los parámetros estadísticos de la
población; por lo tanto, el tamaño del grupo normativo viene dado en función de la
precisión con que se desee hacer dichas estimaciones.
6. Puntuaciones derivadas: Tipos
Los puntajes directos se transforman mediante procedimientos estadísticos en

puntuaciones derivadas, las cuales permiten una interpretación psicológica de los
calificativos obtenidos.
Las puntuaciones derivadas que más se utilizan en psicología son: percentiles;

puntuaciones estándar o típicas y puntuaciones estándar o típicas normalizadas.
A. PERCENTIL (Pc) (Sinonimia: rango percentil, rango decil).

Se define como “puntos de una distribución continua debajo de las cuales se
encuentran porcentajes dados de la muestra”. El percentil obtenido por un sujeto nos
dice qué proporción del grupo normativo ha alcanzado un rendimiento inferior a él.
El percentil representa un orden en la ejecución expresada en porcentajes (constituye
una escala ordinal).
Ventajas
Es el puntaje derivado más rápido de entender y el de más fácil comunicación al lego,
lo que lo hace muy satisfactorio para informar a las personas que carecen de una
formación estadística. Además, se puede interpretar de una manera exacta, aún,
cuando la distribución de los puntajes del test no sean estrictamente normales
(campana de Gauss).
Desventajas.
Al no tener distancias iguales (por ser una escala ordinal y no de intervalo), tiende a
exagerar las pequeñas diferencias hacia la zona media, diferencias que no son
importantes y reduce el tamaño aparente de diferencias realmente importantes y
amplias en los extremos de la distribución. Por otra parte, es poco adecuado para los
análisis estadísticos (no se pueden emplear operaciones aritméticas entre ellos.
En el presente capítulo vamos a desarrollar cuatro formas de obtención de percentiles.
B. PUNTUACIONES ESTÁNDAR O TÍPICAS.

Son puntuaciones derivadas que se obtienen en base a la media o promedio aritmético
y a la desviación estándar o típica de la distribución de puntajes del test (distribución
empírica de puntajes del test).
Ventajas.
Son útiles para los análisis estadísticos (se asume que se dan en una escala de
intervalo).
Desventajas.
No pueden ser fácilmente interpretados cuando las distribuciones empíricas de
puntajes del test se alejan del patron de la distribución normal (campana de Gauss), lo
cual puede llevar a conclusiones erróneas.
C. PUNTUACIONES ESTÁNDAR O TÍPICAS NORMALIZADAS.-
En este caso, la distribución de puntajes empíricos sigue estrictamente el patrón de la

distribución normal (campana de Gauss). De esta manera, cada puntuación adquiere
un significado estadístico preciso.
Cuando la distribución empírica no sigue estrictamente el patrón de distribución normal

se procede a la normalización de la curva. Esta consiste básicamente en determinar
para distintas proporciones de la distribución empírica qué valor “z” de la curva normal
les corresponde. En realidad lo que se está haciendo es “ajustar” la distribución
empírica a una distribución normal.
El caso es que, los puntajes estándar que obtenemos son normalizados. La nueva
distribución ya no tiene la misma forma de la original (como sí la tenía los puntajes
estándar). Si se calcula, el promedio de esta distribución es 0 y su DE es 1 (puntaje
estándar “z”).
La puntuación normalizada tiene características importantes para la interpretación de

las puntuaciones. Al estar basada en la curva normal, cada uno de los puntajes tiene
un significado estadístico conciso ya que el porcentaje de individuos que se encuentran
arriba y debajo de cada puntaje se conoce exactamente en una escala que tiene una
media y una desviación conocidas. Esto es muy importante, por ejemplo, cuando los
resultados del test se utilizan en selección y consejo. En estos casos, se da
importancia no a la comparación entre diferencias a distintos niveles de puntajes, sino
a la posición relativa de un individuo en una distribución cuyas propiedades son
conocidas.
La normalización puede necesitarse también para otros fines. Así, cuando usamos
diferencias inter o intra individuales, necesitamos los puntajes de los individuos en una
escala de intervalo.
Por otra parte, como quiera que las puntuaciones normalizadas tienen unidades de
medida iguales y su amplitud es la misma en una u otra distribución, se utilizan como
técnica básica para la interpretación de los resultados de las pruebas psicológicas y
pedagógicas.
Asimismo, las puntuaciones normalizadas adquieren mayor significado cuando

comprendemos su relación con la distribución o curva normal llamada también curva de
Gauss, la cual tiene las siguientes propiedades (Escotet, 1973):
a. La curva es simétrica. La media o promedio aritmético, la mediana y el modo

coinciden en la mitad de la curva.
b. La curva es asintótica en relación al eje de la abcisa. Esto nos indica que las colas
de la curva nunca llegan a tocar el eje horizontal y se extienden desde el infinito
negativo, hasta el infinito positivo.
c. La ordenada máxima de la curva se ubica en la media, donde la unidad de la curva

normal es igual a 0.3989 y z = 0.
d. A partir de los puntos donde se ubican ( + -), 1 desviaciones estándar (encima o

debajo de la media o promedio), la curva cambia en relación al eje de las abcisas de
convexa a cóncava.
e. Entre (+ - ) 1 desviación estándar cubren el 68.26 por ciento del área de la curva, tal
y como podemos apreciar en la tabla que se aprecia a continuación:
La mayor ventaja de transformar puntajes brutos, “directos” o “crudos” a puntuaciones

normalizadas, es que con las primeras tendríamos un número infinito de distribuciones
normales con diferentes medias o promedio aritméticos y desviaciones estándar, mientras
que con puntuaciones normalizadas podemos relacionar todas las distribuciones normales
a una distribución de frecuencia relativa. De esta manera, cuando la curva normal es
utilizada como referencia, a través de las puntuaciones normalizadas, recibe el nombre de
distribución normal estándar, en donde el promedio de dicha distribución es 0 y la
desviación estándar es 1.
Escala X.-La escala X no es una escala normalizada, ya que viene dada por los puntajes
directos, “crudos” o “brutos”. En otras palabras, si un sujeto ha obtenido 80/100 puntos en
un examen, 80/100 es su puntuación X. Por lo tanto, para elaborar una escala X,
solamente necesitamos conocer las puntuaciones directas y la media aritmética de dichas
puntuaciones.
Escala Z.-Esta es una escala de puntuaciones estándar que comprende generalmente

cuatro unidades a cada lado de la media o promedio, la mitad positiva y la otra mitad
negativa. Asume como unidad de medida la desviación típica o estándar obtenida de las
puntuaciones directas, “crudas” o “brutas”. En razón a que una puntuación normalizada
tiene como características que la desviación estándar de una distribución no se altera por
la sustracción de una constante y que la variabilidad de un grupo de puntuaciones
determina la interpretación de la posición relativa.
Escala P (Percentil).-La escala percentil es una de las más utilizadas por los psicólogos.
Constituye una escala ordinal sin suposiciones con respecto al cero arbitrario y las
unidades. Comprende desde 0 a 100 y se expresa en percentiles.
El percentil 30 (P30), es el punto de la escala por debajo del cual se encuentra el 30% de
los sujetos, o también el percentil 84 (P84), es el punto de la escala por debajo del cual se
encuentra el 84% de los sujetos.
Cuando hablamos de la desviación o amplitud semiintercuartilar decimos que la mediana
es el punto de la distribución de frecuencias debajo o encima de la cual se encuentra el
50% de los casos, y que el primer cuartil (Q1), marca el punto debajo del cual se encuentra
el 25% de los casos y el tercer cuartil (Q3), el 75% de los casos. Pues bien, en vez de
dividir nuestra muestra o colectivo en cuarteles (25%), la dividimos en cien partes iguales y
a los diversos puntos de la escala que separan las partes de porcentajes de 1 se les llama
percentiles o centiles. En la práctica tenemos 100 espacios y 99 puntos percentiles.
El método para calcular y construir la escala percentilar es esencialmente igual al utilizado
en el cálculo de la mediana.
Normas Locales (Baremos o Normas de Centro).
Para ser útiles, las normas o baremos deben permitir al profesional psicólogo comparar a
un sujeto, examinado o probando, con sus posibles compañeros y competidores. Muchas
veces, encontramos que las normas generales no son de gran utilidad toda vez que existen
múltiples diferencias entre las diversas regiones geográficas, las profesiones, los colegios,
etc. Esta situación se agudiza en países como el nuestro donde los grupos humanos son
tan heterogéneos, que resulta necesario elaborar normas locales o baremos de centro. Por
ejemplo: si el psicólogo trabaja en un centro educativo de nivel socio económico muy alto,
debe elaborar tablas de normas o baremos para la población en la cual desempeña sus
funciones. Estas normas serán expresadas en los puntajes derivados que dicho
profesional estime conveniente de acuerdo al tipo de prueba, población, confiabilidad,
validez, etc.
GLOSARIO
Actitud y Evaluación de Actitudes. Se entiende por actitud una predisposición organizada y

duradera con componentes cognoscitivos, afectivos y conductuales, que orienta a la persona a
pensar, sentir, percibir o a comportarse de una manera determinada hacia un referente u objeto
cognoscitivo. Se evalúan usualmente mediante inventarios, es decir, listas de afirmaciones
asociadas con el objeto de la actitud, a las cuales el Sujeto responde, indicando en una escala
su disposición positiva o negativa hacia esa afirmación.
Análisis de ítems. Procedimiento cuantitativo mediante el cual se determina el funcionamiento
de los Ítems de una prueba o encuesta. Permite establecer el número y proporción de sujetos
que responde la Clave y cada uno de los Distractores, así como la Correlación Biserial de las
opciones con el puntaje total en la prueba o con un Criterio de Validación externo.
Análisis Factorial. Véase Factor
Anava de Hoyt. Procedimiento para al cálculo de la Confiabilidad de Consistencia Interna de
una prueba, que establece la relación entre la varianza debida a los sujetos, los ítems y la
varianza total del test.
Aptitud y Pruebas de Aptitudes. Una aptitud es una combinación de habilidades,
conocimientos y otras características, innatas o adquiridas, que indican el potencial de un
individuo para aprender a desarrollar un buen rendimiento en un área particular si se le provee
de educación y entrenamiento. Entre los tests aptitudinales se incluyen los que evalúan la
habilidad académica general (llamados comúnmente de habilidad mental o de inteligencia), los
de habilidades especiales tales como verbal, numérica, mecánica o musical; tests de apresto
para el aprendizaje; tests de pronóstico que evalúan tanto la habilidad como el aprendizaje
anterior y son usados para predecir el rendimiento futuro – usualmente en un campo específico,
como una lengua extranjera, taquigrafía, etc. También se habla de “aptitud” en un sentido más
amplio, por lo que la “aptitud musical”, por ejemplo, se referiría a una combinación de
características físicas y mentales, y de aspectos motivacionales, intereses y otras
características, que conducen a lograr un buen rendimiento en música.
Batería de Pruebas. Una Batería de Pruebas es un grupo de tests estandarizados sobre una
misma muestra de población, de manera que los resultados en los diferentes tests son
comparables. También se concibe como un conjunto de tests desarrollados para evaluar
habilidades interrelacionadas entre sí teóricamente y/o empíricamente y asociadas con la
realización de una tarea o con los estudios académicos. Cuando se aplican todas las pruebas
como batería, es posible elaborar un Perfil Psicométrico de la persona. Es usual que las
variables a explorar con los tests de una Batería se seleccionen de manera que tengan validez
factorial o que tengan altas correlaciones entre los ítems de una prueba, pero bajas entre
pruebas. Un ejemplo de batería es el Test Diferencial de Aptitudes de Bennet y Seashore.
CEEB. Transformación lineal derivada introducida por el College Entrance Examination Board
de USA, de Media 500 y Desviación Típica 100. Su gran amplitud permite la comparación de
resultados de grandes grupos de sujetos, acumulados de año en año.
Clave de Corrección. Es el conjunto de respuestas correctas a las preguntas de una Prueba
Psicométrica. La clave de corrección, también debe indicar la ponderación dada a cada una de
las respuestas para el cálculo del puntaje bruto total.
Cociente Intelectual (CI). Indicador del nivel de inteligencia utilizado en las primeras pruebas
psicométricas y que se calculaba mediante la división de Edad Mental (calculada por el test) y
Edad Cronológica (edad real del Sujeto) multiplicada por 100. Un valor de 100 (igual edad
mental y edad cronológica) indica normalidad, mientras que por debajo indica “retardo” y por
encima “aceleración”.
Cociente Intelectual de Desviación (CI Desviación). Sustituto del Cociente Intelectual
original se desarrolló por las diferencias existentes en la varianza de las puntuaciones del
Cociente Intelectual en los diferentes niveles de edad, que dificultaban la interpretación de los
resultados. Es en realidad una transformación que tiene una media de 100 y una desviación
típica de 15.
Colectivas, Pruebas. Pruebas que se pueden aplicar a grupos de sujetos para su evaluación.
Este concepto se contrapone al de Pruebas Individuales.
Coeficiente Alfa. Estimado de confiabilidad de consistencia interna propuesto por Cronbach.
Para ítems binarios, da resultados iguales a la fórmula Kuder Richardson 21 (KR21).
Coeficiente de Correlación. Medida del grado de asociación que existe entre dos conjuntos
de medidas realizadas en el mismo grupo de individuos. El más conocido y utilizado con
Pruebas Psicométricas es Producto Momento de Pearson, aunque existen otros como
correlación por rangos, biserial, tetracórico, etc. Tiene un recorrido entre +1.00 y –1.00
(asociación perfecta positiva o negativa), pasando por 0.00 (ausencia de relación entre ambas
medidas). La correlación indica solamente asociación entre variables, no relaciones causales.
Confiabilidad. El grado en que un test es consistente al medir la variable que mide. Algunas
palabras asociadas con la Confiabilidad son estabilidad, exactitud, consistencia y precisión, así
como el Error Estándar de Medida. La Confiabilidad se expresa usualmente mediante
coeficientes de correlación, obtenidos a partir de los puntajes en dos aplicaciones de la misma
prueba al mismo grupo de Sujetos o haciendo uso de pruebas paralelas aplicadas al mismo
grupo de sujetos. También se define como Consistencia Interna, que se obtiene mediante la
determinación de las intercorrelaciones o Covarianzas de los ítems (véase KR21 y Coeficiente
Alfa).
Construcción de pruebas, fases de la. Las pruebas psicométricas se construyen mediante un
cuidadoso proceso, que garantiza la calidad de las mismas. Tavella identifica varias fases: 1)
Preparatoria, en la que se define (teórica y operacionalmente) la variable a explorar, se
establecen las especificaciones del instrumento, se elaboran los ítems, se depuran
cualitativamente mediante el juicio de expertos, se elaboran instrucciones y se estructura el
instrumento. 2) Exploratoria, en la cual se aplica a una muestra informal de sujetos de la misma
población a la cual va dirigida, se realiza análisis de ítems para determinar su calidad y se
depura el instrumento. 3) Experimental, en la cual se aplica el instrumento ya depurado en la
fase anterior a muestras formales de sujetos, hasta conocer mejor el instrumento, elaborar
estudios de validez y confiabilidad y normas. 4) Definitiva, en la cual ya se considera que el
instrumento está listo para su uso en grupos extensos de la población, así como para la
realización de estudios normativos a gran escala.
Constructo. Las variables psicológicas no son observables directamente, por lo que se infieren
a través de la observación de la conducta de las personas, y se plantean en términos teóricos.
Son inventados y adoptados en forma deliberada y consciente por la comunidad científica, es
decir, “construidos” por los investigadores y teóricos de la psicología.
Contaminación del Criterio. Situación en la cual, una persona que debe establecer un Criterio
de Validación conoce de antemano las puntuaciones obtenidas por los sujetos en la prueba y
sesga su juicio por ese conocimiento. Por ejemplo, un maestro que debe indicar el nivel de
habilidad verbal de un grupo de alumnos, pero conoce con antelación los resultados de la
prueba de razonamiento verbal que va a ser validada con su evaluación.
Corrección (puntuación) de Pruebas. Es la asignación de puntajes a las respuestas dadas
por un sujeto a las preguntas de una prueba. La mayoría de las veces se realiza mediante la
asignación de un punto por cada respuesta correcta (ítems binarios), es decir, que coincida con
la clave de respuestas (ver Clave de Corrección), aunque también son posibles otras formas de
corrección, como restar a las respuestas correctas una proporción de las incorrectas. Consulte
también Puntaje Directo o Puntaje Bruto.
Corrección de Puntajes por Azar. Los ítems de opciones múltiples permiten responder al azar
y alcanzar un cierto número de aciertos, es decir, permiten la adivinación de las respuestas.
Por ejemplo, en una prueba de 40 ítems de cuatro opciones, la probabilidad de marcar la
respuesta correcta por azar es de 25%, lo que permite establecer una media de puntajes por
azar de 10 puntos y una desviación típica de 2,73 (en una distribución binomial, la media es
0,25x40= 8 puntos y la desviación típica raíz de 0,25X0,75x40= 2,73). Por ello se han
propuesto formas de corrección por puntajes por azar. La más común es la siguiente, en donde
Xc es puntaje corregido, C es el número de respuestas correctas, I es el número de incorrectas
y k es el número de opciones. Estas fórmulas asumen que toda respuesta incorrecta es una
respuesta al azar; lo usual es que se le recomiende al Sujeto, que se abstenga de dar
respuestas en las que no esté completamente seguro y se le advierta sobre el uso de la
fórmula de corrección. 1−−=kICXc
Corrección por atenuación. La correlación entre dos variables se modera en su magnitud, por
el nivel de confiabilidad de cada uno de las medidas. Esto hace que el resultado aparente ser
más bajo, que la correlación que se obtendría si se contase con medidas perfectamente
confiables. Para determinar el nivel de asociación que se obtendría con medidas confiables, se
hace uso de la corrección por atenuación, que se obtiene por la fórmula siguiente, en donde
rTG es la correlación entre los puntajes verdaderos, rtg es la correlación obtenida entre las dos
variables, rtt es la confiabilidad de una de las medidas y rgg es la confiabilidad de la otra.
ttggTGrrrr.tg=
Correlación Punto Biserial. Estimado de la correlación Producto Momento de Pearson que se
calcula entre una variable continua y una variable dicotómica. Se aplica en el Análisis de Items
para determinar la asociación entre el puntaje total en el test y el puntaje obtenido en la Clave y
cada uno de los distractores. Se calcula mediante la fórmula siguiente, en donde Mp es la
media obtenida por las personas que respondieron correctamente el ítem, Mq la media de los
que respondieron de manera incorrecta, p es la probabilidad de respuesta correcta del ítem, q
la probabilidad de respuestas incorrectas y Sx la desviación típica de la prueba.
pqSxMqMprpb−=
Correlación Múltiple. La correlación que se establece entre una variable predicha y varias
variables predictoras en contraste con la Correlación simple. Por ejemplo, el rendimiento
universitario (Criterio) que se predice haciendo uso de los resultados en varios tests (variables
predictoras). La Correlación Múltiple tiene especial aplicación en las Ecuaciones de Regresión
Múltiple, que permiten establecer una recta de regresión que incluye varias variables
predictoras de la forma siguiente (en donde K es una constante, βnXn es la ponderación que se
le da a cada una de las variables predictoras):
Y´ = K + β1X1 + β2X2 + β3X3
Correlación Múltiple por Pasos. Correlación Múltiple que se establece entre una variable
predicha y varias variables predictoras en forma progresiva. Para ello, se toma el coeficiente de
correlación más alto de todas las predictoras con la predicha, y se establece una recta de
regresión, que permite establecer la correlación entre Y y Y´. La siguiente variable predictora se
correlaciona con los residuos para establecer si correlaciona en forma significativa. Si es así, se
incorpora al cálculo de la recta de regresión del siguiente nivel. Se deja de incorporar variables
cuando una variable predictora no correlaciona en forma significativa con los residuos.
Correlación simple. Relación que se establece entre una variable predictora (o independiente)
y una variable predicha (o Criterio). Es el modelo más sencillo de correlación. Véase
Correlación Producto Momento de Pearson.
Correlación producto momento de Pearson. Coeficiente de correlación que permite
establecer el grado de asociación entre dos variables continuas. Dado que se fundamenta en
los mínimos cuadrados, exige que las variables guarden una relación lineal entre ambas y que
presenten homocedasticidad. Se calcula mediante la fórmula: YXxySNSYYXXrΣ−−=))((
Covarianza. Grado en que dos o más variables varían unas con relación a las otras. Pueden
ser variables continuas o dicotómicas, como en el caso de los ítems. Se puede establecer
mediante índices de covarianza, que en el caso de los ítems se determina mediante la fórmula
siguiente: cov. = pij – pi.pj. En realidad, la covarianza es la correlación entre dos variables
multiplicada por sus desviaciones típicas.
Criterio de Validación. Es un estándar mediante el cual se evalúa la validez de un test. Se
requiere que sean también una medida de algún tipo, es decir, que se expresen en una Escala
Cuantitativa. Pueden ser el rendimiento en otra variable como otro test, la apreciación de un
supervisor en el trabajo, los juicios de un profesor, notas en un curso, etc. Usualmente se
establece una correlación entre el rendimiento en el test y la puntuación en el criterio para
decidir cuál es el grado de asociación entre el test y el criterio, lo que permite predecir el
rendimiento a futuro o determinar el nivel actual en el criterio.
Desviación Típica. Es una medida de la variabilidad o dispersión de una distribución de
puntajes. Mientras menos dispersos están las puntuaciones alrededor de la Media menor es la
desviación típica, mientras más se dispersan, mayor es la Desviación Típica. Cuando se trata
de una Distribución Normal, existen algunas relaciones importantes. Por ejemplo, a una
desviación típica por encima y por debajo de la Media se encuentra el 68,26% de la
distribución. El cálculo de la Desviación Típica se realiza mediante el cálculo de la raíz
cuadrada de la sumatoria de los desvíos de los puntajes con respecto a la media elevados al
cuadrado. Es también la raíz cuadrada de la Varianza.
Dificultad de los ítems. El grado de dificultad de un ítem se determina mediante la proporción
de respuestas correctas (cociente entre respuestas correctas divididas entre el número de
respuestas totales). La proporción que se obtiene se denomina a la media del ítem, o “la p del
ítem” y es un indicador directo de su facilidad, o inverso de la dificultad, ya que su valor,
comprendido entre 0 y 1, indica que mientras más se acerca a 0 es más difícil el ítem (puesto
que fue respondido por un menor número de personas) y mientras más se acerca a 1 es más
fácil (respondido por un mayor número de personas).
Distribución bivariada normal. Modelo matemático que permite describir la distribución de los
puntajes de un grupo en dos variables simultáneamente. Para utilizar este modelo, es
importante que los datos que se describen con esta distribución muestren normalidad en sus
distribuciones marginales, linearidad en su relación e igualdad de varianza en todos los niveles
de ambas variables (homocedasticidad).
Distribución Normal. Es una distribución de puntajes que tienen en su representación gráfica,
la típica forma de una campana. Es llamada también Campana de Gauss. En una distribución
normal, los puntajes se distribuyen en forma simétrica alrededor de la media, con tantos casos
hacia arriba como hacia abajo para distancias iguales. Los casos se concentran cerca de la
media y disminuyen en frecuencia a medida que se alejan de la media, de acuerdo a una
ecuación matemática muy precisa. La Media, Mediana y Moda son idénticos en una
Distribución Normal, ya que existe simetría. No toda distribución simétrica es necesariamente
normal. Nada indica en realidad que los rasgos psicológicos se distribuyan de manera normal
en la población de manera independiente del test que los mide; sin embargo, asumir que se
distribuyen en forma normal en la población o en muestras de la misma y hacer que las
puntuaciones en el test se distribuyan en forma normal, es útil porque permite hacer uso de las
propiedades conocidas de la Curva Normal para obtener conclusiones y realizar predicciones.
Efecto Halo. Efecto subjetivo que ocurre cuando al evaluar a una persona la impresión que
causa una variable o aspecto del sujeto afecta la evaluación en otras variables. Por ejemplo, la
buena presencia de una persona determina que se considere que su nivel de razonamiento
debe ser alto y se indica así en la evaluación.
Error Estándar de Estimación. Al aplicar rectas de regresión para estimar el rendimiento en
otra variable, como un Criterio, si la correlación no es perfecta (rxy = 1.0) se comete un error de
estimación del criterio. Se utiliza para establecer la posible magnitud del error presente en la
estimación (Y´) y para determinar Intervalos de Confianza. Se calcula mediante la fórmula Se =
Sx√1-rxy2 (en donde Se es el error estándar de estimación, Sx es la desviación típica de la
variable a predecir, y rxy2 es la correlación entre el predictor y la variable predicha elevada al
cuadrado.
Error Estándar de la Diferencia. Estadístico que permite establecer si las diferencias entre los
puntajes obtenidos por una persona en dos pruebas o por dos personas en la
misma prueba, son diferentes entre sí en forma lo suficientemente significativa
como para afirmar que subyacen diferencias en los conocimientos o habilidades
que se están midiendo. Se calcula mediante la fórmula siguiente, en la que St es
la Desviación Típica de la escala de medición y rxx es el Coeficiente de
Confiabilidad: xxrSSetd−=1(2
Error Estándar de Medida Sem. Es un estadístico que estima la posible magnitud del error
presente en un puntaje individual. El Error Estándar de Medida indica la diferencia que puede
existir entre el Puntaje Obtenido y el Puntaje Real o Verdadero (T), que se supone que refleja la
verdadera posición del individuo en un continuo subyacente; esa diferencia se debe a errores
de medida. Mientras mayor es el Error Estándar de Medida, menos confiable es la puntuación
obtenida. El Error Estándar de Medida es una magnitud tal, que en aproximadamente dos
terceras partes de los casos, el puntaje obtenido no diferirá más de un Error Estándar por
encima o por debajo del Puntaje Real. En teoría se puede decir, que en 2 de cada 3 casos, el
puntaje obtenido se encuentra en una banda que se extiende del Puntaje Real más o menos un
Error Estándar de Medida; pero debido a que el Puntaje Real nunca se puede conocer, la
práctica establece que, para la interpretación, se puede revertir la relación Puntaje Verdadero –
Puntaje Obtenido. Se calcula mediante la fórmula siguiente, en la que St es la Desviación
Típica de la escala de medición y rxx es el Coeficiente de Confiabilidad: xxtemrSS−=1
Escala. La sucesión de números en función de los cuales se realiza la medición. Clásicamente
se distinguen cuatro niveles: Nominal, Ordinal, Intervalo, Razón. También se entiende por
escalas, las transformaciones de puntajes que se realizan a escalas de propiedades conocidas,
tales como Estaninas Percentiles, puntaje Z, Puntaje H, etc.
Estadística Descriptiva e Inferencial. La E. Descriptiva es una rama de la estadística aplicada
que permite describir las características de las distribuciones en función de los datos obtenidos.
La E. Inferencial es una rama de la estadística que permite realizar inferencias sobre el
comportamiento de los estadísticos en la población o un segmento de ella. Ambas son
absolutamente necesarias en el trabajo estadístico de los datos psicométricos.
Estanina. Escala de nueve puntos estandarizados. El nombre proviene del inglés Stanine
(standard nine), que tiene valores del 1 al 9, con una Media de 5 y una Desviación Típica de 2.
Cada Estanina, excepto la 1 y la 9, tiene media desviación típica de ancho, y la Estanina 5 tiene
un cuarto de desviación típica por encima y un cuarto por debajo de la media. Cada Estanina
contiene un determinado porcentaje de la distribución, de acuerdo a la siguiente Tabla:
Evaluación. Es la comparación de una situación actual con un estándar. En el caso de las
pruebas psicométricas, los resultados cuantitativos (véase Medición), se comparan con
estándares para establecer cómo rindió la persona, es decir, evaluar el resultado; la evaluación
puede ser la comparación con una Norma, o con un Perfil Psicométrico. Usualmente la
evaluación constituye un juicio de valor.
Factores. En medición psicométrica, factor es un rasgo hipotético que subyace a una variable y
que influye sistemáticamente en el rendimiento en los ítems de un test o los puntajes en dos o
más tests y por lo tanto, hace que el rendimiento en diferentes tests esté correlacionado. El
término “factor” se refiere estrictamente a la variable teórica, que se deriva por un proceso de
análisis factorial a partir de una matriz de intercorrelaciones entre tests. Sin embargo, también
se utiliza para denotar la interpretación psicológica que se le da a la variable, por ejemplo, el
rasgo mental que se asume que está representado por la variable, tales como habilidad verbal,
habilidad numérica, etc.
Frecuencia. Es el número de observaciones que corresponde a un determinado puntaje en
una escala. Usualmente las observaciones son los sujetos que obtuvieron ese puntaje.
Frecuencia Acumulada. Es el número de observaciones acumuladas hasta el límite superior
de un determinado puntaje en una escala. Se acumula siempre desde las puntuaciones más
bajas en la Escala hacia los más altos.
H (Escala H). Escala a la que se transforman en forma lineal los puntajes con Media de 100 y
Desviación Típica 20.
Homogeneidad. Grado de similitud que existe entre los elementos de una Población con
relación a ciertos atributos; la Población puede ser de Sujetos, Items, o de Contenidos o
Conceptos. Cuanto se trata de sujetos, la Homogeneidad se puede establecer en forma
comparativa mediante la Varianza de una distribución de puntajes obtenidos por dos o más
grupos de sujetos; el que tiene la menor Varianza es más homogéneo, en este caso hablamos
de Homogeneidad de la Muestra. Cuando se trata de los ítems de una prueba, se establece
mediante H de Horst, KR21, ó el Coeficiente Alfa de Cronbach, que se fundamentan en la
covarianza entre los ítems; en este caso hablamos de Homogeneidad de la Prueba.
Intervalo de Confianza. Recorrido que se establece alrededor de un estadístico (calculado en
una Muestra) para determinar la ubicación de un parámetro (de la Población) con un
determinado Nivel de Confianza. Se establece en función de los estadísticos de muestreo del
estadístico en cuestión, para lo que es usual utilizar las propiedades de la Distribución Normal.
Por ejemplo, el Intervalo de Confianza de la Media permite estimar la Media de la Población
(μ), haciendo uso del error estándar de la Media multiplicado por la z correspondiente al Nivel
de Confianza seleccionado.
Inventario de Personalidad. Es un tipo de Prueba Psicométrica que consiste en un
cuestionario o lista de chequeo, usualmente autoadministrada, diseñada para obtener
información de variables no intelectuales de un individuo. Los inventarios usualmente evalúan
rasgos tales como intereses, actitudes, motivación, etc. (véase Pruebas de Personalidad).
Ítems. Son los estímulos o reactivos que se presentan a los sujetos para que respondan y
pongan de manifiesto conductas asociadas con un atributo determinado. Dependiendo del tipo
de prueba, los ítems varían sustancialmente. Un tipo común de ítem son los de opciones
múltiples, que presentan un problema en el “pie” y varias opciones de respuesta de las cuales
sólo una es la correcta (la clave) y las otras son Distractores, que sirven para atraer la
respuesta de quienes no conocen realmente la respuesta correcta.
Items binarios. Son los ítems que aceptan como puntuación solamente 1 ó 0. Por contraste,
los Items No Binarios aceptan puntuaciones de más de 1, o con valores decimales. Los ítems
binarios tiene aceptación tanto por su facilidad de corrección, como porque han demostrado
gran estabilidad en las puntuaciones y en su nivel de dificultad en muestras sucesivas.
Items No binarios. Son ítems que no se puntúan sólo como 1 ó 0. Son usados
frecuentemente, pero no exclusivamente, en inventarios de personalidad o en la medición de
Actitudes e Inventarios de Personalidad, en los que pueden haber escalas de aproximación de
cada afirmación a la forma usual de comportamiento del sujeto.
KR21. Estadístico que permite determinar la confiabilidad de consistencia interna de una
prueba. Deriva su nombre de las fórmulas propuestas por Kuder y Richardson en
Psychometrika en los años 30, de las cuales la número 21 fue particularmente exitosa. Tiene
estrecha relación con Alfa de Cronchach. Se calcula con la fórmula siguiente en donde KR21
es el coeficiente de consistencia interna, m es el número de ítems de la prueba, S2j es la
varianza del ítem y S2x es la varianza total del test: ⎟⎟⎠⎞⎜⎜⎝⎛−−=Σ222111SxSmmKRi
Media o Media Aritmética. Es el promedio de las puntuaciones obtenidas por un grupo en un
test. Se obtiene mediante la suma de las puntuaciones y la división entre el número de ellas.
Medición. Consiste en la asignación de numerales a las propiedades de los objetos o eventos
de acuerdo a ciertas reglas (Stevens). En medición psicológica, los objetos son las
manifestaciones de los atributos psicológicos o constructos. Se fundamenta en varios
supuestos: a) la asunción de la existencia de un continuo subyacente con direccionalidad, b) la
existencia de un solo puntaje verdadero para cada sujeto, c) la variabilidad entre sujetos con
relación al puntaje verdadero y d) la posibilidad de obtener manifestaciones asociadas con la
posición que la persona ocupa en el continuo subyacente. De esta manera, se asignan
puntuaciones, de acuerdo a ciertas reglas, a las manifestaciones de conducta asociadas al
atributo psicológico que se desea medir. Las puntuaciones se interpretan en función de la
teoría psicométrica y psicológica, para inferir acerca de la conducta actual, de la futura o de las
potencialidades de la persona. La medición usualmente implica la existencia de un propósito y
una decisión que debe tomarse con relación a los Sujetos de la medición o de los atributos
medidos.
Mediana. Es la puntuación en una distribución de puntajes por encima de la cual se encuentra
el cincuenta por ciento de las observaciones.
Medidas de Dispersión. Estadísticos que permiten establecer la variabilidad de un conjunto de
datos. Por ejemplo: la Varianza, y la Desviación Típica.
Medidas de Tendencia Central. Estadísticos que permiten conocer la ubicación de la
distribución en un continuo, por ejemplo: Media, Mediana y Moda,
Moda. Es la puntuación que tiene la frecuencia más alta en una distribución. Algunas
distribuciones pueden ser bimodales o multimodales.
Muestra. Una parte de una Población o universo; un subconjunto de observaciones de una
población. Si la población está compuesta de individuos, la Muestra constituye un grupo de
individuos provenientes de esa población. Se desea que las Muestras sean representativas de
la población para poder inferir los parámetros de la población a partir de los estadísticos de la
Muestra. La representatividad se logra asegurando que todos los individuos de la población
tienen la misma probabilidad de ser seleccionados para la Muestra, se habla así de muestreo
probabilístico. Esto se logra mediante esquemas de muestreos entre los que se incluyen como
sus elementos básicos: Muestreo por Azar Simple, Muestreo por Azar Sistemático, Muestreo
Estratificado, Muestreo por Conglomerado. Estos esquemas exigen contar con una descripción
exhaustiva de los elementos de la población a fin de identificar cada uno de ellos. Cuando no
se cuenta con esa descripción se hace uso de muestreos por cuotas, en los cuales se definen
los atributos que influyen sobre la variable a evaluar y luego se completan “cuotas” de personas
en cada una de los niveles de esos atributos.
N. Número de sujetos incluidos en un grupo de sujetos o en un grupo normativo.
Normas. Es la expresión estadística del rendimiento típico de un grupo en una prueba.
Usualmente se expresa mediante valores estadísticos o mediante un conjunto de puntajes en
una escala de propiedades conocidas. Sirven como referencia para darle significado a los
puntajes brutos o puntajes directos, que se obtienen en las Pruebas Psicométricas. Las normas
se basan en el rendimiento real de un grupo de personas en una prueba. Dicho grupo se
selecciona especialmente para que tenga el mayor grado de similitud, en variables importantes,
con los individuos que serán evaluados con la prueba. Debido a que se trata de rendimiento
promedio o típico, las Normas no deben ser consideradas como estándares o niveles
deseables de rendimiento. También es importante que al construir Normas se definan con
claridad las características de los sujetos del grupo, con relación a variables importantes tales
como edad, nivel educativo, profesión. Los tipos más comunes de Normas son expresadas en
escalas como las Percentiles, Estaninas, Puntaje Z y Puntaje H.
Piso de una Prueba. Es el nivel más bajo que se puede medir con una prueba. Cuando un
individuo obtiene una puntaje que coincide o que está muy cerca del puntaje más bajo posible,
se dice que la prueba tiene un “piso” muy alto para él y que se le debe administrar una prueba
más fácil (véase Techo de una Prueba).
Población. Grupo de elementos (que pueden ser personas, ítems, conceptos, etc. ) que se
definen como pertenecientes a un todo y del cual se obtiene una Muestra. También, una
colección de todas las observaciones que se pueden identificar de acuerdo a ciertas reglas.
Pruebas Aptitudinales. Son pruebas Psicométricas que miden habilidades y otras
características, ya sean innatas o adquiridas, que indican la capacidad de un individuo para
aprender o desarrollarse en un área particular académica o laboral, siempre y cuando se le
provea entrenamiento adecuado y oportunidades. Las Pruebas Aptitudinales incluyen
tantohabilidades académicas generales (llamadas comúnmente habilidad mental o inteligencia),
como habilidades especiales como habilidad verbal, numérica, cuantitativa o musical. En
general se utilizan para predecir el rendimiento futuro, usualmente en un campo específico,
como programas de entrenamiento o en el trabajo.
Pruebas Cognoscitivas. Son Pruebas Psicométricas destinadas a medir aspectos
intelectuales de la estructura mental o psicológica del individuo. Incluyen las Pruebas de
Conocimientos, las Pruebas Aptitudinales, Las Pruebas de Habilidades y las Pruebas de
Personalidad.
Pruebas de Conocimiento. Son pruebas Psicométricas que permiten medir el dominio de
información en un campo determinado u área del conocimiento. Por ejemplo, dominio de
información sobre técnicas de contabilidad. Son llamadas también Pruebas de Rendimiento.
Pruebas de Diagnóstico. Son tests utilizados para establecer áreas específicas de fortalezas
y debilidades, y que se utilizan, en oportunidades, para determinar el origen causal de
debilidades y desarrollar programas de intervención individual o grupal. Tales Pruebas permiten
establecer medidas de los componentes de habilidades o conocimientos más complejos.
Pruebas de Habilidades. Son Pruebas Psicométricas que miden rasgos cognoscitivos que se
han desarrollado a través del entrenamiento, de las oportunidades laborales o de las
actividades en la vida cotidiana. Entre ellas se pueden contar las habilidades de lectura,
ortografía, redacción. Al igual que en las aptitudes, una definición más amplia y comprensiva de
las habilidades probablemente deba incluir también factores asociados con la motivación, los
intereses y oportunidades, que permiten que una persona desarrolle sus aptitudes. También es
posible percibir las habilidades como la plataforma para el desarrollo en nuevos campos, por lo
cual tienen también un carácter de aptitudes.
Pruebas de Personalidad. Son Pruebas Psicométricas destinadas a medir uno o más
aspectos no intelectuales de la estructura mental o psicológica del individuo. Permite obtener
información acerca de características afectivas del individuo (emocionales, motivacionales,
actitudinales, etc.) que se diferencian de sus habilidades o procesos intelectuales. Las Pruebas
de Personalidad incluyen: a) los llamados inventarios de personalidad y de ajuste, que intentan
medir la posición de la persona en rasgos tales como dominancia, sociabilidad, introversión,
locus de control, autoestima, etc., mediante el uso de respuestas autodescriptivas a una serie
de preguntas o afirmaciones. b) Escalas de rating, que exigen que el sujeto se compare, o sea
comparado por otros, con respecto a ciertos rasgos. c) Inventarios de opinión o actitudes.
Algunos autores también incluyen los inventarios de intereses y creencias como pruebas de
personalidad.
Pruebas de Potencia. Son Pruebas diseñadas para medir el nivel de rendimiento
independientemente de la velocidad de respuesta. Por ello, usualmente no tienen límite de
tiempo o se otorga a los sujetos suficiente tiempo para que puedan terminar sin dificultad. Es
usual que los reactivos o ítems se ordenen de manera creciente de acuerdo a su dificultad.
Pruebas de Velocidad. Son Pruebas diseñadas para evaluar habilidades asociadas con la
velocidad de respuesta y establecen su varianza en función de la velocidad de respuesta.
Usualmente contienen muchos ítems relativamente fáciles, que si se contase con suficiente
tiempo serían respondidos por todos los sujetos, pero como deben ser respondidos bajo
condiciones de presión de tiempo, usualmente no se logran responder todos.
Pruebas Psicométricas. Véase Tests Psicométricos
Pruebas Referidas a Dominio. Son pruebas diseñadas para proveer información sobre
conocimientos o habilidades específicas que posee el sujeto de manera directa con relación al
dominio que evalúa el test. Tales tests cubren usualmente unidades de contenido y están
estrechamente relacionadas con procesos de instrucción. Sus puntajes tienen significado en
función de lo que el estudiante sabe o puede hacer, más que en relación con los puntajes
obtenidos por un grupo de referencia o grupo normativo. Fueron propuestas inicialmente por
Glaser en 1963 y se comenzaron llamando Pruebas Referidas a Criterios, nombre que fue
abandonado debido al carácter polisémico en Psicometría del término Criterio, que también
puede ser entendido como Criterio de Validación y como Punto de Corte.
Psicometría. Medición de los atributos psicológicos. En general constituyen métodos
experimentales que permiten poner de manifiesto conductas asociadas con los atributos
psicológicos; a esas manifestaciones se les asignan numerales que permiten establecer el nivel
relativo en que se encuentra ubicada la persona con relación al atributo. Los Test
Psicométricos son uno de los métodos de la Psicometría.
Puntaje Derivado. Son puntajes que se transforman a escalas de propiedades conocidas.
Estas escalas, de las cuales lasa más conocidas con los Puntajes Z, C.I., Desviación H, CEEB
y T, tienen una media y una desviación típica determinada lo que permite interpretar las
puntuaciones en función de dónde se ubican en la escala. Por ejemplo H tiene una Media de
100 puntos y una Desviación Típica de 20, lo que se representa como H(100,20). Algunos
puntajes Derivados son transformaciones lineales de los Puntajes Directos, mientras que otros
son transformaciones No Lineales, como el caso de las Estaninas o T.
Puntaje Directo o Puntaje Bruto. Son los puntajes que se obtienen directamente de la
asignación de numerales a las respuestas a una Prueba Psicométrica. Usualmente se obtienen
de asignar un punto por cada respuesta correcta. En los casos en que existe una corrección
por puntajes al azar, es usual que se calcule mediante la fórmula X = C – l/(k-1) En donde X es
el puntaje obtenido, C las preguntas respondidas correctamente, l las respondidas
incorrectamente y K el número de opciones de las preguntas de la Prueba Psicométrica.
Punto de Corte o de aprobación. Se refiere al puntaje por encima del cual se considera que
el sujeto cumple con ciertos requisitos de ingreso, aprobación de una materia o de selección
para un empleo. Pueden ser establecidos fundamentados en estudios que demuestran que a
partir de ese punto existe mayor probabilidad de éxito en el trabajo o en los estudios, o de
manera más o menos arbitraria, para permitir el ingreso a un cierto número de personas a la
institución, como cuando existe un cupo limitado. También ha sido denominado Criterio, pero,
por el carácter polisémico (muchos referentes o significados) de éste término, es conveniente
no utilizarlo en éste contexto.
Software Psicométrico. Programas de computación utilizados para la Corrección de Pruebas,
la administración de pruebas por computadora o para el procesamiento de información. En
Venezuela se producen y comercializan dos programas: Microitem, que permite el análisis de
ítems, la corrección de pruebas de opciones múltiples con ítems binarios y no binarios, y la
elaboración de normas, producido por Massimo Di Salvatore de la Universidad Central de
Venezuela y PsicoMet, que permite la corrección de pruebas, la elaboración de informes
psicométricos grupales e individuales, la administración de una base de datos de elegibles y la
elaboración de normas internas, producido y distribuido por Psico Consult C.A. Ninguno de
estos programas permite la administración de pruebas por computadora, pero tienen la ventaja
de que permiten el procesamiento de cualquier prueba binaria de opciones múltiples.
Spearman Brown, Fórmula de Profecía. La confiabilidad de un test tiene una relación directa
con el número de ítems. Cuando se duplica el número de ítems, la confiabilidad es mayor.
Cuando se calcula la confiabilidad por el método de división por mitades, se obtiene la
confiabilidad de la mitad de la prueba, por lo que se hace necesario ajustar para la totalidad de
los ítems.
Sujeto. Es una de las forma de referirse a las personas que presentan Pruebas Psicométricas
o que participan en un experimento.
Tabla de Especificaciones. Son tablas que permiten definir el contenido de una prueba; son
particularmente útiles para la elaboración de Pruebas de Conocimiento y para determinar su
validez. Usualmente se establecen como tablas de doble entrada (aunque pueden incluir más
de dos dimensiones), una de las cuales indica el contenido del proceso de aprendizaje y la otra
alguna definición de las habilidades que la persona logró durante ese proceso (es usual usar la
Taxonomía del Dominio Cognoscitivo de B. Bloom y otros).
Tablas de Expectación. Son tablas que muestran la relación entre los puntajes de un test
predictivo y el rendimiento en un criterio determinado. La relación se puede expresar de
maneras diferentes tales como: a) El promedio de rendimiento en el criterio. b) El porcentaje de
casos en cada uno de los niveles sucesivos. c) La probabilidad de obtener una puntuación en el
criterio, dada una puntuación en la Prueba. Las Tablas de Expectación son comunes para la
predicción del éxito académico o laboral, son de fácil elaboración y comprensión. Se
diferencian las Tablas de Expectación Individual de las Tablas de Expectación Institucional ,ya
que en las primeras se indica la probabilidad de obtención de un determinado resultado en el
Criterio, mientras que en las segundas se plantea solamente la probabilidad de éxito o fracaso
en el mismo. El nivel más avanzado incluye varias variables predictoras y se construyen a partir
de rectas de regresión múltiple.
Techo de una Prueba. Es el nivel más alto de habilidad que se puede medir con un test.
Cuando un individuo logra un puntaje que coincide o que está cerca del puntaje más alto
posible, se dice que el test tiene un “techo”, muy bajo para él y es necesario administrarle una
prueba que sea más difícil (véase Piso de una Prueba).
Tendencia Central (medidas de). Las medidas de tendencia central proveen una
representación del rendimiento de un grupo, indica la tendencia del grupo de medidas. Las más
conocidas son la media, la mediana y el modo.
Tests Psicométricos. “Un test psicológico constituye esencialmente una medida objetiva y
tipificada de una muestra de conducta” Anastasi, Anne. Rodríguez y Feliú lo definen como “...
un conjunto de estímulos seleccionados haciendo uso de una fundamentación teórica,
psicológica y psicométrica, en función de un propósito. Estos estímulos son presentados a
sujetos en condiciones controladas con el objeto de poner de manifiesto conductas relevantes
que debidamente interpretadas con base a normas y/o criterios permiten la toma de decisiones
respecto a un individuo, un grupo o un proceso.”
Transcripción de Resultados. Es la acción de registrar en un programa de computación (por
ejemplo, el PsicoMet) las respuestas dadas por los sujetos a las preguntas de una Prueba
Psicométrica.
Transformación de puntajes. Los Puntajes Directos que se obtienen por la asignación de
numerales a las respuestas de los sujetos, usualmente no tienen una significación inmediata.
Por ello se realizan transformaciones a escalas de propiedades conocidas, que permiten contar
con un resultado más fácilmente interpretable en función del rendimiento de grupos normativos.
Se reconocen al menos dos tipos de transformaciones: lineales y no lineales. Las lineales se
realizan mediante ecuaciones que utilizan estadísticos como la media y la desviación típica y
no modifican la forma de la distribución (por ello existe una relación rectilínea entre los puntajes
directos y sus puntajes transformados); las más conocidas son z, Z, y H. Las no lineales hacen
uso de ciertas propiedades, como el número de casos acumulados en la distribución y el
puntaje transformado (por ello existe una relación no lineal entre los puntajes directos y sus
puntajes transformados); las más conocidas son los Percentiles, Estaninas, Pentiles, zn y T.
Validación Cruzada. Procedimiento mediante el cual la validez de una prueba establecida en
una muestra poblacional se verifica con otra muestra proveniente de la misma población. Es
usual derivar rectas de regresión cuando se hacen estudios de validez; al realizar un estudio de
Validación Cruzada, se utiliza esa recta para determinar los mejores valores predichos en otra
muestra de la población, y luego se verifica qué tan cerca está la predicción de los resultados
obtenidos en el Criterio de Validación haciendo uso de métodos correlacionales.
Validez. La medida en que el test mide lo que se pretende que mida, es decir, que sirva para lo
que se pretende utilizar. El término validez, por lo tanto, tiene connotaciones diferentes
dependiendo el uso para el cual se propone y para diferentes tipos de tests. Se habla así de
Validez Aparente, Validez de Constructo, Validez de Contenido, Validez Empírica o Criterial,
Validez Aparente. Es la medida en que el test aparenta ser un instrumento eficiente de
medición. En realidad tiene más que ver con lo que los Sujetos piensan del instrumento y la
situación en que se aplica y la credibilidad que pueden tener en el proceso de evaluación y la
atención que prestarán a la misma.
Validez de Constructo. Pretende establecer hasta qué grado la varianza total observada se
puede explicar en función de variables (Constructos) derivados de una teoría. Para realizar
estudios de validez de constructo, es necesario contar con una buena descripción teórica, que
permita derivar hipótesis y probarlas haciendo uso del instrumento. En la medida en que se
obtienen los resultados predichos por la teoría, se dice que hay validez de constructo.
Validez de Contenido. Determinación de si una prueba mide lo que se supone que debe medir
con relación a la Tabla de Especificaciones que describe el universo de evaluación (tópicos de
contenido, habilidades desarrolladas, etc.). Se establece cuando un grupo de expertos analiza
cualitativamente los ítems y determina dónde se ubican con relación a las celdas de la Tabla de
Especificaciones. Si existe coincidencia entre los juicios de los expertos y lo que se prevé que
mida cada ítem, se dice que hay validez de contenido. Es decir, se trata de determinar qué
grado de representatividad tiene la prueba con respecto a universo de conceptos que se
pretende medir. Se aplica de manera particular en las Pruebas de Rendimiento, que evalúan un
contenido determinado.
Validez Empírica o Criterial. Establece la relación entre el rendimiento en el test y las
puntuaciones obtenidas en una variable externa (criterio) que se supone mide el mismo atributo
que el test. Hace uso de métodos correlacionales (véase Correlación), que permiten establecer
el grado de asociación entre ambas variables. La validación empírica se fundamenta en
estudios que tienden a ser de carácter aplicado, puesto que a menudo interesa solamente la
capacidad predictiva de los resultados de la prueba con relación al criterio. Cuando el criterio se
toma algún tiempo después de la aplicación de la prueba, se habla de validez predictiva, como
cuando se trata de predecir el rendimiento universitario a partir de una prueba de aptitud
académica. Cuando se toman la medida en el test y en el criterio en forma simultánea se habla
de validez concurrente, como cuando se trata de realizar un diagnóstico de los conocimientos
de un grupo de personas.
Varianza. Medida de la dispersión de los puntajes en una distribución. Se calcula mediante el
promedio de los desvíos de cada puntaje con respecto a la Media elevados al cuadrado.
Varianza del ítem. En ítems binarios se determina mediante la multiplicación de pxq, en donde
p es la proporción de respuestas correctas y q la de respuestas incorrectas al ítem. En este tipo
de ítems, su valor está contenido entre 0 y 0,25. En ítems no binarios, tanto para su cálculo
como para establecer sus límites, es necesario conocer el recorrido de la escala de los ítems.
La raíz cuadrada de la varianza del ítem constituye la desviación típica del ítem.
z o puntaje Estándar. Es un término general que se refiere a la transformación de puntajes a
escalas de propiedades conocidas. En el caso de los puntajes z (minúscula) es una
transformación referida al número de desviaciones con respecto a la media a la que se
encuentra un determinado puntaje. Se calcula mediante la fórmula siguiente (en donde X es un
puntaje determinado, X es la Media y D.T. es la Desviación Típica) z = (X – X) / D.T.
Z (Escala Z). Transformación lineal de Media de 50 puntos y Desviación Típica de 10 puntos.
zn (z normalizada). Transformación a una escala de Media = 0 y Desviación Típica = 10,
fundamentada en las proporciones acumuladas hasta el punto medio de la clase haciendo uso
de la Tabla z de áreas bajo la curva normal. Es una transformación no lineal.
BIBLIOGRAFIA
1. Tovella, M. (1988). Análisis de los Ítemes e la construcción de instrumentos psicométricos.

México Trillas.
2. Bastin, G. (1968). Los Test Psicométricos. Buenos Aires Kapelusz.
3. Adkins Wood, D. (1968). Elaboración de test. México Trillas.
4. Glass,G., Stanley,J. (1986). Métodos estadísticos aplicados en las ciencias sociales.

España Florento Hall Internacional.
5. Sieguel, Sidney. (1978). Estadística no paramétrica aplicada a las ciencias de la conducta.

México Trillas.
6. Cortada, N., Carr, J. (1979). Estadística Aplicada. Buenos Aires. Ediciones Previas.
7. Numnaly Jun. (1979). Introducción a la medición Psicológica. Buenos Aires Centro

Regional de Ayuda Técnica.
8. Numnaly, Jun. (1991). Teoría Psicométrica. México. Trillas.
9. Robert L. Thorndike. (1989). Psicometría Aplicada. Limusa. México.
10. Manning, S., Rosentock, E. (1979). Elaboración de escalas de actitudes y psicofísica

clásica. México. Trillas.
11. Magnuson, D. (1986). Teoría de los Test. México Trillas.
12. Woolfolk, Anita . (1990). Psicología Educativa. Tercera Edición. P.H.H. Prentice Hall.
México.
13. Escotet , Miguel. (1985). Estadística Psicoeducativa Trillas México.
14. Smith, Milton. (1971). Estadística Simplificada para Psicólogos y Educadores. Manual
Moderno México

Manual de Medicion Psicologica 2011 2

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Manual de Medicion Psicologica 2011 2

Cargado por

Copyright:

Formatos disponibles

PRIMERA UNIDAD

FUNDAMENTOS DE LA MEDICION PSICOLOGICA

La medición es la determinación de la proporción entre la dimensión o suceso de un

Para que un test tenga valor debe servir para:

La medida en psicología es algo concreto: Se miden características psicológicas en

Medición, refiere a la acción y resultado de medir; realizaron una medición sobre la

Entonces, más concretamente, la medición es la determinación de la proporción entre la

Si la medición es concretada a través de un instrumento de medida creado para tal

Campbell (1938), sostiene que “medición es la asignación de números para

Lord y Novick (1968), definen medición como un “procedimiento para la asignación de

Bunge (1983), “la medición es la contrapartida empírica de la cuantificación o

Sistema de símbolos o signos utilizados para expresar los números.

El sistema corriente de notación numérica que es utilizado hoy y en casi todo el

En matemáticas, varios sistemas de notación que se han usado o se usan para

A lo largo de la historia se han utilizado multitud de sistemas numéricos diferentes.

El sistema binario desempeña un importante papel en la tecnología de los

Palabra o símbolo utilizado para designar cantidades o entidades, que se

c.1 Números Naturales

c.3 Números Racionales

c.4 Números Reales

b) Postulados relativos al orden jerárquico:

c) Postulados relativos a la aditividad:

A pesar de que la medición en psicología ha sido difícil de aceptar básicamente debido

Lord y Novick (1968), definen la medición como un “procedimiento para la asignación de

6. ELEMENTOS ESENCIALES EN LA MEDICIÓN

Según Campbell (1959), la medición en ciencia de mayor a menor precisión, responde

a. La medición fundamental o medición de magnitudes A.

b. La medición derivada o medición de magnitudes B.

c. La medición por fiat.

8. FINALIDAD DE LA MEDICION PSICOLOGICA

Según Levine y Feeman, 1975, la finalidad de la medición es proporcionar una base

Para clasificar primero se debe diferenciar, por lo tanto la diferenciación precede a la

El concepto de evaluación es mucho más amplio que el de medición. La medición

La principal debilidad de la evaluación es que permite la intervención directa de las

Reconociendo la complejidad del estudio de la personalidad e involucrando en este

10. VARIABLES DE LA MEDICION

Al observar el mundo, la naturaleza, la realidad, nos llama la atención la gran cantidad

Estas características o propiedades de los adolescentes universitarios se llaman

1. Variables cualitativas o atributos.

Se pueden clasificar a su vez en discretas y continuas.

Primera vista parecería que el sistema de conocimientos psicológicos y el matemático no

El problema de la construcción de escalas ha recibido una gran atención desde los

Es asignar un valor dentro a un continuo a las cualidades psicológicas, es usada esta

La medición sirve para cuantificar y expresar en forma de números las características de

La medición en psicología establece las condiciones de representación de constructos o

Según Cohen y Swerdilk (2000) citado en Delgado, Escurra y Torres (1996) la

La psicometría es el campo de la psicología cuyo objeto es aportar soluciones al

La Psicometría es una disciplina científica encuadrada dentro del marco de la

Una característica esencial de la medición es la dependencia que tiene de la posibilidad

A. Medición Nominal o Clasificatoria:

Son variables numéricas cuyos valores representan una categoría o identifican un

Por ejemplo, sexo es una variable nominal; en consecuencia, podríamos clasificar a

B. Medición ordinal o por Orden Jerárquico:

Son variables numéricas cuyos valores representan una categoría o identifican un

Las observaciones, además de poder ser clasificadas en categorías, también pueden

C. Medición de intervalo o de distancias iguales:

Posee las características de los dos niveles de medición ya mencionados (nominales

Las variables de razón poseen las mismas características de las variables de

Tipo de Escala de la variable o

Cuadro 2: Pruebas estadísticas inferenciales más frecuentes de acuerdo la escala de

Tipo de Escala de la variable o

Cuadro 3: Pruebas estadísticas para estudios comparativos más frecuentes de acuerdo a

5. NORMAS DE MEDIDA Y ESCALAS NORMATIVAS: