Documentos de Académico
Documentos de Profesional
Documentos de Cultura
a) Delimitación del dominio del test, descripción de las características de la población a la cual va dirigido y estructura
formal del test (instrucciones, contenido y formato de respuesta a los ítems)
b) Redacción de los ítems
c) Revisión de los ítems por expertos
d) Análisis de las propiedades psicométricas de los ítems y/o escalas del test
e) Elaboración de los materiales definitivos de prueba (manual, cuadernillo de ítems, hojas de respuesta)
Todas las dimensiones importantes del constructo deben incluirse. Si por ejemplo se quisiera medir “habilidades para el
estudio” el test debería contemplar todas las sub-habilidades implícitas tales como manejo y planificación del tiempo de
estudio, elaboración de resúmenes, etc. La idea es que siempre sea lo más completo posible.
Para la elaboración de pruebas de rendimiento referidas a NORMAS se parte de la construcción de una tabla de
especificaciones que consiste en una tabla de doble entrada donde se relacionan los objetivos cuyo logro se desea evaluar con
los contenidos específicos correspondientes.
En la Construcción de una prueba con referencia a CRITERIO en vez de elaborar una tabla de especificaciones, se define y
delimita el dominio de comportamientos correspondientes a cada objetivo. El requisito fundamental para elaborar este tipo de
instrumentos es el de definir con claridad las habilidades o conocimientos que la prueba intenta evaluar
En general para la especificación del dominio de conductas que el individuo debe realizar se sigue el siguiente esquema:
a) Definición del objetivo: se establece cuál o cuáles serán los objetivos que se evaluarán a través de la prueba. Por
ejemplo la habilidad de comprensión lectora
b) Indicadores operacionales del objetivo: se describen en términos de conductas observables, él/los objetivos a ser
evaluado/s. Siguiendo el ejemplo anterior, un indicador operacional de la habilidad de comprensión podría ser “resumir
adecuadamente un texto breve”
c) Especificación de las características de la situación de evaluación: por ejemplo: en X texto seleccionar las ideas
principales y parafrasear el contenido de las mismas
d) Características de la respuesta: simplemente es especificar cuál es la respuesta que se espera del examinado, por
ejemplo, que seleccione correctamente las ideas principales
2
Además de definir el dominio es necesario delimitar aspectos complementarios del test tales como la finalidad y la población
meta del test, el modo de aplicación, el formato de respuesta (dicotómico o tipo Likert por ejemplo) y el tiempo de
administración, entre otros…
a) La ambigüedad: con preguntas vagas que admiten varias respuestas, por ejemplo, “qué pasó con el arte en el siglo
XV?” (pasaron MUUUUCHAS cosas) b)
b) La trivialidad: al centrarse en aspectos poco importantes como fechas irrelevantes
En la evaluación educativa, es ideal la construcción de pruebas objetivas con preguntas cerradas, ya sea del tipo
verdadero/falso o de alternativas múltiples
Para los objetivos cognoscitivos de nivel superior, tales como evaluar y crear, se requiere otro tipo de pruebas, tales como las
de preguntas abiertas o ensayo, así como ítems que combinen la computación con el audio, el video y la realidad virtual
A continuación se presenta una serie de recomendaciones tanto para el enunciado como para los ítems (respuestas), revisenló
del libro, son bastante obvias, página 166/167
Se aconseja redactarse al menos el doble de los ítems que constituirán el test final, puesto que muchos serán descartados en el
proceso de revisión de expertos y el análisis estadístico ulterior
Este último es el principal parámetro y hace referencia al grado de consistencia que debe existir entre un ítem particular y las
los constructos a medir por el test! Respetar este parámetro contribuirá significativamente a la confiabilidad y validez de las
puntuaciones del test a construir
3
Por lo general se emplean escalas numéricas para que los jueces evalúen la calidad y consistencia de los ítems y se descartan
aquellos con puntaciones medias más bajas y con escaso grado de acuerdo. Pueden utilizarse estadísticos como el coeficiente
kappa mencionado en el cap. 3. Se recomienda que los ítems seleccionados sean aquellos que al menos un 60% de los jueces
consideren meritorios.
No deberíamos confiar exclusivamente en el juicio de los expertos y siempre es conveniente realizar una prueba piloto en una
muestra pequeña, con el objetivo de corroborar que los ítems sean claros y comprensibles para la población meta
El análisis factorial sirve para verificar la unidimensionalidad de cualquier escala. Es un método para agrupar las variables
(ítems, por ejemplo) que se correlacionan fuertemente entre sí, y cuyas correlaciones con las variables de otros agrupamientos
(factores) es menor.
El análisis factorial es una técnica de reducción de datos cuyo objetivo primordial es agrupar un conjunto de variables en
pocas dimensiones que expliquen la mayor cantidad de variabilidad de respuesta. Por ejemplo: un elevado número de
problemas a resolver (ítems) pueden reducirse a un número PEQUEÑO de factores que confieran un significado teórico a la
medición (aptitud verbal, numérica, espacial, por ejemplo). Cada uno de estos factores agrupa los problemas (ítems) altamente
correlacionados entre sí y que al mismo tiempo, son relativamente independientes de los restantes factores.
En el Análisis Factorial Exploratorio (AFE) se extraen e interpretan posibles factores que explican la covariación entre las
variables (ítems) sin una estructura teórica previa. De esta manera se procedió en el proceso de construcción del Cuestionario
de Intereses Profesionales (Flogiatto, 1991), en donde se redactó un gran número de ítems relacionados con diferentes carreras
(sin tener una teoría explícita) y luego se identificaban los factores subyacentes y explicativos de la variabilidad de respuesta al
test. Es decir que primero se redactaban los ítems del cuestionario q se referían a distintas carreras, luego se identificaban los
posibles factores que explicaban la variabilidad de respuesta al test (imaginemos que serían las distintas carreras en cada tipo
de ítem), capaz que por ejemplo, un ítem redactado “me gusta escuchar y ayudar” se pueda entender como posible factor
“carrera de Psicología”
(Espero haberlos ayudado algo con el ejemplo, es tan difícil explicar esto vía texto)
El Análisis Factorial Confirmatorio (AFC), por el contrario, la estructura factorial se define a PRIORI sobre la base de un modelo
teórico (teoría de los cinco factores de personalidad o teoría de los tres estratos de la inteligencia, por ejemplo)
Las hipótesis previas del AFC especifican las relaciones entre los ítems y los factores, de modo que acá no es según el
investigador, sino según la base teoría, entonces directamente variable 1, v2 y v3 se asociarán por ejemplo al factor 1 y otras
variables (v4, v5 y v6) [recordemos que son ÍTEMS] se asociarán al factor 2. Así mismo, los ítems 1, 2 y 3 no se relacionan con el
4
factor 2 y los ítems 4, 5 y 6 no se relacionan con el factor 1 en el caso del exploratorio es la misma idea, nada más que acá, ya
está el modelo teórico de antemano que hace dicha relación.
Posteriormente se verifica cuán bien se ajustan los resultados observados al modelo teórico preestablecido, mediante métodos
tales como el índice de bondad del ajuste (GFI) y el índice de ajuste comparativo (CFI). Los valores de estos varían entre 0 y 1,
donde 1 indica un ajuste perfecto. Valores superiores a 0,9 sugieren un ajuste satisfactorio entre las estructuras teóricas y los
datos empíricos y valores de 0,95 o superiores, un ajuste óptimo
Tamaño de la muestra:
El análisis factorial debe emplearse con muestras grandes de aproximadamente 300 individuos, para obtener resultados útiles y
relativamente estables. Es importante que la muestra sea lo más heterogénea posible, entonces por ejemplo, si se desea
construir un inventario de intereses vocacionales para estudiantes del ciclo de especialización del secundario, la muestra
debería contemplar adolescentes de cada una de las orientaciones de ese nivel educativo, puesto que si la muestra fuese de
una sola especialidad se podrían sesgar los resultados
porcentaje de varianza explicada son procedimientos complementarios aunque no esenciales en la mayoría de los casos” (pág
176/177)
El criterio de extracción de factores más empleado en la actualidad es el denominado scree test (o scree plot). El scree test es
una presentación gráfica y ayuda a identificar el número óptimo de factores que se deberían extraer. Sobre la gráfica se traza
una línea recta base a la altura de los últimos autovalores (los más pequeños, los que estén más cerca de X [la línea horizontal])
y aquellos que queden por ENCIMA de esa línea base indicarán el número de factores a retener. En general, el punto de corte
para el número de factores a extraer está determinado por el primer cambio de pendiente en la gráfica.
Se recomienda inspeccionar el gráfico de izquierda a derecha hasta localizar el punto de inflexión en que los autovalores DEJAN
de formar una PENDIENTE y COMIENZAN a generar una caída de POCA INCLINACIÓN (horizontal por supuesto)
En el gráfico de arriba, se ve la explicación recién mencionada, acá hay 8 factores a extraer!! Espero sea claro
El scree test es confiable en la mayoría de los casos, pero algunas veces resulta dificultoso determinar el número exacto de
factores con una mera visualización del gráfico, en especial cuando los factores son numerosos o existen varios cambios de
dirección en la pendiente
Horn (1965) propuso otro método, el análisis paralelo, que parece ser una de las mejores alternativas para decidir el número
de factores a extraer. Este análisis genera autovalores de una matriz de datos aleatorios, pero con el mismo número de
variables y casos que la matriz original. En este análisis se compara en una tabla el autovalor de cada factor en los datos reales
con el autovalor correspondiente en los datos aleatorios. Para decidir el número de factores a extraer se identifica el autovalor
de los datos reales con magnitud superior al autovalor de los datos simulados. La lógica del procedimiento es que los factores
reales que explican MÁS varianza que los aleatorios deban ser interpretados (extraerse)
6
Acá habría que extraer un solo factor (hay un solo factor interpretable), el factor 1, dado que el valor real del mismo es mayor
que el del aleatorio correspondiente, y en los demás factores se observan que los reales son menores a los aleatorios y por
consiguiente esos no deben extraerse
Rotación de factores
Cuando se trata de tests con ítems dicotómicos (verdadero-falso; correcto-incorrecto) debe analizarse la matriz de
correlaciones tetracóricas, es decir, el coeficiente de correlación tetracórica es apropiado para variables dicotómicas. Esta
matriz factorial es difícil de interpretar.
Luego de extraer los factores iniciales, éstos son sometidos a un procedimiento de rotación. La rotación intenta que la solución
factorial se aproxime a lo que se denomina estructura simple, esto es, que cada ítem tenga una correlación lo más próxima a 1
con uno de los factores, y correlaciones lo más próxima a 0 con los restantes (esto es como dijimos a principio del análisis
factorial, que buscaba que los ítems por ejemplo v1, v2 y v3 sean parecidos a factor 1, pero distintos a los demás factores)
El investigador rota los FACTORES con la finalidad de eliminar las correlaciones negativas importantes y reducir el número de
correlaciones de cada ítem en los diversos factores
Las rotaciones pueden ser ortogonales u oblicuas y dos métodos muy empleados son Varimax y Premax (RE IMPORTANTE
APRENDAN TODO ESTOOOOOOO)
Con variables psicológicas los más congruentes son los métodos de rotación oblicuas
Si o
Deberíamos escoger una rotación oblicua cuando la correlación entre los FACTORES es superior a 0,32 y una ortogonal cuando
es inferior a 0,32
Las rotaciones colocan a las variables más cerca de los factores diseñados para explicarlas, concentran la varianza de las
variables en menos factores, y en general, proporcionan un medio para facilitar la interpretación de la solución factorial
obtenida. Generalmente ROTAR LOS FACTORES genera que sea más fácil determinar cuáles variables se relacionan con cada
factor! (vean la tabla 6.4 del libro que es cuando ya se hizo la rotación y la 6.3 que es cuando no se hizo)
Para obtener una solución aproximada a la estructura simple (ya nombrada anteriormente) las correlaciones entre un ítem y
un factor, deberían ser 0,40 al menos, y no debería existir una correlación superior a 0,30 de esa variable con OTRO factor. De
no ser así, estaríamos ante la presencia de ítems complejos, fijensé del libro la tabla 6.4, en cada variable se muestra su
correlación con el factor 1 y con el factor 2… los primeros 5 tienen correlación alta con el factor 1 y los otros 5 restantes tienen
correlación alta con el factor 2… y vemos que la variables “Frases en desorden y completamiento de series numéricas” tienen
0,36 ambas (o sea menos de 0,40), pero cada una de esas con el OTRO factor no tienen más de 0,30, eso es bueno. Se
entiende? Jaj.. sino, serían ítems complejos
7
Análisis de ítems
Aprendan lo siguiente: como ya dijimos:
• Es un procedimiento complementario al análisis factorial
• Para implementarlo, se recomienda administrar el test a una muestra 5 veces superior a la del número inicial de
ítems
• Y Como dijimos anteriormente, es deseable contar aproximadamente con el DOBLE de ítems de los que aparecerán en
la versión definitiva del test
• Una muestra de 300 personas para análisis de ítems es un estándar deseable pero NO garantiza obtener propiedades
psicométricas adecuadas de la escala
• El procedimiento más empleado en el análisis de ítems es la correlación de cada ítem con el puntaje total de la prueba.
Este índice permite identificar la capacidad del ítem para discriminar (diferenciar) entre los individuos que poseen más
de un rasgo y los que poseen menos de ese rasgo. Como afirman Anastasi y Urbina (1998), la capacidad discriminativa
de un ítem se refiere al grado en que éste diferencia adecuadamente entre los examinados en relación con el rasgo o
dominio que el test pretende medir. Si el test posee varias escalas o subtests, cada ítem debe correlacionarse también
con el puntaje total de esa sección.
• El estadístico usual es el coeficiente producto momento de Pearson ® o punto-biserial si se trata de ítems dicotómicos.
• Los ítems con correlaciones no significativas o bajas con el puntaje total (inferiores a 0,30) deben revisarse o eliminarse
• En las pruebas de habilidades o rendimiento (con ítems dicotómicos) un indicador importante es el índice de dificultad
de cada ítem (% de personas que responden adecuadamente al ítem analizado). El índice de dificultad de los ítems
tiene un rango de 0 a 1 y se simboliza como p. Un ítem cuyo p es = 0 indica que ningún individuo la contesto
correctamente, un ítem con p=1 es aquel que TODOS los individuos respondieron de manera correcta.
• En relación al punto anterior, si la finalidad de un test es identificar sólo a un porcentaje reducido de los MEJORES
postulantes a un curso o empleo, entonces los ítems deberían ser suficientemente difíciles y tener un p bajo (0,20 por
ejemplo). Cuando la selección de personas no es el propósito esencial, son deseables ítems con p entre 0,30 y 0,40 (ni
muy difíciles ni muy fáciles)
• Un objetivo esencial del análisis de ítems es obtener pruebas homogéneas (internamente consistentes), en las que
todos los reactivos se relacionen con un núcleo común de medición que es el constructo o dominio, información que
se obtiene mediante el coeficiente alfa de Cronbach u otro indicador de consistencia interna. Y debemos asegurarnos
valores de 0,80 o superiores.
• (REITERO, ALGO IMPORTANTE): La estrategia de análisis de ítems no es recomendable como procedimiento esencial
de construcción de un test que mida rasgos latentes, sino para aportar información complementaria de la calidad de
los ítems (índices de discriminación y dificultad del ítem)