Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Capítulo 5: Validez
En primer lugar, es impreciso referirse a la validez de una prueba, resulta necesario establecer la validez de la
puntuación de una prueba, cuando ésta se emplea para un determinado fin. De manera aún más precisa, debe
hacerse referencia a la "interpretación de una puntuación para un determinado fin o uso". No es posible definir en
abstracto la validez de la puntuación de una prueba, debe hacerse en función de un determinado uso. Por lo tanto,
no hay que plantearse preguntas como: "¿Es válida la prueba de Rorschach?", o "¿Es válida la Scholastic Assessment
Test (SAT; Prueba de Evaluación Académica). Por el contrario, es necesario formular preguntas como: "¿Es válido el
Índice de Depresión del Rorschach, para identificar la gravedad de la depresión?", o "'La puntuación de la prueba
Verbal del SAT es válida para pronosticar el promedio de calificación al final del primer año en la universidad?"
En segundo lugar, se percibe que la validez es una cuestión de grado; no es un asunto de todo o nada. es decir, acá
deberíamos mejorar un poco más los interrogantes anteriores como por ejemplo: "¿En qué grado es válido el Índice
de Depresión del Rorschach para determinar la gravedad de la depresión?, o bien, "¿En qué medida es válida la
puntuación en la prueba Verbal del SAT, para pronosticar la puntuación promedio de un estudiante de primer año en
la universidad?"
A continuación un ejemplo de una superposición geométrica entre la prueba y el constructo que se pretende medir
2018
Ahora imagínese una prueba de razonamiento matemático y puede suceder que las consignas exigen un nivel muy
elevado de capacidad de lectura y no se desea evaluar la lectura. Esa parte de las puntuaciones de la prueba,
determinada por la capacidad de lectura y no por la de razonamiento matemático constituye la varianza irrelevante
del constructo y para ser vulgar, supongamos que dentro del constructo se encuentren las variables suma, resta,
multiplicación y división y si no hay preguntas de división, entonces son aspectos de la "subrepresentación del
constructo" es decir, aspectos del constructo que no han sido evaluados.
"La subrepresentación del constructo alude, en términos de grado, a que una prueba no capta aspectos importantes
del constructo [...] La varianza irrelevante del constructo se refiere al grado de influencia que los procesos ajenos al
constructo buscado ejercen en las puntuaciones de la prueba..."
La validez aparente nunca sustituirá a la validez empírica, no es posible tan sólo ver una prueba y saber si tiene algún
grado de validez; no obstante, la validez aparente puede ser de utilidad. Si dos pruebas contienen una validez
establecida en forma empírica, es preferible utilizar la que tiene una mejor validez aparente.
2018
VALIDEZ DE CONTENIDO:
La validez de contenido tiene que ver con la relación entre el contenido de una prueba y cierto campo de
conocimiento o comportamiento bien definido. Este tipo de validez tiene dos aplicaciones primordiales: las pruebas
de aprovechamiento educativo y las laborales. Lo importante aquí es determinar el grado de correspondencia entre
el contenido de una prueba y el contenido del ámbito educativo o laboral de interés
El proceso comienza con la definición cuidadosa del contenido que se abarcará, lo cual genera un cuadro o programa
de especificaciones. En muchos casos un área de contenido se representa mediante un cuadro bidireccional de
especificaciones.
El esquema mejor conocido para representar los procesos se conoce como taxonomía de Bloom, que consta de tres
taxonomías o esquemas de clasificación: en los ámbitos cognitivo, afectivo y psicomotor
Después de preparar un cuadro de especificaciones para un área de contenido, se fija la validez de contenido de una
prueba haciendo que corresponda el contenido de la prueba con el cuadro de especificaciones; esto se realiza
reactivo por reactivo. Este análisis debe mostrar: a) las áreas de contenido que no abarca la prueba y b) los reactivos
de la prueba que no corresponden a las especificaciones de contenido. Estas dos áreas corresponden estrechamente
a las nociones de subrepresentación del constructo y la varianza irrelevante del constructo
Siempre la lógica es preparar los reactivos de la prueba para que correspondan al esquema de contenido.
Validez Instruccional:
Una aplicación especial de la validez de contenido es la noción de validez instruccional, conocida también como
validez curricular. Si bien la validez de contenido motiva la pregunta de si el contenido de una prueba corresponde a
un conjunto de contenido debidamente definido, la validez instruccional, plantea la interrogante de si el contenido se
ha enseñado en realidad. En el caso de una prueba que contara con una validez educativa, debe haber evidencias de
que el contenido se abarcó de manera adecuada en un programa instruccional; en ocasiones se lo suele denominar
"oportunidad para aprender"
Este concepto se aplica sobre todo a las pruebas de aprovechamiento educativo. Pensemos por ejemplo, en las raíces
cuadradas, es probable que figure en el plan de estudios de la escuela y en el libro de matemáticas que se emplea en
la escuela. Sin embargo, puede suceder que ninguno de los maestros cubre nunca las raíces cuadradas en clase o en
las tareas para hacer en casa. Entonces estos reactivos carecen de una buena validez educativa, no hubo
"oportunidad de aprender" este tema. En efecto, la noción de validez instruccional se relaciona con lo que en realidad
se enseña y no con lo que se supone que debe enseñarse
2018
Aplicación a las Pruebas de Empleo:
Las nociones esenciales son las mismas que en las pruebas de aprovechamiento educativas, nada más que en las
pruebas de empleo, el campo de contenido consiste en una lista de los conocimientos y las habilidades necesarias
que se requieren para un determinado puesto laboral. El proceso de elaboración de dicha lista suele llamarse
"análisis del puesto"
Aunque hay muchas semejanzas en la aplicación de la validez de contenido con las pruebas de
aprovechamiento y de empleo, existen dos diferencias interesantes:
1) En las pruebas de aprovechamiento, documentos impresos como los libros o las guías curriculares, suelen servir
como base para las especificaciones de contenido. En cuanto a las pruebas de empleo, muy a menudo grupos de
expertos elaboran las especificaciones
2) En las pruebas de aprovechamiento, pocas veces se utiliza una cifra de porcentaje de acuerdo. En cuanto a las
pruebas de empleo, existe una metodología para expresar el porcentaje de contenido de la prueba que un grupo de
expertos juzgó esencial para el desempeño laboral, lo que se denomina "razón de validez de contenido"
1) Un claro problema es obtener una especificación clara del campo de contenido, con frecuencia resulta dificultoso
2) ¿Qué tan bien los reactivos de la prueba cubren los elementos de las especificaciones de contenido? Por ejemplo
supóngase la categoría "hechos básicos de la multiplicación". ¿Todos estos ítems miden igual de bien esa variable?
¿Son todos apropiados?. Tal vez no jaja XD
2018
VALIDEZ RELACIONADA CON EL CRITERIO:
La característica esencial de este tipo de evidencia consiste en establecer el vínculo entre el desempeño en la prueba
y en algún otro criterio que se toma como indicador importante del constructo de interés
Los dos contextos generales para la validez relacionada con el criterio son la validez predictiva y la validez
concurrente.
En la validez predictiva la prueba busca pronosticar la condición en algún criterio a la que se llegará en el futuro. Por
ejemplo, en una prueba de ingreso a la universidad, que se lleva a cabo en el último año del bachillerato, se aplica
para pronosticar el promedio de calificaciones al final del primer año en la universidad. O bien, se recurre a ella en un
inventario de personalidad para pronosticar la probabilidad de intento de suicidio en algún momento futuro
En la validez concurrente se revisa la concordancia entre el desempeño en la prueba y la condición actual en alguna
otra variable. Por ejemplo, para determinar la relación entre el rendimiento en una prueba de aprovechamiento
estandarizada y una elaborada por el maestro, donde ambas se administran casi al mismo tiempo. O para precisar el
nexo entre la puntuación en una prueba de depresión y las calificaciones clínicas del nivel de depresión actual. En
rigor, la diferencia entre la validez predictiva y la concurrente es de tiempo para la variable criterio. Desde todas las
demás perspectivas, los dos conceptos son iguales
Los tres empleos más comunes de la validez relacionada con el criterio suponen el uso de:
b) Grupos de contraste
En esencia, estos 3 modelos se reducen a lo mismo, aunque poseen algunas diferencias prácticas
Debe tenerse en cuenta el concepto de error estándar, recuerden distinguir 3 tipos de error estándar: el error
estándar de la media; utilizado con relación a las variabilidad del muestreo; el error estándar de medición; utilizado
con la confiabilidad, y el error estándar de estimación (este nos interesa más en este punto)
2018
b) Grupos de contraste:
Aquí, el criterio es la pertenencia al grupo, se quiere demostrar que la prueba diferencia a un grupo de otro
Ejemplo1:
El grupo A cuenta con 50 individuos a los que se les diagnosticó esquizofrenia con base en entrevistas exhaustivas
con tres clínicos independientes.
El grupo B incluye 50 individuos sin antecedentes de problemas psicológicos importantes y de quienes se sabe tienen
un funcionamiento normal en su familia y entorno laboral.
Se administra un inventario de personalidad a los 100 individuos. La idea es demostrar que la prueba distingue con
claridad entre los dos grupos
"Las relaciones entre las puntuaciones de la prueba y otros indicadores ideados para evaluar constructos similares,
ofrecen evidencias convergentes, en tanto que las relaciones entre las puntuaciones de una prueba y los indicadores
supuestamente de constructos diferentes ofrecen evidencia discriminante"
2018
Hasta el momento se ha hecho referencia a la validez relacionada con el criterio como el vínculo entre una sola
prueba y un criterio, pero en algunos casos es posible que se desee utilizar varias pruebas para pronosticar la
condición en un criterio. El método usual para abordar esta situación es la correlación múltiple (Análisis de
Correlación Múltiple), técnica que sirve para expresar la relación entre una variable (el criterio) y la combinación
óptima de otras dos o más variables (en este caso, varias pruebas). Por ejemplo, es posible que se intente pronosticar
el promedio de calificaciones de los estudiantes de primer año en la universidad, a partir de la combinación de una
prueba de ingreso a ésta, un rango de bachillerato y una prueba de motivación académica. El truco radica en obtener
las ponderaciones óptimas de las otras variables, para maximizar la correlación con el criterio y la combinación de
pruebas. Los procedimientos de correlación múltiple tienen principalmente dos finalidades: La primera es muy obvia,
consiste en generar la mejor predicción posible de una variable dependiente, como sería el buen desempeño laboral
o académico. La segunda finalidad radica en entender en términos teóricos qué variables contribuyen de manera
eficaz a la predicción de una variable dependiente y cuáles son redundantes.
El coeficiente de correlación múltiple se representa con una R (en mayúscula), se interpreta igual que la r de Pearson
La correlación múltiple es una técnica crucial para determinar la validez incremental, ésta tiene que ver con cuánta
información nueva y única aporta una prueba. Siempre se intenta determinar cuánta información nueva ofrece una
prueba o procedimiento.
Este hallazgo estremece a los clínicos y, por otra parte, aturde a quienes se dedican a la estadística. Meehl fue el
primero en documentar la superioridad del pronóstico estadístico sobre el clínico en diversos estudios; otros
informes confirman ampliamente el resultado.
También existen situaciones en las que el juicio clínico orientado con firmeza por fórmulas estadísticas, resulta mejor
que las fórmulas solas
2018
TEORÍA DE LA DECISIÓN: CONCEPTOS Y TÉRMINOS FUNDAMENTALES
ACIERTOS, FALSOS POSITIVOS Y FALSOS NEGATIVOS:
Acierto Positivo: Diagnosticar/Predecir que SI y en la situación real (Criterio) SI
Se ubican por debajo de la puntuación de corte de la prueba, pero que aciertan en el criterio
SELECTIVIDAD Y ESPECIFICIDAD:
La selectividad de la prueba es la capacidad del instrumento para identificar al grupo criterio
Para dejarlo clarísimo con el agua de una montaña jaja voy a poner ejemplos graciosos:
Si un test de DEMENCIA es ALTO en selectividad y te diagnóstica POSITIVO, estás al horno! jaja es decir, tenés ALTAS
CHANCES de efectivamente tener demencia (acierto positivo), en cambio si un test fuera bajo en selectividad y te
diagnosticaran demencia, tal vez no la tengas, es decir, es posible que el diagnóstico falle (falso positivo)
Si un test de DEMENCIA es ALTO en especificidad y te diagnóstica NEGATIVO, entonces safaste! jaja es decir, tenés
ALTAS CHANCES de efectivamente NO tener demencia (acierto negativo), en cambio si un test fuera bajo en
especificidad y te diagnosticaran demencia, tal vez no la tengas, el diagnóstico, puede fallar (falso negativo)
En general, cuanto mayor sea el grado de separación entre los grupos, mejor serán tanto la selectividad como
la especificidad, es decir, cuanto mejor discrimine la prueba entre los grupos, mejor será todo
2018
VALIDEZ DE CONSTRUCTO:
Este tipo de validez, es en principio, la más difícil de comprender; básicamente se la describe de la siguiente manera:
Una prueba intenta medir cierto constructo, éste puede no tener un conjunto de contenido muy bien definido o un
criterio externo. La validez de constructo abarca todos los métodos, de hecho, es factible pensar en esta validez como
algo que incluye la validez de contenido y la validez relacionada con el criterio.
Cualquier evidencia que sustenten, en forma verosímil, la proposición de que la prueba mide su constructo meta, es
pertinente a este tipo de validez
ESTRUCTURA INTERNA:
Esta Estructura Interna la podemos dividir en dos subcategorías: a) la consistencia interna y b) en análisis factorial
Consistencia Interna:
Un grado elevado de consistencia interna, por ejemplo, un elevado coeficiente KR-20 o alfa, denota que la prueba
mide algo de manera consistente. Por tanto, la consistencia interna elevada sustenta la afirmación de que una prueba
mide UN DETERMINADO CONSTRUCTO O RASGO; sin embargo, resulta difícil sostener tal afirmación si la consistencia
interna es baja.
Es necesario pensar la consistencia interna como un requisito para la validez y no como evidencia de validez en sí.
Una consistencia interna elevada indica que un constructo se está midiendo, pero se necesitan otras evidencias para
señalar cuál podría ser ese constructo
Análisis Factorial:
El análisis factorial es una familia de técnicas estadísticas que ayudan a identificar las dimensiones comunes que
subyacen a un constructo. Desempeñan una función en particular destacada en los inventarios de personalidad y las
pruebas de inteligencia, de hecho, el desarrollo de esta metodología se relaciona con las clásicas polémicas sobre la
naturaleza y medición de la inteligencia
Este método señala el modo en que los reactivos de las pruebas se agrupan según las dimensiones subyacentes
pertinentes a ellos. Hay muchas formas para "extraer" los factores. Una vez extraídos los factores se lleva a cabo un
proceso de rotación, donde el procedimiento común se denomina Varimax
El análisis factorial es una técnicas de reducción de datos que busca la unidimensionalidad de cualquier escala.
Agrupa a un conjunto de variables que se relacionan fuertemente entre sí (factores) y que al mismo tiempo su
correlación con variables de otros agrupamientos (factores) es menor.
2018
PROCESOS DE RESPUESTA:
El estudio de cómo proceden a responder los examinados a una prueba, sus procesos de respuesta, pueden ofrecer
evidencias respecto a la validez de la prueba.
Las evidencias de los procesos de respuesta no suelen ofrecer evidencias sólidas y muy convincentes.
Ejemplo1: Imagínese que se quiere establecer la validez del STA, de modo que aplica la prueba a un grupo de 25
personas a una situación que genera ansiedad, luego al aplicar el STA de nuevo, se esperaría que las puntuaciones
aumentaran
Ejemplo2: Supóngase que se realiza el Bechtoldt Creativity Test (BCT) a 50 personas, tras lo cual les da 10 horas d
instrucción en técnicas de pensamiento creativo y entonces replica la BCT; lógicamente esperaría un incremento en
las puntuaciones de la BCT
CAMBIOS EN EL DESARROLLO:
Otra posible fuente de información sobre la validez de constructo la constituyen los cambios en el desarrollo. Cabe
esperar que los niños a edades sucesivamente mayores cuenten con una capacidad mental cada vez superior.
Demostrar que una prueba de capacidad mental refleja estos incrementos ayuda a establecer la validez del
instrumento. Esto mismo hizo Binet para argumentar la validez de los reactivos de sus pruebas. El estudio de los
cambios en el desarrollo como el estudio del efecto de las variables experimentales, puede concebirse como una
variación del modelo de los grupos de contraste
2018
VALIDEZ DE LAS CONSECUENCIAS:
Este tipo de validez se relaciona con las consecuencias de sus usos e interpretaciones
¿Cuáles son las consecuencias, resultados o repercusiones del uso de una prueba? Por ejemplo, ¿cuáles son las
consecuencias del uso sistemático de una prueba de ingreso a la universidad? ¿Cuáles son los "efectos secundarios"?
¿El uso del instrumento, genera beneficios a las personas que lo realizan? etc.
Este tipo de pruebas es útil para informar decisiones sobre la Política Social
No existe un consenso sobre si este tipo de validez, algunas autoridades concuerdan que es esencial, mientras que
otras consideran que las consecuencias son un asunto de la política y algunos se preguntan sobre si es un concepto
psicométrico
La APA aborda la generalización de la validez como un subtema bajo las relaciones entre pruebas test-criterio.
Ejemplo: La idea sería revisar y resumir todos los estudios pertinentes sobre la validez del Rorschach y luego integrar
esos estudios a fin de hacer una generalización sobre la misma. a esto se lo conoce como "meta-análisis". El método
sirve para resumir la información estadística real que contienen diversos estudios sobre un solo tema con el fin de
generalizar sus resultados
2018
UNIDAD 6
La puntuación natural es simplemente el resultado inmediato de las respuestas de un individuo en un test, es decir,
el resultado en la prueba. Por ejemplo una persona en una prueba de ansiedad respondió "si" a 14 preguntas de las
30, 14 sería la puntuación natural, ahora cabe preguntarnos, se considera muy ansioso por responder a 14 de las 30
preguntas que sí? o cuantas habría tenido que contestar que sí para que se considere como ansioso?. Otro ejemplo,
supongamos que una persona responde correctamente a 52 de 80 ítems en una prueba de lectura y 24 de 40 en una
prueba de ciencias, ¿es relativamente mejor en lectura o en ciencias?. Esta clase de preguntas se abordan bajo la
temática "normas de las pruebas". En el sistema de puntuación normalizada, la puntuación natural del individuo se
compara con las puntuaciones de los individuos que forman parte del grupo normativo, estas puntuaciones se las
conoce también como derivadas o escalares
Considere lo siguiente:
¿ Resulta alto la estatura de 1,94 metros?, no para un árbol, pero sí para un ser humano e incluso entre los
humanos, no es muy impresionante en el caso que sea un jugador de Básquet profesional, aunque sí lo sería
para un estudiante de sexto grado. Es decir ligado al nombre del capítulo, siempre es conveniente comparar
un valor observado con el grupo normativo para responder ante estas incógnitas. En psicometría estas
comparaciones se vuelven operativa, a manera de "normas"
VARIABLES:
Una ciencia se constituye en torno a las variables que estudia; algunos ejemplos en psicología son la inteligencia,
extroversión, desadaptación y agudeza visual. Los objetos de estudio (humanos en este campo) varían a lo largo de
cada una de estas categorías mencionadas. Las variables pueden describirse en 3 niveles de generalidad:
1) La definición GENERAL de la variable constructo (como los mencionados más arriba subrayados)
3) En el tercer nivel se obtienen datos naturales: es decir, los números que resultan de la aplicación de una prueba
2018
Las estadísticas operan sobre datos naturales, el nivel más específico de una variable.
La estadística descriptiva ayuda a resumir o describir estos datos naturales para que se entiendan mejor. Por su
parte, la estadística inferencial ayuda a sacar conclusiones (hacer inferencias) sobre lo que tiene probabilidades de
ser verdadero en una población, sobre la base de lo que se descubrió acerca de la muestra
TIPOS DE ESCALAS:
Las variables se miden en escala. Stevens las clasificó en cuatro clases muy reconocidas para el lector de psicología:
Escala NOMINAL: es el nivel menos complejo y más primitivo, que distingue los objetos codificando a cada uno con
un número; los números no significan más o menos. Ejemplo: 1-varones 2-mujeres
Escala ORDINAL: a las categorías se le asignan números que indican un ordenamiento, como sería más o menos en un
rasgo, pero sin cuantificar ni establecer las distancias entre los mismos, por ejemplo, las reservas de fútbol americano
colegial ofrecen una clasificación de los equipos: 1, 2, 3, 4 ... 25 . Como se entiende, el mejor equipo es el 1, luego le
sigue el 2 y así sucesivamente, pero puede ser que el 1 sea apenitas mejor que el 2, mientras que el 2 sea mucho
mejor que el 3, y así, es como la distancia del Primario al Secundario, no necesariamente es la misma que del
Secundario al Terciario, pero si el orden, es inevitable.
Escala INTERVALAR: acá ubica a las personas en orden y los hace a intervalos IGUALES. Por tanto la distancia entre 2 y
4 es la misma que la distancia entre 6 y 8 o entre 20 y 22. No obstante, estas escalas carecen de un punto cero
verdadero, por lo común cuenta con un punto cero, pero éste no indica la ausencia completa de la variable medida.
Ejemplo el termómetro Fahrenheit, donde el cero no indica ausencia de calor. La suma y resta son operaciones
legítimas en una escala de intervalo. Así la diferencia en 30° y 40° es la misma que entre 50° y 60°. No obstante, no
son legítimas la multiplicación y la división: 60° no es el DOBLE de calor que 30° ni 30° la MITAD de 60°. Otro ejemplo
y muy pertinente en este ámbito es el caso de la escala CI donde al medirse la inteligencia NO SE PARTE DE UN 0
ABSOLUTO, entonces si alguien obtiene un puntaje de 120, no se puede decir que tenga el DOBLE de inteligencia que
alguien que obtuvo 60, sólo podemos decir que obtuvo 60 puntos más, y que tiene más inteligencia. Para hacer las
afirmaciones del DOBLE o la MITAD, se necesitaría partir de un cero verdadero, a esto se lo llama la escala Kelvin,
donde el cero es un punto de partida en el que indica ausencia de, como el nivel siguiente
Escala de RAZÓN: como la anterior ubica los objetos en orden y se puede hacer operaciones de suma y resta, pero al
poseer un punto de cero absoluto o verdadero. Se pueden hacer todas las operaciones matemáticas, así como la
multiplicación y división que no se pueden hacer en el nivel anterior
2018
TENDENCIA CENTRAL:
Aunque la distribución de frecuencias, el histograma y el polígono de frecuencia son resúmenes útiles de los datos
naturales, siempre conviene contar con un índice que represente mejor el conjunto completo de datos. Tal índice se
lo conoce como medida de tendencia central: las más importantes son: Media, Mediana y Moda.
La mediana es la puntuación intermedia cuando las puntuaciones están distribuidas en orden de inferior a superior,
divide la distribución de las puntuaciones a la mitad
VARIABILIDAD:
Una medida de tendencia central ofrece un resumen de datos muy conveniente, pero priva de cualquier sentido de
variabilidad en los datos. De modo que para describir mejor los datos naturales, se debe ofrecer un índice de
variabilidad
El índice más sencillo de variabilidad es el rango, es simplemente la distancia entre la puntuación más alta y la más
baja
La desviación estándar es el índice de variabilidad más utilizado. Se denota en varios contextos mediante los
símbolos: S, DE, etc. Derivada de esta surge la varianza que simplemente es la DE elevada al cuadrado
PUNTUACIONES Z:
Si o si recordar y saber la fórmula de Z que se la define como:
Donde X es una puntuación individual o natural, M es la media y DE la desviación estándar. Estas puntuaciones z
tienen una M=0 y una DE=1
Las distribuciones pueden "desviarse de la normalidad", es decir, ser diferentes de la curva normal, de varias
maneras:
Leptocúrtica cuando el "punto máximo" está más acentuado y Platocúrtica cuando está más aplanada
2018
PUNTUACIÓN NATURAL:
Todas las normas de las pruebas son transformaciones de puntuaciones naturales. Dijimos que la misma es el
resultado más inmediato de la calificación de una prueba. Esta puntuación natural puede ser la cantidad de
respuestas correctas que se dan en una prueba de aprovechamiento, o el total de preguntas a las que se responde en
cierta dirección como por ejemplo "sí" o " de acuerdo" en un inventario de personalidad o de intereses. También
puede ser la suma de las respuestas numéricamente codificadas en una serie de reactivos
Las mediciones antropométricas y fisiológicas también pueden considerarse como puntuaciones naturales. Erika
mide 1,57 de estatura; el pulso de Johnny es de 54 latidos por minuto; Amanda nada en estilo mariposa 180 metros
en 2:20 minutos. Todas estas mediciones como dijimos, son puntuaciones naturales. Ubicarlas en un contexto
normativo ayuda a interpretarlas. Las normas son útiles para responder pregutnas como las siguientes: ¿Erika es muy
alta para su edad?, ¿el pulso de Johnny, es normal?, Amanda tiene un nivel de natación para competencia olímpica?
Los procedimientos de algunas pruebas exigen una puntuación natural "corregida" o "ajustada". El más popular de
estos es la corrección por adivinación que se aplica a ciertas pruebas de capacidad o de aprovechamiento en las que
se utiliza un formato de opción múltiple. Esta teoría plantea que es posible obtener algunas respuestas correctas
adivinando! jaja. De manera más precisa, alguien puede responder de manera correcta a 1 pregunta entre x cantidad
y adivinando varias preguntas. Por ejemplo, en una prueba de 100 preguntas, compuesta por cuatro reactivos cada
consigna, la puntuación esperada de adivinar es de 25 correctas de 100.
Esta posibilidad de ADIVINAR puede por decirlo vulgarmente "que una persona adivine algunas preguntas, pero
REALMENTE no sabe la respuestas de las mismas" y este teoría propone una fórmula entre las variables:
"puntuación natural original", "cantidad de respuestas incorrectas", y la "cantidad de opciones en los reactivos"
Estima un puntaje menos contaminado por la "suerte de azar" y se lo denomina "puntuación corregida" . Hay casos
en que la puntuación natural queda igual que la corregida y casos en que cambia. Esto es un aporte que utiliza la TRI
Imagínese una tabla con un conjunto de reactivos ordenadas de izquierda a derecha en orden de dificultad,
clasificándolos en fáciles, moderados y difíciles
2018
Imaginemos el siguiente caso :
Nicolás: Se le asignaron las preguntas "moderadas" y también contestó con acierto a 7 de 10 consignas
Dado que esta última persona respondió en forma correcta a consignas más difíciles, obtiene una puntuación theta
más elevada
Algunas aplicaciones de esta metodología permiten examinar el patrón de respuestas, lo mismo que la cantidad de
respuestas correctas, este patrón puede generar ajustes en la cantidad de respuestas correctas al determinar theta
Es muy utilizada en pruebas para medir los intereses de las personas (entre ellos, intereses vocacionales)
Ejemplo:
FORMATO A:
FORMATO B:
A. Sumar números GD
C. Resolver ecuaciones GD
D. Leer libros GD
En el formato B, al lector tal vez le gusten o disgusten todos los reactivos, en cambio en el formato A genera
puntuaciones ipsativas
2018
Las puntuaciones ipsativas se utilizan con ciertas pruebas de personalidad e inventarios de intereses . Este tipo de
puntuaciones se contrastan con las puntuaciones normativas, se dice que las primeras aluden al individuo. En tanto
las segundas refieren al grupo normativo. Sin embargo, este punto también es engañoso ya que las puntuaciones
ipsativas también pueden referirse a normas, pero es una manera de diferenciarlas.
Las puntuaciones naturales y las puntuaciones theta carecen de significado en sí mismas, por lo que la forma
más común de darles cierto significado es convertirlas o transformarlas en puntuaciones normativas. La puntuación
normalizada también llamada puntuación derivada ubica la puntuación del individuo en el contexto de las
puntuaciones que obtienen otros examinados; estos últimos constituyen el grupo normativo (el famoso BAREMO)
TIPO DE NORMAS:
Podemos distinguir 3 principales categorías de normas:
b) Puntuaciones estándar
c) Normas en desarrollo
El PERCENTIL (P) digamos que es lo mismo que RP, suelen emplearse en forma indistinta sin problema, pero una
diferencia entre ambos podría ser el procedimiento, en el P se empieza con un determinado porcentaje y luego se
encuentra la puntuación natural pertinente, en cambio en el RP es al revés, se inicia con una puntuación natural
determinada y luego se le haya el porcentaje correspondiente de casos que se encuentran por debajo de esa
puntuación
Los RP (o percentiles) poseen un fuerte atractivo, principalmente porque el concepto es SENCILLO y por lo tanto fácil
de captar con rapidez incluso a personas que no están familiarizadas con la estadística.
2) La marcada desigualdad de las unidades en diversos puntos en la escala, es decir no se mantiene una diferencia
constante entre las puntuaciones naturales y los percentiles, dicha desigualdad tiene forma de Campana de Gauss,
por ejemplo que una diferencia natural de 3 puntos, abarcará muchos puntos de percentil a la mitad de la
2018
distribución, mientras que sólo unos cuantos puntos percentilares en cualquiera de sus extremos (cerca de los
puntajes más bajos o de los puntajes más altos)
Ejemplo: el pasar de una puntuación natural de 10 a 13, genera un movimiento del Percentil 2 al 3. En cambio, el
pasar de una puntuación natural de 20 a 23, le corresponde pasar del Percentil 27 al Percentil 40
PUNTUACIONES ESTÁNDAR:
Las puntuaciones estándar son otro tipo de norma que se utiliza con frecuencia con las pruebas educativas y
psicológicas.
Un sistema de puntuación estándar es una conversión de puntuaciones z en un nuevo sistema que tiene ya elegidas
de manera arbitraria una M y una DE. Las más comunes suelen denominarse "puntuaciones T" con M= 50 y DE=10.
También suelen usarse M=500 y DE=100. Y En casos de inteligencia lo más popular es M=100 Y DE=15
Puntuaciones T:
También conocidas como Puntuaciones T de McCall, poseen una M=50 y DE=10. El rango efectivo de T es de casi 20 a
80 (es decir, de +-3 Z). Las puntuaciones T (en mayúscula) deben distinguirse de los valores t de Student (en
minúscula).
Este tipo de puntuaciones se utilizan de manera generalizada con las pruebas de personalidad normal, aunque
también se utiliza para la personalidad patológica con el MMPI (Inventario de Personalidad Multifásico de
Minnesota) y para intereses vocacionales con el Strong Interest Inventory (SII)
CI de desviación:
La definición tradicional del CI (coeficiente de inteligencia) es:
Ejemplo: Marta tiene EM de 10 años y EC de 8 años, por lo tanto (10/8) x 100 = 125. Esto último se denomina razón
de CI ya que representa la razón de EM a EC
2018
Sin embargo esto no utiliza en la actualidad. Los CI modernos no son de razón, son puntuaciones estándar con M=100
y DE= 15 o 16. Estas puntuaciones estándar suelen conocerse como CI de desviación
Los CI de la prueba Stanford-Binet original generaban una DE=16 mientras que otras pruebas reconocidas de
inteligencias como las escalas Wechsler (WAIS, WISC, WPPSI), optaron por una DE=15
Estaninas:
Tienen una dinámica similar a las puntuaciones T, pero estas tienen M= 5 y DE=2, divide una distribución normal en 9
unidades y logra que las unidades abarcaran distancias iguales sobre la base de la curva normal, excepto las
puntuaciones extremas, es decir 1 y 9
Las estaninas siempre derivan en relación con las desviaciones de los percentiles. Se emplean de manera generalizada
para informar puntuaciones en pruebas de aprovechamiento y en algunas pruebas de capacidad mental, en las
escuelas de enseñanza elemental y secundaria; no se usan mucho en otros contextos.
Las puntuaciones estándar obtenidas a partir de diferentes niveles en las pruebas suelen relacionarse mediante un
sistema de puntuaciones estándar que abarca todos los niveles; en ocasiones se alude a ellas como puntuaciones
escaladas.
Las puntuaciones estándar de niveles múltiples pueden ser útiles para medir el crecimiento por grados o edades, el
sistema de calificación suele desarrollarse con el fin de aproximarse a una escala de intervalo, sin embargo, para la
interpretación común de las pruebas, las puntuaciones de niveles múltiples no son muy útiles
2018
Empero a estas ventajas estadísticas, este tipo de puntuaciones tiene algunos inconvenientes.
1) Hay que reconocer que sólo una fracción sumamente pequeña de la raza humana tiene idea de lo que es una curva
normal o puntuación Z jajaj, entonces, es difícil transmitirle un resultado a personas que no están familiarizados con
estos conceptos estadísticos (la mayoría de la población), por ejemplo a adolescentes conviene darles el resultado en
percentiles que en idioma de puntaje z, salvo cuando se trabaja con entendidos en la materia.
2) Para que una puntuación estándar tenga sentido, se debe recordar la M y la DE del sistema, como mencionamos
en ejemplos anteriores en test de personalidad (M=50 y DE=10) y de inteligencia (M=100 y DE=15). Hay muchos
sistemas cada uno con su M y DE, así que si o si es necesario saberlo con seguridad en cada test determinado
Otro ejemplo de puntuación estándar normalizada (aparte de las T) son las estaninas, las cuales tienen la virtud de
ser sencillas para informar las puntuaciones individuales. Es fácil de explicar, por ejemplo a los padres, que el
desempeño de su hijo se informa en una escala del 1 al 9. En general, no se necesita una explicación adicional sobre
medias, desviaciones estándar, entre otros.
NORMAS DE DESARROLLO:
Cuando el rasgo que se mide se desarrolla en forma sistemática en el tiempo, es factible crear lo que se suele
denominar como norma de desarrollo. Son dos las normas de esta índole más utilizadas:
2018
Otro ejemplo de otros tipos de pruebas lo constituyen las mediciones antropomórficas, como la estatura o el peso, y
que suelen interpretarse en términos de normas de desarrollo. Se trata en esencia de equivalentes en edad, por
ejemplo, se informa que un menor "tiene una estatura típica de un niño de 6 años". Como sucede con las edades
mentales, tales afirmaciones se interpretan en relación con la edad cronológica del menor, como "Mike es muy alto
para su edad"
Aspectos positivos:
1) El significado de las normas de desarrollo suele por naturaleza ser muy atractivo. Es decir transmiten un significado
considerable, libre de tener que entender la estadística de los rangos percentilares y las puntuaciones estándar
2) Ofrecen una base para medir el crecimiento en las pruebas de niveles múltiples.
Aspectos negativos:
1) Sólo son aplicables a variables que muestran pautas de desarrollo claras, por lo tanto no se puede aplicar a pruebas
de personalidad, actitudes e intereses vocacionales por ejemplo
2) Sus DE incontroladas, ya que no son iguales en niveles diferentes ni tampoco en distintas pruebas. En muchas
pruebas, las DE tienden a incrementarse de forma sistemática con el nivel de edad o de grado
¿Cómo se origina este último? La esencia de estos informes siempre inicia con la puntuación de una prueba (natural o
theta) y las más de las veces como una normalizada. A partir de esto, dichos informes varían de forma considerable
en cuanto a su complejidad. En el nivel más simple, tal vez sólo traduzcan una puntuación normalizada en una
descripción verbal; por ejemplo, una computadora cuenta con un BAREMO y entonces podría ubicar las puntuaciones
de la persona y sus correspondientes percentiles en cada factor o dimensión. Con un poco más de sofisticación en
programación, el informe podría por ejemplo leerse así: "El desempeño de Pepito en la prueba A y C estuvo en el
rango promedio, en tanto que su desempeño en la prueba B estuvo ligeramente por encima del promedio". Los
informes narrativos suelen incorporar referencias al grupo normativo; por ejemplo. "En comparación con los demás
niños de su grado, Pepito se encuentra en el percentil 60 en aptitud mecánica, lo cual está ligeramente por encima
del promedio de los niños de su edad"
Por otra parte, algunos informes narrativos, también consideran sobre la confiabilidad y validez de la prueba
2018
Efecto Barnum:
Este efecto recibe el nombre de un reconocido promotor del circo, por su capacidad para hacer que la gente creyera
(y comprara) cualquier cosa. En lo que atañe a las pruebas psicológicas, este efecto tiene que ver con la tendencia de
la gente a creer en declaraciones grandilocuentes (es decir los resultados del test) que supuestamente se adaptan
específicamente para ellos, pero en realidad puede que sean vagas y lo suficientemente generales como para
caracterizar al individuo particular
GRUPOS NORMATIVOS:
El grupo normativo que se emplea para derivar las normas, independientemente del tipo de normas derivadas,
influye mucho en la interpretación de las puntuaciones de la prueba. En consecuencia, es importante considerar la
clase de grupos normativos que podrían encontrarse.
Los grupos normativos de las pruebas psicológicas muestran una enorme variedad, en tal sentido, resulta
difícil formular categorías distintivas dentro de una variedad así. En esta sección, el autor presentará un esquema de
categorización que representa puntos a lo largo de un continuo y no modelos diferenciados con claridad. En la
práctica, cada quien encontrará ejemplos en puntos intermedios a lo largo del continuo
NORMAS NACIONALES:
Son normas basadas en un grupo que sea representativo del segmento de la población del país. Puede estar
conformado por adultos, niños en grado, personas que quieren ingresar a la universidad, invidentes, etc.
NORMAS INTERNACIONALES:
En los últimos años se han creado normas internacionales, basadas en niños en edad escolar provenientes de varios
países (por lo general sólo de naciones económicamente avanzadas). La mayor parte de las interpretaciones se
fundan en comparación de puntuaciones totales y en el porcentaje de alumnos que respondieron correctamente a
los reactivos en lo individual, por lo tanto, poco se utilizan normas como los rangos de percentil o las puntuaciones
estándar
2018
NORMAS DE LOS USUARIOS:
Las normas de usuario, se basan en cualquier grupo que en realidad se somete a la prueba, por lo general dentro de
cierto período específico. Por ejemplo, las normas del rango percentilar en la SAT son normas de usuario y se basan
en todos los estudiantes que resolvieron la prueba en el año más reciente.
Con las normas de usuario no hay un intento a priori por asegurar que el grupo es representativo de alguna
población bien definida. Las normas de usuario son, en realidad, una modalidad de norma conveniente.
NORMAS DE SUBGRUPOS:
Los subgrupos se toman del grupo normativo en su totalidad, por ejemplo, tal vez se proporcionen normas separadas
por sexo, raza, grupo socioeconómico, grupo ocupacional o región geográfica. Estas normas tal vez sólo sean útiles si
hay diferencias sustanciales entre los subgrupos de la variable que mide la prueba
En muchas circunstancias el empleo tanto de una norma de grupo total como de una norma de subgrupo mejorará la
interpretación de la prueba. Por ejemplo, puede resultar útil saber que la puntuación de Mónica se encuentra en el
percentil 60 de la norma nacional estadounidense, pero en el percentil 30 para las personas de su grupo ocupacional
NORMAS LOCALES:
En una escuela las puntuaciones de sus alumnos se informan en términos de normas nacionales; además, la escuela
prepara una distribución de las puntuaciones de sus propios estudiantes e interpreta la puntuación de cada
estudiante comparándolas con las de sus otros alumnos. Esto se denomina norma local, que casi siempre se expresan
como percentiles
Considérese otro ejemplo. Una empresa utiliza una prueba de aptitud cuantitativa para seleccionar oficinistas, a cada
año evalúa a 200 solicitantes a los puestos. Aunque hay normas nacionales sobre la prueba, la empresa se vale de los
200 solicitantes que somete a prueba para desarrollar una norma local
Una venta de estas normas es que el interesado en verdad conoce las características del grupo normativo, ya
que en rigor son las personas que están en la situación local. De igual modo tiene algo "engañoso" y es que por
ejemplo, en una situación de evaluación escolar, el estudiante común en cada grado estará en la "norma", lo cual no
es muy ilustrativo, ya que es cierto por definición; en una norma local es posible determinar si el individuo común
está por debajo o por encima del promedio en términos de cierto marco de referencia externo. Es decir, muy
posiblemente hayan diferencias significativas en la posición de una persona en cuanto a su norma nacional y local
NORMAS INSTITUCIONALES:
Algunas pruebas, sobre todo las de aprovechamiento ofrecen normas basadas en tanto instituciones como en
individuos. Estas normas se sustentan en promedios de individuos dentro de las instituciones, por ejemplo, se aplica
una prueba a 5.000 estudiantes en 200 universidades y se determinan las puntuaciones promedio de cada una de las
200 universidades, se obtiene una distribución de frecuencia y se crea una norma, por lo general percentilar. Ésta
norma institucional también podría denominarse norma escolar, de grupo o alguna otra asignación semejante.
2018
Hay que distinguir con cuidado entre las normas individuales y las normas institucionales. Por ejemplo, la siguiente
afirmación "La puntuación del sudoeste se encuentra en el percentil 95 en las normas nacionales" y muchas personas
interpretarían esto en el sentido de que el estudiante sudoeste obtiene calificaciones mejores que el 9% de los
estudiantes del país. No obstante, ese percentil 95 se basa en normas institucionales, bien puede ser que el
estudiante común del sudoeste haya obtenido una percentil 70 respecto de los estudiantes de la nación.
La interpretación referida al criterio es aplicable es aplicable sólo en ciertos ámbitos de contenido debidamente
definidos como aritmética, ortografía o todas las habilidades necesarias para cierta ocupación. A menudo se hace una
interpretación con respecto al criterio de las puntuaciones en los exámenes para obtener una licencia profesional y a
los exámenes de competencias mínimas ´para graduarse del bachillerato (el famoso "punto de corte"). Cuanto
menos definido esté el ámbito, más difícil se toma la interpretación referida al criterio.
1) Estabilidad
La estabilidad la determina en gran medida el tamaño del grupo normativo, es decir, la cantidad de casos en el
programa de estandarización. Para la misma no se necesita una gran cantidad de casos y pocas veces es un problema,
en cualquier caso, se determina con facilidad; no obstante, la estabilidad no garantiza la representatividad
1) Que el autor del instrumento quizá asegure que las normas son representativas de una determinada población
2) Que el autor tal vez no plantee las que normas son representativas de ninguna población en particular, sino que
sólo represente la muestra normativa como norma de grupo conveniente o de usuario
También puede recurrirse al desempeño en otras pruebas que en sí cuentan con normas debidamente
documentadas. Debe demostrarse que el grupo normativo corresponde bien, en términos razonables, a la población
meta en tales características.
2018
Cuando se plantea que un grupo normativo es representativo de una determinada población, es responsabilidad del
autor de la prueba ofrecer la información suficiente que justifique el planteamiento.
1. El primero es el efecto de la no participación, mismo que se deriva del hecho de que la participación en un
programa de normalización casi siempre es voluntaria, ya sea para el individuo o para la organización a la cual
pertenece. ¿Qué clase de individuos u organizaciones renuncian a participar? ¿Cuáles son sus características? ¿Qué
efecto podría ejercer su no participación en las normas?
2. En segundo lugar, los programas de normalización son programas de investigación y no usos comunes de las
pruebas; los participantes suelen saberlo. En tales circunstancias, resulta difícil asegurar que los niveles de motivación
de los participantes sean iguales a los que serían en el caso del uso común de la prueba. Como sucede con la no
participación, a menudo se desconoce el efecto que los niveles de motivación ejercen en las normas
Suele llegarse a la conclusión que determinadas normas quizá sean representativas de las escuelas de baja
condición socioeconómica muy urbanizadas, pero que desde luego no constituyen un grupo representativo a nivel
nacional.
Siempre el usuario debe tener mucho cuidado con las normas si se pretende hacer una derivación de la prueba
original. No puede darse por hecho que las normas de un instrumento original sean aplicables a trabajos derivados, el
cambio de contexto llega a ejercer efectos imprescindibles en las respuestas de los examinados a los reactivos. En
estas situaciones, la aplicabilidad de las normas originales debe demostrarse empíricamente.
"Cuando se crean formas derivadas de las pruebas, tomando para ello un subconjunto de los reactivos de una de las
formas de la prueba existen o reordenando sus ítems, y hay una razón de peso para considerar que los efectos del
contexto de los reactivos pueden influir en las puntuaciones de estas formas, deben ofrecerse evidencias de que no se
generará distorsión indebida de las normas en las versiones diferentes o en las vinculaciones de las relaciones que
guardan las puntuaciones entre sí." (APA, 1999)
2018
UNIDAD 7
Este capítulo analiza doce procedimientos o pasos discretos para la construcción de pruebas. Se comienza con una
planificación detallada en el Paso 1, para llevar a cabo debates sobre la definición y el delineamiento de contenidos,
hasta la creación de los estímulos de la prueba (ítems o instrucciones), y la administración, la puntuación, el informe y
la documentación de todas las actividades importantes de la construcción de la prueba.
La construcción eficaz de una prueba requiere un enfoque sistemático y bien organizado para garantizar
suficiente evidencia de validez que sustente las inferencias propuestas a partir de las puntuaciones de una prueba
Este capítulo analiza un modelo de desarrollo de pruebas sistemático, organizado en doce tareas o actividades
discretas. Este capítulo puede ser considerado como una introducción para el contenido del Manual de construcción
de pruebas. Cada uno de los pasos que veremos pueden ser pensados como un importante organizador de evidencia
de validez para ser documentado en un informe técnico que resume todas las actividades importantes y los
resultados de la prueba
La primera decisión importante es: ¿Qué constructo se debe medir? ¿Qué interpretaciones de las puntuaciones son
deseadas? ¿Qué formato de prueba es el más apropiado? ¿Qué modalidad de administración se usar?
Este incluye un propósito claro, conciso y bien delineado de la prueba prevista. El objetivo de la prueba constituye
una definición operativa de la prueba propuesta y guía casi todas las demás decisiones relativas a la validez
relacionadas con las actividades del desarrollo de la prueba
Este paso es el más importante de las doce tareas en el desarrollo de pruebas. "Un proyecto que comienza bien a
menudo es un proyecto que termina bien"
Las Normas APA analizan la importancia de definir claramente el propósito de la prueba y realizar un cuidadoso
desarrollo de la prueba
Una de las preguntas más importantes es: ¿Qué contenido se debe evaluar Este es el tema más crítico de todos, ya
que permite delimitar el dominio del contenido a ser muestreado por el examen. Si el dominio del contenido está mal
definido o no está cuidadosamente delineado, ninguna cantidad de atención con otras actividades del desarrollo de la
prueba podrá compensar esta insuficiencia. Hay que definir el dominio de contenido operacionalmente, delinear
claramente el constructo a medir, y aplicar con éxito los procedimientos para, de manera sistemática y adecuada,
muestrear el dominio de contenido
2018
Paso 3: Especificaciones de la prueba: el plano de la prueba
Las especificaciones de la prueba se refieren a una definición operativa completa de las característica de la prueba, en
todos los detalles posibles. Estas especificaciones forman un plan de muestreo exacto para el dominio de contenido
definido en el Paso 2.
Este paso se centra en una discusión de los métodos utilizados para desarrollar sistemáticamente los ítems de
respuesta seleccionada, utilizando el formulario de ítem de opción múltiple como principal modelo. La creación y
producción de preguntas de prueba eficaces, diseñadas para medir el contenido de importancia en un adecuado nivel
cognitivo, es uno de los mayores desafíos para los desarrolladores de pruebas.
El ítem de opción múltiple es el caballo de batalla del emprendimiento de pruebas, por muy buenas razones, es una
forma de ítem de prueba extremadamente versátil; puede utilizarse para probar todos los niveles de la taxonomía
cognitiva, incluso los procesos cognitivos de muy alto nivel. Es un formato muy eficiente para los examinados, pero es
a menudo un desafío para el redactor del ítem.
La opción del formato del ítem es una fuente importante de evidencia de validez para la prueba. Se requiere un
fundamento claro para la selección del formato del ítem. En la práctica, su justificación puede principalmente
descansar en razones pragmáticas y cuestiones de viabilidad. Por ejemplo, en un programa de examen a escala
grande, con papel y lápiz, tal vez no sea rentable o eficiente para utilizar un gran número de preguntas de respuesta
construida. Y, dada la base de investigación que apoya el uso de ítems de opción múltiple, el desarrollador de la
prueba no debe sentirse inseguro acerca de la elección de un formato de respuesta seleccionada de baja fidelidad,
como el formato de opción múltiple, para una prueba de rendimiento.
Siempre es conveniente revisar los ítems a través del juicio de expertos (validez de contenido)
El montaje de una colección de ítems de prueba es un paso crítico en el desarrollo de pruebas. El control de calidad es
la palabra clave más asociada con el montaje (o ensamblado) de una prueba. Este paso operacionaliza el plan de
muestreo riguroso desarrollado en los Pasos 2 y 3
Si varios formularios de pruebas "paralelas" se deben montar simultáneamente, los desarrolladores de pruebas
humanos pueden montar las pruebas usando programas de computadora avanzados. Si la prueba es para ser
administrada con computadora, es probable que se necesiten más programas informáticos especializados para
ensamblar varios formularios de pruebas para asegurar el correcto formato del formulario de prueba de longitud fija
para el software de administración en computadora. La idea es crear formularios de pruebas equivalentes. El
principio es sencillo: Debe existir aproximadamente la misma frecuencia de respuestas correctas por ejemplo en el
tema "A" y lo mismo para el tema "B".
2018
Paso 6: Diseño y montaje de la prueba
La producción, impresión o publicación de los exámenes es otro paso rutinario del desarrollo de la prueba que a
menudo se pasa por alto con respecto a sus aspectos de validez.
Todas las precauciones de seguridad razonables deben ser tomadas en cuenta durante la producción de la prueba,
durante la transmisión electrónica de los ítems de pruebas seguros, el envío seguro de la copia de prueba impresa y
folletos impresos y la destrucción segura de los excedentes de materiales impresos. A su vez, todos los materiales de
prueba seguros deben estar en archivos de acceso limitado en todo momento
Para las pruebas impresas, frecuentemente las impresoras pueden proporcionar algún tipo de copia fuera de prensa
para su revisión final, este paso de reimpresión final es importante, los errores tipográficos u otros errores que
pueden invalidar a un ítem.
Otros temas de control de calidad son igualmente importantes, por ejemplo que donde se esté imprimiendo el
material, se asuma la responsabilidad de muchos procedimientos de garantía de calidad.
Siempre es ideal conseguir condiciones uniformes e idénticas para todos los individuos examinados. Sin un adecuado
control de todas las variables relevantes que afectan el rendimiento de las pruebas, sería difícil interpretar las
puntuaciones del examinado uniformemente y de manera significativa. Esta es la esencia del problema de validez
para consideraciones de administración de la prueba.
En el paso anterior hablábamos de la "seguridad" y esto es importante para la administración de la prueba. Para los
exámenes con lápiz y papel, los cuáles son administrados en varios sitios, la impresión de formularios de la prueba y
todos los materiales deben ser enviados de forma segura a los sitios de prueba; recibidos de manera segura y
mantenidos por supervisores; distribuidos a examinados en un entorno seguro, controlado y auditable
La puntuación de la prueba es el proceso de aplicar una clave de calificación a las respuestas de los examinados a los
estímulos de la prueba. Una clave de puntuación debe ser aplicada con precisión perfecta para las respuestas de los
ítems. Los errores de puntuación siempre reducen la evidencia de validez. son esenciales altos controles de calidad en
el proceso de puntuación para la validez
La puntuación puede ser muy simple o muy compleja. Las respuestas a ítems de elección múltiple con una
única respuesta correcta son fácilmente puntuadas por programas informáticos, mientras que las respuestas a
problemas complejos simulados por computadora pueden ser más difíciles de puntuar de forma fiable.
Los ítems de respuesta seleccionada son generalmente más eficientes y objetivamente puntuados que los ítems de
repuesta construida y los ítems de rendimiento
2018
También el énfasis más importante en el paso de puntuación de la prueba es la completa exactitud. Se requieren
procedimientos de control de calidad extremos para garantizar la total exactitud de las puntuaciones finales,
especialmente en el caso de puntuaciones de exámenes con muy altas expectativas. Cualquier error de puntuación
en las puntuaciones de prueba finales, reducirá considerablemente la validez y la credibilidad de las pruebas
La mayoría de las pruebas requieren algún tipo de puntuación de corte (puntuación de aprobación) o estándar de
desempeño. Todas las puntuaciones de aprobación de examen responden a la pregunta: ¿Qué conocimientos
(habilidades o capacidades) son necesarias para ser clasificados como aprobatorios del examen?
El informe de puntuación es un paso importante, a menudo complejo, en el desarrollo de pruebas. Los problemas de
los mismos tienen con ver con la equidad, oportunidad, adecuación de la puntuación, evitación del malentendido y
mal uso de la puntuación
El almacenamiento seguro de los ítems de prueba efectivos es un paso importante para todos los programas de
pruebas en curso. Este proceso de almacenar de manera seguro, se lo denomina banco de ítems
El informe técnico es la actividad de desarrollo de la prueba culminante y sirve al grande, pero a menudo ignorado,
propósito de proporcionar una documentación completa de toda la evidencia de validez para una prueba, identifica
posibles amenazas a su validez
Un modelo potencialmente útil para un informe técnico es utilizar los doce pasos del desarrollo de prueba. Los
métodos utilizados para establecer la puntuación de corte, junto con las tasas de aprobación asociadas con la
implementación de las puntuaciones de corte, también son importantes de documentar minuciosamente
Los informes técnicos deben ser desarrollados de tal manera que toda evidencia de validez importante sea
documentada sistemáticamente de manera que sea fácilmente accesible para todos los que tengan una necesidad
legítima de obtener acceso a esta información
RESUMEN Y CONCLUSIÓN
Estos doce pasos proporcionan un proceso estructurado y sistemático para la creación de un sistema eficaz de
programas de ensayos de todos los tipos
Una cuidadosa planificación y ejecución compulsiva conduce a pruebas que miden la capacidad de un examinado más
válidamente o el logro en el dominio de contenidos de interés bien definido
La videncia de validez de una prueba aumenta o disminuye en medida de la atención al detalle que se le dio
Seguir estos doce pasos sistemáticamente garantiza la máxima evidencia de validez de la prueba que desarrollamos.
2018
Capítulo 6: Elaboración de pruebas y análisis de reactivos
Introducción
En este capítulo se resumen los pasos que por lo general se dan en la elaboración de una prueba. El título del capítulo
alude en especial al "análisis de reactivos" debido a que estos procedimientos analíticos desempeñan una función
crucial en la elaboración de pruebas. Hay seis etapas principales en la elaboración de pruebas, sin embargo, hay
cierto traslape entre ellas, en especial en las etapas 1, 2, 3 y 4, por lo tanto no siempre están del todo diferenciadas;
no obstante, esta lista de etapas da el progreso lógico y el orden cronológico característico del trabajo
3. Preparación de reactivos
4. Análisis de reactivos
Una vez que uno ha definido con claridad la finalidad de la prueba, NO debe proceder de inmediato a elaborar el
instrumento. La etapa siguiente debe ser determinar si ya existe una prueba apropiada.
Elaborar una buena prueba nueva, es una labor prolongada, difícil y costosa.
Modo de aplicación: ¿Grupal o Individual? La colectiva es más eficaz, pero la individual permitirá mayor
adaptabilidad en los formatos de los reactivos y la observación clínica del examinado
Duración: ¿Cuánto durará la prueba? ¿Será breve, con 15 minutos de aplicación, o prolongada, de hasta 45
minutos o incluso varias horas? Desde luego, una prueba breve es más eficaz, pero es posible que se traduzca
en una confiabilidad muy limitada y una sola puntuación
2018
Formato de los reactivos ¿Opción múltiple? ¿Verdadero o falso? ¿Acuerdo o desacuerdo? ¿construcción de
respuesta? Este último permite una respuesta más rica y una mayor flexibilidad, pero con certeza casi
siempre será más difícil de calificar y, por tanto, su uso resultará más costoso
Cantidad de puntuaciones: ¿Cuántas puntuaciones generará la prueba?
Informes de las puntuaciones: ¿Qué clase de reporte de las puntuaciones se producirán? Habrá un registro
simple, escrito a mano, o serán informes generados por computadora?, que posiblemente incluyan reportes
narrativos? ¿Con exactitud, qué se informará?: sólo una puntuación total de la prueba o también el
desempeño en conjuntos de reactivos?
Capacitación del aplicador: ¿Cuánta capacitación se necesitará para la aplicación y calificación de la prueba?
¿Quiénes implementen la prueba requieren un adiestramiento profesional exhaustivo para aplicar, calificar e
interpretar el instrumento?
Investigación de antecedentes: En la etapa de diseño preliminar, es necesario realizar una investigación de
antecedentes sobre el ámbito que se probará. Esta investigación debe incluir una búsqueda bibliográfica
estándar
Las consideraciones de diseño determinarán qué clase y qué cantidad de reactivos se redactarán
1) Necesidad práctica: muchos pruebas de uso generalizado se originan en respuesta a "cierta necesidad práctica",
por ejemplo, la prueba de inteligencia Binet, precursora de la Stanford-Binet Intelligence Scale se originó para
identificar a los niños de las escuelas de París que podían necesitar lo que ahora se denomina "educación especial"
Las escalas Wechsler se crearon con la intención de ofrecer una prueba de inteligencia más adecuada que la
Stanford-Binet, otras pruebas se hicieron durante la Primera Guerra Mundial en función de la enorme cantidad de
reclutas y también fue de motivación para el desarrollo de la Woodworth Personal Data Sheet, prototipo de muchas
pruebas de personalidad posteriores. El MMPI (Inventario de Personalidad Multifásico de Minnesota) se inventó
para ayudar en la clasificación de los pacientes mentales, en la práctica clínica de los hospitales de la Universidad de
Minnesota. la SAT (Scholastic Assessment Test) se fabricó en respuesta al interés de una reducida cantidad de
universidades selectas para pasar por alto a algunos estudiantes brillantes de bachilleratos mediocres en el ingreso a
estas universidades, entre otros ejemplos.
2) Fundamento teórico: Como por ejemplo, las Matices Progresivas (RAVEN) se crearon como un instrumento
directo para medir el factor "g" (inteligencia general) de la teoría de Spearman sobre la inteligencia
3) Revisar o adaptar las pruebas existentes: Por ejemplo, en casi todas las pruebas de aprovechamiento, la reciente
edición es una prueba por completo nueva, que atraviesa por todos los procesos de elaboración de pruebas. Pruebas
como la SAT están bajo una revisión más o menos continua (cada 5 a 10 años). La WISC es una adaptación del WAIS,
así como el WPPSI fue una extensión descendiente del WISC
2018
Preparación de los reactivos:
La preparación de los reactivos incluye tanto la redacción de éstos como su revisión. Como ya abordamos en el
capítulo anterior, esta redacción no debe realizarse hasta que se haya definido la finalidad de la prueba y explorado
de manera minuciosa las consideraciones de diseño preliminares
Estímulo
Formato de respuesta
Condiciones que rigen cómo se da la respuesta al estímulo
Procedimientos para calificar la respuesta
Estímulo: denominado a menudo la base del reactivo, también puede ser una imagen, acompañada por una
pregunta oral, como en la prueba Rorschach, se le pregunta al examinado que comuniqué que es todo lo que ve
Condiciones que rigen la respuesta: ¿Cuál es el límite de tiempo para responder? , etc.
Procedimiento para calificar: Cuales son las respuestas correctas, preguntas particulares, etc.
Este esquema es el más popular . En la mayor parte de las pruebas de capacidad y aprovechamiento aplicadas a
grupos, se utiliza una estructura de opción múltiple con 4 o 5 opciones por cada reactivo. Un caso especial es el del
reactivo dicotómico Verdadero-Falso
Otro caso especial que se utiliza en pruebas de actitudes es el formato Likert, por lo común se utilizan reactivos en
una escala de 5 puntos que va desde "Completamente de acuerdo" a "Completamente en desacuerdo". También hay
variaciones likert entre 3 y 9 puntos o cualquier cantidad finita de puntos
2018
¿Cómo calificar este tipo de reactivos de selección de respuesta?
En las pruebas de capacidad y aprovechamiento la mayor parte de los reactivos de selección de respuesta se califican
como correctos o incorrectos, se concede un punto o cero a una respuesta correcta o incorrecta, respectivamente y
luego se califica la prueba contabilizando la cantidad total de aciertos. Sin embargo existen otros variantes de
calificación
1) Confiabilidad de la calificación: Dado que la calificación exige poco o ningún juicio, se elimina una de las principales
fuentes de varianza inestable. La confiabilidad entre calificadores o jueces es en esencia perfecta en el caso de los
reactivos de selección de respuesta
2) Eficacia temporal: En una determinada cantidad de tiempo, el examinado puede responder por lo general a más
reactivos que los que hubiera respondido en las pruebas de construcción de respuesta
3) Eficacia de la calificación: Un empleado o una computadora, pueden calificar los reactivos de una manera veloz .
Esta ventaja fue el principal estímulo para el desarrollo de las primeras pruebas de capacidad mental y personalidad
aplicadas a grupos durante la Primera Guerra Mundial
Una versión muy sencilla de este tipo de ítems es el formato de "llenar el espacio en blanco", donde se omite una
palabra o frase clave de un enunciado para que el examinado coloque las palabras faltantes, por ejemplo: "las
estaninas son un tipo de puntuación ______"
Uno de los ejemplos más familiares es la prueba de ensayo, donde el reactivo de la prueba presenta una situación o
tema y el o la examinada escriben una respuesta que puede ir de unos cuantos enunciados a varias páginas de texto.
El formato de construcción de respuesta se utiliza mucho en las pruebas de personalidad, los ejemplos clásicos de
este tipo de formato son las técnicas proyectivas!, como serían el Rorschach y el TAT
También es posible clasificar ciertas pruebas conductuales. La técnica de grupo sin líder y la de cesta
Dado a que la calificación de este tipo de reactivos de manera habitual exige el juicio del examinador, el grado de
acuerdo entre los calificadores. Cabe resaltar que la confiabilidad entre calificadores es un problema especial de los
reactivos de construcción de respuesta
2018
Hay varios métodos para calificar los ensayos:
*La calificación holística: el examinador, se forma de un juicio holístico general sobre la calidad del ensayo; la
puntuación asignada al ensayo refleja ese juicio general
*La calificación analítica: el mismo ensayo se valora en varias dimensiones diferentes y exige que especifique con
antelación las dimensiones importantes de la calidad del ensayo. Estas calificaciones se dan por separado a
diferentes. El ensayo de composición en inglés, por ejemplo, podría calificarse por separado en función de a) la
corrección gramatical, b) la organización y c)el uso de vocabulario. Así mismo, en función del uso de hechos
históricos, ) la identificación de los temas principales y b) la calidad de la redacción. Desde la óptima de la medición,
la calificación analítica supone que hay cierta independencia significativa entre los rasgos especificados en este
esquema de calificación. Antes de adoptar este tipo de sistema, es necesario establecer cierto grado de
independencia entre las escalas
*La calificación de rasgo primario: Se considera que cada ejercicio tiene una determinada finalidad, el grado en que
cada ejercicio logra esa finalidad, es una puntuación de, su rasgo primario
Por ejemplo: si la tarea consiste en mandar una carta al solicitando determinado videojuego, quizá una persona tenga
faltas de ortografía y fallas en la redacción, pero si el receptor, entiende que determinado videojuego es el que busca,
entonces este tiene éxito, pero si otra persona no especifica cuál es el determinado videojuego, ni la dirección a la
que debe enviarse , entonces resulta fallida
*La calificación sistema de puntos: que refiere a que hay ciertos "puntos" o "temas" que si o si deben incluirse en
una respuesta "perfecta". El calificador determina tan la presencia o ausencia de cada punto. El caso más sencillo es
en una prueba de memoria donde por ejemplo la consigna es "Enuncia los 10 mandamientos" y si concede un punto
por cada mandamiento que acierta.
En la actualidad los investigadores estudian la aplicación de sistemas de cómputo especializados nominados sistemas
de calificación automatizada. Supone el desarrollo de programas de cómputo complejos que simulan el proceso de
aplicación del juicio humano a los reactivos de respuesta libre. En el futuro próximo, tal vez surjan desarrollos
importantes en los sistemas de calificación automatizada
1) Observación más sencilla del comportamiento y los procesos: esto se relaciona con la modalidad de aplicación, se
aplica individual en lugar de grupal. Se puede observar su motivación, ansiedad, forma de abordar los problemas y
otros (no podríamos ver el proceso ni tampoco tan bien el comportamiento en las pruebas de selección de respuesta)
2) Explorar áreas inusuales: Permite explorar áreas inusuales, sobre todo en pruebas sobre la personalidad!
Estas áreas probablemente nunca aflorarían en una prueba de selección de respuesta
3) Hábito de estudio de los estudiantes: se piensa q el uso de los reactivos opción múltiple promueve la
memorización y una aproximación atomista al aprendizaje de las materias, en tanto los reactivos de construcción de
respuesta fomentan una aproximación más holística y significativa al estudio
2018
Desventajas:
3) Ineficacia de la calificación: puede influir mucho el juicio subjetivo a la hora de calificar y contaminar el resultado
Análisis de reactivos:
Recuerde que en primer lugar se revisan los ítems en función de su claridad, corrección gramatical y conformidad de
acuerdo a las reglas para la redacción de reactivos expuesta recientemente. En segundo lugar, en el caso de las
pruebas de aprovechamiento, se hace una revisión de la corrección del contenido (estas revisiones las realizan
expertos en el campo temático de que se trate). En tercer lugar, se revisan los reactivos en busca de posibles sesgos
de género, raciales o étnicos, revisiones que por lo general son realizadas por individuos que representan a los grupo
de referencia
Tenemos que tener en cuenta los siguientes conceptos sobre los reactivos: a) dificultad y b) discriminación
Dificultad del reactivo: hace referencia al porcentaje de examinados que responden de manera correcta
Los niveles de dificultad del reactivo se denominan normalmente valores p, que significa porcentaje o
proporción, de modo que un reactivo con un valor p de .85 es un ítem sencillo ya que lo responde bien el
85% de los examinados, en tanto que otro ítem con valor p .25 resulta difícil pues sólo el 25% de los
examinados lo contestó bien2
Discriminación del reactivo: alude a la capacidad de un reactivo para diferenciar en una forma deseada
entre los grupos de examinados
También existe el análisis de "distractores", un distractor es una opción incorrecta o no preferida en un reactivo
2018
Estos parámetros de la CCI pueden traducirse en lo que se conoce como "Función de Información del reactivo"
1) Desde un punto de vista muy práctico, obtener estimaciones estables de los parámetros TRI exige muestras
bastante grandes
2) En el rasgo TRI se supone que el rasgo medido es unidimensional, pero muchas pruebas no lo son
3) Si bien el modelo de Rasch es el paradigma de la TRI más utilizado, su premisa en cuanto a que todos los reactivos
tienen el mismo poder de discriminación, resulta parcialmente falsa en casi todo proyecto de elaboración de pruebas.
--Cuando se analiza el análisis factorial, también se puede utilizar como complemento un análisis de ítems!--
El aspecto más importante que debe entender en este análisis es que una simple diferencia en las dificultades de un
reactivo no por fuerza es un indicio de sesgo en él. Simplemente pueden significar diferencias REALES en dos grupos
SELECCIÓN DE REACTIVOS:
La fase final del proceso de análisis de reactivos es la selección de estos. De todos los reactivos preparados y
evaluados, se selecciona los que aparecerán en la prueba que se estandarizará
2018
PREPARACIÓN DE LOS MATERIALES FINALES Y PUBLICACIÓN:
La etapa final del proceso de elaboración de pruebas es su publicación. ¿Con exactitud, qué se publica?
Una prueba publicada cuenta con un manual técnico que es la fuente de información fundamental sobre la finalidad,
los fundamentos y la estructura de la prueba, mismo que debe contener información acerca de la confiabilidad,
validez y procedimiento de normalización del instrumento. El manual debe concluir también las directrices de
interpretación de las puntuaciones de la prueba.
Por último, también tenemos los materiales suplementarios; por ejemplo, algunas pruebas ostentan instrumentos de
"localización" que ayudan a quienes aplican el instrumento a determinar el nivel de una prueba de varios niveles que
sea más apropiado para un examinado específico. Algunas pruebas ofrecen cuadernillos especiales sobre la
interpretación de las puntuaciones para estudiantes y padres.
2018
UNIDAD 8
Método: un grupo de 6 expertos internacionales revisaron las directrices originales propuestas por la ITC teniendo en
cuenta los avances en el campo desde su formulación inicial
1) Directrices Previas
2) Desarrollo del test
3) Confirmación
4) Aplicación
5) Puntuación e Interpretación
6) Documentación
El objetivo de las directrices es que el producto final del proceso de adaptación consiga con respecto a la prueba
original el máximo nivel de equivalencia lingüística, cultural, conceptual y métrica posible, y para ello son concebidas
como un patrón que guía a los investigadores y profesionales en las pautas a seguir. El proceso es global en
naturaleza y abarca la totalidad de fases y cuestiones a considerar durante el proceso de traducción, desde las
cuestiones legales relacionadas con los derechos de la propiedad intelectual del test a adaptar, hasta aspectos
formales que atañen a la redacción del manual que documenta los cambios introducidos. Todos ellos son
importantes, y a todos ellos hay que prestarles una seria atención
Procedimientos
Marco Legal analítico-
racionales
Constructo
Idioma TEST
PROCESO ADAPTADO =)
Cultura
Medida
Procedimientos
Uso empíricos
2018
1) Directrices Previas
Hay que prestar atención a 2 cuestiones importantes:
Para considerar los factores lingüísticos y culturales se aconseja la implementación de un procedimiento iterativo
de depuración que se inicia con varias traducciones independientes hacia adelante, que luego serán revisadas por un
comité mixto en el que conviene incluir, además de traductores con conocimientos de los idiomas y culturas, a
especialistas en el campo de evaluación que analicen la adecuación de la versión adaptada.
Las directrices de desarrollo incluyen también un apartado que resalta la importancia de las pruebas piloto, ya
que éstas permiten, entre otras cosas: a) recoger "in situ" las reacciones de las personas que realizan la prueba; b)
asegurarse de que los ítems e instrucciones son correctamente comprendidos; c) registrar el tiempo necesario para la
ejecución del cuestionario; d) recoger información sobre posibles errores de contenido o formato; e) obtener datos
que permitirán llevar a cabo un primer análisis de ítems que indicen la dirección y sentido de los índices
psicométricos más relevantes. Por ejemplo, es interesante analizar las medias aritméticas de los ítems, o índices de
dificultad, etc.
3) Directrices de confirmación
Este grupo de directrices hacen referencia a aspectos técnicos relacionados con las propiedades psicométricas del
test adaptado y a su equivalencia con respecto al test original. Proponen llevar a cabo estudios de equivalencia
métrica entre las versionas original y adaptada, que determinarán el grado de relación entre cada uno de los ítems
que componen la prueba y la dimensión que representa. Las directrices de confirmación proponen llevar a cabo
estudios sobre fiabilidad y estudios de validación.
2018
4) Directrices sobre aplicación
La forma en que se aplica el test influye en las propiedades psicométricas de las puntuaciones obtenidas, tales como
su fiabilidad y validez. Las relaciones de quienes aplican el test con las personas que son evaluadas (rapport), la
forma de dar las instrucciones, y en general las interacciones aplicador/a-examinado/a deben de cuidarse al máximo.
Es decir, estamos hablando de la importancia de la administración.
DISCUSIÓN Y CONCLUSIONES:
Es ya conocido y asumido por la comunidad científica que la adaptación de tests no es meramente una cuestión
lingüística, y que exige la conjunción de aspectos culturales, conceptuales, lingüísticos y métricos que han de
acometerse desde perspectivas de análisis tanto analítico-racionales como empíricas
Las directrices de la ITC aúnan en un documento sencillo las pautas a seguir para asegurar el máximo nivel de
equivalencia entre las versiones originales y adaptada de un test, que podrían resumirse en: a) consideraciones
legales previas que afectan la propiedad intelectual; b) valoración del constructo en la población diana; c) diseños de
adaptación que tengan en cuenta las características lingüísticas, psicológicas y culturales del texto adaptado, así como
su adecuación práctica; d) la importancia de las pruebas piloto; e) la selección cualitativa y cuantitativa adecuada de
la muestra de adaptación; f) la importancia de los estudios de equivalencia; g) la delimitación del grado de
comparabilidad entre puntuaciones; h) la importancia de unas correctas condiciones de aplicación e interpretación; i)
la información exhaustiva sobre los cambios llevados a cabo en el test adaptado.
Por último, cabe mencionar según Hambleton, 6 grandes áreas que atraerán la atención de investigadores y
profesionales en los próximos años
Estas son algunas líneas de futuro sobre las que muy probablemente girarán las actividades evaluadoras en
un futuro no muy lejano
2018
UNIDAD 9
[Recientemente se ha producido un considerable desarrollo de los tests adaptativos informatizados, en los que el test
se adapta progresivamente al rendimiento del evaluado. Hay diferentes tipos de tests como: a) los tests basados en
modelos (se dispone de un modelo o teoría de cómo se responde a cada ítem, lo que permite predecir su dificultad), b)
los tests ipsativos (el evaluado ha de elegir entre opciones que tienen parecida deseabilidad social, por lo que pueden
resultar eficaces para controlar algunos sesgos de respuestas), c) los tests conductuales (miden rasgos que
ordinariamente se han venido midiendo con autoinformes, mediante tareas que requieren respuestas no verbales) y d)
los tests situacionales (en los que se presenta al evaluado una situación de conflicto laboral, por ejemplo, con varias
posibles soluciones, y ha de elegir la que parece la mejor descripción de lo que la persona haría en esa situación). El
artículo comenta las características, ventajas e inconvenientes de todos ellos y muestra algunos ejemplos.]
Ya en el 1924 en aquel entonces el autor Rodrigo Lavín decía: "Como la observación nos da muy pocos datos
utilizables y la conversación o entrevista no basta para descubrir las habilidades de los solicitantes, es necesario
recurrir a los tests". Desde ese día hasta el día de hoy, el desarrollo de los tests ha sido extraordinario, como
anticipaba Lavín. Entre los avances que han habido, podemos mencionar algunos importantes:
Avances técnicos: El desarrollo de los modelos psicométricos que sustentan las propiedades psicométricas
de los tests y la evolución y abaratamiento de la tecnología informática nos ha permitido incorporar nuevos
atributos psicológicos al catálogo de lo medible; también ha permitido incrementar la eficiencia de las
aplicaciones e incluir nuevas funcionalidades, como la generación automática de ítems, la aplicación
adaptativa de un test, o la corrección automática de respuestas complejas
Nuevas demandas sociales: Se incrementa no sólo el uso de los tests "cásicos" como el WAIS o el 16PF. Se
ha ampliado mucho el tipo de atributos psicológicos que se precisa medir. Mientras que hace unos años las
aplicaciones fundamentales se ceñían a tests de capacidades cognitivas o pruebas de personalidad, cada vez
son más los profesionales que exigen buenos tests para objetivos específicos
Mayor exigencia de calidad: Cada vez son más importantes las consecuencias que para las personas y las
organizaciones tienen las puntuaciones en los tests. Por ello, también es mayor la exigencia psicométrica
TESTS INFORMATIZADOS:
Se van incrementando progresivamente los tests cuyos ítems se presentan, se responden y puntúan en un ordenador,
lo que ha representado cambios y avances importantes en contextos aplicados de evaluación psicológica y educativa.
Estrictamente hablando, un test informatizado debe cumplir 2 requisitos:
2018
En general, informatizar un test supone ciertas ventajas:
Ayuda a estandarizar mejora las condiciones de aplicación de los tests para todos los evaluados:
instrucciones comunes, control del tiempo de aplicación, reducción de la posibilidad de copia, eficiencia de
corrección, etc.
Resulta necesario para la aplicación de procedimientos complejos como los de la TRI
Permite proporcionar de forma INMEDIATA información cuantitativa, verbal y gráfica, sobre la posición del o
la evaluada respecto a un grupo en un baremo concreto, es decir, la elaboración de informes automáticos
El ordenador es necesario para aplicar nuevos formatos de ítems, tales como presentaciones visuales
dinámicas, ítems auditivos o secuencias simuladas, entre otros
La aplicación de un TAI se inicia con una determinada estrategia de arranque, que consiste en establecer de alguna
forma el nivel de rasgo inicial que se asigna al ser evaluado. Luego de que él mismo responde a cada ítem, se realiza
una estimación de su nivel de rasgo mediante procedimientos estadísticos.
Los TAI, dada su condición adaptativa, tienen al menos 3 importantes ventajas adicionales:
1) Mejoran la seguridad del test, ya que gran parte de los ítems que se presentan son diferentes a todas las
personas evaluadas. Es decir, nos permite obtener buena confiabilidad de versiones equivalentes
2) Reducen el tiempo de aplicación, ya que consiguen niveles similares de precisión que los tests
convencionales con un número menor de ítems
3) Permiten además, con el mismo número de ítems que un test convencional, realizar estimaciones más
precisas
Calidad: Cualquiera puede acceder a centenares de tests que se ofrecen en todo el mundo y de los que
desconocemos sus propiedades psicométricas.
Seguridad: Un importante problema es el de la seguridad del propio ser. Es decir, las personas por ejemplo
pueden subir la información en foros, hacerles captura de pantalla, etc. Como es lógico, el acceso a los
contenidos del test y a la información que proporcionan los evaluados debe ser seguro y controlado. A veces
internet puede entrar en colisión con la Ley de Protección de Datos
Control: Otro problema tiene q ver con las posibilidades de suplantación de identidad, es decir, que sean
otras personas las que respondan al test
Garantías Tecnológicas: El examinar vía web, puede suponer una amenaza a la validez de las puntuaciones
2018
OTROS NUEVOS TIPOS DE TEST:
A. Tests basados en modelos
B. Tests Ipsativos
C. Tests Situacionales
D. Tests Conductuales
Una aportación novedosa de esta manera de proceder es que si conocemos las variables que intervienen en los
procesos de respuesta, puede establecerse un método para construir todo el universo posible de ítems gobernado
por dichas variables. El procedimiento, denominado "generación automática de ítems" (GAI), consiste en la
construcción de bancos de ítems mediante algoritmos. En el GAI se establece un conjunto de reglas explícitas,
susceptibles de programarse en un ordenador, que determinan cómo deben construirse los ítems.
Si el modelo que describe los procesos de respuesta de los ítems es correcto, resultará posible conocer la dificultad
de nuevos ítems antes de que hayan sido aplicados a persona alguna. Son muy importante las ventajas de disponer
de todo el banco posible de ítems, principalmente para garantizar que se mide con elevada precisión cualquier nivel
de capacidad.
Tests ipsativos
Fundamentalmente en contextos de selección de personal, el falseamiento de respuestas a los tests de personalidad
es un problema que se ha intentado resolver de varias formas. Una de las más alentadoras es justamente la
elaboración de tests ipsativos, que obligan al evaluado a elegir entre opciones de respuesta que tienen un nivel
similar de deseabilidad y que se refieren a diferentes dimensiones de la personalidad. Por ejemplo, el o la aspirante
puede tener que elegir entre "soy una persona trabajadora" [RESPONSABILIDAD] y "soy una persona abierta"
[EXTRAVERSIÓN]. El proceso de diseño ipsativo es básicamente el siguiente:
2018
f. Establecer el sistema de puntuación de los evaluados, por ejemplo, contando las veces que eligen las
opciones de cada una de las dimensiones
En las últimas décadas los tests ipsativos han tenido momentos de auge y declive, con defensores y detractores que
con igual fuerza argumentan sus beneficios o problemas. Algunos de estos problemas son:
Por el momento no nos parece muy recomendable la aplicación de tests ipsativos si se pretende realizar
comparaciones de rendimiento entre diferentes evaluados. Sin embargo, vemos una importante potencialidad a este
tipo de tests cuando se consoliden algunos intentos que se están realizando en el ámbito de la investigación
psicométrica para modelar teóricamente las respuestas a este tipo de ítems. En cualquier caso, la cuestión está lejos
de ser resuelta
Tests conductuales
En el contexto de la medición de la personalidad, existe una línea teórica de evaluación comportamental de la
personalidad donde se estudian los estilos interactivos o tendencias de comportamiento constantes ante situaciones
determinadas. Desde esta perspectiva se diseñan tests comportamentales informatizados para medir, por ejemplo, la
tendencia al riesgo (propensión a elegir las opciones más recompensadas a pesar de ser poco probables) mediante
simulaciones de juegos de ruleta o dados, o mediante tareas de toma de decisiones más o menos proclives a
accidentes. Por ejemplo decidir cuándo cruzar la calle para ir lo más rápido posible a una farmacia, cambiando en los
sucesivos ensayos la ubicación de la persona y sabiendo que puede aparecer un coche de un túnel. Si el peatón se
encuentra muy cerca de la salida del túnel, aumenta la probabilidad de que sea atropellado (menos visibilidad) pero
también reduce el tiempo para llegar a la farmacia (suponiéndose que la farmacia está a la altura de la salida del
túnel (del lado del frente por supuesto). Lo más seguro es moverse hacia la derecha, es decir alejarse de la salida del
túnel y cruzar, pero eso conlleva un mayor tiempo. Tras cada ensayo, el evaluador recibe un feedback sobre el tiempo
que ha tardado en llegar pero no sobre si ha sido atropellado. Los profesionales que eligen este tipo de tests
consideran que una de sus ventajas tiene que ver con la eliminación de los problemas de deseabilidad
Tests situacionales
Consisten en describir ciertas situaciones (por ejemplo, en el ámbito laboral) y pedir a las personas evaluadas que
digan cómo creen que reaccionarían ante dichas situaciones. Parece que este tipo de pruebas añaden poder
predictivo de la eficacia laboral a los tradicionales tests de capacidad cognitiva y de personalidad (por eso se aplican
cada vez más frecuentemente), aunque son escasos los estudios que se han realizado sobre su eficacia para reducir el
falseamiento de respuestas. Pueden realizar descripciones en un formato de respuesta abierta o, lo que es más usual,
elegir entre varias posibilidades que se describen de antemano
2018