Está en la página 1de 44

1

TÉCNICAS PSICOMÉTRICAS CÁTEDRA "A"


SEGUNDO PARCIAL
UNIDAD 5

Capítulo 5: Validez

Depuración de la definición de Validez


La definición acostumbrada de validez es "el grado en que una prueba mide lo que pretende medir". Sin embargo
vamos a refinar esta idea en dos formas.

En primer lugar, es impreciso referirse a la validez de una prueba, resulta necesario establecer la validez de la
puntuación de una prueba, cuando ésta se emplea para un determinado fin. De manera aún más precisa, debe
hacerse referencia a la "interpretación de una puntuación para un determinado fin o uso". No es posible definir en
abstracto la validez de la puntuación de una prueba, debe hacerse en función de un determinado uso. Por lo tanto,
no hay que plantearse preguntas como: "¿Es válida la prueba de Rorschach?", o "¿Es válida la Scholastic Assessment
Test (SAT; Prueba de Evaluación Académica). Por el contrario, es necesario formular preguntas como: "¿Es válido el
Índice de Depresión del Rorschach, para identificar la gravedad de la depresión?", o "'La puntuación de la prueba
Verbal del SAT es válida para pronosticar el promedio de calificación al final del primer año en la universidad?"

En segundo lugar, se percibe que la validez es una cuestión de grado; no es un asunto de todo o nada. es decir, acá
deberíamos mejorar un poco más los interrogantes anteriores como por ejemplo: "¿En qué grado es válido el Índice
de Depresión del Rorschach para determinar la gravedad de la depresión?, o bien, "¿En qué medida es válida la
puntuación en la prueba Verbal del SAT, para pronosticar la puntuación promedio de un estudiante de primer año en
la universidad?"

Subrepresentación del constructo y varianza irrelevante del constructo


Supóngase que tenemos por un lado el constructo que se desea medir y la prueba que se pretende que mida ese
constructo. Puede ocurrir que la prueba no mida todo el constructo de interés, todos aquellos aspectos del
constructo que no pueden ser medidos por la prueba se denomina "subrepresentación del constructo", y por otra
parte la prueba puede calcular características diferentes a las deseadas y esto se denomina "varianza irrelevante del
constructo". Por ejemplo esto suele pasar en las pruebas de autoinforme donde las personas pueden reflejar una
cierta tendencia a dar respuesta socialmente deseables, ya sea de manera inconsciente o consciente, esto no es lo
que se quiere medir. Este aspecto de las puntuaciones constituye la varianza irrelevante del constructo.

A continuación un ejemplo de una superposición geométrica entre la prueba y el constructo que se pretende medir

2018
Ahora imagínese una prueba de razonamiento matemático y puede suceder que las consignas exigen un nivel muy
elevado de capacidad de lectura y no se desea evaluar la lectura. Esa parte de las puntuaciones de la prueba,
determinada por la capacidad de lectura y no por la de razonamiento matemático constituye la varianza irrelevante
del constructo y para ser vulgar, supongamos que dentro del constructo se encuentren las variables suma, resta,
multiplicación y división y si no hay preguntas de división, entonces son aspectos de la "subrepresentación del
constructo" es decir, aspectos del constructo que no han sido evaluados.

Para citar a la APA (1999) y termina la idea:

"La subrepresentación del constructo alude, en términos de grado, a que una prueba no capta aspectos importantes
del constructo [...] La varianza irrelevante del constructo se refiere al grado de influencia que los procesos ajenos al
constructo buscado ejercen en las puntuaciones de la prueba..."

El aspecto de la VALIDEZ APARENTE:


Cuando los psicólogos aluden a la validez de una prueba, se refieren a cierta demostración empírica de que una
prueba mide lo que pretende medir y, de manera más concreta, a que las puntuaciones de la prueba se interpretan
en forma significativa para un determinado fin. La validez aparente señala el hecho de que una prueba "parece"
medir su constructo meta. Una prueba puede ser atractiva y decepcionante.

La validez aparente nunca sustituirá a la validez empírica, no es posible tan sólo ver una prueba y saber si tiene algún
grado de validez; no obstante, la validez aparente puede ser de utilidad. Si dos pruebas contienen una validez
establecida en forma empírica, es preferible utilizar la que tiene una mejor validez aparente.

2018
VALIDEZ DE CONTENIDO:
La validez de contenido tiene que ver con la relación entre el contenido de una prueba y cierto campo de
conocimiento o comportamiento bien definido. Este tipo de validez tiene dos aplicaciones primordiales: las pruebas
de aprovechamiento educativo y las laborales. Lo importante aquí es determinar el grado de correspondencia entre
el contenido de una prueba y el contenido del ámbito educativo o laboral de interés

Aplicación a las Pruebas de Aprovechamiento:


La validez de contenido se considera el tipo de validez más importante en las pruebas de aprovechamiento.

El proceso comienza con la definición cuidadosa del contenido que se abarcará, lo cual genera un cuadro o programa
de especificaciones. En muchos casos un área de contenido se representa mediante un cuadro bidireccional de
especificaciones.

El esquema mejor conocido para representar los procesos se conoce como taxonomía de Bloom, que consta de tres
taxonomías o esquemas de clasificación: en los ámbitos cognitivo, afectivo y psicomotor

Después de preparar un cuadro de especificaciones para un área de contenido, se fija la validez de contenido de una
prueba haciendo que corresponda el contenido de la prueba con el cuadro de especificaciones; esto se realiza
reactivo por reactivo. Este análisis debe mostrar: a) las áreas de contenido que no abarca la prueba y b) los reactivos
de la prueba que no corresponden a las especificaciones de contenido. Estas dos áreas corresponden estrechamente
a las nociones de subrepresentación del constructo y la varianza irrelevante del constructo

Siempre la lógica es preparar los reactivos de la prueba para que correspondan al esquema de contenido.

Validez Instruccional:
Una aplicación especial de la validez de contenido es la noción de validez instruccional, conocida también como
validez curricular. Si bien la validez de contenido motiva la pregunta de si el contenido de una prueba corresponde a
un conjunto de contenido debidamente definido, la validez instruccional, plantea la interrogante de si el contenido se
ha enseñado en realidad. En el caso de una prueba que contara con una validez educativa, debe haber evidencias de
que el contenido se abarcó de manera adecuada en un programa instruccional; en ocasiones se lo suele denominar
"oportunidad para aprender"

Este concepto se aplica sobre todo a las pruebas de aprovechamiento educativo. Pensemos por ejemplo, en las raíces
cuadradas, es probable que figure en el plan de estudios de la escuela y en el libro de matemáticas que se emplea en
la escuela. Sin embargo, puede suceder que ninguno de los maestros cubre nunca las raíces cuadradas en clase o en
las tareas para hacer en casa. Entonces estos reactivos carecen de una buena validez educativa, no hubo
"oportunidad de aprender" este tema. En efecto, la noción de validez instruccional se relaciona con lo que en realidad
se enseña y no con lo que se supone que debe enseñarse

2018
Aplicación a las Pruebas de Empleo:
Las nociones esenciales son las mismas que en las pruebas de aprovechamiento educativas, nada más que en las
pruebas de empleo, el campo de contenido consiste en una lista de los conocimientos y las habilidades necesarias
que se requieren para un determinado puesto laboral. El proceso de elaboración de dicha lista suele llamarse
"análisis del puesto"

Aunque hay muchas semejanzas en la aplicación de la validez de contenido con las pruebas de
aprovechamiento y de empleo, existen dos diferencias interesantes:

1) En las pruebas de aprovechamiento, documentos impresos como los libros o las guías curriculares, suelen servir
como base para las especificaciones de contenido. En cuanto a las pruebas de empleo, muy a menudo grupos de
expertos elaboran las especificaciones

2) En las pruebas de aprovechamiento, pocas veces se utiliza una cifra de porcentaje de acuerdo. En cuanto a las
pruebas de empleo, existe una metodología para expresar el porcentaje de contenido de la prueba que un grupo de
expertos juzgó esencial para el desempeño laboral, lo que se denomina "razón de validez de contenido"

Validez de Contenido en otros ámbitos:


Como ya se indicó, las principales aplicaciones de la validez de contenido se dan en los ámbitos de las pruebas de
aprovechamiento educativas y las pruebas de empleo. Su uso en otros ámbitos como inteligencia y personalidad por
ejemplo está limitado porque en general no tienen una especificación clara de los campos cubiertos y como usamos
la terminología de los denominados "constructos" justamente su definición no está consensuada y el término alude a
que se construye deliberadamente para definir al mismo, es decir, un constructo es algo de lo que se sabe que existe,
pero cuya definición es difícil o controvertida, entonces, ¿Cuál es el esquema de contenido para la inteligencia o la
extroversión? Aunque es posible tener definiciones simples de estos constructos, resulta difícil especificar un
esquema detallado de lo que abarcan; por tanto, la validez de contenido no se aplica de manera perfecta a ellos.

Problemas con la Validez de Contenido:


Dos fuentes de complicaciones:

1) Un claro problema es obtener una especificación clara del campo de contenido, con frecuencia resulta dificultoso

2) ¿Qué tan bien los reactivos de la prueba cubren los elementos de las especificaciones de contenido? Por ejemplo
supóngase la categoría "hechos básicos de la multiplicación". ¿Todos estos ítems miden igual de bien esa variable?
¿Son todos apropiados?. Tal vez no jaja XD

2018
VALIDEZ RELACIONADA CON EL CRITERIO:
La característica esencial de este tipo de evidencia consiste en establecer el vínculo entre el desempeño en la prueba
y en algún otro criterio que se toma como indicador importante del constructo de interés

Los dos contextos generales para la validez relacionada con el criterio son la validez predictiva y la validez
concurrente.

En la validez predictiva la prueba busca pronosticar la condición en algún criterio a la que se llegará en el futuro. Por
ejemplo, en una prueba de ingreso a la universidad, que se lleva a cabo en el último año del bachillerato, se aplica
para pronosticar el promedio de calificaciones al final del primer año en la universidad. O bien, se recurre a ella en un
inventario de personalidad para pronosticar la probabilidad de intento de suicidio en algún momento futuro

En la validez concurrente se revisa la concordancia entre el desempeño en la prueba y la condición actual en alguna
otra variable. Por ejemplo, para determinar la relación entre el rendimiento en una prueba de aprovechamiento
estandarizada y una elaborada por el maestro, donde ambas se administran casi al mismo tiempo. O para precisar el
nexo entre la puntuación en una prueba de depresión y las calificaciones clínicas del nivel de depresión actual. En
rigor, la diferencia entre la validez predictiva y la concurrente es de tiempo para la variable criterio. Desde todas las
demás perspectivas, los dos conceptos son iguales

Los tres empleos más comunes de la validez relacionada con el criterio suponen el uso de:

a) Un criterio externo y realista que defina el constructo de interés

b) Grupos de contraste

c) Correlaciones con otras pruebas

En esencia, estos 3 modelos se reducen a lo mismo, aunque poseen algunas diferencias prácticas

a) Criterio externo y realista:


La validez de la prueba se expresa como coeficiente de correlación; con mucha frecuencia se utiliza el conocido
coeficiente de correlación de Pearson, aunque pueden utilizarse otros. Cuando el coeficiente de correlación se usa de
esta forma, se denomina coeficiente de validez.

Debe tenerse en cuenta el concepto de error estándar, recuerden distinguir 3 tipos de error estándar: el error
estándar de la media; utilizado con relación a las variabilidad del muestreo; el error estándar de medición; utilizado
con la confiabilidad, y el error estándar de estimación (este nos interesa más en este punto)

2018
b) Grupos de contraste:
Aquí, el criterio es la pertenencia al grupo, se quiere demostrar que la prueba diferencia a un grupo de otro

Ejemplo1:

El grupo A cuenta con 50 individuos a los que se les diagnosticó esquizofrenia con base en entrevistas exhaustivas
con tres clínicos independientes.

El grupo B incluye 50 individuos sin antecedentes de problemas psicológicos importantes y de quienes se sabe tienen
un funcionamiento normal en su familia y entorno laboral.

Se administra un inventario de personalidad a los 100 individuos. La idea es demostrar que la prueba distingue con
claridad entre los dos grupos

c) Correlaciones con otras pruebas:


Este tercer método consiste en demostrar la correlación entre la prueba que se validará y algún otro instrumento que
se sabe o supone que es un indicador válido del constructo de interés, es decir la idea es recurrir a otra prueba para
establecer la validez relacionada con el criterio. La correlación (por lo común de Pearson) entre la prueba que se
intenta validar y la prueba criterio (otra prueba que mida el mismo constructo o relacionado). La mecánica y la
correlación es la misma que la descrita en cuanto al uso de un criterio externo y realista

VALIDEZ CONVERGENTE Y DISCRIMINANTE:


Dos conceptos útiles a tomarse en cuenta en la validez relacionada con el criterio, son la validez convergente y la
discriminante. La validez convergente consiste en la correlación un tanto elevada entre la prueba y algún criterio que
se considera que mide el mismo constructo que la prueba. Por ejemplo, para establecer la validez de una prueba de
depresión, tal vez se desee demostrar que ésta tiene una correlación elevada con otra prueba, de la cual se sabe que
es un buen indicador de depresión. La validez discriminante por el contrario la lógica es a la inversa, es decir
conseguir una correlación relativamente baja con otra prueba pero que mida un constructo distinto

Dice nuestra amiga la APA (1999):

"Las relaciones entre las puntuaciones de la prueba y otros indicadores ideados para evaluar constructos similares,
ofrecen evidencias convergentes, en tanto que las relaciones entre las puntuaciones de una prueba y los indicadores
supuestamente de constructos diferentes ofrecen evidencia discriminante"

Estos estudios de validez convergente-discriminante se utilizan preferentemente en inventarios de personalidad y no


así en pruebas de capacidad y desempeño

Una aplicación especial es la análisis de la Matriz Multirrasgo-Multimétodo

2018
Hasta el momento se ha hecho referencia a la validez relacionada con el criterio como el vínculo entre una sola
prueba y un criterio, pero en algunos casos es posible que se desee utilizar varias pruebas para pronosticar la
condición en un criterio. El método usual para abordar esta situación es la correlación múltiple (Análisis de
Correlación Múltiple), técnica que sirve para expresar la relación entre una variable (el criterio) y la combinación
óptima de otras dos o más variables (en este caso, varias pruebas). Por ejemplo, es posible que se intente pronosticar
el promedio de calificaciones de los estudiantes de primer año en la universidad, a partir de la combinación de una
prueba de ingreso a ésta, un rango de bachillerato y una prueba de motivación académica. El truco radica en obtener
las ponderaciones óptimas de las otras variables, para maximizar la correlación con el criterio y la combinación de
pruebas. Los procedimientos de correlación múltiple tienen principalmente dos finalidades: La primera es muy obvia,
consiste en generar la mejor predicción posible de una variable dependiente, como sería el buen desempeño laboral
o académico. La segunda finalidad radica en entender en términos teóricos qué variables contribuyen de manera
eficaz a la predicción de una variable dependiente y cuáles son redundantes.

El coeficiente de correlación múltiple se representa con una R (en mayúscula), se interpreta igual que la r de Pearson

La correlación múltiple es una técnica crucial para determinar la validez incremental, ésta tiene que ver con cuánta
información nueva y única aporta una prueba. Siempre se intenta determinar cuánta información nueva ofrece una
prueba o procedimiento.

Comparación entre predicción estadística y clínica


Se han realizado numerosos estudios que emplean diversos diseños y se ha concluido que las predicciones
estadísticas al menos igualan y por común superan a los juicios clínicos

Este hallazgo estremece a los clínicos y, por otra parte, aturde a quienes se dedican a la estadística. Meehl fue el
primero en documentar la superioridad del pronóstico estadístico sobre el clínico en diversos estudios; otros
informes confirman ampliamente el resultado.

También existen situaciones en las que el juicio clínico orientado con firmeza por fórmulas estadísticas, resulta mejor
que las fórmulas solas

2018
TEORÍA DE LA DECISIÓN: CONCEPTOS Y TÉRMINOS FUNDAMENTALES
ACIERTOS, FALSOS POSITIVOS Y FALSOS NEGATIVOS:
Acierto Positivo: Diagnosticar/Predecir que SI y en la situación real (Criterio) SI

Superan las puntuaciones de corte de la prueba y aciertan en el criterio

Acierto Negativo: Diagnosticar/Predecir que NO y en la situación real (Criterio) NO

Se ubican por debajo de una puntuación de corte de la prueba y fallan en el criterio

Falso Positivo: Diagnosticar/Predecir que SI y en la situación real (Criterio) NO

Superan las puntuaciones de corte de la prueba, pero fallan en el criterio

Falso Negativo: Diagnosticar/Predecir que NO y en la situación real (Criterio) SI

Se ubican por debajo de la puntuación de corte de la prueba, pero que aciertan en el criterio

SELECTIVIDAD Y ESPECIFICIDAD:
La selectividad de la prueba es la capacidad del instrumento para identificar al grupo criterio

La especificidad de la prueba es la capacidad del instrumento para identificar al grupo contraste

Para dejarlo clarísimo con el agua de una montaña jaja voy a poner ejemplos graciosos:

Si un test de DEMENCIA es ALTO en selectividad y te diagnóstica POSITIVO, estás al horno! jaja es decir, tenés ALTAS
CHANCES de efectivamente tener demencia (acierto positivo), en cambio si un test fuera bajo en selectividad y te
diagnosticaran demencia, tal vez no la tengas, es decir, es posible que el diagnóstico falle (falso positivo)

Si un test de DEMENCIA es ALTO en especificidad y te diagnóstica NEGATIVO, entonces safaste! jaja es decir, tenés
ALTAS CHANCES de efectivamente NO tener demencia (acierto negativo), en cambio si un test fuera bajo en
especificidad y te diagnosticaran demencia, tal vez no la tengas, el diagnóstico, puede fallar (falso negativo)

En general, cuanto mayor sea el grado de separación entre los grupos, mejor serán tanto la selectividad como
la especificidad, es decir, cuanto mejor discrimine la prueba entre los grupos, mejor será todo

2018
VALIDEZ DE CONSTRUCTO:
Este tipo de validez, es en principio, la más difícil de comprender; básicamente se la describe de la siguiente manera:

Una prueba intenta medir cierto constructo, éste puede no tener un conjunto de contenido muy bien definido o un
criterio externo. La validez de constructo abarca todos los métodos, de hecho, es factible pensar en esta validez como
algo que incluye la validez de contenido y la validez relacionada con el criterio.

Cualquier evidencia que sustenten, en forma verosímil, la proposición de que la prueba mide su constructo meta, es
pertinente a este tipo de validez

ESTRUCTURA INTERNA:
Esta Estructura Interna la podemos dividir en dos subcategorías: a) la consistencia interna y b) en análisis factorial

Consistencia Interna:
Un grado elevado de consistencia interna, por ejemplo, un elevado coeficiente KR-20 o alfa, denota que la prueba
mide algo de manera consistente. Por tanto, la consistencia interna elevada sustenta la afirmación de que una prueba
mide UN DETERMINADO CONSTRUCTO O RASGO; sin embargo, resulta difícil sostener tal afirmación si la consistencia
interna es baja.

Es necesario pensar la consistencia interna como un requisito para la validez y no como evidencia de validez en sí.
Una consistencia interna elevada indica que un constructo se está midiendo, pero se necesitan otras evidencias para
señalar cuál podría ser ese constructo

Análisis Factorial:
El análisis factorial es una familia de técnicas estadísticas que ayudan a identificar las dimensiones comunes que
subyacen a un constructo. Desempeñan una función en particular destacada en los inventarios de personalidad y las
pruebas de inteligencia, de hecho, el desarrollo de esta metodología se relaciona con las clásicas polémicas sobre la
naturaleza y medición de la inteligencia

Este método señala el modo en que los reactivos de las pruebas se agrupan según las dimensiones subyacentes
pertinentes a ellos. Hay muchas formas para "extraer" los factores. Una vez extraídos los factores se lleva a cabo un
proceso de rotación, donde el procedimiento común se denomina Varimax

El análisis factorial es una técnicas de reducción de datos que busca la unidimensionalidad de cualquier escala.
Agrupa a un conjunto de variables que se relacionan fuertemente entre sí (factores) y que al mismo tiempo su
correlación con variables de otros agrupamientos (factores) es menor.

2018
PROCESOS DE RESPUESTA:
El estudio de cómo proceden a responder los examinados a una prueba, sus procesos de respuesta, pueden ofrecer
evidencias respecto a la validez de la prueba.

Las evidencias de los procesos de respuesta no suelen ofrecer evidencias sólidas y muy convincentes.

EFECTO DE LAS VARIABLES EXPERIMENTALES:


El efecto de las variables experimentales ayuda a demostrar la validez de una prueba.
Estudiar los efectos de las variables experimentales es similar al método de los grupos de contraste. De hecho, son
lógicamente lo mismo. Los estudios de grupos de contraste suelen emplear a grupos que se dan en forma natural
(ejemplo personas deprimidas y no deprimidas), en tanto que los grupos considerados bajo la validez de constructo
se crean específicamente para estudiar la validez de las pruebas.

Ejemplo1: Imagínese que se quiere establecer la validez del STA, de modo que aplica la prueba a un grupo de 25
personas a una situación que genera ansiedad, luego al aplicar el STA de nuevo, se esperaría que las puntuaciones
aumentaran

Ejemplo2: Supóngase que se realiza el Bechtoldt Creativity Test (BCT) a 50 personas, tras lo cual les da 10 horas d
instrucción en técnicas de pensamiento creativo y entonces replica la BCT; lógicamente esperaría un incremento en
las puntuaciones de la BCT

CAMBIOS EN EL DESARROLLO:
Otra posible fuente de información sobre la validez de constructo la constituyen los cambios en el desarrollo. Cabe
esperar que los niños a edades sucesivamente mayores cuenten con una capacidad mental cada vez superior.
Demostrar que una prueba de capacidad mental refleja estos incrementos ayuda a establecer la validez del
instrumento. Esto mismo hizo Binet para argumentar la validez de los reactivos de sus pruebas. El estudio de los
cambios en el desarrollo como el estudio del efecto de las variables experimentales, puede concebirse como una
variación del modelo de los grupos de contraste

2018
VALIDEZ DE LAS CONSECUENCIAS:
Este tipo de validez se relaciona con las consecuencias de sus usos e interpretaciones

¿Cuáles son las consecuencias, resultados o repercusiones del uso de una prueba? Por ejemplo, ¿cuáles son las
consecuencias del uso sistemático de una prueba de ingreso a la universidad? ¿Cuáles son los "efectos secundarios"?
¿El uso del instrumento, genera beneficios a las personas que lo realizan? etc.

Este tipo de pruebas es útil para informar decisiones sobre la Política Social

No existe un consenso sobre si este tipo de validez, algunas autoridades concuerdan que es esencial, mientras que
otras consideran que las consecuencias son un asunto de la política y algunos se preguntan sobre si es un concepto
psicométrico

COMPARACIÓN ENTRE VALIDEZ Y PRECISIÓN DE LAS NORMAS:


Es perfectamente posible que una prueba tenga una buena validez, pero normas poco correctas. Cuando esto sucede,
algunos llegan a la conclusión errónea de que la prueba no es válida. También puede suceder lo contrario, es decir,
que una prueba tenga normas excelentes, pero poca o nula validez

VALIDEZ DIFERENCIAL EN EL ESTUDIO DEL SESGO EN LA PRUEBA:


El sesgo en la prueba significa que una prueba funciona de manera diferente con distintos grupos. Una prueba está
sesgada si mide diferentes constructos o genera pronósticos distintos. Una simple diferencia en el desempeño
promedio entre dos grupos no constituye un sesgo. Sólo hay sesgo si las diferencias en los promedios no
corresponden a una diferencia real en el rasgo subyacente que la prueba intenta medir

INTEGRACIÓN DE LAS EVIDENCIAS:


En el análisis final, el proceso consiste en ponderar todas las evidencias y emitir un juicio sobre la probable validez de
una prueba para un determinado uso. A este proceso se lo denomina generalización de la validez.

La APA aborda la generalización de la validez como un subtema bajo las relaciones entre pruebas test-criterio.

Ejemplo: La idea sería revisar y resumir todos los estudios pertinentes sobre la validez del Rorschach y luego integrar
esos estudios a fin de hacer una generalización sobre la misma. a esto se lo conoce como "meta-análisis". El método
sirve para resumir la información estadística real que contienen diversos estudios sobre un solo tema con el fin de
generalizar sus resultados

2018
UNIDAD 6

Capítulo 3: Normas de las pruebas

FINALIDAD DE LAS NORMAS:


Tenemos que distinguir dos conceptos fundamentales: Puntuación Natural y Puntuación Derivada.

La puntuación natural es simplemente el resultado inmediato de las respuestas de un individuo en un test, es decir,
el resultado en la prueba. Por ejemplo una persona en una prueba de ansiedad respondió "si" a 14 preguntas de las
30, 14 sería la puntuación natural, ahora cabe preguntarnos, se considera muy ansioso por responder a 14 de las 30
preguntas que sí? o cuantas habría tenido que contestar que sí para que se considere como ansioso?. Otro ejemplo,
supongamos que una persona responde correctamente a 52 de 80 ítems en una prueba de lectura y 24 de 40 en una
prueba de ciencias, ¿es relativamente mejor en lectura o en ciencias?. Esta clase de preguntas se abordan bajo la
temática "normas de las pruebas". En el sistema de puntuación normalizada, la puntuación natural del individuo se
compara con las puntuaciones de los individuos que forman parte del grupo normativo, estas puntuaciones se las
conoce también como derivadas o escalares

Considere lo siguiente:

 ¿ Resulta alto la estatura de 1,94 metros?, no para un árbol, pero sí para un ser humano e incluso entre los
humanos, no es muy impresionante en el caso que sea un jugador de Básquet profesional, aunque sí lo sería
para un estudiante de sexto grado. Es decir ligado al nombre del capítulo, siempre es conveniente comparar
un valor observado con el grupo normativo para responder ante estas incógnitas. En psicometría estas
comparaciones se vuelven operativa, a manera de "normas"

REVISIÓN DE ESTADÍSTICA: PRIMERA PARTE


Las normas de las pruebas se basan en nociones mentales de la estadística descriptiva. Para aplicar la misma ligada a
las técnicas psicométricas se utilizan programas tales como el SPSS, el SAS, Minitab y SYSTAT; el programa de Excel,
entre otros. El objetivo de esta sección será revisar brevemente algunos temas y plantear algunas ideas claves

VARIABLES:
Una ciencia se constituye en torno a las variables que estudia; algunos ejemplos en psicología son la inteligencia,
extroversión, desadaptación y agudeza visual. Los objetos de estudio (humanos en este campo) varían a lo largo de
cada una de estas categorías mencionadas. Las variables pueden describirse en 3 niveles de generalidad:

1) La definición GENERAL de la variable constructo (como los mencionados más arriba subrayados)

2) En un segundo nivel, la variable es una medida; se trata aquí de su definición operacional

3) En el tercer nivel se obtienen datos naturales: es decir, los números que resultan de la aplicación de una prueba
2018
Las estadísticas operan sobre datos naturales, el nivel más específico de una variable.

La estadística descriptiva ayuda a resumir o describir estos datos naturales para que se entiendan mejor. Por su
parte, la estadística inferencial ayuda a sacar conclusiones (hacer inferencias) sobre lo que tiene probabilidades de
ser verdadero en una población, sobre la base de lo que se descubrió acerca de la muestra

TIPOS DE ESCALAS:
Las variables se miden en escala. Stevens las clasificó en cuatro clases muy reconocidas para el lector de psicología:

Escala NOMINAL: es el nivel menos complejo y más primitivo, que distingue los objetos codificando a cada uno con
un número; los números no significan más o menos. Ejemplo: 1-varones 2-mujeres

Escala ORDINAL: a las categorías se le asignan números que indican un ordenamiento, como sería más o menos en un
rasgo, pero sin cuantificar ni establecer las distancias entre los mismos, por ejemplo, las reservas de fútbol americano
colegial ofrecen una clasificación de los equipos: 1, 2, 3, 4 ... 25 . Como se entiende, el mejor equipo es el 1, luego le
sigue el 2 y así sucesivamente, pero puede ser que el 1 sea apenitas mejor que el 2, mientras que el 2 sea mucho
mejor que el 3, y así, es como la distancia del Primario al Secundario, no necesariamente es la misma que del
Secundario al Terciario, pero si el orden, es inevitable.

Escala INTERVALAR: acá ubica a las personas en orden y los hace a intervalos IGUALES. Por tanto la distancia entre 2 y
4 es la misma que la distancia entre 6 y 8 o entre 20 y 22. No obstante, estas escalas carecen de un punto cero
verdadero, por lo común cuenta con un punto cero, pero éste no indica la ausencia completa de la variable medida.
Ejemplo el termómetro Fahrenheit, donde el cero no indica ausencia de calor. La suma y resta son operaciones
legítimas en una escala de intervalo. Así la diferencia en 30° y 40° es la misma que entre 50° y 60°. No obstante, no
son legítimas la multiplicación y la división: 60° no es el DOBLE de calor que 30° ni 30° la MITAD de 60°. Otro ejemplo
y muy pertinente en este ámbito es el caso de la escala CI donde al medirse la inteligencia NO SE PARTE DE UN 0
ABSOLUTO, entonces si alguien obtiene un puntaje de 120, no se puede decir que tenga el DOBLE de inteligencia que
alguien que obtuvo 60, sólo podemos decir que obtuvo 60 puntos más, y que tiene más inteligencia. Para hacer las
afirmaciones del DOBLE o la MITAD, se necesitaría partir de un cero verdadero, a esto se lo llama la escala Kelvin,
donde el cero es un punto de partida en el que indica ausencia de, como el nivel siguiente

Escala de RAZÓN: como la anterior ubica los objetos en orden y se puede hacer operaciones de suma y resta, pero al
poseer un punto de cero absoluto o verdadero. Se pueden hacer todas las operaciones matemáticas, así como la
multiplicación y división que no se pueden hacer en el nivel anterior

ORGANIZACIÓN DE DATOS NATURALES:


La manera más común de organizar una masa de datos naturales es con una distribución de frecuencia, la misma
puede convertirse en forma gráfica. Las dos modalidades más comunes son el histograma de frecuencia y el polígono
de frecuencia

2018
TENDENCIA CENTRAL:
Aunque la distribución de frecuencias, el histograma y el polígono de frecuencia son resúmenes útiles de los datos
naturales, siempre conviene contar con un índice que represente mejor el conjunto completo de datos. Tal índice se
lo conoce como medida de tendencia central: las más importantes son: Media, Mediana y Moda.

La media es el promedio aritmético, se lo representa ya sea con M o con 

La mediana es la puntuación intermedia cuando las puntuaciones están distribuidas en orden de inferior a superior,
divide la distribución de las puntuaciones a la mitad

La moda es la puntuación o categoría que ocurre con mayor frecuencia

VARIABILIDAD:
Una medida de tendencia central ofrece un resumen de datos muy conveniente, pero priva de cualquier sentido de
variabilidad en los datos. De modo que para describir mejor los datos naturales, se debe ofrecer un índice de
variabilidad

El índice más sencillo de variabilidad es el rango, es simplemente la distancia entre la puntuación más alta y la más
baja

La desviación estándar es el índice de variabilidad más utilizado. Se denota en varios contextos mediante los
símbolos: S, DE, etc. Derivada de esta surge la varianza que simplemente es la DE elevada al cuadrado

Una cuarta medida de variabilidad es el rango semiintercuartilar, se trata de la distancia entre Q3 y Q1

PUNTUACIONES Z:
Si o si recordar y saber la fórmula de Z que se la define como:

Donde X es una puntuación individual o natural, M es la media y DE la desviación estándar. Estas puntuaciones z
tienen una M=0 y una DE=1

FORMAS DE LAS DISTRIBUCIONES:


El parámetro o la distribución de referencia es la curva normal o distribución normal. Su nombre popular es "curva de
campana". Esta distribución es unimodal y simétrica. Los puntajes z oscilan en general +- 3 DE

Las distribuciones pueden "desviarse de la normalidad", es decir, ser diferentes de la curva normal, de varias
maneras:

La primera en términos de curtosis pueden ser:

Leptocúrtica cuando el "punto máximo" está más acentuado y Platocúrtica cuando está más aplanada
2018
PUNTUACIÓN NATURAL:
Todas las normas de las pruebas son transformaciones de puntuaciones naturales. Dijimos que la misma es el
resultado más inmediato de la calificación de una prueba. Esta puntuación natural puede ser la cantidad de
respuestas correctas que se dan en una prueba de aprovechamiento, o el total de preguntas a las que se responde en
cierta dirección como por ejemplo "sí" o " de acuerdo" en un inventario de personalidad o de intereses. También
puede ser la suma de las respuestas numéricamente codificadas en una serie de reactivos

Las mediciones antropométricas y fisiológicas también pueden considerarse como puntuaciones naturales. Erika
mide 1,57 de estatura; el pulso de Johnny es de 54 latidos por minuto; Amanda nada en estilo mariposa 180 metros
en 2:20 minutos. Todas estas mediciones como dijimos, son puntuaciones naturales. Ubicarlas en un contexto
normativo ayuda a interpretarlas. Las normas son útiles para responder pregutnas como las siguientes: ¿Erika es muy
alta para su edad?, ¿el pulso de Johnny, es normal?, Amanda tiene un nivel de natación para competencia olímpica?

Los procedimientos de algunas pruebas exigen una puntuación natural "corregida" o "ajustada". El más popular de
estos es la corrección por adivinación que se aplica a ciertas pruebas de capacidad o de aprovechamiento en las que
se utiliza un formato de opción múltiple. Esta teoría plantea que es posible obtener algunas respuestas correctas
adivinando! jaja. De manera más precisa, alguien puede responder de manera correcta a 1 pregunta entre x cantidad
y adivinando varias preguntas. Por ejemplo, en una prueba de 100 preguntas, compuesta por cuatro reactivos cada
consigna, la puntuación esperada de adivinar es de 25 correctas de 100.

Esta posibilidad de ADIVINAR puede por decirlo vulgarmente "que una persona adivine algunas preguntas, pero
REALMENTE no sabe la respuestas de las mismas" y este teoría propone una fórmula entre las variables:

"puntuación natural original", "cantidad de respuestas incorrectas", y la "cantidad de opciones en los reactivos"

Estima un puntaje menos contaminado por la "suerte de azar" y se lo denomina "puntuación corregida" . Hay casos
en que la puntuación natural queda igual que la corregida y casos en que cambia. Esto es un aporte que utiliza la TRI

EL CASO ESPECIAL DE theta: (θ)


Recordando a la TRI (Teoría de respuesta al ítem) en la TRI la puntuación natural no es la simple suma de las
respuestas a todos los reactivos en la prueba. En esta teoría la puntuación es una función de las respuestas del
examinado que interactúan con las características de los reactivos. La puntuación TRI suele denominarse theta (q).
En resumidas cuentas, el hecho de obtener la puntuación natural o directa, no consiste tan sólo en sumar respuestas
correctas, aunque a continuación, vamos a dar una idea aproximada del modo en que la metodología TRI genera una
puntuación theta.

Imagínese una tabla con un conjunto de reactivos ordenadas de izquierda a derecha en orden de dificultad,
clasificándolos en fáciles, moderados y difíciles

2018
Imaginemos el siguiente caso :

Micaela: Le dieron sólo los reactivos "fáciles" y respondió correctamente 7 de 10 ítems

Nicolás: Se le asignaron las preguntas "moderadas" y también contestó con acierto a 7 de 10 consignas

Dado que esta última persona respondió en forma correcta a consignas más difíciles, obtiene una puntuación theta
más elevada

Continuemos con algunos de otros aportes muy importantes de la TRI:

Algunas aplicaciones de esta metodología permiten examinar el patrón de respuestas, lo mismo que la cantidad de
respuestas correctas, este patrón puede generar ajustes en la cantidad de respuestas correctas al determinar theta

EL CASO ESPECIAL DE LAS PUNTUACIONES IPSATIVAS:


Las puntuaciones ipsativas son aquellas también conocidas como de "elección forzada" en donde la persona debe si o
si elegir una opción entre varias, y los reactivos se califican de tal manera que una respuesta en una determinada
consigna produce un incremento de una puntuación y a su vez una disminución de otra puntuación que no eligió o al
menos impide que ésta aumenten. De modo que estas puntuaciones muestran la fuerza "relativa" de una de las
puntuaciones en lugar de la fuerza "absoluta"

Es muy utilizada en pruebas para medir los intereses de las personas (entre ellos, intereses vocacionales)

Ejemplo:

FORMATO A:

En cada par de reactivos, marque el que más le guste:

a) Sumar números o b) Buscar palabras en un diccionario

a) Resolver ecuaciones o b) Leer libros

FORMATO B:

Marque si le gusta (G) o le disgusta (D) cada actividad:

A. Sumar números GD

B. Buscar palabras en un diccionario G D

C. Resolver ecuaciones GD

D. Leer libros GD

En el formato B, al lector tal vez le gusten o disgusten todos los reactivos, en cambio en el formato A genera
puntuaciones ipsativas

2018
Las puntuaciones ipsativas se utilizan con ciertas pruebas de personalidad e inventarios de intereses . Este tipo de
puntuaciones se contrastan con las puntuaciones normativas, se dice que las primeras aluden al individuo. En tanto
las segundas refieren al grupo normativo. Sin embargo, este punto también es engañoso ya que las puntuaciones
ipsativas también pueden referirse a normas, pero es una manera de diferenciarlas.

Las puntuaciones naturales y las puntuaciones theta carecen de significado en sí mismas, por lo que la forma
más común de darles cierto significado es convertirlas o transformarlas en puntuaciones normativas. La puntuación
normalizada también llamada puntuación derivada ubica la puntuación del individuo en el contexto de las
puntuaciones que obtienen otros examinados; estos últimos constituyen el grupo normativo (el famoso BAREMO)

TIPO DE NORMAS:
Podemos distinguir 3 principales categorías de normas:

a) Rangos percentilares y percentiles

b) Puntuaciones estándar

c) Normas en desarrollo

RANGO PERCENTILARES Y PERCENTILES:


Uno de los tipos más comunes de normas para las pruebas psicológicas es el denominado RANGO PERCENTILAR (RP)
o PERCENTIL (P). El primero (RP) indica el porcentaje de casos en el grupo normativo que se ubican por debajo de una
determinada puntuación natural . Si en una puntuación natural de 48, le corresponde un RP de 60, esto significa que
el 60% de los casos en el grupo normativo se califican en o por debajo de una puntuación natural de 48; esta
puntuación se considera como un intervalo de 47,5 a 48,5 (48 es el punto medio del intervalo y un rango de +-0,50)

El PERCENTIL (P) digamos que es lo mismo que RP, suelen emplearse en forma indistinta sin problema, pero una
diferencia entre ambos podría ser el procedimiento, en el P se empieza con un determinado porcentaje y luego se
encuentra la puntuación natural pertinente, en cambio en el RP es al revés, se inicia con una puntuación natural
determinada y luego se le haya el porcentaje correspondiente de casos que se encuentran por debajo de esa
puntuación

Fortalezas y debilidades de los rangos percentilares:

Los RP (o percentiles) poseen un fuerte atractivo, principalmente porque el concepto es SENCILLO y por lo tanto fácil
de captar con rapidez incluso a personas que no están familiarizadas con la estadística.

Tienen dos principales inconvenientes:

1) Con frecuencia suelen confundir el RP con la puntuación de porcentaje correcto

2) La marcada desigualdad de las unidades en diversos puntos en la escala, es decir no se mantiene una diferencia
constante entre las puntuaciones naturales y los percentiles, dicha desigualdad tiene forma de Campana de Gauss,
por ejemplo que una diferencia natural de 3 puntos, abarcará muchos puntos de percentil a la mitad de la
2018
distribución, mientras que sólo unos cuantos puntos percentilares en cualquiera de sus extremos (cerca de los
puntajes más bajos o de los puntajes más altos)

Ejemplo: el pasar de una puntuación natural de 10 a 13, genera un movimiento del Percentil 2 al 3. En cambio, el
pasar de una puntuación natural de 20 a 23, le corresponde pasar del Percentil 27 al Percentil 40

PUNTUACIONES ESTÁNDAR:
Las puntuaciones estándar son otro tipo de norma que se utiliza con frecuencia con las pruebas educativas y
psicológicas.

Un sistema de puntuación estándar es una conversión de puntuaciones z en un nuevo sistema que tiene ya elegidas
de manera arbitraria una M y una DE. Las más comunes suelen denominarse "puntuaciones T" con M= 50 y DE=10.
También suelen usarse M=500 y DE=100. Y En casos de inteligencia lo más popular es M=100 Y DE=15

Transformaciones lineales y no lineales


La mayor parte de las puntuaciones estándar (z) son transformaciones lineales. No obstante, algunas puntuaciones
naturales se derivan de una transformación no lineal. Tales casos se emplean para generar una distribución de
puntuaciones normales, por lo cual se denominan puntuación estándar normalizada (zn). En ocasiones se la conoce
como transformación de área, porque para obtener la misma, se utiliza una fórmula basada en la relación entre las
puntuaciones z y los percentiles, en áreas bajo la curva normal

Puntuaciones T:
También conocidas como Puntuaciones T de McCall, poseen una M=50 y DE=10. El rango efectivo de T es de casi 20 a
80 (es decir, de +-3 Z). Las puntuaciones T (en mayúscula) deben distinguirse de los valores t de Student (en
minúscula).

Este tipo de puntuaciones se utilizan de manera generalizada con las pruebas de personalidad normal, aunque
también se utiliza para la personalidad patológica con el MMPI (Inventario de Personalidad Multifásico de
Minnesota) y para intereses vocacionales con el Strong Interest Inventory (SII)

LAS PRUEBAS SAT Y GRE:


El SAT (Scholastic Assessment Test o Prueba de Aptitudes Académicas) y el GRE (Graduate Record Examinations o
Exámenes de Registro de Graduados) utilizan el sistema de puntuación estándar con M=500 y DE=100

CI de desviación:
La definición tradicional del CI (coeficiente de inteligencia) es:

CI = (EM/EC) X 100, donde EM es edad mental, EC es la edad cronológica

Ejemplo: Marta tiene EM de 10 años y EC de 8 años, por lo tanto (10/8) x 100 = 125. Esto último se denomina razón
de CI ya que representa la razón de EM a EC
2018
Sin embargo esto no utiliza en la actualidad. Los CI modernos no son de razón, son puntuaciones estándar con M=100
y DE= 15 o 16. Estas puntuaciones estándar suelen conocerse como CI de desviación

Los CI de la prueba Stanford-Binet original generaban una DE=16 mientras que otras pruebas reconocidas de
inteligencias como las escalas Wechsler (WAIS, WISC, WPPSI), optaron por una DE=15

Estaninas:
Tienen una dinámica similar a las puntuaciones T, pero estas tienen M= 5 y DE=2, divide una distribución normal en 9
unidades y logra que las unidades abarcaran distancias iguales sobre la base de la curva normal, excepto las
puntuaciones extremas, es decir 1 y 9

Las estaninas siempre derivan en relación con las desviaciones de los percentiles. Se emplean de manera generalizada
para informar puntuaciones en pruebas de aprovechamiento y en algunas pruebas de capacidad mental, en las
escuelas de enseñanza elemental y secundaria; no se usan mucho en otros contextos.

Equivalentes de curva normal:


El equivalente de curva normal (ECN) es un sistema de puntuaciones estándar desarrollado para que los ECN sean
iguales a los rangos percentilares en los puntos 1, 50 y 99. Poseen una M=10 y DE=21 (aprox) y se emplean casi
exclusivamente para cumplir con ciertos requisitos federales de información sobre las pruebas de aprovechamiento
en las escuelas públicas.

Puntuaciones estándar de multinivel:


Una prueba multinivel es un instrumento que cuenta con pruebas distintas, al menos en parte, para diferentes
edades o en distintos grados. Los principales ejemplos son las baterías de aprovechamiento y las pruebas de
capacidad cognitiva aplicada a grupos que se utilizan en las escuelas de enseñanza elemental y secundaria.

Las puntuaciones estándar obtenidas a partir de diferentes niveles en las pruebas suelen relacionarse mediante un
sistema de puntuaciones estándar que abarca todos los niveles; en ocasiones se alude a ellas como puntuaciones
escaladas.

Las puntuaciones estándar de niveles múltiples pueden ser útiles para medir el crecimiento por grados o edades, el
sistema de calificación suele desarrollarse con el fin de aproximarse a una escala de intervalo, sin embargo, para la
interpretación común de las pruebas, las puntuaciones de niveles múltiples no son muy útiles

Fortalezas y debilidades de las puntuaciones estándar:


Con este tipo de puntuaciones (que operan en un nivel INTERVALAR) tiene la ventaja con respecto al problema del
percentil respecto a las desigualdades de las puntuaciones naturales y sus correspondientes percentiles, por eso este
tipo de puntuaciones se los denomina "lineales" y en el caso de los percentiles "no lineales". En estos casos, la
distribución al ser transformada no altera las distancias originales de las puntuaciones naturales.

2018
Empero a estas ventajas estadísticas, este tipo de puntuaciones tiene algunos inconvenientes.

1) Hay que reconocer que sólo una fracción sumamente pequeña de la raza humana tiene idea de lo que es una curva
normal o puntuación Z jajaj, entonces, es difícil transmitirle un resultado a personas que no están familiarizados con
estos conceptos estadísticos (la mayoría de la población), por ejemplo a adolescentes conviene darles el resultado en
percentiles que en idioma de puntaje z, salvo cuando se trabaja con entendidos en la materia.

2) Para que una puntuación estándar tenga sentido, se debe recordar la M y la DE del sistema, como mencionamos
en ejemplos anteriores en test de personalidad (M=50 y DE=10) y de inteligencia (M=100 y DE=15). Hay muchos
sistemas cada uno con su M y DE, así que si o si es necesario saberlo con seguridad en cada test determinado

Otro ejemplo de puntuación estándar normalizada (aparte de las T) son las estaninas, las cuales tienen la virtud de
ser sencillas para informar las puntuaciones individuales. Es fácil de explicar, por ejemplo a los padres, que el
desempeño de su hijo se informa en una escala del 1 al 9. En general, no se necesita una explicación adicional sobre
medias, desviaciones estándar, entre otros.

NORMAS DE DESARROLLO:
Cuando el rasgo que se mide se desarrolla en forma sistemática en el tiempo, es factible crear lo que se suele
denominar como norma de desarrollo. Son dos las normas de esta índole más utilizadas:

a) los equivalentes de edad (EE) b) los equivalentes de grado (EG)

Los EE se utilizan en algunas pruebas de capacidad mental

Los EG se utilizan en pruebas de aprovechamiento

Edad Mental (EM):


Fueron de las primeras normas utilizadas con las pruebas psicológicas; se originaron con las escalas Binet. Los grupos
de edad pueden formarse por intervalos de un año, medio año, un trimestre, etc. Luego se determina la mediana de
la prueba de cada grupo. Por ejemplo, se puede ver una curva progresiva desde los 6 a los 11 años

Equivalentes de Grado (EG):


Estos se desarrollan aplicando una prueba a estudiantes de diferentes grados. Luego se obtiene el desempeño típico
o mediano en cada grado. Las medianas se señalan con puntos y una curva une los puntos (al igual que en la EM).

Otras normas de desarrollo:


Hay pruebas que se basan en las teorías de las etapas del desarrollo humano, como las de Piaget por ejemplo sobre
el desarrollo cognitivo o las de Kohlberg sobre el desarrollo moral. Así por ejemplo un individuo podría ubicarse en la
"etapa preoperacional" del desarrollo cognitivo y en una prueba kohlberiana , tal vez sitúe a un individuo en la
"etapa convencional" del desarrollo moral

2018
Otro ejemplo de otros tipos de pruebas lo constituyen las mediciones antropomórficas, como la estatura o el peso, y
que suelen interpretarse en términos de normas de desarrollo. Se trata en esencia de equivalentes en edad, por
ejemplo, se informa que un menor "tiene una estatura típica de un niño de 6 años". Como sucede con las edades
mentales, tales afirmaciones se interpretan en relación con la edad cronológica del menor, como "Mike es muy alto
para su edad"

Fortalezas y debilidades de las normas de desarrollo


Vamos a abordar brevemente dos aspectos positivos y dos aspectos negativos.

Aspectos positivos:

1) El significado de las normas de desarrollo suele por naturaleza ser muy atractivo. Es decir transmiten un significado
considerable, libre de tener que entender la estadística de los rangos percentilares y las puntuaciones estándar

2) Ofrecen una base para medir el crecimiento en las pruebas de niveles múltiples.

Aspectos negativos:

1) Sólo son aplicables a variables que muestran pautas de desarrollo claras, por lo tanto no se puede aplicar a pruebas
de personalidad, actitudes e intereses vocacionales por ejemplo

2) Sus DE incontroladas, ya que no son iguales en niveles diferentes ni tampoco en distintas pruebas. En muchas
pruebas, las DE tienden a incrementarse de forma sistemática con el nivel de edad o de grado

INFORMES NARRATIVOS Y NORMAS


Recuérdese que la finalidad básica de las normas consiste en ofrecer un contexto de interpretación a una puntuación
natural. En general, la información normativa es cuantitativa: otra serie de cifras. Quizá el usuario no vea ningún
número, aunque la mayoría de los reportes incluyen números así como un informe narrativo

¿Cómo se origina este último? La esencia de estos informes siempre inicia con la puntuación de una prueba (natural o
theta) y las más de las veces como una normalizada. A partir de esto, dichos informes varían de forma considerable
en cuanto a su complejidad. En el nivel más simple, tal vez sólo traduzcan una puntuación normalizada en una
descripción verbal; por ejemplo, una computadora cuenta con un BAREMO y entonces podría ubicar las puntuaciones
de la persona y sus correspondientes percentiles en cada factor o dimensión. Con un poco más de sofisticación en
programación, el informe podría por ejemplo leerse así: "El desempeño de Pepito en la prueba A y C estuvo en el
rango promedio, en tanto que su desempeño en la prueba B estuvo ligeramente por encima del promedio". Los
informes narrativos suelen incorporar referencias al grupo normativo; por ejemplo. "En comparación con los demás
niños de su grado, Pepito se encuentra en el percentil 60 en aptitud mecánica, lo cual está ligeramente por encima
del promedio de los niños de su edad"

Por otra parte, algunos informes narrativos, también consideran sobre la confiabilidad y validez de la prueba

2018
Efecto Barnum:
Este efecto recibe el nombre de un reconocido promotor del circo, por su capacidad para hacer que la gente creyera
(y comprara) cualquier cosa. En lo que atañe a las pruebas psicológicas, este efecto tiene que ver con la tendencia de
la gente a creer en declaraciones grandilocuentes (es decir los resultados del test) que supuestamente se adaptan
específicamente para ellos, pero en realidad puede que sean vagas y lo suficientemente generales como para
caracterizar al individuo particular

GRUPOS NORMATIVOS:
El grupo normativo que se emplea para derivar las normas, independientemente del tipo de normas derivadas,
influye mucho en la interpretación de las puntuaciones de la prueba. En consecuencia, es importante considerar la
clase de grupos normativos que podrían encontrarse.

Los grupos normativos de las pruebas psicológicas muestran una enorme variedad, en tal sentido, resulta
difícil formular categorías distintivas dentro de una variedad así. En esta sección, el autor presentará un esquema de
categorización que representa puntos a lo largo de un continuo y no modelos diferenciados con claridad. En la
práctica, cada quien encontrará ejemplos en puntos intermedios a lo largo del continuo

NORMAS NACIONALES:
Son normas basadas en un grupo que sea representativo del segmento de la población del país. Puede estar
conformado por adultos, niños en grado, personas que quieren ingresar a la universidad, invidentes, etc.

NORMAS INTERNACIONALES:
En los últimos años se han creado normas internacionales, basadas en niños en edad escolar provenientes de varios
países (por lo general sólo de naciones económicamente avanzadas). La mayor parte de las interpretaciones se
fundan en comparación de puntuaciones totales y en el porcentaje de alumnos que respondieron correctamente a
los reactivos en lo individual, por lo tanto, poco se utilizan normas como los rangos de percentil o las puntuaciones
estándar

GRUPOS NORMATIVOS CONVENIENTES:


Algunas pruebas presentan varias normas diferentes basadas en distintos grupos, por ejemplo, una prueba de
autoconcepto tal vez presenta una norma basada en 250 pupilos de octavo grado en una ciudad del noreste, otra
norma basada en 150 personas de entre 15 y 18 años canalizadas para asesoría psicológica y otra norma basada en
200 adultos que participaron en una encuesta de actitudes del consumidor. Las normas basadas en estos grupos
convenientes deben interpretarse con sumo cuidado y el usuario de la prueba se abstendrá de suponer que tales
normas pueden usarse como sustituto de una norma nacional o de una norma de subgrupo definida de manera clara.

2018
NORMAS DE LOS USUARIOS:
Las normas de usuario, se basan en cualquier grupo que en realidad se somete a la prueba, por lo general dentro de
cierto período específico. Por ejemplo, las normas del rango percentilar en la SAT son normas de usuario y se basan
en todos los estudiantes que resolvieron la prueba en el año más reciente.

Con las normas de usuario no hay un intento a priori por asegurar que el grupo es representativo de alguna
población bien definida. Las normas de usuario son, en realidad, una modalidad de norma conveniente.

NORMAS DE SUBGRUPOS:
Los subgrupos se toman del grupo normativo en su totalidad, por ejemplo, tal vez se proporcionen normas separadas
por sexo, raza, grupo socioeconómico, grupo ocupacional o región geográfica. Estas normas tal vez sólo sean útiles si
hay diferencias sustanciales entre los subgrupos de la variable que mide la prueba

En muchas circunstancias el empleo tanto de una norma de grupo total como de una norma de subgrupo mejorará la
interpretación de la prueba. Por ejemplo, puede resultar útil saber que la puntuación de Mónica se encuentra en el
percentil 60 de la norma nacional estadounidense, pero en el percentil 30 para las personas de su grupo ocupacional

NORMAS LOCALES:
En una escuela las puntuaciones de sus alumnos se informan en términos de normas nacionales; además, la escuela
prepara una distribución de las puntuaciones de sus propios estudiantes e interpreta la puntuación de cada
estudiante comparándolas con las de sus otros alumnos. Esto se denomina norma local, que casi siempre se expresan
como percentiles

Considérese otro ejemplo. Una empresa utiliza una prueba de aptitud cuantitativa para seleccionar oficinistas, a cada
año evalúa a 200 solicitantes a los puestos. Aunque hay normas nacionales sobre la prueba, la empresa se vale de los
200 solicitantes que somete a prueba para desarrollar una norma local

Una venta de estas normas es que el interesado en verdad conoce las características del grupo normativo, ya
que en rigor son las personas que están en la situación local. De igual modo tiene algo "engañoso" y es que por
ejemplo, en una situación de evaluación escolar, el estudiante común en cada grado estará en la "norma", lo cual no
es muy ilustrativo, ya que es cierto por definición; en una norma local es posible determinar si el individuo común
está por debajo o por encima del promedio en términos de cierto marco de referencia externo. Es decir, muy
posiblemente hayan diferencias significativas en la posición de una persona en cuanto a su norma nacional y local

NORMAS INSTITUCIONALES:
Algunas pruebas, sobre todo las de aprovechamiento ofrecen normas basadas en tanto instituciones como en
individuos. Estas normas se sustentan en promedios de individuos dentro de las instituciones, por ejemplo, se aplica
una prueba a 5.000 estudiantes en 200 universidades y se determinan las puntuaciones promedio de cada una de las
200 universidades, se obtiene una distribución de frecuencia y se crea una norma, por lo general percentilar. Ésta
norma institucional también podría denominarse norma escolar, de grupo o alguna otra asignación semejante.

2018
Hay que distinguir con cuidado entre las normas individuales y las normas institucionales. Por ejemplo, la siguiente
afirmación "La puntuación del sudoeste se encuentra en el percentil 95 en las normas nacionales" y muchas personas
interpretarían esto en el sentido de que el estudiante sudoeste obtiene calificaciones mejores que el 9% de los
estudiantes del país. No obstante, ese percentil 95 se basa en normas institucionales, bien puede ser que el
estudiante común del sudoeste haya obtenido una percentil 70 respecto de los estudiantes de la nación.

INTERPRETACIÓN REFERIDA AL CRITERIO:


Para ilustrar este tema, imagínese que a un grupo de adultos se le aplica una prueba de 50 reactivos para evaluar su
capacidad aritmética básica. Un individuo realiza correctamente 25 preguntas (el 50%); es posible que ese
desempeño un maestro o padre lo juzgue como "insatisfactorio". Ésta es una muestra de interpretación referida al
criterio sobre el desempeño de la prueba. Acá no se compara con un grupo normativo sino con determinado "punto
de corte" en este caso que es un "logro u objetivo a alcanzar" (supóngase que el punto de corte para aprobar era
60%). Por lo tanto, este tipo de interpretación entra en contraste con aquella referida a norma

La interpretación referida al criterio es aplicable es aplicable sólo en ciertos ámbitos de contenido debidamente
definidos como aritmética, ortografía o todas las habilidades necesarias para cierta ocupación. A menudo se hace una
interpretación con respecto al criterio de las puntuaciones en los exámenes para obtener una licencia profesional y a
los exámenes de competencias mínimas ´para graduarse del bachillerato (el famoso "punto de corte"). Cuanto
menos definido esté el ámbito, más difícil se toma la interpretación referida al criterio.

EL GRUPO DE ESTANDARIZACIÓN: COMO DETERMINAR SU UTILIDAD


Se prueba a los individuos del grupo normativo en lo que se denomina un programa de normalización o programa de
estandarización, que de manera común constituye una de las últimas etapas en la elaboración de pruebas. En casi
todos los casos la norma debe poseer las siguientes características:

1) Estabilidad

2) Representativa de la población meta

La estabilidad la determina en gran medida el tamaño del grupo normativo, es decir, la cantidad de casos en el
programa de estandarización. Para la misma no se necesita una gran cantidad de casos y pocas veces es un problema,
en cualquier caso, se determina con facilidad; no obstante, la estabilidad no garantiza la representatividad

Para determinar la representatividad, hay que partir de dos grandes posibilidades:

1) Que el autor del instrumento quizá asegure que las normas son representativas de una determinada población

2) Que el autor tal vez no plantee las que normas son representativas de ninguna población en particular, sino que
sólo represente la muestra normativa como norma de grupo conveniente o de usuario

También puede recurrirse al desempeño en otras pruebas que en sí cuentan con normas debidamente
documentadas. Debe demostrarse que el grupo normativo corresponde bien, en términos razonables, a la población
meta en tales características.

2018
Cuando se plantea que un grupo normativo es representativo de una determinada población, es responsabilidad del
autor de la prueba ofrecer la información suficiente que justifique el planteamiento.

Hay dos problemas importantes

1. El primero es el efecto de la no participación, mismo que se deriva del hecho de que la participación en un
programa de normalización casi siempre es voluntaria, ya sea para el individuo o para la organización a la cual
pertenece. ¿Qué clase de individuos u organizaciones renuncian a participar? ¿Cuáles son sus características? ¿Qué
efecto podría ejercer su no participación en las normas?

2. En segundo lugar, los programas de normalización son programas de investigación y no usos comunes de las
pruebas; los participantes suelen saberlo. En tales circunstancias, resulta difícil asegurar que los niveles de motivación
de los participantes sean iguales a los que serían en el caso del uso común de la prueba. Como sucede con la no
participación, a menudo se desconoce el efecto que los niveles de motivación ejercen en las normas

Suele llegarse a la conclusión que determinadas normas quizá sean representativas de las escuelas de baja
condición socioeconómica muy urbanizadas, pero que desde luego no constituyen un grupo representativo a nivel
nacional.

Siempre el usuario debe tener mucho cuidado con las normas si se pretende hacer una derivación de la prueba
original. No puede darse por hecho que las normas de un instrumento original sean aplicables a trabajos derivados, el
cambio de contexto llega a ejercer efectos imprescindibles en las respuestas de los examinados a los reactivos. En
estas situaciones, la aplicabilidad de las normas originales debe demostrarse empíricamente.

"Cuando se crean formas derivadas de las pruebas, tomando para ello un subconjunto de los reactivos de una de las
formas de la prueba existen o reordenando sus ítems, y hay una razón de peso para considerar que los efectos del
contexto de los reactivos pueden influir en las puntuaciones de estas formas, deben ofrecerse evidencias de que no se
generará distorsión indebida de las normas en las versiones diferentes o en las vinculaciones de las relaciones que
guardan las puntuaciones entre sí." (APA, 1999)

2018
UNIDAD 7

Doce pasos para el desarrollo eficaz de las pruebas

Este capítulo analiza doce procedimientos o pasos discretos para la construcción de pruebas. Se comienza con una
planificación detallada en el Paso 1, para llevar a cabo debates sobre la definición y el delineamiento de contenidos,
hasta la creación de los estímulos de la prueba (ítems o instrucciones), y la administración, la puntuación, el informe y
la documentación de todas las actividades importantes de la construcción de la prueba.

La construcción eficaz de una prueba requiere un enfoque sistemático y bien organizado para garantizar
suficiente evidencia de validez que sustente las inferencias propuestas a partir de las puntuaciones de una prueba

Este capítulo analiza un modelo de desarrollo de pruebas sistemático, organizado en doce tareas o actividades
discretas. Este capítulo puede ser considerado como una introducción para el contenido del Manual de construcción
de pruebas. Cada uno de los pasos que veremos pueden ser pensados como un importante organizador de evidencia
de validez para ser documentado en un informe técnico que resume todas las actividades importantes y los
resultados de la prueba

Paso 1: Plan General

La primera decisión importante es: ¿Qué constructo se debe medir? ¿Qué interpretaciones de las puntuaciones son
deseadas? ¿Qué formato de prueba es el más apropiado? ¿Qué modalidad de administración se usar?

Este incluye un propósito claro, conciso y bien delineado de la prueba prevista. El objetivo de la prueba constituye
una definición operativa de la prueba propuesta y guía casi todas las demás decisiones relativas a la validez
relacionadas con las actividades del desarrollo de la prueba

Este paso es el más importante de las doce tareas en el desarrollo de pruebas. "Un proyecto que comienza bien a
menudo es un proyecto que termina bien"

Las Normas APA analizan la importancia de definir claramente el propósito de la prueba y realizar un cuidadoso
desarrollo de la prueba

Paso 2: Definición del Contenido

Una de las preguntas más importantes es: ¿Qué contenido se debe evaluar Este es el tema más crítico de todos, ya
que permite delimitar el dominio del contenido a ser muestreado por el examen. Si el dominio del contenido está mal
definido o no está cuidadosamente delineado, ninguna cantidad de atención con otras actividades del desarrollo de la
prueba podrá compensar esta insuficiencia. Hay que definir el dominio de contenido operacionalmente, delinear
claramente el constructo a medir, y aplicar con éxito los procedimientos para, de manera sistemática y adecuada,
muestrear el dominio de contenido

2018
Paso 3: Especificaciones de la prueba: el plano de la prueba

Las especificaciones de la prueba se refieren a una definición operativa completa de las característica de la prueba, en
todos los detalles posibles. Estas especificaciones forman un plan de muestreo exacto para el dominio de contenido
definido en el Paso 2.

Paso 4: Desarrollo del ítem

Este paso se centra en una discusión de los métodos utilizados para desarrollar sistemáticamente los ítems de
respuesta seleccionada, utilizando el formulario de ítem de opción múltiple como principal modelo. La creación y
producción de preguntas de prueba eficaces, diseñadas para medir el contenido de importancia en un adecuado nivel
cognitivo, es uno de los mayores desafíos para los desarrolladores de pruebas.

El ítem de opción múltiple es el caballo de batalla del emprendimiento de pruebas, por muy buenas razones, es una
forma de ítem de prueba extremadamente versátil; puede utilizarse para probar todos los niveles de la taxonomía
cognitiva, incluso los procesos cognitivos de muy alto nivel. Es un formato muy eficiente para los examinados, pero es
a menudo un desafío para el redactor del ítem.

La opción del formato del ítem es una fuente importante de evidencia de validez para la prueba. Se requiere un
fundamento claro para la selección del formato del ítem. En la práctica, su justificación puede principalmente
descansar en razones pragmáticas y cuestiones de viabilidad. Por ejemplo, en un programa de examen a escala
grande, con papel y lápiz, tal vez no sea rentable o eficiente para utilizar un gran número de preguntas de respuesta
construida. Y, dada la base de investigación que apoya el uso de ítems de opción múltiple, el desarrollador de la
prueba no debe sentirse inseguro acerca de la elección de un formato de respuesta seleccionada de baja fidelidad,
como el formato de opción múltiple, para una prueba de rendimiento.

Siempre es conveniente revisar los ítems a través del juicio de expertos (validez de contenido)

Paso 5: Diseño y montaje de la prueba

El montaje de una colección de ítems de prueba es un paso crítico en el desarrollo de pruebas. El control de calidad es
la palabra clave más asociada con el montaje (o ensamblado) de una prueba. Este paso operacionaliza el plan de
muestreo riguroso desarrollado en los Pasos 2 y 3

Si varios formularios de pruebas "paralelas" se deben montar simultáneamente, los desarrolladores de pruebas
humanos pueden montar las pruebas usando programas de computadora avanzados. Si la prueba es para ser
administrada con computadora, es probable que se necesiten más programas informáticos especializados para
ensamblar varios formularios de pruebas para asegurar el correcto formato del formulario de prueba de longitud fija
para el software de administración en computadora. La idea es crear formularios de pruebas equivalentes. El
principio es sencillo: Debe existir aproximadamente la misma frecuencia de respuestas correctas por ejemplo en el
tema "A" y lo mismo para el tema "B".

2018
Paso 6: Diseño y montaje de la prueba

La producción, impresión o publicación de los exámenes es otro paso rutinario del desarrollo de la prueba que a
menudo se pasa por alto con respecto a sus aspectos de validez.

Todas las precauciones de seguridad razonables deben ser tomadas en cuenta durante la producción de la prueba,
durante la transmisión electrónica de los ítems de pruebas seguros, el envío seguro de la copia de prueba impresa y
folletos impresos y la destrucción segura de los excedentes de materiales impresos. A su vez, todos los materiales de
prueba seguros deben estar en archivos de acceso limitado en todo momento

Para las pruebas impresas, frecuentemente las impresoras pueden proporcionar algún tipo de copia fuera de prensa
para su revisión final, este paso de reimpresión final es importante, los errores tipográficos u otros errores que
pueden invalidar a un ítem.

Otros temas de control de calidad son igualmente importantes, por ejemplo que donde se esté imprimiendo el
material, se asuma la responsabilidad de muchos procedimientos de garantía de calidad.

La calidad y la legibilidad de la impresión son importantes también para evidencias de validez .

En resumen, hay que tener un control completo sobre la seguridad de la prueba.

Paso 7: Administración de la prueba

Siempre es ideal conseguir condiciones uniformes e idénticas para todos los individuos examinados. Sin un adecuado
control de todas las variables relevantes que afectan el rendimiento de las pruebas, sería difícil interpretar las
puntuaciones del examinado uniformemente y de manera significativa. Esta es la esencia del problema de validez
para consideraciones de administración de la prueba.

En el paso anterior hablábamos de la "seguridad" y esto es importante para la administración de la prueba. Para los
exámenes con lápiz y papel, los cuáles son administrados en varios sitios, la impresión de formularios de la prueba y
todos los materiales deben ser enviados de forma segura a los sitios de prueba; recibidos de manera segura y
mantenidos por supervisores; distribuidos a examinados en un entorno seguro, controlado y auditable

Paso 8: Puntuación de las respuestas del examen

La puntuación de la prueba es el proceso de aplicar una clave de calificación a las respuestas de los examinados a los
estímulos de la prueba. Una clave de puntuación debe ser aplicada con precisión perfecta para las respuestas de los
ítems. Los errores de puntuación siempre reducen la evidencia de validez. son esenciales altos controles de calidad en
el proceso de puntuación para la validez

La puntuación puede ser muy simple o muy compleja. Las respuestas a ítems de elección múltiple con una
única respuesta correcta son fácilmente puntuadas por programas informáticos, mientras que las respuestas a
problemas complejos simulados por computadora pueden ser más difíciles de puntuar de forma fiable.

Los ítems de respuesta seleccionada son generalmente más eficientes y objetivamente puntuados que los ítems de
repuesta construida y los ítems de rendimiento

2018
También el énfasis más importante en el paso de puntuación de la prueba es la completa exactitud. Se requieren
procedimientos de control de calidad extremos para garantizar la total exactitud de las puntuaciones finales,
especialmente en el caso de puntuaciones de exámenes con muy altas expectativas. Cualquier error de puntuación
en las puntuaciones de prueba finales, reducirá considerablemente la validez y la credibilidad de las pruebas

Paso 9: Establecimiento de puntajes de aprobación

La mayoría de las pruebas requieren algún tipo de puntuación de corte (puntuación de aprobación) o estándar de
desempeño. Todas las puntuaciones de aprobación de examen responden a la pregunta: ¿Qué conocimientos
(habilidades o capacidades) son necesarias para ser clasificados como aprobatorios del examen?

Paso 10: Informe de resultados del examen

El informe de puntuación es un paso importante, a menudo complejo, en el desarrollo de pruebas. Los problemas de
los mismos tienen con ver con la equidad, oportunidad, adecuación de la puntuación, evitación del malentendido y
mal uso de la puntuación

Paso 11: Banco de ítems

El almacenamiento seguro de los ítems de prueba efectivos es un paso importante para todos los programas de
pruebas en curso. Este proceso de almacenar de manera seguro, se lo denomina banco de ítems

Paso 12: Informe técnico de la prueba

El informe técnico es la actividad de desarrollo de la prueba culminante y sirve al grande, pero a menudo ignorado,
propósito de proporcionar una documentación completa de toda la evidencia de validez para una prueba, identifica
posibles amenazas a su validez

Un modelo potencialmente útil para un informe técnico es utilizar los doce pasos del desarrollo de prueba. Los
métodos utilizados para establecer la puntuación de corte, junto con las tasas de aprobación asociadas con la
implementación de las puntuaciones de corte, también son importantes de documentar minuciosamente

Los informes técnicos deben ser desarrollados de tal manera que toda evidencia de validez importante sea
documentada sistemáticamente de manera que sea fácilmente accesible para todos los que tengan una necesidad
legítima de obtener acceso a esta información

RESUMEN Y CONCLUSIÓN
Estos doce pasos proporcionan un proceso estructurado y sistemático para la creación de un sistema eficaz de
programas de ensayos de todos los tipos

La atención al control de calidad y la seguridad de la prueba es un tema omnipresente de suma relevancia. El


desarrollo de la prueba consta de una serie de actividades interrelacionadas, muchas de las cuales dependen de algún
paso previo o pasos de desarrollo de pruebas.

Una cuidadosa planificación y ejecución compulsiva conduce a pruebas que miden la capacidad de un examinado más
válidamente o el logro en el dominio de contenidos de interés bien definido

La videncia de validez de una prueba aumenta o disminuye en medida de la atención al detalle que se le dio

Seguir estos doce pasos sistemáticamente garantiza la máxima evidencia de validez de la prueba que desarrollamos.

2018
Capítulo 6: Elaboración de pruebas y análisis de reactivos

Introducción
En este capítulo se resumen los pasos que por lo general se dan en la elaboración de una prueba. El título del capítulo
alude en especial al "análisis de reactivos" debido a que estos procedimientos analíticos desempeñan una función
crucial en la elaboración de pruebas. Hay seis etapas principales en la elaboración de pruebas, sin embargo, hay
cierto traslape entre ellas, en especial en las etapas 1, 2, 3 y 4, por lo tanto no siempre están del todo diferenciadas;
no obstante, esta lista de etapas da el progreso lógico y el orden cronológico característico del trabajo

Estos 6 pasos son:

1. Definir la finalidad de la prueba

2. Aspectos de diseño preliminares

3. Preparación de reactivos

4. Análisis de reactivos

5. Programas de estandarización e investigación secundario

6. Preparación de los materiales finales y publicación

DEFINICIÓN DE LA FINALIDAD DE LA PRUEBA:


La elaboración de una prueba comienza con un claro planteamiento de la finalidad del instrumento, que consiste en
delinear el o los rasgos que se medirán y la audiencia meta de la prueba (población meta)

Una vez que uno ha definido con claridad la finalidad de la prueba, NO debe proceder de inmediato a elaborar el
instrumento. La etapa siguiente debe ser determinar si ya existe una prueba apropiada.

Elaborar una buena prueba nueva, es una labor prolongada, difícil y costosa.

ASPECTOS DE DISEÑO PRELIMINARES:


En las primeras etapas, el autor debe tomar varias decisiones sobre el diseño del instrumento, las cuales se basan en
la finalidad de la prueba y en las interpretaciones que se busca dar a las puntuaciones, entre otros. En consecuencia,
deben abordarse los siguientes aspectos de diseño:

 Modo de aplicación: ¿Grupal o Individual? La colectiva es más eficaz, pero la individual permitirá mayor
adaptabilidad en los formatos de los reactivos y la observación clínica del examinado
 Duración: ¿Cuánto durará la prueba? ¿Será breve, con 15 minutos de aplicación, o prolongada, de hasta 45
minutos o incluso varias horas? Desde luego, una prueba breve es más eficaz, pero es posible que se traduzca
en una confiabilidad muy limitada y una sola puntuación

2018
 Formato de los reactivos ¿Opción múltiple? ¿Verdadero o falso? ¿Acuerdo o desacuerdo? ¿construcción de
respuesta? Este último permite una respuesta más rica y una mayor flexibilidad, pero con certeza casi
siempre será más difícil de calificar y, por tanto, su uso resultará más costoso
 Cantidad de puntuaciones: ¿Cuántas puntuaciones generará la prueba?
 Informes de las puntuaciones: ¿Qué clase de reporte de las puntuaciones se producirán? Habrá un registro
simple, escrito a mano, o serán informes generados por computadora?, que posiblemente incluyan reportes
narrativos? ¿Con exactitud, qué se informará?: sólo una puntuación total de la prueba o también el
desempeño en conjuntos de reactivos?
 Capacitación del aplicador: ¿Cuánta capacitación se necesitará para la aplicación y calificación de la prueba?
¿Quiénes implementen la prueba requieren un adiestramiento profesional exhaustivo para aplicar, calificar e
interpretar el instrumento?
 Investigación de antecedentes: En la etapa de diseño preliminar, es necesario realizar una investigación de
antecedentes sobre el ámbito que se probará. Esta investigación debe incluir una búsqueda bibliográfica
estándar

Las consideraciones de diseño determinarán qué clase y qué cantidad de reactivos se redactarán

Origen de las pruebas nuevas:


Hay que plantearse el siguiente interrogante: ¿Qué motiva la elaboración de pruebas nuevas?

Podemos diferenciar tres fuentes principales:

1) Necesidad práctica: muchos pruebas de uso generalizado se originan en respuesta a "cierta necesidad práctica",
por ejemplo, la prueba de inteligencia Binet, precursora de la Stanford-Binet Intelligence Scale se originó para
identificar a los niños de las escuelas de París que podían necesitar lo que ahora se denomina "educación especial"

Las escalas Wechsler se crearon con la intención de ofrecer una prueba de inteligencia más adecuada que la
Stanford-Binet, otras pruebas se hicieron durante la Primera Guerra Mundial en función de la enorme cantidad de
reclutas y también fue de motivación para el desarrollo de la Woodworth Personal Data Sheet, prototipo de muchas
pruebas de personalidad posteriores. El MMPI (Inventario de Personalidad Multifásico de Minnesota) se inventó
para ayudar en la clasificación de los pacientes mentales, en la práctica clínica de los hospitales de la Universidad de
Minnesota. la SAT (Scholastic Assessment Test) se fabricó en respuesta al interés de una reducida cantidad de
universidades selectas para pasar por alto a algunos estudiantes brillantes de bachilleratos mediocres en el ingreso a
estas universidades, entre otros ejemplos.

2) Fundamento teórico: Como por ejemplo, las Matices Progresivas (RAVEN) se crearon como un instrumento
directo para medir el factor "g" (inteligencia general) de la teoría de Spearman sobre la inteligencia

3) Revisar o adaptar las pruebas existentes: Por ejemplo, en casi todas las pruebas de aprovechamiento, la reciente
edición es una prueba por completo nueva, que atraviesa por todos los procesos de elaboración de pruebas. Pruebas
como la SAT están bajo una revisión más o menos continua (cada 5 a 10 años). La WISC es una adaptación del WAIS,
así como el WPPSI fue una extensión descendiente del WISC

2018
Preparación de los reactivos:
La preparación de los reactivos incluye tanto la redacción de éstos como su revisión. Como ya abordamos en el
capítulo anterior, esta redacción no debe realizarse hasta que se haya definido la finalidad de la prueba y explorado
de manera minuciosa las consideraciones de diseño preliminares

El reactivo de una prueba posee cuatro partes:

 Estímulo
 Formato de respuesta
 Condiciones que rigen cómo se da la respuesta al estímulo
 Procedimientos para calificar la respuesta

Estímulo: denominado a menudo la base del reactivo, también puede ser una imagen, acompañada por una
pregunta oral, como en la prueba Rorschach, se le pregunta al examinado que comuniqué que es todo lo que ve

Formato de respuesta: opción múltiple, construcción de respuesta, etc.

Condiciones que rigen la respuesta: ¿Cuál es el límite de tiempo para responder? , etc.

Procedimiento para calificar: Cuales son las respuestas correctas, preguntas particulares, etc.

Tipos de reactivos de las pruebas:


En un nivel muy general podemos dividir en dos secciones:

a) de selección de respuesta b) de construcción de respuesta

Reactivos de SELECCIÓN DE RESPUESTA:


También se los denomina reactivos de respuesta múltiple, opción múltiple o elección forzada

Este esquema es el más popular . En la mayor parte de las pruebas de capacidad y aprovechamiento aplicadas a
grupos, se utiliza una estructura de opción múltiple con 4 o 5 opciones por cada reactivo. Un caso especial es el del
reactivo dicotómico Verdadero-Falso

También son utilizados en pruebas de personalidad, intereses y actitudes

Otro caso especial que se utiliza en pruebas de actitudes es el formato Likert, por lo común se utilizan reactivos en
una escala de 5 puntos que va desde "Completamente de acuerdo" a "Completamente en desacuerdo". También hay
variaciones likert entre 3 y 9 puntos o cualquier cantidad finita de puntos

2018
¿Cómo calificar este tipo de reactivos de selección de respuesta?
En las pruebas de capacidad y aprovechamiento la mayor parte de los reactivos de selección de respuesta se califican
como correctos o incorrectos, se concede un punto o cero a una respuesta correcta o incorrecta, respectivamente y
luego se califica la prueba contabilizando la cantidad total de aciertos. Sin embargo existen otros variantes de
calificación

Poseen 3 principales ventajas:

1) Confiabilidad de la calificación: Dado que la calificación exige poco o ningún juicio, se elimina una de las principales
fuentes de varianza inestable. La confiabilidad entre calificadores o jueces es en esencia perfecta en el caso de los
reactivos de selección de respuesta

2) Eficacia temporal: En una determinada cantidad de tiempo, el examinado puede responder por lo general a más
reactivos que los que hubiera respondido en las pruebas de construcción de respuesta

3) Eficacia de la calificación: Un empleado o una computadora, pueden calificar los reactivos de una manera veloz .
Esta ventaja fue el principal estímulo para el desarrollo de las primeras pruebas de capacidad mental y personalidad
aplicadas a grupos durante la Primera Guerra Mundial

Reactivos de CONSTRUCCIÓN DE RESPUESTA:


En este tipo de reactivos, se presenta un estímulo, pero no se restringe al examinado a elegir entre un conjunto fijo
de respuestas; él o ella, deben crear o construir la respuesta. Respuesta libre es otro nombre común con que se
designa este formato, muchas veces utilizado en pruebas para medir la inteligencia

Una versión muy sencilla de este tipo de ítems es el formato de "llenar el espacio en blanco", donde se omite una
palabra o frase clave de un enunciado para que el examinado coloque las palabras faltantes, por ejemplo: "las
estaninas son un tipo de puntuación ______"

Uno de los ejemplos más familiares es la prueba de ensayo, donde el reactivo de la prueba presenta una situación o
tema y el o la examinada escriben una respuesta que puede ir de unos cuantos enunciados a varias páginas de texto.

El formato de construcción de respuesta se utiliza mucho en las pruebas de personalidad, los ejemplos clásicos de
este tipo de formato son las técnicas proyectivas!, como serían el Rorschach y el TAT

También es posible clasificar ciertas pruebas conductuales. La técnica de grupo sin líder y la de cesta

¿Cómo calificar este tipo de reactivos de construcción de respuesta?


Hay dos factores claves:

1) Asegurar la confiabilidad entre calificadores

2) Concebir un esquema de calificación

Dado a que la calificación de este tipo de reactivos de manera habitual exige el juicio del examinador, el grado de
acuerdo entre los calificadores. Cabe resaltar que la confiabilidad entre calificadores es un problema especial de los
reactivos de construcción de respuesta

2018
Hay varios métodos para calificar los ensayos:

*La calificación holística: el examinador, se forma de un juicio holístico general sobre la calidad del ensayo; la
puntuación asignada al ensayo refleja ese juicio general

*La calificación analítica: el mismo ensayo se valora en varias dimensiones diferentes y exige que especifique con
antelación las dimensiones importantes de la calidad del ensayo. Estas calificaciones se dan por separado a
diferentes. El ensayo de composición en inglés, por ejemplo, podría calificarse por separado en función de a) la
corrección gramatical, b) la organización y c)el uso de vocabulario. Así mismo, en función del uso de hechos
históricos, ) la identificación de los temas principales y b) la calidad de la redacción. Desde la óptima de la medición,
la calificación analítica supone que hay cierta independencia significativa entre los rasgos especificados en este
esquema de calificación. Antes de adoptar este tipo de sistema, es necesario establecer cierto grado de
independencia entre las escalas

*La calificación de rasgo primario: Se considera que cada ejercicio tiene una determinada finalidad, el grado en que
cada ejercicio logra esa finalidad, es una puntuación de, su rasgo primario

Por ejemplo: si la tarea consiste en mandar una carta al solicitando determinado videojuego, quizá una persona tenga
faltas de ortografía y fallas en la redacción, pero si el receptor, entiende que determinado videojuego es el que busca,
entonces este tiene éxito, pero si otra persona no especifica cuál es el determinado videojuego, ni la dirección a la
que debe enviarse , entonces resulta fallida

*La calificación sistema de puntos: que refiere a que hay ciertos "puntos" o "temas" que si o si deben incluirse en
una respuesta "perfecta". El calificador determina tan la presencia o ausencia de cada punto. El caso más sencillo es
en una prueba de memoria donde por ejemplo la consigna es "Enuncia los 10 mandamientos" y si concede un punto
por cada mandamiento que acierta.

En la actualidad los investigadores estudian la aplicación de sistemas de cómputo especializados nominados sistemas
de calificación automatizada. Supone el desarrollo de programas de cómputo complejos que simulan el proceso de
aplicación del juicio humano a los reactivos de respuesta libre. En el futuro próximo, tal vez surjan desarrollos
importantes en los sistemas de calificación automatizada

Poseen 3 principales ventajas:

1) Observación más sencilla del comportamiento y los procesos: esto se relaciona con la modalidad de aplicación, se
aplica individual en lugar de grupal. Se puede observar su motivación, ansiedad, forma de abordar los problemas y
otros (no podríamos ver el proceso ni tampoco tan bien el comportamiento en las pruebas de selección de respuesta)

2) Explorar áreas inusuales: Permite explorar áreas inusuales, sobre todo en pruebas sobre la personalidad!
Estas áreas probablemente nunca aflorarían en una prueba de selección de respuesta

3) Hábito de estudio de los estudiantes: se piensa q el uso de los reactivos opción múltiple promueve la
memorización y una aproximación atomista al aprendizaje de las materias, en tanto los reactivos de construcción de
respuesta fomentan una aproximación más holística y significativa al estudio

2018
Desventajas:

1) La confiabilidad inter-examinadores es un problema sustancial

2) Ineficacia temporal: Es decir, este tipo de pruebas demoran en su corrección

3) Ineficacia de la calificación: puede influir mucho el juicio subjetivo a la hora de calificar y contaminar el resultado

Análisis de reactivos:
Recuerde que en primer lugar se revisan los ítems en función de su claridad, corrección gramatical y conformidad de
acuerdo a las reglas para la redacción de reactivos expuesta recientemente. En segundo lugar, en el caso de las
pruebas de aprovechamiento, se hace una revisión de la corrección del contenido (estas revisiones las realizan
expertos en el campo temático de que se trate). En tercer lugar, se revisan los reactivos en busca de posibles sesgos
de género, raciales o étnicos, revisiones que por lo general son realizadas por individuos que representan a los grupo
de referencia

Tenemos que tener en cuenta los siguientes conceptos sobre los reactivos: a) dificultad y b) discriminación

Dificultad del reactivo: hace referencia al porcentaje de examinados que responden de manera correcta

Los niveles de dificultad del reactivo se denominan normalmente valores p, que significa porcentaje o
proporción, de modo que un reactivo con un valor p de .85 es un ítem sencillo ya que lo responde bien el
85% de los examinados, en tanto que otro ítem con valor p .25 resulta difícil pues sólo el 25% de los
examinados lo contestó bien2

Discriminación del reactivo: alude a la capacidad de un reactivo para diferenciar en una forma deseada
entre los grupos de examinados

También existe el análisis de "distractores", un distractor es una opción incorrecta o no preferida en un reactivo

ESTADÍSTICOS DE LOS REACTIVOS EN LA TRI:


Un rasgo fundamental en la TRI es la CCI (curva característica al ítem), la cual relaciona el desempeño en un reactivo
con la condición en el rasgo o capacidad que subyace a la escala.

La CCI cuenta con 3 parámetros: a) dificultad, b)discriminación y c) adivinación

El modelo de 1 parámetro o de Rasch, tiene en cuenta la a) dificultad

El modelo de 2 parámetros tiene en cuenta: a) dificultad y b) discriminación

El modelo de 3 parámetros tiene en cuenta: a) dificultad y b) discriminación y c) adivinación

2018
Estos parámetros de la CCI pueden traducirse en lo que se conoce como "Función de Información del reactivo"

Las críticas formales a los modelos TRI se centran en tres consideraciones:

1) Desde un punto de vista muy práctico, obtener estimaciones estables de los parámetros TRI exige muestras
bastante grandes

2) En el rasgo TRI se supone que el rasgo medido es unidimensional, pero muchas pruebas no lo son

3) Si bien el modelo de Rasch es el paradigma de la TRI más utilizado, su premisa en cuanto a que todos los reactivos
tienen el mismo poder de discriminación, resulta parcialmente falsa en casi todo proyecto de elaboración de pruebas.

--Cuando se analiza el análisis factorial, también se puede utilizar como complemento un análisis de ítems!--

FUNCIONAMIENTO DIFERENCIAL DEL REACTIVO: (FDR)


el FDR aborda la interrogante de si los reactivos de una prueba funcionan en forma diferente en distintos grupos de
examinados por razones aparte de las diferencias reales en el rasgo que se mide. De particular interés son las
diferencias de los grupos raciales, étnicos y de género. Los procedimientos de revisión fueron sólo de juicio; en
cambio los procedimientos FDR buscan detectar el sesgo mediante el análisis estadístico

El aspecto más importante que debe entender en este análisis es que una simple diferencia en las dificultades de un
reactivo no por fuerza es un indicio de sesgo en él. Simplemente pueden significar diferencias REALES en dos grupos

SELECCIÓN DE REACTIVOS:
La fase final del proceso de análisis de reactivos es la selección de estos. De todos los reactivos preparados y
evaluados, se selecciona los que aparecerán en la prueba que se estandarizará

PROGRAMAS DE ESTANDARIZACIÓN Y DE INVESTIGACIÓN


AUXILIARES:
El programa de estandarización genera las normas de la prueba, en ocasiones se le conoce como programa de
estandarización y otras como programa de normalización. En todo caso, se trata de un importante aspecto de la
diligencia que se emprende al elaborar una prueba y que inicia después de haber seleccionado los reactivos en la fase
final de la etapa de análisis de estos.

2018
PREPARACIÓN DE LOS MATERIALES FINALES Y PUBLICACIÓN:
La etapa final del proceso de elaboración de pruebas es su publicación. ¿Con exactitud, qué se publica?

Una prueba publicada cuenta con un manual técnico que es la fuente de información fundamental sobre la finalidad,
los fundamentos y la estructura de la prueba, mismo que debe contener información acerca de la confiabilidad,
validez y procedimiento de normalización del instrumento. El manual debe concluir también las directrices de
interpretación de las puntuaciones de la prueba.

En la actualidad, muchas pruebas poseen elaborados informes de puntuaciones

Por último, también tenemos los materiales suplementarios; por ejemplo, algunas pruebas ostentan instrumentos de
"localización" que ayudan a quienes aplican el instrumento a determinar el nivel de una prueba de varios niveles que
sea más apropiado para un examinado específico. Algunas pruebas ofrecen cuadernillos especiales sobre la
interpretación de las puntuaciones para estudiantes y padres.

LAS 10 PRINCIPALES COSAS QUE HOGAN HA APRENDIDO:


1) La concepción original es más importante que la labor técnica o estadística
2) Se requiere dedicar mucho tiempo a estudiar el área, antes de empezar a redactar reactivos
3) En la etapa de diseño original, es necesario pensar en los informes de las puntuaciones finales
4) Al preparar los reactivos, busque la sencillez. Los reactivos "ingeniosos" con frecuencia no funcionan
5) Asegúrese de probar los reactivos suficientes: en general, se requiere el DOBLE de la cantidad necesaria
para la prueba final
6) Antes de la evaluación principal se realizará una evaluación informal simple
7) Los reactivos "malos" casi siempre son fáciles de identificar. Los diferentes tipos de estadísticos de los
análisis de reactivos no marcan gran diferencia
8) Desde un punto de vista estadístico, el grupo de estandarización no tiene que ser muy grande, si se elige de
manera apropiada. No obstante, a muchos les impresiona el tamaño del grupo
9) Por favor, es vital que se publique también el manual final
10) Todo el proceso siempre se lleva más tiempo del que se calcula, cuack

2018
UNIDAD 8

Directrices para la traducción y adaptación de los tests:


SEGUNDA EDICIÓN
Resumen
Este apartado se trata sobre presentar la SEGUNDA EDICIÓN de las directrices de la Comisión Internacional de Tests
(ITC) para la adaptación de tests a otras culturas.

Método: un grupo de 6 expertos internacionales revisaron las directrices originales propuestas por la ITC teniendo en
cuenta los avances en el campo desde su formulación inicial

Resultados: la nueva edición está compuesta por 20 directrices agrupadas en 6 apartados:

1) Directrices Previas
2) Desarrollo del test
3) Confirmación
4) Aplicación
5) Puntuación e Interpretación
6) Documentación

El objetivo de las directrices es que el producto final del proceso de adaptación consiga con respecto a la prueba
original el máximo nivel de equivalencia lingüística, cultural, conceptual y métrica posible, y para ello son concebidas
como un patrón que guía a los investigadores y profesionales en las pautas a seguir. El proceso es global en
naturaleza y abarca la totalidad de fases y cuestiones a considerar durante el proceso de traducción, desde las
cuestiones legales relacionadas con los derechos de la propiedad intelectual del test a adaptar, hasta aspectos
formales que atañen a la redacción del manual que documenta los cambios introducidos. Todos ellos son
importantes, y a todos ellos hay que prestarles una seria atención

Procedimientos
Marco Legal analítico-
racionales

Constructo

Idioma TEST
PROCESO ADAPTADO =)
Cultura

Medida
Procedimientos
Uso empíricos

2018
1) Directrices Previas
Hay que prestar atención a 2 cuestiones importantes:

1) La comprobación del registro de la propiedad intelectual


Es decir, hay que comprobar quién recae el derecho de la propiedad intelectual del instrumento y en su caso obtener
los permisos legales permitirán garantizar la autenticidad del producto final y proteger el trabajo de adaptaciones no
autorizadas

2) El estudio de la relevancia del constructo


Se refiere al estudio de las características del constructo a medir en la población diana. El interés en este punto es el
de tener alerta sobre las consecuencias de asumir sin más la universalidad de los constructos entre las culturas, y
aconseja evaluar el grado o nivel de solapamiento entre el constructo en la población origen y en la población diana

2) Directrices sobre el desarrollo del test


Hay que tener cuidado con algunos errores comunes como el uso de la "traducción literal" como garantía de
equivalencia, o el excesivo peso otorgado a la traducción inversa, la cual no garantiza la validez de la versión diana, es
más, en una mala traducción el grado de equivalencia entre la versión original y la versión retro-traducida puede ser
muy alta. La razón de esta singularidad se debe a que habitualmente las malas traducciones se apoyan en
traducciones literales en lugar de una esmerada adaptación de significados.

Para considerar los factores lingüísticos y culturales se aconseja la implementación de un procedimiento iterativo
de depuración que se inicia con varias traducciones independientes hacia adelante, que luego serán revisadas por un
comité mixto en el que conviene incluir, además de traductores con conocimientos de los idiomas y culturas, a
especialistas en el campo de evaluación que analicen la adecuación de la versión adaptada.

Las directrices de desarrollo incluyen también un apartado que resalta la importancia de las pruebas piloto, ya
que éstas permiten, entre otras cosas: a) recoger "in situ" las reacciones de las personas que realizan la prueba; b)
asegurarse de que los ítems e instrucciones son correctamente comprendidos; c) registrar el tiempo necesario para la
ejecución del cuestionario; d) recoger información sobre posibles errores de contenido o formato; e) obtener datos
que permitirán llevar a cabo un primer análisis de ítems que indicen la dirección y sentido de los índices
psicométricos más relevantes. Por ejemplo, es interesante analizar las medias aritméticas de los ítems, o índices de
dificultad, etc.

3) Directrices de confirmación
Este grupo de directrices hacen referencia a aspectos técnicos relacionados con las propiedades psicométricas del
test adaptado y a su equivalencia con respecto al test original. Proponen llevar a cabo estudios de equivalencia
métrica entre las versionas original y adaptada, que determinarán el grado de relación entre cada uno de los ítems
que componen la prueba y la dimensión que representa. Las directrices de confirmación proponen llevar a cabo
estudios sobre fiabilidad y estudios de validación.

2018
4) Directrices sobre aplicación
La forma en que se aplica el test influye en las propiedades psicométricas de las puntuaciones obtenidas, tales como
su fiabilidad y validez. Las relaciones de quienes aplican el test con las personas que son evaluadas (rapport), la
forma de dar las instrucciones, y en general las interacciones aplicador/a-examinado/a deben de cuidarse al máximo.
Es decir, estamos hablando de la importancia de la administración.

5) Directrices sobre puntuación e interpretación


Estas directrices alertan sobre los riesgos derivados de la tentación de comparar directamente puntuaciones
obtenidas en contextos culturales o lingüísticos diferentes por medio de escalas adaptadas. Es decir, debe de
demostrarse la existencia de equivalencia métrica entre todos los ítems que componen las escalas original y
adaptada, de no ser así, las puntuaciones obtenidas no podrán compararse directamente

6) Directrices sobre documentación


Finalmente, para interpretar las puntuaciones, el psicólogo debe disponer de una documentación exhaustiva acerca
de cómo se llevó a cabo el proceso de adaptación. El manual del test deberá incluir todo tipo de detalles del proceso
adaptativo y de los cambios y modificaciones llevados a cabo sobre el test original, que en determinadas
circunstancias pueden dar las claves interpretativas de un resultado

DISCUSIÓN Y CONCLUSIONES:
Es ya conocido y asumido por la comunidad científica que la adaptación de tests no es meramente una cuestión
lingüística, y que exige la conjunción de aspectos culturales, conceptuales, lingüísticos y métricos que han de
acometerse desde perspectivas de análisis tanto analítico-racionales como empíricas

Las directrices de la ITC aúnan en un documento sencillo las pautas a seguir para asegurar el máximo nivel de
equivalencia entre las versiones originales y adaptada de un test, que podrían resumirse en: a) consideraciones
legales previas que afectan la propiedad intelectual; b) valoración del constructo en la población diana; c) diseños de
adaptación que tengan en cuenta las características lingüísticas, psicológicas y culturales del texto adaptado, así como
su adecuación práctica; d) la importancia de las pruebas piloto; e) la selección cualitativa y cuantitativa adecuada de
la muestra de adaptación; f) la importancia de los estudios de equivalencia; g) la delimitación del grado de
comparabilidad entre puntuaciones; h) la importancia de unas correctas condiciones de aplicación e interpretación; i)
la información exhaustiva sobre los cambios llevados a cabo en el test adaptado.

Por último, cabe mencionar según Hambleton, 6 grandes áreas que atraerán la atención de investigadores y
profesionales en los próximos años

1. El uso internacional de los tests, debido a la globalización creciente y facilidades de comunicación


2. El uso de nuevos modelos psicométricos y tecnologías para generar y analizar los ítems (TRI)
3. La aparición de nuevos formatos de ítems derivados de los grandes avances informáticos y multimedia
4. El uso de tests informatizados y sus relaciones con Internet (Tests Adaptativos Informatizados)
5. El uso de los sistemas a utilizar para dar retroalimentación (feedback) de los resultados a los usuarios y partes
legítimamente implicadas
6. Es probable que en un futuro haya una gran demanda de formación por parte de distintos profesionales

Estas son algunas líneas de futuro sobre las que muy probablemente girarán las actividades evaluadoras en
un futuro no muy lejano

2018
UNIDAD 9

TESTS INFORMATIZADOS Y OTROS NUEVOS TIPOS DE TESTS

[Recientemente se ha producido un considerable desarrollo de los tests adaptativos informatizados, en los que el test
se adapta progresivamente al rendimiento del evaluado. Hay diferentes tipos de tests como: a) los tests basados en
modelos (se dispone de un modelo o teoría de cómo se responde a cada ítem, lo que permite predecir su dificultad), b)
los tests ipsativos (el evaluado ha de elegir entre opciones que tienen parecida deseabilidad social, por lo que pueden
resultar eficaces para controlar algunos sesgos de respuestas), c) los tests conductuales (miden rasgos que
ordinariamente se han venido midiendo con autoinformes, mediante tareas que requieren respuestas no verbales) y d)
los tests situacionales (en los que se presenta al evaluado una situación de conflicto laboral, por ejemplo, con varias
posibles soluciones, y ha de elegir la que parece la mejor descripción de lo que la persona haría en esa situación). El
artículo comenta las características, ventajas e inconvenientes de todos ellos y muestra algunos ejemplos.]

Ya en el 1924 en aquel entonces el autor Rodrigo Lavín decía: "Como la observación nos da muy pocos datos
utilizables y la conversación o entrevista no basta para descubrir las habilidades de los solicitantes, es necesario
recurrir a los tests". Desde ese día hasta el día de hoy, el desarrollo de los tests ha sido extraordinario, como
anticipaba Lavín. Entre los avances que han habido, podemos mencionar algunos importantes:

 Avances técnicos: El desarrollo de los modelos psicométricos que sustentan las propiedades psicométricas
de los tests y la evolución y abaratamiento de la tecnología informática nos ha permitido incorporar nuevos
atributos psicológicos al catálogo de lo medible; también ha permitido incrementar la eficiencia de las
aplicaciones e incluir nuevas funcionalidades, como la generación automática de ítems, la aplicación
adaptativa de un test, o la corrección automática de respuestas complejas
 Nuevas demandas sociales: Se incrementa no sólo el uso de los tests "cásicos" como el WAIS o el 16PF. Se
ha ampliado mucho el tipo de atributos psicológicos que se precisa medir. Mientras que hace unos años las
aplicaciones fundamentales se ceñían a tests de capacidades cognitivas o pruebas de personalidad, cada vez
son más los profesionales que exigen buenos tests para objetivos específicos
 Mayor exigencia de calidad: Cada vez son más importantes las consecuencias que para las personas y las
organizaciones tienen las puntuaciones en los tests. Por ello, también es mayor la exigencia psicométrica

TESTS INFORMATIZADOS:
Se van incrementando progresivamente los tests cuyos ítems se presentan, se responden y puntúan en un ordenador,
lo que ha representado cambios y avances importantes en contextos aplicados de evaluación psicológica y educativa.
Estrictamente hablando, un test informatizado debe cumplir 2 requisitos:

1) Que se conozcan las propiedades psicométricas de los ítems que lo integran


2) Que los ítems se presenten y respondan en un ordenador
Con este último punto, tenemos en primer lugar los tests fijos informatizados y los tests adaptativos
informatizados

2018
En general, informatizar un test supone ciertas ventajas:
 Ayuda a estandarizar mejora las condiciones de aplicación de los tests para todos los evaluados:
instrucciones comunes, control del tiempo de aplicación, reducción de la posibilidad de copia, eficiencia de
corrección, etc.
 Resulta necesario para la aplicación de procedimientos complejos como los de la TRI
 Permite proporcionar de forma INMEDIATA información cuantitativa, verbal y gráfica, sobre la posición del o
la evaluada respecto a un grupo en un baremo concreto, es decir, la elaboración de informes automáticos
 El ordenador es necesario para aplicar nuevos formatos de ítems, tales como presentaciones visuales
dinámicas, ítems auditivos o secuencias simuladas, entre otros

TESTS ADAPTATIVOS INFORMATIZADOS:


El uso de los ordenadores combinado con la TRI permite la construcción de tests adaptativos informatizados, cuya
principal característica es que los ítems a administrar se van adaptando al nivel de competencia que va manifestando
la persona evaluada, según sus respuestas a los ítems previos.

La aplicación de un TAI se inicia con una determinada estrategia de arranque, que consiste en establecer de alguna
forma el nivel de rasgo inicial que se asigna al ser evaluado. Luego de que él mismo responde a cada ítem, se realiza
una estimación de su nivel de rasgo mediante procedimientos estadísticos.

Los TAI, dada su condición adaptativa, tienen al menos 3 importantes ventajas adicionales:

1) Mejoran la seguridad del test, ya que gran parte de los ítems que se presentan son diferentes a todas las
personas evaluadas. Es decir, nos permite obtener buena confiabilidad de versiones equivalentes
2) Reducen el tiempo de aplicación, ya que consiguen niveles similares de precisión que los tests
convencionales con un número menor de ítems
3) Permiten además, con el mismo número de ítems que un test convencional, realizar estimaciones más
precisas

APLICACIONES VÍA WEB:


La tecnología informática permite desde hace años su aplicación a través de internet. Tanto el test como los
algoritmos de presentación y los resultados se almacenan y distribuyen desde un servidor, lo que permite un mayor
control sobre los procesos de aplicación y una información inmediata de los resultados. También permite una mayor
accesibilidad a los evaluados, y en algunos casos, un abaratamiento de los costos. Sin embargo hay algunos riesgos:

 Calidad: Cualquiera puede acceder a centenares de tests que se ofrecen en todo el mundo y de los que
desconocemos sus propiedades psicométricas.
 Seguridad: Un importante problema es el de la seguridad del propio ser. Es decir, las personas por ejemplo
pueden subir la información en foros, hacerles captura de pantalla, etc. Como es lógico, el acceso a los
contenidos del test y a la información que proporcionan los evaluados debe ser seguro y controlado. A veces
internet puede entrar en colisión con la Ley de Protección de Datos
 Control: Otro problema tiene q ver con las posibilidades de suplantación de identidad, es decir, que sean
otras personas las que respondan al test
 Garantías Tecnológicas: El examinar vía web, puede suponer una amenaza a la validez de las puntuaciones
2018
OTROS NUEVOS TIPOS DE TEST:
A. Tests basados en modelos
B. Tests Ipsativos
C. Tests Situacionales
D. Tests Conductuales

Tests basados en modelos:


Nos referimos al diseño de instrumentos de evaluación guiados por una teoría psicológica sobre el procesamiento de
respuestas. El primer paso en la construcción de este tipo de pruebas es un análisis de los procesos cognitivos que
demanda la resolución de la tarea y un estudio detallado de cuáles son las características del ítem que, en función de
esos procesos, determinan su diferente nivel de demanda cognitiva y, por tanto, su dificultad. Un ejemplo del mismo
es el DA-5. Posee 50 ítems que pretenden medir la capacidad de razonamiento lógico mediante tareas que incluyen
un conjunto de instrucciones sobre lo que debe hacerse mentalmente con la figura adyacente correspondiente.
Supongamos por ejemplo que un ítem consta de varias figuras y tienes que elegir la correspondiente. Las
instrucciones pueden requerir por ejemplo, girar la figura cierto número de grados, intercambiar la posición con la
figura anterior, o reordenar de determinada forma todas las figuras, etc.

Una aportación novedosa de esta manera de proceder es que si conocemos las variables que intervienen en los
procesos de respuesta, puede establecerse un método para construir todo el universo posible de ítems gobernado
por dichas variables. El procedimiento, denominado "generación automática de ítems" (GAI), consiste en la
construcción de bancos de ítems mediante algoritmos. En el GAI se establece un conjunto de reglas explícitas,
susceptibles de programarse en un ordenador, que determinan cómo deben construirse los ítems.

Si el modelo que describe los procesos de respuesta de los ítems es correcto, resultará posible conocer la dificultad
de nuevos ítems antes de que hayan sido aplicados a persona alguna. Son muy importante las ventajas de disponer
de todo el banco posible de ítems, principalmente para garantizar que se mide con elevada precisión cualquier nivel
de capacidad.

Tests ipsativos
Fundamentalmente en contextos de selección de personal, el falseamiento de respuestas a los tests de personalidad
es un problema que se ha intentado resolver de varias formas. Una de las más alentadoras es justamente la
elaboración de tests ipsativos, que obligan al evaluado a elegir entre opciones de respuesta que tienen un nivel
similar de deseabilidad y que se refieren a diferentes dimensiones de la personalidad. Por ejemplo, el o la aspirante
puede tener que elegir entre "soy una persona trabajadora" [RESPONSABILIDAD] y "soy una persona abierta"
[EXTRAVERSIÓN]. El proceso de diseño ipsativo es básicamente el siguiente:

a. Determinar las dimensiones a evaluar y los ítems iniciales que la definen


b. Diseñar con estos ítems un test normativo convencional
c. Establecer el número de opciones de cada ítem ipsativo. Lo más simples es establecer ítems binarios
d. Realizar un estudio empírico donde una muestra de jueces valore el nivel de deseabilidad de cada ítem
e. Diseñar el test ipsativo, considerando en los ítems todas las posibles combinaciones de dimensiones

2018
f. Establecer el sistema de puntuación de los evaluados, por ejemplo, contando las veces que eligen las
opciones de cada una de las dimensiones

En las últimas décadas los tests ipsativos han tenido momentos de auge y declive, con defensores y detractores que
con igual fuerza argumentan sus beneficios o problemas. Algunos de estos problemas son:

a. Es modo ipsativo de puntuación es dificultoso y conlleva un tratamiento psicométrico específico que


actualmente es objeto de investigación
b. Conceptualmente, un test ipsativo plantea una tarea de preferencias y, por tanto, permite la comparación
entre escalas dentro de una persona, pero no entre distintas personas. Por ello, su uso está más indicado en
las medidas de atributos que impliquen preferencias, como es usual en la medición de intereses
c. No es claro que sean resistentes al falseamiento ya que los aspirantes pueden ser conscientes e cuáles son las
dimensiones deseables para el puesto

Por el momento no nos parece muy recomendable la aplicación de tests ipsativos si se pretende realizar
comparaciones de rendimiento entre diferentes evaluados. Sin embargo, vemos una importante potencialidad a este
tipo de tests cuando se consoliden algunos intentos que se están realizando en el ámbito de la investigación
psicométrica para modelar teóricamente las respuestas a este tipo de ítems. En cualquier caso, la cuestión está lejos
de ser resuelta

Tests conductuales
En el contexto de la medición de la personalidad, existe una línea teórica de evaluación comportamental de la
personalidad donde se estudian los estilos interactivos o tendencias de comportamiento constantes ante situaciones
determinadas. Desde esta perspectiva se diseñan tests comportamentales informatizados para medir, por ejemplo, la
tendencia al riesgo (propensión a elegir las opciones más recompensadas a pesar de ser poco probables) mediante
simulaciones de juegos de ruleta o dados, o mediante tareas de toma de decisiones más o menos proclives a
accidentes. Por ejemplo decidir cuándo cruzar la calle para ir lo más rápido posible a una farmacia, cambiando en los
sucesivos ensayos la ubicación de la persona y sabiendo que puede aparecer un coche de un túnel. Si el peatón se
encuentra muy cerca de la salida del túnel, aumenta la probabilidad de que sea atropellado (menos visibilidad) pero
también reduce el tiempo para llegar a la farmacia (suponiéndose que la farmacia está a la altura de la salida del
túnel (del lado del frente por supuesto). Lo más seguro es moverse hacia la derecha, es decir alejarse de la salida del
túnel y cruzar, pero eso conlleva un mayor tiempo. Tras cada ensayo, el evaluador recibe un feedback sobre el tiempo
que ha tardado en llegar pero no sobre si ha sido atropellado. Los profesionales que eligen este tipo de tests
consideran que una de sus ventajas tiene que ver con la eliminación de los problemas de deseabilidad

Tests situacionales
Consisten en describir ciertas situaciones (por ejemplo, en el ámbito laboral) y pedir a las personas evaluadas que
digan cómo creen que reaccionarían ante dichas situaciones. Parece que este tipo de pruebas añaden poder
predictivo de la eficacia laboral a los tradicionales tests de capacidad cognitiva y de personalidad (por eso se aplican
cada vez más frecuentemente), aunque son escasos los estudios que se han realizado sobre su eficacia para reducir el
falseamiento de respuestas. Pueden realizar descripciones en un formato de respuesta abierta o, lo que es más usual,
elegir entre varias posibilidades que se describen de antemano
2018

También podría gustarte