Apuntes de Psicometría 2

Capítulo II
“Diseño y elaboración de tests”

Participante: Manuel Hernández 2019-00021
Facilitadora: Beantnik Dotel
Materia: Teoría de los Tests
Mayo 14, 2020.
Mientras que la mayoría de los atributos físicos (altura, peso, color de piel, etc.) resultan
directamente medibles, los atributos (constructos o rasgos) psicosociales resultan ser
conceptualizaciones teóricas que no son accesibles a la medición directa (Garrido, Olea,
Ponsoda, & Abad, 2006). Los tests, cuestionarios o inventarios inciden para poder cuantificar
dichos atributos. En estos tests, se toma en consideración el tipo de prueba y los propósitos de
esta. La planeación de una prueba incluye varios aspectos como es el de definiciones claras de
las variables o constructos que van a medirse, descripción de las personas que serán evaluadas,
el ambiente e información concerniente a la calificación, interpretación de puntuaciones y el
uso de los resultados. En la tabla 1, le mostraré las diferentes pruebas y su parámetro.
Tabla 1 Características de pruebas
Planeación de una prueba
Pruebas de observación
Análisis detallado de las actividades
Incluir incidentes cruciales
Se trabaja con una muestra de los comportamientos necesarios
Pruebas de Inteligencia
Reunir reactivos acordes al constructo "inteligencia"
Reactivos deben ser elaborados en base a una teoría específica del constructo
Pruebas de rendimiento
El resultado no se limita a la motivación y evaluación de estudiantes
Proporciona información concierne a la medida de objetivos
Para crear una buena planificación es necesario tener claro en primer lugar: el área de
aprendizaje; en segundo lugar, que los objetivos estén correctamente planteados; en tercer
lugar, las herramientas de evaluación sean las adecuadas y por último determinar las
actividades a realizar. También es necesario considerar cuestiones practicas como el costo, el
tiempo disponible para la administración, la disposición de los reactivos y las condiciones de
la prueba. Un sistema estándar es el conocido como la “Taxonomía de objetivos cognoscitivos”
de Bloom donde los objetivos se presentan de más simple a complejo (Conocimiento,
comprensión, aplicación, análisis, síntesis y evaluación). Otra taxonomía es la de Gerlach y
Sullivan donde se enfatiza la conducta del examinado en la identificación (pertenecer a una
categoría); nominación (etiqueta verbal para un referente); descripción (reportar categorías
relevantes de objetos, eventos, propiedades o relaciones); elaboración (crear un producto
específico); ordenamiento (ordenar dos o más referentes); demostración (realizar acciones para
cumplir una tarea específica). Otra taxonomía es la del dominio psicomotriz de Harrow que
son movimientos reflejos, básicos fundamentales, hábiles, habilidades perceptuales, físicas y
comunicación discursiva. La aplicación de estas taxonomías debe ayudar al planificador a ir
más allá de una simple evaluación de reconocimiento o memoria, pero más orientado a medir
los objetivos de orden superior y reflexivos. Hay que reconocer que algunos reactivos son
apropiados para medir aspectos específicos por lo que, los reactivos de respuesta corta pueden
medir el conocimiento de la terminología, pero incapaces de medir habilidades cognoscitivas
de orden superior. Por esto, el uso de una tabla en base a las taxonomías oportunas es una
recomendación.
La preparación de los reactivos de los tests tiene una meta y es la de preparar un esquema
detallado de como el de la tabla de especificaciones que servirá como guía para poder elaborar
los reactivos con los que se evaluará los objetivos. Existen varios métodos para clasificar los
reactivos como son en completamiento o llenado contra selección, recuerdo contra
reconocimiento, y construcción de respuesta contra identificación. Otra clasificación es el de
reactivos de ensayo (son del tipo de completamiento o llenado, donde la respuesta se construye
en lugar de identificar) contra objetivo (puede ser llenado o selección, pero depende de la
instrucción de la prueba si se construye o selecciona la mejor respuesta) y este último tiene un
rasgo de ser objetivo al momento de calificarse. A continuación, mostraré una tabla con los
reactivos de los tipos de pruebas.
Tabla 2 Ventajas y desventajas
Reactivos de pruebas
Pruebas Ventajas Desventajas
Insuficiente para determinar
Medir habilidad personal;
conocimiento de la materia;
Ensayo menos tiempo de elaborar;
susceptibles al engaño;
reduce la adivinación
calificación subjetiva
Inapropiados para medir
Elaboración sencilla; objetivos complejos;
Respuesta corta
respuesta rápida calificaciones no es 100%
objetiva
Escritura y lectura rápida; Alienta la memorización;
Verdadero y falso muestreo amplio del ambiguos y no miden objetivos
contenido de la materia instruccionales complejos
Elaboración sencilla; cubre Usualmente solo miden la
Aparejamiento
material de manera eficiente memorización de acontecimiento
Versátiles; miden logros de Difíciles de elaborar; enfatizan el
aprendizaje simples y reconocimiento más que el
Opción múltiple
complejos; adivinación es recuerdo; mas tiempo de
reducida respuesta
Además de reconocer las ventajas, desventajas y atributos de las pruebas, es recomendable el

uso de reglas. En el caso de las pruebas de ensayo, no se deben de usar reactivos de ensayo
cuando el conocimiento puede ser evaluado con reactivos objetivos. Los reactivos objetivos
pueden verse atractivos, pero solo enfatiza la memoria. Hay que tener cuidado de no incluir
claves para las respuestas correctas y evitar reactivos interrelacionados1 o entrelazados2. Para
los reactivos de verdadero y falso, hay que asegurarse las afirmaciones sean cortas,
1
Cuando el planteamiento de uno proporciona una señal para la respuesta del otro.
2
Cuando es necesario conocer la respuesta a uno de ellos para llegar a la respuesta correcta del otro.
importantes, evitar negativismo, ambigüedad y reactivos capciosos. Para los reactivos de
aparejamiento se debe ordenar los troncos de forma clara y lógica, dos o 3 opciones de
respuestas, y de sebe colocar el reactivo en una sola pagina. En el caso de reactivos de opción
múltiple, hay un factor importante aparte de seguir los lineamientos (moderar expresiones,
todos los reactivos deben ser del mismo extensor, 4 o 5 opciones, evitar preguntas literales de
textos) que es la experiencia, que incluso haber realizado una buena investigación sobre el tema
no garantiza una elaboración optima.
De igual forma, para la elaboración de reactivos de opción múltiple hay que reconocer
elementos como son los distractores (opciones incorrectas) que, en dado caso, deben emplearse
con un enfoque racional (demanda que el profesional formular juicios personales concernientes
a distractores apropiados) y a diferencia está en enfoque empírico (consiste en seleccionar
distractores más populares de las respuestas incorrectas). Las opciones como todas las
anteriores, dos de las anteriores son maneras de poder dificultar la elección del examinado.
Todas estas técnicas están para facilitar el proceso de elección correcta de reactivos.
Antes de formar una prueba, debe tomarse decisiones a varios asuntos como se muestra en el
siguiente cuadro:
Tabla 3 Formación y reproducción de una prueba
Consideraciones para la formación de una prueba
Extensión de la prueba
Cantidad de reactivos función tiempo, grado y nivel de lectura
Conceder un minuto a cada reactivo
Las características individuales para predecir el tiempo de prueba
Ordenamiento de los reactivos
Opción múltiple Ordenar sin llevar un patrón, alfabéticamente
Aparejamiento o reordenamiento Proporcionar espacio suficiente para las respuestas
Prueba total Agrupar reactivos del mismo tipo
Hojas de respuestas
Utilizar un cuadernillo de respuestas o SCANTRON
Instrucciones en los tests
Se deben colocar al inicio de la prueba de manera específica para cada parte de la prueba
Leer en voz alta las instrucciones, el propósito de la prueba, tiempo, calificación y el tipo
de ayuda
Permitir preguntas a fines; sugerencias a respuestas
Las pruebas orales son muy consideradas por los profesores de idiomas, arte u otra formación
que requiera la voz, pero estas pruebas son subjetivas, resultas ineficientes y su principal fuente
de error son los examinadores o evaluadores. Una de las ventajas es:
1. Interacción social
2. Reduce fraude
3. Fomenta el proceso cognitivo y comunicativo
4. Tiempo de preparación de la prueba es menor a la escrita
Es cierto que las pruebas orales, escritas, de ensayo, y demás pueden proporcionar
información indirecta de una habilidad de una persona, pero el conocimiento de como hacer
algo no es lo mismo que poseer una destreza para ello, por lo que una prueba de desempeño
sería factible en estos casos. En este caso, una prueba de ejecución3. Es útil elaborar una lista
de conductas deseadas, debe concentrarse en el producto final y en la forma en que se realiza
y estas requieren mas tiempo que la escritas.
Capítulo IV
“Análisis de reactivos y estandarización de pruebas”
Mayo 15, 2020.
Al momento de diseñar una prueba, hay que analizar si los reactivos son ineficientes o
adecuados para ser considerado como hábiles para una evaluación de un criterio en específico,
reconocer el propósito de esta (pruebas de dominio) y tener presente que las habilidades y la
personalidad difieren entre personas. Para lograr esto, se puede implementar una prueba piloto
que muestre los resultados de una muestra y luego se determina si los reactivos funcionan
adecuadamente. Los objetivos de realizar un análisis son
1. Contribuir a mejorar la prueba.
2. Proporcionar información diagnóstica sobre lo que saben los no examinados.
El análisis conlleva a determinar el porcentaje de examinados que contestan correctamente un
reactivo con referencia al criterio a medir reconociendo el índice de dificultad4 y
discriminación5 del reactivo que dado caso de que este último sea bajo, debería ser descartado.
Uno de los mecanismos para determinar si un reactivo funciona puede ser la curva
característica del reactivo (CCI). Esto ayuda a conseguir detalladamente el nivel de dificultad
y el índice de discriminación del reactivo a evaluar.
Dentro de los factores que afectan el funcionamiento de los reactivos están los sesgos, las
características de los examinados (etnicidad, genero, edad, situación socioeconómica). De igual
forma, los reactivos deben ser consistentes con el criterio a evaluar en el caso de que se utilice
una fuente externa. Otro aspecto para considerar en el análisis son los distractores, que estos
en término básico serían las respuestas incorrectas en un examen de selección múltiple. El
método más sencillo para determinar si un distractor funciona es contar la cantidad de veces
que se ha seleccionado como respuesta y, que deben ser elegidos por una cantidad considerada
de personas.
3
Son aquellas en la que los estudiantes son instados a realizar una determinada actividad motora para
comprobar el dominio de ciertas habilidades, destrezas y competencias, así como la aplicación de los
conocimientos adquiridos (Ministerio de Educación Pública, 2020).
4
Indica la facilidad o dificultad de un reactivo para un grupo de individuos.
5
Medida de efectividad con que un reactivo discrimina entre los examinados quienes obtiene altas o bajas
calificaciones.
Como se apreció en la clase pasada, hay diversas pruebas tanto estandarizadas como no
estandarizadas y cada una de ellas llevan una normativa. Las pruebas estandarizadas tienen un
objetivo inicial que es el de determinar la distribución de puntuaciones crudas6 en la muestra
de estandarización y también medir un número cuantioso de individuos con el propósito de
interpretar calificaciones. Estas calificaciones varían dependiendo de edad, grado, y rangos.
Según Aiken, “Las normas calculadas a partir de las puntuaciones de prueba obtenidas
conforman un marco de referencia para interpretar puntuaciones alcanzadas por personas que
después se someten a la prueba” (Aiken, 2003). Estas normas se la detallaré más adelante.
Las normas indican la posición de una persona referente a la calificación tomando en cuenta la
edad cronológica, el grado, sexo u otros atributos. Para niños especiales se le aplica una prueba
fuera de nivel que posee normas distintas como la batería de Kaufman.
Luego de obtener las calificaciones de la muestra, hay que identificar los atributos o
características de dicho grupo (edad, sexo, etnicidad, nivel socioeconómico, cultura,
educación) con referencia a las normas y a la fecha en que se realizó la prueba. La manera en
que se selecciona una prueba varía desde una forma sencilla a compleja, como son:
Tabla 4 Opciones para seleccionar una muestra
Tipos de muestreos
Muestreo aleatorio sencillo
Todos tienen la misma probabilidad de ser seleccionados
Esto no garantiza representatividad
Muestreo aleatorio estratificado
Se categoriza la población por sexo, edad, región, economía
Se reduce el sesgo o una muestra atípica
Mejor interpretación de calificaciones
Muestreo por grupos
Mejor forma de representar una muestra
Económico
También se ha propuesto otras formas como es el muestreo de reactivos que consiste en aplicar
muestras de reactivos a muestras distintas de personas seleccionadas al azar y resulta ser
eficiente ya que las normas obtenidas por este método son similares al proceso tradicional. A
continuación, le mostraré los tipos de normas.
Normas de edad y grado
Edad: Edad cronológica; Grado: Nivel de grado específico
La edad se expresa en 12 intervalos de un mes y el grado en 10 intervalos de un mes. Ambos
tienen desventajas como es la desigualdad en progresos cognoscitivos, psicomotores y
afectivos; errores en la consistencia de evolución de capacidades al próximo año escolar y, en
el grupo de grado, se tiende a omitir las calificaciones en función de la edad modal.
Normas percentiles: permiten ubicar el rendimiento de un individuo en relación con la muestra.
Normas de calificación estándar: representan una medición en intervalos y las puntuaciones
son convertidas con la media y la desviación estándar deseada.
6
Número real de respuestas dadas o de puntos obtenidos por un grupo o individuo.
Dentro de estas normas están:
Calificación 𝓏: compara resultados de distintas poblaciones. Sencillamente es la diferencia o
!"!̅
distancia entre la media de un grupo y cualquiera de las calificaciones individuales. 𝑥 = 𝒮
Calificación Z: es más fácil de calcular que la z y es producto de la multiplicación de z por una
constante. 𝑍 = 10𝓏 + 50
Calificación CEEB: es producto de la multiplicación de z por 100 y opera con una media de
500 y desviación de 100. 𝐶𝐸𝐸𝐵 = 100𝓏 + 500
Calificación Wechsler: se obtiene un puntaje bruto, estándar, CI y coeficiente de eficiencia
con una operación de media 10 y desviación de 3 en caso específico. 𝐶𝑖 = 15𝓏 + 100
Calificación estándar normalizada: Método de transformación de puntuación para comparar
resultados.
Otra escala de calificación es la estanina, aunque no es una verdadera escala de calificación,
esta posee una ventaja que representa rangos7 más que puntos específicos, dígase, contribuye
a que se equilibre la forma de medición. Esto reconoce que las calificaciones de evaluaciones
psicológicas o educativas no son en su totalidad exactas, mas bien están sujetas a errores.
En otro ámbito, pero similar, en ocasiones es necesario realizar una versión de prueba distinta
de reactivos, pero similares en tamaño con el propósito por lo que se conoce como vinculación
según la IRT. Dentro de este modelo, se puede igualar pruebas por dos métodos, el
equipercentil (convierte las unidades de calificación de una prueba en unidades de otra paralela
en rangos percentirlares) y por igualación horizontal y vertical (proceso de igualar o comparar
dos pruebas del mismo nivel).
7
La posición relativa de una calificación cruda a lo largo de la curva normal.
“Teoría de respuesta a los ítems”
Mayo 17, 2020.
La Teoría de la Respuesta al Ítem (TRI) constituye un nuevo enfoque en psicometría que

permite superar algunas de las limitaciones de la Teoría Clásica de los tests. Su propósito es
similar al de la teoría clásica, esta pretende obtener la puntuación que corresponde a una
persona en una dimensión o rasgo, como su inteligencia, su nivel en un cierto rasgo de
personalidad, su dominio en una cierta materia, etc. La TRI debe su nombre a que se centra
más en las propiedades de los ítems individuales que en las propiedades globales de la prueba,
como hacía la teoría clásica (Universidad Autónoma de Madrid, 2006).
Los orígenes de la TRI hay que buscarlos en los trabajos pioneros de Richardson, Lawley,
Tucker, Lord, Birnbaum y Thurstone donde se presentan los aportes realizados a partir del
concepto de curvas características. Luego, Lord publica “Una teoría sobre las puntuaciones de
las pruebas” según (Muñiz, Modelos, 2018) se considera el inicio de los modelos de TRI.
El objetivo de la TRI es ofrecer la posibilidad de obtener mediciones invariables respecto a los
instrumentos utilizados y de las personas implicadas. Esta teoría puede usarse para estimar las
calificaciones de los examinados. Esta característica de la TRI significa que puede aplicarse
una prueba de cualquier nivel de dificultad. El cálculo más preciso se obtiene cuando los
reactivos que constituyen la prueba, y la prueba misma, son los más adecuados, es decir, que
están en el mismo nivel de dificultad que la capacidad del examinando.
En la teoría clásica, el resultado de la medición de una variable dependía de la prueba que se
utilizó, por lo que esto es una problemática al momento de igualar resultados de pruebas
distintas. Por esto, la TRI soluciona varias limitantes como son:
1. Las características de los ítems o reactivos dependen del grupo de personas en la que
se ha aplicado.
2. Las puntuaciones de un individuo dependen del conjunto de ítems administrado.
3. Error de medida obtenida por la prueba es propiedad de la prueba e igual a los
participantes.
La TRI permitirá obtener mediciones que no varían en función del instrumento utilizado,
dispondrá una herramienta de medida que posea propiedades que no dependan de los objetos
medidos, reconocer los errores típicos de medida diferente para cada nivel de la variable,
permite evaluar exhaustivamente las características en particular y adaptada a cada criterio.
La TRI asume que existe una relación entre los valores de una variable que mide los reactivos
y la probabilidad de acertarlos, esto se le denomina curva característica del ítem. Eso quiere
decir que cada ítem posee una característica típica específica que miden una determinada
variable.
Detrás de esto hay una logística y modelos como son el modelo logístico de un parámetro
(Modelo de Rasch) es sencillo y postula que la respuesta a un ítem solo depende de la
competencia de la persona y la dificultad del ítem. Otro modelo es el modelo logístico de dos
parámetros desarrollado por Birnbaum y estipula que la curva característica es resultado de dos
parámetros de los ítems, la índice dificultad y el índice de discriminación.
Por último, el modelo logístico de tres parámetros, originado por Birnbaum. Junto con el
modelo de Rasch, es uno de los más observados. Este asume que la curva es resultado de los
dos parámetros del modelo anterior y un tercero para cuando se acierta un ítem al azar. A
continuación, una ilustración de las diferencias entre TRI y TCT.
Figura 1 Diferencias entre la TCT y TRI
La TRI se ha utilizado en la elaboración de pruebas, calibración de calificaciones de pruebas

estandarizadas, la determinación del funcionamiento diferencial de los reactivos y las
evaluaciones adaptativas sumamente precisas. Una desventaja de los modelos de la TRI es que
los modelos se limitan a calificar de 0-10, supone que un rasgo sobresale o subyace en la
ejecución de las pruebas, la comprensión de las calificaciones puede ser errónea por parte del
evaluador y que, los índices de dificultas y discriminación varíen por la posición en que los
reactivos estén ordenados.
Referencias Bibliográficas
Aiken, L. R. (2003). Test psicológicos y evaluación. Pearson.

Garrido, J., Olea, J., Ponsoda, V., & Abad, F. (2006). Introducción a la Psicometría: Teoría
clásica de los Tests y Teoría de la Respuesta al Item. UAP.
Ministerio de Educación Pública. (2020, mayo 14). Prueba de ejecución. Recuperado de
UNED: https://www.uned.ac.cr/ece/images/documents/documentos2011-
2015/prueba_de_ejecucion2014.pdf
Muñiz, J. (2018). Introducción a la Psicometría: Teoría clásica y TRI. Madrid: Pirámide.
Muñiz, J. (2018). Modelos. En Introducción a la Psicometría: Teoría cálsica y TRI (pp. 195-
200). Pirámide.
Sampieri, R., Collado, C., & Lucio, P. (2010). Selección de muestra. En Metodología de la
investigación (pp. 172-176). McGraw-Hill.
Universidad Autónoma de Madrid. (2006). Introducción a la teoría de la respuesta del ítem. En
J. G. Francisco Abad, Introducción a la Psicometría: Teoría Clásica de los Test y
Teoría de la Respuesta al Ítem (p. 130). UAM.

Apuntes de Psicometría 2

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Apuntes de Psicometría 2

Cargado por

Copyright:

Formatos disponibles

Capítulo II

“Diseño y elaboración de tests”

Además de reconocer las ventajas, desventajas y atributos de las pruebas, es recomendable el

La Teoría de la Respuesta al Ítem (TRI) constituye un nuevo enfoque en psicometría que

Figura 1 Diferencias entre la TCT y TRI

La TRI se ha utilizado en la elaboración de pruebas, calibración de calificaciones de pruebas

Aiken, L. R. (2003). Test psicológicos y evaluación. Pearson.

También podría gustarte