Documentos de Académico
Documentos de Profesional
Documentos de Cultura
─
Tema 1: Introducción a la psicometría
Se pueden escalar los sujetos, los estímulos y las respuestas. En sus orígenes el
escalamiento estuvo ligado a los estímulos, respondía a la necesidad de cuantificar las
relaciones existentes entre las características físicas de los estímulos y las sensaciones.
A estos métodos basados en los estímulos físicos se les denominó métodos psicofísicos.
Con los trabajos de Thurstone en 1929, se empiezan a proponer modelos de
escalamientos para la medición de atributos estrictamente psicológicos. Surge la
necesidad de medir atributos o variables psicológicas que no tenían relación o no
variaban con ningún continuo físico. A estos métodos se les denominó métodos de
escalamiento psicológico. Thurstone elaboró un modelo en que se realiza una escala en
un continuo psicológico y se sitúan estímulos sin recurrir a lo físico.
2. El problema de la medición
2.1. ¿Qué es medición?
La medición es la aplicación de un conjunto de normas que permite la cuantificación de
las magnitudes de un atributo, propiedad o cualidad que se dice que está presente en
un objeto o persona en un momento determinado.
Se miden las características del objeto, no el objeto mismo. Se puede medir la altura de
una mesa, su color o su densidad, pero no la mesa en sí. La ansiedad que manifiesta
una persona, pero no la persona en sí.
Debe existir una conexión entre lo teórico y lo susceptible de ser observado, entre la
teoría y las conductas de las personas.
Por consiguiente, el paso del sistema relacional empírico al sistema relacional numérico
se realiza mediante homomorfismos. Se denomina escala de medida a la terna formada
por el sistema relacional empírico, el numérico y el homomorfismo (Navas, 1998).
Lord y Novick, 1968, no son muy claros acerca de la medición y dejan ver que esta se
reduce a una satisfacción empírica. La naturaleza cuantitativa de los atributos es
considerar por dichos autor a través de las escalas de Stevens: si los datos se ajustan a
una escala de intervalo o de razón, pueden ser empleado satisfactoriamente para
medir, pero, por el contrario si los datos no cumplieran las propiedades de una escala
de intervalo o de razón, su uso se considera adecuado solo cuando el moldeamiento
resulta empíricamente satisfactorio.
Desde este momento, la medición psicológica quiere ser una realidad, Las variables
psicológicas deben ser cuantitativas, y esto sólo se podrá establecer de manera
experimental, utilizando para ello los procedimientos que ponen a disposición la teoría
de la medición conjunta, la cual permite detectar estructuras cuantitativas a partir de la
relación ordinal entre variables.
2.3.2. Teoría de las escalas de medida
Según la teoría de las escalas de medida de Stevens, medir es asignar números a los
objetos según reglas empíricas, operacionales, pero cuidado que las relaciones entre
los números atribuido reflejan la relación empírica entre los objetos.De este modo, los
números asignados en la medición no representan propiamente cantidades, sino
relaciones.
Por ejemplo, las personas manifiestan la característica sexo según sus dos
modalidades, (hombre y mujer), las características religión según muchas modalidades
(católico, Protestante, budista, musulmán…) , finalmente, la característica peso en los
seres humanos posee infinitas modalidades, ya que entre dos modalidades por
proximas que se encuentren siempre son posibles otras modalidades intermedias.
Un ejemplo muy sencillo que suele utilizarse para ilustrar este tipo de escala es el sexo.
Esta característica, con la que podemos diferenciar a las personas de forma que se
puede tomar una muestra representativa y clasificar sus elementos según esta
característica que adoptan solo 2 modalidades, asignado el valor de 1 a los varones y el
0 a las mujeres. Para realizar esta operación tendremos a los elementos de la muestra
clasificados en 2 clases de equivalencia, uno por cada modalidad, que son mutuamente
exclusivas, ya que ninguno de los elementos puede ser incluido simultáneamente a más
de una clase y exhaustiva.
La limitación de las escalas ordinales, aunque nos informan que un objeto representa la
característica en cuestión en una mayor magnitud que otro objeto, no nos dicen en
cuanto más.
2.3.2.3. Escala de intervalo
En la medida de intervalo, además de poderse decir que un sujeto un objeto, pues tiene
más o menos cantidad de variables que otro, también es posible determinar la
magnitud de la diferencia existente entre los elementos medidos;Es decir, se puede
conocer la cantidad de variables en la que se difieren dos sujetos u objetos. En esta
escala se define una unidad de medida y se asigna a cada elemento un número
indicativo de la cantidad de variables que posee en términos de la unidad de medida
establecida. La principal limitación de esta escala es que no tiene un cero absoluto, es
decir, el número cero no presenta realmente la ausencia de la carencia de medida.
Con cualquier procedimiento el test estaría constituido por una muestra limitada de
ítems.
La unidad de medida utilizada (nivel de medida) puede ser distinta en cada caso. Escala
PISA Escala Selectividad
3. Definición de la psicometría.
La definición del concepto de Psicometría es compleja debido a las múltiples facetas
que involucra el significado de etimológico del término, formado por las palabras
griegas “psykhe” y “metrum” literalmente es “medida de la psique”, algunas definiciones
que se han dado de psicometría son:
● La psicometría es la parte de la psicología que se encarga de la medición de
variables psicológicas.
● La psicomotricidad comporta un conjunto de teorías de la medición, dentro de
las cuales se ha desarrollado métodos y técnicas específicas de medida,
utilizando la estadística como base para la elaboración de dichas técnicas.
● Es una disciplina metodológica que, dentro de la psicología, busca la medición y
cuantificación de variables psicológicas.
Una de las tareas más importantes de la psicometría han sido, entre otras:
● Desarrollar modelos y teorías para realizar procesos de medición precisos y
válidos.
● Establecer condiciones para llevar a cabo los procesos de medición.
● Proporcionar métodos e instrumentos para llevar a cabo la medición.
● Construir y evaluar instrumentos de medida.
● Brindar normas para regular el correcto uso de los ítems.
X (xi).
4.1.2. Producto
Al igual que en el caso del sumatorio, existe un operador llamado producto o
productorio que se simboliza como Π e indica que se debe proceder a multiplicar el
𝑛
conjunto de datos dados.Por ejemplo, en la expresión ∏ 𝑥𝑖 ,hay que multiplicar todos
𝑖=1
4.1.3. Desigualdades
La desigualdades son relaciones que se simbolizan mediante:
- < menor que
- > mayor que
- ≥ mayor o igual que
- ≤ menor o igual que
4.2. Estadísticos
4.2.1. Estadísticos y parámetros
Una población es el conjunto de todos los elementos que cumplen ciertas propiedades
y sobre los que se van a obtener datos para realizar un estudio estadístico (una prueba,
un test psicológico o analizar un fenómeno).
La muestra es el conjunto finito de datos tomados de la población o un subconjunto
observado.
Un parámetro es toda función definida sobre los valores numéricos de una población,es
decir, las características poblacionales que se quieren investigar.Los parámetros se
2
notan con letras griegas: media (µ), desviación típica estándar (σ), varianza (σ ),
correlación entre dos variables X e Y (ρ𝑥𝑦).
Un estadístico es todo una función definida sobre los valores numéricos de una
muestra; son las características muestrales que queremos investigar. Por ejemplo, la
media aritmética de las puntuaciones en un test de razonamiento abstracto en los
estudiantes de Psicología de la Udima es un estadístico. Para simbolizar los estadísticos,
2
se usan los siguientes símbolos: media (𝑥), desviación estándar (s), varianza (𝑠 )
,correlación (rxy).
- Varianza:
4.2.4. Análisis de regresión lineal, simple, correlación y covarianza
El análisis de regresión lineal simple es un procedimiento estadístico mediante el cual
se busca presidir el comportamiento de una variable Y denominada dependiente
mediante una segunda variable X llamada independiente.
Algunos de los criterios para interpretar los coeficientes de correlación son los
siguientes:
● El coeficiente de correlación expresa en qué grado los sujetos (u objetos,
elementos, etc.) están ordenados de la misma manera en dos variables
simultáneamente.
● Los valores extremos son 0 (ninguna relación) y ± 1 (máxima relación). Si r = 1, el
orden (posición relativa) de los sujetos es el mismo en las dos variables. Como ya
se ha dicho, coeficientes próximos a 0 expresan poca relación, y coeficientes
cercanos a 1 expresan mucha relación; si es negativa (– 1) la relación es inversa,
es decir, a medida que aumentan los valores de X disminuyen los de Y o
viceversa, y si es positiva (+ 1) la relación es directa, a medida que aumentan los
valores de X aumentan también los de Y.
● La magnitud del coeficiente es independiente del signo: r = – 0,95 expresa más
relación que r = 0,75; el que la relación sea positiva o negativa es algo distinto de
que sea grande o pequeña.
● Suponer que una correlación muy alta entre dos variables implica que tienen
una media parecida es un error muy común; una correlación alta significa
simplemente que los dos elementos son ordenados de manera parecida, pero
no que tengan valores promedio parecidos.
● Un coeficiente de correlación no es una proporción. Una correlación de r = 0,5
no quiere decir que haya un 50 por 100 de variabilidad común entre las
variables, pues este es el concepto de coeficiente de determinación, como se
verá más adelante.
● No es necesario que las dos variables (X e Y) estén medidas en la misma escala o
en las mismas unidades, ya que, como hemos visto, el cálculo se hace a partir de
puntuaciones típicas.
● La correlación no implica causalidad. El que dos variables covaríen o se den
juntas no quiere decir que una sea causa de la otra; puede existir una
correlación alta entre la inteligencia y el tamaño del dedo medio, pero esto no
implica que tener el dedo más largo sea causa de una mayor inteligencia.
● Cuando se tienen diversas variables y se han calculado correlaciones entre
parejas de variables, es común (y más práctico) organizarlas en la denominada
matriz de correlaciones, como se puede observar en la tabla 1 en la que se han
realizado correlaciones entre las puntuaciones de un test de ansiedad, el
rendimiento en el trabajo y las horas de sueño. En dicha tabla se puede observar
que la mayor correlación ocurre entre la ansiedad y las horas de sueño, y que
dicha relación es negativa, es decir, que a mayor ansiedad menos horas de
sueño. Se encuentra también una asociación fuerte y positiva entre el
rendimiento y las horas de sueño, en otras palabras, cuando aumentan las horas
de sueño también lo hace el rendimiento laboral. Finalmente se encuentra una
relación moderada (negativa) entre rendimiento y ansiedad, por lo tanto, a
medida que aumenta la ansiedad disminuye el rendimiento en el trabajo. La
diagonal de la matriz de correlación es siempre 1 (porque una correlación de una
variable consigo misma es 1). La diagonal superior está vacía porque no es
necesario repetir los mismos valores de correlación.
5.2. Sistemáticos
● Siempre se producen en una misma dirección: Proporción de copia
> 10% (Validez).
5.3. Aleatorios
● Consecuencia de los múltiples factores desconocidos que inciden
en toda medición y que introducen en la misma una cierta
variabilidad (Fiabilidad).
● Los errores conceptuales y los errores sistemáticos son consecuencia
fundamentalmente de un diseño defectuoso del proceso de medición.
Según los objetivos de la medición y las características del constructo a medir, hay test de
diferentes tipos, formatos y escalas que se verán a continuación.
1.1. Clasificación de los test
1.1.1. Test de rendimiento óptimo versus test de comportamiento típico
Según el tipo de rendimiento esperado clasificamos en dos grupos:
● Rendimiento óptimo
Se utilizan para la medición de variables de tipo cognitivo: conocimientos,
habilidades, actitudes, rendimiento… En este tipo de tés interesa medir la habilidad
del sujeto en la variable en cuestión y suelen ser empleados en psicología y en
educación.
Por ejemplo, un examen de la Udima es un ejemplo de este tipo de
prueba.Generalmente estos test, las respuestas de los sujetos son correctas, incorrectas
y la puntuación total viene dada por la suma de las respuestas correctas, dando lugar a
escalas acumulativas.
● Comportamiento típico
No hay una respuesta que se pueda considerar correcta, pues lo que interesa es evaluar
cómo se comportan típicamente las personas, sus preferencias o actitudes.Se usan
para medir variables no cognitivas como intereses, preferencias, actitudes…
Ítem de escala: El examinador debe elegir aquella que represente mejor su postura
respecto a la afirmación que contiene elite en este tipo de ítem se suele llamar ítem de
escala.
Los objetivos de un proceso de medición puede ser muy variados, al igual que sus usos e
interpretaciones. Por ello es muy importante que los objetivos del test estén bien definidos, al
igual que la población a la que van dirigidos.
Es necesario también que la prueba esté ensamblada y organizada correctamente, que tenga el
encabezado a continuación se deben especificar las instrucciones, y luego se suele presentar
el ejemplo, después del mismo se suelen presentar los ítems.
Es importante que los ítems tengan un orden lógico y que si la prueba está compuesta por
ítems de distintos formatos, estos aparezcan agrupados de acuerdo al formato. En el caso de
que el test incluya algunos ítems más difíciles que otros, hay que procurar que no queden
acumulados al final o al comienzo (a no ser que ese sea el objetivo), pues si los ítems difíciles
quedan al comienzo de la prueba, las personas se pueden desmotivar y, si quedan al final, el
cansancio o la falta de tiempo puede influir en que el examinado no los pueda responder. De
igual manera, en las pruebas de comportamiento típico, suele haber preguntas
comprometedoras. Estas preguntas no se suelen incluir al comienzo de la prueba, pues
pueden resultar molestas para el examinado en un primer momento.
Es fundamental minimizar los errores causados por una mala organización del test o una
pobre comprensión de la forma de responder (saltarse preguntas, partes del test, confundir
respuestas, que no sea suficiente el tiempo, etc.).
Sin embargo, hay que decidir varios asuntos sobre los que no existe aún un consenso general:
● ¿Cómo se van a puntuar aquellas preguntas no contestadas? Algunos las consideran
como incorrectas, mientras que otros no las tienen en cuenta para los análisis, o
simplemente se les adjudica en la base de datos la etiqueta «no sabe o no responde» a
la que se suele asignar de forma nominal un número 8 o 9.
● ¿Cómo se va a manejar el acierto por azar? Algunos profesores, constructores de test
o aplicadores deciden utilizar fórmulas de corrección para las respuestas por azar, ya
que este problema llega a ser mayúsculo en algunos casos (por ejemplo, en pruebas
con formato de verdadero-falso en las que la probabilidad de acertar por azar es del
50%).
El control del azar se puede realizar mediante dos formas: indicando en las instrucciones que
no se deje ninguna respuesta en blanco (para homogeneizar el acierto por azar) o utilizando
las fórmulas de corrección que se presentan a continuación, las cuales operan de dos formas,
bien penalizando los errores cometidos o bien bonificando los ítems no respondidos.
Cuando se penalizan los errores, se asume que el examinado no conoce la respuesta correcta
y la acierta por azar:
Cuando se bonifican las omisiones, se parte del supuesto de que el examinado ha dejado en
blanco las respuestas que desconocía y solo ha contestado las que conocía. Al no responder
por azar ninguna pregunta, no hay errores, por lo que la fórmula añade una bonificación a la
puntuación total en el test que corresponde a los aciertos que hubiera tenido si en lugar de
dejar ítems en blanco los hubiera respondido al azar. La fórmula es:
Cuando el test es de rendimiento típico, no hay respuestas correctas o incorrectas, y se suele
asignar a los ítems un valor numérico diferente según cada categoría de respuesta.
Los test formados por ítems de respuesta construida, ya que suelen ser difíciles de puntuar,
pues implican componentes subjetivos a la hora de asignar valores numéricos a las
respuestas. Se pueden considerar unos criterios o rúbricas para lograr una puntuación más
objetiva.
4.1.2. Análisis de datos
En esta parte del plan se debe especificar cuáles son las técnicas estadísticas y teorías
psicométricas que se van a emplear para analizar los datos. Es importante definir cuál de las
dos teorías se va a utilizar, o si se van a combinar las dos para analizar las propiedades de los
ítems. También es fundamental determinar las técnicas que se van a usar para analizar la
fiabilidad y para acopiar evidencia sobre la validez de las inferencias que se van a realizar
con las puntuaciones del test y si se van a usar procedimientos de transformación o
equiparación de las puntuaciones. Las decisiones que se toman en este aspecto dependen
también de la naturaleza del test y de sus objetivos
5. Condiciones
Toda escala diseñada para la medición tiene un proceso con tres características importantes:
● Sistemático.
● Rigurosidad
● Trabajo en equipo
a) Conceptos implicados
● Contenidos curriculares
○ Declaraciones o descripciones declarativas o procedimentales que
forman el corpus doctrinal de una disciplina
● Procesos
○ Niveles de complejidad en la resolución de la tarea
● Descriptores
○ Formulaciones sintéticas de las competencias que habrán de ser
medidas por los ítems que se elaboren. Cada uno de ellos puede
generar varios ítems.
b) Matriz (tabla)de especificación
Un mismo contenido asociado a dominios cognitivos diferentes puede dar lugar a diferentes
descriptores.
- Tareas de especificaciones
a) Determinación de las Competencias (procesos)
b) Determinación de los Contenidos
c) Determinación de los Descriptores
d) Determinación del peso relativo de cada casilla
e) Elaboración de los ítems especificados para cada descriptor
4) Diseño del test.
5) Redacción de los ítems.(Consulta a expertos y estudio de campo)
6) Análisis de la calidad de los ítems.
7) Estudio de la fiabilidad del test.
8) Estudio de la validez del test.
9) Elaboración de las normas de aplicación, interpretación y baremación de las
puntuaciones.
6. Diseño del test
● Número de ítems
● Tipos de ítems y número de alternativas de respuesta
● Cómo cuantificar las alternativas de respuesta
● Tiempo máximo para resolver el test o las tareas indicadas
● Secciones en que se divide el test
7. Redacción de ítems
● Es una de las fases más importante, ya que en ella se debe conectar los objetivos y
fines del test representados en la matriz de contenidos con la evidencia empírica de
los sujetos.
● Haladyna, Downing y Rodríguez (2002) han propuesto 31 directrices para la
construcción de ítems de elección múltiple.
● Capítulo 3
8. Análisis de la calidad de los ítems
9. Análisis de fiabilidad
10. Validez
- Fases:
1. Definir la variable objeto de estudio.
2. Definición de un marco teórico del atributo a medir.
3. Tabla o matriz de especificaciones.
4. Redacción de los ítems o enunciados.
5. Determinar las opciones o categorías de respuesta de los ítems.
6. Realizar un pilotaje de la escala con una muestra representativa para decidir
qué ítems permanecerán en la escala y cuáles no.
7. Análisis de la calidad de los ítems.
8. Fiabilidad y Validez de la escala.
Las pruebas PISA, los exámenes finales de una asignatura, las pruebas de
selectividad son ejemplos de pruebas de rendimiento óptimo.
1.2. Ventajas
● Permite medir conocimientos generales o especializados, competencias, habilidades y
destrezas pre-establecidas en una taxonomía.
● Elimina el factor de ambigüedad (o de polisemia) propio de las respuestas abiertas.
● Su aplicación necesita menos tiempo que las preguntas de desarrollo.
● La cantidad de preguntas a utilizar depende del grado de medición que se vaya a
utilizar: un contenido específico, la materia de un tema general, un control trimestral o
semestral, una prueba final, etc.
● Los puntajes son más objetivos y pueden usarse para obtener una muestra
representativa de un área de conocimiento.
● Se pueden usar prácticamente para todo tipo de contenido y disciplinas.
● Se pueden emplear para medir varios tipos de capacidad intelectual o diferentes fases
del aprovechamiento.
● Permiten la evaluación de resultados en áreas en que los problemas no son
simplemente verdaderos o falsos, sino que admiten diferentes grados de propiedad.
● Son flexibles: permiten evaluar aprendizajes sencillos y complejos.
● La corrección es rápida e incluso puede mecanizarse.
1.3. Limitaciones
● No permiten la medición de aspectos de producción como los ítems de respuesta de
desarrollo.
● Presentan ciertas dificultades en su construcción, como saber determinar con
precisión qué contenido se está midiendo y cómo se está haciendo (habilidad
cognitiva).
● A veces, no es fácil elaborar distractores posibles para los enunciados del ítem.
● No pueden ser empleados para medir todos los resultados de aprendizajes posibles.
● Es susceptible que las respuestas se deban al azar aunque es un factor que se puede
neutralizar psicométricamente.
● Pueden penalizar a alumnos que no poseen una buena lectura y comprensión lectora.
● Pueden transmitir el mensaje- no intencionado- de que reconocer la respuesta correcta
es el objetivo (de la enseñanza).
● Capacidad limitada para medir dimensiones cognitivas de alto nivel y complejas tales
como la creatividad y la habilidad para resolver problemas.
● Dificultad en la construcción y redacción de enunciados.
● Se reducen a evaluar resultados de aprendizaje sólo a nivel verbal (como todos los
demás tipos de ítems).
● Demandan mucho tiempo en su elaboración.
1.4. Normas básicas de ISM
● Sobre el Contenido
1) Alinear el ítem con la tabla de contenidos o con las especificaciones de los
mismos.
- Ejemplo correcto
- Ejemplo deficiente
● Sobre la Base
1) Incluir una sola idea al elaborar el ítem, es decir, presentar solamente un
problema.
2) Incluir los elementos estrictamente necesarios para comprender el sentido
correcto de la base, de tal manera que, sin leer las opciones, el sujeto
comprenda lo que debe realizar.
3) Si el ítem requiere de una instrucción, ésta debe indicarse en la base.
4) Omitir términos que den claves de la respuesta correcta.
5) Redactar el enunciado en forma afirmativa. En caso de que el dominio de la
prueba solicite que el sujeto identifique elementos que no cumplan con alguna
condición o regla, se deberá emplear palabra como: excepto.
- Ejemplo 1:
- Ejemplo 2:
- Ejemplo 3:
- Ejemplo 4:
- Ejemplo 5:
- Ejemplo 1:
- Ejemplo 2:
- Ejemplo 3:
- Ejemplo 4:
- Ejemplo 5:
- Ejemplo 6:
- Ejemplo 1:
- Ejemplo 2:
- Ejemplo 3:
- Ejemplo 4:
- Ejemplo 5:
2. Tipos de ítems
● Cuestionamiento directo
Son enunciados interrogativos a los que se debe responder a través de la elección de una
respuesta de una serie de opciones. Todas las opciones deben ser parcialmente correctas, pero
sólo una lo es completamente.
- Directrices:
1) Procurar que las opciones de respuesta no sean más extensas que la base.
2) Incluir en la base la información necesaria para evitar que se repitan palabras
en las opciones de respuesta.
3) Si la base termina en punto final o signo de interrogación, las opciones inician
con mayúscula.
4) Si la base termina en dos puntos ( : ) o puntos suspensivos (…), las opciones
inician en minúsculas, a menos que sean nombres propios.
- Ventajas:
➢ Puede aplicarse un gran número de reactivos en poco tiempo.
➢ Pueden evaluarse objetivos de bajo nivel.
➢ La calificación suele ser rápida y objetiva.
➢ Da confianza al alumno porque tiene la certeza de que la respuesta correcta
está entre las opciones
- Desventajas:
➢ Se requiere mayor tiempo para redactar los reactivos.
➢ No son útiles para cuando se desea demostrar el trabajo.
➢ A menudo es difícil encontrar las opciones adecuadas.
➢ La habilidad de lectura puede influir en el desempeño.
- Ejemplo 1:
- Ejemplo 2:
- Ejemplo 2:
- Ejemplo 3:
● Completamiento
Son preguntas que deben contestarse con una palabra, fecha, número o una frase. Se dividen
en dos tipos:
1. “Frases incompletas”, que sólo presentan un espacio en blanco para contestar.
2. De tipo “canevá” que presentan más de un espacio en blanco para contestar,
intercalando con partes de la frase que le dan sentido.
- Directrices
a. No incluir más de tres espacios en blanco en un mismo reactivo.
b. El enunciado debe completarse con el o los conceptos importantes para el
contenido evaluado.
c. Escribir las opciones de respuesta en minúsculas, salvo en los casos en que la
puntuación del reactivo requiera utilizar letra en mayúscula.
d. El espacio en blanco no debe ir al inicio o al final de la base del reactivo.
e. Nunca se debe omitir el verbo.
f. Los espacios o líneas para contestar deben ser uniformes para que su tamaño
no sugiera la respuesta.
- Ejemplo 1:
- Ejemplo 2:
- Ejemplo 3:
- Ejemplo 4:
- Ejemplo 5:
- Ejemplo 6:
- Ejemplo 7:
- Ejemplo 8:
- Ventajas:
➢ Se reduce la posibilidad de adivinar, pues el examinado tiene que construir una
respuesta.
➢ Es fácil escribir los reactivos.
➢ Puede evaluarse una amplia gama de respuestas.
- Desventajas:
➢ La calificación puede ser lenta.
➢ No son útiles cuando se buscan resultados complejos o extensos.
➢ Se puede confundir al examinado al solicitarle información no esencial.
➢ Se valora la memorización.
● Ordenamiento
Consiste en presentar varias proposiciones (serie de hechos, conceptos o datos) a las cuales el
que responde deberá dar un orden lógico o cronológico.
- Directrices:
1) Para su elaboración se requiere contar con un material suficientemente
homogéneo.
2) El material debe referirse a un sólo tema, periodo, espacio geográfico.
3) La respuesta debe tener un orden lógico, cronológico o de jerarquización.
4) Para su elaboración se requiere contar con un material suficientemente
homogéneo.
5) El material debe referirse a un sólo tema, periodo, espacio geográfico.
6) La respuesta debe tener un orden lógico, cronológico o de jerarquización.
- Ventajas:
● Se puede evidenciar la capacidad de observación, de reflexión y de
asimilación de los conocimientos.
● Se puede conocer el análisis y la discriminación que el examinado realiza.
- Desventajas
● Se requiere tiempo y capacidad de síntesis para la elaboración de estas
preguntas.
- Ejemplo 1:
- Ejemplo 2:
- Ejemplo 2:
- Ejemplo 3:
● Elección de elementos
En este formato se presenta una pregunta, instrucción o afirmación, seguida de varios
elementos que la responden o caracterizan; sin embargo, no todos los elementos son
parte de la respuesta correcta, por lo que el sujeto deberá seleccionar solamente
aquellos que corresponden a la consigna dada.
Estos ítems evalúan si el estudiante identifica elementos de una misma categoría y los
clasifica o agrupa de acuerdo con un criterio dado.
- Directrices:
1) Emplear listas de cuatro a siete elementos.
2) No mezclar elementos de diferente campo semántico en los listados.
3) Incluir en todas las opciones de respuesta el mismo número de elementos.
4) Evitar que un elemento del listado aparezca en todas las opciones de respuesta.
5) Ordenar las opciones de respuesta de manera ascendente.
6) Separar los elementos de las opciones de respuesta con coma y espacio (1, 2,
3, 4).
7) Que sean señalados con números arábigos y se coloque en forma de columna
- Ventajas
● El examinado puede seleccionar entre los elementos presentados.
● Con la inclusión de varias alternativas de respuesta es posible detectar las
deficiencias más comunes de los examinados.
- Desventajas
● La selección requiere de memorización.
● Los reactivos evalúan una sola idea y miden con mayor efectividad los
conocimientos que no están sujetos a discusión dentro de un aprendiz
- Ejemplo 1:
- Ejemplo 2:
- Ejemplo 3:
● Relación de columnas
En este formato dos listados de elementos han de vincularse entre sí, conforme a ciertos
criterios. Las opciones presentan distintas combinaciones entre las que el examinado debe
reconocer la que asocia correctamente los dos listados.
Este formato evalúa objetivos de aprendizaje en los que el estudiante debe mostrar dominio
en actividades tales como relacionar, vincular, clasificar, aplicar principios o inferir.
- Descriptores
1) Establecer un criterio de relación claro entre los elementos de las listas.
2) Construir listas en las que los elementos y relaciones sean del mismo tipo y
naturaleza.
3) Asignar un título a las columnas, para que el examinado identifique los
elementos por relacionar.
4) Organizar las opciones, de tal forma que siempre se presente un elemento de la
primera columna con otro u otros de la segunda.
5) Incluir al menos un elemento más en la segunda columna. La columna que
menos elementos contenga será de dos (lado izquierdo) y la que contenga más,
no deberá exceder de siete (lado derecho).
6) Utilizar números en la columna izquierda y letras minúsculas en la derecha.
7) Separar los elementos de las opciones de respuesta con coma y espacio (1a,
2b, 3c, 4d).
8) Ordenar las opciones de respuestas de manera ascendente
9) Ofrecer instrucciones claras.
10) Utilizar un tema homogéneo.
11) Usar un número desigual de entradas en las columnas
- Ventajas:
● Son una forma eficiente de obtener abundante información.
● Son fáciles de construir.
● La calificación suele ser rápida y objetiva.
- Desventajas
● Se centra en reactivos de nivel bajo.
● Se requiere temas homogéneos.
- Ejemplo 1:
- Ejemplo 2:
● Preguntas de Tronco Común
Algunos ítems están ligados unos a otros; son los llamados de “tronco común”, que
consisten en un estímulo o contexto a partir del cual se desprenden algunos ítems
relacionados con él. El estímulo puede ser un texto, una gráfica, una tabla, una imagen
o un esquema, por ejemplo. Los ítems asociados evalúan de forma integrada diversos
conocimientos y habilidades.
- Directrices:
1) 1. Se plantea un problema, texto gráfico, imagen esquema, etc., a partir de éste
se desprende un máximo de cinco reactivos.
2) Los ítems son independientes aun cuando necesitan la información
proporcionada por el ítem.
3) Cada ítems puede medir un aspecto distinto del mismo tema y tener diferente
nivel taxonómico.
4) El contexto podrá incluir distintos tipos de información, tales como:
a) procedimientos realizados previamente
b) datos iniciales o diagnósticos c. datos numéricos, esquemas,
diagramas, imágenes, dibujos o tablas que complementen la
descripción general
5) Los elementos del contexto deben incluir datos relevantes para comprender el
sentido correcto de la situación
6) Debe verificarse que los ítems estén asociados al contexto, es decir, que
solamente puedan ser resueltos a partir de la lectura del planteamiento o
contexto; de no ser así, entonces el ítem es independiente y no debe ser parte
del tronco común.
7) Puede agregarse información complementaria sobre el problema en los ítems,
a fin de dar secuencia lógica al tronco común.
8) Los ítems deben ser independientes, es decir, la información contenida en uno
no puede sugerir la solución de otro, ni debe ser requisito para contestar algún
otro.
- Ventajas:
● Evalúan conocimientos y habilidades interrelacionadas.
● Desde la comprensión de conocimientos hasta la aplicación de conocimientos.
● Consta de un segmento de información y se formulan diferentes reactivos.
Desventajas
● En ocasiones es difícil encontrar textos adecuados a cada área de
conocimiento.
● Puede confundir al examinado cuando las respuestas no están implícitas en el
texto
¿A qué tipo de ítem corresponde cada uno?
PARTE 3: ÍTEMS DE VERDADERO Y FALSO
Aquellos que solo tienen dos opciones de respuesta, por ello también se llaman ítems
dicotómicos.
Estos ítems son más difíciles de elaborar que los de elección múltiple porque la afirmación
verdadera tiene que ser claramente correcta y la falsa, obviamente incorrecta, además existe
un 50% de probabilidad de que sean acertados por azar. Tienen menos capacidad diagnóstica.
Por ello, en algunas variantes de este tipo de formato se pide a los examinados que cambien
el enunciado falso por uno verdadero después de que han contestado.
- Normas:
1) Incluir en cada enunciado una sola idea central e importante.
2) Se debe redactar de forma precisa para que pueda ser evaluado como
verdadero o falso, evitando términos ambiguos como: «posiblemente»,
«frecuentemente», «algunas veces», etc.
3) Los enunciados deben tener una estructura sencilla.
4) Utilizar poco los negativos y la doble negación.
5) Evitar dar claves verbales, por ejemplo, los enunciados que utilizan palabras
como «siempre», «nunca», «todo», «ninguno», etc. tienden a ser falsos.
PARTE 5: SEMIABIERTO O RESPUESTA CORTA
Se pide al examinado que proporcione la respuesta en lugar de seleccionarla. El enunciado es
similar al de elección múltiple pero sin las opciones. Este tipo de ítems presentan ciertos
inconvenientes: en primer lugar, es difícil redactar enunciados en los que solo exista una
respuesta correcta; en segundo lugar, cuando la calificación es automática, el examinado debe
responder exactamente la palabra que se está pidiendo, ya que si tiene algún error ortográfico,
si responde en plural, si utiliza coma en lugar de punto en una respuesta numérica, etc., la
respuesta será puntuada como incorrecta incluyendo error en el proceso de medida.
- Normas:
1) Enunciar el ítem para que sea posible solo una respuesta breve.
2) No hay que pedir que los examinados «completen» partes de un enunciado que
no sean importantes (por ejemplo, artículos como «un», «el», etc.).
3) Es preferible utilizar preguntas en lugar de enunciados incompletos.
4) Es mejor colocar el espacio para responder al final del enunciado.
5) Evitar claves de respuesta, por ejemplo, poner «un» o «una» al final del
enunciado puede proporcionar una clave de la respuesta.
6) Con respuestas numéricas hay que aclarar el nivel de precisión esperado en la
respuesta (número de decimales) y las unidades en que se debe expresar
PARTE 6: DE ENSAYO O PREGUNTA ABIERTA
Los ítems de ensayo o pregunta abierta permiten al examinado tener libertad en la respuesta,
confiriendo importancia a la capacidad de producir, integrar y expresar ideas.
- Normas:
1) Se deben usar los ítems de ensayo solo para evaluar aspectos cognitivos
complejos.
2) Relacionar las preguntas lo más directamente posible con los objetivos del test
y con la matriz de especificación de contenidos.
3) Las preguntas deben formular una tarea clara y bien definida, no deben ser
vagas o demasiado generales. Al examinado le debe quedar claro lo que se
está pidiendo. Se debe evitar cualquier ambigüedad.
4) Es importante conceder suficiente tiempo y espacio para responder y sugerir
tiempo límite en el caso de ser varios ítems.
5) No es adecuado permitir que el examinado elija las preguntas que quiere
contestar, especialmente en pruebas de aprendizaje, pues esto ocasiona la no
comparabilidad de los resultados y aumenta aún más la subjetividad de la
medida
- Sugerencias para la clasificación:
1) Se deben usar los ítems de ensayo solo para evaluar aspectos cognitivos
complejos.
2) Relacionar las preguntas lo más directamente posible con los objetivos del test
y con la matriz de especificación de contenidos.
3) Las preguntas deben formular una tarea clara y bien definida, no deben ser
vagas o demasiado generales. Al examinado le debe quedar claro lo que se
está pidiendo. Se debe evitar cualquier ambigüedad.
4) Es importante conceder suficiente tiempo y espacio para responder y sugerir
tiempo límite en el caso de ser varios ítems.
5) No es adecuado permitir que el examinado elija las preguntas que quiere
contestar, especialmente en pruebas de aprendizaje, pues esto ocasiona la no
comparabilidad de los resultados y aumenta aún más la subjetividad de la
medida
1. Medición de actitudes
En el método de comparación por pares, los jueces tienen que comparar dos a dos todos los
ítems que componen la escala, indicando cuál de los dos es más favorable hacia el constructo.
Cada juez debe realizar n (n – 2) / 2 juicios (siendo n el número de enunciados). Por ejemplo,
10 enunciados requerirían 45 juicios, y 40 enunciados, 780 juicios.
Para construir una escala de actitud de este tipo, se deben seguir varios pasos:
1) Especificar lo más claramente posible cuál es la variable que se pretende medir. Esta
definición debe involucrar una revisión conceptual y una especificación del dominio
de actitud que se desea abarcar. Por ejemplo, si se quiere evaluar la actitud hacia el
aborto, hay que definir qué es el aborto y delimitar el campo que cubre (a nivel social,
físico, ideológico, etc.).
2) Se debe recoger información para la construcción de los ítems que van a componer la
escala y con esa información se redactan los ítems. Debe haber desde ítems que
reflejen una postura muy desfavorable hasta ítems que reflejen posiciones muy
favorables, pasando por todos los escalones intermedios. Para construir los ítems, se
puede usar la teoría subyacente, se pueden realizar entrevistas previas con la
población objetivo o simplemente recurrir a la intuición y sentido común del
constructor.
3) La construcción de escalas es valorar la adecuación de los ítems recurriendo a una
muestra de jueces; esta es la particularidad más importante de una escala Thurstone
por el método de intervalos aparentemente iguales. Los jueces deben clasificar los
ítems en una escala que representa la favorabilidad o desfavorabilidad respecto a la
variable de actitud que se está midiendo. Al juez no se le pide que aporte su opinión
con respecto al enunciado, sino que clasifique cada ítem de acuerdo a si considera que
presenta una tendencia favorable o desfavorable hacia la variable. Es importante que
constituyan una muestra representativa de la población a la que va a ir dirigido el test.
Si esto no es posible, se puede utilizar también un muestreo a propósito que cumpla
con los objetivos de la investigación que se está llevando a cabo. Otra posible
solución es recurrir a expertos en la materia que se está evaluando.
4) Calcular el valor escalar del ítem, que viene dado por la mediana de las respuestas de
los jueces a dicho enunciado (recuérdese que la mediana es el valor que divide la
muestra por la mitad, es decir, deja por debajo el 50% de las observaciones)
5) Definir los ítems que compondrán la escala usando un criterio de ambigüedad; en la
medida en que los jueces concuerden con la clasificación del enunciado, el ítem será
menos ambiguo. En términos estadísticos, un ítem será menos ambiguo si tiene una
dispersión menor (menor desviación típica o menor rango intercuartil). Generalmente
se considera que un ítem es ambiguo cuando el rango intercuartil supera el valor 1,40.
6) Elegir los ítems de acuerdo a su valor escalar. Se debe procurar seleccionar un ítem de
cada intervalo del continuo (en el caso del ejemplo sobre síndrome de Down, se
cuenta con 11 intervalos), por lo que un test bien balanceado podría estar conformado
por 22 ítems (dos de cada intervalo); sin embargo, esta uniformidad es difícil de
conseguir, pues los ítems poco ambiguos se pueden acumular en algunos intervalos
más que en otros. Para evitar esta consecuencia, se pueden tomar aquellos ítems cuyo
valor escalar está más próximo a los límites y mitades de los intervalos.
7) Administrar el test a la muestra de examinados que se ha seleccionado para realizar la
valoración. A diferencia de los jueces, los sujetos de esta muestra sí deben expresar su
opinión, por lo tanto se les pide que señalen los enunciados con los que están de
acuerdo. Para obtener su puntuación total, se promediará los valores escalares
correspondientes a los ítems que han señalado. Por ejemplo, si un sujeto ha marcado
que está de acuerdo con tres ítems cuyos valores escalares son: 8,5, 7,5 y 5,5, su
puntuación en el test será 7,16 (8,5 + 7,5 + 5,5 / 3 = 7,16)
Thurstone daba a los jueces tarjetas de la A a la K pidiéndoles que colocaran sobre la letra A
aquellas afirmaciones que consideraban más desfavorables y sobre la K las afirmaciones más
favorables, las demás letras correspondían a posiciones intermedias, siendo la F la posición
más neutral.
Actualmente, en lugar de utilizar tarjetas separadas, se usa un formato más práctico en el que
los jueces señalan el grado de favorabilidad de las afirmaciones marcando con una X en el
lugar apropiado.
Si conocemos (aplicando la misma fórmula de la mediana) que los cuartiles primero y tercero
del ítem 1 son 3,93 y 5,87, respectivamente, y que los cuartiles del ítem 2 son 5 y 8,95,
podemos determinar la ambigüedad de los ítems:
● Ambigüedad ítem 1: 5,87 ‒ 3,93 / 2 = 0,94.
● Ambigüedad ítem 2: 8,95 ‒ 5 / 2 = 1,97
Como la ambigüedad del ítem 2 supera el valor deseado 1,4, sería adecuado pensar en la
posible eliminación de dicho ítem de la escala
3. Método Likert
- Objetivo: Aprender a identificar y a manejar correctamente algunas normas para la
elaboración de ítems tipo Likert que son empleados en la medición de actitudes o
creencias.
- Contenido:
1. 1. Ítems Tipo Likert (ITL)
1.1. ¿Qué son?
1.2. Ventajas
1.3. Limitaciones
1.4. Normas básicas
1.5. Ejercicios: Elaboración de ítems para una escala tipo Likert
- Fases:
1) Definir la variable objeto de estudio.
2) Definición de un marco teórico del atributo a medir.
3) Tabla o matriz de especificaciones.
4) Redacción de los ítems o enunciados.
5) Determinar las opciones o categorías de respuesta de los ítems.
6) Realizar un pilotaje de la escala con una muestra representativa para decidir
qué ítems permanecerán en la escala y cuáles no.
7) Análisis de la calidad de los ítems.
8) Fiabilidad y Validez de la escala
● Tipos de Ítems
Dado que el propósito de cada ítems en la escala es obtener una
varianza fiable con respecto a la actitud, la mayoría de los ítems
deberían ser moderadamente positivos o moderadamente negativos, no
muy extremos.
Debe cuidarse la distribución homogénea de ítems positivos y ítems
negativos.
- Ejemplos. Deficiencias.
➢ Pienso que no soy importante para mi familia.
➢ Puedo controlar mis emociones.
➢ Cuando veo una situación angustiosa, sé calmarme ya que no me duran
mucho los enfados.
➢ Si me enfado con alguien, intento calmarme y cuando lo consigo, le
explicó las razones de mi enfado.
➢ La idea de dirigir un equipo de trabajo me gusta y creo que sirvo para
ello.
➢ Considero que las decisiones deben tomarse en equipo ya que muchas
cabezas piensan mejor que una sola
➢ Me pregunto por mi vocación profesional, personal o ambas.
➢ Me propongo objetivos para mejorar, ya sean académicos, personales o
profesionales.
➢ Cuando trabajo en equipo promuevo la integración, participación y
escucha entre los miembros del equipo.
➢ Cuando trabajo en equipo expreso los aspectos positivos, logros
conseguidos u oportunidades de aprendizaje.
➢ Mis trabajos escritos y exposiciones orales académicas siguen la
estructura: introducción, desarrollo y conclusión.
➢ Me pongo en el lugar del otro, de modo que puedo comprender lo que
piensa, siente o su modo de actuar.
1. Escala de ordenamientos
Los examinados ordenan, según su preferencia, objetos o individuos en relación con una
característica. Pueden ser de puntos, en las que la persona puntúa las alternativas presentadas;
de ordenación, en las que el examinado ordena los estímulos presentados de acuerdo a un
mayor o menor grado de favorabilidad, o de comparaciones binarias, en las que se ofrecen
parejas y el sujeto elige la alternativa que prefiere.
2. Escala valorativa sumatoria
Es una variación de la de ordenación en la que se busca obtener una jerarquía de objetos,
personas, grupos, etc. respecto a una característica o variable
3. Escalas de intensidad
Las escalas de intensidad miden la evolución o grado de la actitud.
4. Escala Guttman
Se le presenta al examinado un conjunto de ítems o enunciados jerarquizados u ordenados. Se
parte de la idea global de que si un sujeto está de acuerdo con una afirmación muy favorable,
también lo estará con ítems menos favorables; si esto no sucede así, se puede hablar de que
ha ocurrido un «error Guttman», indicando una escalabilidad deficiente o un ítem poco
adecuado.
Cuando se tiene una escala Guttman perfecta, la organización de los datos da lugar a una
matriz triangular y a partir de la puntuación de un examinado en la escala se puede predecir
cuál ha sido la respuesta dada a cada uno de los ítems.
En la práctica es casi imposible conseguir una escala Guttman perfecta. Por ello se hace
necesario evaluar el error en el modelo estudiando qué tan desviado está el patrón de un
examinado del patrón ideal.
Por ejemplo, tomemos el sujeto C con una puntuación de 2 en el test; el patrón ideal es 1100,
si el sujeto, en su lugar, ha seleccionado 1010, se dice que hay dos «errores Guttman», pues
se deberían hacer dos cambios para llegar al patrón ideal. Cuantos más errores Guttman
presente un ítem, menos adecuado será utilizarlo en la escala
Tema 4: Fiabilidad
1. Introducción y concepto
La fiabilidad es el grado de precisión que tiene un test. Las mediciones en psicología han de
ser fiables y para ello es necesario reducir al máximo el error de medida. Si dos test que
miden el mismo constructo psicológico. Una persona que tiene una alta puntuación en un test
deberá tenerla alta también en un test paralelo que mida la misma habilidad, si no es así, uno
de los dos test (o ambos) estarán midiendo de forma imprecisa.
Para estudiar la fiabilidad se suele utilizar la teoría clásica de los test (TCT).
Cuanto más grande sea el error, más se aleja la puntuación empírica de la verdadera y más
imprecisa es la medida. El error puede ser causado por múltiples fuentes, como la distracción,
el cansancio, el azar, la copia, etc., y no siempre perjudica al examinado, a veces lo favorece,
como en el caso de acierto por azar o de la copia.
No hay motivo para pensar que los errores puedan estar asociados a las puntuaciones
verdaderas, en otras palabras, las personas con puntuaciones más bajas (o más altas)
no implican más (o menos) error de medida
Si se aplican dos test correctamente, no existe motivo para pensar que los errores
están correlacionados.
3. Coeficiente de fiabilidad
Es la correlación entre las puntuaciones obtenidas por los examinados en dos formas
paralelas de un test: X y X'.
Estimación :
➢ Formas Paralelas
● Se utiliza cuando se preparan dos versiones del mismo test.
● Los ítems son distintos en cada test pero con ambos se pretende medir
lo mismo.
● En este caso el coeficiente de fiabilidad es la correlación entre las dos
formas paralelas, respondidas por los mismos sujetos
● Si la correlación es alta, las dos formas del mismo test dan resultados
parecidos, ordenan a los sujetos de manera parecida, ambas formas son
intercambiables.
● Es necesaria siempre que se disponga de dos o más versiones del
mismo test
● Ejemplo.
➢ Test-Retest
● Los sujetos responden dos veces al mismo test, dejando entre las dos
veces un intervalo de tiempo.
● El coeficiente de correlación entre las dos ocasiones es lo que
denominamos coeficiente de fiabilidad test-retest.
● El intervalo de tiempo puede ser de días, semanas o meses, pero no tan
grande que los sujetos hayan podido cambiar.
● Ejemplo:
➢ Dos mitades:
● Este procedimiento consiste en dividir el test en dos mitades
equivalentes (normalmente una con los elementos pares y otra con los
impares).
● Para cada sujeto se obtiene la puntuación directa en ambas mitades.
● Disponemos entonces de dos variables (P e I), cuya correlación de
Pearson indica su grado de relación.
● Ejemplo:
4. Tipos de errores de medida
● Error de medida: diferencia entre la puntuación empírica y la verdadera.
Esta fórmula reproduce el coeficiente de fiabilidad del test si todos los ítems son
paralelos
● Ejemplo:
6. Interpretación de la fiabilidad
- Oscila entre 0 y 1.
- = 1 Fiabilidad perfecta.
- = 0 No hay Fiabilidad.
- Entre más se acerque a 1, mejor
- < .70 deficiente.
- Por debajo de 0,5 inaceptable
● LONGITUD
Si los ítems están bien formulados y resultan discriminativos, un test incrementará su
fiabilidad a medida que incrementa su longitud (número de ítems), aunque no lo hace de
manera lineal. Cuando se aumenta el número de ítems, aumenta también la fiabilidad. La
explicación intuitiva es que a medida que se incluyen más ítems, la variable está medida de
forma más precisa, pues la muestra de conducta evaluada será más grande.
Se puede usar una conocida fórmula propuesta por SpearmanBrown, de acuerdo a la cual si
se tiene un test X y se aumenta su longitud n veces, la fiabilidad del test alargado será:
La fórmula de Spearman-Brown también puede utilizarse para evaluar cuánto disminuiría la
fiabilidad de la prueba en el caso en que fuese necesario acortarla eliminando ítems, como en
el siguiente ejemplo.
La fórmula de Spearman-Brown también se puede utilizar para estimar cuánto habría que
alargar (o acortar) un test para obtener determinada fiabilidad, mediante la siguiente
expresión:
El test no es igualmente preciso en los diferentes niveles de rasgo que se miden con el test. Si
los ítems tienen una dificultad media, el test medirá con mayor precisión a las personas que
tienen un nivel de habilidad media, si los ítems tienen una dificultad alta, medirán con mayor
precisión a las personas de alto nivel.
Frente a dicha característica no es apropiado usar el mismo error típico de medida para todos
los examinados, por lo que se recurre a utilizar distintos errores en función de las
puntuaciones de las personas en el test, calculando empíricamente los valores
correspondientes de la siguiente forma:
Si se tiene solo una aplicación del test, se siguen los siguientes pasos:
● Se establecen las categorías en las que se van a dividir las puntuaciones (en el
siguiente ejemplo se realizarán tres categorías: altas, medias, bajas).
● Se divide la puntuación de cada examinado en dos mitades (por ejemplo, sumando las
respuestas a los ítems pares e impares, respectivamente).
● Se calcula la desviación típica de las diferencias entre ambas partes.
● El resultado es el error típico de medida para cada uno de los niveles de puntuación.
● Finalmente se usa el error típico para determinar el coeficiente de fiabilidad en cada
una de las categorías de puntuación.