Está en la página 1de 108

Apuntes de medición


Tema 1: Introducción a la psicometría

1. Breve historia de la medición en psicología


1.1. La medición en el mundo antiguo
La medición de los psicológico tiene sus raíces en el mundo antiguo:
- En 2200 a.C. Los chinos utilizaban los test para acceder a puestos del gobierno.
- Los griegos realizaban pruebas en contextos educativos para medir los procesos
físicos e intelectuales.
- S XIX surge un interés por generar criterios para clasificar a las personas, por lo
que se estudian criterios básicos para considerar si una persona padecía de
trastornos mentales o era insano.
- En 1838 el médico francés Equirol realiza un primer informe sobre el retardo
mental y sus características.
1.2. Bases de la psicometría moderna
- Las bases de la psicometría moderna se remontan a 1884 con los trabajos de
Francis Galton, creador de los primeros test sensoriomotores y abrió el primer
laboratorio antropométrico, donde se medían variables físicas (estatura, longitud
de los brazos, tamaño de la cabeza), sensoriales (agudeza visual y auditiva) y la
precisión en tareas motrices. Entre 1884- 1890 Galton midió a 17.000 personas y
demostró que los test objetivos producen puntuaciones significativas. Estos
primeros psicómetras se centraron en el estudio de variables que estaban
asociadas con la inteligencia, en este caso, Galton pensaba que las variables
físicas tenían relación con la inteligencia humana.
- James Cattell, fue alumno de Galton y Wundt. En 1890 utiliza por primera ver el
término de test mental y en 1891 funda el laboratorio de psicología de la
Universidad de Colombia en Estados Unidos. Al igual que Galton sus test eran de
carácter sensorial y motor, buscaba predecir la inteligencia a partir de medidas
sensoriomotrices que tomaba, sin embargo, al analizar los datos Galton y Cattell
encontraron que no existe asociación entre las variables que estudiaban y la
inteligencia.
- Clark Wissler, alumno de Cattell, realizó los primeros estudios básicos de
validez, relaciono los test mentales con el desempeño académico y mostró que
no existe asociación entre los test mentales como estaban establecidos y el
desempeño académico.

1.3. Desarrollo de la psicometría en el siglo XX


- A comienzos del S XX tuvieron lugar dos grandes avances en la psicometría
● Binet y Simon: en 1905 utilizaron tareas de carácter más psicológico y
cognitivo (juicios, razonamientos y comprensión) para medir la
inteligencia, lo que abrió la puerta a los test de inteligencia.
● Por otro lado, las mediciones individuales que se hacían al principio por
los investigadores eran muy costosas, ya que requerían mucho tiempo y
tenían altos costes.
- En 1917, Estados Unidos entra en la primera guerra mundial y por ello empieza a
hacer mediciones colectivas de atributos psicológicos, como la inteligencia para
la selección de soldados. Para ello crea dos test el “Army Alpha” y “Army Beta”
test de inteligencia adaptado a extranjeros y alfabetos que no hablen inglés,
estos test fueron creados por Robert Yerkes, que será un modelo para futuras
pruebas. Durante la guerra también se encuentra pruebas de personalidad
como la hoja de datos utilizadas por Woodworth para la detección de
neuroticismo (inestabilidad emocional)
- Las pruebas colectivas originadas en esta época se han utilizado hasta la
actualidad. La revisión de la escala de Binet y Simon “Test de Stanford- Binet”,
donde moldeó por primera vez el término de cociente intelectual (CI).
- Las pruebas colectivas tienen muchas ventajas ya que permiten una evaluación
masiva y relativamente barata a un grupo de personas. Pero en los años 20 se
usaron estas pruebas de manera indiscriminada lo que provocó la explosión de
la psicometría.
- En 1904, Spearman propone técnicas de análisis factorial y hace que se generen
otro tipo de test de aptitud y personalidad. Spearman planteó la teoría de la
inteligencia basada en la experiencia de un factor común al que denominó factor
g. Por lo que decía que la inteligencia de los individuos se puede ordenar en una
sola dimensión.

1.3.1. El aporte de los fundadores de la Sociedad de Psicometría


En 1935, es la época más importante de la psicometría (Thurstone, Cronbach,
Guilliksen, Guilford y McNemar) fundaron la Sociedad de Psicometría y crearon la
revista más importante del área. Especialmente miden la inteligencia humana.
● Thurstone: 1936, realizó contribuciones a las técnicas de escalamiento en la
medición de actitudes y formuló la teoría de las habilidades mentales primarias.
Argumento que la inteligencia tiene varios factores no como dijo Spearman con
un solo factor (g).
Los compuesto de inteligencia según este autor son:
- Habilidad espacial
- Memoria asociativa
- Razonamiento
- Habilidad perceptual
● Guilford: propuso la inteligencia como una serie de habilidades para procesar
diferentes tipos de información. Propuso seis tipos de operaciones (cognitivos,
memoria, retención, producción, convergente, producción divergente y
evaluación), cinco tipos de contenidos (visuales, auditivos, simbólicos,
semánticos y comportamentales) y seis tipos de productos ( unidades, clases,
relaciones, sistemas, transformaciones e implicaciones). La combinación de
estos produce 180 tipos de habilidades. Este autor extendió entonces a más de
100 factores o tipos de inteligencia.
● Gulliksen: escribió el libro The Theory of Mental Test.
● McNemar: escribió Psychological Statistic, influyó en la técnica estadística con
fuertes implicaciones en psicometría llamada análisis de varianza.
● Cronbach: desarrolló fórmulas para la fiabilidad de test psicológicos y
educativos como el “Alpha de Cronbach”. Además realizó la teoría de la
generalizabilidad (TG) que tiene en cuenta distintos errores (factores
individuales, situacionales, evaluador y del instrumento) y las combina con el
análisis de varianza (ANOVA).

1.4. Surgimientos de las teorías de los test


1.4.1. Teoría clásica de los test (TCT)
Frederick Lord y Melvin Novik, publican el libro The Theory of Mental Test Scores, y
reformulan el modelo lineal clásico que propuso Spearman y constituyen la llamada
teoría clásica de los test (TCT).
El TCT gira entorno a tres conceptos:
● Puntuaciones empíricas u observadas (X): las obtenidas cuando al sujeto se le
aplica el test.
● Puntuaciones verdaderas (V): lo que realmente tienen los examinados, las
puntuaciones sin error de medida.
● El error de medida (E): la medida no es perfecta y siempre hay un error.
Para establecer una relación entre estos tres conceptos se utiliza el modelo lineal de
Spearman, un modelo aditivo en el que la puntuación observada es la suma de la
puntuación verdadera más el error.

1.4.2. Teoría de respuesta al ítem


En el S XX surge la teoría de respuesta al ítem (TRI). Lord, propone una teoróa en la que
los examinados no tienen unas puntuaciones más bajas o altas dependiendo de los
ítems, además los estadísticos de los ítems (dificultad o discriminación) no dependen de
la muestra de sujetos como courre con la TCT. La TRI es una teoría que involucra
modelos logísticos y permite describir los niveles de habilidad de los examinados con
independencia de la muestra de ítems que compone el test y calcular los estadísticos
con independencia de la muestra utilizada.SE utiliza la función conocida como curva
característica del ítem (CCI) en el cual la probabilidad de acertar el ítem depende
exclusivamente del nivel de habilidad de los sujetos.

1.5. Nuevos desarrollos de la psicometría


- La aplicación de test adaptativos informatizados (TAI): utilizan la TRI para
evaluar a los examinados de forma adaptativa, mediantes el ordenador y pocas
preguntas, son mediciones fiables con un significativo ahorro de tiempo y
dinero.
- Los modelos de diagnóstico cognitivo: evaluaciones en las que la
retroalimentación es mucho más detallada, ofrece una puntuación global al
sujeto (como en el caso de la TCT) o determinar un nivel de habilidad (como en el
caso de la TRI), se busca en reconocer fortalezas y debilidades de los examinados
en procesos cognitivos en los que se puede descomponer la habilidad general
que mide el test.
1.6. Desarrollo histórico del escalamiento como área paralela a la
psicometría
Un área de gran influencia en la psicometría ha sido el escalamiento, es el campo de la
psicometría que tiene como objetivo la construcción de escalas de medida que
permitan representar numéricamente las propiedades o variables que están midiendo.

Se pueden escalar los sujetos, los estímulos y las respuestas. En sus orígenes el
escalamiento estuvo ligado a los estímulos, respondía a la necesidad de cuantificar las
relaciones existentes entre las características físicas de los estímulos y las sensaciones.
A estos métodos basados en los estímulos físicos se les denominó métodos psicofísicos.
Con los trabajos de Thurstone en 1929, se empiezan a proponer modelos de
escalamientos para la medición de atributos estrictamente psicológicos. Surge la
necesidad de medir atributos o variables psicológicas que no tenían relación o no
variaban con ningún continuo físico. A estos métodos se les denominó métodos de
escalamiento psicológico. Thurstone elaboró un modelo en que se realiza una escala en
un continuo psicológico y se sitúan estímulos sin recurrir a lo físico.

A partir de ahí se fueron detallando nuevas formas de escalamiento psicológico. En


1932, Likert propone un sistema de escala para medir las actitudes.
Guttman en la década de los cuarenta del siglo XX, desarrolla un método para escalar
conjuntamente todos los sujetos y los estímulos. Desarrolló el método del escalograma
de Guttman.
Coombs desarrolló un modelo igual que el de Guttman, escala a la vez sujetos y
estímulos.
Richardson en 1939, presenta los fundamentos del escalamiento multidimensional. A
diferencia de los métodos de escalamiento unidimensional en los que permiten ordenar
un conjunto de estímulos respecto a un único atributo o variable mediante la
asignación de un único valor escalar que representa la posición del objeto escalado,
además permite ordenar estímulos y sujetos respondiendo simultáneamente a más de
un atributo o variables.

2. El problema de la medición
2.1. ¿Qué es medición?
La medición es la aplicación de un conjunto de normas que permite la cuantificación de
las magnitudes de un atributo, propiedad o cualidad que se dice que está presente en
un objeto o persona en un momento determinado.

Se miden las características del objeto, no el objeto mismo. Se puede medir la altura de
una mesa, su color o su densidad, pero no la mesa en sí. La ansiedad que manifiesta
una persona, pero no la persona en sí.

El objetivo es obtener medidas en que los números reflejen fehacientemente las


magnitudes o intensidades de un atributo.

La medición de un atributo no es definitiva, puede verse afectada por otras variables


como el tiempo (Comprensión Lectora en primaria o en universidad), por la
temperatura (flexibilidad de un material), etc.
El estudio de la medición y de sus características corresponde a la filosofía de la ciencia.

En Psicología o en las ciencias del comportamiento (Educación) se ha dicho en


reiteradas ocasiones que si algo existe, esto existe en alguna medida.

El reto de la medición en Educación es poder medir atributos o rasgos que no son


directamente observables (p.e. Competencias).

Los atributos psicológicos o educativos a no ser directamente observables necesitan de


una definición teórica que sea elaborada por la comunidad científica, son conceptos
elaborados, abstractos.

Debe existir una conexión entre lo teórico y lo susceptible de ser observado, entre la
teoría y las conductas de las personas.

Teoría Representacional. Se fundamenta en que toda medición debe asegurar una


adecuada representación del atributo real medido mediante los símbolos o números
asignados.
Es adecuada si es coherente con la idea conceptual que sobre dicho atributo es
comúnmente aceptada por los expertos.

Por consiguiente, el paso del sistema relacional empírico al sistema relacional numérico
se realiza mediante homomorfismos. Se denomina escala de medida a la terna formada
por el sistema relacional empírico, el numérico y el homomorfismo (Navas, 1998).

2.2. Cuantificación de los atributos


Un atributo es cuantificable siempre y cuando el concepto sea definido como
extensible. De acuerdo con los planteamientos de Bunge, solo un cierto tipo de
conceptos pueden llegar a ser cuantificables y, por ende, pueden ser modelados a
través del lenguaje de las matemáticas.
Bunge menciona cuatro tipos de conceptos:
● Individuales: aquellos cuyo referente son individuos siendo claramente no
cuantitativos, sino cualitativos. Si a los individuos se les asigna un número tiene
uso nominal siendo convencional y no tiene un significado teórico.
● Conceptos de clase: aquellos que siendo no cuantitativos producen un predicado
dicotómico, es decir, son predicados que pueden tomar uno de los dos valores,
presencia o ausencia de la propiedad correspondiente. La atribución numérica
es convencional y puede ser reemplazada por otro par de números.
● Conceptos relacionales: se dividen en conceptos comparativos y no
comparativos.
○ Comparativos: se pueden dividir en relaciones como “perteneciente a” y
operadores con (+) y se caracteriza porque permite ordenar conjuntos de
datos, la asignación numérica es convencional a no ser que proponga un
concepto cuantitativo subyacente al comparativo. La relación en los
conceptos comparativos tienen las siguientes propiedades:
- Asimetría: si x es más duro que y, entonces y no es más duro que
x.
- Irreflexiva y transitiva: si x es más duro que y e y es más duro que
z, entonces x es más duro que z.
○ Los conceptos no comparativos tienen también cuantificación nominal.
● Conceptos cuantitativos: tienen como referentes las magnitudes de una
propiedad, que se pueden representar por un número cuya asignación deja de
ser nominal o convencional.

Lord y Novick, 1968, no son muy claros acerca de la medición y dejan ver que esta se
reduce a una satisfacción empírica. La naturaleza cuantitativa de los atributos es
considerar por dichos autor a través de las escalas de Stevens: si los datos se ajustan a
una escala de intervalo o de razón, pueden ser empleado satisfactoriamente para
medir, pero, por el contrario si los datos no cumplieran las propiedades de una escala
de intervalo o de razón, su uso se considera adecuado solo cuando el moldeamiento
resulta empíricamente satisfactorio.

Rash, 1960, no da ninguna definición sobre la medición, pero se preocupa


fundamentalmente por sustentar la naturaleza cuantitativa de un atributo. Para este
autor, es el conocimiento de lo que se está midiendo el que orienta y determina la
medición, para ello toma como punto de comparación las definiciones de los atributos
en física. Por ejemplo, si la física mecánica se define que f=m x a, Donde F es la fuerza M
es la masa y a la aceleración, Rash plantea que la probabilidad de acertar un ítem o una
prueba está dada por la razón de 2 parámetros: dificultad de la prueba o ítem y nivel de
la persona. En ningún momento plantea que la dificultad de la habilidad de la persona
examinada deban ser entendidas de la misma manera para todo atributo, por lo
contrario, la naturaleza de estos parámetros y sus características deberán ser
estudiadas a través de la teoría del atributo.
Podemos afirmar que la medición, independientemente del concepto con que se
defina, tiene un ingrediente fundamental y que la justifica: es el que tiene que ver con la
cuantificación.En primer lugar, se debe buscar que el atributo que se está pretendiendo
medirse a cuantificable para que en él se puedan emplear de forma correcta las reglas y
los procedimientos de las matemáticas.

Por lo tanto, el elemento que es directamente responsable de establecer la naturaleza


cuantitativa de un atributo son los planteamientos teóricos que se hayan construido y
definido para este atributo. Si la teoría que se desarrolla es deficiente, la medición de
estos atributos será deficiente. Un ejemplo se presenta en el campo de las emociones
tales como la tristeza o el amor, atributos que hasta el día de hoy son de compleja
medición, ya que no son teorías sólidas que describan y expliquen la naturaleza de
estos atributos.Situación muy diferente al estudio de la inteligencia, tributos sobre el
que se han construido tan diversos planteamientos que se ven reflejados en el proceso
de medición.

Un atributo es cuantificable si existe una conducta observable que lo refleje en los


diferentes grados, son magnitudes.

2.3. Teoría de la cuantificación


Navas en 1998, plantea que existen diferentes teorías que permiten evaluar si un
atributo es cuantificable o no.
2.3.1. Teoría de la medición conjunta
Luce y Tukey, 1964 propuesta para las ciencias sociales. Según esta teoría medir es
evaluar cantidades, determinar el estatus cuantitativo de una variable, definir una
escala de intervalo, asignar valores numéricos a variables cuantitativas a partir de estos
relación numérica con otras variables, presentándose un conjunto de axiomas para
definir una escala cuantitativa de intervalo.

Desde este momento, la medición psicológica quiere ser una realidad, Las variables
psicológicas deben ser cuantitativas, y esto sólo se podrá establecer de manera
experimental, utilizando para ello los procedimientos que ponen a disposición la teoría
de la medición conjunta, la cual permite detectar estructuras cuantitativas a partir de la
relación ordinal entre variables.
2.3.2. Teoría de las escalas de medida
Según la teoría de las escalas de medida de Stevens, medir es asignar números a los
objetos según reglas empíricas, operacionales, pero cuidado que las relaciones entre
los números atribuido reflejan la relación empírica entre los objetos.De este modo, los
números asignados en la medición no representan propiamente cantidades, sino
relaciones.
Por ejemplo, las personas manifiestan la característica sexo según sus dos
modalidades, (hombre y mujer), las características religión según muchas modalidades
(católico, Protestante, budista, musulmán…) , finalmente, la característica peso en los
seres humanos posee infinitas modalidades, ya que entre dos modalidades por
proximas que se encuentren siempre son posibles otras modalidades intermedias.

Entonces la atribución de números a los objetos no se va a decir de forma arbitraria,


sino siguiendo una regla general, aceptar sólo como relaciones válidas entre números,
aquellas que sean verificables empíricamente entre las correspondientes modalidades.
Por ejemplo, en las modalidades que adoptan la variable estatura, son tales que se
podría decir que una determinada modalidad es una estatura superior a otra
determinada modalidad, por lo tanto, los números que se atribuyen a esa modalidad en
el proceso de medición deben reflejar esa superioridad.

Por el contrario, si lo único que queremos decir al comparar las modalidades de 2


individuos es las variables sexo no tiene sentido decir que una de las modalidades
supone tener más sexo que la otra. Los números asignados es modalidades, reflejar
simplemente ese hecho diferencial y de la comparación de los números no podrán
deducirse una conclusión, alguna distinta a la que los individuos tienen o no el mismo
sexo.Es habitual asignar los valores 0 y 1 a las modalidades de variables como el sexo,
pero en ningún caso 1 representa la superioridad sobre 0. La medición, por lo tanto,
estudia las condiciones de construcción de representaciones numéricas y los modelos
desarrollados para la medición se llaman escalas. Las escalas son el conjunto de
modalidades (distintas) y el conjunto de números (distintos)que están relacionados de
forma biunívoca, es decir, que a cada modalidad corresponde un número y a cada
número una sola modalidad.
Se presentarán las características fundamentales del sistema de clasificación en cuatro
escalas definidas inicialmente por Stevens:

2.3.2.1. Escala nominal


Consiste en clasificar en categorías a los sujetos u objetos que se desea medir,de modo
que los sujetos clasificados en determinadas categorías sean iguales respecto a la
propiedad que se esté midiendo. Es decir, las observaciones incluidas en la misma clase
son consideradas como cualitativamente iguales y las que se incluyen en clases
diferentes son consideradas como cualitativamente diferentes y se utiliza una clase
para cada modalidad que adopta. Cada observación es incluida en una y solo una clase,
y además cada sujeto debe poderse incluir en alguna de las categorías. El tipo de
medición que lleva a cabo. Estas características se llama categórico o nominal al
conjunto.

Un ejemplo muy sencillo que suele utilizarse para ilustrar este tipo de escala es el sexo.
Esta característica, con la que podemos diferenciar a las personas de forma que se
puede tomar una muestra representativa y clasificar sus elementos según esta
característica que adoptan solo 2 modalidades, asignado el valor de 1 a los varones y el
0 a las mujeres. Para realizar esta operación tendremos a los elementos de la muestra
clasificados en 2 clases de equivalencia, uno por cada modalidad, que son mutuamente
exclusivas, ya que ninguno de los elementos puede ser incluido simultáneamente a más
de una clase y exhaustiva.

Otro ejemplo son los diagnósticos psicopatológicos, el Estado civil, la comunidad


autónoma donde ha nacido, la asignatura preferida de los estudiantes de bachillerato,
el tipo de sangre de los seres humanos…
Estas escalas solo informan de la igualdad o desigualdad de los individuos en una
característica pero no de posibles ordenaciones, puesto que las características en las
que refieren no se tienen en mayor o menor medida, sino que simplemente adoptan
formas cualitativas distintas.

2.3.2.2. Escala ordinal


La medida de ORDINAL permite asignar a los sujetos u objetos medidos un número que
permite ordenarlos según la actividad variable que posee.Además de poseer la relación
de igualdad, desigualdad propia de la escala nominal, los números asignados permiten
afirmar que un elemento medido es mayor o menor que otro.El proceso de medición
ordinal consiste en la aplicación de una regla de asignación de objetos que reflejan los
distintos grados en los que se presentan las características cuando.2 de objetos tienen
el mismo número asignado. ¿Podemos concluir que presentan la misma modalidad
Pero de los objetos a los que se les ha asignado diferentes números, no sólo puede
decirse que son diferentes en esas características, sino que pueden establecerse
relaciones tipo mayor que o menor que.
Un ejemplo muy utilizado para este tipo de escalas en psicometría es la medición de las
actitudes. Consideramos 5 modalidades respecto a las respuestas al siguiente estímulo
o ítem.
Las personas con síndrome de Down son útiles para la sociedad:
A. Completamente de acuerdo.
B. De acuerdo
C. Indiferente
D. En desacuerdo.
E. Completamente en desacuerdo.
Se puede observar que si el examinado elige la primera opción, su actitud es más
favorable que si elige la segunda; Lo mismo sucede entre la segunda y la tercera o entre
la cuarta y la tercera.

La limitación de las escalas ordinales, aunque nos informan que un objeto representa la
característica en cuestión en una mayor magnitud que otro objeto, no nos dicen en
cuanto más.
2.3.2.3. Escala de intervalo
En la medida de intervalo, además de poderse decir que un sujeto un objeto, pues tiene
más o menos cantidad de variables que otro, también es posible determinar la
magnitud de la diferencia existente entre los elementos medidos;Es decir, se puede
conocer la cantidad de variables en la que se difieren dos sujetos u objetos. En esta
escala se define una unidad de medida y se asigna a cada elemento un número
indicativo de la cantidad de variables que posee en términos de la unidad de medida
establecida. La principal limitación de esta escala es que no tiene un cero absoluto, es
decir, el número cero no presenta realmente la ausencia de la carencia de medida.

Un ejemplo de medida en este tipo de escala es el de la temperatura. Si se dice


que.Ayer hubo 10° de temperatura máxima y hoy 15, no sólo se puede decir que hoy
hizo más calor que ayer, afirmación ordinal, sino que hubo 5 ° más que ayer. Además, la
diferencia entre 10 y 5 es la misma que entre 15 y 20.Es evidente que en el caso de la
temperatura los 0° no significa que no existe temperatura, puesto que pueden
observarse temperaturas inferiores es precisamente la superación de estas limitaciones
es la que lleva a definir la escala de razón.
2.3.2.4. Escala de razón
La medida de razón añade a la de intervalo la presencia de un cero absoluto,que indica
la ausencia total de la cantidad de medida.El cero pasa de ser un punto arbitrario de la
escala a ser un punto fijo que indica que no existe cantidad ninguna de variable, al igual
que la escala de intervalo, las diferencias entre los objetos medidos son constantes
(existiendo una unidad de medida) ,pero además, la presencia del cero absoluto
permite afirmar que un objeto posee el doble o el triple de cantidad que el otro. La
velocidad es un ejemplo de este tipo de escalas.

2.3.3. Teoría representacional


La teoría representacional es una detallada teoría de los tipos de escala,que constituye
una extensión y una mejor conceptualización de las escalas de medida. La teoría
representacional define medir cómo encontrar una representación formal de un
modelo que proporciona una representación cristalizada de segmentos de la
realidad.De un modo algo más preciso, se puede decir que medir es conectar un
sistema relacional empírico y un sistema relacional formal numérico, de forma que las
propiedades formales de las operaciones y empíricas, y las relaciones entre los objetos
se correspondan con las operaciones y las realizaciones entre los números.Por
consiguiente, el paso del sistema relacional empírico al sistema relacional numéricos se
realiza mediante homomorfismos.Se denomina escala de medida a la terna forma por
el sistema relacional empírico, el numérico y el homomorfismo.

2.4. ¿Qué se mide?


Todo atributo que decimos que está presente en el campo de la educación.

Atributos a nivel de persona: Comprensión Lectora, Desempeño docente, Rendimiento


Académico, resultados del aprendizaje, etc.

Atributos a nivel del sistema educativo: Clima organizacional en un colegio, calidad de la


institución educativa, Calidad docente en el centro, resultados del aprendizaje de un
programa universitario, etc.
2.5. ¿Como se mide?

Para comenzar un proceso de medición, en primer lugar, es importante tener claro el


objetivo que se pretende alcanzar, tener presente la finalidad de la evaluación y
posteriormente, es necesario estudiar la teoría para definir muy bien el constructo
variable que es objeto de medida.Teniendo esto en mente se procede a la construcción
de ítems de acuerdo a la especificación de contenidos que se pretende que incluyan.
Los ítems se analizan, seleccionan, de acuerdo con sus propiedades y finalmente se le
otorga un significado o interpretación a las puntuaciones obtenidas.
Al medir constructos psicológicos nos encontramos con el problema de las unidades de
medida que se utilizarán cuando se va a interpretar las puntuaciones obtenidas por el
sujeto.Sí, menos la estatura de una persona, la podemos medir en centímetros, o si
medimos el tiempo, lo podemos expresar en segundos minutos u horas, pero ¿En qué
unidades se pueden medir el autoconcepto de una persona? ¿Cuál es la mejor unidad
para expresar la inteligencia de un niño?.

Como se ha visto actualmente, se han desarrollado distintos procedimientos para la


medida, pero los diversos constructos psicológicos como actitudes, aptitudes,
personalidad, Pero hasta hace relativamente poco no se tenía una teoría sólida que
fundamentaría justifica la pertinencia y calidad de dichas medidas.Las mediciones de
variables psicológicas se consideraban en cierta medida inferiores a las realizadas en
otras Ciencias. Sin embargo, en los últimos desarrollos en psicometría han hecho que
esta visión cambie y se empiecen a realizar mediciones con una sólida fundamentación
teórica.
La medición de cualquier atributo educativo se puede realizar a través de diferentes
recursos:
● Observación
● Entrevista
● Test o pruebas estandarizadas
● Simulación de situaciones

2.6. Problemas en la medición


No hay un procedimiento aceptado universalmente para medir un constructo.

Con cualquier procedimiento el test estaría constituido por una muestra limitada de
ítems.

La unidad de medida utilizada (nivel de medida) puede ser distinta en cada caso. Escala
PISA Escala Selectividad

Las medidas están sujetas a un cierto margen de error.

3. Definición de la psicometría.
La definición del concepto de Psicometría es compleja debido a las múltiples facetas
que involucra el significado de etimológico del término, formado por las palabras
griegas “psykhe” y “metrum” literalmente es “medida de la psique”, algunas definiciones
que se han dado de psicometría son:
● La psicometría es la parte de la psicología que se encarga de la medición de
variables psicológicas.
● La psicomotricidad comporta un conjunto de teorías de la medición, dentro de
las cuales se ha desarrollado métodos y técnicas específicas de medida,
utilizando la estadística como base para la elaboración de dichas técnicas.
● Es una disciplina metodológica que, dentro de la psicología, busca la medición y
cuantificación de variables psicológicas.
Una de las tareas más importantes de la psicometría han sido, entre otras:
● Desarrollar modelos y teorías para realizar procesos de medición precisos y
válidos.
● Establecer condiciones para llevar a cabo los procesos de medición.
● Proporcionar métodos e instrumentos para llevar a cabo la medición.
● Construir y evaluar instrumentos de medida.
● Brindar normas para regular el correcto uso de los ítems.

4. Repaso estadísticos de interés para el curso de psicometría


4.1. Notación
4.1.1. Sumatorio
El sumatorio es sumar diferentes cantidades. Es un símbolo que nos indica que
debemos proceder a sumar un conjunto de datos dado.Se expresa con la letra griega
mayúscula Sigma ( Σ ) y significa que debe sumar los valores que se indican en el
𝑛
rango.Cumple en la expresión ∑ 𝑥𝑖 hay que sumar todos los valores de la expresión
𝑖=1

X (xi).

4.1.2. Producto
Al igual que en el caso del sumatorio, existe un operador llamado producto o
productorio que se simboliza como Π e indica que se debe proceder a multiplicar el
𝑛
conjunto de datos dados.Por ejemplo, en la expresión ∏ 𝑥𝑖 ,hay que multiplicar todos
𝑖=1

los valores de la variable X (xi).

4.1.3. Desigualdades
La desigualdades son relaciones que se simbolizan mediante:
- < menor que
- > mayor que
- ≥ mayor o igual que
- ≤ menor o igual que

4.2. Estadísticos
4.2.1. Estadísticos y parámetros
Una población es el conjunto de todos los elementos que cumplen ciertas propiedades
y sobre los que se van a obtener datos para realizar un estudio estadístico (una prueba,
un test psicológico o analizar un fenómeno).
La muestra es el conjunto finito de datos tomados de la población o un subconjunto
observado.
Un parámetro es toda función definida sobre los valores numéricos de una población,es
decir, las características poblacionales que se quieren investigar.Los parámetros se
2
notan con letras griegas: media (µ), desviación típica estándar (σ), varianza (σ ),
correlación entre dos variables X e Y (ρ𝑥𝑦).
Un estadístico es todo una función definida sobre los valores numéricos de una
muestra; son las características muestrales que queremos investigar. Por ejemplo, la
media aritmética de las puntuaciones en un test de razonamiento abstracto en los
estudiantes de Psicología de la Udima es un estadístico. Para simbolizar los estadísticos,
2
se usan los siguientes símbolos: media (𝑥), desviación estándar (s), varianza (𝑠 )
,correlación (rxy).

4.2.2. Media aritmética


El mejor número que describió un grupo de observaciones es el promedio, es decir, la
suma de todas las observaciones, dividida por la cantidad de las observaciones. En
estadística, este promedio se conoce con el nombre de media aritmética. El promedio o
media de un grupo de registros o de datos muestra la tendencia central o el valor típico
o representativo de un grupo de observaciones.
Aunque su nombre completo es la media aritmética, lo cual la diferencia de otras como
media geométrica o media armónica por simplicidad, nos referimos a ella como media.
Se define como la suma de los valores observados, dividida por el número de
observaciones. La regla para calcularla es la siguiente:
4.2.3. Varianza y desviación típica
- Desviación típica:
● Mide la dispersión de los datos respecto a la media aritmética. Ya que dos
conjuntos pueden tener la misma media, sin embargo ser muy distintos.
Por ejemplo, imaginemos, en el caso de una fiesta en la que la edad
promedio es de 29 años, al escuchar esto podemos pensar que la
asistencia a la fiesta son personas jóvenes de alrededor de 30 años, pero
esto puede ser una conclusión errónea, ya que puede tratarse de un
abuelo de 80 años y sus dos nietos, de 3 y 4 años, por lo tanto, la medida
es 29. Por lo que para obtener una visión completa y comprensiva hay
que completar las medidas de tendencia central con otras propiedades.
Estas propiedades se denomina variabilidad y es diferente a la tendencia
central. Es una propiedad muy importante para la psicometría, ya que
muchos estadísticos de análisis de ítems y de test depende del grado de
variabilidad que estos suscitan en los examinados.
● Cuanto más alto, más dispersión tienen los datos.

- Varianza:
4.2.4. Análisis de regresión lineal, simple, correlación y covarianza
El análisis de regresión lineal simple es un procedimiento estadístico mediante el cual
se busca presidir el comportamiento de una variable Y denominada dependiente
mediante una segunda variable X llamada independiente.

El análisis de correlación lineal simple es un procedimiento estadístico mediante el


cual se busca cuantificar la intensidad y sentido de la relación entre dos variables X e
Y.Esta cuantificación se efectúa mediante el coeficiente de correlación de Pearson. El
análisis de correlación y regresión son complementarios, ya que las predicciones que se
realizan con el análisis de regresión son mejores cuando las correlaciones entre dos
variables es alta.

4.2.4.1. Regresión lineal simple


El primer paso para realizar un análisis de regresión es inspeccionar el diagrama de
dispersión entre las dos variables. En el diagrama de dispersión, cada punto representa
una pareja de observaciones (Xi ,Yi ). Por medio de dicho diagrama se puede conocer si
la relación entre las dos variables es directa (a medida que aumentan los valores de Xi
también aumentan los de Yi ), inversa (a medida que aumentan los valores de una de
las variables disminuyen los valores de la otra variable), si Xi e Yi son linealmente
independientes o si, por el contrario, la relación entre las variables no es lineal sino que
tiene otra naturaleza (hiperbólica, potencial, exponencial, etc.). Si la relación entre las
dos variables presenta una forma lineal, tiene sentido realizar un análisis de regresión
lineal que se detalla a continuación.
El modelo de regresión lineal simple se puede expresar como:

Donde los términos α y β son los parámetros de la recta de regresión: α es el origen, es


decir, el punto en el que la recta cruza el eje de ordenadas, y β es la pendiente de la
recta, es decir, la inclinación de la recta con respecto al eje de abscisas. El parámetro β
es el que se debe analizar para saber si las variables X e Y se encuentran relacionadas.
El término e se refiere a los errores, es decir, a las distancias entre cada pareja Xi ,Yi y la
recta.

4.2.4.2. Correlación lineal simple


El modelo de correlación lineal simple es idéntico al de regresión excepto en el hecho
de que en correlación no se hace distinción entre variable independiente y
dependiente. El interés se centra en estudiar el grado, fuerza o intensidad de relación
lineal entre las variables y el sentido de la relación. Coeficiente de correlación de
Pearson. El coeficiente de Pearson sirve para cuantificar la relación entre dos variables
medidas en escala continua (intervalo o razón).
Dicho coeficiente se determina mediante la fórmula:

El valor de r xy oscila entre – 1 y 1. Los valores próximos a 0 indican ausencia de


relación lineal, es decir, independencia lineal, y los valores próximos a 1 o – 1 indican
alto grado de relación lineal (positiva o negativa, respectivamente).

Fórmula más sencilla. Si se dispone de la desviación típica de las variables, se puede


utilizar la siguiente fórmula sencilla para determinar el coeficiente de correlación:

4.2.4.3. Correlación y covarianza


La correlación (r xy) y covarianza (σ xy) expresan lo mismo, cuantifican el grado de
covariación entre dos variables, y a ese grado de covariación lo denominamos relación.
El coeficiente de correlación no es otra cosa que la covarianza calculada con
puntuaciones típicas. La covarianza expresa el grado de relación entre las variables,
pero se calcula con puntuaciones directas. Correlación y covarianza se relacionan
mediante estas fórmulas

El coeficiente de correlación varía entre 0 (ausencia de relación) y un valor máximo de 1


(con signo + o –). El que los valores extremos sean 0 y 1 facilita el uso y la valoración de
la magnitud de estos coeficientes
4.2.4.4. Interpretación del coeficiente de correlación

Algunos de los criterios para interpretar los coeficientes de correlación son los
siguientes:
● El coeficiente de correlación expresa en qué grado los sujetos (u objetos,
elementos, etc.) están ordenados de la misma manera en dos variables
simultáneamente.
● Los valores extremos son 0 (ninguna relación) y ± 1 (máxima relación). Si r = 1, el
orden (posición relativa) de los sujetos es el mismo en las dos variables. Como ya
se ha dicho, coeficientes próximos a 0 expresan poca relación, y coeficientes
cercanos a 1 expresan mucha relación; si es negativa (– 1) la relación es inversa,
es decir, a medida que aumentan los valores de X disminuyen los de Y o
viceversa, y si es positiva (+ 1) la relación es directa, a medida que aumentan los
valores de X aumentan también los de Y.
● La magnitud del coeficiente es independiente del signo: r = – 0,95 expresa más
relación que r = 0,75; el que la relación sea positiva o negativa es algo distinto de
que sea grande o pequeña.
● Suponer que una correlación muy alta entre dos variables implica que tienen
una media parecida es un error muy común; una correlación alta significa
simplemente que los dos elementos son ordenados de manera parecida, pero
no que tengan valores promedio parecidos.
● Un coeficiente de correlación no es una proporción. Una correlación de r = 0,5
no quiere decir que haya un 50 por 100 de variabilidad común entre las
variables, pues este es el concepto de coeficiente de determinación, como se
verá más adelante.
● No es necesario que las dos variables (X e Y) estén medidas en la misma escala o
en las mismas unidades, ya que, como hemos visto, el cálculo se hace a partir de
puntuaciones típicas.
● La correlación no implica causalidad. El que dos variables covaríen o se den
juntas no quiere decir que una sea causa de la otra; puede existir una
correlación alta entre la inteligencia y el tamaño del dedo medio, pero esto no
implica que tener el dedo más largo sea causa de una mayor inteligencia.
● Cuando se tienen diversas variables y se han calculado correlaciones entre
parejas de variables, es común (y más práctico) organizarlas en la denominada
matriz de correlaciones, como se puede observar en la tabla 1 en la que se han
realizado correlaciones entre las puntuaciones de un test de ansiedad, el
rendimiento en el trabajo y las horas de sueño. En dicha tabla se puede observar
que la mayor correlación ocurre entre la ansiedad y las horas de sueño, y que
dicha relación es negativa, es decir, que a mayor ansiedad menos horas de
sueño. Se encuentra también una asociación fuerte y positiva entre el
rendimiento y las horas de sueño, en otras palabras, cuando aumentan las horas
de sueño también lo hace el rendimiento laboral. Finalmente se encuentra una
relación moderada (negativa) entre rendimiento y ansiedad, por lo tanto, a
medida que aumenta la ansiedad disminuye el rendimiento en el trabajo. La
diagonal de la matriz de correlación es siempre 1 (porque una correlación de una
variable consigo misma es 1). La diagonal superior está vacía porque no es
necesario repetir los mismos valores de correlación.

4.2.4.5. Coeficiente de determinación


El coeficiente de correlación elevado al cuadrado (r2) se denomina coeficiente de
determinación e indica la proporción de variabilidad común : indica la proporción de
varianza de una variable determinada o asociada a otra variable. En términos más
simples: r2 indica el tanto por ciento de acuerdo o de variabilidad común entre ambas
variables. Un coeficiente de correlación r = 0,5 indica un 25% de varianza común entre
ambas variables (0,52 = 0,25). Expresado en términos más simples: una correlación de r
= 0,5 entre un test de inteligencia abstracta y rendimiento en matemáticas indica que el
25% de la varianza del test de matemáticas es común o compartido con la varianza del
test de inteligencia abstracta.

5. Errores de medida y sus consecuencias


5.1. Conceptuales
● Medir equivocadamente el constructo (Validez).

5.2. Sistemáticos
● Siempre se producen en una misma dirección: Proporción de copia
> 10% (Validez).

5.3. Aleatorios
● Consecuencia de los múltiples factores desconocidos que inciden
en toda medición y que introducen en la misma una cierta
variabilidad (Fiabilidad).
● Los errores conceptuales y los errores sistemáticos son consecuencia
fundamentalmente de un diseño defectuoso del proceso de medición.

● Los errores aleatorios, aunque pueden reducirse con una mejora en el


diseño de medida, nunca pueden ser eliminados por completo.
Tema 2: Plan de elaboración de test

1. Test como instrumento de medición objetiva


Comúnmente se ha utilizado el término «test» para referirse a los instrumentos de medida que
tienen carácter «objetivo», en otras palabras, aquellos instrumentos en los que el estímulo
suele ser un ítem, pregunta o reactivo cuyas respuestas permiten aproximarse a la medición
del constructo mediante su escalamiento y producen una puntuación interpretable en términos
del nivel de rasgo o habilidad que se está midiendo. Dejamos fuera del término test las
mediciones basadas en la observación, experimentación y las técnicas proyectivas por su
carácter «subjetivo».

Algunas de las ventajas de las medidas estandarizadas o test objetivos son:


● Se eliminan las conjeturas y la subjetividad de la medición.
● Los resultados se expresan de manera cuantitativa y, por lo tanto, pueden ser
reportados y comunicados con mayor detalle que los juicios subjetivos.
● Permiten el uso de métodos potentes de análisis estadístico y el modelamiento
matemático.
● Permiten una comunicación eficiente con los otros investigadores y con los usuarios.
● Son mucho más económicas en tiempo y dinero que las mediciones subjetivas, pues
permiten evaluar a varias personas simultáneamente y de forma precisa.
● Permiten una mayor generalización que las evaluaciones subjetivas

Según los objetivos de la medición y las características del constructo a medir, hay test de
diferentes tipos, formatos y escalas que se verán a continuación.
1.1. Clasificación de los test
1.1.1. Test de rendimiento óptimo versus test de comportamiento típico
Según el tipo de rendimiento esperado clasificamos en dos grupos:
● Rendimiento óptimo
Se utilizan para la medición de variables de tipo cognitivo: conocimientos,
habilidades, actitudes, rendimiento… En este tipo de tés interesa medir la habilidad
del sujeto en la variable en cuestión y suelen ser empleados en psicología y en
educación.
Por ejemplo, un examen de la Udima es un ejemplo de este tipo de
prueba.Generalmente estos test, las respuestas de los sujetos son correctas, incorrectas
y la puntuación total viene dada por la suma de las respuestas correctas, dando lugar a
escalas acumulativas.

● Comportamiento típico
No hay una respuesta que se pueda considerar correcta, pues lo que interesa es evaluar
cómo se comportan típicamente las personas, sus preferencias o actitudes.Se usan
para medir variables no cognitivas como intereses, preferencias, actitudes…

Ítem de escala: El examinador debe elegir aquella que represente mejor su postura
respecto a la afirmación que contiene elite en este tipo de ítem se suele llamar ítem de
escala.

Cuestionarios: que generalmente se utilizan para la investigación por encuestas.Se


componen de preguntas o ítems que no necesariamente están relacionados entre sí y
generalmente su objetivo es recabar información sobre las características sociales y
demográficas de los examinados. Es evidente que en este tipo de test tampoco hay
respuestas incorrectas.
Ítem de inventario: Otro tipo de test de comportamiento típico muy utilizado es para
medir rasgos de personalidad.Las respuestas no son correctas e incorrectas, sino que
demuestran el grado de acuerdo con los ítems o reactivos.

1.1.2. Test referido a norma versus test referidos a critério


Según la interpretación de puntuación, otra clasificación de los test corresponde a test
referidos a normas (TRN) y test referidos a criterios (TRC).
Las diferencias entre estos test no siempre se manifiestan porque están formados por ítems o
estímulos de formatos similares, pero en el fondo existen diferencias en cuanto a su
construcción e interpretación de sus puntuaciones.
- TRN:
➢ El objetivo es poner en evidencia las diferencias individuales en el constructo
que mide el test.
➢ En la construcción del test y especialización de sus contenidos, los TRN
analizan las teorías existentes respecto al constructor que se desea medir para
seleccionar los contenidos que compone el test, pero no se tiene una
especificación clara de los contenidos.
➢ En la forma de selección de ítems, los TRN buscan encontrar las diferencias
individuales, maximizando la varianza por medio de la selección de ítems de
alto poder discriminativo.
➢ En el significado de las puntuaciones, en los TRN la puntuación se considera
un indicador de la puntuación verdadera.
➢ Finalmente los tr en la puntuación adquiere significado en relación con el
grupo de examinados a los que se les aplicó el test (grupo normativo)
- TRC
➢ El objetivo es estimar el rendimiento o rasgos del sujeto.
➢ En la construcción del test y especificación de sus contenidos, lo primero que
se hace es especificar de manera clara el dominio de los contenidos que se
pretende evaluar.
➢ En la forma de seleccionar los ítem se seleccionan los ítems en función de los
objetivos y uso que se le va a dar al test.
➢ En cuanto al significado de las puntuaciones, es un estimador del rendimiento
del examinado.
➢ Finalmente, en los TRC, las puntuaciones tienen un significado en términos
absolutos.
1.1.3. Test de lápiz y papel versus test informatizados
Según el medio de aplicación.
1.1.4. Test basados en la teoría clásica de los test versus test basado en la
teoría de respuesta al ítem
Según el modelo psicométrico de análisis.
1.1.5. Test de respuesta construida versus test de elección múltiple
Según el formato de respuesta:
- Test de respuesta construida: En este tipo de test son opciones de respuesta limitada.
Por ejemplo, verdadero y falso, elección múltiple, categorías ordenadas,
emparejamiento.
- Test de elección múltiple Son aquellos 3 cuyo formato de respuesta abierta y pueden
componerse de ítems de ensayo o de respuestas construidas.
1.1.6. Test de velocidad versus test de capacidad
Según el tiempo:
- Test de velocidad: Interesa evaluar la rapidez con lo que los examinadores ejecutan
una tarea o un test de capacidad.
- Test de capacidad:Objetivos de centra en la habilidad del examinado para desarrollar
la tarea sin limitaciones de tiempo.
1.1.7. Test psicométricos versus test proyectivos
Según el marco teórico en el que nos basamos.
- Test psicométricos: Basados en el registro objetivo de la conducta.
- Test proyectivos:Basados en la proyección subjetiva del examinado.
1.1.8. Test diagnósticos versus test con otros propósitos
Según el propósito de la medición.
- Test diagnósticos: Se interesa realizar un diagnóstico psicológico
- Test con otros propósitos (Test de selección): Clasificaciones situacionales...
2. Plan general para la elaboración de test
2.1. Definición del atributo a medir
El primer paso para la construcción de instrumentos de medida es la definición clara y precisa
del atributo variables psicológicas que estás midiendo.Es importante realizar una definición
operacional del constructo y revisar la teoría subyacente, que permite al investigador que está
construyendo la prueba tener muy claro lo que se quiere medir.La definición de un constructo
puede ser semántica, expresando sus significados de una teoría psicológica o sintáctica, en la
que se determinan variables que están relacionadas con él. Los constructos son variables
teóricas, inobservables y se manifiestan a través de conductas que sí son observables de
manera directa y se pueden medir, para que dichas conductas sean medibles deben ser
estables en el tiempo. Es muy importante que el constructo este bien definido y delimitado,
pues de esta forma se conocerá mejor que hay conductas consideradas y cuáles no.
El constructor se define desde un marco conceptual teórico, es decir, desde una teoría
psicológica en la cual se basa.Dependiendo de la teoría subyacente de la definición del
constructo, puede cambiar y, por lo tanto, también el texto instrumento de evaluación.Como
es por ejemplo el constructo de inteligencia.
2.2. Objetivos del test
Para elaborar los objetivos, se debe tener en cuenta la utilidad que se le va a dar, las
decisiones que se piensan tomar a partir de las puntuaciones del test y la población a la que va
dirigida la medición.
En lo referente a la población objeto de medición, es claro que no es lo mismo dirigirse a una
prueba para adolescentes que una prueba para adultos o para gente mayor.
Además, es evidente que el test también tiene que ser distinto respecto al uso que se le
pretende dar, por ejemplo, un test de personalidad cuya utilidad es seleccionar personal para
trabajar en un hospital, no puede ser el mismo que se emplea para definir una aptitud
vocacional. Asimismo, un examen de selectividad no es igual que un examen parcial de una
asignatura.

Los objetivos de un proceso de medición puede ser muy variados, al igual que sus usos e
interpretaciones. Por ello es muy importante que los objetivos del test estén bien definidos, al
igual que la población a la que van dirigidos.

2.3. Restricciones del test


Por restricciones del test nos referimos a características como la dificultad de los ítems, la
longitud del test, el tiempo de aplicación, el tipo de tareas, el formato de los ítems, etc. Estas
restricciones dependen de una adecuada definición de los objetivos de la prueba. Por ejemplo,
un test para niños con dificultades de atención no puede ser muy largo, porque se corre el
riesgo de producir cansancio. El tipo de tareas debe ser diferente en un test de motricidad
para ancianos que en uno diseñado para adultos. La longitud del test no puede ser la misma
en una prueba de selectividad que en un control de una asignatura.

2.4. Especificaciones de contenido (MATRIZ)


El constructor de un test debe definir claramente un dominio de contenidos apropiado
seleccionando el material relevante para ser incluido en el test y desechando material
irrelevante o que no corresponde con los objetivos o con el constructo a medir. Las
características de la población a la que va dirigida la prueba son muy importantes en esta
fase, pues los ítems deben escribirse de tal forma que tengan en cuenta variables como la
edad, nivel educativo, aspectos culturales, etc.
En ocasiones es útil representar las especificaciones de contenido en una tabla denominada
matriz de especificación de contenido; en sus columnas se representan las diversas áreas de
contenido que pretende cubrir el test y en las filas, los procesos u operaciones implicados en
la solución de los ítems o tareas planteados. Esta matriz suele ser muy útil en exámenes de
rendimiento o conocimientos usados comúnmente en el ámbito académico. Sin embargo, los
procesos que puede contener la matriz son de naturaleza muy diversa, por lo que es tarea de
cada evaluador decidir el énfasis con el que pretende construir el test.
Dos ejemplos en los que se mide el mismo constructo, pero con dos tipos de procesos
distintos en cuanto a profundidad:
EJEMPLO:
En este ejemplo se presentan dos matrices de especificación de contenidos para un
test de 50 ítems de aritmética básica con números enteros diseñado para estudiantes
de primero de la ESO . En las filas de las tablas se representan los procesos que se
pretende evaluar y en las columnas, las áreas de contenido y los porcentajes de ítems
de cada uno de los temas que deben incluirse en las pruebas, de acuerdo a la
importancia que se le adjudica a cada uno de ellos. En los dos casos (véanse tablas 1 y
2) se van a incluir un 20% de ítems de suma y multiplicación y un 30% de resta y
división. Cada una de las celdas especifica el número de ítems que se debe incluir en
el test. En el primer caso (véase tabla 1), 2 ítems de suma y de conocimiento, 2 de
suma y de comprensión, etc. En el segundo caso (véase tabla 2), 2 ítems de suma en
los que los componentes a y b sean positivos, 3 ítems de suma en los que a sea
positivo y b negativo, etc
Matriz 1: se exponen procesos de carácter cognitivo

Matriz 2: los procesos corresponden a tareas más concretas.


En lugar de los procesos se pueden usar otros criterios, como dificultad de los ítems, tipos de
tareas, reglas que se deben aplicar, etc. Es muy importante que estén representadas todas las
áreas que se quieren evaluar y que sean mutuamente excluyentes.
En el caso de exámenes de rendimiento académico, se deben incluir todos los contenidos
curriculares que ha abarcado la asignatura. También es importante que cada área tenga un
buen número de ítems.
La matriz debe contener información sobre la importancia que se va a dar a cada uno de los
contenidos y procesos, pues aquellas áreas más importantes contendrán mayor número de
ítems, siendo necesario establecer una ponderación.
Para este tipo de pruebas, las matrices suelen ser esquemáticas, como en el ejemplo que se
presenta a continuación.

2.5. Especificaciones de formato


Cuando se han especificado los contenidos del test, se tiene mayor claridad sobre lo que se va
a medir y es momento de preocuparse por la forma de medirlo. No todos los formatos de
ítems son adecuados para determinados contenidos. Los dos grandes tipos de formato de
ítems en pruebas objetivas son los de elección múltiple y los de respuesta construida.
- Los de elección múltiple los sujetos deben seleccionar la respuesta que consideren
más apropiada entre varias alternativas.
- Los ítems de respuesta construida, los examinados deben elaborar su propia respuesta.
Estos formatos serán más o menos adecuados dependiendo del constructo que se desea medir
y de la matriz de especificación de contenidos. Algunas veces, un test puede contener varios
formatos, pero esto no es aconsejable, pues el modelo matemático que se debe usar para
modelar y analizar las propiedades de los ítems es diferente según el formato utilizado.
Algunos test, llamados baterías, se componen de diversos subtest que pueden tener diferentes
formatos, sin embargo, el análisis de los datos es diferente para cada subescala, haciendo que
a veces sean diferentes de comparar.
3. Plan de pilotaje
La finalidad de la prueba piloto es aplicar el test a una muestra de la población objetivo para
realizar un análisis de sus ítems y de sus propiedades psicométricas, y de esta manera
observar si puede considerarse un instrumento apto para la medición científica del constructo
objetivo. Para realizar el pilotaje es necesario elaborar un plan que debe contener:
● Instrucciones para realizar un muestreo de la población objetivo a la que se va a
aplicar el test.
● Explicaciones sobre la administración de la prueba.
● Especificaciones sobre el formato de presentación, organización del test y registro de
respuestas.
3.1. Muestreo
La función básica del muestreo es elegir un subconjunto de la población para aplicar el test y
estudiar sus propiedades. Para obtener una muestra apropiada existen diversas técnicas
estadísticas.
- La población es el conjunto de individuos a los que va dirigido el test.
- Las unidades de muestreo son el número de elementos de la población que se van a
estudiar.
- Las unidades de análisis son cada uno de los individuos sobre los que hay que obtener
información.
- El marco muestral lo constituyen las unidades o elementos del muestreo
- La muestra es el conjunto de unidades o elementos de análisis que se seleccionan del
marco.
Existen dos grandes formas de realizar el muestreo: probabilístico y no probabilístico.
3.1.1. Muestreo probabilístico
Es uno de los tipos de muestreo más comunes en el que se otorga a cada elemento de la
población una probabilidad conocida de formar parte de la muestra; dicha probabilidad no es
nula para ningún elemento.
Existen varios tipos de muestreo probabilístico:
● Muestreo aleatorio simple (MAS). En el muestreo aleatorio simple se selecciona una
muestra de tamaño n de una población de N unidades, donde cada elemento tiene una
probabilidad de inclusión igual y conocida n / N. Las ventajas de este procedimiento
son que su cálculo es sencillo y existen paquetes de ordenador que permiten
realizarlo; las desventajas son que requiere conocer el N poblacional y cuando se
trabaja con muestras pequeñas puede no ser representativo de la población.
● Muestreo sistemático. Teniendo N elementos, se muestrean n eligiéndolos mediante
un intervalo fijo k (por ejemplo, cada 10 elementos). El primer elemento que se
selecciona es aleatorio (arranque aleatorio). Las ventajas son que es fácil de usar y
que no es necesario conocer todos los elementos que componen la población; la
principal desventaja es que la muestra puede estar sesgada si la constante k tiene
alguna relación con la muestra
● Muestreo aleatorio estratificado. Mediante esta técnica se pretende asegurar la
representatividad de subgrupos dentro de la muestra (por ejemplo, que la muestra
tenga tantos hombres como mujeres, o que represente a los alumnos de cada grado de
la Udima, etc.). Su principal ventaja es precisamente esa, que representa a los grupos
de una población dividida según una variable de interés. Las desventajas son que es
necesario conocer la distribución de las variables usadas para dividir los grupos a
nivel poblacional y que los análisis y cálculos son más complicados.
● Muestreo por conglomerados. Se caracteriza porque la varianza intragrupo debe ser
menor que la varianza entre-grupos, además es un muestreo por etapas en las que se
eligen unidades siguiendo un proceso por pasos. La técnica es eficiente cuando la
población es grande, pues no es necesario tener un listado de la población. Su
principal desventaja es que el error estándar es mayor y que su cálculo es complejo.

3.1.2. Muestreo no probabilístico o “a propósito”


Se seleccionan los sujetos de acuerdo a unas características determinadas; por ejemplo, en
una aplicación psicométrica podría interesar realizar el pilotaje únicamente con cierto grupo
de pacientes con una patología rara y dado lo escaso de la población es inviable realizar un
muestreo probabilístico; en este caso, se suele proceder a realizar un muestreo no
probabilístico con los pacientes que se logren contactar.
3.1.3. Consideraciones sobre el tamaño de la muestra
En estadística inferencial, para conocer el tamaño idóneo de la muestra, se pueden realizar
unos sencillos cálculos que se basan en minimizar el error en la estimación de los parámetros,
usando muestras lo más reducidas posible. Sin embargo, para un pilotaje con objetivos
psicométricos, las fórmulas no son muy útiles, puesto que solo se pueden usar en el caso de
que el muestreo sea probabilístico y, además, para el análisis de los ítems, se suelen requerir
muestras grandes, por lo tanto, para efectuar un buen pilotaje es necesario acopiar la mayor
cantidad de datos que sea posible.
3.2. Instrucciones de administración
Por medio de unas adecuadas instrucciones de administración, se garantiza que los
examinados estén motivados para resolver el test y se sientan familiarizados con el formato
de los ítems, los tiempos de aplicación, si es anónimo, etc. Algunas de las estipulaciones que
se deben tener en cuenta para elaborar las instrucciones son (Thordinke, 1996):
● Evitar utilizar un lenguaje descortés o amenazante; por el contrario, las instrucciones
deben ser motivadoras y no deberían existir amenazas por las consecuencias de los
resultados.
● En los test de velocidad en los que el tiempo está limitado, hay que informar
claramente a los examinados del tiempo de que disponen para cada pregunta.
● En los test de aptitud o de dificultad incremental, se debe prevenir al sujeto de que
hay preguntas fáciles y otras más difíciles a las que es probable que no pueda
contestar o ejecutar correctamente.
● Se debe proporcionar un ejemplo para que los examinados conozcan el formato y se
familiaricen con el mismo, y minimizar así el error debido al desconocimiento o
cambio de formatos.
● Se deben dar instrucciones sobre qué hacer en caso de desconocer la respuesta; la
persona debe estar informada de si existen penalizaciones por contestar al azar (muy
comunes en los test de conocimientos de los ámbitos académicos)

También se debe instruir sobre el tiempo total del test y el tiempo aproximado que puede
llevar resolver cada una de las preguntas. Es importante animar a los sujetos a que resuelvan
todas las preguntas y finalmente informar sobre los materiales que se utilizan en el test (es el
caso de pruebas de inteligencia en las que se manipulan materiales aparte del formato papel).
Las personas deben estar familiarizadas con la hoja de respuestas en caso de que se utilice
lectura óptica o con el teclado del ordenador en caso de pruebas computarizadas. Es
recomendable seguir las disposiciones ya mencionadas para minimizar el error producido por
la falta de información en cuanto a las instrucciones de administración.

3.3. Formato de representación, organización del test y registro de respuestas


En cuanto al formato de presentación, las más comunes son las pruebas de papel y lápiz,
seguidas por las pruebas aplicadas mediante ordenador. narios) se realizan por otros medios
como teléfono, correo, correo electrónico o internet. En las pruebas de papel y lápiz, tanto la
presentación de la prueba como el registro de respuestas se realizan de forma impresa; en las
aplicaciones por ordenador, los ítems se presentan en la pantalla y las respuestas se dan
mediante teclado, ratón o, incluso, voz. Estos dos formatos son útiles para aplicaciones
masivas.
Hay que especificar también si la prueba se puede ejecutar de forma colectiva o es individual,
y si es oral o escrita. Algunos test (especialmente cuestionarios) se realizan por otros medios
como teléfono, correo, correo electrónico o internet.
En las aplicaciones por internet, e-mail o correo, no está presente el aplicador, por lo que se
suele enviar una carta que explica las instrucciones y objeto del estudio. Su ventaja es que
permite enviar el test a gran número de personas; pero tiene dos grandes desventajas: existe
una alta probabilidad de que las personas no respondan y no se tiene la seguridad de que el
examinado al que se ha enviado sea el que en realidad responde a la prueba.

Es necesario también que la prueba esté ensamblada y organizada correctamente, que tenga el
encabezado a continuación se deben especificar las instrucciones, y luego se suele presentar
el ejemplo, después del mismo se suelen presentar los ítems.

Es importante que los ítems tengan un orden lógico y que si la prueba está compuesta por
ítems de distintos formatos, estos aparezcan agrupados de acuerdo al formato. En el caso de
que el test incluya algunos ítems más difíciles que otros, hay que procurar que no queden
acumulados al final o al comienzo (a no ser que ese sea el objetivo), pues si los ítems difíciles
quedan al comienzo de la prueba, las personas se pueden desmotivar y, si quedan al final, el
cansancio o la falta de tiempo puede influir en que el examinado no los pueda responder. De
igual manera, en las pruebas de comportamiento típico, suele haber preguntas
comprometedoras. Estas preguntas no se suelen incluir al comienzo de la prueba, pues
pueden resultar molestas para el examinado en un primer momento.

Es fundamental minimizar los errores causados por una mala organización del test o una
pobre comprensión de la forma de responder (saltarse preguntas, partes del test, confundir
respuestas, que no sea suficiente el tiempo, etc.).

4. Plan de asignación de puntuaciones y análisis de datos


Los criterios para asignar una puntuación o valorar las respuestas dadas por los examinados a
cada uno de los ítems que componen el test y las técnicas de análisis de datos que se van a
emplear para determinar las propiedades de los ítems.
4.1.1. Asignación de puntuaciones
Cuando se ha ejecutado el plan de pilotaje, el siguiente paso es asignar las puntuaciones a los
examinados. Si el test es de rendimiento óptimo, se suelen tener respuestas correctas para
cada pregunta, por lo que, el proceso de puntuación suele ser simplemente asignar un 1 a cada
respuesta correcta y un 0 a la respuesta incorrecta; luego, se combinan las puntuaciones de
acuerdo a alguna regla para obtener la puntuación total. Dicha combinación suele ser la suma
de las respuestas correctas.

Sin embargo, hay que decidir varios asuntos sobre los que no existe aún un consenso general:
● ¿Cómo se van a puntuar aquellas preguntas no contestadas? Algunos las consideran
como incorrectas, mientras que otros no las tienen en cuenta para los análisis, o
simplemente se les adjudica en la base de datos la etiqueta «no sabe o no responde» a
la que se suele asignar de forma nominal un número 8 o 9.
● ¿Cómo se va a manejar el acierto por azar? Algunos profesores, constructores de test
o aplicadores deciden utilizar fórmulas de corrección para las respuestas por azar, ya
que este problema llega a ser mayúsculo en algunos casos (por ejemplo, en pruebas
con formato de verdadero-falso en las que la probabilidad de acertar por azar es del
50%).
El control del azar se puede realizar mediante dos formas: indicando en las instrucciones que
no se deje ninguna respuesta en blanco (para homogeneizar el acierto por azar) o utilizando
las fórmulas de corrección que se presentan a continuación, las cuales operan de dos formas,
bien penalizando los errores cometidos o bien bonificando los ítems no respondidos.

Cuando se penalizan los errores, se asume que el examinado no conoce la respuesta correcta
y la acierta por azar:

Cuando se bonifican las omisiones, se parte del supuesto de que el examinado ha dejado en
blanco las respuestas que desconocía y solo ha contestado las que conocía. Al no responder
por azar ninguna pregunta, no hay errores, por lo que la fórmula añade una bonificación a la
puntuación total en el test que corresponde a los aciertos que hubiera tenido si en lugar de
dejar ítems en blanco los hubiera respondido al azar. La fórmula es:
Cuando el test es de rendimiento típico, no hay respuestas correctas o incorrectas, y se suele
asignar a los ítems un valor numérico diferente según cada categoría de respuesta.

En la primera pregunta, la opción a) corresponde a un menor grado de depresión y aumenta


gradualmente, mientras que en la segunda pregunta ocurre lo contrario, la opción a)
corresponde a un menor grado de depresión, por lo tanto, su puntuación debe ser inversa; en
otras palabras, el valor numérico (por ejemplo, en una escala de 1 a 4, donde a mayor valor
mayor indicio de depresión) asignado a la opción a) debería ser de 4 en la primera pregunta y
de 1 en la segunda.

Los test formados por ítems de respuesta construida, ya que suelen ser difíciles de puntuar,
pues implican componentes subjetivos a la hora de asignar valores numéricos a las
respuestas. Se pueden considerar unos criterios o rúbricas para lograr una puntuación más
objetiva.
4.1.2. Análisis de datos
En esta parte del plan se debe especificar cuáles son las técnicas estadísticas y teorías
psicométricas que se van a emplear para analizar los datos. Es importante definir cuál de las
dos teorías se va a utilizar, o si se van a combinar las dos para analizar las propiedades de los
ítems. También es fundamental determinar las técnicas que se van a usar para analizar la
fiabilidad y para acopiar evidencia sobre la validez de las inferencias que se van a realizar
con las puntuaciones del test y si se van a usar procedimientos de transformación o
equiparación de las puntuaciones. Las decisiones que se toman en este aspecto dependen
también de la naturaleza del test y de sus objetivos
5. Condiciones
Toda escala diseñada para la medición tiene un proceso con tres características importantes:
● Sistemático.
● Rigurosidad
● Trabajo en equipo

- Fases (CROKER Y ALGINA,1986)

1) Delimitación del objetivo para el que van a utilizarse las puntuaciones.


a) Definición del objetivo de la medición.
Por ejemplo, diagnosticar una dificultad, describir el nivel de compresión de lectura,
clasificar a un sujeto, etc.
b) Concretar las características de la población y el tipo de inferencias o usos que
se van obtener del test.
Por ejemplo, personas con estudios de ingeniería electrónica con un máster en administración
de recursos humanos y se va a seleccionar un candidato a un puesto de dirección. Las
puntuaciones en el test que sean mayores a 100 permitirán inferir que el candidato tiene las
habilidades mínimas requeridas para trabajar en grupo, condición indispensable para el
puesto de trabajo a cubrir.

2) Definición del constructo que se pretende medir con el test.


a) Aproximación inductiva o exploratoria: La aproximación trabaja desde las respuestas
de las personas hacia la definición del constructo.
b) Aproximación deductiva o confirmatoria: se va desde la teoría hacia los hechos.
● Revisión bibliográfica
● Análisis de contenido: preguntas abiertas relativas al constructo que nos
interesa a personas conocedoras del constructo
● Juicio de expertos
● Observación directa
3) Descripción general de los componentes del constructo.
Definición clara de un dominio de contenidos apropiados.
Características de la población a la que va dirigida la prueba .
Matriz de especificación de contenido.

a) Conceptos implicados
● Contenidos curriculares
○ Declaraciones o descripciones declarativas o procedimentales que
forman el corpus doctrinal de una disciplina
● Procesos
○ Niveles de complejidad en la resolución de la tarea
● Descriptores
○ Formulaciones sintéticas de las competencias que habrán de ser
medidas por los ítems que se elaboren. Cada uno de ellos puede
generar varios ítems.
b) Matriz (tabla)de especificación

En el cruce de contenidos con dominios cognitivos se encuentran los descriptores de


desempeño.

Cada uno de ellos puede corresponder a varios ítems.

Un mismo contenido asociado a dominios cognitivos diferentes puede dar lugar a diferentes
descriptores.

- Tareas de especificaciones
a) Determinación de las Competencias (procesos)
b) Determinación de los Contenidos
c) Determinación de los Descriptores
d) Determinación del peso relativo de cada casilla
e) Elaboración de los ítems especificados para cada descriptor
4) Diseño del test.
5) Redacción de los ítems.(Consulta a expertos y estudio de campo)
6) Análisis de la calidad de los ítems.
7) Estudio de la fiabilidad del test.
8) Estudio de la validez del test.
9) Elaboración de las normas de aplicación, interpretación y baremación de las
puntuaciones.
6. Diseño del test
● Número de ítems
● Tipos de ítems y número de alternativas de respuesta
● Cómo cuantificar las alternativas de respuesta
● Tiempo máximo para resolver el test o las tareas indicadas
● Secciones en que se divide el test
7. Redacción de ítems
● Es una de las fases más importante, ya que en ella se debe conectar los objetivos y
fines del test representados en la matriz de contenidos con la evidencia empírica de
los sujetos.
● Haladyna, Downing y Rodríguez (2002) han propuesto 31 directrices para la
construcción de ítems de elección múltiple.
● Capítulo 3
8. Análisis de la calidad de los ítems

● Análisis de la dificultad: proporción de respuestas correctas


● Análisis de la discriminación: correlación biserial puntual, correlación biserial y el
coeficiente phi.
● Análisis Diferencial del Ítem (DIF).
● Unidad 7

9. Análisis de fiabilidad

● Se puede hacer en dos momentos:


1. Posterior a un pilotaje de los ítems: identificar cuáles son los ítems que mejor
contribuyen a la fiabilidad.
2. Una vez aplicados los ítems definitivos dar cuenta del grado de fiabilidad de
la prueba.
● Grado en que un instrumento mide con precisión, sin error.
● Unidad 4

10. Validez

● La validez hace referencia a la capacidad de la escala para representar bien el


contenido que debe medir (validez de contenido).
● Correlacionar correctamente con criterios externos (validez criterial)
● Satisfacer las hipótesis que cabría esperar que cumpliera esa escala de medida en
función de su cometido (validez de constructo).
● Unidades 5 y 6

11. Elaboración de las normas de aplicación, interpretación y baremación de las


puntuaciones.

● Elaborar un manual o reporte técnico.


● Contiene como mínimo tres elementos:
○ Las normas de aplicación.
○ Las normas de interpretación.
○ Baremación de las puntuaciones.
● Especificación del test
● Descripción del test
● Justificación del test
Tema 3: Construcción de ítems

PARTE 1: PREGUNTAS DE SELECCIÓN MÚLTIPLE

- Objetivo: El objetivo de la presente Unidad es exponer y ejercitar los diversos


formatos de ítems que se emplean para las pruebas de Rendimiento Académico
(RENDIMIENTO OPTIMO).

- Fases:
1. Definir la variable objeto de estudio.
2. Definición de un marco teórico del atributo a medir.
3. Tabla o matriz de especificaciones.
4. Redacción de los ítems o enunciados.
5. Determinar las opciones o categorías de respuesta de los ítems.
6. Realizar un pilotaje de la escala con una muestra representativa para decidir
qué ítems permanecerán en la escala y cuáles no.
7. Análisis de la calidad de los ítems.
8. Fiabilidad y Validez de la escala.

1. Ítems de selección múltiple


1.1. ¿Que son?
Los Ítems de Selección Múltiples (ISM) son aquellos enunciados que tienen
un conjunto de opciones de respuesta, en donde existe una única respuesta
correcta, y a través del cual se busca cuantificar el nivel de dominio o
magnitud de un atributo que se pretende medir en un momento determinado en
un sujeto.

Se emplean en los test de rendimiento óptimo, es decir, cuando se quiere medir


el nivel de dominio o magnitud del sujeto en una variable de interés. Las
variables pueden ser de tipo cognitivo, tales como: conocimientos,
competencias, resultados del aprendizaje, aptitudes, rendimiento, etc.

Las pruebas PISA, los exámenes finales de una asignatura, las pruebas de
selectividad son ejemplos de pruebas de rendimiento óptimo.
1.2. Ventajas
● Permite medir conocimientos generales o especializados, competencias, habilidades y
destrezas pre-establecidas en una taxonomía.
● Elimina el factor de ambigüedad (o de polisemia) propio de las respuestas abiertas.
● Su aplicación necesita menos tiempo que las preguntas de desarrollo.
● La cantidad de preguntas a utilizar depende del grado de medición que se vaya a
utilizar: un contenido específico, la materia de un tema general, un control trimestral o
semestral, una prueba final, etc.
● Los puntajes son más objetivos y pueden usarse para obtener una muestra
representativa de un área de conocimiento.
● Se pueden usar prácticamente para todo tipo de contenido y disciplinas.
● Se pueden emplear para medir varios tipos de capacidad intelectual o diferentes fases
del aprovechamiento.
● Permiten la evaluación de resultados en áreas en que los problemas no son
simplemente verdaderos o falsos, sino que admiten diferentes grados de propiedad.
● Son flexibles: permiten evaluar aprendizajes sencillos y complejos.
● La corrección es rápida e incluso puede mecanizarse.
1.3. Limitaciones
● No permiten la medición de aspectos de producción como los ítems de respuesta de
desarrollo.
● Presentan ciertas dificultades en su construcción, como saber determinar con
precisión qué contenido se está midiendo y cómo se está haciendo (habilidad
cognitiva).
● A veces, no es fácil elaborar distractores posibles para los enunciados del ítem.
● No pueden ser empleados para medir todos los resultados de aprendizajes posibles.
● Es susceptible que las respuestas se deban al azar aunque es un factor que se puede
neutralizar psicométricamente.
● Pueden penalizar a alumnos que no poseen una buena lectura y comprensión lectora.
● Pueden transmitir el mensaje- no intencionado- de que reconocer la respuesta correcta
es el objetivo (de la enseñanza).
● Capacidad limitada para medir dimensiones cognitivas de alto nivel y complejas tales
como la creatividad y la habilidad para resolver problemas.
● Dificultad en la construcción y redacción de enunciados.
● Se reducen a evaluar resultados de aprendizaje sólo a nivel verbal (como todos los
demás tipos de ítems).
● Demandan mucho tiempo en su elaboración.
1.4. Normas básicas de ISM
● Sobre el Contenido
1) Alinear el ítem con la tabla de contenidos o con las especificaciones de los
mismos.

2) No aumentar artificialmente la dificultad, esto es, no elegir estímulos confusos


ni que se presten a más de una interpretación.
3) No examinar contenidos intrascendentes o triviales.
4) Elaborar ítems en los que se incluya únicamente la información necesaria y
relevante para el planteamiento del problema y su solución.
5) Exponer la información de manera original.
6) Evitar conceptos citados de manera textual.
7) Usar una redacción clara.
8) Omitir el uso del tiempo pospretérito (podría, debería, sería).
9) Elaborar ítems independientes unos de otros, es decir, la información
contenida en uno no puede sugerir la solución de otro, ni debe ser requisito
para contestar algún otro.
10) Omitir estereotipos de género o culturales.
11) Incluir la referencia documental correspondiente cuando se emplee algún
material protegido por derechos de autor.

- Ejemplo correcto

- Ejemplo deficiente

● Sobre la Base
1) Incluir una sola idea al elaborar el ítem, es decir, presentar solamente un
problema.
2) Incluir los elementos estrictamente necesarios para comprender el sentido
correcto de la base, de tal manera que, sin leer las opciones, el sujeto
comprenda lo que debe realizar.
3) Si el ítem requiere de una instrucción, ésta debe indicarse en la base.
4) Omitir términos que den claves de la respuesta correcta.
5) Redactar el enunciado en forma afirmativa. En caso de que el dominio de la
prueba solicite que el sujeto identifique elementos que no cumplan con alguna
condición o regla, se deberá emplear palabra como: excepto.
- Ejemplo 1:

- Ejemplo 2:

- Ejemplo 3:

- Ejemplo 4:
- Ejemplo 5:

● Sobre las Opciones de Respuesta


1) Verificar la correspondencia gramatical entre la base y el inicio de cada una
de las opciones: género, número y tiempo verbal.
2) Omitir el uso de sinónimos.
3) Mantener similar extensión en todas las opciones.
4) Asegurar su pertenencia al mismo campo semántico.
5) Omitir el uso de expresiones como “todas las anteriores”, “ninguna de las
anteriores”, “A y C” o “no sé”.
6) Omitir las formas negativas y las absolutas (no, nunca, siempre,
completamente).
7) Omitir palabras que aparecen en la base.
8) Redactar en el mismo nivel de generalidad, debido a que las que son más
específicas pueden ser parcialmente correctas.
9) Ordenar las opciones numéricas, las cantidades de manera ascendente y las
fechas cronológicamente.

- Ejemplo 1:
- Ejemplo 2:

- Ejemplo 3:

- Ejemplo 4:
- Ejemplo 5:

- Ejemplo 6:

● Sobre la Respuesta Correcta


1) Debe ser única.
2) Debe resolver el problema o planteamiento satisfactoriamente y ser
incuestionable.
3) Si es posible, debe ocupar una posición aleatoria entre las opciones de
respuesta.
- Ejemplo 1:
● Sobre los Distractores
1) Deben ser plausibles, es decir, que no se descarten por inferencia lógica o
sentido común.
2) Incluir los errores más comunes que se dan en la resolución del problema.
3) Omitir distractores que puedan ser parcialmente correctos.
- Ejemplo 1:
● Sobre la Argumentación
1) Todas las opciones de respuesta se deben argumentar, es decir, se debe
explicar por qué esa es la respuesta correcta o por qué es un distractor.
2) Debe contener explicaciones que hagan referencia al contenido de cada una de
las opciones.
3) Si el ítem demanda al examinado recordar o evocar información concreta
sobre hechos, conceptos, principios, etcétera, entonces la argumentación de la
respuesta correcta podrá ser la referencia documental que corrobore el
contenido del ítem.

● Sobre las Imágenes


1) Deben ser necesarias para responder el ítem.
2) Deben contener los elementos necesarios para su interpretación.
3) Deben ser claras y nítidas.
4) Cuidar que el tamaño sea adecuado para el formato de la prueba.
5) Las imágenes de un mismo ítem deben ser de igual tamaño.
6) Si la imagen no es de creación propia, es imprescindible consignar la
referencia correspondiente.

- Ejemplo 1:
- Ejemplo 2:

- Ejemplo 3:

- Ejemplo 4:

- Ejemplo 5:
2. Tipos de ítems

● Cuestionamiento directo
Son enunciados interrogativos a los que se debe responder a través de la elección de una
respuesta de una serie de opciones. Todas las opciones deben ser parcialmente correctas, pero
sólo una lo es completamente.

- Directrices:
1) Procurar que las opciones de respuesta no sean más extensas que la base.
2) Incluir en la base la información necesaria para evitar que se repitan palabras
en las opciones de respuesta.
3) Si la base termina en punto final o signo de interrogación, las opciones inician
con mayúscula.
4) Si la base termina en dos puntos ( : ) o puntos suspensivos (…), las opciones
inician en minúsculas, a menos que sean nombres propios.
- Ventajas:
➢ Puede aplicarse un gran número de reactivos en poco tiempo.
➢ Pueden evaluarse objetivos de bajo nivel.
➢ La calificación suele ser rápida y objetiva.
➢ Da confianza al alumno porque tiene la certeza de que la respuesta correcta
está entre las opciones
- Desventajas:
➢ Se requiere mayor tiempo para redactar los reactivos.
➢ No son útiles para cuando se desea demostrar el trabajo.
➢ A menudo es difícil encontrar las opciones adecuadas.
➢ La habilidad de lectura puede influir en el desempeño.
- Ejemplo 1:
- Ejemplo 2:

- Ejemplo 2:
- Ejemplo 3:
● Completamiento
Son preguntas que deben contestarse con una palabra, fecha, número o una frase. Se dividen
en dos tipos:
1. “Frases incompletas”, que sólo presentan un espacio en blanco para contestar.
2. De tipo “canevá” que presentan más de un espacio en blanco para contestar,
intercalando con partes de la frase que le dan sentido.
- Directrices
a. No incluir más de tres espacios en blanco en un mismo reactivo.
b. El enunciado debe completarse con el o los conceptos importantes para el
contenido evaluado.
c. Escribir las opciones de respuesta en minúsculas, salvo en los casos en que la
puntuación del reactivo requiera utilizar letra en mayúscula.
d. El espacio en blanco no debe ir al inicio o al final de la base del reactivo.
e. Nunca se debe omitir el verbo.
f. Los espacios o líneas para contestar deben ser uniformes para que su tamaño
no sugiera la respuesta.
- Ejemplo 1:

- Ejemplo 2:

- Ejemplo 3:
- Ejemplo 4:

- Ejemplo 5:

- Ejemplo 6:
- Ejemplo 7:

- Ejemplo 8:
- Ventajas:
➢ Se reduce la posibilidad de adivinar, pues el examinado tiene que construir una
respuesta.
➢ Es fácil escribir los reactivos.
➢ Puede evaluarse una amplia gama de respuestas.
- Desventajas:
➢ La calificación puede ser lenta.
➢ No son útiles cuando se buscan resultados complejos o extensos.
➢ Se puede confundir al examinado al solicitarle información no esencial.
➢ Se valora la memorización.
● Ordenamiento
Consiste en presentar varias proposiciones (serie de hechos, conceptos o datos) a las cuales el
que responde deberá dar un orden lógico o cronológico.
- Directrices:
1) Para su elaboración se requiere contar con un material suficientemente
homogéneo.
2) El material debe referirse a un sólo tema, periodo, espacio geográfico.
3) La respuesta debe tener un orden lógico, cronológico o de jerarquización.
4) Para su elaboración se requiere contar con un material suficientemente
homogéneo.
5) El material debe referirse a un sólo tema, periodo, espacio geográfico.
6) La respuesta debe tener un orden lógico, cronológico o de jerarquización.
- Ventajas:
● Se puede evidenciar la capacidad de observación, de reflexión y de
asimilación de los conocimientos.
● Se puede conocer el análisis y la discriminación que el examinado realiza.
- Desventajas
● Se requiere tiempo y capacidad de síntesis para la elaboración de estas
preguntas.
- Ejemplo 1:

- Ejemplo 2:
- Ejemplo 2:
- Ejemplo 3:
● Elección de elementos
En este formato se presenta una pregunta, instrucción o afirmación, seguida de varios
elementos que la responden o caracterizan; sin embargo, no todos los elementos son
parte de la respuesta correcta, por lo que el sujeto deberá seleccionar solamente
aquellos que corresponden a la consigna dada.
Estos ítems evalúan si el estudiante identifica elementos de una misma categoría y los
clasifica o agrupa de acuerdo con un criterio dado.
- Directrices:
1) Emplear listas de cuatro a siete elementos.
2) No mezclar elementos de diferente campo semántico en los listados.
3) Incluir en todas las opciones de respuesta el mismo número de elementos.
4) Evitar que un elemento del listado aparezca en todas las opciones de respuesta.
5) Ordenar las opciones de respuesta de manera ascendente.
6) Separar los elementos de las opciones de respuesta con coma y espacio (1, 2,
3, 4).
7) Que sean señalados con números arábigos y se coloque en forma de columna
- Ventajas
● El examinado puede seleccionar entre los elementos presentados.
● Con la inclusión de varias alternativas de respuesta es posible detectar las
deficiencias más comunes de los examinados.
- Desventajas
● La selección requiere de memorización.
● Los reactivos evalúan una sola idea y miden con mayor efectividad los
conocimientos que no están sujetos a discusión dentro de un aprendiz
- Ejemplo 1:
- Ejemplo 2:
- Ejemplo 3:
● Relación de columnas
En este formato dos listados de elementos han de vincularse entre sí, conforme a ciertos
criterios. Las opciones presentan distintas combinaciones entre las que el examinado debe
reconocer la que asocia correctamente los dos listados.

Este formato evalúa objetivos de aprendizaje en los que el estudiante debe mostrar dominio
en actividades tales como relacionar, vincular, clasificar, aplicar principios o inferir.

- Descriptores
1) Establecer un criterio de relación claro entre los elementos de las listas.
2) Construir listas en las que los elementos y relaciones sean del mismo tipo y
naturaleza.
3) Asignar un título a las columnas, para que el examinado identifique los
elementos por relacionar.
4) Organizar las opciones, de tal forma que siempre se presente un elemento de la
primera columna con otro u otros de la segunda.
5) Incluir al menos un elemento más en la segunda columna. La columna que
menos elementos contenga será de dos (lado izquierdo) y la que contenga más,
no deberá exceder de siete (lado derecho).
6) Utilizar números en la columna izquierda y letras minúsculas en la derecha.
7) Separar los elementos de las opciones de respuesta con coma y espacio (1a,
2b, 3c, 4d).
8) Ordenar las opciones de respuestas de manera ascendente
9) Ofrecer instrucciones claras.
10) Utilizar un tema homogéneo.
11) Usar un número desigual de entradas en las columnas

- Ventajas:
● Son una forma eficiente de obtener abundante información.
● Son fáciles de construir.
● La calificación suele ser rápida y objetiva.
- Desventajas
● Se centra en reactivos de nivel bajo.
● Se requiere temas homogéneos.
- Ejemplo 1:
- Ejemplo 2:
● Preguntas de Tronco Común
Algunos ítems están ligados unos a otros; son los llamados de “tronco común”, que
consisten en un estímulo o contexto a partir del cual se desprenden algunos ítems
relacionados con él. El estímulo puede ser un texto, una gráfica, una tabla, una imagen
o un esquema, por ejemplo. Los ítems asociados evalúan de forma integrada diversos
conocimientos y habilidades.
- Directrices:
1) 1. Se plantea un problema, texto gráfico, imagen esquema, etc., a partir de éste
se desprende un máximo de cinco reactivos.
2) Los ítems son independientes aun cuando necesitan la información
proporcionada por el ítem.
3) Cada ítems puede medir un aspecto distinto del mismo tema y tener diferente
nivel taxonómico.
4) El contexto podrá incluir distintos tipos de información, tales como:
a) procedimientos realizados previamente
b) datos iniciales o diagnósticos c. datos numéricos, esquemas,
diagramas, imágenes, dibujos o tablas que complementen la
descripción general
5) Los elementos del contexto deben incluir datos relevantes para comprender el
sentido correcto de la situación
6) Debe verificarse que los ítems estén asociados al contexto, es decir, que
solamente puedan ser resueltos a partir de la lectura del planteamiento o
contexto; de no ser así, entonces el ítem es independiente y no debe ser parte
del tronco común.
7) Puede agregarse información complementaria sobre el problema en los ítems,
a fin de dar secuencia lógica al tronco común.
8) Los ítems deben ser independientes, es decir, la información contenida en uno
no puede sugerir la solución de otro, ni debe ser requisito para contestar algún
otro.
- Ventajas:
● Evalúan conocimientos y habilidades interrelacionadas.
● Desde la comprensión de conocimientos hasta la aplicación de conocimientos.
● Consta de un segmento de información y se formulan diferentes reactivos.
Desventajas
● En ocasiones es difícil encontrar textos adecuados a cada área de
conocimiento.
● Puede confundir al examinado cuando las respuestas no están implícitas en el
texto
¿A qué tipo de ítem corresponde cada uno?
PARTE 3: ÍTEMS DE VERDADERO Y FALSO
Aquellos que solo tienen dos opciones de respuesta, por ello también se llaman ítems
dicotómicos.
Estos ítems son más difíciles de elaborar que los de elección múltiple porque la afirmación
verdadera tiene que ser claramente correcta y la falsa, obviamente incorrecta, además existe
un 50% de probabilidad de que sean acertados por azar. Tienen menos capacidad diagnóstica.
Por ello, en algunas variantes de este tipo de formato se pide a los examinados que cambien
el enunciado falso por uno verdadero después de que han contestado.
- Normas:
1) Incluir en cada enunciado una sola idea central e importante.
2) Se debe redactar de forma precisa para que pueda ser evaluado como
verdadero o falso, evitando términos ambiguos como: «posiblemente»,
«frecuentemente», «algunas veces», etc.
3) Los enunciados deben tener una estructura sencilla.
4) Utilizar poco los negativos y la doble negación.
5) Evitar dar claves verbales, por ejemplo, los enunciados que utilizan palabras
como «siempre», «nunca», «todo», «ninguno», etc. tienden a ser falsos.
PARTE 5: SEMIABIERTO O RESPUESTA CORTA
Se pide al examinado que proporcione la respuesta en lugar de seleccionarla. El enunciado es
similar al de elección múltiple pero sin las opciones. Este tipo de ítems presentan ciertos
inconvenientes: en primer lugar, es difícil redactar enunciados en los que solo exista una
respuesta correcta; en segundo lugar, cuando la calificación es automática, el examinado debe
responder exactamente la palabra que se está pidiendo, ya que si tiene algún error ortográfico,
si responde en plural, si utiliza coma en lugar de punto en una respuesta numérica, etc., la
respuesta será puntuada como incorrecta incluyendo error en el proceso de medida.
- Normas:
1) Enunciar el ítem para que sea posible solo una respuesta breve.
2) No hay que pedir que los examinados «completen» partes de un enunciado que
no sean importantes (por ejemplo, artículos como «un», «el», etc.).
3) Es preferible utilizar preguntas en lugar de enunciados incompletos.
4) Es mejor colocar el espacio para responder al final del enunciado.
5) Evitar claves de respuesta, por ejemplo, poner «un» o «una» al final del
enunciado puede proporcionar una clave de la respuesta.
6) Con respuestas numéricas hay que aclarar el nivel de precisión esperado en la
respuesta (número de decimales) y las unidades en que se debe expresar
PARTE 6: DE ENSAYO O PREGUNTA ABIERTA
Los ítems de ensayo o pregunta abierta permiten al examinado tener libertad en la respuesta,
confiriendo importancia a la capacidad de producir, integrar y expresar ideas.

Presenta deficiencias, por ejemplo, su calificación es subjetiva e implica mayor tiempo de


resolución, por lo cual solo se pueden incluir pocos ítems de este tipo en un test. También
puede existir error o sesgo en la medición, pues una persona con alta habilidad para
expresarse de forma escrita puede ser puntuada con un nivel alto cuando en realidad no lo
tiene.

Los autores lo dividen en dos:


● Ítems de respuesta restringida, en los que se ponen límites a la respuesta que hay que
dar.
Ej: Las teorías de los test más importantes son la teoría de respuesta al ítem
(TRI) y la teoría clásica de los test (TCT). Explique brevemente sus supuestos
(sin emplear más de una página en total)
● Ítems de respuesta libre, en los que se deja que el examinado responda libremente.
Ej: Explique los supuestos de la TCT y la TRI

- Normas:
1) Se deben usar los ítems de ensayo solo para evaluar aspectos cognitivos
complejos.
2) Relacionar las preguntas lo más directamente posible con los objetivos del test
y con la matriz de especificación de contenidos.
3) Las preguntas deben formular una tarea clara y bien definida, no deben ser
vagas o demasiado generales. Al examinado le debe quedar claro lo que se
está pidiendo. Se debe evitar cualquier ambigüedad.
4) Es importante conceder suficiente tiempo y espacio para responder y sugerir
tiempo límite en el caso de ser varios ítems.
5) No es adecuado permitir que el examinado elija las preguntas que quiere
contestar, especialmente en pruebas de aprendizaje, pues esto ocasiona la no
comparabilidad de los resultados y aumenta aún más la subjetividad de la
medida
- Sugerencias para la clasificación:
1) Se deben usar los ítems de ensayo solo para evaluar aspectos cognitivos
complejos.
2) Relacionar las preguntas lo más directamente posible con los objetivos del test
y con la matriz de especificación de contenidos.
3) Las preguntas deben formular una tarea clara y bien definida, no deben ser
vagas o demasiado generales. Al examinado le debe quedar claro lo que se
está pidiendo. Se debe evitar cualquier ambigüedad.
4) Es importante conceder suficiente tiempo y espacio para responder y sugerir
tiempo límite en el caso de ser varios ítems.
5) No es adecuado permitir que el examinado elija las preguntas que quiere
contestar, especialmente en pruebas de aprendizaje, pues esto ocasiona la no
comparabilidad de los resultados y aumenta aún más la subjetividad de la
medida

PARTE 7: TEST DE COMPORTAMIENTO TÍPICO

Los ítems de comportamiento típico pueden ser absolutos o comparativos, por


ejemplo, ¿le gusta la Coca-Cola? es un ítem absoluto, mientras que ¿prefiere la Coca Cola o
la Pepsi? es un ítem relativo.

1. Medición de actitudes

Se suelen definir tres componentes en la actitud:


● Comportamental: evalúa las tendencias del sujeto hacia la acción.
● Afectivo: se refiere al grado de sentimientos de agrado frente al constructo.
● Cognitivo: incluye las creencias frente al constructo.
El supuesto teórico subyacente a la medición de las actitudes es que se trata de una variable
unidimensional
2. Método de Thurstone
Thurstone (1928) desarrolló un conjunto de métodos para la medición de actitudes.
Dicho método es una derivación del de comparación por pares, que consiste en presentar a
una muestra representativa de la población a la que va dirigido el test una lista de enunciados
que son pertinentes para medir el grado de favorabilidad o desfavorabilidad de las personas
hacia el constructo objetivo.Los sujetos de dicha muestra de jueces no actúan como
examinados que responden con su opinión a los enunciados o ítems, sino que juzgan la
favorabilidad de esos enunciados. En otras palabras, no expresan su opinión sobre la
afirmación que se les presenta; lo que se les pide es que manifiesten cuál es el grado en el que
consideran que el enunciado es favorable al constructo objetivo.

En el método de comparación por pares, los jueces tienen que comparar dos a dos todos los
ítems que componen la escala, indicando cuál de los dos es más favorable hacia el constructo.

Cada juez debe realizar n (n – 2) / 2 juicios (siendo n el número de enunciados). Por ejemplo,
10 enunciados requerirían 45 juicios, y 40 enunciados, 780 juicios.

Para construir una escala de actitud de este tipo, se deben seguir varios pasos:
1) Especificar lo más claramente posible cuál es la variable que se pretende medir. Esta
definición debe involucrar una revisión conceptual y una especificación del dominio
de actitud que se desea abarcar. Por ejemplo, si se quiere evaluar la actitud hacia el
aborto, hay que definir qué es el aborto y delimitar el campo que cubre (a nivel social,
físico, ideológico, etc.).
2) Se debe recoger información para la construcción de los ítems que van a componer la
escala y con esa información se redactan los ítems. Debe haber desde ítems que
reflejen una postura muy desfavorable hasta ítems que reflejen posiciones muy
favorables, pasando por todos los escalones intermedios. Para construir los ítems, se
puede usar la teoría subyacente, se pueden realizar entrevistas previas con la
población objetivo o simplemente recurrir a la intuición y sentido común del
constructor.
3) La construcción de escalas es valorar la adecuación de los ítems recurriendo a una
muestra de jueces; esta es la particularidad más importante de una escala Thurstone
por el método de intervalos aparentemente iguales. Los jueces deben clasificar los
ítems en una escala que representa la favorabilidad o desfavorabilidad respecto a la
variable de actitud que se está midiendo. Al juez no se le pide que aporte su opinión
con respecto al enunciado, sino que clasifique cada ítem de acuerdo a si considera que
presenta una tendencia favorable o desfavorable hacia la variable. Es importante que
constituyan una muestra representativa de la población a la que va a ir dirigido el test.
Si esto no es posible, se puede utilizar también un muestreo a propósito que cumpla
con los objetivos de la investigación que se está llevando a cabo. Otra posible
solución es recurrir a expertos en la materia que se está evaluando.
4) Calcular el valor escalar del ítem, que viene dado por la mediana de las respuestas de
los jueces a dicho enunciado (recuérdese que la mediana es el valor que divide la
muestra por la mitad, es decir, deja por debajo el 50% de las observaciones)
5) Definir los ítems que compondrán la escala usando un criterio de ambigüedad; en la
medida en que los jueces concuerden con la clasificación del enunciado, el ítem será
menos ambiguo. En términos estadísticos, un ítem será menos ambiguo si tiene una
dispersión menor (menor desviación típica o menor rango intercuartil). Generalmente
se considera que un ítem es ambiguo cuando el rango intercuartil supera el valor 1,40.
6) Elegir los ítems de acuerdo a su valor escalar. Se debe procurar seleccionar un ítem de
cada intervalo del continuo (en el caso del ejemplo sobre síndrome de Down, se
cuenta con 11 intervalos), por lo que un test bien balanceado podría estar conformado
por 22 ítems (dos de cada intervalo); sin embargo, esta uniformidad es difícil de
conseguir, pues los ítems poco ambiguos se pueden acumular en algunos intervalos
más que en otros. Para evitar esta consecuencia, se pueden tomar aquellos ítems cuyo
valor escalar está más próximo a los límites y mitades de los intervalos.
7) Administrar el test a la muestra de examinados que se ha seleccionado para realizar la
valoración. A diferencia de los jueces, los sujetos de esta muestra sí deben expresar su
opinión, por lo tanto se les pide que señalen los enunciados con los que están de
acuerdo. Para obtener su puntuación total, se promediará los valores escalares
correspondientes a los ítems que han señalado. Por ejemplo, si un sujeto ha marcado
que está de acuerdo con tres ítems cuyos valores escalares son: 8,5, 7,5 y 5,5, su
puntuación en el test será 7,16 (8,5 + 7,5 + 5,5 / 3 = 7,16)

Thurstone daba a los jueces tarjetas de la A a la K pidiéndoles que colocaran sobre la letra A
aquellas afirmaciones que consideraban más desfavorables y sobre la K las afirmaciones más
favorables, las demás letras correspondían a posiciones intermedias, siendo la F la posición
más neutral.
Actualmente, en lugar de utilizar tarjetas separadas, se usa un formato más práctico en el que
los jueces señalan el grado de favorabilidad de las afirmaciones marcando con una X en el
lugar apropiado.

A continuación se presenta un ejemplo de la valoración de un juez respecto a las actitudes


hacia las personas con síndrome de Down. La instrucción que se ha dado al juez es que
marque la casilla izquierda cuando considere que el enunciado representa una actitud
totalmente desfavorable hacia las personas con el síndrome y la de la derecha cuando el
enunciado represente una actitud completamente favorable; las casillas intermedias
representan un continuo:
- Determinación de los valores escalares
Para determinar la mediana de una distribución de frecuencias existen dos caminos:
1) Si existe un intervalo para el cual la frecuencia acumulada Ni es igual al
número de términos de la muestra partido por dos, en este caso, 50 / 2 = 25, la
mediana por convenio es el límite superior de dicho intervalo.
2) Si no existe un intervalo para el cual la frecuencia acumulada sea igual al
número de términos de la muestra partido por dos (como en este caso), la
mediana estará en el siguiente intervalo, es decir, en el primer intervalo cuya
frecuencia absoluta acumulada supere a 25 (en este caso, señalado con trama
gris). La mediana, en este caso, será la marca de clase de dicho intervalo. Si
seguimos dicha regla, la mediana o percentil 50 del ítem 1 es 4,5 y la del ítem
2 es 8,5, por tanto, esos son los valores escalares de los ítems.
- Ambiguedad:
Para decidir si los ítems son ambiguos o no hallamos el rango intercuartil, cuya fórmula es:

Si conocemos (aplicando la misma fórmula de la mediana) que los cuartiles primero y tercero
del ítem 1 son 3,93 y 5,87, respectivamente, y que los cuartiles del ítem 2 son 5 y 8,95,
podemos determinar la ambigüedad de los ítems:
● Ambigüedad ítem 1: 5,87 ‒ 3,93 / 2 = 0,94.
● Ambigüedad ítem 2: 8,95 ‒ 5 / 2 = 1,97

Como la ambigüedad del ítem 2 supera el valor deseado 1,4, sería adecuado pensar en la
posible eliminación de dicho ítem de la escala
3. Método Likert
- Objetivo: Aprender a identificar y a manejar correctamente algunas normas para la
elaboración de ítems tipo Likert que son empleados en la medición de actitudes o
creencias.
- Contenido:
1. 1. Ítems Tipo Likert (ITL)
1.1. ¿Qué son?
1.2. Ventajas
1.3. Limitaciones
1.4. Normas básicas
1.5. Ejercicios: Elaboración de ítems para una escala tipo Likert

- Fases:
1) Definir la variable objeto de estudio.
2) Definición de un marco teórico del atributo a medir.
3) Tabla o matriz de especificaciones.
4) Redacción de los ítems o enunciados.
5) Determinar las opciones o categorías de respuesta de los ítems.
6) Realizar un pilotaje de la escala con una muestra representativa para decidir
qué ítems permanecerán en la escala y cuáles no.
7) Análisis de la calidad de los ítems.
8) Fiabilidad y Validez de la escala

1. Ítems para escala tipo Likert


1.1. ¿Que son?
Un Ítem Tipo Likert (ITL) está conformado por un enunciado ante el cual el
sujeto tiene que expresar su opinión o posición seleccionando una de las
alternativas de respuesta de las k posibles.

● Pertenece a los test de comportamiento típico que están compuestos de


ítems en los que no existen respuestas que se puedan considerar
correctas y suelen utilizarse para medir constructos no cognitivos,
como las actitudes, diferencias, personalidad, intereses, etc. Este tipo
de constructo suelen referirse a sentimientos que no implican
conocimientos, sino emociones.
● Una escala Likert está conformada por un conjunto finito de ítems tipo
Likert, un ITL no define una escala Likert
● Cada ítem de la escala proporciona una información sobre la actitud
del sujeto.
● La suma de respuestas es lo que permite decidir la posición del
examinado en el continuo de la actitud.
● Las propiedades fundamentales de las escalas Likert son la
Monotonicidad (la aceptación o no de un ítem está siempre ligada de
forma monótona a la posición que la persona ocupa en la escala) puede
ser monotonidad creciente, decreciente o no monotoneidad y la
Unidimensionalidad.
● Es una escala sumativa.
- Ejemplos tipo Likert
● La crianza de los hijos es una tarea muy ardua.
● Los políticos hacen que avance la sociedad.
● Las personas con Síndrome de Down son una carga para la sociedad.
● Diseño actividades que propicien el debate entre los estudiantes sobre
el valor de la empatía.
● Utilizó la técnica de los dilemas morales para reforzar el valor de la
convivencia armónica.
● Aplico en mi aula las técnicas de comunicación dadas por el orientador
de mi centro.
● Me siento inseguro cuando tengo que resolver problemas de
estadística.
1.2. Ventajas
● Es un instrumento estructurado.
● Desde el punto de vista del diseño del cuestionario, es una escala fácil
de construir.
● Los datos que produce son fáciles de manejar desde cualquier
programa estadístico.
● Desde el punto de vista del encuestado, se le ofrece la comodidad de
poder graduar su opinión ante afirmaciones complejas.
● Su aplicación en papel y lápiz, así como en internet, funciona muy
bien.
1.3. Limitaciones
● Dos personas pueden obtener la misma puntuación en la Escala Likert
cuando han seleccionado opciones de respuestas diferentes.
● Es difícil tratar las respuestas neutras, del tipo "ni de acuerdo ni en
desacuerdo".
● Los encuestados tienden a estar de acuerdo con las afirmaciones
presentadas. Es el fenómeno que conocemos como acquiescence bias

1.4. Normas básicas


● Sobre el Contenido
1) Alinear el ítem con la tabla de contenidos o con las
especificaciones de los mismos.
● Sobre el Enunciado
➢ Los enunciados deben estar relacionados con el objeto de
estudio.
➢ Reflejar las conductas presentes y no las pasadas. Cada
enunciado debe expresar solo una idea.
➢ Evitar enunciados que solo se apliquen a grupos restringidos de
personas.
➢ Procurar que los enunciados sean discriminativos, es decir, que
no sean respondidos de la misma manera por examinados con
actitud favorable y con actitud desfavorable.
➢ Evitar enunciados con los que la mayoría o una mínima parte
de los sujetos estaría de acuerdo (o en desacuerdo)
➢ Los enunciados no deben interpretarse como hechos, pues los
enunciados deben ser susceptibles de opinión.
➢ Utilizar un lenguaje claro, simple y directo, evitando palabras
coloquiales como, por ejemplo, en la medición de la actitud
hacia las drogas: «porro», «camello», etc.
➢ Expresar los enunciados de forma corta y concisa y evitar
adjetivos totalitarios como: «todo», «nunca», «siempre»,
«ningún», etc.
➢ Utilizar con precaución adverbios como: «simplemente»,
«frecuentemente», etc. Evitar dobles negaciones.
➢ Cada enunciado debe ceñirse solo a un aspecto y tener una sola
interpretación.
➢ Evitar que las personas respondan de manera estereotipada.

● Sobre las Categorías de Respuesta


Se le pide al sujeto que evalúe el enunciado en una escala graduada desde
«totalmente de acuerdo» hasta «totalmente en desacuerdo», incluyendo grados
intermedios, con respecto a la afirmación.
Se compone de una afirmación a la cual se responde escogiendo una de
cinco¿? categorías, las que reflejan el grado de acuerdo con la afirmación
planteada:
1) Completamente en desacuerdo.
2) En desacuerdo.
3) Indiferente.
4) De acuerdo.
5) Completamente de acuerdo

● Tipos de Ítems
Dado que el propósito de cada ítems en la escala es obtener una
varianza fiable con respecto a la actitud, la mayoría de los ítems
deberían ser moderadamente positivos o moderadamente negativos, no
muy extremos.
Debe cuidarse la distribución homogénea de ítems positivos y ítems
negativos.

- Ejemplos. Deficiencias.
➢ Pienso que no soy importante para mi familia.
➢ Puedo controlar mis emociones.
➢ Cuando veo una situación angustiosa, sé calmarme ya que no me duran
mucho los enfados.
➢ Si me enfado con alguien, intento calmarme y cuando lo consigo, le
explicó las razones de mi enfado.
➢ La idea de dirigir un equipo de trabajo me gusta y creo que sirvo para
ello.
➢ Considero que las decisiones deben tomarse en equipo ya que muchas
cabezas piensan mejor que una sola
➢ Me pregunto por mi vocación profesional, personal o ambas.
➢ Me propongo objetivos para mejorar, ya sean académicos, personales o
profesionales.
➢ Cuando trabajo en equipo promuevo la integración, participación y
escucha entre los miembros del equipo.
➢ Cuando trabajo en equipo expreso los aspectos positivos, logros
conseguidos u oportunidades de aprendizaje.
➢ Mis trabajos escritos y exposiciones orales académicas siguen la
estructura: introducción, desarrollo y conclusión.
➢ Me pongo en el lugar del otro, de modo que puedo comprender lo que
piensa, siente o su modo de actuar.

3. Normas para elaborar los ítems de actitudes


1) 1. Procurar que los enunciados se relacionen con el objeto de estudio.
2) Reflejar las actitudes presentes y no las pasadas
3) Cada enunciado debe expresar solo una idea.
4) Evitar enunciados que solo se apliquen a grupos restringidos de personas.
5) Procurar que los enunciados sean discriminativos, es decir, que no sean respondidos
de la misma manera por examinados con actitud favorable y con actitud desfavorable.
6) Evitar enunciados con los que la mayoría o una mínima parte de los sujetos estaría de
acuerdo (o en desacuerdo).
7) Procurar que los ítems no sean interpretables como hechos, pues los enunciados deben
ser susceptibles de opinión.
8) Utilizar un lenguaje claro, simple y directo, evitando palabras coloquiales como, por
ejemplo, en la medición de la actitud hacia las drogas: «porro», «camello», etc.
9) Expresar los enunciados de forma corta y concisa y evitar adjetivos totalitarios como:
«todo», «nunca», «siempre», «ningún», etc.
10) Utilizar con precaución adverbios como: «simplemente», «frecuentemente», etc.
11) Evitar dobles negaciones.
12) Cada ítem debe ceñirse solo a un aspecto y tener una sola interpretación

- Ejemplos: bien redactado


● Ítems de actitud hacia la pena de muerte
○ Un asesinato merece la muerte
○ Cuando la sociedad condena a muerte a los asesinos, es tan malvada
como ellos.
○ La pena de muerte, moralmente, no es buena ni mala, es un castigo
como cualquier otro.
- Ejemplos: mal redactado
● Ítems de actitud hacia la ciencia:
○ . Nunca siento deseos de resolver un problema científico porque lo
considero una pérdida de tiempo y, además, no me interesa.
(Mal redactado porque utiliza el adjetivo totalitario «nunca» y porque
la explicación atiende a dos aspectos distintos, uno es la pérdida de
tiempo y el otro, la falta de interés.)
○ Si se me pidiera suprimir alguna asignatura, elegiría sin vacilar las
ciencias naturales o la matemática.
(Mal redactado porque atiende a dos áreas de la ciencia; a un
examinado le puede gustar la matemática y disgustar las ciencias
naturales)

PARTE 8: OTRO TIPO DE ESCALAS

1. Escala de ordenamientos
Los examinados ordenan, según su preferencia, objetos o individuos en relación con una
característica. Pueden ser de puntos, en las que la persona puntúa las alternativas presentadas;
de ordenación, en las que el examinado ordena los estímulos presentados de acuerdo a un
mayor o menor grado de favorabilidad, o de comparaciones binarias, en las que se ofrecen
parejas y el sujeto elige la alternativa que prefiere.
2. Escala valorativa sumatoria
Es una variación de la de ordenación en la que se busca obtener una jerarquía de objetos,
personas, grupos, etc. respecto a una característica o variable

3. Escalas de intensidad
Las escalas de intensidad miden la evolución o grado de la actitud.

4. Escala Guttman
Se le presenta al examinado un conjunto de ítems o enunciados jerarquizados u ordenados. Se
parte de la idea global de que si un sujeto está de acuerdo con una afirmación muy favorable,
también lo estará con ítems menos favorables; si esto no sucede así, se puede hablar de que
ha ocurrido un «error Guttman», indicando una escalabilidad deficiente o un ítem poco
adecuado.

Cuando se tiene una escala Guttman perfecta, la organización de los datos da lugar a una
matriz triangular y a partir de la puntuación de un examinado en la escala se puede predecir
cuál ha sido la respuesta dada a cada uno de los ítems.
En la práctica es casi imposible conseguir una escala Guttman perfecta. Por ello se hace
necesario evaluar el error en el modelo estudiando qué tan desviado está el patrón de un
examinado del patrón ideal.

Por ejemplo, tomemos el sujeto C con una puntuación de 2 en el test; el patrón ideal es 1100,
si el sujeto, en su lugar, ha seleccionado 1010, se dice que hay dos «errores Guttman», pues
se deberían hacer dos cambios para llegar al patrón ideal. Cuantos más errores Guttman
presente un ítem, menos adecuado será utilizarlo en la escala

5. Escala de distancia social


Se busca evaluar afirmaciones sobre la distancia entre grupos, por ello han sido usadas para
medir prejuicios raciales. Los ítems giran en torno a la distancia del examinado con respecto
a un grupo minoritario.
6. Diferencial semántico
Es un procedimiento destinado a medir el significado que tienen para los examinados ciertos
conceptos. Para medir el diferencial semántico se proponen pares de adjetivos opuestos en
cada dimensión valorativa y se pide al examinado que seleccione la posición en la que se
encuentra al respecto.
La construcción del diferencial semántico comienza con la elección del concepto que se
quiere analizar, el siguiente paso consiste en buscar los pares de adjetivos polares que se van
a utilizar y por último se escoge la escala utilizada. Lo habitual es 5 o 7 grados. Los pares de
adjetivos deben estar situados con distintas polaridades.
- Ejemplo:

Tema 4: Fiabilidad
1. Introducción y concepto
La fiabilidad es el grado de precisión que tiene un test. Las mediciones en psicología han de
ser fiables y para ello es necesario reducir al máximo el error de medida. Si dos test que
miden el mismo constructo psicológico. Una persona que tiene una alta puntuación en un test
deberá tenerla alta también en un test paralelo que mida la misma habilidad, si no es así, uno
de los dos test (o ambos) estarán midiendo de forma imprecisa.
Para estudiar la fiabilidad se suele utilizar la teoría clásica de los test (TCT).

2. Teoría clásica de los test


Se encuentra en el modelo lineal básico de Spearman según el cual la puntuación empírica u
observada que obtiene un sujeto en un test (X) es igual a la suma de la puntuación verdadera
(V) más el error (e):

Cuanto más grande sea el error, más se aleja la puntuación empírica de la verdadera y más
imprecisa es la medida. El error puede ser causado por múltiples fuentes, como la distracción,
el cansancio, el azar, la copia, etc., y no siempre perjudica al examinado, a veces lo favorece,
como en el caso de acierto por azar o de la copia.

- Supuesto 1: La puntuación verdadera es la esperanza matemática de la empírica

En palabras simples, si el test se aplicará muchas veces (infinitas veces), la media de


las puntuaciones de dichas aplicaciones correspondería a la esperanza matemática E
(X). . Si el examen final de una asignatura fuese aplicado infinitas veces a un
examinado, la media de dichas aplicaciones tendería a ser la puntuación verdadera del
alumno, pues el error causado por variables no controladas se haría mínimo. Cuantas
más veces se aplicara el test, más precisa sería la medida.
- Supuesto 2: No existe correlación entre las puntuaciones verdaderas de los
examinados en un test y los errores de medida.

No hay motivo para pensar que los errores puedan estar asociados a las puntuaciones
verdaderas, en otras palabras, las personas con puntuaciones más bajas (o más altas)
no implican más (o menos) error de medida

- Supuesto 3: Los errores de medida de los examinados en un test no correlacionan con


sus errores de medida en otro test diferente.

Si se aplican dos test correctamente, no existe motivo para pensar que los errores
están correlacionados.

3. Coeficiente de fiabilidad
Es la correlación entre las puntuaciones obtenidas por los examinados en dos formas
paralelas de un test: X y X'.

Es más, si no hubiese error de medida y los test fuesen estrictamente paralelos, la


correlación debería ser perfecta (ρxx' = 1). El grado en que la correlación se aleja de 1
es un indicador de que la medición está afectada por error, es decir, de que es poco
fiable.

Estimación :
➢ Formas Paralelas
● Se utiliza cuando se preparan dos versiones del mismo test.
● Los ítems son distintos en cada test pero con ambos se pretende medir
lo mismo.
● En este caso el coeficiente de fiabilidad es la correlación entre las dos
formas paralelas, respondidas por los mismos sujetos
● Si la correlación es alta, las dos formas del mismo test dan resultados
parecidos, ordenan a los sujetos de manera parecida, ambas formas son
intercambiables.
● Es necesaria siempre que se disponga de dos o más versiones del
mismo test
● Ejemplo.
➢ Test-Retest
● Los sujetos responden dos veces al mismo test, dejando entre las dos
veces un intervalo de tiempo.
● El coeficiente de correlación entre las dos ocasiones es lo que
denominamos coeficiente de fiabilidad test-retest.
● El intervalo de tiempo puede ser de días, semanas o meses, pero no tan
grande que los sujetos hayan podido cambiar.
● Ejemplo:
➢ Dos mitades:
● Este procedimiento consiste en dividir el test en dos mitades
equivalentes (normalmente una con los elementos pares y otra con los
impares).
● Para cada sujeto se obtiene la puntuación directa en ambas mitades.
● Disponemos entonces de dos variables (P e I), cuya correlación de
Pearson indica su grado de relación.
● Ejemplo:
4. Tipos de errores de medida
● Error de medida: diferencia entre la puntuación empírica y la verdadera.

Su desviación típica se llama error típico de medida y se define por la siguiente


expresión:

● Error de estimación: es la diferencia entre la puntuación verdadera y la verdadera


pronosticada:

Su desviación típica se llama error típico de estimación y se define por la siguiente


expresión:
● Error de sustitución: es la diferencia entre las puntuaciones en un test X1 y las
obtenidas en otro test paralelo X2, en otras palabras, es el error que se obtendría al
sustituir la medición realizada con X1 por la medición con la forma paralela X2:

Su desviación típica se llama error típico de sustitución y se define por la siguiente


expresión:

● Error de predicción: es la diferencia entre las puntuaciones en un test X1 y las


puntuaciones pronosticadas en ese test X' 1 a partir de una forma paralela X2
mediante un modelo de regresión en el que las puntuaciones en X2 son la variable
independiente y las de X1 la variable dependiente.

Su desviación típica se llama error típico de predicción y se define por la siguiente


expresión:

5. Fiabilidad como consistencia interna


Fiabilidad también puede entenderse como el grado en que se correlacionan entre sí
los ítems que constituyen el test.
Otra forma de calcular el coeficiente de fiabilidad que requiere solo una aplicación del
test y que es la más usada en las ciencias del comportamiento consiste en la
evaluación de la consistencia interna del test.
Coeficiente alfa de Cronbach:

Se puede notar que α es una función de la covarianza de los ítems, es decir, la


fiabilidad aumenta a medida que aumenta la covarianza entre los ítems.

Esta fórmula reproduce el coeficiente de fiabilidad del test si todos los ítems son
paralelos
● Ejemplo:
6. Interpretación de la fiabilidad
- Oscila entre 0 y 1.
- = 1 Fiabilidad perfecta.
- = 0 No hay Fiabilidad.
- Entre más se acerque a 1, mejor
- < .70 deficiente.
- Por debajo de 0,5 inaceptable

7. Factores que afectan a la fiabilidad


● VARIABILIDAD
○ El tipo de muestra a la que es aplicado afecta la fiabilidad.
○ La fiabilidad es mayor en una muestra heterogénea que en una
homogénea.
○ 100 estudiantes con alto nivel de inglés 100 estudiantes que estudian
inglés.
○ Depende de la muestra
El coeficiente de fiabilidad aumenta cuanto mayor es la variabilidad. La fórmula que permite
estimar el grado de aumento de la fiabilidad en función de la variabilidad es:

● LONGITUD
Si los ítems están bien formulados y resultan discriminativos, un test incrementará su
fiabilidad a medida que incrementa su longitud (número de ítems), aunque no lo hace de
manera lineal. Cuando se aumenta el número de ítems, aumenta también la fiabilidad. La
explicación intuitiva es que a medida que se incluyen más ítems, la variable está medida de
forma más precisa, pues la muestra de conducta evaluada será más grande.

Se puede usar una conocida fórmula propuesta por SpearmanBrown, de acuerdo a la cual si
se tiene un test X y se aumenta su longitud n veces, la fiabilidad del test alargado será:
La fórmula de Spearman-Brown también puede utilizarse para evaluar cuánto disminuiría la
fiabilidad de la prueba en el caso en que fuese necesario acortarla eliminando ítems, como en
el siguiente ejemplo.
La fórmula de Spearman-Brown también se puede utilizar para estimar cuánto habría que
alargar (o acortar) un test para obtener determinada fiabilidad, mediante la siguiente
expresión:

8. Nivel de puntuaciones en un test


Hasta el momento se ha visto que el coeficiente de fiabilidad y el error típico de medida se
calculan para todos los sujetos de la muestra, sin embargo, esto no es así, pues el error típico
de medida puede depender de las puntuaciones de los examinados en el test.

El test no es igualmente preciso en los diferentes niveles de rasgo que se miden con el test. Si
los ítems tienen una dificultad media, el test medirá con mayor precisión a las personas que
tienen un nivel de habilidad media, si los ítems tienen una dificultad alta, medirán con mayor
precisión a las personas de alto nivel.

Frente a dicha característica no es apropiado usar el mismo error típico de medida para todos
los examinados, por lo que se recurre a utilizar distintos errores en función de las
puntuaciones de las personas en el test, calculando empíricamente los valores
correspondientes de la siguiente forma:
Si se tiene solo una aplicación del test, se siguen los siguientes pasos:
● Se establecen las categorías en las que se van a dividir las puntuaciones (en el
siguiente ejemplo se realizarán tres categorías: altas, medias, bajas).
● Se divide la puntuación de cada examinado en dos mitades (por ejemplo, sumando las
respuestas a los ítems pares e impares, respectivamente).
● Se calcula la desviación típica de las diferencias entre ambas partes.
● El resultado es el error típico de medida para cada uno de los niveles de puntuación.
● Finalmente se usa el error típico para determinar el coeficiente de fiabilidad en cada
una de las categorías de puntuación.

Los errores típicos de medida corresponden a la desviación típica de las diferencias P


– I de cada una de las categorías de nivel. Aplicando la fórmula de la desviación
típica, se encuentra que para el nivel bajo es 0,56, para el nivel medio es 1,15 y para el
nivel alto es 0,56.
Para encontrar el coeficiente de fiabilidad en cada uno de los niveles, se utiliza la
fórmula que define el error típico de medida en relación con el coeficiente de
fiabilidad
Como se puede observar el error típico es más alto en el nivel medio indicando una menor
precisión en dicho nivel de rasgo o habilidad, sin embargo , esta característica no afecta en
gran medida en coeficiente de fiabilidad que solo disminuye de 0,87 a 0,86.

9. Fiabilidad de los test referidos al criterio


Coeficiente Kappa de Cohen para formas paralelas. Para cuantificar el grado de fiabilidad que
tienen los test para clasificar a los examinados, corrigiendo el factor azar. Cuanto más se
acerca a 0, mayor evidencia de azar. Un valor Kappa de 0 prácticamente implica que el
diagnóstico se realiza por simple azar. A partir de 0,8 se considera que el valor Kappa es
apropiado y muy malo por debajo de 0,2. La fórmula para determinar el coeficiente es:

También podría gustarte