Está en la página 1de 84

PSICOMETRÍA ORIENTACIONES TEMA Nº 1 (INTRODUCCIÓN)

TEMA Nº 1  INTRODUCCIÓN A LA PSICOMETRÍA

1.- APROXIMACIÓN AL CONCEPTO DE PSICOMETRÍA

La Psicometría es una disciplina metodológica, dentro del área de


la Psicología, cuya tarea fundamental es la medición o cuantificación
de las variables psicológicas con todas las implicaciones que ello
conlleva, tanto teóricas (posibilidades y criterios de medición) como
prácticas (cómo y con qué se mide)

Por tanto, la psicometría debe ocuparse de:


 La justificación y legitimación de la medición psicológica, para ello: a) desarrolla modelos
formales que permiten representar los fenómenos que se quieren estudiar y posibilitan la
transformación de los hechos en datos; b) valida los modelos desarrollados para determinar en
qué medida representan la realidad que pretenden y c) establece las condiciones que permiten
llevar a cabo el proceso de medición.
 Las implicaciones prácticas y aplicadas que dicha medición conlleva: proporciona los
métodos necesarios que indican, en cada caso concreto, cómo se debe llevar a cabo la
cuantificación, y cómo construir los instrumentos necesarios y adecuados para poder efectuarla.

La Psicometría no tiene un campo de actuación específico, abarca todos los campos de la Psicología y
se ubica en el área denominada Metodología de las Ciencias del Comportamiento. La Metodología
estudia las estrategias y procedimientos que, de una forma más o menos estructurada, se utilizan para
la obtención de los conocimientos que configuran una disciplina científica. Por otra parte, las Ciencias
del Comportamiento son aquellas que estudian la conducta mediante la utilización del método
científico, con el fin de encontrar estructuras generales o leyes. Dentro del marco de la Metodología de
las Ciencias del Comportamiento se pueden considerar tres bloques:
 Los Diseños de Investigación se refieren fundamentalmente a la operativización de las variables
incluidas en la hipótesis y la elaboración de un plan de trabajo, o procedimiento para la recogida
de datos, que sea coherente con la mencionada hipótesis.
 El Análisis de datos, se refiere a las técnicas necesarias para llevar a cabo el tratamiento
estadístico de los mismos; el análisis abarca desde la simple descripción o representación gráfica,
a procedimientos más complejos de ajuste de modelos o contrastes de hipótesis.
 La Psicometría, incluye todo lo referente a la medición. Proporciona las reglas que van a permitir
llevar a cabo el proceso de operativización de las variables que se quieren medir. Una vez
obtenidas las medidas mediante la asignación de números, los modelos psicométricos facilitarán
un análisis del error que les afecta (fiabilidad de las medidas) y, a su vez, los estudios de
validación permitirán hacer inferencias acerca de las relaciones entre los datos empíricos
obtenidos (medidas) y el constructo o variable psicológica que se quiere medir.

2.- LA MEDICIÓN EN PSICOLOGÍA

De acuerdo con Coombs, Dawes y Tversky (1981) se considera que uno de los papeles
fundamentales asignados a la Ciencia es la descripción, explicación y predicción de los fenómenos
observables por medio de unas cuantas leyes generales que expresen las relaciones entre las
propiedades de los objetos investigados. En las ciencias más avanzadas las leyes expresan relaciones
cuantitativas, lo cual indica que las propiedades de los objetos se pueden representar por medio de
números mediante un proceso de medición.
Actualmente la medición se considera como la asignación de números a entidades o eventos con
el fin de representar sus propiedades y sus relaciones. La medición de las características psicológicas
es difícil, se trata de conceptos abstractos, constructos teóricos (o variables latentes) cuya medida no
puede llevarse a cabo de forma directa sino que debe inferirse a través de una serie de conductas
representativas de dicho constructo. Así, para Zeller y Carmines el proceso de medir enlaza
conceptos abstractos (los constructos inobservables directamente) con indicadores empíricos
observables directamente (las conductas). Este tipo de medición se llama medición por indicadores.

R. MEDRANO (TUTOR) Página 1


PSICOMETRÍA ORIENTACIONES TEMA Nº 1 (INTRODUCCIÓN)

A la hora de interpretar las puntuaciones obtenidas por los sujetos hay dos formas de afrontar el
problema de las unidades de medida::
 La Norma (forma más habitual): consiste en comparar los resultados obtenidos por el sujeto con
los obtenidos por un grupo de sujetos que forman el grupo normativo de la misma población.
 El Criterio (se interpreta en relación a un criterio establecido previamente). Los resultados
obtenidos se comparan con dicho criterio (un punto crítico) y la superación o no del mismo es lo
que va a dar significado a las puntuaciones obtenidas.
La medición psicológica tiene una serie de objetivos comunes sea cual sea el campo de estudio:
 Estimar los errores aleatorios que conlleva toda medición (fiabilidad de las medidas)
 Garantizar que la medida no es algo inútil, sino que sirve para explicar y predecir los fenómenos
de interés (validez de las medidas)

3.- ORÍGENES Y DESARROLLO DE LA PSICOMETRÍA

Existieron dos motivos fundamentales para introducir la medición en Psicología: La tendencia a


formular los problemas científicos en términos matemáticos y el enfrentamiento de la Psicología,
mitad del siglo XIX, con dos problemas fundamentales:
 El problema psicofísico: estudio cuantitativo de las relaciones entre las características físicas de
los estímulos y las sensaciones que suscitan en los sujetos, en función de las cuales se asignan
valores numéricos a los estímulos. Los estudios de Psicofísica dieron lugar al desarrollo de
modelos que permitieron asignar valores numéricos a los estímulos y, por tanto, permitieron el
escalamiento de estímulos.
 El problema de la cuantificación de las diferencias individuales: mediante la asignación de
números a los sujetos en función del grado en que manifiesten un atributo o conducta. Los
estudios acerca de las diferencias individuales dieron lugar al desarrollo de las distintas Teorías de
los Tests (modelos) que posibilitaron la asignación de valores numéricos a los sujetos y, por tanto,
permitieron el escalamiento de los sujetos.

Wundt marcó el comienzo de la Psicología Experimental

4.- MÉTODOS DE ESCALAMIENTO

Escalamiento: Campo de la Psicometría cuyo objetivo fundamental es la construcción de escalas de


medida; es decir, la construcción de instrumentos que permitan llevar a cabo mediciones para
representar las propiedades de los objetos (estímulos, sujetos o respuestas) por medio de números, de
acuerdo a unas normas o reglas. Desde la perspectiva de la Psicometría hay dos supuestos básicos
en todos los métodos de escalamiento:
 La existencia de un continuo latente o subyacente, a lo largo del cual varían los objetos
psicológicos que se van a escalar (estímulos, sujetos o respuestas) y no puede ser observado de
forma directa.
 Que los objetos psicológicos (estímulos, sujetos o respuestas) pueden situarse de forma
ordenada a lo largo de ese continuo.

El propósito del escalamiento de estímulos es determinar las características que los sujetos perciben
en ellos y, por tanto, la respuesta del sujeto (o sujetos) es una respuesta subjetiva que nos va a
permitir diferenciarlos y escalarlos; es decir, asignar un valor numérico a cada uno de los estímulos.
En este caso los estímulos se sitúan a lo largo del continuo y los sujetos, que han emitido juicios sobre
los estímulos, actúan como instrumento de medida.

Cuando el objeto a escalar son los sujetos se utiliza una muestra extraída de forma aleatoria de la
población y todos los sujetos responden al mismo conjunto de estímulos (un test). Las respuestas
emitidas por los sujetos proporcionan una puntuación numérica para cada sujeto de la muestra (las
diferencias entre puntuaciones reflejan la diferencia entre sujetos respecto al atributo o característica
que se está midiendo).
En este caso los sujetos se sitúan a lo largo del continuo y los estímulos actúan como instrumento de
medida.

R. MEDRANO (TUTOR) Página 2


PSICOMETRÍA ORIENTACIONES TEMA Nº 1 (INTRODUCCIÓN)

Hay casos que interesa situar en el continuo sobre el que varía el atributo que se está estudiando tanto
a los estímulos como a los sujetos. La posición de cada sujeto respecto del atributo que se está
analizando (su actitud, aptitud, sentimientos, etc.) es un factor que determina su respuesta
(Torgerson: aproximación centrada en la respuesta)

En sus orígenes el escalamiento estuvo asociado a las escalas de estímulos (proceso de construcción
de escalas para la cuantificación de estímulos). Todo lo referente a la cuantificación de los sujetos para
apreciar de forma sistemática las diferencias individuales (escalar a los sujetos) lo estudiaremos en el
marco de la Teoría de los Test.
En la actualidad esta distinción está superada (se mantiene por cuestiones didácticas)

MÉTODOS DE ESCALAMIENTO PSICOFÍSICO

Constante de WEBER  A partir del término acuñado por Herbart “umbral mínimo” que alude a la
mínima intensidad que debe tener un estímulo para que se pueda percibir; Weber comienza a
desarrollar los métodos psicofísicos, que le iban a permitir el cálculo de los umbrales y enunciar su ley.

∆E = incremento mínimo que ha de experimentar la magnitud de un


estímulo (magnitud física) respecto a su magnitud inicial (E) para
K = ∆E/E que se perciba un cambio en la sensación (magnitud psicológica)
E = magnitud inicial de estímulo // K = constante de Weber
A este cambio mínimo de sensación Weber lo denominó (dap) 
diferencia apenas perceptible

Función de FECHNER  Desarrolló métodos psicofísicos indirectos que le permitieron elaborar


escalas psicofísicas. El escalamiento psicofísico se refiere a dos continuos (uno físico en el que varían
los estímulos y uno psicológico en el que varían las sensaciones que producen en los sujetos). La
función que mejor representa la relación entre los dos continuos es:

S = valor en la escala de sensación.


S = C ln E + A E = valor del estímulo.
C y A = pendiente y ordenada en el origen de la función logarítmica.

Para medir la relación entre estímulos y sensaciones Fechner introdujo los conceptos de Umbral
Absoluto (magnitud física del estímulo que se requiere para que se produzca una sensación) y
Umbral Diferencial (incremento mínimo, en la magnitud física del estímulo, que se requiere para que
el sujeto perciba un cambio de sensación). La ley de Fechner establece que cuando la magnitud física
del estímulo está en el umbral absoluto la sensación es nula, y que si se aumenta la estimulación en
proporción geométrica las sensaciones aumentarán aritméticamente. Es decir, que cada vez se
necesitará un mayor incremento en la estimulación física para que se perciba un cambio en la
sensación.
A la ley se le critica que los estímulos de muy alta intensidad o muy baja intensidad no se ajustan bien
a ella y que tampoco lo hacen todos los sistemas sensoriales (Fechner inicia la Psicología cuantitativa)

Métodos de Fechner para obtener los umbrales:

 Método de los límites (cambios mínimos): el experimentador va modificando la intensidad del


estímulo (la aumenta o la disminuye para averiguar el umbral absoluto o bien compara
intensidades en relación con estímulos estándar, para averiguar los umbrales diferenciales)
 Método de ajuste (error promedio): el propio sujeto modifica la intensidad de los estímulos hasta
encontrar el valor de sus umbrales.
 Método de los estímulos constantes: se asume que cuando un estímulo se presenta a un mismo
sujeto en repetidas ocasiones, no siempre es percibido, o no siempre se percibe de la misma
forma. El umbral absoluto es la magnitud percibida el 50% de las ocasiones en las que se
presenta el estímulo.

R. MEDRANO (TUTOR) Página 3


PSICOMETRÍA ORIENTACIONES TEMA Nº 1 (INTRODUCCIÓN)

Función potencial de STEVENS  Desarrolló los métodos directos de escalamiento. Stevens trata
de encontrar una función que relacione estímulos y respuestas. Esta función es una función potencial.

R = respuesta de los sujetos // E = valor del estímulo.


R = q · En q = constante que depende de las unidades de medida.
n = exponente de la función que depende del atributo sensorial.

Métodos de escalamiento utilizados por Stevens:

 Emparejamiento de magnitudes: por modalidad cruzada (dos continuos físicos diferentes que
el sujeto debe emparejar según su magnitud); por estimación de magnitudes (a partir de un
estímulo estándar, que se toma como referencia, el sujeto va asignando valores al resto de los
estímulos); por producción de magnitudes (se presentan al sujeto una serie de números, de uno
en uno y de forma aleatoria, la tarea consiste en modificar la magnitud de los estímulos en función
de los números presentados)
 Emparejamiento de razones: se presentan dos estímulos que guardan una determinada
proporción y se pide al sujeto que ajuste otros dos según esa proporción (modalidad cruzada); se
asignan razones numéricas a las razones entre las magnitudes de los estímulos (estimación de
razones) y producir otro estímulo que guarde con un estándar una proporción igual a la que se
sugiere (producción de magnitudes)
 Emparejamiento de intervalos: emparejar intervalos entre los estímulos de dos continuos
(modalidad cruzada); mediante números estimar las diferencias (estimación de razones) y
encontrar estímulos intermedios entre otros dados (producción de magnitudes)
 Escalas de categorías o clasificación: asignar estímulos a categorías predeterminadas y
averiguar sus valores escalares.

Los métodos desarrollados por Stevens están centrados en medir la capacidad de los sujetos para
hacer estimaciones subjetivas acerca de la magnitud de los estímulos y comprobar hasta qué punto
los juicios emitidos se ajustan a los datos reales (magnitud real de los estímulos)

MÉTODOS DE ESCALAMIENTO PSICOLÓGICO

A partir de las ideas de Fechner (sin recurrir a medidas de tipo físico) se desarrollan las escalas
psicológicas o subjetivas. Thurstone ha sido la figura que más contribuyó a su desarrollo, aportando
un modelo basado en la variabilidad perceptual de los sujetos, e incluso de un mismo sujeto cuando se
le presentan los mismos estímulos en distintas ocasiones, y en la limitación que tienen los sujetos para
percibir las diferencias de magnitud entre dos estímulos cuando estas son muy pequeñas. Las
ecuaciones de su modelo matemático se denominan:
 Ley de juicio comparativo (método de las comparaciones binarias)
 Ley de juicio categórico (método de intervalos sucesivos, aparentemente iguales y de
ordenación de rangos)

Nuevas formas de escalamiento psicológico 

 Guttman: desarrolló un nuevo modelo para el escalamiento conjunto de sujetos y estímulos


(escalamiento de respuestas). Para la obtención de la escala utiliza el escalograma. La escala
resultante se denomina escala de entrelazamiento (los sujetos y los estímulos se sitúan a lo
largo del mismo continuo psicológico de forma entrelazada)
 Coombs: desarrollo una teoría conocida como teoría del despliegue y propuso un modelo que
permite escalar sujetos y estímulos conjuntamente.

Estos modelos y sus métodos asociados se desarrollaron, en principio, para la construcción de escalas
unidimensionales (permitieran ordenar un conjunto de estímulos y/o sujetos respecto a un único
atributo o característica). Más tarde, se desarrollaron métodos de escalamiento multidimensional

R. MEDRANO (TUTOR) Página 4


PSICOMETRÍA ORIENTACIONES TEMA Nº 1 (INTRODUCCIÓN)

(atienden, simultáneamente, a más de un atributo o característica)

5.- ORÍGENES Y DESARROLLO DE LOS TEST

El intento por apreciar de forma sistemática las diferencias individuales (escalar a los sujetos) llevó al
desarrollo del Método de los Tests y de las distintas Teorías de los Tests.
Un Test es un instrumento de medición diseñado especialmente para estudiar de un modo objetivo y
sistemático el nivel de los sujetos respecto a algún atributo, característica o dominio de conocimientos
(a partir de las puntuaciones de los sujetos en el test, se analizan las diferencias existentes entre ellos)

Hay tres factores que se pueden considerar decisivos en el desarrollo de los test:
 La apertura del laboratorio antropométrico de Galton en Londres (recurrió a la correlación como
medida de asociación y fue el primero en aplicar el concepto estadístico de distribución normal, de
media, de mediana, varianza y correlación a datos psicológicos)
 El desarrollo de la correlación de Pearson
 La interpretación de Spearman (considerando que la correlación entre dos variables indica que
ambas tienen un factor común)

Los primeros Tests mentales: Para Cattell (primer autor en utilizar el término), los test constituían un
sistema uniforme que permitía comparar y combinar, en lugares y momentos diferentes, la medida de
las funciones mentales. Compartía con Galton la creencia de que se podía medir el funcionamiento
intelectual de las personas mediante test de discriminación sensorial y midiendo el tiempo de reacción
(no medían inteligencia)

Los primeros Test de inteligencia: el primero en destacar la importancia de los procesos mentales
superiores para estudiar las diferencias individuales fue Binet. Binet y Simon (1905) publicaron la
primera escala de inteligencia (ya no se ocupaba de las funciones sensoriales o motoras, se centraba
en la capacidad de razonamiento y comprensión de los niños). Terman adaptó el test (Stanford-Binet),
introdujo el concepto de edad mental (equivale a la edad cronológica de los niños intelectualmente
normales) y definió la inteligencia como la habilidad para llevar a cabo razonamientos abstractos. Para
medir la inteligencia utiliza el concepto, acuñado por Stern:
Cociente intelectual  CI = (Edad Mental / Edad Cronológica) x 100

Los test colectivos: comienzan a utilizarse con la entrada de EEUU en la Primera Guerra Mundial
(seleccionar y clasificar a las personas disponibles para el ejército según sus posibilidades). Yerkes
sería el encargado de investigar nuevos procedimientos que posibilitaran la administración de Tests en
el ejército. Así, se crearon:
 Test Alpha: diseñado para la población general.
 Test Beta: para los reclutas analfabetos o aquellos que no dominaban el inglés.

Una vez finalizada la guerra el uso de test se extendió a la industria y al resto de instituciones. En 1922
Cattell fundó la primera empresa dedicada a la publicación masiva de test, y a partir de ahí empezaron
a utilizarse como instrumento de selección en la administración americana. En 1938 apareció el Test
de Weschler-Bellevue para la medición de la inteligencia en adultos y en 1949 una versión para niños
conocida como WISC. En 1955 apareció una revisión de la escala anterior conocida como Weschler
Adult Intelligence Scale (WAIS). La aparición de estas escalas supuso un avance en el desarrollo de
los Test (debido a la falta de efectividad que tenía el test de Stanford-Binet aplicado a adultos)

Se desarrolló el Coeficiente de Correlación de Pearson y el Análisis factorial (representar un


conjunto de variables observables mediante un número más pequeño de variables, no observables,
latentes, llamadas factores, de las que las primeras son indicadores). Surgen los primeros test
destinados a la medida de aptitudes y del rendimiento.

La influencia del análisis factorial respecto a los test de inteligencia fue doble:
 Facilitó una fundamentación teórica, mostrando que en la mayor parte de las funciones
cognoscitivas interviene un factor general “g” común a todas ellas.
 Los resultados del análisis factorial subrayan la importancia de estudiar otras aptitudes más
específicas en el campo de la inteligencia.

R. MEDRANO (TUTOR) Página 5


PSICOMETRÍA ORIENTACIONES TEMA Nº 1 (INTRODUCCIÓN)

Las baterías de aptitud múltiple: facilitan una medida de posición de cada sujeto en un cierto número
de rasgos (en lugar de un CI, se obtiene una puntuación por separado de cada rasgo). Un ejemplo
destacado es la Batería de Aptitudes Mentales Primarias (Thurstone) que incluye pruebas para la
medida de los componentes fundamentales del comportamiento inteligente (comprensión verbal,
fluidez verbal, aptitud numérica, aptitud espacial, memoria, rapidez perceptiva y razonamiento general)

Los Tests de personalidad: se puede considerar a Kraepelin su precursor al utilizar el Test de


Asociación Libre, con pacientes normales, para estudiar los efectos psicológicos de la fatiga, el
hambre y las drogas. El prototipo de cuestionario de personalidad con carácter psicométrico es la Hoja
de Datos Personales de Woodworth, utilizada en la Primera Guerra Mundial (detección de sujetos
con trastornos neuróticos graves, no aptos para el servicio militar)

De los primeros test objetivos han sobrevivido en la actualidad:


 Los de Guilford y Catell (se usan en poblaciones normales, están orientados hacia el
análisis de rasgos y están basados en el análisis factorial)
 El Inventario Multifásico de Personalidad de Minnesota (MMPI) de Hathaway y McKinley
(se usa en poblaciones clínicas y no utiliza escalas derivadas del análisis factorial)

Durante la primera mitad siglo XX aparecen los Test Proyectivos (Rorschach diseñó el primer test que
pretendía dar una visión global y comprensiva de la personalidad, se conocido como el Test de las
manchas de tinta). La mayoría se asocian con la psicología clínica y, en especial, con el Psicoanálisis.
En 1926 aparece el test de Dibujo de la Figura Humana de Machover y en 1938 el Test de Apercepción
Temática (TAT). En general son de escasa utilización.

Medición de intereses y actitudes: Entre los instrumentos clásicos para la medida de los intereses
destacan el Cuestionario de Intereses Vocacionales de Strong (SVIB) y la Escala de Preferencias de
Kuder en 1934. En cuanto a la medida de las actitudes, creencias y opiniones destaca Thurstone y
sus dos leyes ya mencionadas (Ley del Juicio Comparativo y Ley del Juicio Categórico).

Más tarde se desarrolló la Técnica de Likert (basada en los mismos principios que los test de
aptitudes) intentaba paliar alguno de los inconvenientes de las escalas de Thurstone (entre otros, la
prueba de jueces). Con el fin de medir el significado connotativo, afectivo o subjetivo, que
determinados estímulos tienen para los sujetos, Osgood creó una escala de clasificación, el
Diferencial Semántico.

LOS TESTS REFERIDOS A CRITERIO (TRC) FRENTE LOS REFERIDOS A NORMAS (TRN)

Glaser distinguió dos aproximaciones a la medición del rendimiento (referida al criterio y referida a la
norma). Las diferencias entre TRC y TRN aluden a cinco aspectos fundamentales:

Tests Referidos a las Normas Tests Referidos al Criterio


Finalidad de la Mostrar las diferencias individuales en la Estimar el rendimiento o conducta del
evaluación conducta o rasgo que mide el test. sujeto en los objetivos que mide el test.
Construcción del Recurrir a las teorías existentes respecto
Especificar claramente el dominio de
test y la al rasgo o constructo que se quiere medir,
contenidos o conductas que se quiere
especificación de sin partir de una delimitación clara de los
evaluar y el uso que se hace del test.
los contenidos contenidos a evaluar.
Los ítems ponen de relieve las diferencias
Forma de Los ítems se seleccionan en función de
individuales maximizando la varianza del
seleccionar los los objetivos y del uso que se vaya a
test y seleccionando ítems de dificultad
ítems hacer del test.
media y alto poder discriminativo.
Puntuación: se considera un indicador de
Significado de las Puntuación: estimador de la conducta o
la puntuación verdadera en un rasgo
puntuaciones rendimiento del sujeto en el dominio.
latente.
Interpretación de Puntuación: tiene significado únicamente Puntuación: tiene significado en términos

R. MEDRANO (TUTOR) Página 6


PSICOMETRÍA ORIENTACIONES TEMA Nº 1 (INTRODUCCIÓN)

con relación a los resultados del grupo


las puntuaciones absolutos.
normativo.

Glaser  Los TRC son aquellos en los que los resultados dependen del estatus absoluto de calidad
del estudiante, frente a los TRN que dependen del estatus del grupo. Permiten a psicólogos y
educadores la evaluación de los estudiantes en función de su conocimiento o no de una materia
determinada (TRC) en lugar de hacerlo sólo en relación a otros estudiantes (TRN)

Los Test Adaptativos Informatizados (TAI´s): se denominan así porque la selección de los ítems se
va haciendo a lo largo del proceso de administración (se utiliza el ordenador para hacer la selección),
de manera que los ítems se pueden adaptar al nivel de cada sujeto para que no le resulten ni
demasiado fáciles ni demasiado difíciles.

6.- DESARROLLO DE LA TEORÍA DE LOS TEST

Es necesaria para desarrollar un marco teórico que sirva de fundamento a las puntuaciones
obtenidas por los sujetos, que posibilite la validación de las interpretaciones e inferencias realizadas a
partir de ellas y que permita la estimación de los errores de medida. En definitiva, medir hasta qué
punto las puntuaciones obtenidas por los sujetos en un test (variable observable) equivalen a sus
puntuaciones verdaderas o habilidades que se están midiendo (variable inobservable) y cuál es la
cuantía del error de medida que les afecta (fiabilidad de las puntuaciones) y la validez de las
inferencias o conclusiones que se pueden sacar a partir de las mismas (Validez)

Teoría Clásica de los Tests (TCT)  Se desarrolla, fundamentalmente, a partir de las aportaciones
de Galton, Pearson y Spearman, y gira en torno a tres conceptos básicos:

 (X) Puntuaciones empíricas y observadas (obtenidas por los sujetos cuando se les aplica un test)
 (V) Puntuaciones verdaderas (las que realmente tienen los sujetos en el rasgo o constructo
medido y coinciden con las empíricas cuando no existen errores de medida)
 (E) Puntuaciones debidas al error: asociado al sujeto (fatiga, estado emocional, etc.), al propio test
(formato) a las condiciones ambientales, a los aplicadores, etc.

Para establecer la relación funcional entre estos conceptos  Modelo lineal (Spearman)

X = variable dependiente (puntuación observable)


X=V+E V = variable independiente (puntuación verdadera)
E = errores.

La ejecución de un sujeto al responder a un test en un momento determinado estará afectada por


múltiples factores difícilmente controlables, lo que implicará que la puntuación obtenida (empírica) no
coincida con su puntuación verdadera. Ante la imposibilidad de saber con exactitud cuál es esta
puntuación verdadera será necesario hacer estimaciones en base a los supuestos del modelo.
El más ambicioso y global de los intentos realizados para estimar la fiabilidad de un instrumento de
medida, analizando de forma sistemática las posibles fuentes de error, es el proporcionado por la
Teoría de la Generalizabilidad (TG) propuesta por Cronbach que tiene en cuenta todas posibles
fuentes de error e intenta diferenciarlas mediante la aplicación de los procedimientos clásicos de
análisis de varianza (ANOVA)

Teoría de Respuesta al Ítem (TRI) surge de la crítica a la TCT (las puntuaciones de los sujetos
estaban en función de que los ítems fueran más fáciles o difíciles y las estadísticas de los ítems,
índices de dificultad y discriminación, dependían de la muestra de sujetos utilizada para su cálculo)
Gulliksen y Lord se interesaron en el desarrollo de teorías y modelos que permitieran describir los
niveles de habilidad de los sujetos con independencia de la muestra de ítems o de tareas utilizados
para su evaluación, y el cálculo de los estadísticos de los ítems con independencia de la muestra de
sujetos utilizada  La solución TRI.
Curva Característica del ítem  se deriva de la relación funcional entre los valores de la variable que
miden los ítems (nivel de habilidad de los sujetos) y la probabilidad de que los sujetos, en función de

R. MEDRANO (TUTOR) Página 7


PSICOMETRÍA ORIENTACIONES TEMA Nº 1 (INTRODUCCIÓN)

su nivel de habilidad, acierten cada ítem.

R. MEDRANO (TUTOR) Página 8


PSICOMETRÍA ORIENTACIONES 1ª PARTE (INSTRUMENTOS MEDICIÓN)

1ª PARTE: CONSTRUCCIÓN DE INSTRUMENTOS DE MEDICIÓN PSICOLÓGICA

TEMA Nº 2  PRINCIPIOS BÁSICOS PARA LA CONSTRUCCIÓN DE INSTRUMENTOS DE


MEDICIÓN PSICOLÓGICA.

DIFERENCIACIÓN TERMINOLÓGICA

TEST: término que se refiere a los instrumentos de medición de


variables de tipo cognitivo (aptitudes, conocimientos, rendimiento,
habilidades, etc.) en las que las respuestas de los sujetos son
correctas o incorrectas y la puntuación total en el test es la suma
(directa o ponderada) de todas las respuestas correctas, dando lugar
a una escala jerárquica o acumulativa.

Ej. Test de conocimientos: La capital de España es: a) París; b) Londres; c) Madrid

ESCALA: hace referencia a los instrumentos elaborados para medir variables no cognitivas
(preferencias, opiniones, etc.) y se caracteriza porque los sujetos han de responder eligiendo, sobre
una escala de categorías graduada y ordenada, aquella categoría que mejor represente su posición;
no hay respuestas correctas o incorrectas, y la puntuación total en la escala será la suma de las
puntuaciones asignadas a las categorías elegidas por los sujetos.

Ej. Escala: ¿Debería estar prohibido fumar en todos los restaurantes?: a) Completamente de acuerdo;
b) De acuerdo; c) Indiferente; d) En desacuerdo; e) Completamente en desacuerdo.

CUESTIONARIOS: formados por ítems o elementos que no están necesariamente relacionados unos
con otros, cuyas opciones de respuesta no están ordenadas ni graduadas, que pueden ser puntuados
e interpretados individualmente y en los que tampoco hay respuestas correctas e incorrectas. Se
utilizan para obtener una mayor información del sujeto y de su entorno (edad, profesión, estudios, etc.).
Son típicos en las investigaciones mediante encuestas.

Ej. Cuestionario: ¿Qué parte de la asignatura de Psicometría le resulta más fácil de estudiar? a)
Fiabilidad; b) Validez; c) Análisis de elementos; d) La construcción de test.

INVENTARIO: vinculado a los instrumentos elaborados para medir variables de personalidad. Las
respuestas no son correctas o incorrectas, lo único que demuestran es la conformidad o no con los
enunciados de los ítems.

Ej. Inventario: A menudo me siento como si los demás me ignoraran (V ó F) // El problema de mucha
gente es que no toma las cosas en serio (V ó F)

Instrumentos utilizados para medir variables de tipo psicológico

Test  Escalas / Cuestionarios / Inventarios 

 Instrumentos de medición del ámbito  Variables de tipo oréctico (emocionales)


cognitivo (aptitudes, conocimientos)  No existen respuestas correctas e incorrectas
 Puntuación total sumativa  Escalas (actitudes)
 Existen respuestas correctas e incorrectas  Cuestionarios (opinión, valoraciones)
 Inventario (personalidad)

R. MEDRANO (TUTOR) Página 1


PSICOMETRÍA ORIENTACIONES 1ª PARTE (INSTRUMENTOS MEDICIÓN)

1.- PROCESO DE CONSTRUCCIÓN DE UN TEST

El objetivo del test es el paso previo que va a condicionar las siguientes etapas

ETAPAS DECISIONES A TOMAR ACERCA DE


1.- Determinar la finalidad del test Qué se va a medir, a quién y para qué
2.- Especificar las características del test Cuál va a ser el contenido. Tipo y número de
ítems. Características psicométricas
3.- Redacción de los ítems Ítems de elección e ítems de construcción
4.- Revisión crítica de los ítems por expertos Qué ítems van a seleccionarse
5.- Confección de la prueba piloto Instrucciones de administración. Formato de
presentación y registro de respuestas
6.- Aplicación de la prueba piloto Individual / colectiva; Papel y lápiz / informatizada;
Por correo, entrevista personal, por teléfono, etc.
7.- Corrección de la prueba piloto y asignación de En los tests formados por ítems de elección
puntuaciones a los sujetos En los test formados por ítems de construcción

2.- FINALIDAD DEL TEST:

Como paso previo para la construcción del test, es necesario tener claro su objetivo (lo que se quiere
medir, a quien se quiere medir y para qué se quiere medir):
 Constructo (variable objeto de estudio)  Variable psicológica no observable de forma directa
(se manifiesta a través de conductas que sí son observables de forma directa y son las que se
miden). Es decir, que para construir un test, lo primero que hay que hacer es definir el/los
constructo/s que lo forman y así determinar mejor las conductas que los representan.
 Población a la que va dirigido  Según el tipo de población al que va dirigido (infantil, adultos,
etc.), variará el contenido de los ítems, su redacción, la longitud del test, las instrucciones, etc.
 Utilización prevista: Decisiones que se van a tomar (para qué se va a utilizar)

Si tenemos en cuenta que un test es una herramienta que permite obtener datos para la medición y
evaluación de alguna característica o atributo psicológico (constructo), la medición no será válida a
menos que el test se adecue a su objetivo.

Usos más frecuentes y decisiones que se suelen tomar a partir de las puntuaciones obtenidas
Ámbito educativo: alumnos aptos / no aptos.
Selección Ámbito profesional: selección de aspirantes.
Clasificación / Colocación En cualquier ámbito
Diagnóstico En cualquier ámbito, para detectar problemas de aprendizaje, etc.
Certificación Para acreditar diversas cualificaciones o competencias, tanto en el
ámbito profesional como académico.
Orientación / Consejo Detectar las capacidades e intereses de las personas para, examinando
las distintas opciones, elegir aquella/s que mejor se adecuen a su perfil.
Descripción / Información Describir el rendimiento académico tanto a nivel individual como
colectivo. Obtener información acerca de la opinión pública.

3.- ESPECIFICACIÓN DE LAS CARACTERÍSTICAS DEL TEST:

Para desarrollar las especificaciones del test hay que tener en cuenta cuatro aspectos fundamentales:

A.- Contenido: Comienza al determinar cuál es su dominio de conductas (conjunto de conductas a


través de las que se manifiesta el constructo). Definir un constructo y determinar su dominio de
conductas, no son procesos distintos, sino que están fuertemente relacionados. A medida que tiene
una mayor información acerca del constructo que se quiere medir se irá modificando el contenido de la
prueba y viceversa. En los test de rendimiento y conocimientos y, sobre todo, en los test referidos a
criterio (TRC) en lugar de dominio de conductas se habla de dominio de contenidos a evaluar. Para
contemplar todos los procesos y todos los contenidos, se suele utilizar una tabla de doble entrada. A
modo de ejemplo:

R. MEDRANO (TUTOR) Página 2


PSICOMETRÍA ORIENTACIONES 1ª PARTE (INSTRUMENTOS MEDICIÓN)

Matriz de especificaciones del contenido para un test de psicometría


Procesos Áreas de Contenido
Medición 20% Fiabilidad 35% Validez 35 % A. de ítems 10 %
Conocimiento 25 % 4 7 7 2
Comprensión 25% 4 7 7 2
Aplicación 25% 4 7 7 2
Análisis 25% 4 7 7 2
Total 16 28 28 8

Cada casilla de la matriz representa la interacción entre un área de contenido y un proceso, esto
facilita la redacción de ítems que cubran todos los aspectos que se consideran relevantes. El número
de ítems y los porcentajes reflejan la ponderación de la importancia que se les conceden. Una vez
asignadas las ponderaciones, la versión piloto debe contar como mínimo con el doble o el triple de los
ítems de la versión final del test.
Es importante que estén representadas todas las áreas de la Psicometría para que tenga validez y que
en cada una de ellas haya número suficiente de ítems para asegurar la fiabilidad.

B.- Formato de los ítems:

Ítems de elección: Son ítems de respuesta cerrada, donde el sujeto elige una o varias alternativas de
entre las propuestas. Entre los formatos más comunes destacan:

 Dos alternativas (se elige entre V ó F; Si ó No; Correcto ó Incorrecto). Se utilizan para medir
variables de tipo cognitivo (habilidades, aptitudes y sobre todo para la construcción de test de
conocimiento y rendimiento). Ventaja: es rápido y fácil de usar. Inconveniente: los sujetos que
responden al azar tienen un 50% de posibilidad de elegir la respuesta correcta.
 Elección múltiple (se elige entre alternativas u opciones de respuesta de las cuales una es la
correcta y las otras son incorrectas (distractores). Se utiliza para medir variables cognitivas y sobre
todo en test de conocimiento y rendimiento. Ventaja: son fáciles de administrar, corregir y puntuar.
Inconveniente: son más difíciles de construir que los de dos alternativas.
 Emparejamiento (el sujeto debe emparejar los elementos de dos columnas de acuerdo a las
instrucciones dadas en el enunciado). Se utilizan para medir variables de tipo cognitivo.
 Formato Cloze o incompleto (frase con espacio en blanco para rellenar con palabra de una lista)

Los formatos anteriores se utilizan para la medida de habilidades, aptitudes y conocimientos (de
antemano se decide la respuesta correcta). Los test con este tipo de ítems  Tests objetivos.

 Escalas de clasificación (rating scales): Las alternativas de respuesta están ordenadas de forma
gradual en una serie de categorías a lo largo de un continuo (totalmente de acuerdo; de acuerdo;
indiferente; etc.). También se las denomina escalas valorativas (los sujetos tienen que emitir
juicios de valor). Ventaja: los sujetos expresan su postura de una manera más precisa.
Inconveniente: el significado de las opciones de respuesta no es el mismo para todos los sujetos,
aparecen sesgos en las respuestas (opciones extremas, categorías centrales, etc.)

Opciones: Likert (5 alternativas) el más utilizado // Osgood (7 categorías)


Acuerdo Totalmente en desacuerdo…. Totalmente de acuerdo
Frecuencia Siempre…. Nunca // Cantidad  Mucho….Nada
Sentimientos Completamente satisfecho…. Completamente insatisfecho
Valoración Excelente…. Muy mala

 Listados (checklists): También es una escala valorativa en la que los sujetos han de mostrar su
opinión sobre algún hecho. Las opciones son independientes entre sí ( ≠ escalas clasificación); y
no hay respuestas correctas o incorrectas. El número de respuestas suele ser grande y es posible
elegir varias opciones. Es un formato típico de los cuestionarios.

Las escalas de clasificación y los listados se utilizan para la medida de variables de personalidad,
actitudes, opiniones, etc. Variables no cognitivas. No hay respuestas correctas o incorrectas.

R. MEDRANO (TUTOR) Página 3


PSICOMETRÍA ORIENTACIONES 1ª PARTE (INSTRUMENTOS MEDICIÓN)

Ítems de construcción: El sujeto elabora su propia respuesta. También se denominan de respuesta


abierta. Los hay de dos tipos:

 De respuesta corta (el sujeto elige una palabra o frase sin que se le presente en ninguna lista)
 De respuesta extensa o de ensayo (se pide a los sujetos que desarrollen un tema): se da la
oportunidad de expresarse con sus propias palabras (se puede evaluar el nivel de conocimientos,
la forma de estructurarlos, las habilidades cognitivas de orden superior, los procesos cognitivos
que ponen en marcha a la hora de solucionar un problema, opiniones, afectos, etc.)

Inconvenientes: las respuestas son difíciles de analizar y valorar pues el investigador tiene que
codificarlas en una serie de categorías antes de comenzar el análisis. Cuando la población es pequeña
se utilizan tests con ítems de respuesta corta.

C.- Longitud del test: no hay un número de ítems adecuado, depende de cada caso. Son muchos los
factores que hay que tener en cuenta (la población a la que va dirigido, el tiempo del que se dispone,
los objetivos del test, etc.). En todos los casos se recomienda que el número de ítems de la prueba
piloto sea mayor que el de la versión final.

D.- Características psicométricas de los ítems:

Nivel de dificultad  Un ítem es fácil o difícil, para una determinada población, en función de la
probabilidad que tengan de responder a él correctamente. Podemos distinguir tres tipos de tests:

 Test de velocidad: los ítems deben ser fáciles de resolver. La dificultad está en el tiempo limitado
de ejecución.
 Test de ejecución máxima (Test de potencia): se utiliza para la evaluación del rendimiento
académico y para la medida de las aptitudes y destrezas. Aquí los ítems tienen diferentes grados
de dificultad (de muy fáciles a muy difíciles); y el tiempo de ejecución no es un factor importante.
 Test de ejecución típica: son los test de personalidad, actitudes, intereses, etc. Como no hay
respuestas correctas e incorrectas, no se puede hablar de dificultad de los ítems

Homogeneidad  En relación con los demás ítems (un ítem tendrá un alto grado de homogeneidad
con el resto de ítems que forman el test cuando mida lo mismo que ellos). Si el constructo a medir es
unidimensional, los ítems han de ser más homogéneos que si el constructo es multidimensional.

Capacidad de discriminación  Un ítem tendrá poder discriminativo en la medida en que sirva para
diferenciar entre sujetos que han obtenido en el test puntuaciones extremas. Depende de la población
a la que va dirigida el test.

4.- REDACCIÓN DE LOS ITEMS:

Consideraciones para la tarea:


 Debe existir un alto grado de congruencia entre el ítem y el constructo psicológico que se quiere
medir (validez del constructo).
 Los constructos deben estar claramente definidos para poder valorar el grado de congruencia
ítem-constructo.
 Hay que minimizar los errores de medida cometidos al medir el constructo con cada ítem.
 El formato de los ítems debe ha de ser adecuado para los objetivos del test.
 Los ítems deben reunir las características psicométricas más adecuadas en cada caso.
 Los ítems deben estar bien redactados.
 Los ítems deben satisfacer las consideraciones legales y técnicas pertinentes. (Por ejemplo se
deben evitar plagios).

R. MEDRANO (TUTOR) Página 4


PSICOMETRÍA ORIENTACIONES 1ª PARTE (INSTRUMENTOS MEDICIÓN)

Recomendaciones generales:
 Evitar la ambigüedad de los enunciados (enunciados cortos y directos)
 Evitar enunciados que provoquen respuestas sesgadas (aquella que es más probable que elijan
los sujetos independientemente de su opinión)
 Expresar una única idea en el enunciado.
 Evitar las dobles negaciones en los enunciados (hacen que los sujetos no sepan cuál es la
respuesta que representa su opinión)

Recomendaciones para ítems de elección:

Dos alternativas: Verdadero-Falso: (1.- Estar completamente seguro de que el ítem es verdadero o
falso. 2.- No utilizar frases que sean universalmente verdaderas o falsas. 3.- Evitar poner en el
enunciado palabras que puedan inducir la respuestas correcta (como siempre, todo, nada, nunca, a
veces, en general, etc.). 4.- Evitar patrones de respuesta, colocando a lo largo del test, de forma
aleatoria, los ítems cuyo enunciado sea correcto.

Elección múltiple: 1.- Asegurarse de que el enunciado del ítem formula el problema con claridad. 2.-
Incluir la mayor parte del texto en el enunciado para evitar repeticiones innecesarias en las opciones
de respuesta. 3.- Incluir distintas opciones de respuesta al final del enunciado. 4.- Asegurarse de que
los distractores, son plausibles. 5.- Evitar opciones de respuesta como: ninguna de las anteriores o
todas las anteriores. 6.- Que sólo haya una opción correcta, a no ser que se indique lo contrario
claramente en las instrucciones. 7.- Tratar de que todas las alternativas de respuesta tengan una
longitud aproximada igual y con una construcción gramatical parecida. 8.- Aleatorizar la ubicación de la
alternativa correcta. 9.- Hacer que todas las alternativas le parezcan igualmente atractivas a una
persona no informada del problema al que alude el enunciado. 10.- Asegurarse de que cada alternativa
concuerda gramaticalmente con el enunciado del ítem. Si el enunciado está en singular, asegurarse de
que cada alternativa está en singular.

Emparejamiento: 1.- Asegurarse de que tanto las premisas como las opciones de respuesta que hay
que emparejar son homogéneas. 2.- Utilizar el formato adecuado (las premisas se deben presentar de
forma aleatoria en una columna a la izquierda y en una columna paralela, situada a la derecha, se
deben presentar las distintas alternativas de respuesta) 3.- El enunciado del ítem debe reflejar
claramente la tarea que se espera del sujeto y la forma en que hay que llevar a cabo el
emparejamiento.

Formato Cloze o incompleto: Necesario que en el enunciado del ítem haya tantos espacios en blanco
como alternativas de respuesta; si no es así, debe constar en las instrucciones.

Escalas de Clasificación: 1.- Evitar expresiones coloquiales, por si alguien no las conoce. 2.- Incluir
en el test completo aproximadamente el mismo número de ítems formulados de manera positiva y
negativa. 3.- Asignar las etiquetas lingüísticas (al menos en los extremos de la escala deben aparecer
las etiquetas lingüísticas para facilitar la respuesta de los sujetos). También es conveniente introducir
una categoría central que represente el punto medio o neutral (no sé, indiferente, ni de acuerdo ni en
desacuerdo) pues refleja la actitud u opinión de muchas personas.

Listados: son fáciles de construir.

Recomendaciones para ítems de construcción:

Ítems de respuesta corta: 1.- Asegurarse de que el enunciado puede ser contestado con una única
frase o palabra y que hay una única respuesta correcta. 2.- Los espacios en blanco para las respuestas
han de ser de la misma longitud. 3.- Evitar dar pistas de la respuesta correcta, (por ejemplo con el
artículo de antes de la palabra etc.). 4.- Indicar el grado de precisión exigido, (por ejemplo el número de
decimales). 5.- Evitar determinantes específicos como Todo o Nada y ambiguos como Frecuentemente
o Algunas veces.

R. MEDRANO (TUTOR) Página 5


PSICOMETRÍA ORIENTACIONES 1ª PARTE (INSTRUMENTOS MEDICIÓN)

Ítems de respuesta extensa o de ensayo: 1.- Asegurarse de que el problema está bien enfocado,
con palabras que definan claramente la tarea (Compare, Contraste, etc.). 2.- No permitir a los sujetos
que elijan entre varias preguntas de ensayo. 3.- Decidir de antemano cómo se van a puntuar las
preguntas de ensayo. 4.- Redactar las preguntas referidas a cuestiones controvertidas de manera que
los sujetos que las deben responder sean evaluados en relación a la evidencia que presentan, no a su
posición personal respecto al tema.

Los sesgos de respuesta: Este tipo de respuestas suelen aparecer en tests construidos para la
medida de aspectos afectivos. Principales sesgos:
 Aquiescencia: tendencia a responder sistemáticamente que se está de acuerdo (o en
desacuerdo) con el enunciado del ítem, con independencia de su contenido.
 Deseabilidad social: responder de manera socialmente aceptada.
 Indecisión o tendencia a seleccionar la alternativa central o neutra: no se, ni acuerdo ni
desacuerdo, indiferencia.
 Respuesta extrema o tendencia a elegir como respuesta las categorías de los extremos con
independencia del contenido del ítem.

5.- REVISIÓN CRÍTICA DE LOS ITEMS POR EXPERTOS:

Una vez redactados los ítems y antes de dar forma a la prueba piloto, es conveniente que sean
revisados por un grupo de personas que no hayan intervenido en su elaboración (expertos que
analicen todos aquellos aspectos que contribuyen a la calidad del ítem). Una vez revisados, se
puede construir la versión preliminar del test (prueba piloto), con aquellos ítems que han pasado este
primer control de calidad.

6.- CONFECCIÓN DE LA PRUEBA PILOTO:

Instrucciones de administración:
 Evitar un leguaje ampuloso y/o amenazante.
 En los test de ejecución máxima se debe explicar que hay algunos ítems que resultarán muy
difíciles para todos los sujetos (la prueba está pensada para que haya ejercicios que no puedan
resolver). Si se incluye esta observación se reducirá la ansiedad de los sujetos.
 En los test de velocidad, avisar que el tiempo está limitado y muy pocos llegarán al final; también,
hay que explicitarlo en las instrucciones.
 Las instrucciones deben proporcionar uno o más ítems de ejemplo.
 Las instrucciones deben informar acerca de cómo distribuir el tiempo y qué hacer cuando no se
conoce la respuesta de un ítem.
 Las instrucciones deben animar al sujeto a responder a todas las preguntas y favorecer así su
rendimiento (tiende a bajar considerablemente cuando se dejan muchas respuestas en blanco)
 Las instrucciones deben explicitar claramente la forma de responder.

Formato de presentación y de registro de las respuestas: Una vez elaboradas las instrucciones hay
que organizar y ordenar los ítems seleccionados para su posterior presentación a los sujetos y decidir
el formato de registro de respuesta.
 El formato debe ser claro y perfectamente legible.
 Debe solicitar al comienzo la identificación del sujeto.
 Presentar las instrucciones
 Presentar los ítems (para medir variables cognitivas es importante que se coloquen ordenados en
función del nivel de dificultad, de menos a más para evitar desmotivar al sujeto y que deje de
responder. En pruebas no cognitivas las preguntas embarazosas deben aparecer al final de lo
contrario el sujeto podría dejar de contestar)
 Los formatos diferentes deben aparecer agrupados para evitar el desconcierto.
 Hay que tratar de que los ítems sigan una ordenación lógica.

R. MEDRANO (TUTOR) Página 6


PSICOMETRÍA ORIENTACIONES 1ª PARTE (INSTRUMENTOS MEDICIÓN)

7.- APLICACIÓN DE LA PRUEBA PILOTO:

Una vez construida la prueba es necesario hacer un estudio piloto para su evaluación psicométrica (ver
si cumple los requisitos necesarios para considerarla un instrumento científico de medición).

Formas de administración de la prueba:


 Colectiva – individual: preferible la colectiva (aunque WAIS, WISC son individuales)
 Oral (las instrucciones y las respuestas se dan de forma oral)
 Papel y lápiz (la presentación y el registro de las respuestas se hace de forma impresa)
 Mediante ordenador (aparecen los ítems en pantalla y se responde a través del teclado)
 A través del correo (alta tasa no responde y falta de seguridad ¿responde a quién iba dirigido?)

8.- CORRECCIÓN PRUEBA PILOTO / ASIGNACIÓN DE PUNTUACIONES A LOS SUJETOS:

Formas de controlar la subjetividad: Siempre que se emite un juicio de algo es inevitable un cierto
grado de subjetividad que hay que tratar de eliminar o, al menos, controlar.

En los test formados por ítems de elección (respuesta cerrada): el examinador no debe realizar
ninguna valoración de las respuestas emitidas por los sujetos, eliminándose la posibilidad de introducir
subjetividad en las puntuaciones asignadas.

A.- Pruebas cognitivas: Se conoce de antemano cual es la respuesta correcta, solo hay que
comprobar si coincide. Un inconveniente grave es la posibilidad de que un sujeto, desconociendo la
respuesta, elija por azar la correcta (la puntuación final no se corresponde con su verdadero nivel).
Para evitarlo se utiliza una fórmula de corrección (penalizando errores o bonificando las omisiones)

∑i= 1
Xi Puntuación Total

E X c Puntuación corregida // A = nº de aciertos.


X c = A − Aa = A −
K−1 Aa Aciertos obtenidos al responder al azar.
E = nº errores // K = nº alternativas de los ítems
 1  k − 1
E = Ra  1 − ÷ = Ra  ÷ Si llamamos Ra al nº de respuestas aleatorias que emite el sujeto en el
 k  k  total del test, se puede establecer que el nº de errores será igual al nº
de respuestas aleatorias por la probabilidad del error.
K  1 E
Aa = E   = Probabilidad de acertar por azar
K − 1 k  k−1

Cuando se bonifican las omisiones, aunque se pueden comparar las


O puntuaciones, están sobrevaloradas. No corresponden al verdadero
X c A + Aa = A + nivel de los sujetos; por tanto, es más adecuado utilizar el primer
K
procedimiento (penalizar errores)

Problemas ejemplo: Supongamos un test de 50 ítems, 25 con dos alternativas de respuesta


(Verdadero / Falso) y 25 con cuatro alternativas de respuesta. ¿Cuál será la puntuación corregida de
un sujeto que contestando a todos los ítems, acertó 15 de V/F y 19 de las de cuatro alternativas?
_
X1 = 15 – (10 / 2-1)  5
_ _
X2 = 19 – (6 / 4-1)  17 XTOTAL = 17 + 5 = 22

Si no se corrigiera el azar, el sujeto hubiera obtenido 34 puntos, después de corregirlo 22.

R. MEDRANO (TUTOR) Página 7


PSICOMETRÍA ORIENTACIONES 1ª PARTE (INSTRUMENTOS MEDICIÓN)

 La puntuación en un test con cuatro alternativas de respuesta , corrigiendo los efectos del azar, que
le corresponde a un sujeto que ha contestado 150 elementos y de esos ha acertado 120:

P = A – [E / (K – 1)]  120 – (30 / 3) = 110

 En el caso de los exámenes de la asignatura Psicometría, el examen consta de 25 preguntas o


ejercicios, con tres alternativas de respuesta de las que sólo una es correcta. La calificación se expresa
en una escala de 0 a 10 puntos y viene dada por la fórmula:

Calificación = (0´4 x Aciertos) – (0´2 x Errores)

B.- Pruebas no cognitivas: No hay respuestas correctas ni incorrectas, los ítems llevan asignado un
valor para cada alternativa de respuesta, lo que implica un escalamiento previo de los ítems en
función del grado de atributos que manifiesten. La forma de corregir es sumando los valores
numéricos asignados a las alternativas o categorías de repuesta elegidas por el sujeto.
Cuando se utiliza un formato de escalas de categorías o clasificaciones hay que tener muy claro cuál
es la dirección del continuo de la variable que se está midiendo.

En los test formados por ítems de construcción: Cuando se trata de que el sujeto construya la
respuesta correcta con una palabra o frase corta (ítems de respuesta corta) es fácil la asignar una
puntuación. El problema aparece en las respuestas más abiertas y extensas, en las que es más difícil
corregir eliminando la subjetividad.

Método de la puntuación Analítica (Requiere): Definir de forma inequívoca y aislar las dimensiones
que se consideran importantes para la realización de la tarea a evaluar. Establecer las formas de
evaluarlas, definiendo claramente lo que se considera una respuesta adecuada o correcta en cada
dimensión y estableciendo el número de respuestas correctas que se necesitan, en cada una de ellas,
para poder decir que la tarea ha sido correctamente realizada. Las pruebas pueden ser corregidas por
personas que no sean expertas en la materia a evaluar, ya que no habrá dificultad en decidir si la
respuesta es correcta o no. La puntuación final viene expresada por dos únicos valores: correcta /
incorrecta, apto / no apto; pero se obtiene información de cada una de las dimensiones.

Método de la puntuación Holística: Evalúa de una manera global u holística la forma en que los
sujetos han realizado la prueba (la puntuación asignada podrá tomar distintos valores dentro de los
límites establecidos). Requiere que la corrección de las pruebas sea hecha por expertos, entrenados
para alcanzar un acuerdo entre ellos y eliminar la subjetividad.

R. MEDRANO (TUTOR) Página 8


PSICOMETRÍA ORIENTACIONES PARTE I (INSTRUMENTOS MEDICIÓN)

1ª PARTE: CONSTRUCCIÓN DE INSTRUMENTOS DE MEDICIÓN PSICOLÓGICA

TEMA Nº 3  TÉCNICAS PARA LA CONSTRUCCIÓN DE ESCALAS DE ACTITUDES.

INTRODUCCIÓN

Las técnicas que se van a exponer, aunque se centran en la construcción de escalas para la
medición de actitudes, se pueden adaptar para su utilización en la medición de intereses y valores.

Nunnally (1978) distingue entre:


 Intereses (preferencias por actividades particulares). Los ítems
hacen referencia a numerosas actividades específicas.
 Valores (preferencias sobre objetivos y formas de vida, más que
sobre actividades concretas). Los ítems hacen referencia a
numerosas y amplias categorías de actividades.
 Actitudes: sentimientos acerca de un determinado objeto social
(objetos físicos, tipos de personas, etc.) En las escalas de
actitudes todos los ítems que forman la escala deben hacer
referencia a un mismo objeto social (una misma variable)

1.- EL MODELO ESCALAR DE THURSTONE

Thurstone desarrolló los procedimientos necesarios para la elaboración de escalas psicológicas;


es decir, para la elaboración de escalas en un continuo psicológico que permitiera situar en ellas
los estímulos sin necesidad de recurrir a ninguna operación en continuos físicos.

Hay que diferenciar lo que es el proceso de construcción de la escala, de su posterior aplicación:


 En la fase de construcción de la escala (se escalan los estímulos a lo largo de un continuo
psicológico, asignando un valor en la escala a cada uno de ellos). Incluye la prueba de
jueces (asignan valores escalares o puntuaciones a cada uno de los ítems o estímulos que
componen la prueba)
 El término de esta fase constituye la prueba piloto que puede ser aplicada a una muestra de
sujetos para estudiar sus propiedades psicométricas y elaborar la escala definitiva.

El modelo de Thurstone se basa en 

 La variabilidad perceptual de los sujetos (en las diferencias que hay entre los sujetos a la hora
de percibir los estímulos, e incluso en las diferencias perceptivas producidas en un mismo sujeto
cuando se le presentan los estímulos en distintas ocasiones)
 La limitación que tienen los sujetos para percibir la diferencia de magnitud entre dos
estímulos (ya que dada una serie de estímulos, ordenados respecto a un determinado atributo o
característica psicológica a lo largo de un continuo, siempre es posible encontrar dos de ellos
cuya diferencia sea tan pequeña que no pueda ser percibida por el observador)

Supuestos básicos del modelo 


A. Existe un continuo psicológico (subjetivo) a lo largo del que varía el atributo o característica
que se está estudiando.
B. Cada uno de los estímulos que se van a estudiar, al ser presentado a un sujeto para su
evaluación, origina en él un proceso subjetivo (proceso discriminante) a través del cual les
asignará un valor también subjetivo en el continuo psicológico.
C. Cuando un estímulo es presentado en repetidas ocasiones al mismo sujeto, no siempre
origina en él el mismo proceso discriminativo y, por tanto, el valor subjetivo asignado en cada
ocasión al estímulo a través de los distintos procesos discriminantes puede variar.
D. Si el número de veces que se presenta cada uno de los estímulos es muy grande, se puede
hacer una distribución de los valores subjetivos asignados a cada uno de ellos y se asume
que esta distribución se ajusta a una distribución normal.

R. MEDRANO (TUTOR) Página 1


PSICOMETRÍA ORIENTACIONES PARTE I (INSTRUMENTOS MEDICIÓN)

E. Distribución discriminante (media de la distribución), es el valor del estímulo en el continuo


psicológico y se denomina valor escalar del estímulo. La dispersión discriminante (desviación
típica), aporta una idea de la ambigüedad suscitada por el estímulo en el sujeto (si es cero, el
estímulo no ha producido ambigüedad y el sujeto le habrá asignado el mismo valor)
F. Si se presentan varios estímulos, en repetidas ocasiones, a un mismo sujeto, cada uno de
ellos dará lugar a una distribución discriminante distinta que vendrá definida por su media
y su desviación típica.
G. El modelo se cumple tanto si es un solo sujeto el que emite numerosos juicios, como si es
una muestra grande de sujetos donde cada uno emite un único juicio.

A la muestra de los sujetos utilizada para asignar valores escalares a los estímulos se le conoce
como muestra de jueces o expertos.

Tanto en la Ley del Juicio Comparativo como del Categórico, los sujetos que evalúan los ítems
deben emitir un juicio objetivo acerca del grado de atributo que consideran que contiene cada
uno de ellos, y no mostrar su actitud personal; es decir, se les pide juicios de hecho y no
juicios de valor (Prueba de los Jueces)

Ley del Juicio Comparativo (método de las comparaciones binarias) 

Utiliza como método experimental para obtener los datos las comparaciones binarias. La tarea
de los sujetos consiste en comparar directamente cada uno de los estímulos que se presentan con
todos los demás y decir, ante cada uno de los pares formados, cual es el estímulo preferido o el
dominante en la dirección del atributo que se está midiendo. Ej: medir la actitud de los españoles
ante la política. Se realizan combinaciones binarias entre los ítems disponibles y se presentan a un
grupo de jueces o expertos. Ante cada par señalan qué ítem es, a su juicio, el que indica una
actitud más positiva hacia la política.

Diferencia discriminante (al comparar dos estímulos y tener que emitir un juicio acerca de cuál
es el dominante, se produce en cada uno de los jueces un proceso discriminante mediante el cual
asignan un valor subjetivo a cada uno de los estímulos y, al compararlos, se produce una
diferencia entre los valores subjetivos asignados a cada uno de ellos a través de los
correspondientes procesos discriminantes. Esta diferencia discriminante no siempre será la misma
para los distintos jueces. Los resultados de los juicios se ordenan en una serie de matrices, de
frecuencias, de proporciones y de puntuaciones típicas.

LEY DE JUICIO COMPARATIVO (COMPARACIONES BINARIAS)


N (N – 1)
C.B. = ------------ Número de Combinaciones Binarias // N = Número de estímulos
2
Matriz de frecuencias empíricas (f)
Matrices para Matriz ordenada de proporciones (P)
Análisis de Datos Matriz de puntuaciones típicas (Z)

Cálculo valores escalares de los estímulos


V.E.(I) = (∑ Zij / n) I = un estímulo cualquiera // n = número de estímulos
∑ Zij = suma de las puntuaciones típicas de la columna
correspondiente al estímulo.
Transformaciones de Punto cero: estímulo cuyo valor escalar es más bajo. Los
la escala valores escalares del resto de los estímulos se calculan
Punto cero sumando, a los valores originales, el valor del estímulo más
pequeño.

La media de las puntuaciones típicas asignadas por los jueces a cada estímulo, a través de los
procesos discriminantes, es la mejor estimación de su valor escalar.

R. MEDRANO (TUTOR) Página 2


PSICOMETRÍA ORIENTACIONES PARTE I (INSTRUMENTOS MEDICIÓN)

Problema ejemplo: Se quiso saber la preferencia de los universitarios españoles por los seis
siguientes deportes: fútbol, baloncesto, balonmano, tenis, natación y artes marciales. Para ello se
eligió aleatoriamente una muestra de 5000 estudiantes a los que se les aplicó una escala
construida según el modelo de la ley del juicio comparativo. Las respuestas de los
universitarios se recogen en la matriz adjunta. Cada casilla indica el número de sujetos que prefirió
el deporte de la fila al de la columna. Escalar las preferencias respecto a estos deportes en este
grupo.

Frecuencias Judo BC BM Fútbol Natació Teni Total


Empíricas
n s
Judo 0 500 700 250 300 350 2100
Baloncesto (BC) 4500 0 3500 1000 2000 3000 14000
Balonmano (BM) 4300 150 0 550 800 900 8050
0
Fútbol 4750 400 4450 0 3285 2740 19225
0
Natación 4700 300 4200 1715 0 1890 15505
0
Tenis 4650 200 4100 2260 3110 0 16120
0

¿Cuántos pares de estímulos habría que hacer para construir una escala utilizando el método de
las combinaciones binarias?  C.B. = 6 (6 – 1) / 2  30 / 2 = 15

Solución: Teniendo en cuenta los totales, se aprecia que el judo es el menos preferido por los
jueces y el fútbol el más preferido. Ordenamos los deportes (de – a + preferencia) y obtenemos la
matriz de proporciones  Ejemplo: Balonmano en la 1º columna tenemos 4300 (estudiantes que
prefirieron Balonmano a Judo) que dividido entre 5000 (total de estudiantes) = 0´86 y (1 – 0´86 = 0
´14) que se colocan en la diagonal. Fútbol en la 1ª columna tenemos 4750 / 5000 = 0´95. Etc.

Proporciones Jud BM BC Natació Teni Fútbo


o n s l
Judo 0´50 0´86 0 0´94 0´93 0´95
´90
Balonmano (BM) 0´14 0´50 0 0´84 0´82 0´89
´70
Baloncesto (BC) 0´10 0´30 0 0´60 0´40 0´80
´50
Natación 0´06 0´16 0 0´50 0´62 0´66
´40
Tenis 0´07 0´18 0 0´38 0´50 0´55
´60
Fútbol 0´05 0´11 0 0´34 0´45 0´50
´20

A partir de la matriz de proporciones se obtiene la matriz de puntuaciones típicas y se utilizan


las tablas de la curva normal para averiguar la z que corresponde a cada proporción  Ejemplo:
Balonmano en la 1ª columna proporción 0´14 (Z = -1´08); por tanto su simétrica 0´86 (Z = 1´08)

Puntuaciones Jud BM BC Natació Tenis Fútbol


Típicas
o n
Judo 0 1´08 1´28 1´56 1´48 1´64
Balonman -1 0 0´52 0´99 0´92 1´23
o ´08
Baloncest -1 -0´52 0 0´25 -0´25 0´84
o ´28
Natación -1 -0´99 -0´25 0 0´31 0´41
´56
Tenis -1 -0´92 0´25 -0´31 0 0´12
´48
Fútbol -1 -1´23 -0´84 -0´41 -0´12 0
´64

R. MEDRANO (TUTOR) Página 3


PSICOMETRÍA ORIENTACIONES PARTE I (INSTRUMENTOS MEDICIÓN)

∑ -7 -2´58 0´96 2´08 2´34 4´24


´04
Z MEDIAS = -1 -0´43 0´16 0´35 0´39 0´71
´17
K = 1´17 0 0´74 1´33 1´52 1´56 1´88
Valores S1 S2 S3 S4 S5 S6

Las Z (medias) se obtienen dividiendo los sumatorios por seis (nº de estímulos)  Permiten
obtener los valores escalares de los seis estímulos considerados. Para evitar nº negativos, se da
el valor cero al menor y para averiguar el resto se suma una constante (k = 1´17) a los valores
escalares que tenían (-0´43 + 1´17 = 0´74 // 0´16 + 1´17 = 1´33; etc.)

Judo Balonmano Baloncesto Natación Tenis Fútbol


|-----------|----------------|---------|-------|----------------------------------------|----------------|
0 0´74 1´33 1´52 1´56 1´88 2

Ley del Juicio Categórico 

En este modelo, además de los supuestos generales, también hay que asumir que el continuo
psicológico de cada sujeto, puede ser dividido en una serie de categorías ordenadas (la tarea del
sujeto consiste en asignar cada uno de los estímulos que se presentan a una categoría en función
del grado de atributo que considere que tiene el estímulo). Ej: actitud ante el matrimonio (el sujeto
evalúa cada uno de los ítems y los asigna a una determinada categoría en función de la actitud
más o menos favorable que, a su juicio, presenten)

Para la obtención de los datos utiliza el método de los intervalos aparentemente iguales (el
más utilizado en la elaboración de escalas de actitudes)
Procedimiento: Después de la redacción de un conjunto de ítems, es necesario que sean
juzgados por un grupo de personas (100 ó más). Cada juez es instruido para que imagine un
espacio dividido en, por ejemplo, 11 categorías ordenadas, una escala imaginaria dividida en 11
categorías o intervalos aparentemente iguales (de negativa a positiva, pasando por un punto
neutral). Los jueces, que no tienen por qué ser expertos, deben clasificar cada uno de los
estímulos en una de las categorías en función del grado y la dirección del atributo que manifiesten.
Dado que se conocen los valores escalares asociados a cada categoría (del 1 al 11), así como los
correspondientes a sus límites (de 0,5 hasta 11,5), sólo necesitaremos calcular los valores
escalares de los estímulos; para ello se calcula la mediana de la distribución de frecuencias de
los juicios emitidos por los jueces y se ordenan los resultados en una matriz (en las columnas las
categorías de la escala y en las filas los ítems que han sido evaluados por los jueces; cada uno de
los elementos de la matriz indica el número de veces que cada estímulo ha sido asignado a cada
categoría)

Para averiguar el valor escalar de los estímulos, hemos de calcular la mediana de sus
distribuciones. Para ello se calculan las frecuencias acumuladas para cada ítem.

LEY DEL JUICIO CATEGÓRICO (INTERVALOS APARENTEMENTE IGUALES)

Matrices para Matriz de frecuencias // Matriz de frecuencias acumuladas


Análisis de Datos Valor escalar de cada estímulo = Mediana

Li = lím. Inf. Intervalo asociado a la categoría de la mediana.


I = amplitud del intervalo (en este procedimiento es igual a 1)
I  N  f d = nº de jueces que clasificaron el elemento o ítem en la
Mdna = Li +  − fb ÷ categoría correspondiente a la mediana.
fd  2  N / 2 = 50 % de los sujetos de la muestra de jueces.
f b = nº de sujetos de la muestra de jueces que clasificó al
elemento en categorías inferiores a la de la mediana.
I Coeficiente de Ambigüedad  C.A. = Q3 – Q1
P75 = Li + ( 3N / 4 − f b ) f d = nº de jueces que clasificaron el elemento o ítem en la
fd
categoría correspondiente al cuartil (Q)

R. MEDRANO (TUTOR) Página 4


PSICOMETRÍA ORIENTACIONES PARTE I (INSTRUMENTOS MEDICIÓN)

I f b = nº de sujetos de la muestra de jueces que clasificó al


P25 = Li + ( N / 4 − fb ) elemento en categorías inferiores a la del cuartil (Q)
fd
Cuando el C.A. > 2 = El ítem es ambiguo y se elimina de la
escala definitiva
Valor escalar del sujeto = Puntuación del sujeto
V.E.A. = valores escalares de los estímulos con los que el
V .E.S = ∑ V .E. A / n sujeto está de acuerdo o ha contestado favorablemente.
n = nº de estímulos a los que el sujeto ha contestado
favorablemente

Las escalas de actitudes de Thurstone tienen la “ventaja” de que permiten la interpretación


directa de la actitud de un sujeto sin necesidad de hacer referencia al grupo, o la actitud media de
un grupo sin recurrir a normas generales. Actualmente, el modelo Likert (sumativo) es más útil
para medir actitudes.

Problema ejemplo: Se quiere construir una escala de tipo Thurstone para medir una determinada
actitud. La escala utilizada ha sido de 7 puntos. De entre todos los elementos empleados en la
prueba de jueces, hemos elegido uno de ellos para analizar. El resultado de la evaluación de 100
jueces al elemento fue el siguiente:
Escala del elemento 1 2 3 4 5 6 7
Nº de jueces 2 5 8 1 2 4 10
0 5 0
Frecuencias acumuladas 2 7 1 2 5 9 10
5 5 0 0 0

A.- Averiguar el valor escalar del elemento utilizando para ello la mediana.
Solución: La mediana está en el intervalo (5-6)  P50 = 4´5 + (50 -25 / 25) · 1  P50 = 5´5

B.- Determinar el coeficiente de ambigüedad (dispersión discriminante) del elemento utilizando la


distancia intercuartílica. ¿Se debería aceptar el elemento para formar la escala definitiva?

NK/4 = 100 · 3/4 = 75  Límites I. Crítico (5,5 –6,5)


NK / 4 − f b 75 − 50
Q3 = Li + A = 5,5 + 1 = 6,125
fd 40
NK/4 = 100/4 = 25  Límites I. Crítico (3,5 – 4,5)
NK / 4 − f b 25 − 15
Q1 = Li + A = 3,5 + 1 = 4,5
fd 10
También  El primer cuartil coincide con la Fa, nos quedaremos con el límite superior y no es
necesario aplicar la formula = 4,5
Solución  C.A. = = Q3 – Q1  C.A. = 6´125 – 4´5 = 1´625
Como el coeficiente de ambigüedad es < 2, el ítem debería ser aceptado

2.- LA TÉCNICA DE LIKERT


Likert consideraba que el método Thurstone era muy laborioso y propone la técnica del modelo
sumativo, utilizado para la medida de las diferencias individuales respecto a los rasgos
psicológicos. La técnica asume que los ítems están monotónicamente relacionados con el rasgo
subyacente que se quiere medir y que la suma de las puntuaciones de los ítems está relacionada
linealmente con el rasgo. La puntuación total sería la suma de todas las puntuaciones de los
sujetos a cada uno de los ítems. Ventajas: fáciles de construir; muy fiables; se pueden adaptar
para medir cualquier tipo de actitud.

Fundamentos de la técnica (supuesto)  Las actitudes pueden medirse a través de las


manifestaciones verbales de los sujetos que emiten juicios de valor. La técnica de medida de las
actitudes se basa en los siguientes principios y postulados:
 Es posible estudiar dimensiones de actitud a partir de un conjunto de enunciados que operen
como reactivos para los sujetos.
 Los individuos pueden situarse en la variable de actitud desde el punto más favorable al más

R. MEDRANO (TUTOR) Página 5


PSICOMETRÍA ORIENTACIONES PARTE I (INSTRUMENTOS MEDICIÓN)

desfavorable. La variación de las respuestas será debida a diferencias individuales.


 La valoración de los sujetos en la variable de actitud no supone una distribución uniforme
sobre el continuo de actitud, sino su posición favorable o desfavorable sobre el objeto
estudiado.

Las actitudes sociales se agrupan en pautas. Partiendo de la actitud de un sujeto frente a algún
aspecto de un problema planteado, se podría predecir la actitud que manifestaría dicho sujeto
respecto a otros aspectos del mismo problema.
Desde el punto de vista de la medición, los sujetos son ordenados en la escala en función de su
posición respecto a la actitud medida (en un nivel de medida ordinal). La escala es sumativa; es
decir, está en función de las puntuaciones obtenidas en cada uno de los ítems que la componen.
Esto implica dos supuestos adicionales:
 Que la suma de las curvas características de los ítems sea una función monotónica y
aproximadamente lineal respecto a la actitud medida.
 Que todos los elementos que componen la escala estén midiendo una única dimensión
(escala unidimensional)

La asignación de valores numéricos a los ítems y puntuaciones de los sujetos se deja al arbitrio del
investigador. Debe hacerse de forma que se mantenga la coherencia interna en el sentido de la
actitud medida (valor + alto indica actitud más +, y al revés).

Ejemplo escala tipo Likert  Los perros deben llevar bozal


Completamente de acuerdo
De acuerdo
Indiferente
En desacuerdo
Completamente en desacuerdo
Se trata de hacer juicios de valor y tomar partido por una de las categorías

3.- EL DIFERENCIAL SEMANTICO DE OSGOOD (DS)

Es una escala de clasificación para medir el significado connotativo (también afectivo o


subjetivo) que determinados estímulos tienen para los sujetos. Osgood estaba interesado por las
reacciones emocionales que las palabras o conceptos producen en las personas. Al
aproximarse al problema del significado, Osgood revisó múltiples teorías y encontró el marco
teórico que le permitió desarrollar un instrumento para medirlo: el Diferencial Semántico.

Punto de partida: la actitud que muestra una persona hacia un objeto depende del significado
evaluativo que dicho objeto tienen para la persona. Para Visauta (1989) el Diferencial Semántico
se basa en que la gran diversidad de significados es reducible a unas determinadas variaciones en
un número limitado de dimensiones.

El formato de la escala consiste en la presentación a los sujetos de un concepto seguido de una


serie de escalas cuyos extremos están marcados por adjetivos bipolares.

 Los conceptos: estímulos u objetos que ha de evaluar el sujeto. Pueden ser conceptos
verbales (Dios, madre, etc.) o no verbales (cuadros, esculturas, etc.); por lo que primero hay
que definir claramente el problema a investigar, y luego elegir los conceptos más adecuados.
Los conceptos tienen que aparecer encabezando el formulario, seguidos del conjunto de
escalas bipolares que se utilizarán. Como no se puede cubrir a base de conceptos toda el
área a investigar, es necesario hacer un muestreo de todo el universo de conceptos que la
definen, para extraer los más relevantes. A veces el investigador tiende a elegir aquellos
conceptos: que discriminen bien entre los sujetos, ya que de esta manera se obtiene una
mayor información; que tengan un significado claro y único para el sujeto, de manera que
cuando se le presenten sepa lo que está juzgando y que sean familiares a todos los sujetos
para que la respuesta sea real y no esté sesgada (Osgood: cuando los sujetos no están
familiarizados con el concepto, se produce una regresión hacia el punto medio en la escala de
evaluación)

R. MEDRANO (TUTOR) Página 6


PSICOMETRÍA ORIENTACIONES PARTE I (INSTRUMENTOS MEDICIÓN)

 Las escalas bipolares: Se utilizan para evaluar el significado de los conceptos. Estas escalas
bipolares representan una reacción de tipo afectivo hacia el objeto, con el fin de poder obtener
una media del significado afectivo que cada objeto (estímulo) tiene para los sujetos. Estas
escalas están ancladas en sus extremos por dos adjetivos antónimos, que describen un
aspecto del continuo semántico (fuerte-débil; etc.) a lo largo del cual se situará el concepto
evaluado. El continuo está dividido en categorías (normalmente  7)

Mala ...1.. P..2... P..... P..... P..... P..... P..7... Buena

Cuando un sujeto clasifica un concepto en la categoría media de la escala, diremos que


considera que no hay asociación ni relación semántica entre el concepto y la escala bipolar
utilizada. La forma de presentación del DS es muy variada; en general, se utiliza como una
prueba de papel y lápiz (la aplicación puede ser colectiva)

El espacio semántico: criterios de selección de las escalas  El número de escalas que


pueden utilizarse para evaluar un concepto determinado es ilimitado, de ahí que debamos optar
por las escalas más representativas que serían las que mejor miden las dimensiones subyacentes
al significado semántico del concepto a evaluar.
Los resultados de las primeras investigaciones factoriales, aportaron que, con independencia del
concepto evaluado, había una serie de escalas que definían tres factores o dimensiones
subyacentes al espacio semántico: Valorativa (bueno-malo), de Potencia (fuerte-débil) y de
Actividad (activo-pasivo).

 Factor Valorativo o Evaluativo (Bueno – Malo; Bonito – Feo; Sincero – Falso; etc.)
 Factor de Potencia (Fuerte – Débil; Duro – Blando; Masculino – Femenino; etc.)
 Factor de Actividad (Activo – Pasivo; Rápido – Lento; Dinámico – Estático; etc.)

El factor valorativo o evaluativo es el que explica un mayor porcentaje de varianza.

Bueno ---7---6---5---4---3---2---1--- Malo

Débil ---1---2---3---4---5---6---7--- Fuerte

Activo ---3---2---1---0---(-1)---(-2)---(-3) Pasiv


o

No hay un criterio estricto sobre el número de escalas a utilizar para valorar de forma adecuada
cada una de las dimensiones del espacio semántico, aunque se estima que seis son suficientes.

Criterios de selección de las escalas: a) criterio de la composición factorial de las escalas


(hay que tratar de que cada una de las dimensiones o factores esté representada, al menos, por 4
ó 6 escalas bipolares; estas escalas han de tener saturaciones muy altas en el factor que
representan y bajas o nulas en el resto de los factores); b) criterio del grado de relevancia para
la evaluación del concepto (la inclusión de escalas poco relevantes conlleva a la pérdida de
información (las respuestas se sitúan en el punto neutral); c) criterio de Estabilidad semántica
de la escala respecto a los conceptos y a los sujetos.

Elaboración de la prueba piloto y aplicación 

Procedimiento: elaborada la lista de conceptos a evaluar, se pide a una muestra de sujetos que
califique cada uno de los conceptos por medio de un adjetivo. Se seleccionan los adjetivos más
utilizados (criterio de máxima frecuencia). Se buscan palabras con significado opuesto al de los
adjetivos para formar las escalas bipolares. Por último, se organizar los conceptos y las escalas

R. MEDRANO (TUTOR) Página 7


PSICOMETRÍA ORIENTACIONES PARTE I (INSTRUMENTOS MEDICIÓN)

bipolares para su aplicación.


Normas para presentar el DS que facilitan la recogida de datos y su posterior análisis:

 Para una muestra alfabetizada, se suele presentar el DS en forma de cuadernillo. La


primera página se dedica a las instrucciones de cumplimentación, y en las siguientes se
recogen los distintos conceptos con sus escalas bipolares (una hoja para cada concepto).
 El número de conceptos y escalas debe ser suficientes para cubrir los objetivos de
investigación (nunca tantos que produzcan cansancio, las respuestas no serían fiables)
 Los valores numéricos asignados a las categorías de cada escala bipolar tienen que
mantener la dirección del continuo (el más pequeño en la valoración negativa y el más
grande en la positiva)

De un sujeto  X ai (sujeto a en la escala bipolar i)


Puntuación Escalar _
De un grupo  X = ∑ X ai / N
De un sujeto  Faj = ∑ X ai / n (nº escalas bipolares de la dimensión j)
Puntuación factorial _ _ _
De un grupo  Faj = ∑ Faj / N o bien Faj = ∑ X j / n

Problema ejemplo: el concepto de amistad fue valorado mediante un diferencial semántico de


Osgood. A continuación se presenta el número de sujetos que respondió a cada una de las
categorías utilizadas en las escalas bipolares para medir la dimensión de potencia (Total 200)

DS 1 2 3 4 5 6 7
Débil - Fuerte 8 9 0 32 51 65 35
Frágil - Pétreo 6 9 1 33 51 60 40
Duro - Blando 8 1 14 34 43 40 60

A.- Calcular la puntuación factorial de la dimensión potencia. Indicar si es potente, neutra o


ligeramente potente. _
Solución: Averiguamos la media de cada dimensión  X = ∑ X ai / N (para averiguar las medias se
multiplica el nº de sujetos que hay en cada categoría por el valor numérico de la categoría.

Media D-F = [(8x1)+(9x2)+(0x3)+…+ (35x7)] / 200 = 5´22


Media F-P = [(6x1)+(9x2)+(1x3)+…+ (40x7)] / 200 = 5´27
Media D-B = [(8x1)+(1x2)+(14x3)+…+ (60x7)] / 200 = 5´31
_
Averiguamos la puntuación factorial  PF = ∑ X j / n  PF = (5´22 + 5´27 + 5´31) / 3 = 5´27

Conclusión: La muestra considera el concepto amistad (ligeramente potente), 5´27 se sitúa en


la escala bipolar iniciando la zona media alta.

B.- Indicar la actitud ante la amistad en la dimensión potencia de un sujeto que respondió 4, 3 y 2
respectivamente a cada una de las escalas bipolares.

Solución: (4 + 3 + 2) / 3 = 3 (el sujeto mostraría una actitud prácticamente neutra)

4.- LA TÉCNICA DE GUTTMAN

R. MEDRANO (TUTOR) Página 8


PSICOMETRÍA ORIENTACIONES PARTE I (INSTRUMENTOS MEDICIÓN)

Conocida como Escalograma de Guttman, está diseñada de tal forma que se puede conseguir la
ordenación de los sujetos y de los estímulos en un continuo respecto a una dimensión
determinada. Se incluye en los métodos centrados en las respuestas; tanto los sujetos como los
estímulos pueden representarse, a lo largo de un continuo, formando una escala también
denominada de entrelazamiento. En esta escala, cada sujeto estará situado entre dos estímulos,
el sujeto habrá contestado correctamente a todas las preguntas que quedan representadas en la
escala por debajo de él, pero habrá fallado todas las que están representadas por encima). Si
consideramos la matriz triangular (Sujetos: 1, 2, 3, 4 y 5 // Estímulos: A, B, C, D):
:
5 A 4 B 3 C 2 D 1
Escala de entrelazamiento |------------------------------------------------------|

El interés de esta técnica de escalamiento es que permite establecer la unidimensionalidad de


un conjunto de datos al tratar de eliminar todos los factores que son ajenos a la dimensión que se
quiere medir. La unidimensionalidad se consigue con las escalas acumulativas perfectas.

Evaluación del error en el modelo  Este modelo no lleva implícita ninguna teoría del error. Se
define el error como la desviación del patrón de respuestas observadas respecto al patrón de
respuestas ideal requerido por el modelo (procedimiento de Goodenough y Edwards). Ejemplo de
patrón correspondiente a una escala perfecta (Sujetos: 1, 2, 3, 4 y 5 // Estímulos: A, B, C, D):

A B C D Puntos MATRIZ TRIANGULAR


1 + + + + 4 Responde favorable o correctamente a todos los estímulos.
2 + + + - 3 Responde favorablemente a los estímulos A, B y C.
3 + + - - 2 Responde favorablemente a los estímulos A y B.
4 + - - - 1 Responde favorablemente al estímulo A.
5 - - - - 0 Responde desfavorable o negativamente a todos los estímulos..

Problema ejemplo: A un grupo de cinco sujetos le hemos aplicado un cuestionario para evaluar
su actitud ante el racismo. Las respuestas dadas por los sujetos, que aparecen a continuación,
podían representar una actitud favorable (1) o desfavorable (0). Construir el escalograma
correspondiente y hallar el coeficiente de reproductividad.

Pasos para la elaboración de la escala:

1.- Se averigua para cada sujeto y para cada ítem el nº de respuestas correctas:

Matriz inicial Ítems


Sujetos 1 2 3 4 5 Punt. Sujetos
A 1 1 1 0 1 4
B 1 0 0 0 1 2
C 1 1 0 1 1 4
D 0 0 0 1 1 2
E 1 1 1 1 1 5
∑ 4 3 2 3 5

2.- Se reordenan las columnas correspondientes a los estímulos de manera que queden
ordenados desde el estímulo mayor al menor (ordenación de columnas):

Orden Ítems Ítems


Sujetos 5 1 2 4 3 Punt. Sujetos
A 1 1 1 0 1 4
B 1 1 0 0 0 2
C 1 1 1 1 0 4
D 1 0 0 1 0 2
E 1 1 1 1 1 5
∑ 5 4 3 3 2

3.- Se reordenan las filas correspondientes a los sujetos de manera que queden ordenados desde

R. MEDRANO (TUTOR) Página 9


PSICOMETRÍA ORIENTACIONES PARTE I (INSTRUMENTOS MEDICIÓN)

el que obtuvo una mayor puntuación hasta el que la tuvo más baja (ordenación de filas):

Orden Sujetos Ítems


Sujetos 5 1 2 4 3 Punt. Sujetos Errores
E 1 1 1 1 1 5
A 1 1 1 0 1 4 2
C 1 1 1 1 0 4
B 1 1 0 0 0 2
D 1 0 0 1 0 2 2
∑ 5 4 3 3 2 4

Si la matriz de datos obtenida se ajustara a una escala acumulativa perfecta, el resultado habría
sido una matriz triangular (la diagonal hubiera quedado marcada de forma correcta). Como no ha
sido nuestro caso, se debe hacer el recuento de los errores para comprobar el grado de ajuste de
los datos obtenidos al modelo de Guttman. Como en la práctica es muy difícil encontrar este tipo
de escalas, debemos optar por la técnica denominada coeficiente de reproductividad (grado de
ajuste entre los datos obtenidos empíricamente y el modelo teórico)
CR  es un índice numérico que señala el grado en el que una escala, obtenida a partir de unos
datos empíricos, se ajusta al modelo ideal del Escalograma de Guttman o escala acumulativa
perfecta. Los datos empíricos se ajustan al modelo de Guttman si el coeficiente de reproductividad
es igual o mayor que 0,90.

Coeficiente de reproductividad  CR = 1 – (E / I x S)  CR = 1 – (4 / 5 x 5) = 0´84

Conclusión  El CR < 0´90, luego nuestros datos no se ajustan al modelo de Guttman.

5.- DIFERENCIAS ENTRE LAS DISTINTAS TÉCNICAS

El Diferencial Semántico se distingue en el formato de los ítems, ya que estos consisten en una
serie de conceptos a evaluar mediante respuestas a una serie de escalas ancladas por adjetivos
bipolares. (En las otras técnicas, los ítems están formados por enunciados, no por adjetivos)

Para ver las diferencias en las escalas de Thurstone, Likert y Guttman, hay que considerar
que: a) la actitud existe a lo largo de un continuo subyacente; b) que el punto medio del continuo
indica un cambio en la dirección de la actitud y c) que la distancia desde el punto medio en una u
otra dirección indica la intensidad de la misma:

 En la escala de Likert, los enunciados de los ítems se sitúan en los dos extremos del
continuo (actitud + o -) y se excluyen los ítems cuyos enunciados puedan ser interpretados
como representantes de los puntos del continuo situados alrededor del punto medio. (En la de
Thurstone y Guttman, se deben incluir ítems que cubran todo el continuo de la actitud)
 La escala de Guttman es acumulativa ( ≠ Thurstone). Una respuesta + a un ítem implica
una respuesta + a todos los ítems que están situados a la izquierda del ítem. El supuesto que
asume es que las respuestas + a los ítems deben estar reunidas todas alrededor de un punto
concreto del continuo.
 La escala de Thurstone asume un nivel de medida de intervalos (las otras dan lugar a
escalas ordinales). La selección de los ítems definitivos se basa en los valores asignados por
los jueces a cada uno de los ítems (en las otras técnicas se aplica la escala a un muestra
representativa)

De estas técnicas, la de Likert es la más utilizada.


Ventajas: rápidas de administrar y puntuar; se pueden medir la mayoría de las actitudes; dan
información fiable.
Inconvenientes: facilidad para dar respuestas falsas, socialmente deseables; los intervalos entre
los puntos de la escala no representan cambios iguales en la actitud medida en todos los sujetos.

R. MEDRANO (TUTOR) Página 10


PSICOMETRÍA ORIENTACIONES PARTE I (INSTRUMENTOS MEDICIÓN)

R. MEDRANO (TUTOR) Página 11


PSICOMETRÍA ORIENTACIONES PARTE II (PROPIEDADES MÉTRICAS)

2ª PARTE: EVALUACIÓN DE LA PROPIEDADES MÉTRICAS DE LOS


INSTRUMENTOS DE MEDICIÓN PSICOLÓGICA

TEMA Nº 4  LA FIABILIDAD DE LAS PUNTUACIONES.

1.- INTRODUCCIÓN 

La Evaluación de la calidad global del test incluye: la


evaluación de la precisión y estabilidad de las medidas
(fiabilidad) y la pertinencia de las inferencias realizadas a
partir de las puntuaciones obtenidas (validez)

Fiabilidad y precisión de la medida  se analiza hasta qué


punto las puntuaciones obtenidas por los sujetos, en la
prueba que se les ha aplicado, están afectadas por errores
de medida y en qué cuantía. Un requisito básico de cualquier
teoría de la medición es la fiabilidad y precisión de los
instrumentos utilizados para medir una determinada
característica.

2.- EL MODELO LINEAL DE SPEARMAN:


La puntuación empírica obtenida por un sujeto en un test (X), es una combinación lineal de la
puntuación verdadera (V) y el error de medida (E)  X = V + E

Supuestos del modelo lineal (Spearman)

1º Supuesto La puntuación verdadera (V) es la esperanza matemática (media) de las


V = E (X) puntuaciones empíricas

2º Supuesto La correlación entre las puntuaciones verdaderas de “n” sujetos en un test y los
r ve = 0 errores de medida = 0 (no hay relación entre ellas)

3º Supuesto La correlación entre los errores de medida (re1 re2) que afectan a las puntuaciones
re1 re2 = 0 de los sujetos en dos test diferentes (X1 y X2) es = 0

De estos supuestos se obtienen las siguientes deducciones

E = X – V  Error de medida = diferencia entre Punt. Empírica y Punt. Verdadera

E(e) = 0  La esperanza (media) de los errores de medida es = 0

X = V  La media de las Punt. Empíricas = la media de las Punt. Verdaderas

Cov (V, E) = 0  La covarianza entre las Punt. Verdaderas y los Errores = 0

S2X = S2V + S2e 


La Var de las Punt. Empíricas = Suma de la Var de Punt. Verdaderas y de los errores

Cov (X,V) = Sv² 


La covarianza entre las Punt. Empíricas y Verdaderas = La Var de las Punt. Verdaderas

r xe = Se / Sx 
La correlación entre las Punt. Empíricas y los errores = cociente entre la Desv. Típica de los errores
y la Desv. Típica de las Punt. Empíricas.

Cov (X1, X2)= Cov (V1,V2) 


Covarianza entre las Punt. Empíricas de dos test = Covarianza entre las Punt. Verdaderas

R. MEDRANO (TUTOR) Página 1


PSICOMETRÍA ORIENTACIONES PARTE II (PROPIEDADES MÉTRICAS)

3.- TEST PARALELOS (CONDICIONES DE PARALELISMO)

Si a una misma muestra se aplican dos test (X y X´) podemos considerar que son paralelos sí además
de los supuestos anteriores se cumplen las (condiciones de paralelismo):

1º Supuesto
X = V + E // X´= V + E´ Las puntuaciones verdaderas de los sujetos son iguales en ambos test

2º Supuesto
S2e = S2e´ La varianza de los errores de medida es la misma en ambos test
De estas dos condiciones de paralelismo se obtienen las siguientes deducciones:

X =V+ E=V⇒ X =V X = V+ E= V⇒ X =V
La media de las puntuaciones de dos test paralelos es la misma

S x2 = S x2´ ; S x2 = Sv2 + S e2 ; S x2´ = Sv2 + Se2´


Las varianzas de las puntuaciones de dos test paralelos son iguales
SV2
rXX ´ = rXV
2
= La correlación entre las Puntuaciones Empíricas obtenidas en dos test paralelos
S X2
es igual al cuadrado de la correlación entre Punt. Empíricas y Punt. Verdaderas

rX1 X 2 = rX1 X 3 = rX 2 X 3 = .... = rX j X k En dos o más test paralelos las intercorrelaciones entre cada dos
de ellos son iguales.

4.- INTERPRETACIÓN TEÓRICA DEL COEFICIENTE DE FIABILIDAD

El coeficiente de fiabilidad de un test rXX’ es la correlación entre las puntuaciones empíricas


obtenidas por una muestra de sujetos en dos formas paralelas:

S2 Coeficiente de fiabilidad del test  rXX´ = (S2V / S2X)


rXX ´ = V2 Si rxx’ = 1  el error de medida es 0, fiabilidad perfecta.
SX Si rxx’ = 0  varianza de errores igual a varianza de puntuaciones empíricas.
___
Índice de fiabilidad del test  rXV = SV / SX = √ rXX´
rXV = correlación entre las puntuaciones empíricas y las puntuaciones verdaderas

Índice de fiabilidad del test  Se2


rXX ´ = rXV
2
⇒ rXV = rXX ´ ⇒ rXX ´ = 1′ − 2 = 1 − rxe2
SX

S e2 Se
⇒ rXX ´ = 1′ − = 1 − rxe2 ⇒ rxe = ⇒ rxe = 1 − rxx´ 
SX2
SX
Es decir, la correlación entre las puntuaciones empíricas y los errores de medida (r XE) se puede
obtener a partir de la correlación entre las puntuaciones obtenidas por los sujetos en las dos
formas paralelas del test.

1 − rxx´  Es la proporción de la desviación típica de las puntuaciones que se debe a la


desviación típica de los errores. El coeficiente de fiabilidad (definido según el modelo clásico
de Spearman) nos da información para estimar la cuantía del error de medida.

R. MEDRANO (TUTOR) Página 2


PSICOMETRÍA ORIENTACIONES PARTE II (PROPIEDADES MÉTRICAS)

EL PROBLEMA DEL ERROR DE MEDIDA:

En Psicometría el error de medida se define como la diferencia entre la puntuación empírica obtenida
por un sujeto en un test y su puntuación verdadera (entendiendo por test cualquier instrumento de
medición psicológica). Al aplicar “n” veces un test a un sujeto sus puntuaciones serán muy parecidas
pero no iguales (es conveniente construir pruebas que den lugar al mínimo error de medida posible)

No siempre los errores son debidos al instrumento de medición, también se deben a cambios que se
producen en el sujeto y que pueden atribuirse a diversas razones: motivación, condiciones físicas o el
mero azar; se trata de errores aleatorios e impredecibles con los que hay que contar y que hay que
tratar de controlar para que no interfieran en las predicciones que podemos hacer sobre la capacidad
del sujeto.

5.- TIPOS DE ERRORES DE MEDIDA 

Error de medida (E = X – V)  diferencia entre las puntuaciones empíricas y las puntuaciones


verdaderas. El error de medida nos da una medida individual del error que se comete (una medida
individual de la precisión del test). Nos indica la diferencia entre la puntuación de un sujeto en un test y
el nivel real de dicho sujeto en la variable que medimos.

Error Típico de medida (medida grupal)


_______
Se = Sx √ 1 – rXX´ (En puntuaciones directas y diferenciales)
______
SZe = √ 1 – rXX´ (En puntuaciones Típicas)

ERROR TÍPICO DE ESTIMACIÓN DE LA PUNTUACIÓN


ERROR DE ESTIMACIÓN VERDADERA (Desviación típica de los errores de
DE LA PUNTUACIÓN VERDADERA estimación)

E = V – V´ Punt. Directas y Diferenciales 


______ ___ ___
Diferencia entre la puntuación SVX = Sx √ 1 – rXX´ √ rXX´ = Se √ rXX´
verdadera y la pronosticada por la ______ ____ ____
regresión. Punt. Típicas  SZV, ZX = √ 1 – rXX´ √ rXX´ = SZe √ rXX´

ERROR TÍPICO DE SUSTITUCIÓN O DE LA DIFERENCIA


ERROR DE SUSTITUCIÓN ENTRE LOS DOS TEST PARALELOS (Desviación típica
de los errores de sustitución)
E = X1 – X2
Punt. Directas y Diferenciales 
Error que se comete al sustituir las ______ __ __
puntuaciones del test X1 por las SX1-X2 = Sx √ 1 – rXX´ √ 2 = Se √ 2
obtenidas en un test paralelo X2 _______ __ __
Punt. Típicas  SZ1-Z2 = √ 1 – rXX´ √ 2 = SZe √ 2

ERROR DE PREDICCIÓN ERROR TÍPICO DE PREDICCIÓN (Desviación típica de


los errores de predicción)
E = X1 – X´1
SX1 _ _ Punt. Directas y Diferenciales 
X´1 = r12 ------ (X2 – X2 ) + X1 ______ ______ _______
SX2 SEP = Sx √ 1 – rXX´ √ 1 + rXX´ = Se √ 1 + rXX´

Diferencia entre puntuaciones _______ _______ ____


obtenidas en un test (X1) y las Punt. Típicas  SZEP = √ 1 – rXX´ √ 1 + rXX´ = SZe √ rXX´
pronosticadas en ese mismo test (X
´1) a partir de una forma paralela X2

FACTORES QUE AFECTAN A LA FIABILIDAD

R. MEDRANO (TUTOR) Página 3


PSICOMETRÍA ORIENTACIONES PARTE II (PROPIEDADES MÉTRICAS)

La fiabilidad depende de:


 La variabilidad del grupo
 La longitud del test
 Las características de los ítems

Longitud del test (Ecuación de Spearman-Brown) Cuanto más ítems representativos se utilicen,
habrá mayor información del atributo que estudiamos, menor error y mayor fiabilidad (al aumentar la
longitud del test, aumenta su fiabilidad)

Ecuación de Spearman-Brown (se refiere al caso en que se quiere aumentar la longitud del test
inicial n veces):

CASO GENERAL 
Relaciona la fiabilidad y la longitud cuando RXX´ = coeficiente de fiabilidad del test alargado
los ítems a añadir son paralelos o acortado.
n rXX´ n rXX´ n = número de veces que se aumenta o
RXX´ = ---------------------- = --------------------- disminuye la longitud del test.
1+ n rXX´ - rXX´ 1 + (n – 1) rXX´ rXX´ = coeficiente de fiabilidad del test inicial.

CASO DE LONGITUD DOBLE  CÁLCULO Nº DE VECES QUE AUMENTA O


DISMINUYE LA LONGITUD DE UN TEST 
2 rXX´
RXX´ = ---------------- RXX´ (1-rXX´) nº elementos finales
1+ rXX´ n = -------------------- n=
-------------------------------
rXX´ (1- RXX´) nº elementos iniciales

RELACIÓN ENTRE VARIANZAS EMPÍRICA Y VERDADERA (TEST MODIFICADO Y TEST INICIAL)

S2V = n2s2V S2X = ns2X [1 + (n – 1) rXX´]

S2V = Varianza de las puntuaciones verdaderas en el test modificado.


n = nº de veces que se aumenta o disminuye la longitud del test inicial.
s2V = Varianza de las puntuaciones verdaderas en el test inicial.
S2X = Varianza de las puntuaciones empíricas en el test modificado.
s2X = Varianza de las puntuaciones empíricas en el test inicial.
rXX´ = coeficiente de fiabilidad del test inicial.

Variabilidad de la muestra  Cuanto más homogéneo sea el grupo, menor es el coeficiente de


fiabilidad y la desviación típica de las puntuaciones empíricas.

El error típico de medida es constante 


Se1 = error típico de medida en el grupo 1
S2e1 = S2e2 = S2e Se2 = error típico de medida en el grupo 2
S21 (1 – r11) = S22 (1 – r22) Se = error típico de medida del test
S21 = varianza empírica puntuaciones en el grupo 1
S21 S2e S22 = varianza empírica puntuaciones en el grupo 2
r22 = 1 - ------- (1 – r11) = 1 - ------- r11 = coeficiente fiabilidad grupo 1
S22 S2X r22 = coeficiente fiabilidad grupo 2

LA FIABILIDAD COMO EQUIVALENCIA Y COMO ESTABILIDAD DE LAS MEDIDAS

R. MEDRANO (TUTOR) Página 4


PSICOMETRÍA ORIENTACIONES PARTE II (PROPIEDADES MÉTRICAS)

Un test debe cumplir dos premisas:

 Medir el rasgo que pretende (ser válido)


 Las puntuaciones obtenidas deben ser estables y precisas.

La precisión consiste en estar libre de errores; la estabilidad en que en distintas ocasiones y en


condiciones parecidas el rasgo no cambie. La fiabilidad del test es la estabilidad de las medidas. Se
pueden considerar dos métodos basados en la estabilidad para calcular el coeficiente de fiabilidad:

 Método de las formas paralelas.


 Método test-retest.

MÉTODO DE LAS FORMAS PARALELAS

Se construyen dos formas paralelas de un test X y X’ y se aplican a una muestra de sujetos


representativa de la población. Por último, se calcula el coeficiente de correlación de Pearson
entre las dos formas paralelas del test.

N ∑ X1 X 2 − ∑ X1 ∑ X 2
rxx ' = rx1x2 = X1 y X2: Puntuaciones
obtenidas en cada una
 N X2−
 ∑ 1 (∑ X 1 )   N ∑ X 22 − (∑ X 2 ) 
2 2
de las formas.
  
El coeficiente de fiabilidad también se llama coeficiente de equivalencia.

Ventaja: Si las pruebas se presentan a la vez hay mayor control.


Inconveniente: Dificultades que conlleva construir dos formas paralelas.

MÉTODO TEST-RETEST

Se aplica el mismo test en dos momentos diferentes:

N ∑ X1 X 2 − ∑ X∑ X X1 y X2: Puntuaciones
rX X ´ = rx1x2 = 1 2
obtenidas en cada
 N X2 − ( ∑ X )   N ∑ X − ( ∑ X 2 ) 
 ∑ 1
1 1 2 2 2
aplicación.
1
  2

El coeficiente de fiabilidad así obtenido se llama coeficiente de estabilidad.

Ventaja: No necesita dos o más formas distintas del miso test.


Inconvenientes:
 Posible memorización de ítems que puede interferir la 2ª aplicación.
 Intervalo de tiempo entre aplicaciones (sería deseable incrementar el tiempo entre
aplicaciones para minimizar el efecto aprendizaje o memoria; si éste es muy elevado
pueden variar factores sociales, afectivos o evolutivos que inciden en la fiabilidad)
 La actitud del sujeto (si cambia el grado de cooperación, puede obtener una
puntuación más alta o más baja que afecta al coeficiente de fiabilidad haciéndolo más
bajo o más alto)

El cálculo es idéntico en las dos formas. La única diferencia es que en lugar de aplicar dos formas, en
el test – retest emplea la misma en dos momentos diferentes.

R. MEDRANO (TUTOR) Página 5


PSICOMETRÍA ORIENTACIONES PARTE II (PROPIEDADES MÉTRICAS)

LA FIABILIDAD COMO CONSISTENCIA INTERNA

A veces sólo se puede aplicar una vez el test, por lo que no es posible utilizar los métodos anteriores.
Los siguientes métodos se utilizan para estimar la fiabilidad de un test (sólo requieren una aplicación y
aportan un índice de la consistencia interna de las respuestas de los sujetos):

 Métodos basados en la división del test en dos mitades


 Métodos basados en la covariación de los ítems
 Coeficientes basados en el análisis factorial de los ítems
 Coeficiente Beta (β) de Raju

MÉTODOS BASADOS EN LA DIVISIÓN DEL TEST EN DOS MITADES 


La ventaja respecto a los anteriores es que al considerar sólo las puntuaciones de un test, la fiabilidad
no se ve afectada por otros factores como el intervalo de tiempo, aprendizaje, memoria, etc. Y,
además, se consigue ahorro de tiempo y esfuerzo.

Procedimiento: Se aplica el test a una muestra y se divide el test en dos mitades, calculando la
correlación entre ellas y aplicando una fórmula de corrección. Las divisiones deben ser similares en
dificultad y contenido para que la correlación se aproxime al valor máximo posible.

Hay varias formas de hacer la división:


 Se realiza n/2 (primeros ítems una mitad y los últimos n/2 ítems como la segunda). El
inconveniente deriva de que en algunos tests la complejidad de los ítems se va incrementando y
las partes no serían equivalentes.
 Los pares por un lado y los impares por otro (la más utilizada)
 Ordenar según el grado de dificultad y dividirlos en pares e impares.
 Asignación de ítems al azar a ambas mitades.

Cuando se utiliza el método de la división del test en dos mitades, la fiabilidad se puede estimar
mediante las siguientes fórmulas: Spearman-Brown, Rulon, Guttman-Flanagan.

Ecuación de Spearman-Brown (dos mitades paralelas): se basa en la relación entre longitud


de un test y coeficiente de fiabilidad. Se aplica el test, se divide en dos mitades paralelas y se
calcula la correlación entre ambas partes (sería el coeficiente de fiabilidad de cada mitad); para
calcular la fiabilidad des test completo:
2rXX
RXX = RXX´ = coeficiente de fiabilidad del test total (cuando se duplica su longitud)
1 + rXX rXX´ = r12 = coeficiente de fiabilidad de cada una de las mitades.

Fórmula de Rulon: Se usa cuando, no siendo las dos mitades estrictamente paralelas, podemos
considerarlas τ -equivalentes (según Lord y Novick son los test en los que las puntuaciones
verdaderas son iguales para un grupo de sujetos en ambas formas, pero las varianzas de error
no tienen por qué ser iguales). Asimismo, los test esencialmente τ -equivalentes son aquellos
en los que la puntuación verdadera de cada sujeto en uno de los tests es igual a la del otro más
una constante. En ambos casos se supone la igualdad de las varianzas verdaderas de ambas
mitades.

S2d S2p-i
rXX´ = 1 - ------- = 1 - -------- d = diferencias entre puntuaciones pares e impares de cada
S2X S2 X sujeto.
S2d = S2p-I = varianza de la diferencia entre las puntuaciones pares
S2d = [∑d2 / N – (∑d / N)2] e impares.
S2X = varianza de las puntuaciones empíricas de los sujetos.
S2d = S2p-I = S2p + S2i – 2rpi Sp Si rpi = correlación entre las puntuaciones de las dos mitades.

R. MEDRANO (TUTOR) Página 6


PSICOMETRÍA ORIENTACIONES PARTE II (PROPIEDADES MÉTRICAS)

Fórmula de Guttman-Flanagan: equivalente a Rulon pero más sencilla. Rulon y Guttman-


Flanagan proporcionan el mismo valor de fiabilidad por ser expresiones equivalentes.

 S p2 + Si2  S2p y S2i = varianza de las puntuaciones en los ítems pares e impares.
Rxx = 2  1 − ÷÷
 S 2 S2X = varianza empírica del test total.
 x  rpi = correlación entre las puntuaciones

rXX´ = (4 rpi Sp Si) / S2X

MÉTODOS BASADOS EN LA COVARIACIÓN DE LOS ÍTEMS 


Requiere análisis de la varianza y la covarianza de las respuestas de los sujetos a los ítems
(proporciona una estimación de la consistencia interna de los ítems de un test). Los métodos más
frecuentes bajo estas condiciones son: el coeficiente alfa de Cronbach y los coeficientes KR 20 y
KR21 de Kuder-Richardson (se consideran casos particulares del coeficiente alfa de Cronbach cuando
los ítems que forman el test son dicotómicos)

Coeficiente α de Cronbach: Es un indicador de la consistencia interna. Expresa la fiabilidad en


función del nº de ítems y de la proporción de la varianza total del test debida a la covariación
entre los Ítems. A mayor covariación mayor fiabilidad.

 n

n 
 ∑∑ cov ( jk ) ÷
n  n ( r1 )  n  Sx − ∑ S j 
2 2
n  ∑ S 2j 
α = j≠ k
÷ =   =  ÷÷ =  1 − ÷
n − 1 2
Sx ÷ n − 1  1 + ( n − 1) r1  
n − 1 2
Sx n− 1 S x2 ÷
 
 ÷
 

n = nº de elementos del test.


∑ S = Suma de las varianzas de los elementos.
2
j
n ∑ S2j
∑ ∑ cov( jk ) = Suma de las covarianzas de los ítems α = ------- [ 1 - -------- ]
S x2 = Varianza de las puntuaciones en el test. n-1 S2X
r1 = Cociente entre la covarianza media de los ítems y su varianza media

Estimador insesgado de α  Alfa como límite inferior del coeficiente de


fiabilidad  α es una estimación del límite inferior
(N – 3) ά + 2 del coeficiente de fiabilidad siendo menor o igual
ã = ----------------------- que el coeficiente de correlación  (α ≤ rXX´)
N–1 α = rxx  Cuando los ítems son paralelos.
ά = Valor de alpha de Cronbach. Otro estimador del límite inferior del coeficiente de
ã = Estimador insesgado. fiabilidad es el coeficiente delta propuesto por
N = nº de sujetos de la muestra. Guttman (δ3):
n
Aumentando el número de sujetos alpha y
n 2
S  n− 1
∑ ∑ Cov ( j, k )
su estimador insesgado se aproximan. Son δ 3 = 1 −  ∑ j
2
+

iguales cuando N tiende a infinito (a partir  j= 1xS  S x2
de 100)

R. MEDRANO (TUTOR) Página 7


PSICOMETRÍA ORIENTACIONES PARTE II (PROPIEDADES MÉTRICAS)

Inferencias sobre α  De los problemas de las inferencias de alpha se desarrolló la teoría muestral
para el coeficiente alpha. Kristof y Feldt derivaron un estadístico de contraste del coeficiente alpha que
se distribuye según una F de Snedecor, para determinar el intervalo confidencial de α en la población.

Inferencias para un solo valor de α  Para F se distribuye son N-1 y (n-1) · (N-1) gl.
saber si α toma un determinado valor en la α = valor propuesto en la hipótesis para la población.

población o para saber entre que valores se α = Valor alfa obtenido en la muestra.
encuentra α en la población usamos: N = nº de sujetos // n =nº de ítems.
1− α Se trata de comprobar si F empírica se encuentra
F= 
1− α entre los valores F teóricos obtenidos con los gl
y el nivel de confianza.
Inferencias (muestras independientes) 
W se distribuye según la F con (N1 - 1) y (N2 -1) g.l.
 
Dos muestras: W (comprueba H0: α1 = α2) α 1 y α 2 = valores del coeficiente α en cada muestra.
 N1 y N2 = nº de sujetos de cada muestra.
1− α 1
W = 
1− α 2
UX1= distribución χ 2 con n-1 gl.
K = nº muestras.
“K” Muestras: UX1 )
2
α i = Valor del coeficiente α para cada muestra.

( 1 − α i ) 3 − u 
n
) −1 u = Media de los coeficientes transformados.
∑  
( )
− 1/ 3
UX 1 = n 1 − αµi
u= ∑
2
S
i= 1 n
S = Media aritmética de las varianzas de cada
n
S2 ~ N (n )
muestra. S = ∑ i Ni = i i− 1
2

i= 1 n ni + 1
2 Ni = nº de sujetos en cada muestra
Siendo  Si =
2
~ ni = nº de ítems en cada test.
9( N − 1)(1 − αˆ i ) 2 / 3
Inferencias (muestras dependientes)  En
algunos diseños se pueden administrar distintas t = Distribución t de Student (N-2) gl.
pruebas a la misma muestra, con lo que los
coeficientes son dependientes y debemos emplear
αµ1 y α¶ 2 = valores del coeficiente alfa
otro tipo de contrastes: N = número de sujetos de la muestra.
rx21x2 = Correlación de puntuaciones en los 2 test.
Dos muestras: (N · n ≤ 1000)

UX2 = Distribución χ con (k-1) gl.


2
(αˆ 1 − αˆ 2 ) ( N − 2)
t=
[4(1 − αˆ )(1 − αˆ ]
K = nº de tests // N = nº sujetos.
)(1 − rx21x 2 ) 
1 2 α i = Valor de los coeficientes α.
S2 y u = Medias de los coeficientes transformados y
“K” Muestras:
las varianzas de cada muestra
n
[1]
∑ n(1 − αˆ ) Si2
n
k
 ) − 13 
2
u = S2 = ∑
∑  ( 1 − α i ) − u  i=1 i
1/ 3
i= 1 n
UX 2 = i= 1

S2 − C 2
Donde  Si
2
= ~
9( N − 1)(1 − αˆ i ) 2 / 3
Donde  C = Media de las covarianza Sij. n
~ N (n~ − 1 ) ñ=
2rij2 N =
n
1

y
C= ~ n~ + 1
( )
9 N − 1 (1 − αˆ i ) (1 − αˆ j )
1/ 3 1/ 3
i= 1 ni
ni = nº de ítems de cada test.

R. MEDRANO (TUTOR) Página 8


PSICOMETRÍA ORIENTACIONES PARTE II (PROPIEDADES MÉTRICAS)

Casos particulares del coeficiente α (KR20 y KR21) ecuaciones de Kuder-Richardson (se


consideran casos particulares del coeficiente alfa de Cronbach cuando los ítems que forman el
test son dicotómicos; es decir, se puntúa 1 acierto y 0 fallo). A mayor nº de ítems y mayor
covariación, mayor consistencia interna y mayor fiabilidad.
X2
X−
KR20 =
n 
1−
∑ p h qh 
 KR21 =
n
(1 − n )
n − 1  S x2  n− 1 S x2
n = nº elementos del test.
Ph = proporción de aciertos en el elemento h. n = nº de elementos del test
qh = proporción de errores en el elemento h. S x2 = varianza del test
ph qh = varianza del elemento h.
S x = varianza total del test.
2 X = media de las puntuaciones empíricas

COEFICIENTES BASADOS EN EL ANÁLISIS FACTORIAL DE LOS ÍTEMS 


Los coeficientes Theta (θ) y Omega (Ω) son dos indicadores de la consistencia interna de los ítems
de un test y una aproximación al coeficiente α. (En general  α ≤ θ ≤ Ω)

n 1 Coeficientes Omega 
Coeficientes Theta θ = (1 − ) n n
n− 1 λ1
∑ S − 2
j ∑ S 2j h 2j
Ω = 1− j= 1 j= 1
Ω = 1−
n− ∑h 2
j
n = nº de ítems del test. n n
n + 2∑ r h
λ1 = primer auto valor de la matriz factorial ∑∑ cov( X j , X h ) j

(varianza explicada por el primer factor antes de j = 1 h= 1


j≠ h
la rotación).
El coeficiente θ indica la ∑ S 2j = Suma de las varianzas de los ítems.
unidimensionalidad de los ítems. Cuanto h2j = Comunalidad estimada del ítem j.
mayor sea la varianza que explica el primer
factor, mayor será el valor θ y la ∑∑ Cov ( X j , X h ) = Suma de las covarianzas entre
intercorrelación de los ítems (implica que se los ítems j y h.
distribuyen en torno a una sola dimensión) rjh = Correlación entre j y h.

Cuando los datos son paralelos se verifica  α = θ = Ω

COEFICIENTE BETA (β) DE RAJU  Facilita una estimación de la fiabilidad de un test compuesto de
varios subtest con distinto nº de ítems (con el alfa de Cronbach no es posible). Se aplica cuando no
conocemos las puntuaciones de los sujetos en los ítems de los distintos subtest; en caso de
conocerlos, es preferible emplear el coeficiente α.

k k = nº de subtests.
S x2 − ∑ j= 1
S 2j S x2 = Varianza del test.
β =
 S 2j = Varianza de cada subtest.
 nj  
2
k
S x2  1 −
 ∑j = 1  n ÷ ÷÷ nj = nº de ítems de cada subtest.
    n = nº de ítems del test.

ESTIMACIÓN PUNTUACIÓN VERDADERA DE LOS SUJETOS EN EL ATRIBUTO DE INTERÉS

R. MEDRANO (TUTOR) Página 9


PSICOMETRÍA ORIENTACIONES PARTE II (PROPIEDADES MÉTRICAS)

No se puede calcular el valor exacto de la puntuación verdadera de un sujeto, pero si podemos


establecer un intervalo confidencial, con un determinado nivel de confianza, dentro del cual se
encontrará dicha puntuación. La estimación se puede realizar de tres formas:

1.- Estimación mediante la desigualdad de Chebychev (cuando no se hace ningún supuesto sobre la
distribución de las puntuaciones empíricas o de los errores)

1
1− = Nivel de confianza utilizado
K2
1
∀K {
P X−V }
≤ K ( Se ) ≥ 1 − K2
Se = error típico de medida.

X ± (K · Se)  (LINF y LSUP)

2.- Estimación basada en la distribución normal de los errores: Asume una distribución normal de
los errores de medida (con media 0 y varianza S 2e) y de las puntuaciones empíricas condicionadas a un
determinado valor de V. Pasos para determinar el intervalo:

Se fija un nivel de confianza y se determina Zc (buscar en tablas)


Se calcula el error típico de medida Se.
Se = S x 1 − rxx  Para puntuaciones directas o diferenciales.
S ze = 1 − rxx  Para puntuaciones típicas.
Calcular el error de medida máximo (está afectado por el nivel de confianza)  Emax = Zc · Se
Calcular el intervalo confidencial  IC = X ± Emax

3.- Estimación basada en el modelo de regresión: mientras que la correlación entre las puntuaciones
verdaderas y los errores de medida es igual a cero (rVE = 0); la correlación entre las puntuaciones
empíricas y los errores de medida se ve afectada por los errores rxe = 1 − rxx ≥ 0
Valor máximo cuando la fiabilidad del test es nula (rXX´ = 0)  Puntuaciones empíricas = Errores
Valor mínimo cuando la fiabilidad del test es perfecta (rXX´ = 1)  Punt. Empíricas = Punt. Verdaderas
El intervalo de confianza se hace sobre la puntuación verdadera estimada por regresión lineal:

Ecuaciones de regresión de V sobre X


Puntuaciones directas: V ´ = rxx X + ( X − rxx X ) V ´ = rxx ( X − X ) + X

Puntuaciones diferenciales: v' = rxx ⋅ x v ' = rxx ( X − X )

Puntuaciones típicas: Z v ' = rvx × Z x

FIABILIDAD DE UNA BATERÍA DE TESTS


Se trata de calcular la fiabilidad de la batería en función de los coeficientes de fiabilidad, varianzas y
covarianzas de los subtest que la forman.

∑ S2J - ∑ S2J rJJ


rtt = 1 - ------------------------
S2T
S2J = Varianza del subtest j // rJJ = coeficiente de fiabilidad del subtest j
S2T = Varianza de la batería total

R. MEDRANO (TUTOR) Página 10


PSICOMETRÍA ORIENTACIONES PARTE II (PROPIEDADES MÉTRICAS)

2ª PARTE: EVALUACIÓN DE LA PROPIEDADES MÉTRICAS DE LOS INSTRUMENTOS DE


MEDICIÓN PSICOLÓGICA

TEMA Nº 5  LA FIABILIDAD EN LOS TEST REFERIDOS AL CRITERIO.

1.- DEFINICIÓN Y OBJETIVOS DE LOS TESTS REFERIDOS A CRITERIO (TRC)

Tests referidos a normas (TRN): Su finalidad es describir al sujeto


en el continuo de algún rasgo, haciendo hincapié en las diferencias
individuales y expresando su posición relativa respecto al grupo
(denominado grupo normativo)

Test referidos a criterio (TRC): Su finalidad es construir y evaluar


test que permitan interpretar las puntuaciones en sentido absoluto,
sin referencia a ningún grupo, y describir con mayor precisión los conocimientos, habilidades y
destrezas de los sujetos en un dominio concreto de contenidos. Los test referidos a criterio se
pueden utilizar para dos tipos de objetivos:

 Estimar la puntuación de dominio de los sujetos


 Establecer estándares mediante puntos de corte (test de maestría)

Considerando el ámbito de los tests de maestría, un test se considera fiable, si tras su aplicación
a los mismos sujetos en distintas ocasiones, o la aplicación de dos formas paralelas, siempre se
clasifica a los sujetos en la misma categoría. Por esto, los métodos para calcular la fiabilidad de
los tests referidos a criterio (TRC) se pueden dividir en dos grupos:

A. Los que requieren dos aplicaciones del test (Coeficiente de Hambleton y Novick,
Coeficiente Kappa de Cohen e Índice de Crocker y Algina)
B. Los que requieren una sola aplicación del test (Método de Huynh, Método de Subkoviak y
Coeficiente de Livingston)

Los distintos métodos para el cálculo de la fiabilidad de los TRC se utilizan para establecer un
punto de corte que nos permite clasificar al sujeto en dos categorías: la de los sujetos que dominan
el criterio evaluado y la de aquellos que no lo dominan (el criterio es el punto de corte para
evaluar a los sujetos)  Las decisiones que se toman en función del punto de corte son muy
importantes para los sujetos aprobar o suspender, acceder a unos u otros estudios, etc. La
determinación del punto de corte es subjetiva (lo establecen los expertos)

Apunte histórico 

Los TRC tienen su origen en los trabajos de Flanagan y Nedelsky (introdujeron el concepto de
estándar absoluto y relativo respecto a las puntuaciones). La denominación TRC se debe a Ebel y
Glaser fue quien estableció la diferencia con los tests normativos. Según Hambleton, las
principales causas que generan su aparición son: conocer la eficacia de los programas educativos,
evaluar habilidades básicas, etc.

En los años 60, se intenta establecer el estatus de un sujeto respecto al dominio definido. En los
años 80, aparecen nuevos enfoques (“medición auténtica” o “evaluación de la ejecución” son
términos alternativos de la “medición referida a criterio”)

La definición más consensuada sobre los TRC se debe a Popham  Un test referido a criterio se
utiliza para evaluar el status absoluto del sujeto con respecto a algún dominio de conductas bien
definido.

R. MEDRANO (TUTOR) Página 1


PSICOMETRÍA ORIENTACIONES PARTE II (PROPIEDADES MÉTRICAS)

2.- DIFERENCIAS ENTRE LOS TESTS REFERIDOS NORMAS (TRN) Y CRITERIO (TRC)

DIFERENCIAS TEST REFERIDOS A NORMAS TEST REFERIDOS AL CRITERIO


(TRN) (TRC)

Sitúa al sujeto en el continuo de Permiten interpretar las puntuaciones


algún rasgo, haciendo hincapié en sentido absoluto (sin referencia), y
FINALIDAD en las diferencias individuales y describir mejor los conocimientos,
expresando su posición relativa habilidades y destrezas de los sujetos
respecto al grupo normativo. en un dominio concreto de contenidos.

Se delimitan al contenido o conductas


Los ítems suelen derivarse de y el uso pretendido del test.
alguna teoría de rasgos (no se Se especifica el dominio de contenido
CONSTRUCCIÓ hace tanto hincapié en los y la elaboración y análisis cualitativo
N DEL TEST contenidos) de los ítems.
Validez de contenido: se centra en la
relevancia y representatividad de los
ítems respecto al dominio específico.

Según objetivos del test y el propósito


Ítems de dificultad media y alto y finalidad del mismo. 2 objetivos:
CRITERIOS DE índice de discriminación para  Test referido a dominio: estimación
SELECCIÓN DE incrementar las posibilidades del de la puntuación dominio de los
ÍTEMS test para discriminar. sujetos → describe lo que una
persona puede hacer en un área de
Estimación de fiabilidad: contenido específico.
No permiten describir la  Test referido de maestría:
precisión de las puntuaciones establecer estándares mediante
individuales (los estándares puntos de corte → clasifica a los
determinan los puntos de corte) sujetos en las posibles categorías
excluyentes entre sí: éxito-fracaso,
trastorno-no trastorno.

EVALUACIÓN La puntuación del sujeto es un La puntuación es un estimador del


DE LOS indicador de su verdadera rendimiento del sujeto en el dominio.
SUJETOS puntuación en un rasgo latente. Tiene significado en términos
Sólo tiene significado en función absolutos.
del grupo normativo.

3.- LONGITUD DEL TEST

Número de ítems pequeños Número de ítems elevados

 Las puntuaciones tienen un valor limitado.  Se aseguran valores de probabilidad de


 La estimación de dominio será imprecisa. clasificación incorrecta mínimos.
 Clasificaciones inconsistentes y poco  No debe tener excesiva longitud
fiables, no indicativas de la maestría. (economía, limitaciones de tiempo, etc.)

Se pueden considerar dos maneras de reducir el número de errores sin aumentar la longitud del
test: Modelos bayesianos y tests computarizados.

Modelo de MIllman  Modelo binomial. Considera la proporción esperada de ítems que un sujeto
puede contestar correctamente para ser considerado apto y el error máximo a tolerar.

 n n  n¡  x n − x Pr ob( x p) = Probabilidad de que un sujeto con


Pr ob( x p) =  ÷ p x q n − x = ∑ 
( − )
÷÷ p q una puntuación p, conteste de forma correcta X
 x x  x ¡ n x ¡  ítems de un test con n ítems.

R. MEDRANO (TUTOR) Página 2


PSICOMETRÍA ORIENTACIONES PARTE II (PROPIEDADES MÉTRICAS)

Supuestos del modelo: Muestra aleatoria de ítems dicotómicos // La probabilidad de una


respuesta correcta por parte de un sujeto es constante para todos los ítems del test // Las
respuestas a los ítems son independientes unas de otras // Los errores se ajustan al modelo
binomial.

pc ( 1 − pc ) n = nº de ítems del test.


n= Pc = proporción de aciertos para ser considerado apto.
e2 e = error máximo admisible.

Ecuación para averiguar la longitud del test supuesta una proporción de aciertos

4.- FIABILIDAD EN LAS CLASIFICACIONES EN LOS TESTS REFERIDOS AL CRITERIO

ÍNDICES DE ACUERDO CON DOS APLICACIONES DEL TEST (CÁLCULO FIABILIDAD):

Coeficiente pc de Hambleton y Novick

Supone la utilización de la proporción de El valor máximo de pC = 1, que se obtiene


sujetos que consistentemente son cuando los sujetos son clasificados de la
clasificados dentro del grupo de maestría o misma forma con los dos tests.
no maestría como un índice de fiabilidad de
un test. El valor mínimo: es igual a la proporción
La proporción de sujetos consistentemente de clasificaciones consistentes que se
clasificados en ambos tests se expresa: espera por azar p a , valor que viene dado
n
n11 n 22 n
pc = ∑
i= 1
pi =
N
+
N
+ ...... + mm
N
en función de las frecuencias marginales
de la tabla N j
p i = proporción de sujetos clasificados en
ambas formas m NjNj
N = número de sujetos
n11 , n22 ,.......nmm = número de sujetos en
pa = ∑
j= 1 N2
cada casilla en los que ambos tests
coinciden al clasificarlos.

Coeficiente Kappa de Cohen


Este coeficiente puede expresarse en
Este coeficiente elimina del valor de la función de las frecuencias absolutas:
proporción de sujetos clasificados F − Fa
consistentemente el valor de la proporción de k = c
N − Fa
clasificación consistente esperada por azar
p − pa Fc : frecuencia observada clasificaciones
k = c coincidentes
1 − pa
Fa : frecuencia de coincidentes esperadas
Este coeficiente proporciona una medida por azar
de la consistencia de clasificación de los N : número total de sujetos
sujetos independientemente del posible valor
esperado por azar. Error típico de medida de K
Fa
Este valor oscila: Entre 1 (fiabilidad Se =
perfecta) y 0 (atribuida al azar) N ( N − Fa )
Después calcula el intervalo confidencial:
k ± Z x * Se

R. MEDRANO (TUTOR) Página 3


PSICOMETRÍA ORIENTACIONES PARTE II (PROPIEDADES MÉTRICAS)

Índice de Crocker y Algina

El índice p* es una alternativa al coeficiente p∗ = 1 cuando las decisiones son


Kappa.
totalmente consistentes.
Se basa en que la probabilidad mínima de
una decisión consistente es 0.50
Tiene lugar si las puntuaciones del test son p ∗ = 0 cuando las decisiones no son más
estadísticamente independientes y el punto consistentes que las que resultarían al usar
de corte está en la mediana de la tests estadísticamente independientes,
distribución conjunta de las puntuaciones cuyas puntuaciones presentan la misma
obtenidas en las dos aplicaciones. distribución y un punto de corte igual a la
p c − 0.50 mediana de la distribución común.
p∗ = = 2 pc − 1
1 − 0.50

ÍNDICES DE ACUERDO CON UNA SOLA APLICACIÓN DEL TEST (CÁLCULO FIABILIDAD):

Método de Huynh
PASOS 
Un solo test y una sola aplicación: Calcular la media, la varianza, el
procedimiento matemático sofisticado para coeficiente de correlación KR21 y
estimar la consistencia de clasificación. especificar el valor del punto de corte (c).

Método para pronosticar las puntuaciones de Calcular la puntuación típica Zx que


en un test “B” conocidas las puntuaciones de corresponde al valor del punto de corte,
una muestra de sujetos en una aplicación con una corrección de 0,5, y se acudir a las
(test “A”) tablas de curva normal para buscar el valor
P que deja por debajo la Z obtenida
Este método presupone que la distribución (C − 0.5 − X )
de puntuaciones es aproximadamente Zx =
Sx
normal y es adecuado cuando el número
de ítems es superior a 8 y la razón entre A partir de las tablas de Gupta se obtiene
la media de las puntuaciones de los la probabilidad PZZ de que dos variables
sujetos en el test y el número de ítems distribuidas normalmente con una
oscila entre 0,15 – 0,85. correlación KR21 sean menor que Z.
Por último, se calculan los valores p c y k
Nota: para utilizar KR21 los ítems del test p zz − p z2
deben tener la misma dificultad. p c = 1 + 2( p zz − p z ) k=
p z − p z2

Método de Subkoviak
PASOS 

Procedimiento con una sola aplicación Se obtiene la distribución de frecuencias.


cuando no es posible establecer una Se calcula la media y el coeficiente alfa del
forma paralela de un test, por lo que test.
simulan las puntuaciones de una segunda Se estima la probabilidad de que una
forma paralela al test. persona con una determinada puntuación
Estima bien los valores p c y k X responda correctamente a cada ítem:
 X  X
px = α  ÷ + ( 1 − α )  ÷
 n  n

R. MEDRANO (TUTOR) Página 4


PSICOMETRÍA ORIENTACIONES PARTE II (PROPIEDADES MÉTRICAS)

Coeficiente de Livingston

A diferencia de los anteriores, considera los α S x2 + ( X − C ) 2


errores cometidos al clasificar a un sujeto K 2
xv = 2
en el grupo que no le corresponde →
S x + ( X − C)2
estima más importantes los errores de α = coeficiente alfa // S x2 = varianza test
clasificación de los sujetos más distanciados C = punto de corte // X = media del test
del punto de corte de aquellos que están
más cerca del punto de corte.
A medida que el punto de corte se
distancia del valor de la medida del test,
Es más fácil cometer errores de clasificación 2
cuando un sujeto se encuentra muy cercano aumenta el valor de K xv .
al punto de corte. Cuando X ( media del test) = C ( punto de
corte)  K xv = α
2

Cuando α =1  K xv =1
2

5.- MÉTODOS PARA ESTIMAR EL PUNTO DE CORTE EN TESTS REFERIDOS A CRITERIO

Se suelen considerar dos tipos de puntos de corte (Muñiz, 1998): Puntos de corte relativos (se
establecen en función del grupo de sujetos evaluados) y Puntos de corte absolutos (se establecen
en función del constructo o materia objeto de estudio)

Los métodos utilizados para establecer el punto de corte son:


 Los métodos valorativos (evaluación que un grupo de expertos en los contenidos a evaluar,
con cierto entrenamiento y en número suficiente, llevan a cabo sobre los ítems de un test)
 Los métodos combinados (juicios que los expertos llevan a cabo sobre la competencia de
los sujetos en la materia que se evalúa, además de reunir los requisitos anteriores)
 Los métodos de compromiso (no sólo se basan en los conocimientos mínimos que el sujeto
tiene para superar el criterio, también incorpora la información relativa a la posición del sujeto
con relación a su grupo)

Métodos valorativos: Nedelsky, Angoff, Ebel y Jaeger

Método Nedelsky: se utiliza para fijar el punto de corte en los test de competencia mínima. Se
utiliza en el ámbito académico con test compuestos por ítems de elección múltiple. Los jueces
determinan las alternativas que un sujeto competente consideraría erróneas (ejemplo: 2 de 5) y
para ese ítem  La unidad dividida por el nº de alternativas que supone que el sujeto no ha
rechazado como erróneas, en nuestro caso, 1/3 = 0´33 (la media de todos los valores esperados
en cada ítem = Punto de corte)

Para eliminar los efectos del azar 


Pc = puntuación corregida
N-A N = número de ítems
Pc = A - -------------- A = media de los valores esperados
n–1 n = nº de alternativas de cada ítem.

Método Angoff: variante del método Nedelsky, se puede aplicar a toda clase de ítems (no sólo a
los de elección múltiple). Los jueces evalúan globalmente los ítems (probabilidad de que un sujeto
con competencia mínima responda correctamente a cada ítem del test)
Para calcular el punto de corte se suman los valores de las probabilidades establecidas por cada
uno de los jueces y se calcula la media.

R. MEDRANO (TUTOR) Página 5


PSICOMETRÍA ORIENTACIONES PARTE II (PROPIEDADES MÉTRICAS)

Método Ebel: similar al método de Angoff. Los jueces evalúan globalmente desde una doble
perspectiva: la dificultad del ítem (fácil, medio y difícil) y su relevancia (esencial, importante,
aceptable y dudoso). Se articula una matriz con 12 categorías en las que se ubican todos los ítems
del test  los jueces establecen el porcentaje de ítems que debería contestar un sujeto
mínimamente competente.

XC = puntuación correspondiente al punto de corte


p = proporción de ítems en cada casilla que el sujeto
Punto de corte  XC = ∑ p (M) mín. competente debería contestar correctamente.
M = media de los valore esperados
n = nº de ítems en cada celda.

Método Jaeger: otra variante del método de Angoff. Para determinar el punto de corte se precisan
tres sesiones: 1ª cada juez en cada uno de los ítems afirma (SI / NO) será contestado
correctamente por los sujetos mínimamente competentes; 2ª se calcula el número de ítems a los
que cada juez respondió con un SI y se facilita a los jueces; se repite el proceso inicial y cada juez
puede o no cambiar de opinión; 3ª se repite el proceso de la 2ª sesión.
Punto de corte  Mediana más baja de los diferentes grupos de jueces.

Métodos combinados: método del grupo límite y grupos de contraste.

Método del grupo límite (Zieky y Livingstone): los jueces, por acuerdo, definen tres niveles de
competencia (competente, límite y no competente). Después los jueces seleccionan a los sujetos
límite y se les aplica el test.
Punto de corte  Media o Mediana de las puntuaciones que han obtenido en el test los sujetos
límite competentes (la mediana es mejor porque no tiene en cuenta puntuaciones extremas)

Método de los grupos de contraste: los jueces clasifican a los sujetos en dos grupos (los que
son competentes y los que no lo son) y se les administra el test.

COMPETENTES NO COMPETENTES

Punto de corte 
Intersección de las distribuciones de
puntuaciones de ambos grupos
(Curvas Normales)
PUNTO DE CORTE

Métodos de compromiso: Beuk y Hofstee

Método de Beuk: los jueces tienen en cuenta las puntuaciones de los sujetos en el test en el que
estamos interesados en establecer un punto de corte y las respuestas a dos preguntas: 1ª
porcentaje mínimo de ítems que los jueces creen que un sujeto debería contestar correctamente
para superar el test y 2ª porcentaje de sujetos que estiman que obtendrán la puntuación mínima
para superar el test.

Método de Hofstee: Los jueces recogen información sobre cuatro puntos: el punto de corte que
los jueces consideran adecuado (porcentaje de ítem que los sujetos deben superar), el punto de
corte que los jueces consideran inadecuado (porcentaje máximo admisible de sujetos que fallan en
el test), el porcentaje mínimo admisible de sujetos que fallan en el test y la distribución de
resultados obtenidos en el test.

R. MEDRANO (TUTOR) Página 6


PSICOMETRÍA ORIENTACIONES PARTE II (PROPIEDADES MÉTRICAS)

2ª PARTE: EVALUACIÓN DE LA PROPIEDADES MÉTRICAS DE LOS INSTRUMENTOS DE


MEDICIÓN PSICOLÓGICA

TEMA Nº 6  VALIDEZ DE LAS INFERENCIAS I

Para poder medir variables psicológicas, constructos teóricos,


variables latentes o atributos psicológicos es necesario seleccionar
una serie de conductas que representen algún aspecto de ese
constructo y que sean consideradas indicadores del mismo.
Entre los requisitos que deben cumplir los instrumentos elaborados
para medir estas conductas, destacan dos fundamentales:
 Que proporcionen medidas fiables
 Que se puedan hacer inferencias válidas a partir de esas
medidas fiables.
Fiabilidad de las medidas  Grado en que las puntuaciones
obtenidas al aplicar un test reflejan su nivel real en el rasgo o
característica medida (grado en que esas puntuaciones están
libres de errores aleatorios)
Validez de las inferencias  Grado de relación que se puede
establecer entre la evidencia empírica obtenida y el concepto
teórico que se tiene del constructo.

1.-INTRODUCCIÓN AL CONCEPTO DE VALIDEZ Y SU EVOLUCIÓN HISTÓRICA

El concepto de validez hace referencia al grado en que el test mide aquello que pretende medir.
En la medida en que la relación entre el test y el constructo que pretende medir sea más estrecha,
el test será más válido.
La relación entre el test y el constructo alude a la relación entre las puntuaciones obtenidas por
los sujetos en el test y la medida obtenida en el indicador o indicadores del constructo. Hasta los
años 50 del siglo pasado, la forma de operativizar la relación entre el test y el criterio era
mediante un coeficiente de correlación.

Evolución histórica 

Validez relacionada con criterios externos:


 Validez predictiva (Un test era válido en la medida en que existiera correlación entre las
puntuaciones obtenidas por los sujetos en el test y las obtenidas en el criterio externo
seleccionado)
 Validez concurrente (se diferencia de la validez predictiva en que la recogida de la
información tanto del test como del criterio se hace simultáneamente)
 Validez retrospectiva (cuando se puede obtener la medida del criterio con anterioridad a la
del test)
Validez relacionada con criterios internos:
 Validez de contenido (la validez relacionada con criterios internos al propio test. Utilizada
sobre todo en los test de conocimientos que tratan de estudiar hasta qué punto a partir del
contenido de los test, se puede inferir el rendimiento en una determinada materia; el test en
sí mismo constituye su propio criterio)
 Validez de constructo (implica recoger toda la información necesaria para poder tener la
garantía suficiente de que las conductas observables, que se han elegido como indicadores
del constructo que se quiere medir, lo son realmente)

Posteriormente, los tipos de validez se reducen a tres  Validez de contenido (determinar el


rendimiento o actuación de un sujeto en un universo de situaciones); Validez relativa al criterio
(incluye la concurrente y la predictiva) y validez de constructo (inferir el grado en el que un sujeto
posee algún rasgo o atributo que se supone vendrá reflejado por su ejecución en el test)

R. MEDRANO (TUTOR) Página 1


PSICOMETRÍA ORIENTACIONES PARTE II (PROPIEDADES MÉTRICAS)

1974  Se afirma por primera vez que la validez se refiere a la adecuación de las inferencias que
se realizan a partir de las puntuaciones de los test u otras formas de medida. Se mantiene la
distinción de los tres tipos de validez y se consideran formas independientes de interpretar las
inferencias realizadas.

1999 (concepción unitaria de validez)  La validez hace referencia al grado en que la evidencia
empírica obtenida y los conocimientos aportados por las teorías apoyan las inferencias que se
hagan a partir de las puntuaciones obtenidas en el test cuando éste se utiliza para un objetivo
concreto.

Acuerdo generalizado, desde el punto de vista científico, la única validez  la validez de


constructo (las otras dos quedarían incluidas en ésta y serían consideradas como estrategias de
validación para comprender mejor lo que mide un test)

La validación de los tests es un proceso continuo que permite obtener distintos tipos de
evidencia empírica, y un proceso de validación ideal debe incluir los tipos de evidencia implicados
en los tres tipos tradicionales de validez: la de constructo, la de contenido y la relativa al criterio.
Así, se considera la validez como un concepto unitario y el proceso de validación como un
proceso continuo que permitirá recoger la evidencia necesaria para poder interpretar las
puntuaciones al aplicar los tests para un determinado objetivo.

2.- VALIDACIÓN DEL CONTENIDO

Objetivo  Analizar hasta qué punto los elementos o ítems que componen un test son una
muestra relevante y representativa (implica la necesidad de una clara y exhaustiva especificación
de todas las posibles conductas observables que son representativas del constructo a medir). Para
un estudio de validación de un test es necesario analizar hasta qué punto los elementos que lo
componen son una muestra representativa de la clase de problemas o situaciones sobre las que
van a hacer inferencias y extraer conclusiones.

En los TRC y tests de rendimiento académico, las puntuaciones se suelen utilizar para hacer
inferencias sobre el grado en que los sujetos dominan un campo de conocimientos (dominio), no
para hacer inferencias sobre conductas externas al test o sobre el constructo medido. En estos
tests las puntuaciones se suelen utilizar para dar cuenta de si los sujetos han alcanzado un nivel
mínimo de competencia en una determinada materia. El dominio de contenidos se suele hacer
más en referencia a objetivos educativos que al constructo.

La forma típica de llevar a cabo un estudio de validación de contenido, es utilizando un grupo de


expertos (juicio subjetivo) que serán los encargados de analizar dos aspectos fundamentales:
 Que el test no incluya aspectos irrelevantes del dominio de interés.
 Que incluya todos los elementos importantes que definen el dominio.

Para llevar a cabo la especificación del dominio, es necesario:


 1º - Analizar las áreas de contenido que se deben cubrir.
 2º - Analizar los procesos que se van a evaluar y su importancia relativa. Se puede
construir una tabla de doble entrada en la que las columnas representen las distintas áreas
de contenido (dominio) que definen el constructo y las filas las distintas operaciones o
procesos cognitivos implicados. Las celdillas incluyen el porcentaje de ítems que deben
contener la prueba según cada área de contenido y cada proceso cognitivo empleado.

Para evaluar la relevancia de los ítems en relación con el dominio hay varios procedimientos: uno
de ellos (Hambleton – 1980) consiste en presentar a los expertos una serie de fichas cada una de
las cuales contiene un ítem. Cada experto expresará en una escala de 5 puntos el grado de ajuste
de cada ítem, de manera que el 1 indique un mal ajuste y el 5 un ajuste muy bueno. Hecho esto,
se calcula la media o la mediana de los valores asignados por cada uno de los expertos a cada
ítem y el valor obtenido será el que indique el grado de relevancia del ítem. Se podrán seleccionar
los que muestren un alto grado de ajuste y eliminar los que no.

R. MEDRANO (TUTOR) Página 2


PSICOMETRÍA ORIENTACIONES PARTE II (PROPIEDADES MÉTRICAS)

La representatividad: grado en que se han cubierto las especificaciones del dominio, en cuanto a
contenidos y a objetivos propuestos. En la medida en que el dominio este más y mejor
representado, las inferencias serán más precisas. Lo ideal sería poder contar con un banco de
ítems referidos al dominio de interés y a partir de este extraer una muestra aleatoria de ítems.

3.- VALIDACIÓN DEL CONSTRUCTO

Proceso que permitirá obtener evidencia acerca de la capacidad del test para medir el
constructo (evidencia de que las conductas observables que se han elegido como indicadores del
constructo, realmente lo son). Trata de garantizar científicamente que la variable que el test
pretende medir es una variable aceptable y consistente en el ámbito teórico de la psicología
(descansa en suficientes comprobaciones experimentales que lo verifican)

Para llevar a cabo un estudio de validación es necesario:


 1º  Definir el constructo de interés a partir de las teorías que existen acerca del mismo
(Postular una serie de hipótesis acerca de la naturaleza y grado de relación entre el
constructo y una serie de variables y entre el constructo de interés y otros constructos)
 2º  Diseñar el instrumento de medida adecuado (debe incluir elementos relevantes y
representativos de aquellas conductas que sean específicas y concretas del constructo)
 3º  Obtener datos empíricos de las relaciones entre las puntuaciones obtenidas al
aplicar el test y las variables hipotetizadas.

Así, es necesario estudiar las relaciones entre: el constructo y las conductas observables
representativas del constructo. El constructo y otros constructos y las conductas tomadas
como indicadores del constructo y las puntuaciones obtenidas por los sujetos en el test.

Los estudios de validación de constructo se centran en el análisis de la estructura del test. Se


estudian las interrelaciones entre las puntuaciones obtenidas por los sujetos en los distintos ítems
(estructura interna) y las relaciones entre las puntuaciones obtenidas en el test y otras medidas
obtenidas en variables externas al mismo y consideradas relevantes (estructura externa)

Métodos para la validación del constructo:

A.- Matriz Multimétodo-Multirrasgo (propuesto por Campbell y Fiske – 1959, permite el análisis
de la estructura externa del test) Se intenta medir un mismo constructo mediante distintos
procedimientos y distintos constructos mediante el mismo procedimiento. Una vez obtenidas todas
las medidas, calcular las intercorrelaciones entre ellas:
 Si las correlaciones entre las medidas del mismo constructo a través de distintos
procedimientos son altas, el constructo quedará validado (existe validez convergente)
 Si estas correlaciones son significativamente más altas que las obtenidas al correlacionar
las medidas de distintos constructos con el mismo procedimiento (existe validez
discriminante)

B.- Análisis Factorial (la técnica más utilizada para poner a prueba las hipótesis planteadas a
cerca de la estructura externa del constructo y las relaciones del mismo con otras variables)  Se
puede utilizar con dos enfoques: el exploratorio (no se establecen hipótesis previas acerca del
número de dimensiones, es la propia técnica la que nos aportará esta información) y
confirmatorio (se establecen a priori hipótesis, y mediante las técnicas oportunas se comprueba
si se pueden aceptar las hipótesis propuestas).

Para llevar a cabo un análisis factorial se parte de un conjunto de n medidas tomadas a la misma
muestra de sujetos en un conjunto de variables observables, a partir de ellas se obtiene una
matriz (n x n) con las intercorrelaciones entre todas ellas. Mediante Análisis Factorial, se intenta
identificar un número más reducido de variables latentes llamadas factores.
Cuando en un mismo factor se agrupan múltiples indicadores del constructo (validez
convergente) y Cuando en el análisis se han obtenido medidas de otros constructos y estas
aparecen agrupadas en distintos factores (validez discriminante)

R. MEDRANO (TUTOR) Página 3


PSICOMETRÍA ORIENTACIONES PARTE II (PROPIEDADES MÉTRICAS)

4.-VALIDACIÓN REFERIDA AL CRITERIO

Objetivo principal  evaluar la hipótesis de relación entre test y criterio. Se utilizan dos tipos de
índices para describir la capacidad de un test o conjunto de tests para predecir un criterio:
• Medidas correlacionales (coeficiente de validez, de determinación, de alineación, etc.
• Medidas de error en la predicción (errores de estimación).

Estos estudios se suelen realizar desde dos perspectivas diferentes dependiendo del uso que se
vaya a dar al test y del tipo de inferencia:
 Validez predictiva (los tests se van a utilizar para la selección, clasificación o colocación de
personas en determinados puestos). Se trata de analizar la capacidad de los test para
pronosticar el posterior rendimiento de los sujetos en un trabajo, a partir de las puntuaciones
obtenidas en el test. La medida del criterio se obtiene con posterioridad a la del test.
 Validez concurrente (utilizar los test para hacer un diagnóstico. La medida del criterio se
obtiene a la vez que la del test)

La teoría no juega el papel principal, se acentúa el interés en el aspecto empírico del proceso más
que en el teórico. Un estudio de validación de constructo del criterio ayudará a determinar las
dimensiones a medir, cómo se medirá cada una de ellas y si se desea, cómo combinarlas.

Pasos a seguir para diseñar un estudio de validación:


1. Definir claramente el criterio que se quiere medir.
2. Identificar el indicador o indicadores que se van a utilizar para medir el criterio.
3. Seleccionar una muestra de sujetos representativa.
4. Aplicar el test a la muestra y obtener una puntuación para cada uno.
5. Obtener una medida de cada sujeto en el criterio, bien en el mismo momento de la
aplicación del test (validación concurrente) o bien al cabo de un cierto tiempo (validación
predictiva)
6. Determinar la relación entre las puntuaciones de los sujetos en el test y el criterio.

Problema de selección y medición del criterio  Los test de selección los utilizamos tratando
de seleccionar aquellas personas que vayan a tener una mayor probabilidad de realizar un trabajo
o aprovechar el programa con éxito. El concepto de éxito tiene muchas facetas, y es muy difícil de
definir de forma precisa. Hemos de tener en cuenta que todos los indicadores son parciales y
no ofrecen una comprensión completa del criterio. En esta línea Thorndike y Hagen (1989)
consideran que los indicadores deben cumplir una serie de requisitos:
 Que sean relevantes (un indicador es relevante en la medida en que se corresponde con
el criterio). Para apreciar la relevancia es necesario tener en cuenta consideraciones
racionales y apoyarse en los juicios de expertos.
 Que estén libres de sesgos (que las medidas criterio representen la verdadera
competencia de los sujetos y no estén determinadas por factores que actúen de manera
diferencial en determinados grupos)
 Que sean fiables (las medidas criterio de los indicadores han de ser estables)
 Que sean accesibles (tener en cuenta las limitaciones económicas y de tiempo)

Procedimientos estadísticos para la validación referida al criterio  Los más utilizados están
basados en correlaciones. La utilización de una técnica u otra depende del diseño de recogida de
datos par la validación y del número de variables implicadas:
 Un único test predictor y un solo indicador del criterio: la correlación y el modelo de
la regresión lineal simple. Según la medida (Pearson, biserial, coeficiente phi, etc.)
 Varios predictores y un solo indicador de criterio (cuando se utiliza una batería de
tests para un único criterio): la correlación y la regresión lineal múltiple.
 Varios predictores cuantitativos y varios indicadores del criterio cuantitativos: la
regresión lineal múltiple y la correlación canónica (dificultad para interpretar resultados)
 Procedimientos basados en la teoría de decisión (validez y utilidad en las
decisiones): Se basan en diferentes métodos para optimizar las decisiones realizadas

R. MEDRANO (TUTOR) Página 4


PSICOMETRÍA ORIENTACIONES PARTE II (PROPIEDADES MÉTRICAS)

con el test: técnicas especialmente la Teoría de la utilidad multiatributo.

5.- VALIDACIÓN CON UN ÚNICO PREDICTOR Y UN SOLO INDICADOR DEL CRITERIO

 La correlación nos permitirá conocer el grado de asociación entre el test y el criterio.


 El modelo de regresión nos permitirá pronosticar, a partir de las puntuaciones obtenidas
en el predictor, las puntuaciones en el criterio.

EL COEFICIENTE DE VALIDEZ  Correlación entre las puntuaciones obtenidas por los sujetos
en el test predictor y las obtenidas en el criterio. A partir de las puntuaciones de los sujetos, se
podrán obtener tantos coeficientes de validez como indicadores de criterio se elijan para su
validación.
INDICADOR TEST (X)
CRITERIO (Y)
Continua Dicotomizada Dicotómica
Continua Pearson Biserial Biserial puntual
Dicotomizada Biserial Tetracórica Ф biserial
Dicotómica Biserial puntual Ф biserial Ф

COEFICIENTE DE VALIDEZ (SEGÚN EL TIPO DE VARIABLES IMPLICADAS)


(Valores entre -1 y 1)
TIPO DE VARIABLES FÓRMULA DE LA CORRELACIÓN

 Test (X) y Criterio (Y) variables continuas N ∑ XY − ∑ X∑ Y


CORRELACIÓN DE PEARSON rxy =
N X2−
 ∑
(∑ X)   N Y2 −
  ∑
(∑ Y) 
2 2



 Test (X) continua; Criterio (Y) dicotomizada


CORRELACIÓN BISERIAL X p − X q pq X p − X p
XP = Media en X de los que obtuvieron un 1 en Y rb = =
Xq = Media en X de los que obtuvieron un 0 en Y Sx y Sx y
X = Media en X de toda la muestra
SX = Desviación típica en X de toda la muestra
p y q = proporción de personas con 1 ó 0 en Y
y = Ordenada que divide el área en dos partes X p − Xq Xp − X
rbp = pq = p/q
 Test (X) continua; Criterio (Y) dicotómica Sx Sx
CORRELACIÓN BISERIAL PUNTUAL

cb − ad
 Test (X) dicotómica; Criterio (Y) dicotómica φ =
COEFICIENTE Ф ( a + b) ( c + d ) ( a + c) ( b + d )
a, b, c y d  representan el número de personas
de la muestra cuyas puntuaciones en X y en Y son X
respectivamente (0,1), (1,1), (0,0), (1,0). 0 1
p y q = proporción de personas con 1 ó 0 en Y 1 a b
y = Ordenada que divide el área en dos partes Y 0 c d

 Test (X) dicotomizada; Criterio (Y) dicotómica bc − ad pq


COEFICIENTE Ф BISERIAL φ biserial =
Un híbrido entre correlación biserial y el coeficiente ( a + b) ( c + d ) y
Ф, con el mismo significado de símbolos.

CORRELACIÓN TETRACÓRICA  Tanto X como Y son variables continuas que se han dicotomizado
artificialmente. Cálculo muy laborioso. Se han ofrecido algunas aproximaciones – más utilizada – calcular
la razón bc/ad y consultar la tabla correspondiente. Si la razón es menor que la unidad se debe usar la
recíproca ad/bc y consultar la tabla, en este caso será negativa.

R. MEDRANO (TUTOR) Página 5


PSICOMETRÍA ORIENTACIONES PARTE II (PROPIEDADES MÉTRICAS)

EL MODELO DE REGRESIÓN LINEAL 

Conocido el grado de asociación entre el test y el criterio, se puede utilizar el modelo de


regresión para hacer pronósticos (a partir de las puntuaciones obtenidas por los sujetos en el
test, hacer estimaciones acerca de su puntuación en el criterio).

Mediante el modelo de regresión se intenta buscar una ecuación lineal que haga mínimos los
errores de pronóstico  Y´= a + bX

MODELO DE REGRESIÓN LINEAL SIMPLE  Y´= A + B X


(A y B) = Constantes de la regresión
Sy B  pendiente de la recta de regresión
Cálculo de la pendiente (B)  b = rxy [cambio en los valores del criterio Y por cada
Sx cambio unitario en el test X]
A  ordenada en el origen [valor pronosticado en
Cálculo ordenada en el origen (A)  a = Y − bX el criterio (Y´) cuando en el test (X) se obtiene un
valor 0].

ECUACIONES DE LA RECTA DE REGRESIÓN


 Sy  Sy Sy
Puntuaciones Directas  Y =  Y − rxy
´
÷ + rxy X = rxy ( X − X ) + Y
 Sx  Sx Sx
Sy
Puntuaciones Diferenciales Y = rxy
´

Sx
( X − X) // Puntuaciones Típicas  Z y´ = rxy Z x
´

rXY = Coeficiente de validez // SX = Desv típica (punt en el test) // SY = Des típica (punt en el criterio)

Utilidad de las ecuaciones  El coeficiente de validez  indica la eficacia


Permiten pronosticar la puntuación que obtendrá del test o variable predictora para estimar el
en el criterio otra muestra de sujetos, de las mismas criterio. Cuanto más se aproxime a 1, la
características, a partir de las puntuaciones que estimación será más exacta (1 = el valor
obtengan en el test. estimado coincide con la puntuación que
obtuvieron los sujetos en el criterio)

Error de estimación (Y´- Y)  diferencia entre las puntuaciones que ha obtenido un sujeto en el
criterio y la que se le pronostica mediante la ecuación de regresión

∑ (Y − Y )
Varianza residual (Varianza error)  representa ´ 2
la variabilidad media de las puntuaciones de los
sujetos en el criterio, respecto a la puntuación que S2
YX =
se les pronostica mediante la recta de regresión.
N
También se denomina  Error cuadrático medio
También  S2y. x =S2y (1-r2xy)
rXY = coeficiente de validez del test
Y = punt obtenidas por cada sujeto en el criterio
∑ (Y − Y ) ´ 2
Y´= punt pronosticas a cada sujeto mediante la ecuación
de regresión. SY X =
N = número de sujetos de la muestra N
______
Error típico estimación  Desv típica de errores También  Sy. x = Sy √ 1-r2xy

Propiedades fundamentales 

Y = Y´  La media de las punt en el criterio es igual a la media de las puntuaciones pronosticadas.


Σ (Y – Y´) = 0  La suma de los errores de estimación es 0(media de los errores cometidos = 0)
S2y = S2y´ + S2y. x  La varianza de las punt obtenidas en el criterio = a la varianza de las
puntuaciones pronosticadas más la varianza de los residuos o varianza error.

R. MEDRANO (TUTOR) Página 6


PSICOMETRÍA ORIENTACIONES PARTE II (PROPIEDADES MÉTRICAS)

INTERVALO CONFIDENCIAL

Debido a los errores conviene hacer la estimación por intervalos.


Asumimos que la distribución de los errores se ajusta a una distribución normal, cuya desviación
típica viene dada por el error típico de estimación, se establece un intervalo confidencial en torno a
la puntuación pronosticada.
Pasos a seguir:
• Determinar un nivel de confianza y buscar la puntuación típica asociada (Zc)
• Calcular el error típico de estimación (Sy. x)
• Calcular el error máximo  (Zc) · (Sy. x)
• Aplicar la ecuación correspondiente y obtener la puntuación pronosticada.
• Establecer el intervalo de confianza  Y´ ± (Zc) · (Sy. x)

INTERPRETACIÓN DE LA EVIDENCIA OBTENIDA (CAPACIDAD PREDICTIVA DEL TEST) 

S2y = S2y´ + S2y. x  A partir de esta ecuación se puede averiguar la proporción de la varianza de las
puntuaciones de los sujetos en el criterio (varianza de la VD), que se puede explicar a partir de las
varianza de las puntuaciones pronosticadas y que proporción no se puede explicar y corresponde
a los residuos.

Así, también podemos considerar otras formas de expresión de:


_____
La varianza de error  S2y. x =S2y (1-r2xy) // El error típico de estimación  Sy. x = Sy √ 1 - r2xy

Interpretación de resultados a través de tres coeficientes básicos 

COEFICIENTE DE DETERMINACIÓN  C.D. = rXY


2

Equivale al coeficiente de validez al cuadrado (r 2xy) // Representa la proporción (o porcentaje) de


la varianza de las puntuaciones de los sujetos en el criterio (VD) que se puede pronosticar a partir
del test (VI). También se define como varianza común o asociada entre el test y el criterio.

SY X
COEFICIENTE DE ALIENACIÓN  C. A. = K = = 1 − rXY
2

SY
Alude a la inseguridad o el azar que afecta a los pronósticos // Representa la proporción de la
varianza de las puntuaciones de los sujetos en el criterio (VD) que no se puede predecir a partir
del test (VI). Es decir, la proporción de varianza error que hay en la varianza de las puntuaciones
de los sujetos en el criterio // El coeficiente de alineación al cuadrado es el complementario del
coeficiente de determinación.

Consideraciones  Cuanto menor sea el error típico en relación con la desviación típica del
criterio, menor ser el coeficiente K (oscila entre 0 y 1, será máximo cuando el coeficiente de
validez sea 0 y mínimo cuando el coeficiente de validez sea 1)
El coeficiente de alineación al cuadrado es el complementario del coeficiente de determinación.

COEFICIENTE DE VALOR PREDICTIVO  C.V .P. = 1 − 1 − rXY


2

Es el complementario del coeficiente de alineación // Se trata de otra forma de expresar la


capacidad del test para pronosticar el criterio // Representa la proporción de seguridad en los
pronósticos (o el porcentaje si se multiplica por 100)

PROBLEMA EJEMPLO 

R. MEDRANO (TUTOR) Página 7


PSICOMETRÍA ORIENTACIONES PARTE II (PROPIEDADES MÉTRICAS)

Se quiere comprobar hasta qué punto se puede utilizar para hacer una selección de controladores
aéreos un test construido para medir rapidez perceptiva (estudio de validación). Para ello se
seleccionan 5 controladores los cuales se les aplica el test (X) y, a la vez, se pide a sus jefes
directos que los evalúen (Y).Los resultados obtenidos son los que figuran en la tabla adjunta

Test (X) CÁLCULOS


SUJETOS

X1 X2 X3 X4 Y X XY X2 Y2 Y´ (Y-Y´) (Y-Y´)2
1 1 0 0 1 5 2 10 4 25 10,56 -5,56 30,91
2 1 1 1 0 15 3 45 9 225 12,59 2,41 5,81
3 1 1 0 1 13 3 39 9 169 12,59 0,41 0,17
4 1 0 0 0 8 1 8 1 64 8,53 -0,53 0,28
5 1 0 0 0 12 1 12 1 144 8,53 3,47 12,04
Sumatorios  53 10 114 24 627 49,21

1.- Averiguar el coeficiente de validez  Tanto el test como la variable criterio son variables
cuantitativas; por tanto, el índice más adecuado para obtener el coeficiente de validez es el de
Pearson.
N ∑ XY − ∑ X∑ Y 5 * 114 − 10 * 53
rxy =
[N ∑ X2 − ( ∑ X ) ][N ∑ Y − ( ∑ Y )
2 2 2
] =
5 * 24 − 100 5 * 627 − 53 2
= 0.50

Dado que el valor máximo del coeficiente de validez es 1, se puede considerar que el test tiene
una capacidad predictiva media (discreta)

2.- Ecuaciones de regresión  Se utilizan para predecir las puntuaciones que obtendrán otros
sujetos de similares características en el criterio, a partir de sus puntuaciones en el test.

Cálculos para obtener las ecuaciones de regresión

Medias  Y =10,6 y X = 2

Varianzas  SX =
2 ∑ X2
− X 2=
24
− 2 2 = 0,8; S X = 0.8 = 0,89
Desviaciones N 5
Típicas
S Y2 =
∑ Y 2 − Y 2 = 627 − 10.6 2 = 13.04; S Y = 13.04 = 3,61
N 5

Constantes  SY
regresión (a y b) b = rxy  b = 0´5 (3,61 / 0,89) = 2,028
SX
a = Y – (b X)  a = 10,6 – ( 4,056) = 6,544

Ecuaciones Y´= 6,5 + 2,03 X // y´= 2,03 x // ZY = 0,5 ZX


Regresión  Directas Diferenciales Típicas

Nivel Confianza  NC = 95%; Z C = Z α = Z 0.975 = 1,96


1−
2

3.- Error típico de estimación  Comprobamos que la varianza de las puntuaciones de los
sujetos en el criterio es igual a la varianza de las puntuaciones pronosticadas más la varianza de
los errores.
Error típico de Estimación  S yx = S y 1 − rxy2 = 3.61 1 − 0.5 2 = 3.61 0.75 = 3,13

S2y´ = (49,21 / 5) = 9,84 S2y = S2y´ + S2y. x  13 = 9,84 + 3,13

R. MEDRANO (TUTOR) Página 8


PSICOMETRÍA ORIENTACIONES PARTE II (PROPIEDADES MÉTRICAS)

4.- Intervalos confidenciales (Para un sujeto que ha obtenido en el test 4 puntos) 

Estimación puntual (con la ecuación de regresión)  Punt directas / diferenciales / Típicas

Y´= 6,5 + 2,03 (4) = 14,6 // y´= 2,03 (4 – 2) = 4 // ZY´ = 0,5 [(4-2) / 0,89] = 1,12

Estimación por intervalo  Punt directas / diferenciales / Típicas

Nivel de confianza  95%  Zc = 1,96 Error típico de estimación  Sy. x = 3,13

Error máximo: (Zc) · (Sy. x)  (1,96 · 3,13) = 6,13  (Punt directas y diferenciales)

Error máximo: (Zc) · (SZY ZX )  (1,96 · 0,87) = 1,7  (Puntuaciones típicas)

Donde  SZY ZX = 1 − rxy2  SZY ZX = 0.87

Y´ ± (Zc) · (Sy. x)  14,6 ± 6,13 = (8,5 y 20,7)  Puntuaciones directas

y´ ± (Zc) · (Sy. x)  4 ± 6,13 = (-2,1 y 10,1)  Puntuaciones diferenciales

ZY´ ± (Zc) · (Sy. x)  1,12 ± 1,7 = (-0,58 y 2, 82)  Puntuaciones típicas

5.- Coeficientes 

COEFICIENTE DE DETERMINACIÓN  C.D. = rXY 2


 CD  0,52 = 0,25
25% de la varianza de las puntuaciones de los sujetos en el criterio (VD) que se puede
pronosticar a partir del test (VI)  25% de varianza común entre el test y el criterio.
SY X
COEFICIENTE DE ALIENACIÓN  C. A. = K = = 1 − rXY
2
 K = 3,13 / 3,61 = 0,87
SY
87% de inseguridad en los pronósticos  0.872 = (75%) de la varianza de las
puntuaciones en el criterio (VD) que no se puede pronosticar a partir del test (VI)
COEFICIENTE DE VALOR PREDICTIVO  C.V .P. = 1 − 1 − rXY
2
 0,13
13% de seguridad en los pronósticos.

R. MEDRANO (TUTOR) Página 9


PSICOMETRÍA ORIENTACIONES PARTE II (PROPIEDADES MÉTRICAS)

2ª PARTE: EVALUACIÓN DE LA PROPIEDADES MÉTRICAS DE LOS INSTRUMENTOS DE


MEDICIÓN PSICOLÓGICA

TEMA Nº 7  VALIDEZ DE LAS INFERENCIAS II

1.- VALIDACIÓN CON VARIOS PREDICTORES Y UN SOLO INDICADOR DEL CRITERIO

Cuando se desea conocer el influjo de varias variables


predictoras cuantitativas en otra también cuantitativa (criterio),
los procedimientos estadísticos que permiten obtener esa
información y solucionar esos problemas son la correlación
múltiple y el modelo de regresión lineal múltiple (permite
obtener una ecuación de regresión, combinando las variables
predictoras seleccionadas para que los errores de pronóstico
que se cometen al estimar el criterio sean mínimos, y se
eliminen las variables que no aportan información relevante)
Siguiendo un criterio pedagógico, únicamente utilizaremos el
modelo con dos variables predictoras.

Para eliminar el efecto de las variables que no aportan información relevante se utilizan la
correlación parcial y la correlación semiparcial:

CORRELACIÓN PARCIAL CORRELACIÓN SEMIPARCIAL


rYX 1 − rYX 2 rX 1 X 2
RYX 1·X 2 =
rYX 1 − rYX 2 rX 1 X 2 rY ( X 1·X 2 ) =
(1 − r 2YX 2 )(1 − rX21 X 2 ) 1 − r 2 X 1X 2

rYX 2 − rYX 1rX 1 X 2 rYX 2 − rYX 1rX 1 X 2


RYX 2·X 1 = rY ( X 2·X 1) =
(1 − r 2YX 1 )(1 − rX21 X 2 )
1 − r 2 X 1X 2
En la 1ª se calcula la correlación entre la variable La 1º expresa la correlación entre la variable
criterio (Y) y la variable predictora X1 eliminando la criterio (Y) y la predictora X1 cuando de ésta se
influencia de la X2 elimina la influencia de la variable predictora X2
En la 2º se calcula la correlación entre la variable La 2º expresa la correlación entre la variable
criterio (Y) y la variable predictora X2 eliminando la criterio (Y) y la predictora X2 cuando de ésta se
influencia de la X1 elimina la influencia de la variable predictora X1

1.1.- EL COEFICIENTE DE VALIDEZ MÚLTIPLE

El coeficiente de validez múltiple  Correlación Múltiple entre las puntuaciones obtenidas por
la muestra en la variable criterio y las obtenidas en el conjunto de las variables predictoras.

Correlación múltiple:
Grado de asociación entre la VD (criterio) y rYX2 1 + rYX2 2 − 2rYX 1 rYX 2 rX 1 X 2
RY . X 1 X 2 =
el conjunto de variables predictoras X 1 yX 2 1 − rX21 X 2

Otra forma de expresarla  (coeficientes de regresión múltiple en puntuaciones típicas) :

Y = puntuaciones de los sujetos en el criterio


RY . X 1 X 2 = b1∗ rYX 1 + b2∗ rYX 2 X1 y X2 = puntuaciones en las 2 VV predictoras
b1∗ yb2∗ : coeficientes regresión puntuaciones típicas

R. MEDRANO (TUTOR) Página 1


PSICOMETRÍA ORIENTACIONES PARTE II (PROPIEDADES MÉTRICAS)

1.2.- EL MODELO DE REGRESIÓN LINEAL MÚLTIPLE

El modelo de regresión lineal múltiple  Se traduce en ecuaciones de un plano (no de una


recta como en la simple) o hiperplano si son más de dos variables predictoras. Si tenemos dos
variables predictoras (X1 y X2) y un criterio Y, la ecuación del modelo de regresión será:

(a) = ordenada en el origen. Término independiente y


equivale al valor que toma la variable tomada como
Y = a + b1 X 1 + b2 X 2
'
indicador del criterio cuando  X1 = X2 = 0.
b1 = indica lo que aumenta el criterio al aumentar en una
Los valores que deben alcanzar a, unidad la variable X1 mientras permanece constante la
b1 y b2 deben ser aquellos que variable X2
hagan mínimos los errores de b2 = indica el aumento del criterio cuando la variable X 2
pronóstico. aumenta en una unidad y la que permanece constante es
la variable X1.

Ecuaciones de regresión 

Z Y' = b1∗ Z X 1 + b2∗ Z X 2


Donde  y ' = b1 x1 + b2 x 2 Y ' = a + b1 X 1 + b2 X 2
rYX 1 − rYX 2 rX 1 X 2
b1∗ =
1 − rX21 X 2 Donde  Donde 

r − r r SY ∗ SY
a = Y − b1 X 1 − b2 X 2
b2∗ = YX 2 YX2 1 X 1 X 2 b1 = b1∗ ; b2 = b2
1 − rX 1 X 2 S X1 SX2
Los coeficientes b de regresión
rYX1 y rYX2 = correlaciones entre son iguales en puntuaciones
la variable criterio VD y cada a = 0  pasa por el origen de directas y diferenciales.
una de las var predictoras VI coordenadas.
rYX1X2 correlación entre las dos
variables predictoras
a = 0  pasa por el origen de
coordenadas.
Puntuaciones típicas Puntuaciones diferenciales Puntuaciones directas

Las ecuaciones de los planos de regresión en puntuaciones directas y diferenciales corresponden


a planos paralelos. Las ecuaciones de los planos de regresión en puntuaciones diferenciales y
típicas pasan por el origen de coordenadas.

La varianza residual o varianza error y el error típico de estimación múltiple 

El coeficiente de validez múltiple RY. X1X2 indica la eficacia de las variables predictoras para estimar
el criterio. Cuanto más alto sea el coeficiente de validez, más exacta es la estimación. Pero el
coeficiente de validez no es perfecto y está afectada por el error de estimación.

Error de estimación: diferencia entre la puntuación obtenida en el criterio y la pronosticada


mediante la ecuación de regresión (Y – Y´). A la varianza de todos los errores de estimación se
llama varianza residual, varianza de error o error cuadrático medio. Representa la variabilidad
media de las puntuaciones de los sujetos en el criterio respecto a la puntuación que se les
pronostica mediante la recta de regresión.

S 2
=
∑ (Y − Y ' ) 2
 Varianza residual o varianza de error
YX 1 X 2
N
S ZyX 1 X 2 = 1 − RYX
2

S YX 1 X 2 =
∑ (Y − Y ' ) 2
// S YX 1 X 2 = S Y 1 − RYX2 1 X 2
1X 2

N
Error típico de estimación múltiple
Puntuaciones directas y diferenciales Puntuaciones típicas

R. MEDRANO (TUTOR) Página 2


PSICOMETRÍA ORIENTACIONES PARTE II (PROPIEDADES MÉTRICAS)

Intervalos de confianza 

La distribución de los errores de estimación se ajusta a una distribución normal, cuya desviación
típica viene dada por el error típico de estimación múltiple. Se establece un intervalo
confidencial en torno a la puntuación pronosticada. Pasos:
 Determinar un nivel de confianza y buscar su puntuación típica (NC  Zc asociada)
 Calcular el error típico (S2y. x1x2)
 Calcular el error máximo  Emax = Zc · (Sy. x1x2)
 Aplicar la ecuación de regresión y obtener la puntuación pronosticada
 Establecer el intervalo de confianza  Y´± Emax

1.3.- INTERPRETACIÓN DEL COEFICIENTE DE VALIDEZ MÚLTIPLE


S Y2 = S Y2' + S YX
2
1X 2
 La varianza total de las puntuaciones obtenidas por los sujetos en el
criterio (VD) se puede expresar como la suma de la varianza de las puntuaciones pronosticadas (a
partir de las variables predictoras) y la varianza de los residuos (varianza de error)

El coeficiente de validez múltiple se interpreta a través de tres coeficientes:

Coeficiente de determinación múltiple Equivale al coeficiente de validez múltiple al cuadrado.


2 2 Es la proporción de la varianza de las puntuaciones del
S S
C.D. = RYX
2
1X 2 = = 1−
Y'
2
YX 1 X 2
2
criterio que se puede pronosticar a partir de las
S S variables predictoras (varianza común o asociada
Y Y entre el criterio y las variables predictoras)
Representa la inseguridad o el azar que afecta a los
Coeficiente de alienación múltiple pronósticos. Al cuadrado es el complementario del C.
S YX 1 X 2 Determinación (representa las puntuaciones en el
C. A = K = = 1 − RYX
2
1X 2
criterio que no se puede predecir a partir de las
SY variables predictoras)
K: oscila entre 0 y 1 (Cuando el coef de validez vale 0
 K será máximo; cuando vale 1  K será mínimo)
Coeficiente de valor predictivo múltiple Complementario del Coeficiente de Alienación
(proporción o porcentaje de seguridad con que se
C.V .P = 1 − 1 − RYX
2
1X 2 hacen los pronósticos)

R. MEDRANO (TUTOR) Página 3


PSICOMETRÍA ORIENTACIONES PARTE II (PROPIEDADES MÉTRICAS)

PROBLEMA EJEMPLO 

Disponemos de las puntuaciones de 5 sujetos en tres variables: promedio de horas de ejercicio al


día (X1), promedio diario de kilocalorías consumidas (X2) y kilos perdidos (Y). Con los datos de la
tabla, planteamos los análisis más típicos sobre el modelo de Regresión lineal múltiple (α = 0,05)

X1 X2 Y X21 X22 Y2 X1 X2 X1 Y X2 Y
1 4 4 1 16 16 4 4 16
1,5 3,75 6 2,25 14,0625 36 5,625 9 22,5
2 3 7 4 9 49 6 14 21
2,5 2 9 6,25 4 81 5 22,5 18
3 1,5 10 9 2,25 100 4,5 30 15
Σ = 10 Σ = 14,25 Σ = 36 Σ = 22,5 Σ = 45,31 Σ = 282 Σ = 25,12 Σ = 79,5 Σ = 92,5
_ _ _
X1 = 2 X2 = 2,85 Y = 7,2 S2x1 = 0´5 S2x2 = 0´94 S2Y = 4´56

COEFICIENTES DE REGRESIÓN PARCIAL Y ECUACIÓN DE REGRESIÓN MÚLTIPLE


B1 = β1 (SY / S1) β1 = ry1 – ry2 · r12 / 1 – r122

B1 = 1´071 (2´13 / 0´7) = 3´23 β1 = 0´993 – [(- 0´976) · (- 0´985)] / 0´0298 = 1´071

B2 = β2 (SY / S2) β2 = ry2 – ry1 · r12 / 1 – r122

B2 = 0´079 (2´13 / 0´97) = 0´17 β2= (- 0´976) – (0´993) · (- 0´985)] / 0´0298 = 0´079

_ _ _
B0 = Y - B1 X1 - B2 X2  B0 = 7´2 – 3´235 (2) – 0´174 (2´85) = 0´234

Ecuación de regresión múltiple  Y´ = 0´234 + (3´235) X1 + (0´174) X2

N ∑ XY − ∑ ∑Y
X
rxy =
1.- Intercorrelaciones entre las variables  N
 ∑ X − (∑ X )   ∑ Y − ( ∑ Y )
N 
2 2 2 2

 

5 · 79,5 – 10 · 36 37,5
rYX1 = ---------------------------------------- = ------------------- = 0,993
√ [5 · 282 – 362] [5 · 22,5 – 102] 10,677 · 3,535

5 · 92,5 – 14,25 · 36 (- 50,5)


rYX2 = ------------------------------------------------ = -------------------- = (- 0,976)
√ [5 · 282 – 362] [5 · 45,31 – 14,252] 10,677 · 4,846

5 · 25,12 – 14,25 · 10 (- 16,9)


rX1X2 = ------------------------------------------------ = -------------------- = (- 0,985)
√ [5 · 22,5 – 102] [5 · 45,31 – 14,252] 3,535 · 4,856

1 + rYX 2 − 2 rYX 1 rYX 2 rX 1 X 2


2 2
rYX
2.- Correlación múltiple  RY . X 1 X 2 =
1 − rX21 X 2
___________________________
RY. 12 = √ (0,986 + 0,952 - 1´91) / (0,0298) = 0,993

Coeficiente de determinación múltiple  R2Y. 12 = (0,9935)2 = 0,987 (Un 98,7% de la varianza


de Y se debe a la variación conjunta de X1 y X2.

R. MEDRANO (TUTOR) Página 4


PSICOMETRÍA ORIENTACIONES PARTE II (PROPIEDADES MÉTRICAS)

rYX1 − rYX 2 rX 1 X 2
3.-Correlaciones parciales  RYX1 ⋅ X 2 =
(1 − rYX 2 )(1 − rX21 X 2 )

0,993 - (- 0,976)(- 0,985) 0,032


rYX
R YX1.X2 = ------------------------------- = ------------------- = −
0,132 rYX1 rX 1 X 2
r
√ 1 – (-0,976) (1 – R
− r YX 2r⋅ X 1
0,97) 0,243= 2

RYX1 ⋅ X 2 =
YX 1 YX 2 X1 X 2
(1 − rYX1 )(1 − rX21 X 2 )
Correlación entre la variable criterio (Y) y2la (X 1), habiendo eliminado de esta correlación el
(1 − rYX 2 )(de
efecto de la variable (X2). Antes
− rX 1 Xesta
1 eliminar 2
) variable la correlación era = 0,947 (vemos
que el valor disminuye, luego X2 está influyendo positivamente)

rYX 2 − rYX1 rX 1 X 2
RYX 2 ⋅ X 1 =
(1 − rYX1 )(1 − rX21 X 2 )

(- 0,976) – (0,993)(- 0,985) 0,0021


R YX2.X1 = ---------------------------------- = ------------------- = 0,145
√ (1 – 0,993) (1 – 0,97) 0,0145

Correlación entre la variable criterio (Y) y la (X 2), habiendo eliminado de esta correlación el
efecto de la variable (X1). Antes de eliminar esta variable la correlación era = - 0,975 (vemos
que el valor disminuye, luego X1 está influyendo positivamente)

4.- Correlaciones semiparciales 

(0,993) - (-0,976)(- 0,985) 0,032


r Y (X1.X2) = ------------------------------- = ------------ = 0,185
√ (1 – 0,97) 0,173

(-0,976) - (0,993)(-0,985) 0,0021


r Y (X2.X1) = ------------------------------- = ------------------- = 0,012
√ (1 – 0,97) 0,173

Cuando se elimina la influencia que una variable predictora tiene sobre la otra, la
correlación obtenida varía de forma importante (la correlación entre las variables
predictoras era muy alta  (- 0,987). Hay que evitar esta circunstancia porque así disminuye
el % de varianza que explican del criterio.

5.- Ecuaciones de regresión múltiple

Puntuaciones típicas  Z´Y = β1 ZX1 + β2 ZX2  Z´Y = (1,071) ZX1 + (0,079) ZX2

Puntuaciones directas  Y´ = A + B1 X1 + B2 X2  Y´ = 0´234 + (3´235) X1 + (0´174) X2

Puntuaciones diferenciales  y´= B1 x1 + B2 x2  y´ = (3´235) x1 + (0´174) x2

Las ecuaciones de los planos de regresión en puntuaciones directas y diferenciales corresponden


a planos paralelos. Las ecuaciones de los planos de regresión en puntuaciones diferenciales y
típicas pasan por el origen de coordenadas.

6.- Varianza de error o varianza residual y Error típico de estimación múltiple

R. MEDRANO (TUTOR) Página 5


PSICOMETRÍA ORIENTACIONES PARTE II (PROPIEDADES MÉTRICAS)

S2Y. X1X2 = S2Y (1 - R2Y. 12)  4,56 · (1 – 0´987) = 0,059


_______ _________
SY. X1X2 = SY √ 1 - R2Y. 12  2,135 · √ 1 – 0´987 = 0,243

8.- Intervalo confidencial para los pronósticos. Pronosticar el peso que perderá en dos meses
un hombre que hace un promedio de 1,75 horas de ejercicio diarias (X 1) y consume 2,2 Kcal / día
(X2). Ecuación de regresión múltiple  Y´ = 0´234 + (3´235) X1 + (0´174) X2
Pronóstico  Y´ = 0,234 + (3,235) (1,75) + (0,174) (2,2)  6,278
(La pérdida en peso pronosticada para esa persona será de 6, 278 Kilos)

Determinar un nivel de confianza y buscar su puntuación típica (α = 0,05  Zc = 1,96)


Calcular el error típico (Sy. x1x2) = 0,243
Calcular el error máximo  Emax = 1,96 · 0,243  0,476
Establecer el intervalo de confianza  Y´± Emax  6,278 ± 0,476 = ( 5,802 y 6,754)
Se trata de los límites entre los que se encontrará la puntuación en el criterio del sujeto
seleccionado, con una probabilidad de acierto del 95%.

INTERPRETACIÓN DEL COEFICIENTE DE VALIDEZ MÚLTIPLE:

Coeficiente de determinación múltiple  R2Y. 12 = (0,9935)2 = 0,987 (Un 98,7% de la varianza de


Y se debe a la variación conjunta de X1 y X2.

_____________
Coeficiente de alienación múltiple  √ 1 - R2Y. 12  0,114. Indica que todavía hay,
aproximadamente, un 11,4% de inseguridad en los pronósticos. Elevado al cuadrado 0,114 2
(0,013)  1,3% representa el porcentaje de varianza del criterio que no se puede explicar a
partir de las variables predictoras.

_________
Coeficiente de valor predictivo múltiple  1 - √ 1 - R2Y. 12  1 – 0,114 = 0,886. Es el
complementario del coeficiente de alienación y representa el porcentaje de seguridad en los
pronósticos.

1.4.- MÉTODOS PARA SELECCIONAR LAS VARIABLES PREDICTORAS MÁS ADECUADAS

Método Forward (hacia delante)

Stepwise (paso a paso)  es el más utilizado.


 Cálculo de las intercorrelaciones entre las variables.
 Seleccionar la variable predictora (VI) cuya correlación con el criterio sea más alta y se
construye la ecuación de regresión.
 Se añade a la ecuación, una a una, las demás variables predictoras. Primero aquella cuya
correlación semiparcial con el criterio sea más alta (de mayor a menor), después de haber
eliminado la influencia de la anterior, y así sucesivamente.
 Cada vez que se incluye una variable predictora en la ecuación se calcula el aumento en el
Coeficiente de determinación múltiple y se analiza si ese aumento es significativo. Se detiene el
análisis cuando el aumento no es significativo.

Método Backward (hacía atrás)

Es inverso al anterior y menos utilizado.


 Cálculo del coeficiente de determinación múltiple entre la variable criterio y el conjunto de
predictoras.
 Se eliminan una a una las variables menos relevantes, calculando en cada proceso de
eliminación la reducción en el coeficiente de determinación.
 El procedimiento se detiene cuando la reducción sea significativa.

PROBLEMA EJEMPLO 

R. MEDRANO (TUTOR) Página 6


PSICOMETRÍA ORIENTACIONES PARTE II (PROPIEDADES MÉTRICAS)

En una salida de ordenador encontramos los siguientes datos  se trata de un problema que
aporta 8 variables independientes (X1…8) de tipo cuantitativo para explicar una conducta (Y)
también de tipo cuantitativo. Se recaba información de 70 sujetos.

AJUSTE DEL MODELO


2
R R R2 CORREGIDA ERROR TÍPICO
0,874 0,764 0,733 4,638

Tabla del ANOVA para el contraste de la Regresión


FUENTE DE SUMAS GRADOS DE MEDIAS ESTADÍSTICO DE
VARIACIÓN CUADRÁTICA LIBERTAD CUADRÁTICAS CONTRASTE
S
Debido a la SC REG p=8 MC REG
Regresión 4248,304 531,038 F = 24,69
Residual SC ERROR n-p-1 = 61 MC ERROR = Ŝ2є
(Errores) 1311,996 21,508
SC TOTAL n-1 = 69 F se distribuye con 8 y 61 gl
TOTAL 5560,3 Significación  .000

Decisión 
La F es significativa; por tanto, rechazamos la H0 (β1 = β2 =…= β8) La regresión es significativa.

Coeficientes no Coeficient Correlaciones


estandarizados tipificado
s
Variables B Error Beta t Significac Orden Parcial Semiparcia
Típico . cero l
1 3,143 .686 .468 4,58 .000 .564 .506 .285
2 10,983 5,678 .886 1,934 .058 .709 .240 .120

De las ocho VVII sólo dos aportan coeficientes de la regresión significativos (hemos eliminado el
resto porque no son estadísticamente relevantes). Considerando el coeficiente de determinación
(R2 = 0, 764) podemos afirmar que entre todas las variables independientes explican el 76,4% de la
VD. Teniendo en cuenta la significación casi toda la varianza la explican dos variables (1 y 2); que,
a su vez, son las que presentan un coeficiente de correlación parcial más alto con la VD.

Método de pasos sucesivos (Stepwise)  Primero tomaríamos la variable nº 2 que es la que


más correlaciona con la VD (0,709) y, por tanto, la que explica más varianza. Una vez incorporada
la 2, incluye la 1, la que correlaciona más con los residuos (parte no explicada por la 1ª variable) y
comprueba si el cambio en R2 es o no significativo. El programa opera sucesivamente.

Estadísticos de cambio
Modelo R R2 R2 Cambi Cambio Gl 1 Gl 2 Significac.
Corregida o En F Cambio F
En R2
2 .709 .502 .495 .502 68,645 1 68 .000
1 .864 .747 .740 .245 64,908 1 67 .000

Ejemplo para la variable nº 1  F = R2Cambio (N – p - 1) / q (1 – R2)

F = 0,245 (70-2-1) / 1 · (1-0,747)  F = 64,908 (q = nº de variables que entran en el modelo)

Método de eliminación hacia atrás (Backward)  Se introducen todas las variables predictoras
y se sacan una a una hasta quedarse con las que realmente estiman significativamente la VD. Se
procede de modo similar pero eliminando hacia atrás.

R. MEDRANO (TUTOR) Página 7


PSICOMETRÍA ORIENTACIONES PARTE II (PROPIEDADES MÉTRICAS)

2.- VALIDEZ Y UTILIDAD DE LAS DECISIONES

Se trata de procedimientos que analizan la validez de las decisiones a partir de las puntuaciones
en uno o varios tests en relación a un criterio dicotómico. La puntuaciones se dicotomizan a
partir de un punto de corte (PC); es decir, se asignan en dos categorías (aptos – no aptos;
admitidos – rechazados, etc.). Este tipo de procedimientos se utilizan generalmente en los test
referidos a criterio (TRC)

En un estudio de validación se aplica una prueba a todos los sujetos y se fija un punto de corte
(PC)  Todos que lo superen se consideran Aptos y los que no l superen No – aptos. Después de
cierto tiempo se comprueba cuál ha sido el rendimiento de ambas categorías.

Clasificación de los sujetos en función del test y del criterio


NAA + NRR  Aciertos (calificados del mismo modo en
CRITERIO el test y en el criterio admitidos o rechazados)
A R NRA  Falsos negativos (rechazados que deberían
A NAA NAR NAT haber sido admitidos)
TEST NAR  Falsos positivos (admitidos que deberían
R NRA NRR NRT haber sido rechazados)
NAC  Nº de alumnos aptos en el criterio
NAC NRC N NRC  Nº de alumnos no aptos en el criterio
NAT  Nº de alumnos aptos en el test
NRT  Nº de alumnos no aptos en el test

Índices de validez 

COEFICIENTE KAPPA (COHEN) Fc = nº de casos en los que hay coincidencia entre


Evalúa la consistencia o acuerdo entre el predictor y el criterio (Fc = NAA + NRR)
las decisiones adoptadas a partir de las Fa = nº de casos en que el predictor y criterio
puntuaciones en el predictor (test) y el coinciden por azar (se multiplican las frecuencias
criterio (rendimiento) marginales y se dividen por el número total de
Fc − Fa sujetos y una vez calculados se suma)
K = N = nº de sujetos de la muestra // K  cuando el
N − Fa resultado se acerca a 1 máxima validez del test.

Para calcular las frecuencias esperadas Fa = (∑ de Fila · ∑ de Columna)/ N


Proporción clasificaciones correctas PCC = (NAA + NRR) / N
Sensibilidad: proporción de sujetos seleccionados en S = NAA / NAC
el test respecto al total que tuvieron éxito en el criterio.
Especificidad: proporción de sujetos correctamente E = NRR / NRC
rechazados en el test respecto al total de no aptos en
el criterio (valor máximo 1)
Razón de eficacia: proporción de aspirantes RE = NAA / NAT
seleccionados en el test con buen rendimiento en el
criterio.

Índices de selección 

Razón de idoneidad (proporción de sujetos que RI = NAC / N


rinden bien en el criterio)
Razón de selección (proporción de sujetos aptos en RS = NAT / N

R. MEDRANO (TUTOR) Página 8


PSICOMETRÍA ORIENTACIONES PARTE II (PROPIEDADES MÉTRICAS)

el test)

PROBLEMA EJEMPLO 

Se quiere conocer la validez de un test para predecir el rendimiento de los deportistas en un


partido a partir de los datos de la tabla siguiente:

CRITERIO (Resultado del partido)


Bueno Malo ∑
Buen 8 (aciertos) 2 (falso positivo) 10
TEST Rendimiento
Mal 4 (falso negativo) 10 (aciertos) 14
Rendimiento
∑ 12 12 24

Índices de validez 
ÍNDICE KAPPA  K = Fc – Fa / N – Fa Índice Kappa (validez media):
Fc = aciertos (8 + 10 = 18)
K = (18 – 12) / (24 -12)  0,5 Fa = (10 · 12) / 24 = 5 y Fa = (12 · 14) / 24 =7
(validez media) Fa = 5 + 7 = 12

Proporción clasificaciones correctas:


PCC = (NAA + NRR) / N  PCC = 18 / 24 = 0,75 Aciertos (8 y 10) / nº de casos

Sensibilidad: proporción de sujetos


S = NAA / NAC = 8 / 12 = 0,67 seleccionados en el test respecto al total que
tuvieron éxito en el criterio.
Especificidad: proporción de sujetos
E = NRR / NRC = 10 / 12 = 0,83 correctamente rechazados en el test respecto
al total de no aptos en el criterio.
Razón de eficacia: proporción de aspirantes
RE = NAA / NAT = 8 / 10 = 0,8 seleccionados en el test con buen rendimiento
en el criterio.

Índices de selección 

RI = NAC / N = 12 / 24 = 0,5 Razón de idoneidad: prop sujetos que rinden bien en criterio.

RS = NAT / N = 10 / 24 = 0,417 Razón de selección: proporción de sujetos aptos en el test.

PARA SITUAR EL PUNTO DE CORTE 

En teoría debería situarse en el valor donde se cometan menos errores. Dado que la validez de
las decisiones depende de dónde se situé el PC, es necesario analizar las consecuencias ya
que no tiene la misma importancia cometer un error u otro (falsos negativos o positivos). En
términos de decisión estadística, el PC se debe situar teniendo en cuenta la matriz que refleja
las pérdidas y ganancias derivadas de las decisiones:

R. MEDRANO (TUTOR) Página 9


PSICOMETRÍA ORIENTACIONES PARTE II (PROPIEDADES MÉTRICAS)

Criterios utilizados en la toma de


Falsos A CIERTOS decisiones (ambientes de incertidumbre):
Aceptado negativos Verdaderos + Criterio maximin (elegir alternativa que,
entre los resultados más desfavorables,
Criterio RA AA
RR AR permita la máxima ganancia (máximo de
mínimo)
Rechazado
RECHAZADOS Falsos Criterio minimax: se estudian las
Verdaderos positivos alternativas que van a proporcionar las
negativos
máximas perdidas y se elige la que ocasione
una pérdida menor (mínimo de los máximos)

MÉTODOS DE SELECCIÓN 

Para realizar de modo adecuado la selección hay que combinar la información disponible
mediante los siguientes modelos:

 Modelo Compensatorio (aditivo): a cada sujeto se le asigna una única puntuación global
(los sujetos pueden compensar las bajas puntuaciones). La forma adecuada de otorgar una
puntuación global es mediante el modelo de regresión
 Modelo conjuntivo: se fijan de antemano unos mínimos en cada una de las pruebas. Sólo
se seleccionan los sujetos que hayan superado esos mínimos en todas las pruebas.
 Modelo disyuntivo: sólo se exige superar un determinado nivel de competencia en algún de
los predictores.
 Modelo conjuntivo – compensatorio: se aplica el modelo conjuntivo y se seleccionan los
sujetos que superan los mínimos en cada uno de los predictores. A continuación se les aplica
el modelo compensatorio de forma que queden ordenados según su puntuación global. Para
efectuar la selección, se puede elegir a los mejores o establecer un PC.
 Modelo disyuntivo – compensatorio (después de aplicar el modelo disyuntivo se aplica el
compensatorio)

PARA ESTIMAR LA EFICACIA DE UNA SELECCIÓN 

Para estimar la eficacia de la selección podemos considerar dos formas:

 Mediante la razón de eficacia (proporción de personas seleccionadas que tienen éxito en el


criterio)
 Mediante el modelo de regresión (si se verifican los supuestos, permite determinar la
probabilidad de que los seleccionados tengan éxito en el criterio)

Situaciones:
1) No hay número limitado de plazas y se seleccionan todos los sujetos que superan una
determinada puntuación en el o los predictores.
2) Hay un número limitado de plazas y se seleccionan a los que hayan obtenido mejores
resultados en el o los predictores.

Se estima la puntuación pronosticada en el criterio de los sujetos (mediante la ecuación de


regresión). Se asume que las distribuciones de los errores de estimación condicionados a una
determinada puntuación en el test se ajustan a la distribución normal, con media dada en la
puntuación pronosticada en el criterio y una desviación típica dada por el error típico de
estimación. La puntuación típica correspondiente al punto crítico del criterio Zc (tablas de la curva
normal) y es la que marca la separación entre la posibilidad de éxito y la de fracaso.

PROBLEMA EJEMPLO 
300 aspirantes a controlador aéreo realizaron un test de rapidez perceptiva, de los que fueron
admitidos los 15 mejores. Las puntuaciones en el test se distribuyen según la curva normal con
media 5 y desviación típica 3. El coeficiente de validez del test es de 0,90 respecto a un criterio
con una varianza de 9 puntos y una media de 6. Para que un aspirante haya sido seleccionado

R. MEDRANO (TUTOR) Página 10


PSICOMETRÍA ORIENTACIONES PARTE II (PROPIEDADES MÉTRICAS)

¿qué puntuación mínima se le debe pronosticar en el criterio?


Datos del problema  rxy = 0.90; S x = 3; X = 5; Y = 6; S y = 9;
2

Para aplicar la formula tenemos que hallar X  15 de 300


supone un 5%. La probabilidad de que Z sea mayor que, X− X X−5
será P (Z ≥ 0.05) = 1 - P (Z ≤ 0.95) = según tabla- Zx = ;1.64 = ; X = 9,92
Sx 3
1.64

SY 3
Y ' = rxy ( X − X ) + Y = 0.9 (9.92 − 5) + 6 = 10.43
SX 3

3.- FACTORES QUE INFLUYEN EN EL COEFICIENTE DE VALIDEZ

VARIABILIDAD DE LA MUESTRA: El coeficiente de validez tiende a aumentar a medida que la


variabilidad es mayor y disminuye a medida que la muestra es más homogénea. Para un mismo
predictor y una misma medida del criterio el coeficiente puede variar de muestra a muestra.
SUPUESTOS 
La pendiente de la ecuación de regresión que permite pronosticar S sy
el criterio a partir de la variable predictora es igual en aspirantes B = b → R XY Y = rxy
(representados con las letras mayúsculas) y seleccionados SX sx
(representados con letras minúsculas)
El error típico de estimación es igual en ambos grupos:
SYX = s yx → S Y 1 − R XY
2
= s y 1 − rxy2
Si se quiere conocer el coeficiente de validez de la batería en el grupo de aspirantes, se despejan
las ecuaciones anteriores:
S X rxy
R XY =
S X2 rxy2 + s x2 − s x2 rxy2
Si se quiere estimar cuál es la variabilidad de la muestra de aspirantes en el criterio, despejamos las
ecuaciones anteriores:
S2X
S Y = sy 1 − rXY
2
+ r 2 XY
S 2x

FIABILIDAD DE LAS PUNTUACIONES (TEST Y CRITERIO): Cuando calculamos el coeficiente de


validez hay que tener en cuenta que estas puntuaciones empíricas están afectadas por errores de
medida que influyen en el coeficiente de validez, produciendo una serie de sesgos que es necesario
eliminar o controlar. La fórmula de atenuación (Spearman) permite corregir la atenuación,
disminución o reducción del coeficiente de validez debida a errores de medida.
CASOS PARTICULARES 
Estimación del coeficiente de validez suponiendo que el test y el rxy
criterio tuvieran una fiabilidad perfecta. Rvxvy =
R Vx Vy  coeficiente de validez teórico (puntuaciones en el test y en el rxx' ryy '
criterio libres de errores)
Estimación del coeficiente de validez suponiendo que el test tuviera rxy
una fiabilidad perfecta. Rvxy =
rxy  coeficiente de validez inicial rxx '
Estimación del coeficiente de validez suponiendo que el criterio tuviera rxy rxy
una fiabilidad perfecta. R xvy = =
rxx y ryy  coeficientes de fiabilidad iniciales (x = test e y = criterio) rvy ryy '
Estimación del coeficiente de validez en el supuesto de mejorar la rxy
fiabilidad del test y del criterio. R xy =
rxx ' ryy '
RXX  coeficiente de fiabilidad final del test (después de ser mejorado)
RYY  coeficiente de fiabilidad final del criterio (después de mejorado) R xx ' R yy '

R. MEDRANO (TUTOR) Página 11


PSICOMETRÍA ORIENTACIONES PARTE II (PROPIEDADES MÉTRICAS)

Estimación del coeficiente de validez en el supuesto de mejorar la rxy


fiabilidad del test. R xy =
rxx '
R xx '
Estimación del coeficiente de validez en el supuesto de mejorar la rxy
fiabilidad criterio. R xy =
ryy '
R yy '
Valor máximo del coeficiente de validez: si fuera igual a la unidad sería rxy
el valor máximo que puede alcanzar el coeficiente de validez (el índice RVxVy = ≤1
de fiabilidad)  rxy ≤ rvx rxx ' ryy '

LONGITUD DEL TEST: La mejora del coeficiente de fiabilidad, al aumentar la longitud del test,
también repercute en la mejora del coeficiente de validez.
La relación del coeficiente de validez con la fiabilidad y la longitud del
test viene dada por la expresión adjunta:
RXY  coeficiente de validez final (estimado al modificar longitud del test) rxy n
R XY =
rxy  coeficiente de validez inicial del test (antes de modificar la longitud) 1 + (n − 1) rxx'
n = nº de veces que se aumenta o disminuye la longitud del test
rxx  coeficiente de fiabilidad inicial del test.
Cuando se quiere saber el nº de veces que hay que aumentar o 2
R XY (1 − rxx' )
disminuir la longitud del test para conseguir un determinado valor del n= 2
coeficiente de validez, se aplica la fórmula  rxy − R XY2
rxx'
Para saber cuántos ítems deben añadirse, según la longitud  EF
n= → EF = n * EI
EI

PROBLEMAS EJEMPLO  FACTORES QUE INFLUYEN (Coeficiente validez)


Las puntuaciones en un test predictor y un criterio de interés presentan un coeficiente de fiabilidad
de 0,75 y 0,60, respectivamente. Asimismo, sabemos que el coeficiente de determinación es igual
a 0,25.
rXX = 0,75 (coeficiente de fiabilidad inicial o empírico del test)
rYY = 0,60 (coeficiente de fiabilidad inicial o empírico del criterio)
r2XY = 0,25 (permite obtener  rXY = 0,5  coeficiente de validez inicial o empírico)

1.- ¿Cuál sería el valor del coeficiente de validez si tanto las puntuaciones del test como del
criterio estuviesen libres de errores de medida?:

rxy 0.5 Si se pudieran eliminar todos los errores de


RVxVy = = = 0,75 medida que afectan al test y al criterio, habría
rxx ' ryy ' 0.75 * 0.60 un aumento considerable del coeficiente de
validez (R VxVy  de 0,5 a 0,75)

2.- ¿Cuál sería el valor del coeficiente de validez si sólo el test tuviera una fiabilidad perfecta?

rxy Si se pudieran eliminar todos los errores de


Rvxy =  R VxY  (0,5 / 0,87) = 0,57 medida que afectan al test, habría un leve
rxx ' aumento del coeficiente de validez:
(R VxY  de 0,5 a 0,57)

3.- ¿Cuál sería el valor del coeficiente de validez si sólo el criterio tuviera una fiabilidad perfecta?

R. MEDRANO (TUTOR) Página 12


PSICOMETRÍA ORIENTACIONES PARTE II (PROPIEDADES MÉTRICAS)

rxy Si se pudieran eliminar todos los errores de


R xvy =  R VxY  (0,5 / 0,77) = 0,65 medida que afectan al criterio, habría un
ryy ' aumento importante del coeficiente de validez:
(R XVy  de 0,5 a 0,65)

4.- ¿Cuál sería el valor del coeficiente de validez mejorando la fiabilidad del test (0,90), del criterio
(0,70) ó de ambos?:

rxy rxy rxy


R xy = R xy = R xy =
rxx ' ryy ' RXY = 0,59 rxx ' RXY = 0,55 ryy ' RXY = 0,54
R xx ' R yy ' R xx ' R yy '
RXY = 0,5 / √(0,75/0,90)√(0,60/0,70) RXY = 0,5 / √ (0,75/0,90) RXY = 0,5 / √ (0,60/0,70)
Como era esperable el mayor aumento del coeficiente de validez se produce cuando se
mejora la validez del test y del criterio. No obstante, el aumento es mucho menor que
cuando se eliminan los errores.

5.- Si un test tiene un coeficiente de fiabilidad de 0,64, ¿cuál sería el valor máximo del coeficiente
de validez que se podría alcanzar?

El valor máximo que puede alcanzar el coeficiente


rxy ≤ rvx ; rxv = rxy = 0.64 = 0.8 de validez es  el índice de fiabilidad.

PROBLEMAS EJEMPLO (VALIDEZ Y LONGITUD)


El coeficiente de fiabilidad de un test X es = 0,53, aplicado a un grupo con varianza 25. Si se
añaden 5 ítems paralelos a los que tiene el test, el coeficiente de fiabilidad pasaría a ser = 0,63; el
porcentaje de varianza común entre el test original y un criterio externo es del 25%. El coeficiente
de validez, si se eliminasen por completo los errores de medida del test original, sería:
S y2'
Datos del problema  rxx ' = 0.53; S = 25 : S x = 5; R XX ' = 0.63; r =
2
x
2
xy = 0.25; rxy = 0.5
Sy
rxy 0.5
Rvxy = = = 0.68 R VxY  Coeficiente de validez en el supuesto de que el
rxx ' 0.53 test tuviera una fiabilidad perfecta

El coeficiente de validez del test después de añadirle los 5 elementos paralelos 

rxy n 0.50 1.51


R XY = = = 0.54 RXY  Coeficiente de validez estimado al
1 + (n − 1)rxx ' 1 + (1.51 − 1)0.50 modificar la longitud del test.

R XX ' (1 − rxx ' ) Al añadir 5 elementos aumenta la


0.63(1 − 0.53)
n= = = 1,51 longitud del test  n = 1,51
rxx ' − (1 − R XX ? ) 0.53 − (1 − 0.63)

PROBLEMAS EJEMPLO (VALIDEZ Y LONGITUD)


Un test compuesto por 30 ítems presenta una fiabilidad de 0,60 y una validez de 0,70, ¿cuántos
ítems paralelos tendríamos que añadir si deseamos alcanzar un coeficiente de validez de 0,80?

Datos del problema  R XY = 0.80; rxy: = 0.70; rxx ' = 0.60; EI = 30

R. MEDRANO (TUTOR) Página 13


PSICOMETRÍA ORIENTACIONES PARTE II (PROPIEDADES MÉTRICAS)

2
R XY (1 − rxx ' ) 0.80 2 (1 − 0.60)
n= = = 2.4150 Se debe aumentar la longitud del
rxy2 − R XY
2
rxx ' 0.70 2 − 0.80 2 * 0.60 test 2,415 veces.
EF El aumento supone un número de
n= → EF = n * EI = 2.4150 * 30 = 72.4 ítems 
EI EF – EI = 74,45 – 30 =42,45 ≈ 42

R. MEDRANO (TUTOR) Página 14


PSICOMETRÍA ORIENTACIONES PARTE II (PROPIEDADES MÉTRICAS)

2ª PARTE: EVALUACIÓN DE LA PROPIEDADES MÉTRICAS DE LOS INSTRUMENTOS DE


MEDICIÓN PSICOLÓGICA

TEMA Nº 8  ANÁLISIS DE LOS ÍTEMS

INTRODUCCIÓN 

El análisis de los ítems pretende obtener evidencias sobre su calidad con objeto de identificar
los que se han de descartar, reformular los que puedan ser mejorados y conservar los que
presenten buenas propiedades psicométricas (conociendo la calidad de cada uno de los ítems,
podríamos deducir la calidad psicométrica del test)

En general, el análisis de los ítems de un test se


puede llevar a cabo mediante dos procedimientos
complementarios: análisis cuantitativos (se
obtienen determinados estadísticos basados en la
distribución de las respuestas de los sujetos a las
distintas alternativas) y juicio de expertos (se
cuestiona la calidad métrica del ítem en función de
criterios conocidos). Un buen análisis de ítems debe
incluir ambos procedimientos (cuantitativo y
cualitativo)

Una vez analizada la calidad psicométrica de los ítems de un test se procede a estudiar la calidad
global del test mediante la fiabilidad y la validez.

Los ítems pueden adoptar distintos formatos y evaluar variables cognitivas (aptitudes,
rendimiento, etc.) en las que hay respuestas correctas e incorrectas y no cognitivas (actitudes,
intereses, valores, etc.) en las que no hay respuestas correctas e incorrectas. Los procedimientos
cuantitativos que se utilizan aluden a ítems aptitudinales o de rendimiento (existe una alternativa
correcta y una o varias incorrectas)

Aspectos a evaluar 

 El análisis de la alternativa correcta permite obtener: el índice de dificultad (proporción de


sujetos que responde al ítem correctamente), el índice de discriminación (capacidad del ítem
para diferenciar a los sujetos con distinto nivel en el rasgo medido), la fiabilidad (cuantifica el
grado en el que el ítem está midiendo con precisión el atributo de interés) y la validez del ítem
(determina el poder predictivo de cada uno de los ítems respecto a un criterio externo de
interés). Los índices de dificultad y discriminación están relacionados con la media y la varianza
de las puntuaciones totales del test; la fiabilidad y la validez, con la desviación típica.
 El análisis de las respuestas incorrectas (distractores) aporta evidencias sobre la utilidad de
cada alternativa y su contribución a la calidad métrica del ítem.
 El funcionamiento diferencial de los ítems (FDI): sujetos de distintos grupos de pertenencia,
con un mismo nivel en el rasgo medido, tienen distintas probabilidades de éxito en el ítem.

1.- DIFICULTAD DE LOS ÍTEMS

Para cuantificar la dificultad de los ítems dicotómicos o dicotomizados se utiliza la proporción de


sujetos que han respondido correctamente al ítem (depende de la muestra utilizada):

ID = A / N A = número de sujetos que aciertan el ítem.


(Oscila entre 0 y 1) N = número de personas que intentan responder el ítem.

Cero indica que ningún sujeto lo ha acertado (difícil) / Uno que todos lo ha acertado (fácil)

R. MEDRANO (TUTOR) Página 1


PSICOMETRÍA ORIENTACIONES PARTE II (PROPIEDADES MÉTRICAS)

El Índice de dificultad está directamente relacionado con la media y la varianza del test:

ID = ∑ X / N Siendo X (0 ó 1 aciertos / errores)  el índice de dificultad es igual a


_ la media de aciertos o errores.
X = ∑ ID La media de las puntuaciones en el test = suma de los índices de
dificultad de los ítems.
Varianza de los ítems dicotómicos (p = proporción de sujetos que
S2 = p · q responden correctamente al ítem (p = ID) y (q = 1 – p)
Un ítem alcanza su máxima varianza cuando p = 0,5

Corrección de los aciertos por azar  En ítems de elección múltiple, se debe hacer una
corrección en el cálculo de la dificultad del ítem que controle las respuestas al azar. A mayor
número de distractores (alternativas incorrectas) menos probables son los aciertos por azar.

IDC = Índice de dificultad corregido


A E / (K – 1) q A = Aciertos // E = Errores
IDC = ----- -- ---------------- = p - --------- p y q = proporción de aciertos / errores
N N K-1 k = número de alternativas del ítem
N = nº personas que intentan responder el ítem

En general los ítems no deben tener dificultades por debajo de 0,20 no por encima de 0,80 (la
mayoría deben presentar niveles medios entre 0,30 y 070)

PROBLEMA EJEMPLO
En la tabla aparecen las respuestas de 200 sujetos a 3 alternativas (A, B, C), donde la opción B es
la correcta. Por filas aparece la frecuencia de sujetos que han seleccionado cada alternativa y que
han obtenido puntuaciones superiores e inferiores al 50% de su muestra.

A B* C ∑
50% Superior 19 73 47 139
50% Inferior 35 10 16 61
∑ 54 83 63 200

Índice de dificultad del ítem corrigiendo el azar es:

IDC = p – (q / K-1)  (83/200) - (0,585/2) = 0,1225

También  IDC = A - [E / (K – 1)] / N  IDC = 83 - (117 / 2) / 200 = 0,1225

2.- PODER DISCRIMINATIVO DE LOS ÍTEMS

Lógica del concepto  dado un ítem, los sujetos con buenas puntuaciones en el test han de
acertarlo en mayor proporción que los que tienen bajas puntuaciones.
Discriminar  diferenciar entre los sujetos en función de su nivel de competencia. En general, el
cálculo del poder discriminativo de un ítem implica contrastar la proporción de aciertos entre dos
grupos extremos de aptitud, uno bajo y otro alto (si el ítem discrimina adecuadamente, la
proporción de aciertos sería mayor en el grupo de alta aptitud que en el de baja aptitud)

Formas de estudiar el poder discriminativo de los ítems 


Ítems de actitudes:
 Índice de discriminación basado en los  Índice de Homogeneidad (IH); basado en la
grupos extremos correlación
 Índices de discriminación basados en la  Índice de discriminación basado en la
correlación correlación corregida
 Índice de discriminación basado en los
grupos extremos.

R. MEDRANO (TUTOR) Página 2


PSICOMETRÍA ORIENTACIONES PARTE II (PROPIEDADES MÉTRICAS)

Índice de discriminación basado en los grupos extremos:

pS = proporción aciertos grupo superior


D = pS – pi pi = proporción aciertos grupo inferior

Interpretación (nivel discriminación del ítem) Observaciones


Valores Interpretación  Kelly aconseja tomar el 27% ó el 25%
D ≥ 0,40 Discrimina muy bien superior e inferior para formar los grupos.
0,30 ≤ D ≤ 0,39 Discrimina bien  El índice oscila entre (– 1) y 1 (todos los
0,20 ≤ D ≤ 0,29 Discrimina poco sujetos del grupo superior aciertan el ítem)
0,10 ≤ D ≤ 0,19 Necesita revisión  0 indica que es acertado indistintamente
D ≤ 0,10 Carece de utilidad por ambos grupos

Problema ejemplo: Las respuestas de los sujetos de una muestra a un elemento de un test, se
distribuyeron según la tabla adjunta. La respuesta correcta es la C y tanto las puntuaciones en el
test como en el ítem se distribuyen normalmente. Averiguar el índice de discriminación del ítem.

Alternativas del ítem 120 - 30


A B C* D D = --------------------- = 0,64
27% 10 0 120 10 140
Superior Discrimina muy bien
27% Inferior 10 0 30 100

Índices de discriminación basados en la correlación (la discriminación también se puede


definir como la correlación entre las puntuaciones de los sujetos en el ítem y sus puntuaciones en
el test). La puntuación total de los sujetos en el test se calcula descontando la puntuación del ítem
y el índice de correlación debe ser coherente con el tipo de puntuaciones del ítem y del test.

Correlación Φ Correlación biserial-puntual Correlación biserial


_ _ _ _
pXY – pX pY X A – XT _____ XA – X T
Φ = ----------------------- rbp = ------------------- √ p/q rb = ------------------- (p/y)
√ pX qX pY qY SX SX
El test (criterio) continua Test e ítem continuas
El test (criterio) y el ítem y el ítem dicotómica Una se dicotomiza (ítem)
Variables dicotómicas
___
Relación entre rbp y rb  rbp = rb (Y / √pq

pXY = proporción de sujetos que han acertado el ítem y son aptos en el criterio
pX y pY = proporción de sujetos que han superado el ítem o son aptos en el criterio
qX y qY = proporción de sujetos que no han superado el ítem o no son aptos en el criterio
_ _
XA y XT = media del test de los sujetos que aciertan el ítem / media del test
SX = desviación típica del test
p y q = proporción de sujetos que aciertan / fallan el ítem
y = altura curva normal, corresponde a una Z (P. Típica) que deja por debajo una prob.

Problemas ejemplo  Se ha construido un test que se corrige clasificando a los sujetos en dos
categorías: aptos y no aptos. Todos los elementos del test son dicotómicos. Se aplica el test a un
grupo normativo y obtenemos la siguiente tabla:

Ítem 6 (X)
Acierta (1) Falla (0) ∑
Aptos (1) 120 30 150
120/330 = 0,36 150/330 = 0,45
No Aptos 20 160 180
Test (Y) 180/330 = 0,55
Criterio (0)
∑ 140 190 330
140/330 = 0,42 190/330 = 0,58

Φ = (0,36 – 0,42·0,45) /(0,42·0,58·0,45·0,55) = 0,171 / 0,245 = 0,69

R. MEDRANO (TUTOR) Página 3


PSICOMETRÍA ORIENTACIONES PARTE II (PROPIEDADES MÉTRICAS)

Problemas ejemplo A partir de los datos de la tabla calcular el poder discriminativo del ítem nº
2, utilizando la correlación biserial y la biserial puntual.

Ítems Total (Test)


Sujetos 1 (a) 2 (b*) 3 (c) X (X – i2)
A 1 1 1 3 2
B 1 0 1 2 2
C 0 1 1 2 1
D 0 0 0 0 0
E 1 1 1 3 2

Sujetos que aciertan el ítem nº 2 = A, C, E ________


Media en el test = (2+1+2 = 5) / 3 = 1,67 rbp = [(1,67 – 1,4) / 0,8] √ (0,6/0,4)
Media total test = (2+2+1+0+2 = 7) / 5 = 1,40
Desviación típica del test  rbp = 0,337 · 1,22 = 0,41
______________ __________
√ ∑ X2/n – Media2  SX = √ (2,6 – 1,96  0,8
rb = [(1,67 – 1,4) / 0,8] (0,6/0,3863)
Proporción sujetos que han acertado / fallado el ítem:
p (3/5) = 0,6 y q (2/5) = 0,4 rb = 0,337 · 1,55 = 0,52
y = valores recogidos en la tabla nº 7 del formulario,
con p = 0,60.
___
Relación entre correlación biserial puntual y biserial rbp = rb (Y / √pq
(la biserial siempre es la mayor) _____
Ítem con buen índice de discriminación. 0,52 (0,3863 / √ 0,24) = 0,41

Ítems de Actitudes: Como se ha visto, para los ítems de las actitudes no existen respuestas
correctas o incorrectas (el sujeto se sitúa en un continuo en función del grado del atributo medido).
El procedimiento para estimar la discriminación de los ítems de actitudes es calcular la correlación
entre las puntuaciones del ítem y las del test (como los ítems no son dicotómicos  correlación
de Pearson)

Índices de discriminación en los test de actitudes


Índice de Homogeneidad (IH) 

R JX =
∑ ∑ ∑
N JY − X J ∑J = Suma puntuaciones de los sujetos en el

[ ( ∑ ) ][ ∑ ]
elemento J.
∑N X − 2 2
X N J − (∑ )2
J
2
∑X = Suma puntuaciones de los sujetos en el
elemento J.
RJX = correlaciones entre las puntuaciones de
RJX = Cov (jx) / SJ SX los sujetos en el elemento J y en la escala
total.
Correlación corregida  R J (X-J) = correlación entre las puntuaciones
R JX S X − S J de los sujetos en el elemento J y en la escala
RJ ( X − J ) = total (descontando la puntuación del ítem)
S 2 X + S 2 J − 2 R JX S X S J N = número total de los sujetos de la muestra
SX y SJ = desviaciones típicas de las
puntuaciones en el test y en el ítem.
Índice de discriminación (grupos extremos) _ _
X SJ − X IJ XSJ y XIJ S2IJ y S2SJ = Medias y Desviaciones
T= de las puntuaciones obtenidas en el ítem por
(n S − 1) S 2 SJ + (ni − 1) S 2 IJ el 25% de los que obtuvieron en el test las
[ ]
1 / n S + 1 / ni puntuaciones más altas y más bajas.
n S + ni − 2 nS y ni = sujetos grupo superior e inferior

R. MEDRANO (TUTOR) Página 4


PSICOMETRÍA ORIENTACIONES PARTE II (PROPIEDADES MÉTRICAS)

Problema ejemplo  La siguiente matriz de datos representa las respuestas dadas por ocho
sujetos a un test de elección múltiple de seis elementos, cada uno de ellos con cuatro alternativas
de respuesta. Por simplicidad, en la matriz se ha indicado únicamente si el sujeto ha elegido la
opción correcta (con un 1) o una opción incorrecta (con un 0). Calcular El índice de
homogeneidad del elemento nº 4 y determinar el número de discriminaciones que puede hacer el
ítem nº 5:
Ítems Total (Test)
Sujetos X1 X2 X3 X4 X5 X6 X X · X4 X2 X24
1 1 1 0 0 1 0 3 0 9 0
2 1 1 1 1 1 0 5 5 25 1
3 1 1 1 0 0 0 3 0 9 0
4 1 0 0 1 0 0 2 2 4 1
5 1 1 0 0 0 0 2 0 4 0
6 1 1 1 1 0 0 4 4 16 1
7 1 0 0 0 0 0 1 0 1 0
8 1 1 0 0 1 0 3 0 9 0
∑ 3 23 11 77 3

Índice de homogeneidad (IH) 

Cálculos previos 
(8 · 11) – (23 · 3) S2X = (77 / 8) – (23 / 8)2 = 9,625 - 8,26  1,36
RXJ = ------------------------------------
√ (8 · 77 – 232) (8 · 3 -32) S2J = (3 / 8) – (3 / 8)2 = 0,375 - 0,141 = 0,23
19
RXJ = -------------- = 0,53 SJ = 0,48 y SX = 1,17
√ (87 · 15)

Correlación corregida  R J (X-J) = correlación entre las


(0,53 · 1,17) – 0,48 0,14 puntuaciones de los sujetos en el
IH = ----------------------------------------------- = ---------- = 0,14 elemento J y en la escala total
√ (1,36 + 0,23 – 2·0,53·1,17·0,48) √1 (descontando la puntuación del ítem)

Problema ejemplo  En la tabla se representan las puntuaciones dadas al ítem nº 9 por el 25%
de los sujetos con puntuaciones más altas, y el 25% con puntuaciones más bajas en un test de
actitudes formado por ítem de tipo Likert con 10 categorías de respuesta. Sabiendo que la
varianza de ambos grupos (superior e inferior) es igual a 1,56, ¿podemos decir que el elemento nº
9 discrimina de manera estadísticamente significativa? (NC = 95% / Contraste bilateral)

Sujeto Punt. 8,67 – 3,67


20 10 T = ------------------------------------------- = 4,9
25% 2 9 √ (2·1,56)+(2·1,56) / 4 [1/3+1/3]
Superior 13 7
3 4 Medias  (10+9+7)/3 = 8,67 y (4+5+2)/3 = 3,67
25% Inferior 5 5
8 2 SS = Si = 1,56

Decisión (NC 95%; bilateral)  t con n1 + n2 – 2 (3+3-2 = 4) grados de libertad  t0,975 = 2,78
Como T = 4,9 > TC = 2,78  Rechazamos H0 (las medias son distintas y, por tanto, el ítem nº 9
tiene poder discriminativo)

Factores que afectan a la discriminación (relacionados con la discriminación):

 Variabilidad de los ítems (si no hay variabilidad en las respuestas el ítem no discrimina)
 Dificultad del ítem (con dificultad media, p = 0,5, el ítem alcanza máximo poder discriminativo)
 Dimensionalidad del test (el test debe medir un único concepto; unidimensional)
 Fiabilidad del test (ítems con poco poder discriminativo se asocian a tests poco fiables)

R. MEDRANO (TUTOR) Página 5


PSICOMETRÍA ORIENTACIONES PARTE II (PROPIEDADES MÉTRICAS)

Relación entre variabilidad del test y discriminación de los ítems:

SX = ∑ SJ rJX SX y SJ = desviaciones típicas del test y de las puntuaciones en el ítem J.


_________ rJX = índice de discriminación del ítem J.
SX = √ ∑ p q r2JX p y q = proporción de sujetos que aciertan / fallan el ítem J.
(Ítems dicotómicos)

Relación entre fiabilidad del test y discriminación de los ítems (Alpha de Cronbach):

α =
n 
1 −
∑ S 2J 
 =
n 
1 − ∑S 2
J 
 α = coeficiente de fiabilidad del test
n − 1  S 2 X  n − 1 
 [∑ S r ]
J JX
2
 Se sustituye SX por ∑ SJ rJX

3.- ÍNDICES DE FIABILIDAD Y VALIDEZ DE LOS ÍTEMS

 Índice de Fiabilidad de los ítems (criterio interno) se utiliza para cuantificar el grado que el
ítem en cuestión está midiendo con precisión el atributo de interés.
 Índice de Validez de los ítems (criterio externo)  Implica correlacionar las puntuaciones
obtenidas por una muestra de sujetos en el ítem con las puntuaciones obtenidas por los
mismos sujetos en algún criterio externo de interés.

FIABILIDAD VALIDEZ ACLARACIONES


SJ = desviación típica de las puntuaciones en el ítem J.
IF = SJ IDJ IV = SJ rJY IDJ = índice de discriminación del ítem J
rJX = índice de discriminación del ítem J.
IF = SJ rJX IV = SJ rbpJY rJY = correlación entre puntuaciones en el ítem J y en el criterio.
rbpJY = correl biserial puntual (criterio = continua; ítem = dicotómica)
Relación entre los parámetros del ítem y la fiabilidad y validez del test

rXY =
∑ S J rJY
=
∑ IV J IFJ e IVJ = Índices de fiabilidad y validez del ítem J.
La validez del test (rXY) se puede estimar a partir de la discriminación
∑ S J rJX ∑ IFJ de cada uno de los ítems (rJX), de su validez (rJY) y de su nivel de
dificultad (SJ = pJ · qJ)

Equivalencia de interés  [∑ SJ rJX]2 = S2X  El sumatorio al cuadrado de los índices de fiabilidad


(IF) de los ítems, coincide con la varianza de las puntuaciones de los sujetos en el test (ver Alfa de
Cronbach). A mayores índices de fiabilidad en los ítems, mejor fiabilidad en el test.

Problema ejemplo  En la tabla se presentan las puntuaciones de 5 sujetos en un test de tres


ítems y los correspondientes Índices de validez:

Ítems TOTAL TEST MENOS ÍTEM


Sujeto A (1) B C (3) X X-i1 X-i2 X-i3
s (2)
A 0 0 1 1 1 1 0
B 1 1 1 3 2 2 2
C 1 0 0 1 0 1 1
D 1 1 1 3 2 2 2
E 1 1 1 3 2 2 2
Prob = 0,8 0,6 0,8

Para calcular la varianza de cada elemento (los ítems son dicotómicos: 1 acierto y 0 fallo)
Ítem A (p = 4 aciertos / 5 respuestas = 0,8; por tanto, 1 fallo / 5 respuestas = 0,2)
Ítem B (p = 3 aciertos / 5 respuestas = 0,6; por tanto, 2 fallo / 5 respuestas = 0,4)
Ítem C (p = 4 aciertos / 5 respuestas = 0,8; por tanto, 1 fallo / 5 respuestas = 0,2)
Desviación Típica de cada ítem SJ = √p·q  S2A = (4/5)·(1/5) = 0,16  SA = 0,40
S2B = (3/5)·(2/5) = 0,24  SB = 0,49 // S2C = (4/5)·(1/5) = 0,16  SC = 0,40
Índices de Validez (rJY)  A = (0,20) // B = (0,40) // C = (0,60)

R. MEDRANO (TUTOR) Página 6


PSICOMETRÍA ORIENTACIONES PARTE II (PROPIEDADES MÉTRICAS)

Pasamos a calcular las correlaciones entre cada ítem (1, 2 y 3) y la puntuación total en el
test (eliminando la correspondiente al ítem implicado):

Media XP = Media en el test de los sujetos que aciertan el ítem

Ítem 1  (2+0+2+2) / 4 = 1,5


Ítem 2  (2+2+2) / 3 = 2
Ítem 3  (0+2+2+2) / 4 = 1,5

_
X = Media total del test (eliminando ítem nº 1)  (1+2+0+2+2 / 5 = 1,4)
_
X = Media total del test (eliminando ítem nº 2)  (1+2+1+2+2 / 5 = 1,6)
_
X = Media total del test (eliminando ítem nº 3)  (0+2+1+2+2 / 5 = 1,4)

Desviación típica de las puntuaciones del test 

Para ítems 1 y 3  S2X = (02+22+12+22+22) / 5 – (1,4)2 = 0,64  SX = 0,8


Para ítems 2  S2X = (12+22+12+22+22) / 5 – (1,6)2 = 0,24  SX = 0,49

Índices de discriminación  rbpJY


________
Para el ítem 1  rbp = [(1,5 – 1,4) / 0,8] √ (0,8/0,2) = 0,125 · 2 = 0,25
_______
Para el ítem 2  rbp = [(2 – 1,6) / 0,49] √ (0,6/0,4) = 0,816 · 1,22 = 0,99
_______
Para el ítem 3  [(1,5 – 1,4) / 0,8] √ (0,8/0,2) = 0,125 · 2 = 0,25

A partir de los índices de validez y fiabilidad de los ítems calculamos el coeficiente de validez del
test:

rXY =
∑ S J rJY
 rXY =
[ (0,40 x0,20) + (0,49 x0,40) + (0,40 x0,60)]
= 0,76
∑ S J rJX [ (0,40 x0,25) + (0,49 x0,99) + (0,40 x 0,25)]

4.- ANÁLISIS DE DISTRACTORES.-

Una vez realizado el análisis de las alternativas correctas, para mejorar la calidad de los ítems
resulta igual de relevante analizar los distractores o respuestas incorrectas. Básicamente, este
análisis pretende:

 Controlar que todas las acciones incorrectas sean equiprobables (igual de atractivas para los
que no conocen la respuesta correcta) y elegidas por un mínimo de sujetos (10%)
 Que el rendimiento en el test de los sujetos que seleccionan las respuestas incorrectas sea
menor al de los sujetos que han seleccionado las correctas (se espera que a más aptitud
disminuya el número de sujetos que seleccionan las alternativas incorrectas y viceversa).

Equiprobabilidad de los distractores  Los distractores son equiprobables si son seleccionados


por un número mínimo de sujetos y son igualmente atractivos para los que no conocen la

R. MEDRANO (TUTOR) Página 7


PSICOMETRÍA ORIENTACIONES PARTE II (PROPIEDADES MÉTRICAS)

respuesta correcta. Se comprueba mediante la prueba Chi-Cuadrado de Independencia:

( FT − FO) 2 FT = frecuencias teórica


χ 2
= ∑ FT
FO = frecuencias observadas
X2 = se distribuye con K-1 gl (K = nº alternativas incorrectas)

Problema ejemplo  Se sospecha que las alternativas incorrectas de un ítem del último examen
de Psicometría no son equiprobables. En la siguiente tabla se muestra la frecuencia de sujetos
que seleccionaron cada una de las tres alternativas del ítem, donde la B es la correcta. Averiguar
si las alternativas incorrectas son estadísticamente equiprobables a un nivel de confianza del 95%.

FT = nº de respuestas incorrectas (36+52 = 88)  88/2 = 44


X2 = (44-36)2 + (44-52)2 / 44  2,91
A B* C
36 389 52 Valor teórico X2 (Tabla con k – 1 = 1 gl y α = 0,05)  3,84
Como 2,91 < 3,84  Aceptamos H0 (las alternativas incorrectas
son igualmente atractivas para todos los sujetos)

Poder discriminativo de los distractores (basado en la correlación biserial puntual)  Si,


normalmente, esperamos que la correlación entre el test y la opción correcta sea alta y positiva; en
el caso de los distractores, lo esperable es que su correlación sea negativa (cuando aumenta la
aptitud de los sujetos, disminuye la proporción de sujetos que elige la opción incorrecta). Para
cuantificar el poder discriminativo de los distractores recurrimos a la correlación que será biserial,
biserial puntual o de Pearson en función de las variables:

XA = media en el test de los sujetos que han seleccionado la


X A − XT
rbp = p/q alternativa incorrecta a estudiar. XT = media del test.
SX SX = desviación típica del test
p y q = proporción de sujetos que aciertan y fallan.

Problema ejemplo  En la siguiente tabla se muestran las respuestas de cinco sujetos a un ítem
de tres alternativas, donde la opción correcta es la C, así como la opción incorrecta seleccionada y
la puntuación total obtenida en el test. Calcular la discriminación del distractor A utilizando la
correlación biserial puntual y comentar el resultado.

Sujet Ítem X X X- i _ _
o XA = (3+4) / 2 = 3,5 y XT = (1+3+4+0+3) / 5 = 2,2
1 1 2 1 S2X-i = (12+32+42+02+32 / 5) -2,22 = 2,16  SX = √2,16 = 1,47
2 0 3 3 p y q  (2/5 = 0,4 y 0,6)
(A)
3 0 4 4 _______
(A) rbp = [(3,5 – 2,2) / 1,47] √ (0,4/0,6) = 0,73
4 1 1 0
5 0 3 3
(B)

El resultado (rbp = 0,73), indica que el distractor está confundiendo a los sujetos que obtienen
mejores puntuaciones en el test; por tanto, no discrimina en sentido contrario a la alternativa
correcta, tal como cabría esperar de un buen distractor.

5.- FUNCIONAMIENTO DIFERENCIAL DE LOS ÍTEMS (FDI)

Funcionamiento diferencial de los ítems (FDI)  de forma sistemática sujetos de distintos


grupos de pertenencia, pero con el mismo nivel en el rasgo medido, tienen distintas probabilidades
de éxito en el ítem de estudio.

Conceptos básicos:

R. MEDRANO (TUTOR) Página 8


PSICOMETRÍA ORIENTACIONES PARTE II (PROPIEDADES MÉTRICAS)

 Sesgo (sujetos igualmente hábiles no tienen la misma probabilidad de acertar el ítem por el
hecho de pertenecer a subpoblaciones distintas). El sesgo está relacionado con la validez de
constructo e indica que está actuando alguna variable extraña.

 FDI (detecta que un ítem está funcionando de manera distinta en dos grupos con el mismo nivel
de aptitud). Detectada la circunstancia, no apunta posibles causas.
 Impacto (diferencias reales entre grupos que se deben a diferencias en el nivel de competencia
de las subpoblaciones).Mientras que en el FDI las diferencias se deben a motivos distintos al
nivel de competencia, en el impacto hay un grupo de sujetos más competente.

Para detectar FDI se utiliza el método de Mantel-Haenszel 


 Primero, identificar una variable que sea la posible causante del FDI.
 Estructurar dos grupos, uno de referencia (GR) que suele ser el grupo favorecido y otro focal
(GF) que suele ser el perjudicado.
 Se establecen distintos niveles de aptitud (a partir de la puntuación obtenida en el test)
 Se cuentan las respuestas correctas e incorrectas para cada grupo y nivel de habilidad.

Correcta Incorrecta Ai Di
Grupo de Referencia
s
Ai
s
Bi NRi
∑ Ni
A, B, C y D 
Frecuencias
(GR) α MH = absolutas de
Bi Ci
Grupo Focal
(GF)
Ci Di NFi ∑ Ni
cada categoría
de habilidad i
N1i N0i Ni

El procedimiento se traduce en los siguientes criterios:

Un ítem no presenta FDI si el cociente entre los que


H0: (Ai / Bi) = (Ci / Di) aciertan el ítem y lo fallan es el mismo para los dos grupos
Para todas las categorías de cada uno de los niveles de aptitud.

Los valores de α MH oscilan entre 0 e ∞


[Valores >1 indican que el ítem favorece al grupo de referencia (GR) y menores al grupo
focal (GF)]
[Valores iguales o próximos a 1 indican que el ítem no presenta FDI.

Problema ejemplo  Se quiere investigar si un test de razonamiento matemático presenta sesgo


en uno de sus ítems. Para ello se contabilizaron los aciertos y errores en un grupo de niños y otro
de niñas en las categorías de alta y baja competencia. Analizar si existe FDI, tomando como
referencia el grupo de los niños.

GRUPO BAJA COMPETENCIA GRUPO ALTA COMPETENCIA


ACIERTOS ERRORES ACIERTOS ERRORES
Niños 4 (A) 6 (B) 12 (A) 8 (B)
(GR)
Niñas (GF) 3 (C) 7 (D) 9 (C) 11 (D)
Suma (∑) 7 13 21 10

Grupo Términos de la expresión de Mantel-Haenszel


Competenci
a
Ai Di Ai Di / Ni Bi Ci Bi Ci / Ni
Baja (7 · 4 = 28) (28 / 20 = 1,4) (3 · 6 = 18) (18 / 20 =0,9)
Alta (11 · 12 = 132) (132 / 40 = 3,3) (9 · 8 = 72) (72 / 40 = 1,8)
Suma (∑) 4,70 2,70

R. MEDRANO (TUTOR) Página 9


PSICOMETRÍA ORIENTACIONES PARTE II (PROPIEDADES MÉTRICAS)

Ai Di
∑ Ni 4,70
Dado que αMH (1,74) > 1, el ítem presenta FDI y
favorece al grupo de referencia (niños)
α MH = = = 1,74
Bi Ci 2,70
∑ Ni

R. MEDRANO (TUTOR) Página 10


PSICOMETRÍA ORIENTACIONES PARTE III (APLICACIÓN Y EVALUACIÓN)

3ª PARTE: APLICACIÓN DE LOS INSTRUMENTOS Y EVALUACIÓN DE LOS SUJETOS

TEMA Nº 9  ASIGNACIÓN, TRANSFORMACIÓN Y EQUIPARACIÓN DE LAS PUNTUACIONES.

1.- INTRODUCCIÓN 

Una vez elaborada la prueba definitiva hay que aplicarla, asignar


puntuaciones a los sujetos y dotar de significado a las puntuaciones para
poder interpretarlas. Los principales procedimientos de interpretación son:
 Interpretación referida a la norma  se compara la puntuación del
sujeto con las obtenidas en el mismo test por un grupo de referencia
(grupo normativo / baremo del test)
 Interpretación referida al criterio determinar el grado de dominio
que un sujeto tiene sobre un criterio preestablecido. El punto de corte
diferencia los que dominan y no dominan el criterio.

1.- TRANSFORMACIÓN DE LAS PUNTUACIONES EN LOS TEST REFERIDOS A NORMAS

Al ser una interpretación normativa, es necesario seleccionar una muestra representativa de la


población a la que se aplica el test y sobre esa muestra se obtienen todas las normas. La puntuación
de un sujeto se puede ubicar en el baremo del grupo normativo para interpretarla. Las puntuaciones
directas se pueden transformar en otras escalas para facilitar su interpretación:

TRANSFORMACIONES LINEALES TRANSFORMACIONES NO LINEALES

 Escala de puntuaciones típicas  Rango de percentiles


 Escala de puntuaciones típicas derivadas  Escalas típicas normalizadas
 Puntuaciones derivadas normalizadas

Transformaciones lineales (Escalas típicas y Típicas derivadas): se transforman las puntuaciones


directas en típicas (diferencia entre la puntuación empírica obtenida por el sujeto en el test y la media
del grupo de referencia, dividido por la desviación típica del grupo de referencia) y mediante distintas
transformaciones lineales se obtienen las escalas típicas derivadas (permiten evitar los valores
negativos y decimales)

X− X La escala de puntuaciones típicas (Z) tiene de media 0


ZX = y una desviación típica de 1  N (0, 1). La distribución de
SX las puntuaciones típicas de una variable normal suele
oscilar entre ± 3.
Y = a + b ZX Escala D = 50 + 20 ZX
a = Media nueva escala
Escala T de McCall = 50 + 10 ZX
b = Desviación Típica nueva escala

Problema ejemplo  Hemos aplicado un test de razonamiento lógico a una muestra de 200 sujetos.
Se ha obtenido una media de 20 puntos y una desviación típica de 5 puntos. Averiguar e interpretar la
puntuación típica de dos sujetos que obtuvieron en el test 15 y 30 puntos.

Z1 = (15 – 20) / 5 = (- 1,00)  Se encuentra a una desviación típica por debajo de la media del grupo.
Z2 = (30 – 20) / 5 = 2,00  Se encuentra a dos desviaciones típicas por encima de la media del grupo.

Transformando las puntuaciones según las anteriores escalas típicas derivadas:

D = 50 + 20 (- 1) = 30 // D = 50 + 20 (2) = 90
T = 50 + 10 (-1) = 40 // T = 50 + 10 (2) = 70

R. MEDRANO (TUTOR) Página 1


PSICOMETRÍA ORIENTACIONES PARTE III (APLICACIÓN Y EVALUACIÓN)

Transformaciones no lineales 

 Rango Percentil (sitúan al sujeto en una determinada posición dentro del grupo normativo
(x100 indica el % de sujetos que deja por debajo)
 Escalas típicas normalizadas (se obtienen a través de los percentiles, aluden a la puntuación
típica que le corresponde a una puntuación empírica obtenida por un sujeto en un test con una
distribución normal). Si la distribución se aleja de la normal se pueden falsear los datos.
 Escalas normalizadas derivadas (permiten evitar los valores negativos y decimales). Al incluir
en el eneatipo sujetos con distintas puntuaciones se pierde información.

100  f   100   N ·PX  I


PX =  f b + d ( X C − Li )  =  f ac  X C = Li +  − fb 
N  I   N   100  fd
PX  % de sujetos con una puntuación directa inferior a X; I = amplitud del intervalo
fb = frecuencia acumulada bajo el intervalo crítico; XC =Puntuación correspondiente al centil
fd = frecuencia absoluta dentro del intervalo crítico; L i = límite inferior del intervalo crítico
fac = frecuencia acumulada al punto medio del intervalo donde se encuentra X C

Zn = Zp = CX  Puntuación típica que en una DN corresponde al centil de la puntuación X.


Cuando las puntuaciones se distribuyen según la curva normal, las puntuaciones típicas y
las típicas normalizadas coinciden.

Escalas normalizadas derivadas  ESTANINOS ó ENEATIPOS (E = 5 + 2 Zn)


Zn = puntuación típica normalizada del sujeto // Puntuaciones del 1 al 9

Problemas ejemplo  A un grupo de 100 sujetos se les ha aplicado un test de razonamiento


numérico. Las puntuaciones obtenidas, que se distribuyen según la curva normal, fueron las siguientes:

X f XM fa fa / XM % acumulado
30-32 10 31 100 95 95
27-29 14 28 90 83 83
24-26 20 25 76 66 66
21-23 21 22 56 45,5 45,5
18-20 30 19 35 20 20
15-17 5 16 5 2,5 2,5

Puntuaciones centiles correspondientes a las puntuaciones directas 19 y 28:


PX = 5 + (30/3) · (19 – 17,5)  5 + 15 = 20 y PX = 76 +( 14/3) · (28 – 26,5)  76 + 7 = 83

La mediana (percentil 50)  P50 = 20,5 + (50 – 35) · (3/21) = 20,5 + 2,14 = 22,64

Puntuaciones típicas normalizadas correspondientes a las puntuaciones directas 19 y 28:


X = 19  P20  Zn = (-0,84) y X = 28  P83  Zn = 0,95

Puntuaciones derivadas normalizadas (media 50 y desviación típica 20) de 19 y 28:


50 + 20 (0,95) = 69 y 50 + 20 (-0,84) = 33

Eneatipos  E = 5 + 2 (0,95)  7 y E = 5 + 2 (-0,84)  4

Normas cronológicas  Se interpreta la puntuación obtenida por el sujeto en el test en relación a su


edad y a la puntuación media obtenida por los sujetos de su edad. Para Crocker y Algina no son muy
recomendables porque no se pueden comparar las puntuaciones de un mismo sujeto en distintas áreas
y el significado de un año de edad mental no es constante en el desarrollo evolutivo del niño.

CI = (EM / EC) · 100 Cociente intelectual (CI)  se divide la edad mental entre la edad
cronológica, multiplicando por 100 el valor obtenido. Cuando
coinciden la edad mental y la cronológica el CI = 100.

2.- EQUIPARACIÓN DE LAS PUNTUACIONES

R. MEDRANO (TUTOR) Página 2


PSICOMETRÍA ORIENTACIONES PARTE III (APLICACIÓN Y EVALUACIÓN)

Proceso mediante el cual se establece una correspondencia entre las puntuaciones de dos o más
test, de manera que sea indistinto el empleo de uno u otro, puesto que las puntuaciones de cualquiera
de ellos se podrían expresar en términos de las del otro test. Se llama equiparación horizontal
cuando, midiendo el mismo rasgo, los test se han intentado construir con la misma dificultad y
equiparación vertical cuando, midiendo el mismo rasgo, tienen distinta dificultad.

Requisitos para poder realizar la equiparación de puntuaciones:


 Que los test midan el mismo constructo psicológico
 Que lo hagan con la misma fiabilidad

DISEÑOS DE EQUIPARACIÓN 
(Es conveniente que el número de sujetos utilizados sea representativo de la población)

Diseños de un solo grupo: se administran las dos formas del test, cuyas puntuaciones queremos
equiparar, al mismo grupo de sujetos; ambas formas deben medir la misma característica y
presentar el mismo grado de dificultad. Pueden influir el efecto orden de presentación y el
cansancio. La variante diseño de un solo grupo contrabalanceado evita los problemas descritos
(se dividen los sujetos en dos grupos y se administran los test en orden inverso.

Diseño de grupos equivalentes: se extraen dos muestras de la población y a cada una se le


administra una forma del test (también se pueden alternar las formas dentro de cada grupo). Evita
los efectos de fatiga y orden de presentación.

Diseños de grupos no equivalentes con ítems comunes (diseño de anclaje): A cada grupo se
le administra una sola forma del test y, como a priori no son equivalentes, además se les aplica un
test común (test de anclaje) que permite establecer las equivalencias entre los test equiparar.
El diseño tiene dos modalidades el anclaje interno (conjunto de ítems comunes a ambos test que
aparecen intercalados con el resto de ítems propios de las dos formas) y el anclaje externo (los
ítems comunes aparecen formando un test independiente). Se sugiere el 20% de ítems comunes
respecto a la longitud total del test (30 ítems comunes pueden ser suficientes en los test extensos)

MÉTODOS DE EQUIPARACIÓN 

MÉTODO DE LA MEDIA: Se asume que las puntuaciones de uno de los test difieren, en una cuantía
constante, de las puntuaciones del otro test (la diferencia entre las puntuaciones obtenidas por los
sujetos en ambos test es constante)

MÉTODO LINEAL: Las diferencias entre las puntuaciones pueden variar (las diferencias entre las
puntuaciones bajas pueden ser mayores que entre las altas). El método se basa en la equiparación
de aquellas puntuaciones directas que tienen la misma puntuación típica. Se contemplan
procedimientos para:
Diseños de un solo grupo Diseños de grupos equivalentes Diseño de anclaje
MÉTODO EQUIPERCENTIL: Consiste en equiparar aquellas puntuaciones cuyos percentiles
son iguales (es el método de equiparación más habitual)

Problema ejemplo (Método de la media)  Consideremos los test X e Y con medias 65 y 70,
respectivamente; según el método de la media, para equiparar las puntuaciones de ambos test
tendríamos que sumarle a las puntuaciones del test X cinco puntos (o restarle cinco puntos a las de Y)

Para X = 60  X* = Y  60 + 5 = 65

X* = puntuación del test Y transformada en una puntuación del test X


X* = Y = X − X + Y _ _
X e Y = media de los test X e Y // X = puntuación del test.

Error típico de medida de las puntuaciones equiparadas  S e = S ( X */ X )

R. MEDRANO (TUTOR) Página 3


PSICOMETRÍA ORIENTACIONES PARTE III (APLICACIÓN Y EVALUACIÓN)

Método lineal (Diseño de grupos equivalentes) 


_ _
 S 
X * = Y =  Y  ( X − X ) + Y X = b  Y = c  Medias del test X y del test Y.
 SX  SY y SX = Desviaciones típicas puntuaciones del test X e Y.
a = (SY / SX)  Cociente entre las desviaciones típicas
X * = a ( X − b) + c X* = puntuación test Y equivalente a una del test X
Error típico  N1 y N2 = nº de sujetos en ambas muestras
2 S2 = Varianza de las puntuaciones en el test Y
2S Y
Se = ( Z 2 X + 2) (X *− X )
N1 + N 2 ZX =  ZX (puntuación típica en el test X)
SX

Problema ejemplo  El departamento de recursos humanos de una empresa ha desarrollado dos


cuestionarios para evaluar el grado de satisfacción en el trabajo de sus empleados. En un estudio
piloto, se asignan de forma aleatoria las dos pruebas a 12 sujetos de tal manera que 6 realizan la forma
X y 6 la forma Y. Los resultados obtenidos son los que aparecen en la tabla. Equiparar las
puntuaciones de ambos cuestionarios y calcular el error típico de medida de la puntuación equiparada
correspondiente a X = 50.
Supuestos iniciales  Se trata de un diseño de dos grupos equivalentes (a cada grupo de sujetos se
le aplica una forma distinta del test)

Forma X Forma Y X* =Y = 0,72 (x – 43,3) + 41,2


40 36 X* = 0,72 (40 – 43,3) + 41,2  39
39 41 X* = 0,72 (39 – 43,3) + 41,2  38
44 39 X* = 0,72 (44 – 43,3) + 41,2  42
50 45 X* = 0,72 (50 – 43,3) + 41,2  46
46 40 X* = 0,72 (46 – 43,3) + 41,2  43
41 46 X* = 0,72 (41 – 43,3) + 41,2  40
∑ = 260 ∑ = 247

Ecuación de equiparación (conversión)  X * = a ( X − b) + c  X* = Y = 0,72 (X – 43,3) + 41,2


 S  3,02
También  X * = Y =   ( X − X ) + Y → Y = ( X − 43,3) + 41,2 = 0,72 (X-43,3) + 41,2
Y

 SX  4,17
_ ____
X = (260/6 = 43,3) // S2X = (11354 / 6) – 43,32 = 17,4 // SX = √17,4 = 4,17
_ ___
Y = (247/6 = 41,2) // S2Y = (10239 / 6) – 41,22 = 9,1 // SY = √9,1 = 3,02

Las puntuaciones resultantes de aplicar la ecuación de equiparación se recogen en la tabla e indican


los valores de X que se corresponden con Y (40 en X se corresponde con 39 puntos en el test Y, etc.)

Error típico de la puntuación equiparada (X = 50)  2,63


2
2S 2Y 2 × 9,1  50 − 43,3 
Se = ( Z 2 X + 2)  S e = + 2 = 2,63
N1 + N 2 6 + 6  4,17 

Método lineal (Diseño de un solo grupo 


X* = puntuación test Y equivalente a
una del test X.
S 2Y1 + S 2Y 2  X 1 + X 2  Y1 + Y2 Los subíndices 1 y 2 aluden a los
X* = Y = X − +
S 2 X1 + S 2 X 2  2  2 subgrupos (1º se aplicó el test X y 2º el
test Y y viceversa)
Error típico  rXY = correlación entre ambos test
( S 2 Y )(1 − rXY )( Z 2 X (1 + rXY ) + 2)
Se = (X *− X )
N ZX =
S 2Y = S2Y1 + S2Y2 SX

R. MEDRANO (TUTOR) Página 4


PSICOMETRÍA ORIENTACIONES PARTE III (APLICACIÓN Y EVALUACIÓN)

Problema ejemplo  El psicólogo de un centro escolar ha decidido utilizar dos formas distintas de un
test para estudiar el grado de motivación de los alumnos con problemas de aprendizaje en su centro.
Para calcular la equiparación de las puntuaciones, el psicólogo cuenta con las puntuaciones obtenidas
en las dos formas del test por 30 alumnos. La mitad de los alumnos respondieron primero a la forma X
y luego a la forma Y, y la otra mitad respondieron primero a la forma Y y luego a la forma X. La suma
de las puntuaciones obtenidas en las dos formas y la suma de las puntuaciones al cuadrado fueron las
que se recogen en la tabla. Calcular la ecuación de equiparación de las puntuaciones de ambas formas
del test (correlación entre ambos test  rXY = 0,8)

Supuestos iniciales  Se trata de un diseño de un solo grupo (se administran los dos test al mismo
grupo de sujetos pero en orden inverso)

GRUPO 1 GRUPO 2
FORMA X FORMA Y FORMA X FORMA Y
∑x  189 195 210 202
∑x2  2420 2635 2986 2810

Ecuación de equiparación (conversión) 

S 2Y1 + S 2Y 2  X 1 + X 2  Y1 + Y2
X =Y=
*
X − +  X* = 1,51 · (X – 13,3) + 13,23
S 2 X1 + S 2 X 2  2  2
___________
X* = √ (12,82 / 5,63 · [(X – 26,6/2)] + (26,47/2) = 1,51 · (X – 13,3) + 13,23

GRUPO 1 _ _
X1 = (189/15 = 12,6) // Y1 = (195/15 = 13)
____
S2X1 = (2420 / 15) – 12,62 = 2,57 // SX1 = √2,57 = 1,6
___
S2Y1 = (2635 / 15) – 132 = 6,66 // SY1 = √6,66 = 2,58
GRUPO 2 _ _
X2 = (210/15 = 14) // Y2 = (202/15 = 13,47)
____
S2X2 = (2986 / 15) – 142 = 3,07 // SX2 = √3,07 = 1,75
___
S2Y2 = (2810 / 15) – 13,462 = 6,16 // SY2 = √6,16 = 2,48

GRUPO TOTAL  Media X = (399/30 = 13,3) S2X = (5406 / 30) – 13,32 = 3,31
Media Y = (397/30 = 13,23) S2Y = (5445 / 30) – 13,232 = 6,47

Calcular el error típico de medida de la puntuación equiparada correspondiente a X = 15 

Primero calculamos la puntuación equiparable en el test Y (aplicando la ecuación de equiparación):

X* = 1,51 · (15 – 13,3) + 13,23  X* = Y = 15,8

( S 2 Y )(1 − rXY )[ Z 2 X (1 + rXY ) + 2)] 6,47 × 0,2[(1,37 2 × 1,8) + 2]


Se = → = 0,48
N 30

(X *− X )
Donde  Z X =  ZX = (15,8 -13,3) / 1,82  ZX = 1,37
SX

R. MEDRANO (TUTOR) Página 5


PSICOMETRÍA ORIENTACIONES PARTE III (APLICACIÓN Y EVALUACIÓN)

Diseño de anclaje 
 S Y2 + b 2 YZ 2 ( S 2 Z − S 2 Z 2 ) 
X =Y = 
*  [ X − ( X 1 + b XZ 1 ( Z − Z1 ))] + [Y2 + bYZ 2 ( Z − Z 2 ) ]
 S X 1 + b XZ 1 ( S Z − S Z1 
2 2 2 2

Z = Test Zeta
Error típico  bXZ1 y bYZ2 = pendientes de la recta de regresión
(de X sobre Z y de Y sobre Z) en los grupos 1 y
2.
2 S 2 Y (1 − r 2 )[ Z 2 X (1 + r 2 ) + 2) SY 2
S EX * = bYZ 2 = rYZ 2
N SZ 2
S X1 b b
bYZ 1 = rXZ 1 r = XZ 1 = YZ 2
S Z1 SX SY

Problema ejemplo  La dirección de un empresa desea evaluar los conocimientos de marketing de


sus agentes. Puesto que no es posible llevar a cabo la evaluación de todos los agentes a la vez, se
han confeccionado dos test distintos, de 50 preguntas cada uno. De las 50 preguntas, 15 son comunes
a ambos test y 35 diferentes. Las puntuaciones obtenidas por los 5 agentes de cada grupo se recogen
en la tabla. Calcular la ecuación de equiparación.

GRUPO A GRUPO B
ÍTEMS ÍTEMS ÍTEMS ÍTEMS
COMUNES (Z1) DIFERENTES (X1) COMUNES (Z2) DIFERENTES (Y2)
14 32 10 20
12 25 10 25
9 26 8 20
11 19 13 30
10 15 15 25

Supuestos iniciales  Se trata de un diseño de anclaje (se cuenta con dos grupos de sujetos, a cada
grupo se le administra una forma diferente del test y un test de anclaje (Z) que es común a ambos
grupos)
Realizando los cálculos previos obtenemos los datos del cuadro siguiente:

GRUPO A Media X1 Media Z1 S2X1 S2Z1


23,4 11,2 34,6 2,96
GRUPO B Media Y2 Media Z2 S2Y2 S2Z2
24 11,2 14 6,16
GRUPO TOTAL (A + B) Media Z S2Z
11,2 4,56

CORRELACIONES  rxz1 = 0,60 ryz2 = 0,67

PENDIENTES RECTA bXZ1 = 0,60 (5,88/1,72)  2,05 bYZ2 = 0,67 (3,74/2,48)  1,01
REGRESIÓN

Ecuación de equiparación (conversión) 

 S + b 2 YZ2 ( S 2 Z − S 2 Z 2 ) 
X =Y = 
* Y2
 [ X − ( X 1 + b XZ 1 ( Z − Z1 )) ] + [Y2 + bYZ 2 ( Z − Z 2 ) ]
 S 2 X 1 + b 2 XZ 1 ( S 2 Z − S 2 Z1 
 
 14 + 1,01 ( 4,56 − 6,16) 
2
X* =   [ X − ( 23,4 + 2,05(11,2 − 11,2))] + ( 24 + 1,01(11,2 − 11,2)
 34,6 + 2,05 2 ( 4,56 − 2,96) 

R. MEDRANO (TUTOR) Página 6


PSICOMETRÍA ORIENTACIONES PARTE III (APLICACIÓN Y EVALUACIÓN)

X* = Y = [3,517 / 6,428 = 0,547] · (X – 23,4) + 24  0,547 · (X – 23,4) + 24

Calcular el error típico de medida de la puntuación equiparada correspondiente a X = 25 

X* = 0,547 · (X – 23,4) + 24  X* = 0,547 · (25 – 23,4) + 24  24,8

2 S 2 Y (1 − r 2 )[ Z 2 X (1 + r 2 ) + 2] 2 × 14(0,88)[0,0576(1,12) + 2]
S EX * = = = 1,2
N 35

Donde  Z X = (24,8 – 23,4) / 5,88  0,24 (Z2X = 0,0576)


r = (bXZ1 / SX) = (bXZ2 / SY) = (2,05/5,88) = 0,35 // (1,01/3,74)  0,27 (las diferencias se deben al reducido
nº de casos; tomamos 0,35)  r2 = 0,12 (1 – 0,12 = 0,88)

MÉTODO EQUIPERCENTIL 
100  f   100  I = amplitud del intervalo
PX =  f b + d ( X C − Li )  =  f ac  XC =Puntuación correspondiente al centil.
N  I   N  Li = límite inferior del intervalo crítico

PX  % de sujetos con una puntuación directa inferior a X


fb = frecuencia acumulada bajo el intervalo crítico;
fd = frecuencia absoluta dentro del intervalo crítico;
fac = frecuencia acumulada al punto medio del intervalo donde se encuentra X C

Problema ejemplo  Se construyeron dos formas alternativas de un test de 10 ítems y ambas fueron
aplicadas a los mismos grupos. Las distribuciones de frecuencias de las puntuaciones de las dos
formas se presentan en la tabla. A partir de los datos equipare las puntuaciones de ambas formas
utilizando la equiparación equipercentil.

DATOS INICIALES EQUIPARACIÓN EQUIPERCENTIL


PUNTUACIÓ FORMA A FORMA B PERCENTIL FORMA A FORMA B
N
0 0 13 5 2 1
1 2 19 10 3 1
2 17 54 25 4 2
3 28 36 35 5 3
4 39 39 50 6 4
5 50 40 60 6 5
6 65 49 70 7 6
7 56 27 85 7 7
8 27 17 90 8 8
9 11 12 95 9 9
10 4 5 99 10 10

R. MEDRANO (TUTOR) Página 7


PSICOMETRÍA ORIENTACIONES PARTE III (APLICACIÓN Y EVALUACIÓN)

3.- EL MANUAL DEL TEST

Normas de la APA para elaborar el manual de un test:


1. Actualización periódica de las pruebas (menos de 5 años)
2. En la nueva actualización se incluirán los nuevos resultados (positivos o negativos)
3. Revisión y actualización si la nueva información sobre el test contradice la anterior
4. Con cada nueva revisión es necesario nuevo estudio y análisis estadístico
5. Incluir ejemplos sobre la interpretación de datos y estadísticos del test
6. Informar sobre la existencia de error sistemático
7. Especificar las aplicaciones (tanto de carácter práctico como investigador)
8. Tanto las instrucciones como las normas deberán reproducirán la misma situación
9. Toda información cuantitativa será precisa y clara
10. Debe figurar toda la bibliografía del test
11. Los criterios de puntuación deben estar bien definidos
12. Información sobre la fiabilidad (error de medida del test y dificultad, varianza y
discriminación de ítems)
13. Descripción de los procedimientos y muestras para la obtención de los resultados
14. La fiabilidad en pruebas de rendimiento académico, inteligencia y aptitudes, se calculará
para cada grupo de edad y curso académico.
15. Descripción de las características estadísticas si el test consta de dos ó más formas
16. En el test-retest se incluirá el tiempo transcurrido
17. Si se incluyen subtest correlacionados con el rango de puntuaciones globales se incluirán
tablas de equivalencia
18. Test con subtest se presentará una matriz de correlaciones y estadísticos descriptivos
19. Estabilidad de las puntuaciones en el tiempo y sus factores de riesgo
20. Periodo de caducidad de las puntuaciones del test
21. Información de la validez referente a usos y aplicaciones del instrumento
22. La validez de contenido del test será referida al sector del dominio que refleja los ítems
23. Descripción del procedimiento de selección y criterios en el proceso de validación
24. Situaciones en que se utilicen la validez predictiva y su generalización
25. Datos sobre la homogeneidad de las conductas seleccionadas como criterio
26. La valoración de los datos sobre la validez debe tener en cuenta las VV personales
27. Actualización de valores de validez
28. En test de orientación escolar, se presentarán datos sobre la relación test- aptitud verbal
29. Fáciles de interpretar las puntuaciones y realizar las escalas
30. Actualización de baremos (debe advertirse si se obtiene de muestras pequeñas.
31. Información de resultados en cada uno de los grupos, teniendo en cuenta sexo, edad, etc.

R. MEDRANO (TUTOR) Página 8

También podría gustarte