Está en la página 1de 8

RESUMEN PS 2017 whymarc

RESUMEN PSICOMETRÍA

M1.- APROXIMACIÓN HISTÓRICA Y CONCEPTOS BÁSICOS DE LA PSICOMETRÍA.

El desarrollo de las primeras dinastías del antiguo imperio chino generó los primeros sistemas de evaluación de los
individuos en función de su habilidad.
Los antecedente recientes de la psicometría se encontrarían en el desarrollo del estudio sistemático de las
diferencias humanas durante el siglo XIX (Bessel y Gaus).
El desarrollo de la psicofísica representó el inicio de la psicología como disciplina académica (Fechner y
Helmholtz).
Galton, Catell y Binet – pioneros de la psicometría moderna.
Binet fue responsable de lo que se considera el primer test de aplicación general para la medida de las habilidades
cognitivas.
Los test “Army Alpha y Beta” de Robert Yerkes abordaron una controversia importante sobre los sesgos
culturales de los test.
Spearman introdujo las técnicas de análisis factorial.
Woodworth desarrolló un nuevo tipo de prueba que evaluaba la estabilidad emocional de los soldados (Personal
Data Sheet).
Thurstone propuso la ley del juicio comparativo como el método para la medida de las actitudes, las preferencias
y los valores.
Podemos situar la época dorada de la psicometría entre los años 30 y 60 del siglo XX.
Thurstone fue el primer presidente de la Psychometric Society, e impulsor de la primera revista especializada
(Psychometrica). Fue también presidente de la División de Evaluación y Medida de la American Psychological
Association.
Stevens con su trabajo On the theory of scales of measurement dio un paso fundamental para el desarrollo del
denominado modelo representacional de medida psicométrica. Definió la medida como el proceso de asignación de
números a objetos de acuerdo con unas reglas, producto de las cuales se obtendrían los diferentes tipos de escalas
propuestas: nominal, ordinal, de intervalo y de razón.
En los años 50 aparece la Teoría Clásica de los Test (TCT) que propone un nuevo enfoque basado en el concepto
de puntuación verdadera.
En los 60, Cronbach y colaboradores propusieron la teoría de la generabilidad. En poco tiempo esta teoría fue
reformulada por otro enfoque: la teoría de respuesta al ítem (TRI).
También en los 60 se desarrollaron los tests referidos a criterio, que tienen como objetivo evaluar la destreza de
las personas en un campo de conocimiento muy bien delimitado. Los tests referidos al criterio permiten medir la
ejecución del individuo en función de su grado de conocimiento de un dominio.

La Psicometría es una rama de la psicología que, mediante teorías, métodos y técnicas vinculados al desarrollo y la
administración de tests, se ocupa de la medida indirecta de los fenómenos psicológicos con el objetivo de hacer
descripciones, clasificaciones, diagnósticos, explicaciones o predicciones que permitan orientar una acción o tomar
decisiones sobre el comportamiento de las personas en el ejercicio profesional de la psicología.
A diferencia de la psicometría, la psicología matemática no está tan interesada por las diferencias individuales
como en la definición de leyes generales que modelen el comportamiento medio de las personas.

Un test psicológico es un procedimiento de medida objetiva y estandarizada de una muestra de comportamientos.


La medida debe ser representativa.
El valor de un test se encuentra en su capacidad para suscitar y medir comportamientos que resulten un buen
indicador del conjunto global de comportamientos implicados en los fenómenos de interés.
Los tests de habilidad o de potencia tienen como objetivo evaluar la competencia, la aptitud o los conocimientos
de los individuos a partir del acierto o la calidad de sus respuestas.
Los tests de personalidad pretenden conocer de manera general las motivaciones, preferencias, opiniones o
actitudes de los individuos frente a un determinado estímulo. Son también llamados cuestionarios, inventarios o
escalas.

El modelo representacional define la medida como el proceso de asignación de números a objetos a partir de unas
reglas, de modo que reflejen relaciones empíricas entre los objetos. Estas relaciones quedarían representadas por
las propiedades de los números.
De acuerdo con el modelo operacional la medida sería el conjunto de operaciones necesarias para definir un
concepto que, en última instancia, acaban produciendo números.
El modelo clásico define la medida como la determinación de la cantidad en la que un atributo se presente en el
objeto medido. Mide atributos, no objetos.

1  
 
RESUMEN PS 2017 whymarc

Teoría clásica de los test (TCT). Tres conceptos fundamentales: puntuación verdadera (V) que es el resultado
ideal o deseado, puntuación empírica (X) y error de medida (e).

X=V+e

- Primer supuesto: La puntuación verdadera (V) se define matemáticamente como la esperanza


matemática de la puntuación empírica. V = E(X)
- Segundo supuesto: No existe correlación entre las puntuaciones verdaderas en un test y sus respectivos
errores de medida.
- Tercer supuesto: en dos test diferentes no existe correlación entre los errores de medida cometidos con
cada uno de ellos.

Dos test son paralelos siempre que sus puntuaciones verdaderas y sus varianzas de errores de medida sean
idénticas.
Teoría de respuesta al ítem (TRI). Cambia el foco desde el tratamiento del test entero al tratamiento individual de
los ítems.

M2.- FIABILIDAD (la precisión con la que los tests llevan a cabo la medida)

CALCULAR PEARSON

! !"! ! ( !)
𝑟!" =
! ! !! ! ! ! ! !! ! !

Coeficiente de fiabilidad. Correlación entre las puntuaciones obtenidas por un grupo de sujetos en dos formas
paralelas del test.
Cualquier valor inferior a 1 se deberá a los errores aleatorios propios del instrumento de medida.

Índice de fiabilidad (Pxv): correlación entre las puntuaciones empíricas de un test y las puntuaciones verdaderas.
!
𝑃!" =   𝑃!!!  =   !  
!!
CONSISTENCIA INTERNA.

Si nos dan Pearson (rpi) – Spearman Brown (método de las 2 mitades):


< 0,7 Mala (x debajo del mínimo)
> 0,7 Buena
rxx’: coeficiente de fiabilidad del test En un contexto aplicado o clínico
rpi: coeficiente correlación de Pearson para que sea buena debe llegar
al 0,8.

Rulon: 𝑟 !! 𝑺𝟐𝒅 : varianza de las diferencias entre las puntuaciones de los sujetos.
!! ! !!!   !!
!!
   𝑺𝟐𝒙 : varianza de las puntuaciones totales de los sujetos en el test.

2  
 
RESUMEN PS 2017 whymarc

Gutman-Flanagan: 𝑟 !! !
! !!!  
 
!! ! !!   !!      
!!!

Coeficiente ALFA DE CRONBACH: expresa la consistencia interna de un test a partir de la covariación entre sus
ítems.

n: número de ítems del test


𝒏 𝑺𝟐
𝒋  
𝑺𝟐𝒋 : sumatorio de las varianzas de los n ítems  𝜶 =     𝟏 −  
𝒏!𝟏 𝑺𝟐
𝒙
𝑺𝟐𝒙 : varianza de las puntuaciones totales en el test

**Recordar que la Varianza es el cuadrado de la desviación típica.

PARA DECIR SI EL COEFICIENTE ALFA ES ESTADÍSTICAMENTE SIGNIFICATIVO (PAC1):

1. Plantear la hipótesis nula y la alternativa:


Hipótesis nula: α = 0
Hipótesis alternativa: α ≠ 0
2. Calcular el estadístico de contraste:
𝟏!∝
𝑭= ∧
𝟏!∝

Se distribuye según una distribución F de Snedecor con (N-1) y (n-1)(N-1) grados de libertad, siendo:
N: número de sujetos.
n: número de ítems.
α: valor de alfa en la población.
αˆ: valor de alfa calculado en la muestra.
Si el valor obtenido se encuentra dentro del intervalo comprendido entre los valores, aceptamos la hipótesis nula,
por lo que el coeficiente no sería estadísticamente significativo.

PARA CALCULAR ENTRE QUE VALORES ESTÁ LA PUNTUACIÓN VERDADERA DE UN SUJETO

1º. Calcular el error típico de la medida: 𝑺𝒆 = 𝑺𝒙 𝟏 − 𝒓𝒙𝒙


Sx: desviación típica de las puntuaciones del test
𝒓𝒙𝒙 : coeficiente alfa obtenido

2º. Calcular el Error máximo de medida: Emáx = Zα/2 * Se (Zα/2 n.c. del 95%=1,96)

3º. Calcular el intervalo de confianza: 𝐈𝐂 = 𝐗 ± 𝐄𝐦á𝐱 (siendo X el valor del sujeto) Redondeando el
resultado al entero más próximo.

CALCULAR FIABILIDAD ALARGANDO UN TEST

𝒏𝒇
1º. Indicar el nº de veces que se alarga el test: 𝑲 = (nf: nº ítems finales; ni: nº ítems iniciales)
𝒏𝒊

2º. Determinar nueva fiabilidad (Spearman Brown):

Rxx: nuevo coeficiente de fiabilidad del test


rxx: coeficiente de fiabilidad del test original
K: nº de veces que se alarga o acorta un test

3  
 
RESUMEN PS 2017 whymarc

PARA SABER CUANTOS ÍTEMS AÑADIREMOS PARA TENER UNA FIABILIDAD X

𝑹𝒙𝒙 𝟏!𝒓𝒙𝒙
1º. Aislar K de Spearman Brown: 𝑲 =
𝒓𝒙𝒙 𝟏!𝑹𝒙𝒙

K: nº de veces que se alarga o acorta el test.


Rxx: nuevo coeficiente de fiabilidad del test alargado.
rxx: coeficiente de fiabilidad del test original.
2º. Calcular el nº de ítems que hace falta añadir: 𝑲 ∗ 𝒏𝒊 − 𝒏𝒊
ni: cantidad total de ítems antes de alargar el test.

PARA CALCULAR LA PROPORCIÓN DE LA VARIANZA DEBIDA AL ERROR (PAC1)

Para calcular la % de varianza de las puntuaciones verdaderas que hay en la varianza de las puntuaciones
empíricas:
!!
P!!! = 1 − (!!! ) Pxx’: coeficiente de fiabilidad del test
!

PARA CALCULAR EL GRADO DE ACUERDO DE DOS ANALISTAS (PAC1).

Psicólogo 1
Presencia trastorno Ausencia trastorno Total
Psicólogo Presencia trastorno 18 7 25
2 Ausencia trastorno 5 50 55
23 57 80

Proporción de sujetos clasificados de manera consciente:

!!! !! !" !"


𝑷𝒄 = Σ𝑝𝑖 = + ⇒ + = 0,225 + 0,625 = 𝟎, 𝟖𝟓
! ! !" !"
n11: nº coincidencias SI
𝐧! : nº coincidencias NO
N: total de respuestas

Proporción de concordancias que se esperaría por azar:

!"∗!" !"∗!! !"! !"!#


𝐏𝐚 = + ! = + ⇒ 0,09 + 0,49 = 𝟎, 𝟓𝟖
!"! !"## !"##
!"

Grado de acuerdo entre las valoraciones de los dos psicólogos (coeficiente Kappa de Cohen):

𝑷𝒄!𝑷𝒂 !,!"!!,!" !,!"


𝑲= = = = 𝟎, 𝟔𝟒 grado de acuerdo “aceptable”.
𝟏!𝑷𝒂 !!!,!" !,!"

Entre 0,6 y 0,8 aceptable; mayores de 0,8 muy buenos.

M3.- VALIDEZ (confianza en que las medidas se corresponden realmente con lo que se propone medir).
VALIDEZ: correlación entre el cuestionario y el criterio de interés. Hace referencia al grado en el que la evidencia
empírica y la teoría apoyan la interpretación de las puntuaciones de los test relacionada con su uso específico.
Validez predictiva: si el test sirve para predecir el comportamiento en un constructo que será evaluado después de
la aplicación del cuestionario.

4  
 
RESUMEN PS 2017 whymarc

Validez concurrente: si sirve para predecir el comportamiento en un constructo que se evalúa simultáneamente a la
aplicación del cuestionario.
Criterio: variable de interés.
Validez de contenido: hace referencia a que los ítems que componen el cuestionario sean representativos de
aquello que se pretende evaluar.
Validez de constructo: hace referencia a que las dimensiones de un determinado constructo estén bien
relacionadas.
Validez de criterio: validez predictiva + validez concurrente

ANÁLISIS DE COMPONENTES PRICIPALES: sólo será validada la estructura de los factores del test con
valores propios superiores a 1 en el análisis de componentes principales (análisis factorial). El test será
bidimensional si se extraen 2 componentes con valores propios mayores que 1.

PROPORCIÓN DE LA VARIANZA EXPLICADA: es el coeficiente de correlación de Pearson al “cuadrado”.


(0,68! = 0,46) → 0,46 ∗ 100 = 46%

**Coeficiente de correlación entre test y criterio = coeficiente de validez del test

Para calcular el MÁXIMO VALOR que puede tomar el coeficiente de validez de la escala, se aplica la raíz
cuadrada de la fiabilidad de la escala: 𝑟!" = 0,75 = 0,87

CALCULO DEL COEFICIENTE DE VALIDEZ DE UN TEST: es el coeficiente de correlación de Pearson (Pxy)


entre las puntuaciones de los criterios.

𝑷𝒙𝒚 !,!" !,!"


- Si la FIABILIDAD ES PERFECTA: 𝑷𝒗𝒙 𝒚 = = = = 𝟎, 𝟖𝟗
𝑷𝒙𝒙! !,!! !,!!
Pxy: correlación Pearson
Pxx’: coeficiente alfa

COEFICIENTE DE VALIDEZ (NUEVA VALIDEZ) AÑADIENDO ITEMS

Pxy: valor inicial del coeficiente de validez del test (Pearson).


Pxx’: coeficiente de fiabilidad del test.
n: número de veces que se alarga el test.

𝟐𝟎
Si alargamos el test 10 ítems más a los 10 iniciales: 𝒏 = =𝟐
𝟏𝟎

EVIDENCIA DE DECISIÓN (VALIDEZ DE DECISIÓN). PARA VALORAR LA VALIDEZ DE DECISIÓN


DE UN TEST. Clasifica a los sujetos en dos grupos (diagnóstico negativo-diagnóstico positivo).

- Construir la tabla de contingencia.


𝒇 𝒇
Pc = % de acuerdo entre ambos tests 𝑷𝒄 = 𝟏𝟏!   𝟐𝟐 ∗ 𝟏𝟎𝟎
𝒏
f!! : nº  coincidencias  SI
f!! : nº  coincidencias  NO

𝑭𝒄!𝑭𝒂 0 – 0,2 Inexistente


- Calcular el coeficiente Kappa: 𝑲= 𝒏!𝑭𝒂 0,21–0,4 Muy baja
𝑭𝒄 = 𝒇𝟏𝟏 + 𝒇𝟐𝟐 0,41–0,6 Moderada
𝟑𝟐∗𝟐𝟓 ! 𝟑𝟔𝟖∗𝟑𝟕𝟓 𝟖𝟎𝟎!𝟏𝟑𝟖𝟎𝟎𝟎 0,61–0,8 Buena
𝑭𝒂 = = = 347 (ejercicio 3.1. – PAC2) 0,81–1 Intensa
𝟒𝟎𝟎 𝟒𝟎𝟎

!"#$%ó!"#$%!  !"#$%$&"#  !"  !"  !"#$%&


𝑺𝒆𝒏𝒔𝒊𝒃𝒊𝒍𝒊𝒅𝒂𝒅 =
!"#$%  !"#$%ó!"#$%!  !"#$%$&"#

!"#$%ó!"#$%!  !"#$%&'()  !"  !"  !"#$%&


𝑬𝒔𝒑𝒆𝒄𝒊𝒇𝒊𝒅𝒂𝒅 =
!"#$%  !"#$%ó!"#$%!  !"#$%&'()   !"#$%&'

5  
 
RESUMEN PS 2017 whymarc

PARA PRONOSTICAR ENTRE QUÉ VALORES VARIARÁ LA PUNTUACIÓN EN UN CRITERIO PARA


UN SUJETO QUE OBTIENE X PUNTOS EN EL TEST (APLICANDO MODELO DE REGRESIÓN)

Expresión de la línea recta: y = a + bx, siendo “b” la pendiente de la recta y “a” la intersección u ordenada
en el origen.
1. Calcular la pendiente (b) y la intersección (a).
𝐒𝐲
𝐛 = 𝐫𝐱𝐲 ∗ 𝐚=𝐲−𝐛∗𝐱
𝐒𝐱
rxy: coeficiente de validez del test
Sy: desviación típica del test A
Sx: desviación típica del test B
𝐗: media  de  las  puntuaciones  del  test  B
𝐘: media  de  las  puntuaciones  del  test  A

2. Calcular la recta de regresión: y = a + bx (x: puntuación que el sujeto ha obtenido en el test)

3. Calcular el intervalo de confianza. 𝑰𝑪𝟏!𝜶 → 𝒚! ± 𝒕 ∗ 𝑺𝒚!𝒚!


𝒏!𝟏;∝
𝟐

tn-1,α/2: valor de la t de Student con n-1 grados de libertad (n.c. 95%)


Sy-y’: error típico de estimación
𝟐
𝐒 𝐲!𝐲! = 𝐒 𝐲 𝟏 − 𝐫𝐱𝐲

y’ = a + bx siendo “X” la puntuación que obtiene el sujeto.

PARA LLEGAR A UN COEFICIENTE DE CORRELACIÓN X

Pxy: coeficiente de correlación deseado


Pxx’: coeficiente de fiabilidad del test
Pyy’: coeficiente de fiabilidad del criterio

COMUNALIDAD. Proporción de la varianza que el factor (conjunto de ítems) explica del ítem.

componente comunalidad
1 2 C1 C2 conjunta
0,7056 cuadrado valor 0,0001 cuadrado valor 0,7057 Suma
ítem 1 0,84 -0,01
ítem1 (0,84) ítem2 factorial (-0,01) valores C1+C2
ítem 2 0,71 0,05 0,5041 0,0025 0,5066
ítem 3 0,69 0,15 0,4761 0,0225 0,4986
ítem 4 0,68 -0,07 0,4624 0,0049 0,4673
ítem 5 0,12 0,82 0,0144 0,6724 0,6868
ítem 6 0,59 0,01 0,3481 0,0001 0,3482
ítem 7 -0,07 0,77 0,0049 0,5929 0,5978
ítem 8 0,71 0,05 0,5041 0,0025 0,5066
3,0197 Sumatorio 1,2979 Sumatorio 4,3176 Sumatorio
valor propio
valores C1 valores C2 valores conjuntos
53,97 Ídem
37,74625 “valor propio C1” 16,22375 Ídem usando
varianza explicada usando valor propio
(3,02)/nº ítems x 100 valor propio C2
conjunto

- La comunalidad de un ítem con un factor es el cuadrado de su saturación factorial.

6  
 
RESUMEN PS 2017 whymarc

- El test tiene estructura bidimensional (2 constructos) dado que presentan saturaciones factoriales elevadas con
alguno de los dos componentes.
- El componente 1 explica el 37,74% de la variabilidad total de los 8 ítems, mientras que el componente 2 explica un
porcentaje del 16,22%. Ambos componentes extraídos conjuntamente explican un 53,97% de la variabilidad total.

- Agruparíamos los ítems en función de la dimensionalidad del test:


Componente 1: ítems 1, 2, 3, 4, 6 y 8 (que son los que tiene los valores superiores respecto al componente 2)
Componente 2: ítems 5 y 7.

M4. – TRANSFORMACIÓN E INTERPRETACIÓN DE LAS PUNTUACIONES


Consiste en aplicar una estrategia de codificación en la que las puntuaciones obtenidas en la medida, sus
puntuaciones directas, son recodificadas (transformadas) en un nuevo sistema de valores que facilitan al usuario su
interpretación.

𝒇𝒂! 𝟎,𝟓∗𝒇𝒊
PERCENTILES: 𝑷𝒄 = x 100
𝑵
Fa: frecuencia acumulada previa a la puntuación directa de la que se quiere calcular el percentil (3ª columna de la
tabla).
Fi: frecuencia absoluta (2ª columna de la tabla).
N: nº de personas que constituyen la muestra.

PUNTUACIONES ESTANDARIZADAS
La puntuación estandarizada o típica es aquella que permite expresar cuántas desviaciones típicas por encima o por
debajo de una media sitúa una observación.
𝑿−𝑿
𝒁𝒙 =
𝑺𝒙
X: puntuación directa
Sx: desviación típica de la muestra.
𝑿: media de la muestra (media de las puntuaciones directas “x”).

PUNTUACIONES ESTANDARIZADAS DERIVADAS

T de McCall: T = 50 + 10z siendo “Z” la puntuación típica (Zx). **Redondear el resultado de la T.

PUNTUACIONES ESTANDARIZADAS NORMALIZADAS

ENEATIPO = 5 + 2 Zn La “Z” es la puntuación normal estandarizada (se divide el valor del percentil entre 100 y se
busca en la tabla de la normal).

DECATIPO = 5,5 + 2 Zn

El nivel de razonamiento abstracto es la “Zx”, como la media de Z=0, si es negativa la puntuación directa su nivel
estará por debajo de la media de su grupo normativo.

EQUIPARACIÓN DE PUNTUACIONES. Establecer una correspondencia entre las puntuaciones de estas.

Transformación Lineal: consiste en equiparar puntuaciones estandarizadas.

Hallar la puntuación equivalente entre dos test sabiendo la puntuación de uno:


A dos muestras equivalentes (A y B) se les ha administrado dos tests de razonamiento abstracto, X e Y
respectivamente. Según los datos que se muestran en la tabla, una puntuación de 40 en el test X, ¿en qué
puntuación sería equivalente en el test Y?

Test X (Muestra A) Test Y (Muestra B)


Media 45 35
Desviación típica 4 6

7  
 
RESUMEN PS 2017 whymarc

!"
Y= ∗ X−X +Y
!"
!
Y = ∗ 40 − 45 + 35 = −7,5 + 35 = 27,5
!
Obtener una puntuación de 40 en el test X, equivale a obtener una puntuación de 27,5 en el test Y.

M5.- ANÁLISIS DE LOS ÍTEMS


TEORÍA CLÁSICA DEL TEST (TCT): X = V + E
X: puntuación que una persona obtiene al contestar un instrumento de medida.
V: nivel verdadero.
E: error.

DIFICULTAD: el ÍNDICE DE DIFICULTAD DE UN ITEM (ID) es la proporción de personas que lo contestan


correctamente.
𝑨
𝑰𝑫 = (Se multiplica x 100 porque se expresa en %)
𝑵

A: nº de personas que aciertan el ítem.


N: nº total de personas que lo contestan.

ÍNDICE DE DIFICULTAD CORREGIDO


!
!!
ID = !!!
(Se multiplica x 100 porque se expresa en %)
!
A: nº de personas que aciertan el ítem.
E: nº de personas que fallan el ítem.
K: nº de alternativas (u opciones) de respuesta.
N: nº total de personas que lo contestan.

DISCRIMINACIÓN: capacidad de un ítem de distinguir entre las personas que tienen un buen rendimiento en el
test respecto a las que lo tienen malo.
D= Pa – Pb
Pa: proporción de personas del grupo de alto rendimiento que acierta el ítem.
Pb: proporción de personas del grupo de bajo rendimiento que acierta el ítem.
𝟔 𝟎
𝑫 = − = 𝟏 → 𝟏𝟎𝟎%
𝟔 𝟔
Los 6 sujetos del grupo “puntuaciones altas” aciertan (6 de 6); ninguno de los 6 sujetos del grupo “puntuaciones
bajas” aciertan el ítem (0 de 6).

Clasificación de Ebel:
> 40 Alta discriminación
30-40 Aceptable
20-30 Baja
0-20 Mala
< 20 Inaceptable

DISCRIMINACIÓN DE LOS DISTRACTORES. Los distractores son las alternativas de respuesta incorrectas.
Se hace el “índice D” pero para cada alternativa de respuesta incorrecta. Si los índices de discriminación dan
negativos son adecuados.

! !
Alternativa A: 𝐷 = − = −𝟎, 𝟑𝟑
! !
! !
Alternativa B: 𝐷 = − = −𝟎, 𝟑𝟑
! !
! !
Alternativa C:  𝐷 = − = −𝟎, 𝟑𝟑
! !

8  
 

También podría gustarte