Está en la página 1de 72

UNIVERSIDAD NACIONAL AGRARIA LA

MOLINA

Ing. Meza Rodríguez, Aldo Richard

armeza@lamolina.edu.pe
 Para asegurar la calidad de los resultados,
los instrumentos de medición requieren de
estudios científicos y metodologías que
determinen si éstos pueden generar
inferencias válidas y niveles aceptables de
confiabilidad.
 Cuestionarios: lista de preguntas con cualquier fin; los cuestionarios
sociológicos, de evaluación, y en general los sondeos de opinión.
 Escalas o test: Los Items son indicadores del mismo rasgo o actitud. Las
respuestas de cada sujeto se van a sumar en un total que indica dónde se
encuentra o cuánto tiene.
 Rendimiento óptimo: medir el rendimiento máximo (ej. Test inteligencia)
 Rendimiento típico: interesa medir el comportamiento usual, tal como se
hace en los tests de personalidad o en las escalas de actitudes

FUNCIONES EJEMPLOS
Diagnóstico Detección de problemas en el ámbito clínico o en el escolar
Selección De los trabajadores con el perfil más adecuado al puesto de trabajo
Clasificación Determinación del nivel de inglés para ubicar al estudiante en el curso adecuado

Certificación Acreditación de que un profesional tiene la cualificación adecuada


Consejo Para facilitar la decisión sobre los estudios a emprender, por ejemplo cuando interesa
medir la prevalencia de enfermedades o los logros conseguidos con programas de
intervención psicosocial
Descripción e Informan de lo que un alumno sabe, del rendimiento de un curso, profesor, colegio,
información comunidad, país…en relación a los demás
N° ítems:
 Se recomienda elaborar el doble de lo que se piensa.
 No hay un número óptimo, pero a mayor número inicial de ítems tendremos
una mayor probabilidad de encontrar el conjunto adecuado.
 Nunnally (1978) sugiere un número máximo de 40 ítems como punto de
partida, pero pueden ser bastantes menos.

Tiempo:
 En test de rendimiento óptimo es importante controlar el tiempo, importa
saber cuantos ítems es capaz de hacer el evaluado.
 En test rendimiento típico no hay tiempo límite (“responda sin pensarlo”)
Rendimiento Óptimo: Pueden elaborarse formatos con preguntas
abiertas o preguntas establecidas

Formato de respuesta Ejemplo Codificación


Verdadero o falso El presidente del Chile es Álvaro Con 1, el acierto, y
Correa V( ) F( ) con 0, el error
Opción múltiple Coche es a volante, como bicicleta Con 1, el acierto, y
es a... con 0, el error
a) Pedal
b) Sillín
c) Manillar
d) Cambio
Pregunta abierta Defina el concepto de 0 error, 1 a medias
Bulling:………. 2 bien
Rendimiento Típico: Pueden ser son de opción binaria y categorías
ordenadas
Formato de respuesta Ejemplo Codificación
Opción Binaria Abortar es matar. “De acuerdo” con 1 y “En
Desacuerdo ( ) Acuerdo ( ) desacuerdo” con 2
Categorías Ordenadas Las drogas pueden realmente 1 (Muy en desacuerdo),
( Escalas tipo Likert) resolver problemas de uno mismo. 2…
( ) Muy en desacuerdo 5 (Muy de acuerdo)
( ) Bastante en desacuerdo
( ) Neutral
( ) Bastante de acuerdo
( ) Muy de acuerdo
Escalas de frecuencias Indique cuántas veces a la 1 (Ninguna), 2…
semana, en promedio, juega al 5 (Cinco o más)
tenis.
Ninguna ( )
Una ( )
Dos ( )
Tres o cuatro ( )
Cinco o más ( )
Si es óptimo el evaluado no ha tenido tiempo de leer, o no haya querido responder. Si
es típico pueda que el ítem no lo haya entendido o no haya tenido interés.

• 1ra solución: Si son pocos los sujetos que omiten algún ítem, lo más cómodo suele
eliminarse.
• 2da solución: Sustituir los valores que faltan por el valor de la respuesta media del
sujeto, algunos utilizan la respuesta más frecuente para sustituir las respuestas
omitidas
• 3ra solución: Utilizar como puntuación total de todos los sujetos no la suma de
sus respuestas a todos los ítems, sino la media, dividiendo la suma de las
respuestas de cada sujeto por el n° de ítems que ha respondido.
 Un instrumento es adecuado cuando ha pasado por dos
procesos:
La validez y la confiabilidad
Ni Confiabilidad Confiabilidad Confiabilidad y
ni Validez pero no Validez Validez
CONFIABILIDAD
CONSISTENCIA INTERNA:
En sucesivas mediciones .politómicas (α de Cronbach)
da resultados similares •Dicotómicas (r de Kuder – Richardson(K-20)
DOS MITADES
ESTABILIDAD: TEST-RETEST

VALIDO
•DE CONTENIDO: Juicio de expertos
•DE CONSTRUCTO: (A . Factorial)
Método: Item - test
VALIDEZ •Respuestas politómicas:
r de Pearson
Mide lo que
•Respuestas dicotómicas:
se quiere medir correlación biserial puntual (rb-p)
•CRITERIO: Concurrente-Predictiva
 Indica la capacidad del instrumento para medir las
cualidades para las cuales ha sido construida y no
otras parecidas. "Un instrumento tiene validez
cuando verdaderamente mide lo que afirma medir".
Factores que pueden afectar la confiabilidad y la
validez:

 la improvisación
 Utilizar instrumentos desarrollados en el extranjero que no
han sido validados en el país de aplicación, es inadecuado
para las personas a quienes se le aplica.
 Las condiciones desfavorables en las que se aplica.
No es un trámite necesario pero puede ser conveniente que alguien
más revise el cuestionario.
Experto
• Los que tienen ya cierta práctica o conocimiento sobre cómo hacer un
cuestionario.
• Los conocedores de la situación, finalidad y contexto en el que se va a aplicar el
cuestionario tiene conocimiento de las variables y características. Tiene que tener
predisposición. Ejm: docentes, jefes .de servicio, jefes de departamentos, etc.
Se aplica:
Validez de contenido del instrumento con preguntas cuyas respuestas
se valoran con puntajes.
 índices de 0,7 o  Aquellos jueces que no  El juez nº 2 consideró
mayores corresponden logren un mínimo nivel que el ítem 2 no medía
a ítems congruentes se eliminan del el obj. 1, pero que el
con su objetivo. análisis. ítem 7 sí medía ese
 Evalúa la precisión en  Ejm: 5 jueces para 12 objetivos
los jueces llevan a cabo ítems que mide 4  El Juez nº 2 es el que
su tarea, se incluyen objetivos. Los ítems menor % de
ítems que no miden 13, 14 y 15 no medían clasificaciones
ninguno de los ningún objetivo. (1 el “congruentes” (58%),
objetivos (ítems de juez asignó al obj. 0 por lo que sus datos
relleno). No asignó). debería ser eliminados.
Jueces
Índice de
Objetivos Ítems 1 2 3 4 5 congruencia
1 2 1 0 1 1 1 0.8
7 1 1 0 1 1 0.8
2 1 1 1 1 1 1 1
3 1 1 1 1 1 1
8 1 1 1 1 0 0.8
10 0 0 0 1 0 0.2
11 1 0 0 0 1 0.4
3 4 1 1 1 0 0 0.6
6 1 0 1 0 0 0.4
4 5 0 0 1 1 1 0.6
9 1 1 1 0 1 0.8
12 1 1 0 1 1 0.8

Clasificaciones Congruentes 83.3% 58.3% 66.7% 66.7% 66.7%


13 0 1 0 0 1 0.4
14 1 1 0 1 0 0.6
Ítems de
relleno 15 1 1 0 0 0 0.4
N° Item de relleno no identificado 2 3 0 1 1
JUECES

Objetivos Items 1 2 3 4 5 6 7 8 9 10 Media Mdn Rango


1 1 7 5 4 5 3 4 4 7 7 5 5.1 5 4
2 7 6 7 7 3 7 6 7 7 7 6.4 7 4
3 4 4 1 3 3 2 3 2 5 6 3.3 3 5
4 1 6 7 1 6 7 3 2 4 7 4.4 5 6
5 6 6 6 5 4 6 6 6 7 7 5.9 6 3
6 4 6 7 5 4 7 5 6 7 7 5.8 6 3
7 7 5 5 6 3 6 4 6 5 6 5.3 5,5 4
2 8 3 4 1 1 4 4 3 5 6 6 3.7 4 5
9 6 6 2 6 1 4 3 6 7 5 4.6 5,5 6
10 3 6 3 4 1 4 4 5 7 6 4.3 4 6
11 7 6 4 6 1 2 6 7 6 5 5 6 6
12 7 3 5 7 1 6 4 7 5 6 5.1 5,5 6
13 7 5 2 6 1 4 2 7 7 7 4.8 5,5 6
14 7 6 3 7 4 5 4 7 7 6 5.6 6 4
Discrepancia de cada Juez Con
26 12 27 21 33 20 19 22 19 16
respecto a la Mdn
• Se suele aconsejar no usar menos de 5 puntos ni más de 9.
• El valor más bajo de la escala indica “nada relevante” y el más alto “completamente relevante”.
• Ej. en una escala de 5 puntos una media superior a 3,5 o una mediana superior a 3.
• el juez nº 2 consideró que el tercer ítem, diseñado para medir el primer objetivo, lo hacía en un
grado de 4 sobre 7
• los ítems 5 y 6 presentan el menor rango (3), lo que nos informa de un mayor nivel de acuerdo
entre los jueces al evaluarlos.
• El objetivo 1, el ítem 2 (con una media de 6,4 y una mediana de 7), y para el objetivo 2, el ítem 14
(con una media de 5,6 y una mediana de 6).
• Respecto al análisis de las discrepancias de los expertos, el juez nº 5 destaca claramente2.
Criterios Si No Observación
¿Hay preguntas innecesarias o repetitivas? x
¿Se podría acortar el cuestionario? x
¿Falta alguna pregunta que aporte
información importante para la finalidad del x
cuestionario?
¿Están redactadas con corrección gramatical x
y sintáctica?
¿Son claras y previsiblemente las van a x
entender sin ambigüedad los sujetos que las
van a responder?
¿Hay preguntas que incluyen más de una x
idea?
¿Son de respuesta fácil? x
Se elige esta prueba porque los datos son dicotómicos y se tiene un solo grupo de sujetos (Siegel,
1980)
 Se establecen la Ho y la Ha:
 Ho: Es decir que entre los jueces no hay concordancia
 Ha: Hay concordancia entre los Jueces. Si P.valor < 0.05 se acepta Ha
JUECES
ID Éxitos P-Valor
1 2 3 4 5 6 7 8 9 10
Total de
1 1 1 1 1 1 1 1 1 0 1 9 0.010 acuerdos 36
2 0 1 1 1 1 1 1 1 1 0 8 0.044
3 1 1 1 1 1 1 1 0 1 1 9 0.010 Total en desacuerdos 14
4 0 0 1 0 1 1 1 1 1 0 6 0.205 Total de respuestas 50
5 1 1 1 1 1 1 1 1 1 0 9 0.010
6 1 0 1 1 1 1 1 0 1 1 8 0.044
Grado de
7 1 0 1 1 1 1 1 1 1 1 9 0.010 concordancia 72.0%
8 1 1 1 1 1 1 1 1 1 1 10 0.001
9 1 1 1 1 1 1 1 1 1 1 10 0.001
10 0 0 0 0 1 1 1 1 1 0 5 0.246
S = Sumatoria de los valores
dados por los jueces al ítem
n = Número de jueces
c = Numero de valores de la
escala de valoración

Se puede observar
que el grado de
concordancia es alta
en todos los Items
válidos los Items
cuyos valores sean mayores o
iguales a 0.80 (Guilford. 1954).
VALIDEZ DE CONSTRUCTO
La validez de constructo intenta responder la pregunta ¿hasta dónde
un instrumento mide realmente un determinado rasgo latente o una
característica de las personas y con cuánta eficiencia lo hace?. En
consecuencia, es necesario que podamos mostrar evidencia de que,
efectivamente, el instrumento mide el rasgo o constructo (s) que
“el grado en pretende medir.
que una prueba
mide los
significados
que esta da.”
Sum.total=rowSums(test)

Item.test=cor(test,Sum.total,method
= "pearson")

Item.test
[,1]
p1 0.611
p2 0.753
Se puede observar que todos p3 0.409
los Ítems tienen una correlación p4 0.623
mayor a 0.2 con el puntaje p5 0.549
p6 0.634
total, por lo tanto son válidos
p7 0.665
para nuestro estudio p8 0.664
p9 0.401
p10 0.743
p11 0.535
p12 0.684
p13 0.734
p14 0.515
p15 0.467
Validez para respuestas Validez para respuestas
dicotómicas politómicas

Método item - test Método Item – test


Mediante el coeficiente de Mediante el coeficiente de
correlación biserial puntual correlación r de Pearson
- - Si r ≥ 0,20 el item es válido (Garrett H.)
X 1- X 0
r b - p = p iq i n∑ Xy-( ∑ x)(∑ y)
ST r=
(n ∑ x2)-( ∑ x)2 (n ∑ y2)-( ∑ y)2
r ≥ 0,20 el item es válido (Garrett H.)
• Uno de los supuestos del análisis factorial clásico es el de normalidad multivariante ( en
el caso de Items ordenados generalmente no se puede encontrar la normalidad
multivariante, por lo que no es recomendable para este caso.
• Cuando se analizan variables categóricas (p. ej., ítems dicotómicos o de categorías
ordenadas), las correlaciones de Pearson pueden ser inadecuadas para establecer su grado
de relación, ya que variables con distribuciones similares tienden a correlacionar más alto
que variables con distribuciones distintas. Por ejemplo, en el caso dicotómico, la correlación
de Pearson máxima entre dos ítems de igual dificultad es 1, mientras que la correlación
máxima entre dos ítems con índices de dificultad 0,9 y 0,1 es 0,11. Esto hace que, al realizar
el análisis factorial, surjan los denominados como factores de dificultad (factores donde se
agrupan ítems de dificultad similar).
• El análisis factorial utiliza la matriz de correlaciones de Pearson como entrada , sin
embargo al ser datos ordianles o en el caso de datos Politómicos se procede a trabajar
con las correlaciones Policóricas (datos ordenados de más de dos categorías) y la
correlación tetratórica para datos dicotómicos.
• Otro problema es que el análisis factorial asume relaciones lineales entre las variables
observables y los factores latentes, lo cual no es asumible para las variables categóricas
(donde existen puntuaciones máximas y mínimas), especialmente si los ítems son muy
discriminativos.
Validación de constructo
#Esfericidad de Bartlet
r.poly=polychoric(test)
R=r.poly$rho # La matriz de
correlacion policóricas
n = nrow(test) # Tamaño de la muestra
print(cortest.bartlett(R,n))
$chisq [1] 463.334
$p.value [1] 1.736671e-46
$df [1] 105

#KMO > KMO(R)


Kaiser-Meyer-Olkin factor
adequacy Las correlaciones entre pares de variables no pueden
Call: KMO(r = R) ser explicadas por otras variables.(<0.5)
Overall MSA = 0.55
Utilizamos el
paquete Psych:

Nuestra data
posee datos
ordinales por lo
tanto utilizamos
la matriz
correlación
policórica
Call: fa.poly(x = test, nfactors = 3,
rotate = "varimax", fm = "wls", cor =
"poly")
Standardized loadings (pattern matrix)
based
upon correlation matrix
WLS1 WLS2 WLS3 h2 u2 com
P1 0.68 0.41 -0.05 0.63 0.37 1.7
P2 0.69 0.52 0.31 0.84 0.16 2.3
P3 0.77 -0.06 0.23 0.65 0.35 1.2
P4 0.84 0.08 0.33 0.82 0.18 1.3
P5 0.73 0.21 0.29 0.66 0.34 1.5
P6 0.12 0.88 -0.02 0.78 0.22 1.0
P7 0.05 0.86 0.14 0.77 0.23 1.1
P8 0.02 0.87 0.16 0.77 0.23 1.1
P9 0.82 -0.13 0.06 0.69 0.31 1.1
P10 0.44 0.20 0.78 0.85 0.15 1.7
P11 -0.13 0.82 0.02 0.70 0.30 1.1
P12 0.18 0.35 0.79 0.78 0.22 1.5
P13 0.10 0.87 0.23 0.83 0.17 1.2
P14 0.25 -0.03 0.79 0.70 0.30 1.2
P15 0.82 -0.24 0.31 0.83 0.17 1.5
Validación de constructo (Análisis Factorial)
VALIDEZ CONSTRUCTO (SUB TEST –TEST)
SUB TEST
Correlaciones
Motivación Sensibiliad Asertividad
TEST Correlación de Pearson
,820** ,609** ,768**

Sig. (bilateral) 0.00 0.00 0.00


N 34 34 34

#Validación subtest-Test
subtest1=rowSums(fact1)
En la matriz de correlaciones
subtest2=rowSums(fact2) podemos analizar claramente
subtest3=rowSums(fact3)
subtest=data.frame(subtest1,subtest2,subtest3)
que el total o índice de calidad
Sum.total=rowSums(test) de la prueba esta
Subtest.test=cor(subtest,Sum.total) correlacionada en forma
Subtest.test
 subtest1 0.8206096 significativa con los 3 factores
 subtest2 0.6097094 considerados, por lo que los 3
 subtest3 0.7682981
factores contribuyen y están
bien adecuados a nuestro
estudio.
ANÁLISIS FACTORIAL CONFIRMATORIO
Library(Lavaan)
El AFC es una herramienta estadística fundamental en Psicometría para
obtener evidencia sobre la estructura interna del test.
en el que el investigador plantea hipótesis definidas a priori sobre:
1. Cuál es el número de factores.
2. Si hay o no correlaciones entre los factores.
3. Cómo saturan las variables observadas en ellos.
4. Si existen correlaciones entre los términos de error o específicos.
Las variables se representan mediante
Gráfica de senderos cuadrados si son observables (en este
caso, los ítems) o mediante círculos si
son variables latentes: como los
factores (F1, F2,) o los errores (E1, E2,
E3,…, E7). Las relaciones entre
variables se representan mediante
líneas. Una línea curva bidireccional
conectando dos variables latentes
indica que ambas covarían (en los
factores están correlacionados; en la
figura 10.2 los factores son
independientes).
Las flechas rectas indican que hay una
relación direccional entre las 2
variables conectadas (por ejemplo, X1
recibe líneas de F1 y del error, E1,
para representar que está influenciada
por ambas variables).
Condiciones y requisitos para el AFC
Índices de
ajuste del
análisis
Factorial
confirmatorio
Recomendaciones sobre los métodos de estimación
En cuanto al método de estimación que resulta más apropiado, sintetizando los comentarios
realizados, algunas recomendaciones a considerar son las siguientes (ver por ejemplo, Finney y
DiStefano, 2006):

1. Si los ítems tienen 5 categorías o más y se cumple el supuesto de distribución multivariada


normal, puede utilizarse el método ML con la matriz de varianzas-covarianzas.

2. Si los ítems tienen 5 categorías o más y no se cumple el supuesto de distribución multivariada


normal, puede utilizarse MLM con la matriz de varianzas-covarianzas.

3. Si los ítems tienen 3 ó 4 categorías, puede utilizarse RWLS con la matriz de correlaciones
policóricas.

4. En el caso de ítems dicotómicos, puede utilizarse RWLS con la matriz de correlaciones


tetracóricas, puede realizarse el AF no lineal.
Indicadores para corroborar el valor
propuesto
library(lavaan)
Modelo= 'A1 =~ P10 + P15 + P12 +
P5 + P3 + P2 + P14+ A2 =~ P4+
P1+ P9+ A3=~ P13+P8+
P7+ P6+ P11‘
fit <- cfa(Modelo, data = r,ordered =
TRUE)
summary(fit, fit.measures = TRUE)
Recomendaciones sobre los indicadores

library(semPlot) Realizando el gráfico final


library(semTools)
semPaths(fit, "std", rotation = 1, layout = "tree2", nCharNodes = 0,
sizeLat
= 14, sizeLat2 = 7, sizeMan = 4.3,label.norm = "OOOOO",
mar=c(2,6,2,4), curvePivot = TRUE,
edge.label.cex=1.5,residuals = F)
dev.print(png, "fig_1_measurement.png", width=6, height=4,
res=300,
units="in")
Gráfico de senderos para identificar la validez de constructo
a través del análisis confirmatorio

Como
ejemplo
realizamos
el AFC con la
Base de
datos AFE.
Con esto se
corrobora
que los
itmes a cada
factor son
los mismos
del análisis
Exploratorio
VALIDEZ Predictiva
Se puede correlacionar el puntaje total con la satisfacción final
brindada por los encuestados
VALIDEZ INTERNA: PREDICTIVIDAD
El criterio se mide pasado un periodo de tiempo tras la aplicación
del test. Muy usado en procesos de selección de personal, en los
que se pretende predecir el rendimiento futuro de los sujetos

ITEMS
SUJETOS
1 2 3 4 5 6 ….. k TOTAL
1
2

n
r de
r1 r2 r3 rk
Pearson
Concurrente
El test y el criterio se miden al mismo tiempo
(concurrentemente). Puede utilizarse para validar un nuevo
test por comparación con otro ya validado previamente.

Test Nuestro Test Validado (prueba de oro)


Factores que afectan la validez
Confiabilidad o Fiabilidad
 Es el grado en que un instrumento mide con precisión, sin
error.

 Es la capacidad del instrumento de ofrecer en su empleo


repetidos resultados veraces y constantes en condiciones
similares de medición.

 La fiabilidad de un instrumento de medida se valora a


través de la consistencia y la estabilidad
Test Antes Test después (Retest
Retes
Test
t

Para obtener el coeficiente de fiabilidad test-retest basta con correlacionar los datos de
las dos últimas columnas, si la correlación rij resulta alta podemos decir que el test
proporciona bastantes garantías respecto a la precisión con la que mide, dado que una
persona concreta obtiene puntuaciones muy parecidas (o similares) en las dos
aplicaciones.
La razón de dividir el test en la mitad par y la
impar es garantizar su equivalencia. Los tests de
rendimiento óptimo suelen tener ítems
ordenados en dificultad, de tal forma que se
comienza a responder los ítems más fáciles hasta
llegar a los situados al final del test, que son los
más difíciles.
Dos
mitades
En este caso, el coeficiente α
obtenido representa un valor
medio, que nos indica que no
existe un elevado grado de
covariación entre los ítems.
Mediante la fórmula 20 de Kuder – Richardson
(Fórmula 20 K – R

 k 
 1 -
 pi qi 

r K-R =
 k - 1  s 2 
T

Donde:
piqi = varianza de cada ítem
s2T = varianza de los puntajes totales
k = número de ítems del instrumento

r K-R ≥ 0.60 instrumento confiable


Confiabilidad
datos
dicotómicos


k 
 
1 - 2
s 2
i 

 k - 1  s T 

α ≥ 0,60
instrumento
confiable
 Francisco J. Abad • Julio Olea • Vicente Ponsoda • Carmen García. Metodología de las
Ciencias del Comportamiento y de la Salud EDITORIAL SÍNTESIS, S. A.

 Luis Escurra M. CUANTIFICACIÓN DE LA VALIDEZ DE CONTENIDO POR CRITERIO DE JUECES-


Pontificia Universidad Católica del Perú.
 Pedro Morales V. GUÍA PARA CONSTRUIR CUESTIONARIOS y ESCALAS DE ACTITUDES.Publicado
en Guatemala: Universidad Rafael Landívar (2011).
 Jaime Aliaga T. Psicometria: Tests Psicométricos, Confiabilidad y Validez.
 Paula Elosua, Paola Bully. Práctica de Psicometría. Manual de procedimiento.
 Paula Elosua. Psicometría. Conceptos básicos y aplicaciones en R comander.
 Gerrit Hirschfeld. Multiple-Group confirmatory factor analysis in R – A tutorial in
measurement invariance with continuous and ordinal indicators.
 Jose M Sallan1, Vicenc Fernandez, Pep Simo, Oriol Lordan, David Gonzalez- Prieto. Análisis
de modelos de ecuaciones estructurales mediante el paquete lavaan
FORMAS DE AUMENTAR LA FIABILIDAD