Está en la página 1de 16

Actividad 4

(CONFIABILIDAD Y VALIDEZ)

Asignatura

PSICOMETRÍA
NRC: 29989

Alumna

ARLETH CECILIA PÉREZ VILLEGAS

ID: 610452

YEISON ANDRES VAQUIRO PLAZAS

Docente

CORPORACIÓN UNIVERSITARIA MINUTO DE DIOS

FACULTAD DE CIENCIAS SOCIALES Y HUMANASPSICOLOGÍA V SEMESTRE

FLORENCIA – CAQUETÁ

2019
Síntesis
(Confiabilidad y validez)
¨La estandarización es un paso importante en el diseño y la evaluación de pruebas
psicológicas y otros instrumentos de evaluación, pero no es el último paso. Antes de que una
prueba pueda utilizarse con cierta seguridad, debe obtenerse información acerca de su
confiabilidad y validez por lo que a sus propósitos específicos concierne¨ (Aiken, 2003, p. 85).
confiabilidad no es lo mismo que estabilidad: al determinar la confiabilidad se asume que la
prueba mide una característica relativamente estable. A diferencia de la inestabilidad, la falta de
confiabilidad es resultado de errores de medición producidos por estados internos temporales,
como la baja motivación o la falta de disposición, o de condiciones externas como un ambiente
de prueba incómodo o con distracciones, existen diversos métodos para estimar la confiabilidad
entre estos se encuentra:
Coeficiente test-retest: Para calcular un coeficiente test-retest o determinar si un instrumento
mide de manera consistente de una ocasión a otra. este coeficiente, conocido también como
coeficiente de estabilidad, se encuentra correlacionando las calificaciones obtenidas por un grupo
de personas en una aplicación con sus puntuaciones en la segunda aplicación de la prueba. El
procedimiento test-retest toma en consideración los errores de medición que resultan de
diferencias en las condiciones (ambientales, personales) asociadas con las dos ocasiones en que
se administró la prueba.
Coeficiente de formas paralelas: También conocida como coeficiente de equivalencia, se
aplican dos o más instrumentos cuyos ítems son diferentes en forma, pero miden lo mismo, luego
se calcula el coeficiente de correlación de Pearson o Spearman (de acuerdo al tipo de variable)
entre cada par de instrumentos.
Coeficiente de consistencia internas: Se dispone de formas paralelas para una serie de
pruebas, en particular para pruebas de habilidad (aprovechamiento, inteligencia, aptitudes
especiales). Sin embargo, una forma paralela de una prueba a menudo es costosa y difícil de
elaborar.
Por esta razón se elaboró un método menos directo de tomar en cuenta los efectos de
diferentes muestras de los reactivos de una prueba sobre la confiabilidad. Éste es el método de
consistencia interna, que incluye el método de división por mitades de Spearman, las fórmulas de
Kuder-Richardson y el coeficiente alfa de Cronbach.
Método por mitades
En este enfoque simplificado de la consistencia interna una sola prueba se considera
compuesta por dos partes (formas paralelas) que miden la misma cosa. De este modo, puede
aplicarse una prueba y asignar calificaciones separadas a sus dos mitades seleccionadas de
manera arbitraria, para la confiabilidad de la prueba como un todo puede estimarse mediante la
fórmula Spearman-Brown.
Método de Kuder-Richardson.
Una prueba puede dividirse de muchas formas diferentes en dos mitades que contengan igual
número de reactivos. Como cada forma puede dar por resultado un valor algo diferente, no queda
claro qué estrategia de división producirá el mejor estimado de confiabilidad. Una solución al
problema es calcular el promedio de los coeficientes de confiabilidad obtenidos de todas las
divisiones por mitades como el estimado global de confiabilidad., para esta se utiliza la formula
K-R 20-21.
Coeficiente alfa.
Las fórmulas especiales del coeficiente alfa más general (Cronbach, 1951). Se utiliza para
casos especiales, el coeficiente alfa es una fórmula general para estimar la confiabilidad de una
prueba que consta de reactivos en los cuales pueden asignarse calificaciones de distinto peso a
respuestas diferentes. Todos los procedimientos de consistencia interna (división por mitades,
Kuder-Richardson, coeficiente alfa) sobrestiman la confiabilidad de las pruebas de velocidad.

Confiabilidad entre calificadores


El enfoque más común para determinar la confiabilidad entre calificadores es hacer que dos
personas califiquen las respuestas de un número considerable de examinados y calcular luego la
correlación entre los dos conjuntos de calificaciones. Otro enfoque es hacer que muchas personas
califiquen las respuestas de un examinado o, mejor aún, que muchas personas califiquen las
respuestas de varios examinados. Esta última estrategia arroja un coeficiente intraclase o
coeficiente de concordancia, el cual es un coeficiente generalizado de confiabilidad entre
calificadores.
Interpretación de los coeficientes de confiabilidad
Cuando se utiliza la prueba para comparar la calificación de una persona con la de otra, o la
calificación de una persona en una prueba con su calificación en otro instrumento, se necesita un
coeficiente de confiabilidad de al menos 85 para determinar si diferencias pequeñas en las
calificaciones son significativa.
Error estándar de medición
Este estadístico, conocido como error estándar de medición, es una estimación de la
desviación estándar de una distribución normal de las calificaciones de la prueba que se supone
serían obtenidas por una persona que presentara la prueba un número infinito de veces.
Validez
De manera tradicional, la validez se ha definido como el grado en que una prueba mide lo
que está diseñada para medir. Una desventaja de esta definición es la implicación de que una
prueba sólo tiene una validez, la cual supuestamente es establecida por un solo estudio para
determinar si la prueba mide lo que se supone debe medir.
Los métodos por los cuales puede determinarse la validez incluyen (1) analizar el contenido
de la prueba, (2) calcular la correlación entre las calificaciones en la prueba y las calificaciones
en el criterio de interés y (3) investigar las características psicológicas particulares o constructos
medidos por la prueba, la validez tiene tres tipos:
Validez de contenido
La validez de contenido atañe a si éste produce un rango de respuestas que son representativas
del dominio entero o universo de habilidades, entendimientos y otras conductas que
supuestamente debe medir la prueba. Se supone que las respuestas a la muestra de reactivos de
una prueba bien diseñada son indicativas de lo que serían las respuestas al universo entero de
conductas de interés.
Validez con relación a criterio
La validación de cualquier prueba de habilidad consiste en relacionar las calificaciones en la
prueba con el desempeño en medidas o estándares de criterio con los cuales pueden compararse
las calificaciones. Sin embargo, de manera tradicional, el término validez con relación a criterio
hace referencia a procedimientos en los cuales las calificaciones en la prueba de un grupo de
personas se comparan con las puntuaciones, clasificaciones u otras medidas de desempeño.
Siempre que se dispone de una medida de criterio en el momento de la prueba puede
determinarse la validez concurrente del instrumento. Cuando las calificaciones en el criterio no
están disponibles sino hasta cierto tiempo después de que se aplicó la prueba, se enfatiza la
validez predictiva de la prueba.
Validez concurrente
Los procedimientos de validación concurrente se emplean siempre que una prueba se aplica a
personas clasificadas en varias categorías, como grupos de diagnóstico clínico o niveles
socioeconómicos, con el propósito de determinar si las puntuaciones en la prueba de las personas
ubicadas en una categoría son significativamente diferentes de las de los individuos que se hallan
en otras categorías.
Validez predictiva.
La validez predictiva atañe a la precisión con que las puntuaciones de una prueba predicen
puntuaciones de criterio, según lo indica la correlación entre la prueba (predictor) y un criterio
del desempeño futuro. La validez predictiva es de interés sobre todo para las pruebas de aptitud o
de inteligencia, ya que las puntuaciones en esos tipos de instrumentos a menudo se correlacionan
con las puntuaciones, notas de cursos, calificaciones de pruebas de aprovechamiento y otros
criterios de desempeño.
Error estándar de estimación.
La desviación estándar de esta distribución es un índice del error promedio en esas
predicciones.

Factores que afectan la validez con relación a criterios


 Diferencias de grupo
 Extensión de la prueba
 Contaminación de criterios
 Validez creciente
Validez de constructo
La validez de constructo es de un interés mayor aún con respecto a las pruebas de
personalidad. La validez de constructo de un instrumento de evaluación psicológica se refiere al
grado en que el instrumento mide un constructo particular, o concepto psicológico como la
ansiedad, la motivación para el logro, la extroversión-introversión o el neuroticismo. La validez
de constructo, que es el tipo más general de validez, no se determina de una sola manera o por
una investigación.
La confiabilidad es una condición necesaria pero no suficiente para lograr la validez, que es el
grado en el cual una prueba mide lo que está diseñada para medir. La información sobre la
validez de una prueba puede obtenerse de varias maneras: analizando el contenido de la prueba
(validez de contenido), correlacionando las calificaciones de la prueba con calificaciones en un
criterio medidas al mismo tiempo (validez concurrente), correlacionando las calificaciones de la
prueba con calificaciones en un criterio medidas en un momento posterior (validez predictiva), y
por el estudio sistemático de lo adecuado de la prueba para valorar un constructo psicológico
especificado (validez de constructo). En las pruebas de aprovechamiento, por lo regular, se
valida el contenido, mientras que la validez predictiva es de mayor interés con respecto a las
pruebas de aptitud. La validez concurrente y la de constructo son importantes para las pruebas de
personalidad.
La magnitud de un error cometido al predecir la calificación de criterio de una persona a partir
de su calificación en una prueba es calculada mediante el error estándar de estimación, el cual
varía inversamente con el tamaño del coeficiente de validez relacionado con el criterio. Tanto el
coeficiente de validez relacionado con el criterio como el error estándar de estimación son
afectados por varios factores que comprenden las diferencias de grupo, la extensión de la prueba
y la contaminación del criterio. Como la magnitud de un coeficiente de validez puede ser
afectada por factores aleatorios, las pruebas usadas con propósitos predictivos deberían
someterse a validación cruzada en muestras separadas de personas.
CONFIABILIDAD Y VALIDEZ

Aiken
Aiken, L. R. (2003). tests psicologicos y
evaluación. En L. R. Aiken, tests

Validez
Grado en que una prueba
Confiabilidad: Grado en mide lo que está diseñado
que el instrumento produce para medir.
los mismos resultados al
aplicarse repetidad veces. Tipos de
Error estándar de medición validez
Es una estimación de la
desviación estándar de una
distribución normal de las Validez de Validez con relación a Validez de
calificaciones. contenido criterio constructo se
Produce un rango de Hace referencia a los refiere al grasdo en
respuestas que son procedimientos en los que el instrumento
Tipos de representativas del cuales las calificaciones mide un construto
confiabilidad dominio entero o en la prueba de un particular.
universo de grupo se comparan las
habilidades. puntuaciones.

Coeficiente test- Coeficiente de


Coeficiente de formas consistencias Validez concurrente
retest paralelas Tiene Es el grado de relación que
Se utiliza para internas exiasten entre las puntuaciones
en consideración los Grado en que los de las pruebas y las medidas del
determinar su un errores debidosa
instrumento mide de ítemes de una criterio.
diferentes momentos de escala se
manera consistente aplicación como las Tipos de validez de
de una ocasión a correlacionan entre criterio
diferentes muestras de ellos. Validez predictiva
otra. los reactivos de prueba. Es el grado de relación que
exiaste entre las puntuaciones
de la prueba y la medidasdel
criterio recopilado.
Método de división por mitades
Consistencia interna una FACTORES QUE AFECTAN LA
sola prueba se considera compuesta VALIDEZ CON RELACION A
por dos partes que miden la misma
CRITERIOS
cosa, la confiabilidad puede
estimarse merdiante la fórmula
Spearman-Brown.

Incluye tres métodos Método de Kuder-Richardson Diferencia Extención


Permite calcular la confiabilidad
grupo de
con una sola aplicación del pruebas
instrumento. Evidencia a favor de la
validez de constructo
Contami-
nación de
Validez
criterios Creciente
Coeficiente Alfa Se
requiere una 1. Los juicios de expertos de que
aplicación del el contenido de la pruebas 2. Análisis de la consistencia
instrumento de corresponden al constructo de interna de la prueba.
medición. interés.

4. Correlaciones de las 3. Relaciones entre las


puntuaciones en las puntuaciones puntuaciones de la prueba y otras
y variables en las cuales se espera variables en las cuales difieren los
que tenga cierta relación. grupos.

5. Interrogar con detalles a los


examinados o a los calificadores
acerca de sus respuestas a una
prueba o escalas para revelar los
procesos mentales específicos.
1. Calcule los coeficientes de confiabilidad de división por mitades (nones y pares) y Kuder-
Richardson (fórmulas 20 y 21) en las siguientes calificaciones de diez examinados a diez
reactivos en una prueba de aprovechamiento donde 1 indica una respuesta correcta y 0 una
respuesta errónea.

La media X́ de las calificaciones totales es 5.30 y la varianza S2 es 5.21.

REACTIVO A B C D E F G H I J  
1 1 1 0 1 1 0 1 0 1 0  
2 1 0 0 0 0 1 0 0 0 1  
3 1 1 1 1 1 0 1 0 0 0  
4 1 1 1 0 0 1 0 1 0 0  
5 1 0 1 1 0 0 0 0 0 0  
6 1 1 1 0 1 1 1 0 0 0  
7 1 0 1 1 0 0 1 1 0 1  
8 1 1 1 0 1 1 0 0 1 0  
9 1 1 0 1 1 1 0 1 0 0  
10 1 1 1 1 1 0 0 0 1 0  
Totales 10 7 7 6 6 5 4 3 3 2  
Pi 1 0,7 0,7 0,6 0,6 0,5 0,4 0,3 0,3 0,2

1−Pi 0 0,3 0,3 0,4 0,4 0,5 0,6 0,7 0,7 0,8 4,7

∑  Pi ( 1−Pi ) 0 0,21 0,21 0,24 0,24 0,25 0,24 0,21 0,21 0,2 1,97

Fórmulas Kuder-Richardson (K-R) 20 y 21:


K [ 1−∑ Pi ( 1−Pi ) /S 2 ] K -  X́   ( K − X́ ) / S2
K 21=
K 20= K−1
K −1

Datos:

K = número de X́ = 5.30
reactivos S2=5.21
10-  5.30   ( 10−5.30 ) / 5.21
K= 10 KR 21=
10−1

10 [ 1−0.3781 ] 10- 24,91/5.21


KR 20 = KR 21=
9 9
10 [ 1−1.97/5.21 ]
KR 20=
10−1 10-  5.30   ( 4.7 ) / 5.21
KR 21=
9
10 [ 0.6219 ] 10−4,7811
KR 20= KR 21 =
9 9
5,2188
6.219 KR 21 =
KR 20= 9
9

KR 21=0,5798

KR 20 =0.691

KR 21=0,580
La confiabilidad se califica como: baja

La confiabilidad se califica como:

Muy baja.

Confiabilidad de división por mitades


impar pares impares por
es cuadrados cuadrados pares
participantes impares X pares Y X cuadrado Y cuadrado XY
A 5 5 25 25 25
B 3 4 9 16 12
C 3 4 9 16 12
D 5 1 25 1 5
E 3 3 9 9 9
F 1 4 1 16 4
G 3 1 9 1 3
H 2 1 4 1 2
I 1 2 1 4 2
J 1 1 1 1 1
TOTAL 27 26 93 90 75

Fórmula Pearson para coeficiente de correlación Fórmula de Spearman-Brown


2 r oe
r = N∗∑ XY −¿ ¿ ¿ r 11=
1+ r oe
2(0,226)
(10)(75)−( 27 ) (26) r 11=
r= 1+ 0,226
√(10)(93)−(27)²∗√(10)(90)−(26) ²

0,452
r 11=
750−702 1, 226
r = √ 930−729∗√ 900−676

r 11=0,3686
48
r = √201∗√ 224

Se califica como no
48 Confiable.
r = √(201)(224)

48
r = √ 45024

48
r= 212,18

r = 0,226
2. Describa tres tipos de confiabilidad y tres tipos de validez. ¿Para qué tipos de pruebas y
situaciones es más apropiado cada tipo de validez y confiabilidad?

Tipos de confiabilidad
Medida de estabilidad (coeficiente por test – retest).

En este procedimiento, se aplica un mismo instrumento de medición, dos o más veces a un


mismo sujeto u objeto de investigación, dentro de un período de tiempo relativamente corto. En
este caso, se debe realizar una correlación entre los datos obtenidos en las diferentes
aplicaciones, con lo cual, si se obtiene que la correlación realizada es altamente positiva, se
puede inferir que el instrumento es confiable. También es conocido como coeficiente de
estabilidad.

Coeficiente de formas paralelas.

Es de hacer notar, que, en este procedimiento, no se aplica el mismo instrumento de medición,


sino que se aplican dos versiones equivalentes o parecidas del mismo, dentro de un período de
tiempo relativamente corto. En consecuencia, se puede inducir que el instrumento es confiable si
la correlación entre los resultados arrojados por dichos instrumentos es significativamente
positiva. También conocido como coeficiente de equivalencia.

Coeficiente de consistencia internas.

Éste método incluye el método de división por mitades de Spearman, las fórmulas de Kuder-
Richardson y el coeficiente Alfa de Cronbach. Sin embargo, los errores de medición causados
por diferentes condiciones o momentos de aplicación no se reflejan en un coeficiente de
consistencia interna. En consecuencia, este tipo de coeficientes no pueden verse como
verdaderos equivalentes de los coeficientes test-retest o de formas paralelas.

Coeficiente alfa de Cronbach.

El coeficiente alfa de Cronbach, por su parte, suele utilizarse para estimar la consistencia
interna de un test y se trata de un método basado en la covarianza de los ítems. El coeficiente α
oscila entre 0 y 1. Cuanto más próximo esté a 1, los ítems serán más consistentes entre sí. Hay
que tener en cuenta que, a mayor longitud del test, mayor será alfa.
Ahora bien, la fórmula para obtener el coeficiente alfa de Cronbach es la siguiente.
Método de Kuder-Richardson.
Las fórmulas deducidas por Kuder y Richardson están destinadas a estimar la confiabilidad de
una prueba. Estas fórmulas se basan en la consistencia inter ítem y sólo requieren una
administración de la prueba. La más usada de ellas, la fórmula 20, requiere información basada
en el número de ítems de la prueba, la desviación estándar de la puntuación total y la proporción
de examinados que aprobaron cada ítem. Se trata de dos fórmulas aplicables a sendos casos
particulares de alfa. KR20 se aplica en el caso en que los ítems del test sean dicotómicos, y
KR21, en el caso de que además de ser dicotómicos, tengan la misma dificultad. Las fórmulas de
Kuder-Richardson no deben utilizarse con pruebas en donde la velocidad de resolución es
importante. El modelo de Kuder-Richardson es aplicable en las pruebas de ítem dicotómicos en
los cuales existen respuestas correctas e incorrectas. Las fórmulas de KR 20 Y 21 son las
siguientes.

K -  X́   ( K − X́ ) / S2
K [ 1−∑ Pi ( 1−Pi ) /S 2 ] K 21=
K 20= K−1
K −1

Método de división por mitades - fórmula Spearman-Brown


En este enfoque simplificado de la consistencia interna una sola prueba se considera compuesta
por dos partes (formas paralelas) que miden la misma cosa. De este modo, puede aplicarse una
prueba y asignar calificaciones separadas a sus dos mitades seleccionadas de manera arbitraria.
La fórmula de Spearman es la siguiente:
2 r oe
r 11=
1+ r oe

Tipos de Validez

Validez de contenido.

A través de la validez de contenido se trata de determinar hasta donde los ítems de un


instrumento son representativos del dominio o universo de contenido de la propiedad que se
desea medir. A diferencia de otros tipos de validez, la de contenido no puede ser expresada
cuantitativamente, a través de un índice o coeficiente; ella es más bien una cuestión de juicio. El
procedimiento más comúnmente empleado para determinar este tipo de validez, es el que se
conoce con el nombre de juicios de expertos.

Juicio de expertos: Conjunto de opiniones que pueden brindar profesionales expertos en una
industria o disciplina, relacionadas al proyecto que se está ejecutando. Este tipo de información
puede ser obtenida dentro o fuera de la organización, en forma gratuita o por medio de una
contratación, en asociaciones profesionales, cámaras de comercio, instituciones
gubernamentales, universidades.

Validez con relación a criterio: Se establece al validar un instrumento de medición al


compararlo con algún criterio externo que pretende medir lo mismo. Validez concurrente y la
validez predictiva. el término validez con relación a criterio hace referencia a procedimientos en
los cuales las calificaciones en la prueba de un grupo de personas se comparan con las
puntuaciones, clasificaciones u otras medidas de desempeño por ejemplo en las campañas
electorales, los sondeos se comparan con los resultados finales de las elecciones, notas escolares
de estudiantes de un colegio. Ejemplo: coeficiente de contingencias, Spearman-Brown, Pearson,
Alfa de Cronbach y la técnica Aiken.
Validez de constructo: Es probablemente la más importante, sobre todo desde la perspectiva
científica, ya que se refiere al grado en que una medición aportada por instrumento relaciona
consistentemente con otras mediciones que han surgido de hipótesis y construcción de teorías
antecedentes. Debe explicar el modelo teórico empírico que subyace a la variable de interés.
Ejemplo: El análisis de factores, análisis de cofactores y análisis de covarianza. La validez de
constructo se interesa cuando queremos utilizar el desempeño de los sujetos con el instrumento
para inferir la posesión de ciertos rasgos o cualidades psicológicas. Por ejemplo, en lugar de
hablar de los puntajes que una persona obtuvo en un instrumento determinado, podemos hablar
de:

a. La actitud hacia la matemática

b. La satisfacción o disfrute con el aprendizaje de la matemática

c. La valoración o significado de la matemática

Todas estas son cualidades hipotéticas llamadas construcciones, cuya existencia se supone
para explicar la conducta en muchas y diferentes situaciones específicas.

Referencias Bibliográficas

 Aiken, L. R. (2003). Tests psicológicos y evaluación. 13ª ed. México: PEARSON


Educación.
 Andrés, M. Caviedes Castro.(22 de febrero del 2018). Ejercicios de clase. Evaluación de
la confiabilidad de una prueba por división por mitades (1/8). [ archivo de video].
Recuperado de: https://www.youtube.com/watch?v=SPj80ZrLW1s

También podría gustarte