Validez y Confiabilidad de La Evaluación

Dr. RAL DELGADO ARENAS Mgter.
Antonio DELGADO ARENAS

1

DIPLOMADO EN EVALUACIN E INVESTIGACIN
EVALUATIVA

OFICINA DE INVESTIGACIN

ANLISIS E INTERPRETACIN DE LOS
RESULTADOS DE LA EVALUACIN
(Validez y Confiabilidad)

Dr. Ral Delgado Arenas.
Mgter. Antonio Delgado arenas

Marzo - 2014

Dr. RAL DELGADO ARENAS Mgter. Antonio DELGADO ARENAS
2

VALIDEZ DE LOS INSTRUMENTOS DE EVALUACION

1. REQUISITOS BSICOS DE UN INSTRUMENTO DE EVALUACIN
Los instrumentos de medicin deben ser correctos, o que indiquen lo que interesa
medir con facilidad y eficiencia. Segn la literatura de psicologa, donde se habla ms
de medicin toda medicin o instrumento de recoleccin de datos debe reunir tres
requisitos esenciales: confiabilidad, validez y objetividad.

.

1.1.QU SE ENTIENDE POR VALIDEZ?
Se entiende por validez el grado en que una prueba mide lo que se pretende
medir realmente; es decir, si la prueba sirve en realidad al propsito para el cual
fue hecha.

La validez se refiere al grado hasta el cual la prueba sirve a su propsito con
respecto al grupo para el cual ha sido desarrollada.

La validez, en trminos generales, se refiere al grado en que un instrumento
realmente mide la variable que pretende medir. La validez es una cuestin ms
compleja que debe alcanzarse en todo instrumento de medicin que se aplica.
Kerlinger (1976, p. 138) plantea la siguiente pregunta respecto de la validez:
Est midiendo lo que cree que est midiendo? Si es as, su medida es valida; si
no, evidentemente carece de validez.

INSTRUMENTOS
DE EVALUACION
VALIDEZ: se refiere al grado en que la prueba est
midiendo lo que en realidad se desea medir.

CONFIABILIDAD: se refiere a la exactitud y a la
precisin de los procedimientos de medicin
OBJ ETIVIDAD: se refiere al grado en que el
instrumento es permeable a la influencia de los
sesgos y tendencias de los investigadores que lo
administran, califican e interpretan.

3

Por ejemplo: un instrumento vlido para medir la inteligencia debe medir la
inteligencia y no la memoria. Una prueba sobre conocimientos de historia tiene que
medir esto y no conocimientos de literatura histrica. Un rendimiento burstil tiene que
medir precisamente esto y no la imagen de una empresa.
El concepto de validez slo tiene sentido si se especifica el objetivo de la prueba.

2. TIPOS DE VALIDEZ
2.1 DE CONTENIDO
Se refiere al grado en que un instrumento refleja un dominio especfico
de contenido de lo que se mide. Es el grado en el que la medicin representa
al concepto o variable medida (Bohrnstedt, 1976).

La persona que confecciona el test, cuando proyecta o selecciona los tems,
debera preguntarse:
a) Es relevante este tem para el contenido que pretende medir el test?
b) Se ha facilitado la informacin necesaria para completar correctamente
este tem?
c) Estn concebidos estos tems para evaluar el conocimiento y la
comprensin del contenido o se trata de tems engaosos que evaluarn
la capacidad de un estudiante para burlar al examinador?
d) Dificulta la forma en que se presenta el tem la informacin que deseo
evaluar?
e) Es representativo el nmero de preguntas sobre cada asignatura del
nfasis que se ha dado a cada una de ellas durante el curso?
La cuestin bsica es siempre la de saber hasta qu
punto la prueba sirve al propsito para el cual fue hecha.
4

es la
de un
para
acerca de las
que el
desea
considera
para validar un
estas son
es el
en que un
evala el
comprendido en un
es un
que no puede observarse
pero que puede
a partir de
es el
en que la
en un
puede
compararse con
otro
llamado
VALIDEZ
CAPACIDAD
INSTRUMENTO
VALORATIVO
OBTENER PROPORCIONAR
INFORMACIN
DIRECTA
MANIFESTACIONES
CONDUCTUALES
ESPECFICAS
DOCENTE
INDAGAR
TRES TIPOS
FUNDAMENTALES
INSTRUMENTO
DE CONTENIDO DE CONSTRUCTO
RELACIONADA
CON UN CRITERIO
GRADO
INSTRUMENTO
CONOCIMIENTO DEL MATERIAL
CURSO LIBRO ACTIVIDAD ETC
RASGO
DIRECTAMENTE
INFERIRSE
CONDUCTAS
OBSERVABLES
GRADO
ACTUACIN
INSTRUMENTO
CONJUNTO DE
CONDUCTAS
CRITERIO O
ESTNDAR
UNE: Medicin y Evaluacin de la Calidad Educativa Dr. RAL DELGADO ARENAS
5

2.2. CRITERIOS A UTILIZAR PARA LA VALIDEZ DE CONTENIDO:
A) Juzgar mediante un anlisis crtico del contenido de los tems, teniendo en
cuenta los materiales utilizados y la estructura del curso y actividades.
B) En algunas ocasiones puede resultar til hacer que un segundo profesor,
familiarizado con el curso y los materiales utilizados, ofrezca una opinin con
respecto a la validez de contenido del test que usted proyecta o seleccin.
C) Se sugiere una evaluacin estadsticas de cada tems, aquel que se ha
contestado correctamente en un porcentaje mayor a 60% es aceptado y para
constituir nuestro banco de preguntas.

D) Tambin se puede aplicar una correlacin estadstica para determinar un
coeficiente de validez; en este caso se sugiere utilizar el r de las dos mitades,
el cual nos da un nmero, comprendido entre +1 y -1 y que refleja la coherencia
obtenida con las mitades de un test o una prueba. Puede hallarse tratando las
preguntas impares y las pares de un test como dos medidas separadas. De este
modo, se puede obtener dos puntuaciones por persona a partir de un test o
prueba.
Observacin: No es aconsejable las puntuaciones de la primera y de la segunda
mitad (en lugar de las preguntas pares e impares) de un test o de una prueba, ya
que esto acenta las diferencias debidas a factores como la rapidez y el
cansancio. Adems, si se sitan los tems ms difciles hacia el final del test, la
validez estara reflejada para una correlacin entre tems fciles y difciles, en
lugar de la coherencia del test como tal.
tem
Alumnos
1 2 3 4 5 6 7 8 9 10
Manuel
Juan
Elizabeth

TOTAL

%de acierto= Nde personas100
100
6

E) La direccin de un coeficiente de correlacin representa el grado similitud o
divergencia de las caractersticas de los conjuntos de datos relacionados.
Se presentan tres casos:
1) Cuanto ms cercano a +1 sea el resultado, tantas ms probabilidades habr
para considerar que las informaciones obtenidas (y por consiguiente el
procedimiento evaluativo utilizado) servirn o sern validos para el objetivo que
se haya deseado.
2) Si el coeficiente es igual a cero, significar la nula existencia de relacin entre
las caractersticas de los conjuntos de antecedentes asociados.
3) Si el coeficiente es igual a -1 reflejar una correlacin inversa perfecta.
Observacin:
* Coeficientes con valores iguales o superiores a +0,60 se consideran, la
mayora de las veces, como antecedentes cuantitativo satisfactorio para
propsitos de validacin (ver figura N1)

Ejemplo:
En un test de Razonamiento matemtico con 50 tems los estudiantes de la
Seccin Doctoral, (IV Ciclo UNE), recibieron las puntuaciones que se
muestran a continuacin (Tabla 1: Datos). Estimar la validez de este test
utilizando la frmula de las dos mitades.
TABLA 1 : Datos
Estudiante
Puntaje de tem
Puntaje Total
Impares Pares
Daniel 24 22 46
Elena 13 14
Jaime 16 13
Juan 18 19
Mara 20 22
Marta 15 14
Pedro 25 23

-1 -0,5 0 +0,5 +0,6 +1
Rango aceptable
7

Solucin:
Frmula de las dos mitades.
r
dm
=
EM
EM
r
r
+
1
2

Correlacin entre mitades (r
EM
)
r
EM
=
( )
n
Z Z
p i

Determinacin de Z:
Z =
o
x x

Estudiante
tems Impares tems Pares
x x x x
Daniel 24 22 484
Elena 13 14
Jaime 16 13
Juan 18 19
Mara 20 22
Marta 15 14
Pedro 25 23
E

Matriz de tabulacin:

ESTUDIANTES
ITEMS IMPARES ITEMS PARES Zi
x
Zp
PUNTUACION
TOTAL
x x Zi Y Y Zp
Daniel
24
576
22

46
Elena 13 14 27
Jaime 16 13 29
Juan 18 19 37
Mara 20 22 42
Marta 15 14 29
Pedro 25 23 48

Media
Desviacin
Tpica

Donde: x = cada una de las puntuaciones.
x = promedio de puntuaciones.
o = desviacin estndar.
8

Desviacin de X Desviacin de Y

19 7 133 x = =
2
2
N
x
N
x
|
.
|
\
|

= o

= o

18 7 126 x = =
2
2
N
x
N
x
|
.
|
\
|

= o
= o

r
EM
=
( )
n
Z Z
p i

=
r
EM
=

Interpretacin:
_________________________________________________________________
_________________________________________________________________
________________________________________________________________
9

VALIDEZ DE CONSTRUCTO
La Validez de Constructo es probablemente la ms importante, sobre todo desde una
perspectiva cientfica, y se refiere a que tan exitosamente un instrumento representa y
mide un concepto terico (Bostwick y Kyte, 2005). A esta validez le concierte el
significado del instrumento, esto es, qu est midiendo y cmo opera para medirlo.
Integra la evidencia que soporta la interpretacin del sentido que poseen las
puntuaciones del instrumento (Messick, 1995, 1989).

Parte del grado en el que las mediciones del concepto proporcionadas por el
instrumento se relacionan de manera consistente con otras mediciones de otros
conceptos, de acuerdo con modelos e hiptesis derivadas tericamente (que
conciernen a los conceptos que se estn midiendo) (Carmines y Zeller, 1991). A tales
conceptos se les denomina constructos.

Un constructo es una variable medida y que tiene lugar dentro de una hiptesis,
teora o un esquema terico. Es un tributo que no existe aislado sino en relacin con
otros (Bostwick y Kyte, 2005). No se puede ver, sentir, tocar o escuchar; pero debe ser
inferido de la evidencia que tenemos en nuestras manos y que proviene de las
puntuaciones del instrumento que se utiliza.

La validez de constructor incluye tres etapas (Carmines y Zeller, 1991):

- Se establece y especifica la relacin terica entre los conceptos (sobre la base
del marco terico).
- Se correlacionan los conceptos y se analiza cuidadosamente la correlacin.
- Se interpreta la evidencia emprica de acuerdo con el nivel en el que clarifica la
validez de constructo de una medicin en particular.

El proceso de validacin de un constructor est vinculado con la teora. No es
conveniente llevar a cabo tal validacin, a menos que exista un marco terico que
soporte la variable en relacin con otras variables.

Las preguntas que se responden con la validez de constructo son: el concepto
terico est realmente reflejado en el instrumento?, qu significan las puntuaciones
10

del instrumento?, el instrumento mide el constructor y sus dimensiones?, por qu s
o por qu no?, cmo opera el instrumento?

Son parte de los muchos constructos, conductas observables como, la ansiedad, el
concepto de uno mismo, la integridad, el autocontrol y el espritu de cooperacin, etc.
que son de inters de los profesores. Estos suelen evaluarse mediante cuestionarios e
instrumentos similares.

Para establecer la validez de constructo es preciso demostrar una correlacin
moderadamente alta entre puntuaciones obtenidas con un instrumento concebido para
medir un constructo y puntuaciones obtenidas con una medida de conducta
observable que se supone indicativa del propio rasgo.

EJEMPLO:
Si el creador de un test ideara una medida a la que llamara medida de autoconcepto,
debera demostrar que la actuacin en esta medida correlaciona positivamente con
conductas como la expresin de orgullo cuando se hacen las cosas bien, el deseo de
hacer preguntas y respuestas o el hecho de mantener la vista fija cuando se habla con
otra persona. Por lo general se considera que estas conductas van unidas a un
elevado concepto de uno mismo. La ejecucin en el test tambin tendra que
correlacionar negativamente con conductas como hacer observaciones degradantes
con respecto a uno mismo o tener miedo a hablar en voz alta en un grupo. El creador
del test podra querer mostrar tambin que las puntuaciones de la medida
correlacionan positivamente con otras puntuaciones de un segundo test de
autoconcepto.

En cuanto al anlisis relacional para dos conjuntos de datos obtenidos puede
efectuarse mediante una correlacin estadstica, cuyo producto se expresa por un
coeficiente de validez que podra fluctuar entre +1 y -1.

* Las correlaciones estadsticas que se pueden utilizar son:
a) Correlacin por rangos (rho): propuesto por Spearman. Se basa en la
siguiente frmula.
r
ho
=
( ) 1 N N
D 6
1
2
2
R

11

Donde:
r
ho
= Adaptacin fontica de la letra griega r, en tanto la letra inicial de la palabra
rango.
E = Smbolo que representa la sumatoria de algo.
D = Inicial de la palabra diferencial(s)
R = Rango o lugar de ubicacin segn puntuacin obtenida.
ED
R
2
= Suma de los cuadrados de las diferencias entre los rangos.
N = Total de parejas de datos correlacionados.
6 y 1 = Valores fijos de la frmula.
N
2
= Cantidad de parejas de datos correlacionados, elevados al cuadrado.
b) Correlacin por puntuaciones netas: propuesta por Pearson, basada en la
siguiente frmula.

y x
S S
y x
N
xy
r
=
Donde:
r = Relacin o asociacin estadstica entre dos conjuntos de datos.
Exy = Suma de todos los productos de las puntuaciones, cada puntuacin x
multiplicada por la correspondiente puntuacin y.
x e y = Promedio de las puntuaciones x e y.
S
x
y S
y
= Desviacin estndar de las puntuaciones x e y.
Para calcular la desviacin estndar de las puntuaciones, se propone la siguiente
frmula.
2
2
N
x
N
x
S
|
.
|
\
|

=
Ejemplo:
En un programa de Doctorado en Educacin se desea estimar la capacidad que
poseen los estudiantes para formular, operativamente, objetivos de aprendizaje
cognoscitivos. Para ello se solicit a 20 docentes alumnos que redactaran cinco
objetivos segn las tcnicas de formulacin operativa. Los resultados se utilizarn
como criterio para se comparados con los antecedentes que presentarn los
mismos alumnos en una prueba donde se pide, que argumentadamente, escriban
los aciertos y errores existentes en una serie de cinco objetivos operacionales ya
formulados. Se pretende que los resultados por obtener en esta ltima prueba
12

sean lo suficientemente similares al otro procedimiento empleado como para que
aquella pueda servir de sustituto vlido y ms expedito como evaluacin de la
capacidad objeto de estudio. Los resultados, en puntuaciones, obtenidos por los
docentes-alumnos en la prueba, simbolizados como variable x, y los logrados en
la redaccin de objetivos, considerados como variable criterio y, pueden
observarse en la tabla siguiente.

Efectuar el anlisis estadstico correlacional de los resultados utilizando.
a) Correlacin por rangos o lugares.
b) Correlacin por puntuaciones netas.

Alumnos
Puntuaciones obtenidos
en
Prueba (x) Criterio (y)
Adolfo 10 06
Antonio 20 20
Eduardo 15 15
Rafael 14 10
Mara 19 20
Elsa 20 18
Elizabeth 18 19
Carlos 17 17
Maximo 15 16
Zarela 13 13
Irma 15 13
Juan 18 17
Lizbeth 15 13
Jorge 20 19
Juan 19 18
Nora 14 15
Olga 13 14
Omar 16 15
Pedro 15 14
Rosa 09 04

13

Correlacin por puntuaciones netas (Pearson)
Alumnos Puntuacin obtenida en Lugar o Rango en xy

Prueba
(x)
Criterio
(y)
Prueba
(x
2
)
Criterio
(Ry
2
)

Adolfo 10 06 100 36
Antonio 20 20
Eduardo 15 15
Rafael
14 10
Mara 19 20
Elsa 20 18
Elizabeth 18 19
Carlos 17 17
Rita 15 16
Zarela 13 13
Irma 15 13
Juan 18 17
Lizbeth 15 13
Jorge 20 19
Juan 19 18
Nora
14 15
Olga 13 14
Omar 16 15
Pedro 15 14
Rosa 09 04
E
Promedios X

Desviacin estndar

Calcular de Sx =
2
20
.......
20
.......
|
.
|
\
|
Sy =
2
20
.......
20
........
|
.
|
\
|

Sx = ... .......... Sy = ... ..........
Sx= ______ Sy = _______
y x
S S
y x
N
xy
r
=
...... ..........
........ .. ..........
20
... ..........
x
r

=
= = r r =
14

Interpretacin:
Los valores de r obtenidos para la correlacin por rangos y por puntuaciones
netas indican que existe una correlacin alta entre la redaccin de objetivos y la
presentacin argumentada de objetivos operacionales ya formulados, por lo tanto
permite inferir que la prueba utilizada es un procedimiento alternativo muy
adecuado (vlido) para juzgar sin grandes equivocas la capacidad para redactar
objetivos.

MTODOS DE MEDICIN CON FINES PSICOMTRICOS

CONFIABILIDAD
1. Definicin de Confiabilidad:
Es la capacidad que posee un instrumento para obtener y entregar informacin
idntica o similar sobre determinadas manifestaciones conductuales de un mismo
individuo, indagadas en una o ms ocasiones.
- La confiabilidad se refiere al grado de estabilidad de la clasificacin de los
individuos realizada mediante algn procedimiento evaluativo que sea del
dominio conductual estudiado.

2. La confiabilidad desde la perspectiva psicomtrica de la evaluacin
Segn los propsitos y datos que se tengan para analizar las fuentes de
variaciones aleatorias (azar) de las informaciones recabadas en una o ms
oportunidades sobre el desempeo de un mismo grupo de examinados, la
confiabilidad con fines psicomtricos se puede estimar mediante algunos de los
siguientes mtodos:
A. Prueba reiterada, para la estabilidad.
B. Formas comparables para la equivalencia.
C. Biparticin o intercorrelacin de items, para la consistencia interna.

15

es la
se refiere al
de la
realizada a travs de
que posee un
para
sobre determinadas
de un
indagadas en
a travs de
para la para la para la
las que determinan
que deben ser
para
en la
CONFIABILIDAD
CAPACIDAD
GRADO DE ESTABILIDAD
MTODOS DE MEDICIN
CON FINES PSICOMETRICOS
CLASIFICACIN DE
INDIVIDUOS
PROCEDIMIENTOS
EVALUATIVOS
INSTRUMENTO
INFORMACIN
IDNTICA
OBTENER ENTREGAR
MANIFESTACIONES CONDUCTUALES
MISMO INDIVIDUO
UNA O MAS OCASIONES
PRUEBA
REITERADA
FORMAS
COMPARABLES
BIPARTICIN
DE ITEMS
ESTABILIDAD EQUIVALENCIA
CONSISTENCIA
INTERNA
COEFICIENTES
MAYORES A 0,70
GARANTIZAR SU EFECTIVIDAD
ESTIMACIN
16

MTODO SEGN INTERRELACIN DE LOS TEMS
Permite estimar el grado de homogeneidad o concordancia existente entre los
resultados estudiantiles observados en cada reactivo de un instrumento y el
resultado total alcanzado en ste.
2.1. KR
20
:
Pasos a seguir:
Cuando un instrumento se utiliza para evaluar potencia o rendimiento,
prescindiendo en absoluto del factor velocidad para su comprobacin y sus
tems se valoran dicotmicamente, por ejemplo:
1 para simbolizar respuesta correcta o positiva.
O para simbolizar respuesta errada u omitida.
Y cuando, adems, se supone que los reactivos presentan un grado de
facilidad similar, el coeficiente de consistencia interna podra estimarse
utilizando la siguiente frmula de correlacin propuesta por Kuder-Richardson:

KR20 = r
KR-20
=
t
t
S
pq S
K
K

-
1

Donde:
KR20 y r
KR-20
= son cdigos que identifican esta frmula.
K = N de items del test
S t = varianza total de las puntuaciones obtenidas por todos los alumnos
P = proporcin de examinados que responde adecuadamente a cada tem.

p = __ N personas que respondieron el item correcto
N personas examinadas

q = proporcin de examinados que responde en forma errada u
omiten cada tem.
Como: p + q = 1 q = 1 p
pq = Suma total de los productos resultantes de multiplicar p por q,
para cada tem.

17

Ejemplo:
Se desea estimar el grado concordancia existente entre los resultados
obtenidos por seis alumnos en cada uno de los 10 tems de una prueba
de Qumica aplicada una sola vez con el resultado total logrado por
aquellos en dicha ocasin la cual se tiene tabulada en la siguiente tabla.

Alumnos
Puntuaciones Puntuacin
Total
1 2 3 4 5 6 7 8 9 10
Ana 0 1 0 1 0 1 0 1 0 1
Boris 1 1 1 1 1 0 0 1 0 1
Cecilia 1 1 1 1 1 1 0 1 1 1
Doris 1 1 0 0 1 0 0 1 0 0
Elba 1 1 0 1 1 1 0 1 1 1
Flor 0 1 0 1 1 1 0 1 1 0
p

q

p.q

18

2.2. COEFICIENTE ALFA DE CRONBACH.

Se puede estudiar la consistencia interna de un instrumento sin utilizar el
valorado dicotmico, en este caso se recomienda utilizar la frmula propuesta
por Cronbach, cuyo coeficiente se conoce bajo el nombre de COEFICIENTE
ALFA.

r =
|
|
.
|
\
|
1
1
t
i
S
S
K
K

Donde:
Si = varianza de las puntuaciones en cada tem por todos los examinados.

Ejemplo
Se desea estimar la coherencia interna de una prueba aplicada a seis alumnos
y compuesta de sus items cuyas puntuaciones ideales son 5; 3; 2; 1; 4 y 2,
respectivamente la cual se tiene tabulada en la siguiente tabla.

Alumno
Items N Puntuacin
Total
1 2 3 4 5 6
Cristian 3 3 2 0 2 2 12
Lorena 2 0 0 0 1 1 4
Edith 5 2 1 1 3 2 14
Luciano 4 1 2 1 4 0 12
Erika 1 2 1 0 1 1 6
Ren 3 3 2 0 4 2 14

r = Coeficiente Alfa.
K = N de items del test
t
S = varianza total.
i
S = varianza de las puntuaciones en cada tem por todos los examinados.
19

Validez y Confiabilidad de La Evaluación

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Validez y Confiabilidad de La Evaluación

Cargado por

Copyright:

Formatos disponibles

Dr. RAL DELGADO ARENAS Mgter.

Antonio DELGADO ARENAS

También podría gustarte