Validezyconfiabilidad 1

C o ne p d M e d i c i
c t o e ón Medir ha sido una necesidad humana, sobre todo el
mundo contemporáneo. La investigación científica no está

ajena a parámetros de medición, tanto en las ciencias
sociales, como las ciencias naturales.
Medición es entonces la asignación de algún valor
significativo, sea numérico o alfabético o de otro orden, a

una serie de objetos, con la finalidad de operacionalizar
variables.
Esta forma de medir, obliga al investigador a relacionar
también conceptos y postulados teóricos con datos y hechos

empíricos que ha ido observado y recolectando a lo largo del
proceso de investigación.
Son datos que efectivamente deben tener
correspondencia con los objetivos planteados.

A n á l i d e i s rum e to
Para que un instrumento de medición pueda ser óptimo al
s is l nt n
momento de su aplicación, es necesario que cumpla los
siguientes principios: Validez y Confiabilidad.
El rigor y la calidad para evaluar el aprendizaje dependen,

fundamentalmente, de cómo se aborde la validez y la
confiabilidad, cualidades esenciales que deben estar
presentes en el desarrollo del proceso de recoger y analizar
la información conducente a garantizar una mayor confianza
sobre las conclusiones emitidas, de manera individual y
compartida, por el evaluador. Factores a evitar para que el contenido de un instrumento de
medición sea válido:
No dar instrucciones empíricas o vagas
Tanto la validez como la confiabilidad se conjugan para
Estructura sintáctica de oraciones fáciles
coadyuvar al evaluador a ser objetivo en el proceso de Evitar preguntas inadecuadas sobre especificaciones
describir la realidad derivada de un aprendizaje específico, el Evitar preguntas que sugieren respuestas
cual está inmerso en un discurso privado y que pretende ser Evitar ambigüedad en formulación de los reactivos o
público a través de la comunicación. preguntas que lleven a diferentes interpretaciones
No presentar cuestionarios, escalas o pruebas demasiado
La validez y la confiabilidad se abordan desde diferentes
cortos
perspectivas, dependiendo de la aproximación Evitar que los ítems sean incongruentes con variables a medir
epistemológica considerada. Evitar ordenamiento inadecuado de ítems
Evitar improvisar
Evitar tomar instrumentos validados en otros contextos
Análi deInstrum
s i
Requisitos
Medición:
s
que debe lcumplir un e n t o
Instrumento de
Validez.
Confiabilidad.
Objetividad.
Definición según diversos autores:

De acuerdo con Hernández, Fernández y Baptista (1998),”la validez
en términos generales, se refiere al grado en que un instrumento
realmente mide la variable que pretende medir” (pág.243).

Tamayo y Tamayo (1998) considera que validar es “determinar
cualitativa y/o cuantitativamente un dato” (224).

Según Rusque M (2003) “la validez representa la posibilidad de que
un método de investigación sea capaz de responder a las
interrogantes formuladas.
Validez
Un instrumento de recolección de datos es válido cuando mide
lo que se supone debe medir en términos de contenido,
predicción, concurrencia y construcción.
Campbell y Stanley (1972) distinguen dos tipos de consideraciones para la
validez cuantitativa : la validez interna y la externa, definidas así:
 La validez interna: Se refiere al mayor o menor control que tenemos de
variables que pueden perturbar los resultados. Ocurre cuando se puede

asegurar que los cambios de la variable dependiente se deben a los
cambios de la o las variables dependientes.
 La validez externa: Se refiere a la posibilidad de que los resultados
obtenidos en una muestra puedan ser generalizados a la población o

universo del cual fue seleccionada; así como que puedan ser
generalizados a un ambiente diferente de su ambiente originario.
Valid e l Investiga
eCzu a n t int aa c i ó n
tiva
La validez cuantitativa, bajo la
perspectiva de la teoría positivista, se
orienta fundamentalmente hacia las técnicas
e instrumentos de medición
elaborados por el evaluador, supuestos
Este tipoade partir
desarrollados evaluación
depresenta
las diferentes
teorías interpretaciones de validez, referidas a pruebas o tests, establecidas en
planteadas porpara
los Estándares el Tests y Manuales para Educación y Psicología (American Psychological Association –APA-, 1985)
filósofo francés Auguste Comte
(1798-1857). En esa perspectiva, la validez
asociada a la evaluación del aprendizaje
se
concibe en términos de: (a)
precisar el rasgo del aprendizaje del
evaluado que se pretende medir, como
aprendizaje a través
de pruebas o tests, (b) predecir
algún rasgo del aprendizaje adicional a lo
que se pretende medir, y (c) medir lo que se
dice
 Validez de Contenido:
Está representada por el grado en que una prueba representa
el universo de estudio. Por tal motivo,

deberán seleccionarse los indicadores e ítems
de tal manera que estos respondan a las Debe hacerla un experto, pues, estos evalúan lo siguiente:
características peculiares del objeto de
a.Si está elaborada adecuadamente la matriz de consistencia, es decir, si el
estudio. También se puede señalar que se
refiere a la fidelidad con que los ítems problema está formulado de acuerdo a sugerencias de la investigación científica
contenidos en una prueba reflejan el b.Si los objetivos son explícitos y precisos
constructo que se desea medir.
c.Si las variables e hipótesis tienen coherencia con objetivos y problemas
Por Ejemplo: Una prueba de operaciones aritméticas no
tendría validez de contenido si sólo incluye d.Si se han desagregado las variables en dimensiones, indicadores e ítems
problemas de resta y excluye problemas de (operacionalización correcta de variables)
suma, multiplicación y división. Si el dominio
de un instrumento es demasiado estrecho e.Si ítems del instrumento representan adecuadamente a las variables que se
con respecto al dominio de la variable, el pretenden medir
primero no representará a esta.
f.Si los ítems son suficientes
Entendiéndose como Constructo
cualquier entidad hipotética de difícil g.Si el protocolo de instrucciones del instrumento es claro
definición dentro de una teoría científica.
Un constructo es algo de lo que se sabe
que existe, pero cuya definición es difícil
o controvertida. Son constructos la
inteligencia, la personalidad y la
 Validez de criterio:
Llamada también validez concurrente es más fácil de estimar, lo único que se La validez de criterio es una medida del grado en que una
debe hacer es correlacionar su medición con el criterio, y este coeficiente se prueba está relacionada con algún criterio. Es de suponer
toma como coeficiente de validez. Un instrumento posee validez predictiva que el criterio con el que se está comparando la prueba
cuando es capaz de predecir, a partir de los resultados que arroja, tiene un valor intrínseco como medida de algún rasgo o
comportamientos futuros. característica. En este tipo de validez, se debe
Ejemplo: supongamos que Fernando trata de medir el grado en que es predeterminar cuál será el rasgo o criterio que se va a
aceptado por Laura. Entonces decide que va a tomarla de la mano y observará correlacionar con los resultados de la prueba. Ambos
su reacción. Supuestamente, si ella no retira la mano, esto indicaría cierta valores deben estar directamente relacionados en
aceptación, pero para asegurarse que su medición es válida decide utilizar términos de que el rasgo o criterio empírico sea
otra forma de medición adicional, por ejemplo, mirarla fijamente sin apartar la pronosticable lógicamente a partir de los resultados de la
vista de sus ojos, en apariencia, si Laura le sostiene la mirada, esto sería otro prueba a la cual se le va a medir su nivel o grado de
indicador de aceptación. Así, su medición de aceptación se valida mediante predictibilidad. Al igual que toda prueba de correlación,
dos métodos al comparar dos criterios. si los resultados se acercan a 1, mejor será la validez de
criterio del instrumento en cuestión.
 Validez de constructo:
Este tipo de validación busca establecer hasta qué punto un instrumento mide
una variable que es producto de un constructo que intenta describir una
realidad compleja.
Fiable Válido Ni Válido

Es el caso, por ejemplo de variables como “actitudes hacia discriminación racial”, pero no pero no válido y
válido fiable ni fiable
“satisfacción en el trabajo”, “clima organizacional”, que suponen cualidades
fiable
hipotéticas que explican la conducta de los sujetos. Caso contrario sucedería con
la medición de variables no complejas como “sexo”, “edad”, “nivel de En última instancia, lo que se pretende a partir de este tipo de validez es confirmar
instrucción”, cuya medición no amerita la construcción de un concepto en la práctica la capacidad explicativa del concepto que se ha construido. Es decir,
complejo, ya que son datos directamente observables en la realidad.
si es reflejo del fenómeno que pretende describir.
Este tipo supone como paso previo la conceptualización del rasgo o variable que
Para este tipo de validez se utilizan métodos de carácter estadístico.
se pretende medir. Estos conceptos deben ser construidos a partir de una teoría
determinada que explique el fenómeno a estudiar. Sólo así se tendrá claridad de Prueba de correlación: otra de las pruebas para validar el
la manera como se manifiesta en la realidad el atributo que se pretende medir constructo teórico de un
(Ruíz, 2002). instrumento es la prueba correlacional. Consiste en correlacionar
El cuadro de operacionalización de variables permitirá visualizar de manera los valores
organizada la complejidad de las variables que se van a estudiar si alguna de obtenidos en la prueba piloto del instrumento que se diseñado, con
ellas supone la combinación de determinados indicadores en virtud de la medidas
conceptualización realizada, es necesario corroborar a través de una prueba obtenidas en estudios similares con otros instrumentos que
empírica que tal conceptualización es válida, ya que expresa de manera precisa fueron construidos
el comportamiento de la variable en la realidad. De allí, la expresión “Validez de para medir las mismas variables.
constructo”.
Otro procedimiento es correlacionar los valores obtenidos por el instrumento que
se está validando con los obtenidos por otras variables cuyo comportamiento está
La confiabilidad se refiere al nivel de exactitud y consistencia
de los resultados obtenidos al aplicar el instrumento por

segunda vez en condiciones tan parecida como sea posible.
Bernal (2000:218) afirma que la pregunta clave para determinar la
confiabilidad de un instrumento de medición es:

Si se miden fenómenos o eventos una y otra vez La Fiabilidad tiene dos grandes componentes:
con el mismo La Consistencia interna: Se refiere al grado en que los
distintos ítems, partes o piezas de un test miden la misma
instrumento de medición, ¿Se obtienen los cosa. Significa la constancia de los ítems para operar sobre
mismos resultados u otros un mismo constructo de un modo análogo.
muy similares? Si la respuesta es afirmativa, La Estabilidad temporal: Se refiere al grado en que un
se puede decir que el la confiabilidad del instrumento viene dada instrumento de medida arrojará el mismo resultado en
La importancia de garantizar
diversas mediciones concretas midiendo un objeto o sujeto
instrumento
por el hechoesde
confiable.
que las interpretaciones sobre el comportamiento de los que ha permanecido invariable.
fenómenos estudiados se hacen sobre la base de la confianza que se
tenga en los datos recolectados. Si no se ha demostrado la confiabilidad
del instrumento, siempre habrá un margen de duda sobre la calidad de la
interpretación que se haga a partir de los datos obtenidos.
Test-Retest:
En este procedimiento un mismo instrumento es aplicado en dos oportunidades o más a un mismo grupo de personas,
después de cierto período de tiempo. Si la correlación entre los resultados de las diferentes aplicaciones es altamente
positiva, el instrumento se considera confiable. El valor de la correlación es un valor ubicado entre el –1 y 1.
muy baja (0) baja regular aceptable elevado(1)
No hay confiabilidad 100% de confiabilidad
El cálculo de este coeficiente se utiliza para mediciones de variables o dimensiones que responden a una escala de
medición de intervalo o razón.
Es importante que para la aplicación de esta prueba, se tome un lapso de tiempo lo suficientemente largo para que los
sujetos se olviden de lo que contestaron y, por el otro, no tanto que se produzcan cambios importantes. (Pérez 1998:72).
Algunos expertos opinan que 15 días de distancia entre un test y otro es suficiente. Este tipo de medición se utiliza en
investigaciones cuantitativas.
Paso 1: Elaborar formas paralelas
Formas paralelas de un test: Hay dos tipos de criterios que dos test han de cumplir
Este método consiste en: para ser considerados paralelos
1.Elaborar dos formas paralelas de un mismo test, o lo que es lo 1.Criterio Estadístico: Las dos formas presentan
mismo, dos test paralelos medias iguales y variaciones iguales tanto en sus
puntuaciones empíricas, como verdaderas y errores
2.Aplicar una forma del test a la muestra de interés y tras un lapso (mediciones paralelas) u obtienen las mismas
de tiempo que no relevante para la aparición de cambios en los puntuaciones verdaderas, pero no se requiere igual
sujetos, aplicar la segunda forma del test a la muestra varianza de error (tau-equivalentes)
3.Calcular el coeficiente de correlación entre las puntuaciones 2.Criterios de formato y contenido: En la practica dos
empíricas obtenidas por los sujetos en las dos ocasiones. Si las test paralelos consisten en dos conjuntos distintos de
formas son paralelas esa correlación es el coeficiente de fiabilidad ítems referidos a una misma variable o constructo
psicológico , habitualmente con las mismas
del test
instrucciones y el mismo formato de prueba de ítems.
Pretenden muestrear el mismo contenido con
cuestiones formuladas de manera distinta.
Paso 2: La aplicación de las formas del test
1.Las dos formas deben ser administradas en las mismas condiciones, No puede considerarse formas paralelas
o al menos, bajo los mínimos cambios posibles en las condiciones. Se aquellas en que la diferencia consiste en que se ha
trata de no introducir factores que puedan provocar cambios en los variado el orden de los ítems o el orden de las
alternativas.
resultados.
2.Respecto al tiempo, debe utilizarse un lapso entre ambas formas, lo
suficientemente corto como para que los sujetos no hayan cambiado
en la variable de interés y lo suficientemente largo para que factores
de memoria, fatiga o entrenamiento tengan el mismo efecto.
Paso 3: Cálculo del coeficiente de correlación
Una vez se han administrado las dos formas paralelas
se dispondrá de una tabla
de datos con N sujetos por 2 variables, la
puntuación en la forma A y en la
forma B para cada sujeto. Se procede entonces a
calcular el coeficiente de
correlación de Pearson.
El resultado obtenido puede estar entre –1 y +1, pasando por 0 (ausencia de
relación lineal). En realidad, como se trata de formas paralelas, no tiene sentido

•esperar
Si A y B correlaciones
son formas paralelas entonces
negativas la correlación
debiendo estar eles resultado
el coeficiente de 0 y +1,
entre
fiabilidad. Para considerar
incluso cabría el test positivos
esperar valores fiable, el coeficiente
alejados dede 0.
correlación obtenido
deber ser alto, de modo que una gran proporción de la varianza de

las
puntuaciones se deba a
varianza verdadera.
Es decir, si obtenemos un coeficiente de fiabilidad de 0’75 diremos que tres
cuartas
partes de la varianza empírica del test se deben a varianza verdadera, o lo que
es lo
mismo, que un 25% de la varianza empírica es varianza de error.
Split-halves (Divididas en mitades):
Los resultados obtenidos de la aplicación del instrumento se dividen en dos
mitades comparativas; así, a cada sujeto le corresponde dos calificaciones después de una
sola aplicación del instrumento. La confiabilidad se obtiene después de correlacionar esas
dos calificaciones.
Una manera de resolver el problema de cómo dividir el instrumento es
haciendo dos grupos con las calificaciones obtenidas de los ítems pares y nones. Se debe
estar seguros que todas las categorías estén representadas en las dos partes para que se
divida el instrumento
Se obtienen las puntuaciones de los ítems pares y de los ítems nones,
luego
ambas se correlacionan. Si ambas puntuaciones son altas se obtendrá un coeficiente de
confiabilidad alto.
Coeficiente Alfa de Cronbach.
Es un coeficiente que sirve para medir la fiabilidad de una
escala de medida, y cuya denominación Alfa fue realizada
por Cronbach en 1951, aunque sus orígenes se encuentran en
los trabajos de Hoyt (1941) y de Guttman (1945)
Este método permite medir la consistencia interna del instrumento. Se utiliza en la construcción de
escalas en las que no hay respuestas correctas o incorrectas, sino que cada entrevistado responde la alternativa
que mejor representa su forma de pensar sobre el objeto que se le pregunta.
Un investigador trata de medir una cualidad no directamente observable (por ejemplo, la inteligencia) en una
población de sujetos. Para ello mide n variables que sí son observables (por ejemplo, n respuestas a
un cuestionario o un conjunto de n problemas lógicos) de cada uno de los sujetos.
Se supone que las variables están relacionadas con la magnitud inobservable de interés. En particular, las n
variables deberían realizar mediciones estables y consistentes, con un elevado nivel de correlación entre ellas.
El alfa de Cronbach permite cuantificar el nivel de fiabilidad de una escala de medida para la magnitud
inobservable construida a partir de las n variables observadas.
El alfa de Cronbach no es un estadístico al uso, por lo que no viene acompañado de ningún p-valor que permita
rechazar la hipótesis de fiabilidad en la escala. No obstante, cuanto más se aproxime a su valor máximo, 1, mayor
es la fiabilidad de la escala. Además, en determinados contextos y por tácito convenio, se considera que valores
del alfa superiores a 0,7 o 0,8 (dependiendo de la fuente) son suficientes para garantizar la fiabilidad de la escala.
Coeficiente KR20:
El KR20 es un indicador de la fidelidad (consistencia interna).
Los métodos basados (Rulon, Alfa de Cronbach, Spearman, Brown) en la división en dos porciones (presumiblemente iguales) da desventaja
de ser relacionado con las opciones de la partición (véase la mitad igualdad-impar, de la primera y segunda parte, al azar).
Kuder y Richardson desarrollaron un procedimiento basado en los resultados obtenidos con cada ítem. De hecho, hay muchas maneras de
precisar otra vez los ítems (reactivos) en 2 grupos, que pueden conducir a las estimaciones diferentes de la consistencia interna.
Esta es la razón por la cual Kuder y Richardson consideren tantas (n) partes en la prueba de acuerdo a los ítems (n).
En los métodos de partición en dos, (conocido también como bisección) supone para cada parte ser equivalente ( las formas paralelas ). Para el
KR20, la misma lógica se adopta en el nivel de los ítems. Es lo que uno llama unidimensional.
El KR20 se aplica en la caja dicotómica de ítems.
Uno calcula el KR20 como sigue:
= variación de las cuentas de la prueba.

N = a un número total de ítems en la prueba
pi = es la proporción de respuestas correctas al ítem I.
Índice de inteligencia = proporción de respuestas incorrectas al ítem I.
Se puede mostrar que el KR20 es el promedio de los Índices de la fidelidad el cuál se obtendrá si se calcula la fidelidad para todas las particiones
posibles en dos. Para ilustrar la aplicación del KR n° 20 de la fórmula de Kuder-Richardson, se puede tomar un ejemplo ficticio de una
examen de 10 preguntas en el que se calcula el coeficiente de la consistencia interna. El vector 5,4 contiene la cuenta obtenida por cada
pregunta así
como la cuenta total del examen.
Miremos al primer alumno, "Eric", que contestó correctamente a seis preguntas entre las 10 preguntas del examen. Las preguntas correctas
son, B, C, D, E, F, y que falló en las preguntas G, H, I, J.
Verticalmente, todos los alumnos tuvieron éxito en la pregunta (a) , mientras que solamente dos alumnos tuvieron éxito en la pregunta (J).

Validezyconfiabilidad 1

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Validezyconfiabilidad 1

Cargado por

Copyright:

Formatos disponibles

C o ne p d M e d i c i

c t o e ón Medir ha sido una necesidad humana, sobre todo el

mundo contemporáneo. La investigación científica no está

significativo, sea numérico o alfabético o de otro orden, a

también conceptos y postulados teóricos con datos y hechos

correspondencia con los objetivos planteados.

El rigor y la calidad para evaluar el aprendizaje dependen,

Campbell y Stanley (1972) distinguen dos tipos de consideraciones para la

validez cuantitativa : la validez interna y la externa, definidas así:

 La validez interna: Se refiere al mayor o menor control que tenemos de

variables que pueden perturbar los resultados. Ocurre cuando se puede

obtenidos en una muestra puedan ser generalizados a la población o

Está representada por el grado en que una prueba representa

el universo de estudio. Por tal motivo,

una variable que es producto de un constructo que intenta describir una

Fiable Válido Ni Válido

de los resultados obtenidos al aplicar el instrumento por

Bernal (2000:218) afirma que la pregunta clave para determinar la

confiabilidad de un instrumento de medición es:

muy baja (0) baja regular aceptable elevado(1)

No hay confiabilidad 100% de confiabilidad

relación lineal). En realidad, como se trata de formas paralelas, no tiene sentido

deber ser alto, de modo que una gran proporción de la varianza de

= variación de las cuentas de la prueba.

También podría gustarte