Está en la página 1de 13

Algunas consideraciones sobre la confiabilidad y la validez de

los instrumentos de medicin


Publicacin enviada por MSc Vicente Fardales Maca y Otros Autores
Resumen: Uno de los puntos ms vulnerables del proceso docente educativo puede ser el de la evaluacin
pues sta se hace para medir caractersticas no observables en el estudiante a travs de instrumentos con
indicadores que creemos nos proporcionan informacin de dichas caractersticas con la mayor fidelidad
posible.

ndice
Introduccin
Desarrollo
Coeficiente a de Cronbach
Validez
Bibliografa
Introduccin
Uno de los puntos ms vulnerables del proceso docente educativo puede ser el de la
evaluacin pues sta se hace para medir caractersticas no observables en el estudiante a
travs de instrumentos con indicadores que creemos nos proporcionan informacin de
dichas caractersticas con la mayor fidelidad posible.
La evaluacin del Aprendizaje, es un componente del proceso enseanza aprendizaje que
interacta con el resto de las componentes, y a travs del cual, el docente dispone de una
herramienta para controlar la calidad de dicho proceso, mediante la aplicacin de diferentes
instrumentos evaluativos.
Centrando nuestra atencin en los instrumentos evaluativos, que de hecho constituyen la
base de todo este enfoque, resaltan dos trminos muy importantes relacionados con stos:
Confiabilidad y Validez los cuales son premisas bsicas que debe cumplir todo instrumento
evaluativo.
Abordamos ambos conceptos en el presente trabajo con el objetivo de incentivar una vez
ms a velar por la calidad de los instrumentos de medicin que utilizamos, puesto que de
los resultados que obtengamos a travs de ellos es que tomamos luego decisiones y
hacemos generalizaciones que pueden ser fallidas si no garantizamos que sean confiables
y vlidos.
Desarrollo
En tal sentido, y partiendo de la idea que todo test o instrumento de medicin tiene como
finalidad medir un concepto o conjunto de conceptos inobservables a travs de un nmero
determinado de preguntas o indicadores empricos (tems)., diremos, que un instrumento de
medicin resulta confiable si arroja resultados similares durante su aplicacin en diferentes
momentos a los mismos sujetos. Mientras diremos que tal instrumento es vlido si mide lo
que realmente deseamos medir.

Por ejemplo, una balanza que es un instrumento para medir peso, sera poco confiable, si al
realizar reiteradas mediciones de un mismo objeto, los resultados entre las distintas
mediciones fuesen muy variables, digamos: 70, 74, 65, 68,77.
Un ejemplo ms: Normalmente aceptamos como un hecho cierto: Que la gente es confiable
cuando por ejemplo tiene un comportamiento consistente, seguro, predecible. En otros
trminos, son personas estables. Por el contrario alguien no es confiable en la medida en
que muestra un comportamiento mucho ms variable. Carecen de estabilidad, se dice que
son inconsistentes.
Extrapolando estas ideas, y salvando la distancia con los ejemplos vistos, que por dems
son sencillos, si asumimos que disponemos de un instrumento de medicin con el propsito
de medir el nivel de conocimientos alcanzado por los estudiantes durante cierta etapa del
proceso docente educativo, ste sera confiable en la medida que arrojase resultados
similares al aplicarlo reiteradamente.
Confiabilidad significa, entonces, estabilidad o constancia (exactitud) de los resultados, o
sea, es sinnimo de consistencia, fidelidad, precisin, etc.
Ahora bien, en el trasfondo de lo expresado relativo a la confiabilidad, como trmino que
indica estabilidad, precisin o constancia en los resultados que arroja un instrumento al
aplicarlo reiteradamente a un mismo individuo, est la idea de el error en que se incurre en
todo proceso de medicin, razn sta primordial, pues deben identificarse siempre las
principales fuentes de error que afectan las mediciones de nuestro instrumento de medida.
La pregunta inmediata es: Qu factores contaminan las mediciones producidas por los
tests?

En principio, cuando una persona responde a un conjunto de tems su puntuacin


representa una muestra limitada de todas las posibles respuestas, es decir, responde a un
subconjunto de todos los tems que, tericamente, podran haber sido utilizados para
"provocar" todos los comportamientos indicadores del concepto a medir, digamos Nivel de

conocimientos. Por otra parte, estas respuestas a los items se recogen en un momento
determinado, que a su vez es una muestra de las posibles ocasiones en que pudo aplicarse
el instrumento.
Por tanto, siempre que se "hace un muestreo o eleccin de items y momentos de aplicacin
del instrumento existe la posibilidad de equivocarse en la eleccin de "tems" y
"momentos".
El contexto o escenario donde se lleva a cabo la aplicacin del instrumento de medicin, es
otro de los factores que influye en las precisiones. Bajo este trmino se agrupan las ms
diversas perturbaciones, entre las cuales pudieran citarse las condiciones del local tales
como su ventilacin, luminosidad, temperatura ambiente, ruidos, etc.
Otra de las cuestiones que influyen en la estabilidad de las mediciones de los test son
precisamente los aspectos relacionados con el Examinador y los Examinados.
En particular, en lo referente a la influencia del Examinador mucho se ha hablado en los
ltimos tiempos, sobre todo como la personalidad de ste puede influir en el Examinado y
ello a su vez afectar los resultados del test, as como el efecto que sobre los resultados
produce la interaccin entre examinador y examinado.
No debemos dejar de mencionar tampoco, los errores debidos a las caractersticas del
Examinado o Individuo al que se le aplica el instrumento tales como el nivel de motivacin,
cansancio, fatiga, ciertos hbitos, emociones, habilidades, fluctuaciones en el nivel de
concentracin o atencin, etc.
En fin, con relacin a los errores asociados a las caractersticas del examinado, diremos
que se agrupan segn:
- Caractersticas Duraderas
- Especficas
- Conocimientos y habilidades que requieren los problemas especficos del instrumento
evaluativo.
- Actitudes, reacciones emotivas y hbitos que se ponen de manifiesto en las personas al
ser evaluadas.
- Generales
- Habilidades generales, por ejemplo la lectura.
- Habilidades para comprender las instrucciones de los instrumentos evaluativos.
- Habilidades para resolver los problemas de tipo general presentados en los instrumentos
evaluativos.
- Caractersticas No Duradereras (Temporales)
- Especficas
- Fatiga y tensin psquica.
- La motivacin, ya sea positiva o negativa, que produce el hecho de sentirse evaluado.
- Actitudes actuales, reacciones emotivas o fuerza de los hbitos, en cuanto todos estos
representan divergencias de los rasgos ms duraderos y estables del examinado.
- Generales
- Fluctuaciones en la atencin
- Fluctuaciones en la memoria de hechos particulares.
- Nivel de prctica en la ejecucin de las habilidades o en los conocimientos requeridos
para el problema en cuestin.
- Buena suerte en la seleccin de las respuestas al adivinarlas.
Una vez detalladas las fuentes posibles de error en los instrumentos de medicin, hemos de
dejar bien claro que estos errores asociados al proceso de medicin se clasifican en dos
grupos o categoras:
Errores sistemticos. Son aquellos que afectan de manera consistente a la puntuacin de
un sujeto debido a alguna caracterstica de la persona o del test que no tiene nada que ver
con el concepto que se est midiendo.

Es muy caracterstico de este tipo de error estar asociado a cuestiones que tienen
que ver con la confeccin del instrumento.
Ejemplo #1
Cuando una balanza sobrestima el peso de un objeto siempre en la misma cuanta,
digamos siempre un Kg ms.
Ejemplo#2
Un nio que padece de dificultades en la audicin confundiendo los fonemas r y n, puede
llegar a equivocar las palabras sana y rana cuando las escucha. Si se le pide que realice
una tarea para categorizar palabras como sustantivos o adjetivos y stas le son
presentadas por el canal auditivo, puede que clasifique rana como adjetivo porque l ha
entendido sana, aun sabiendo distinguir la diferencia si las lee.
Errores aleatorios. Afectan a los resultados del instrumento de forma azarosa.
Ambos tipos de errores constituyen una fuente de preocupacin a la hora de interpretar los
resultados. Los errores sistemticos no alteran la estabilidad de la medida, ya que afectan
siempre en la misma direccin, pero s afectan a la seguridad en la medida. Mientras, los
errores aleatorios, adems de producir este mismo efecto, tambin afectan a la estabilidad
en la medida.
En resumen, pudisemos plantear que un instrumento de medicin es confiable cuando
arroja resultados similares en diferentes aplicaciones de ste a los mismos individuos, lo
cual, evidentemente est estrechamente relacionado con la idea de una baja variabilidad de
stos, o dicho de otro modo, con una minina influencia de los errores.

Llegado a este punto, formalicemos un poco ms las ideas utilizando el lenguaje formal de
las matemticas a partir de concebir nuestra problemtica como: Detectar cuando un
instrumento de medicin es confiable en el sentido anteriormente expuesto.
Para ello, una de las teoras ampliamente usadas el la llamada Teora Clsica de los Test
(TCT), aunque tambin actualmente se comienza a emplear con fuerza la Teora de
Respuesta al Item (IRT).
Segn esta teora, cuyo principal precursor fue Spearman (1910), dado un instrumento de
medicin determinado cuyo propsito es medir algn concepto inobservable directamente,
como puede ser nivel de conocimiento o una habilidad determinada, todo individuo posee
un valor o puntaje verdadero V, el cual indagamos de manera aproximada cuando
aplicamos el instrumento de medicin (X) toda vez que estarn presentes los llamados
errores de medicin (E).

En fin, que el modelo de Spearman propone la siguiente ecuacin bsica:

La base de estas ideas radica en que de aplicarse el test en reiteradas ocasiones los
valores de puntajes empricos oscilarn alrededor de cierto valor, precisamente la
Puntuacin Verdadera siendo las dispersiones una variable aleatoria con distribucin
normal.
Note adems como la puntuacin verdadera es un valor intrnseco del test; y como el objeto
de medicin se considera un objeto pasivo, o sea, no se afecta por mediciones sucesivas.
De esta manera, la confiabilidad, vista como estabilidad en las reiteradas mediciones,
asumen que los individuos no se ven afectados por el proceso de medicin. En otras
palabras, las perturbaciones del modelo no se consideran afectadas por cambios que
puedan producirse en los individuos (al aplicarse el test reiteradamente) tales como
modificaciones en los niveles de conocimientos o habilidades si fuesen estos conceptos a
medir en el instrumento.
Por tanto, ante la imposibilidad de aplicar un instrumento de medicin reiteradamente a un
individuo sin que ste experimente algn cambio, asumamos que disponemos de un grupo
o poblacin formado por N individuos a los cuales se les aplica el instrumento, tendramos
finalmente N puntuaciones empricas

correspondientes a cada uno de los N individuos

que satisfacen la relacin:

, de manera que habra una alta confiabilidad si

los errores fuesen realmente pequeos, o lo que es equivalente, si las puntuaciones


empricas se aproximan mucho a las tericas.
Grficamente, lo anterior se ilustra si la mayora de las puntuaciones empricas (puntos)
estn cerca de su correspondiente valor verdadero que se ubica sobre la recta.

Lgicamente, el problema aqu es que tanto las puntuaciones verdaderas como los errores
son latentes. No obstante, desde el punto de vista estadstico la confiabilidad de un test se
medir en funcin de la correlacin existente entre el puntaje emprico y el verdadero:
, llamado ndice de fiabilidad.

lClaramente ntese la variable del numerador es latente o inobservable, por lo que el ndice
de fiabilidad solo tiene utilidad terica. No obstante, constituye la base para definir el
coeficiente de fiabilidad :

, de modo que el coeficiente de fiabilidad no

es otra cosa que un coeficiente de determinacin y por tanto toma valores entre cero y uno,
siendo mayor la confiabilidad en la medida que este coeficiente est prximo a uno; y

puede ser interpretado en trminos de que proporcin de la varianza de las puntuaciones


empricas es explicada por las puntuaciones verdaderas.

Por ejemplo, si un test determinado arroja un coeficiente de confiabilidad de 0,86, ste


indicara que el 86% de la variacin emprica observada se debe a las puntuaciones
verdaderas.

Como Calcular el coeficiente de Confiabilidad?


Existen bsicamente tres mtodos, llamados mtodos empricos, y que tienen su base en el
concepto de test paralelos: Dos test se dicen paralelos si son equivalentes, o sea, si los
individuos tienen igual valor verdadero en cada test y sus varianzas de los errores son son
iguales.
Clculo del Coeficiente de Confiabilidad
Formas empricas del clculo del coeficiente de fiabilidad
1. Formas Paralelas
Se elaboran dos versiones del mismo instrumento que sean equivalentes. Las versiones
son similares en contenido, instrucciones, duracin , etc. pero con diferencias de forma para
evitar el aprendizaje de los sujetos. Se aplican al mismo grupo en dos momentos de tiempo
relativamente cercanos.
2. ReTest
Un mismo instrumento se aplica dos o ms veces a un mismo grupo de sujetos u objetos
despus de un perodo de tiempo y se correlacionan los resultados. Este perodo de tiempo
no puede ser muy largo, porque puede haber un proceso de maduracin en los sujetos u
objetos que se estudian; pero si son sujetos el perodo interaplicaciones no puede ser
demasiado pequeo tampoco, pues los individuos pueden aprender con la administracin
de la prueba. Por ello esta tcnica es buena sobre todo para el trabajo con unidades
bsicas de anlisis que sean objetos inanimados.
3. Mitades Compartidas
No requiere de dos aplicaciones. El instrumento como tal se divide en dos partes
equivalentes en contenido y dificultad y se aplican de una vez a un mismo grupo. Cada
mitad se califica independientemente y se correlacionan los resultados.
Confiabilidad medida por estadgrafos especiales
En realidad existen varios estadgrafos para el calculo de la confiabilidad, entre ellos se
encuentran el Alfa de Cobrach y el llamado coeficiente de Kuder Richardson (KR-20).
Explicaremos aqu solamente el Alfa de Combrach, cuyo clculo emplea el promedio de
todas las correlaciones existentes entre los items del instrumento que tributan al concepto
latente que se pretende medir. En efecto, si existen n tems, lgicamente la matriz de
correlaciones tendr un nmero de correlaciones no triviales entre tems igual a n(n-1)/2;
por lo que promediando stas y denotando su valor por P, tendremos:

Es obvio que si los n items estn fuertemente correlacionados p tiende a ser uno y entonces
a tiende a ser tambin 1. Si los items tienen correlaciones bajas, p tiende a ser cero y
entonces a tiende tambin a ser cero. Debido a esta caracterstica del estadgrafo suele
llamrsele un estadgrafo de consistencia interna.
La principal ventaja de este coeficiente reside en que requiere de una sola administracin
del instrumento de medicin.
Clculo del coeficiente a de Cronbach
Buscar otro ejemplo del alfa de combrach
Supongamos que se aplica un instrumento de 4 preguntas a 7 estudiantes y se obtienen los
siguientes resultados:

a = 0.861
Con el propsito de ganar en claridad a la hora de interpretar el alfa de Combrach
exponemos los siguientes datos:
Interpretacin del coeficiente a de Cronbach
En la literatura contempornea, aceptan como adecuados en los exmenes escritos
basados en preguntas de tipo test objetivo, los coeficientes que oscilan entre 0,80 y 0,85.
El Colegio de Mdicos de Familia de Canad en sus exmenes de Certificacin de
Especialistas ha reportado que:
En los exmenes escritos basados en respuestas cortas considera aceptables coeficientes
entre 0,69 y 0,71
En los exmenes de Simulacin Oral en el Consultorio Mdico han obtenido coeficientes
entre 0,54 y 0,63 y consideran como aceptables los coeficientes superiores a 0,60.
En los exmenes tipo ECOE con pacientes estandarizados y preguntas de ensayo de
respuestas cortas han considerado como aceptables coeficientes entre 0,71 y 0,77 . En

este tipo de examen otros autores han reportado coeficientes entre 0,40 y 0,88.
Con relacin a los tems que forman parte del instrumento, es vlido resaltar que segn la
TCT la puntuacin observada X es el resultado de la suma de las puntuaciones de cada
tems; X=X1+X2+...+Xn, razn esta por la que en el proceso de construccin del
instrumento se le presta especial atencin a la seleccin de los tems buscando que estn
fuertemente correlacionados con el puntaje total, o dicho en otras palabras, buscando
elevar la consistencia interna del instrumento de medicin.
En este sentido, es importante destacar los aspectos siguientes:
- La consistencia interna del instrumento se obtiene calculando los coeficientes de
correlacin Pearson tem - total, razn por la cual la emplearemos para depurar el
instrumento , estimando su fiabilidad a travs del coeficiente alfa de Cronbach.
- Los coeficientes de correlacin de Pearson tem- total, entre el puntaje de cada pregunta
individual (variable independiente Xi) y el dado por el puntaje total (variable dependiente X)
indican la magnitud y direccin de la relacin entre las variables y proporcionan una medida
de la fuerza con que estn relacionadas estas dos variables. Su valor puede oscilar en el
intervalo [-1,1].
En tal sentido:
- Para validar el instrumento es necesario aplicar como mnimo a una cantidad de individuos
igual a 5 veces el nmero de tems a efectos de evitar obtener correlaciones tem total
espuriamente altas, que pueden aparecer cuando el nmero de tems y el de individuos que
responde la prueba, son semejantes.
- Incluiremos tems con correlaciones tem - total superiores de 0,35 pues son
estadsticamente significativas ms all del nivel del 1 %.
- Excluiremos o reformularemos aquellos tems cuyos coeficientes de correlacin tem - total
arrojan valores menores a 0,35.
Estas bajas correlaciones pueden deberse a dismiles causas que pueden ir desde una
mala redaccin del tem o que el mismo no sirve para medir lo que se desea medir (No
tenga validez).
Anlisis cuantitativo de tems
Anlisis de la frecuencia del tems
Fiabilidad
Validez
Anlisis cualitativo de tems
- Que el contenido sea el adecuado.
- Que los tems formen una muestra adecuada del contenido.
- Que los aspectos formales sean los adecuados (Redaccin, comprensin, etc)
Orientar leer los documentos relativos a la confeccin de los instrumentos evaluativos
Todo test tiene como finalidad medir una variable o conjunto de variables a travs de un
nmero determinado de preguntas (tems).
Objetividad de un test
Otro aspecto muy importante que deben satisfacer los instrumentos de medicin, es la
llamada Objetividad, definida como la independencia de los resultados de quien aplica el
test, entindase quien lo califica. Dicho en otras palabras, un instrumento evaluativo se dice
que tiene objetividad, cuando los resultados de las calificaciones son independientes de
quien lo califica, o sea, cuando las calificaciones realizadas por diferentes evaluadores
tienen un alto grado de similitud.
Evidente resulta, que el evaluador ejerce influencia sobre las calificaciones; toda vez que
sobre l recae decidir el nivel de acierto en las respuestas a los tems, lo cual influye
directamente sobre la calificacin total que obtiene el individuo, procedimiento ste que en
su interior tiene un alto grado de subjetividad que puede ser mitigado segn el tipo de

instrumento empleado y el mecanismo utilizado para llevar a cabo el proceso de calificar:


Listas de comprobacin, Escalas de Clasificacin o Claves utilizando Tablas de Decisiones.

Por ejemplo, en los instrumentos evaluativos escritos tipo ensayo o tradicionales dado que
los tems requieren del educando repuestas extensas y particularizadas, es evidente que
existe un alto grado subjetividad a la hora de calificar, razn por la cual la objetividad de
estos exmenes es baja.
Desde el punto de vista estadstico, la objetividad se corrobora mediante el la
correlacin existente entre los diferentes grupos de calificaciones.
Luego, agrupando ambos puntos de vistas (Confiabilidad y Objetividad), toda vez que el
acto de calificar se relaciona directamente con las escalas de medicin utilizadas en el test,
es comn enfocar el trmino Confiabilidad para referirse a la estabilidad en los resultados
que arroja el instrumento, ya sea al repetirlo, o al ser calificado por distintos profesores

Validez
Recordando que los instrumentos de medicin son herramientas utilizadas para recoger
informacin de manera estandarizada (bajo las mismas condiciones de aplicacin) acerca
de alguna variable no observable (constructo), utilizando para ello indicadores empricos; y
cuyo objetivo o propsito es realizar inferencias a partir de sta, diremos que la Teora de la
Validez se encarga de analizar hasta que punto el instrumento resulta til para su objetivo, o
sea, hasta que punto es til para realizar las inferencias deseadas.
De la forma ms breve posible, la teora de la validez analiza la utilidad de un instrumento
de medicin para un objetivo determinado, que en ltima instancia est determinado por las
inferencias o interpretaciones que se realicen a partir de las puntuaciones observadas.
De esta manera, La validez, otra de las premisas bsicas de la Evaluacin, segn
afirmamos en el encuentro anterior: Es la correspondencia entre lo que se pretende verificar
por el instrumento de medicin y lo que realmente se mide o evala. O sea, un instrumento
de medicin se considera vlido Si mide lo que realmente debe medir, dicho de otra
manera: La validez de un test es la fidelidad con la que el test mide lo que se propone
medir
Luego, como en los instrumentos evaluativos, el propsito principal es valorar el nivel de
conocimientos, habilidades y modos de actuacin que alcanzan los estudiantes utilizando
para ello situaciones contextualizadas, la validez estar estrechamente relacionada con el
grado en que se logran la aplicacin de los conocimientos, habilidades y modos de
actuacin.

Con este enfoque pudisemos decir que: Mientras ms terico, reproductivo y alejado de la
prctica est un instrumento mucho menor ser su validez.

Tipos de Validez
Si el objetivo del test est relacionado con medir conocimientos, entonces la validez estar
muy relacionada con las inferencias que se realicen a partir de las observaciones recogidas,
que sern muestras del dominio Cognitivo a evaluar. Por ello se habla de:
- Validez de Contenido
El objetivo de este tipo de estudio es obtener evidencias para determinar si los tems del
test representan adecuadamente el constructo( Conocimientos, habilidades) que se
pretende medir.
Este tipo de validez consiste en el anlisis del contenido del instrumento evaluativo para
determinar si ste constituye una muestra representativa del dominio de los conocimientos
y/o habilidades que se pretende evaluar, o sea, se refiere a la sobreyectividad del
instrumento para abarcar el dominio cognitivo que se quiere medir, el cual evidentemente
guarda una estrecha relacin con los objetivos.

Tareas a realizar en la Validez de Contenido


- Definir el Dominio Cognitivo
Es de vital importancia para este tipo de validez, la definicin clara y precisa del dominio
Cognitivo que abarca el test; y por consiguiente de los objetivos involucrados en ste tales
como interpretacin de resultados, desarrollo de habilidades, capacidad de anlisis e
interpretacin, etc.
- Solicitar la colaboracin de expertos para que revisen los tems incluidos en el instrumento
con el propsito de aclarar hasta que punto este conjunto de tems abarca el dominio
cognitivo.
- Realizar revisiones bibliogrficas sobre la confeccin de instrumentos con propsitos
similares al nuestro para ganar en claridad.
En fin, la validez de contenido est en correspondencia conque los conocimientos y las
habilidades que evalan o miden el instrumento, sean lo suficiente para definir el grado de
aprovechamiento del estudiante, sobre la base de los objetivos propuestos.

De hecho, algunos consideran los estudios de validacin de contenido como un


anlisis subjetivo de tems, que debe realizarse durante la elaboracin del test,
visin esta, que al parecer se impondr en un futuro prximo.
Pongamos algunos ejemplos
Supongamos que se dispone de un instrumento evaluativo para evaluar la competencia en
materia de hipertensin arterial donde el dominio cognitivo abarca tanto elementos de
diagnstico como de tratamiento.
El instrumento carecera de Validez de Contenido si el conjunto de tems solo hiciera
referencia a preguntas relativas al tratamiento.
- Funcional
La validez funcional est en correspondencia con la seleccin del tipo de actividad

(acciones, tareas, problemas) que debemos controlar en el estudiante, para evaluar sus
modos de actuacin de acuerdo con los objetivos propuestos. Ambos tipos de validez se
interrelacionan y complementan.

Por ejemplo, si como objetivos parciales de una prueba intrasemestral en


Propedutica Clnica y Fisiopatologa debemos verificar en el estudiante:
1. Calidad de la entrevista mdica
2. Semiotecnia del examen fsico del aparato respiratorio
3. Etiopatogenia de un sndrome anmico.
Los objetivos N 1 y 2 slo son posibles de verificar a travs de un examen clnico con
pacientes reales o estandarizados --, pero jams mediante la aplicacin de un instrumento
terico, oral o escrito.
El tercer objetivo pudiera ser evalualo mediante un instrumento terico, escrito u oral.
Como podemos observar un mismo contenido, en correspondencia con el objetivo
propuesto, requiere para verificar el nivel de su cumplimiento, el diseo de un instrumento
evaluativo a aplicar en un tipo especfico de actividad evaluativa (mtodo, procedimiento y
tcnica); en ello radica su validez funcional.
Por lo tanto, la validez est en correspondencia directa con la medicin del grado de
cumplimiento del sistema de conocimientos, habilidades y modos de actuacin establecidos
en los objetivos (Objetivo de los instrumentos evaluativos).
- Validez de Criterio
Este tipo de validez est referida al grado de asociacin que puede existir entre los
resultados que arroja el instrumento y un criterio externo. O sea, se habla de validez de
criterio cuando los resultados que arroja un instrumento son comparados con los resultados
obtenidos por medio de un criterio externo.

Tipos de Validez de Criterio


- Concurrente
Cuando el criterio se fija en el presente
--Predictiva
Cuando el criterio se fija en el futuro
Por tanto, cuando enfrentamos un estudio de validez de criterio, se impone realizar varias
tareas para poder llevarla a va de hecho:
1. Determinar el criterio y un procedimiento para medirlo.
2. Obtener una muestra representativa de los educandos a los que se le aplicar el
instrumento evaluativo.
3. Aplicar el instrumento evaluativo
4. Obtener una medida del criterio para cada educando.
5. Determinar la fuerza de asociacin entre los resultados que arroja el instrumento y los
obtenidos por medio del criterio.

Ejemplo # 1
Supongamos se desea comprobar la validez predictiva de un software (instrumento de
medicin) para detectar precozmente malformaciones congnitas a futuros bebs.
La validez de criterio del software que pretende diagnstico precoz de malformaciones en
futuros nios de madres embarazadas se medir por la eficiencia o exactitud de sus
predicciones.
Ejemplo #2
Supongamos se desea comprobar la validez de criterio de los exmenes de ingreso a las
carreras de ciencias mdicas, siendo el criterio el siguiente: Los estudiantes con altos
calificaciones en los exmenes de ingreso tiende a obtener ndices acadmicos altos al
culminar la carrera
- Validez de Constructo
Se refiere al grado en que una medicin se relaciona consistentemente con otras
mediciones de acuerdo con hiptesis derivadas tericamente y que conciernen a los
conceptos o constructos.
En otras palabras, partiendo del hecho que los constructos se definen segn dos niveles:
Semntico y Sintctico, siendo el primero el encargado de establecer sus indicadores
empricos, mientras el segundo se encarga de establecer las posibles relaciones con otros
constructos o indicadores empricos de otros constructos segn un marco terico
determinado, pudisemos decir que el objetivo de la validez de constructo radica en obtener
evidencias que expliquen la relacin de ste con otros constructos.
El proceso de determinacin de la validez de constructo incluye las etapas siguientes:
1. Se establecen y especifican las relaciones tericas entre los conceptos (sobre la base del
marco terico)
2. Se utilizan instrumentos previamente validados y que midan los conceptos relacionados
con el nuestro.
3. Se correlacionan las mediciones de nuestro instrumento con las mediciones de los
conceptos supuestamente correlacionados.
4. Se interpreta la evidencia emprica.
Los estudios de validez de constructo de un instrumento evaluativo se realizan cuando no
se dispone de una medida directa del atributo a medir, de tal manera que hay que sustituirlo
por un modelo hipottico.
Son ejemplos de tales atributos la inteligencia, la creatividad, la competencia clnica, etc.
Los estudios de validez de construccin, puesto que fijan la atencin en una cualidad que
precisa un alto grado de elaboracin terica, requiere la acumulacin gradual de
informacin procedente de diferentes fuentes.
Cualquier informacin que arroje luz sobre la naturaleza del atributo que se est estudiando
y de las condiciones que afectan su desarrollo y manifestaciones, tiene utilidad para este
tipo de validez.
Los procedimientos estadsticos que normalmente se usan en los estudios de validez de
construccin se caracterizan por tener cierto nivel matemtico de complejidad y, por tanto,
no los desarrollaremos.
Bibliografa
1.- Meli, J.L. (2001) Teora de la Fiabilidad y la Validez. Valencia: Cristbal Serrano.
www.uv.es/psicometria
2.- Salas Perea RS. La evaluacin en la educacin superior contempornea. Biblioteca de
Medicina. Volumen XXIV. UMSA, La Paz, Bolivia, 1998.
3.- Gonzlez Prez M. La evaluacin del aprendizaje. Tendencias y reflexin crtica. Revista

Cubana de Educacin Superior


2000, XX (1):47-62.

TABLA N 1
CALIFICACIN DE LAS PREGUNTAS
P2

P3

P4

CALIFICACIONES
TOTALES

20,8

19,0

23,1

83,6

13,3

12,3

13,5

52,6

15,0

15,1

17,3

64,2

18,8

16,3

16,5

68,0

16,7

20,6

19,2

75,3

10,4

11,1

10,0

42,4

07,1

05,6

06,2

23,2