Está en la página 1de 12

SEXTA UNIDAD

ELABORACION DE LA VALIDEZ DEL TEST

LECCION N° 01
ELABORACION DEL FORMATO FINAL DEL TEST

GENERALIDADES

1.-Como hemos visto en el capítulo anterior, la principal finalidad del análisis de ítems es
proporcionar una información objetiva y cuantitativa de los reactivos del pre test o test, la cual
se puede combinar con la información subjetiva y utilizarla para el mejoramiento de la prueba a
través de:
a) Identificación de las fallas o defectos de los ítems y corrección de los mismos cuando sea
practicable.
b) Selección de los mejores reactivos y reagrupación de los mismos en un orden de dificultad
más adecuado.

2.-No obstante la gran utilidad que tiene el análisis de ítems, sin embargo, presenta algunas
limitaciones:

a) No existe ninguna técnica de análisis de ítems que pueda transformar o convertir reactivos
malos en buenos, ni tampoco operar eficientemente cuando no existe un criterio fiable
(externo), con el cual contrastar el valor de los reactivos.

b) los resultados del análisis realizado en un grupo experimental de sujetos no se repiten


necesariamente de modo exacto en otro grupo experimental. A no ser que el número de casos
sea representativamente grande o numeroso, hay que conceder poca importancia a pequeñas
diferencias entre los índices obtenidos por diferentes ítems.

c) Una evidencia puramente objetiva puede venir a reforzar y complementar aunque no a


suplantar o reemplazar, las opiniones subjetivas. Si un análisis define como muy pobre a un
reactivo aparentemente lógico y adecuado, se deberá rechazar; pero no es aplicable el
razonamiento contrario. Si un ítem presenta un defecto natural u otra imperfección real, no se
debería utilizar, aunque presente evidencia favorable en el análisis. Para ser prácticos, los
ítems deben ser reconocidos como buenos en la práctica, pero también adecuados y
defendibles ante cualquier crítica (Anstey, 1976).

3.-Existen muchos procedimientos de análisis de ítems. En el capítulo anterior hemos


profundizado en el simplificado de Gronlund (1974). Se entiende por lo tanto, que el alumno
debe profundizar acerca de los diversos métodos de análisis de ítems.

4.-Como hemos mencionado en su oportunidad, los ítems de opción múltiple están compuestos
de una base o pié del ítem y de varias alternativas de respuestas, una de las cuales se
denomina clave o respuesta correcta y las demás distractores, distrayentes u opciones
incorrectas. En todo caso, la calidad del ítem se encontrará pues relacionada con la calidad de
sus distractores.

Selección de ítems para la versión final del test

La selección de los reactivos o ítems que componen un test, se basa en dos tipos de criterios:
contenido de los reactivos y resultados del análisis de ítems.

Lo referente al contenido de los ítems adquiere gran importancia en las pruebas de


aprovechamiento o escolásticas. En efecto, siempre que el plan detallado para un test
especifique los temas, el número total de ítems y la proporción de reactivos dedicados a cada
tema (todo esto expresado en la tabla de contenido o tabla de especificaciones), constituyen un
requisito que debe cumplirse al seleccionar los reactivos que van a formar parte de la prueba.

Recordemos que el plan detallado establece también las especificaciones relativas al tipo de
formato de ítem o el tipo de proceso mental que se requiere. Ninguno de estos son
procedimientos estadísticos, pero cobran importancia, como hemos dicho, en las pruebas de
aprovechamiento. En una prueba que se considera como muestra de un dominio de
conocimiento, las propiedades estadísticas de los ítems son sólo consideraciones
complementarias, cuya función es asegurar la mayor eficiencia de la prueba, pero no a costa
de la representación del contenido del dominio que se debe mantener, como se indica en la
tabla de contenido o especificaciones.

En las pruebas de aptitud, la delineación del contenido tiende a ser menos detallada y entonces
las propiedades estadísticas de los ítems son un factor relevante (Thorndike, 1989).

En cuanto al resultado del análisis de ítems (estadísticas de los reactivos), como hemos dicho
líneas arriba, su importancia es más relevante en los test de aptitud mientras que es
suplementaria en los test de rendimiento y de selección (predicción de la eficiencia en el
trabajo).

Se ha dicho que se usan las estadísticas de ítems para generar la prueba más efectiva posible;
sin embargo, ¿qué se quiere decir con “efectiva”?; ¿Efectiva, para qué?; ¿Con cuál criterio se
juzga la efectividad? En este punto se vuelve a la premisa básica de que las puntuaciones de
la prueba son la base de la toma de decisiones. Estas decisiones estarán en directa relación
con los propósitos que haya tenido el constructor del test. En este sentido, en psicometría se
vienen haciendo uso de nuevos conceptos como el de: función de información de un ítem, así
como el concepto relacionado de la función de la información de una prueba (el lector puede
tratar estos conceptos en Thorndike, 1989).

En conclusión:

1° Seleccionar los ítems del pre test por el análisis de ítems: estadísticamente significativos;

2° Agrupar los ítems por el orden que quedaron.

3° Reordenar los ítems de acuerdo a la adición de los ítems de veracidad o ítems de mentira,
que se adiciona, para formar parte del formato final del Test.
LECCION N° 02

ELABORACION DE LA VALIDEZ DEL TEST

GENERALIDADES

1.-La validez es un aspecto crucial de la medición psicológica y se relaciona con la investigación


del significado teórico de las puntuaciones obtenidas por medio de un test (Oliden, 2003).

2.-Las puntuaciones evidencian propiedades de validez cuando se verifica que el test realmente
mide el constructo que pretende medir, justificando adecuadamente las inferencias realizadas en
función de sus resultados (Nunnally, 1991).

3.-Cuando estimamos la validez de un test, necesitamos saber qué rasgo deseamos que mida.
Este rasgo se llama variable de criterio. Nos interesa saber qué tan bien corresponden las
posiciones de los sujetos en la distribución de los puntajes obtenidos a sus posiciones en el
continuo que representa la variable de criterio (Magnusson, 1969).

4.-La situación ideal en lo concerniente a la validez es que una prueba represente


adecuadamente y mida la varianza relevante del constructo, o dicho de otra manera, que las
interpretaciones de los resultados de un test estén libres de sesgo de medición (Pérez y Olaz,
2008). En tal sentido, la teoría de la validez se relaciona con el concepto de sesgo, definido
como un error sistemático que produce distorsión en las puntuaciones adulterando su significado
teórico (Oliden, 2003). El hecho que las puntuaciones de un test sean confiables es una
condición necesaria pero no suficiente para que sean válidas (Muñiz, 1998).

5.-A pesar de su importancia, el concepto de validez es uno de los más complejos y


controvertidos de la teoría de los tests (Angoff, 1998; APA, 1999).

6.-En la historia del concepto de validez pueden identificarse tres etapas principales (Pérez y
Olaz, 2008). Según estos autores, en la primera etapa llamada operacional predomina el
operacionalismo dominante de la epistemología de la primera mitad del siglo XX. Aquí, la validez
tratada desde una perspectiva meramente predictiva es sinónimo de la correlación entre las
puntuaciones de un test y algún criterio que intenta predecir (Martínez Arias, 1995). Sin
embargo, este tipo de validez no resultaba útil para muchas pruebas en donde ellas mismas
constituyen su propio criterio como en el caso de los test de rendimiento lo cual llevó a introducir
el concepto de validez de contenido

La segunda etapa coincide con la publicación del trabajo de Cronbach y Meehl (1955), los cuales
consideran por primera vez la llamada validez de constructo como aspecto esencial e inclusivo de
las restantes dimensiones de la validez (Martínez Arias, 1995).

En este período se distinguen tres tipos de validez: predictiva, de contenido y de constructo. La


última etapa guarda relación con la versión de las Normas Técnicas para los Test Psicológicos y
Educativos (APA, 1999), donde se define la validez como la adecuación, significación y utilidad
de las inferencias específicas hechas a partir de las puntuaciones de los test.

7.-Asimismo, la APA (1999), propuso cinco tipos de evidencia de la validez, basadas en: el
contenido del test, la estructura interna del test, el proceso de respuestas al test, las relaciones
con otras variables externas al test y las consecuencias de su aplicación.

8.-Para verificar la validez de las inferencias realizadas a partir de las puntuaciones de un test se
usan procedimientos similares a los utilizados para contrastar cualquier hipótesis científica, es
decir, el acopio de evidencias que confirmen o refuten esas inferencias (Pérez y Olaz, 2008).
9.-El producto final del proceso de validación es la medición de un constructo que: a) Esté bien
definido en términos de una variedad de observación y eventualmente, b) Se correlacione con
otros constructos de interés.

10.-Como podemos apreciar la validez, como la confiabilidad y la consistencia, es un término


genérico que se da a una clase de conceptos y procedimientos estrechamente relacionados.
Desde esta perspectiva y como ya hemos visto, la validez se puede definir en varios niveles y de
diversos modos. En el caso de la validez de las pruebas hay que tener en cuenta (Brown, 1980):
1)¿Qué es lo que mide la prueba? y 2)¿Hasta qué punto mide la prueba lo que dice medir?.
Inclusive, el sentido del concepto se puede comunicar mediante diversos tipos de interrogantes a
los que intentan responder los análisis de validez (Brown, 1980): ¿qué rasgos está midiendo la
prueba?, ¿mide la prueba el rasgo para el que fue construida?, ¿qué se puede predecir a partir
de las calificaciones de la prueba?, ¿qué porcentaje de la varianza en las calificaciones de la
prueba se puede atribuir a la variable que mide?

11.-Debido a que la determinación de la validez puede incluir varios procedimientos, la validez


como la confiabilidad es siempre específica de las situaciones, es decir que, en condiciones
diferentes, al utilizar muestras distintas o métodos diferentes de análisis, se obtendrán resultados
diversos. Así podemos hablar de la validez del test, en forma legítima, sólo en ciertas
condiciones específicas.

12.-En términos estadísticos la validez se define como la proporción de la varianza verdadera que
es relevante para los fines del examen. En este caso, relevante se refiere a lo que atribuible a la
variable que mide la prueba.

Esta última puede ser un rasgo o atributo, o bien, alguna medida observada
independientemente. Por lo tanto, la validez de una prueba se define ya sea por medio de (1) la
extensión con que la prueba mide un rasgo subyacente específico hipotético o construcción, o
bien, (2) la relación entre las calificaciones de la prueba y alguna medida de criterio externo (al
primer aspecto también se le denomina validez interna o funcional y al segundo validez externa).
13.-Definir la validez como la proporción de la varianza relevante, implica que la varianza
verdadera se puede dividir en dos componentes: la varianza relevante y otra varianza confiable,
pero varianza irrelevante. En otras palabras, la variable estable (confiable o verdadera) en las
calificaciones de la prueba se compone de dos elementos: lo atribuible a la variable que mide la
prueba (varianza relevante o válida) y lo atribuible a otras causas (varianza confiable o
irrelevante); o, dicho de otra manera, la variabilidad de un conjunto de calificaciones se determina
por medio de la varianza válida, es decir, la atribuible a causas confiables, pero irrelevantes (o
sea los errores constantes), y la varianza de error de medición (errores al azar).

14.-La distinción entre confiabilidad y validez implica que, a diferencia de la confiabilidad, que
está influenciada sólo por los errores de medida no sistemáticos, la validez de una prueba se ve
afectada tanto por los errores no sistemáticos como por los sistemáticos (constantes). Por esta
razón, una prueba puede ser confiable sin ser válida, pero no puede ser válida si no es confiable.
En resumen, la confiabilidad es una condición necesaria, pero no suficiente para la validez.
Técnicamente, la validez (relacionada con los criterios) de una prueba, como lo indica la
correlación entre la prueba y una medida externa de criterio, nunca podrá ser mayor que la raíz
cuadrada del coeficiente de confiabilidad de las formas paralelas (Aiken, 1996).

CRITERIO Y LA DIFICULTAD PARA ESTABLECER CRITERIOS

Las medidas obtenidas en una situación de vida real y que hacen referencia a “rasgos”
psicológicos se denominan medidas de “criterio” y la correlación (generalmente a través del
coeficiente de correlación de Pearson), entre los puntajes del test y estas medidas de criterio (por
ejemplo, notas escolares, calificaciones de los supervisores, diagnósticos psiquiátricos, etc.), se
denominan coeficientes de validez.

En muchos casos resulta imposible establecer un criterio no ambiguo de un “rasgo” psicológico.


Ejemplo: dos psicólogos “A” y “B” que investigan el rasgo de “aptitud mecánica” pueden emplear
diferentes criterios llegando de esa manera a conclusiones diferentes. El psicólogo “A” considera
que el criterio son las calificaciones que reciben los estudiantes en un curso de taller. Por su
parte, el psicólogo “B” afirma que el criterio es el periodo de tiempo que emplean los estudiantes
en aprender una tarea mecánica sencilla durante un periodo de entrenamiento en una fábrica.
¿Qué sucede si la prueba que empleamos correlaciona + 0.60 con uno de los criterios y + 0.05
con el otro?, ¿cómo podemos afirmar que la prueba es válida cuando arroja resultados de esta
clase? ¿Se trata en verdad de una prueba de aptitud mecánica?

LA VALIDEZ COMO PROCESO

Partiendo de experiencias como las anotadas en el párrafo anterior se llegó a la conclusión de


que la validación de una prueba es un proceso largo y no un hecho aislado. Solamente a través
de estudios sobre la correlación de la prueba con una amplia variedad de criterios podremos
comprender que está midiendo la prueba. Tomando como base el ejemplo anterior, una serie de
investigaciones sobre la “aptitud mecánica” nos pueden demostrar que el test en realidad está
midiendo la habilidad para realizar movimientos finos y cuidadosamente controlados, siendo
completamente independientes de la habilidad para comprender las relaciones complejas de las
piezas mecánicas. De esta forma puede obtener una alta correlación con las calificaciones
obtenidas por los estudiantes en el taller y ninguna con los trabajos de maquinaria en una fábrica.

En vista de lo anteriormente señalado, Tyler (1973), opina que en lugar de hacerse la pregunta:
¿en qué grado mide esta prueba lo que intenta medir?, es preferible preguntarse: ¿qué es lo que
en realidad mide esta prueba? Hoy sabemos que hay que analizar el contenido de la prueba y
examinar muchas correlaciones con diferentes criterios en distintos grupos de personas antes de
contestar esta pregunta.
Hay tres implicaciones evidentes en la validación de una prueba que debe tener en cuenta quien
la utiliza:

a. Si el psicólogo va a emplear el test para tomar decisiones sobre individuos o grupos, debe
acumular toda la información posible y disponible acerca del test antes de intentar una
interpretación de los puntajes.

b. Si el psicólogo va a emplear el test en predicción de conducta o selección, el test debe estar


validado en la situación específica donde se va a emplear.

c. Si el psicólogo va a emplear el test en situaciones prácticas como en investigaciones teóricas,


debe tener en cuenta que nuestras ideas sobre los rasgos varían continuamente.

En opinión de Nunally (1968), no se valida un instrumento de medición sino alguna situación de


empleo o aplicación de dicha prueba. Ejemplo: un test utilizado para seleccionar universitarios
puede ser muy válido para este propósito, pero no serlo necesariamente para otros.

TIPOS DE VALIDEZ

Existen diversas clasificaciones de la validez. En nuestro caso, vamos a considerar tres tipos:
validez relacionada con el criterio, validez de contenido y validez de construcción.

1.-Validez relacionada con el criterio. Comprende a la validez predictiva y a la validez


concurrente. Sobre el punto, debemos recordar que uno de los usos más comunes de los tests
es el de predecir la conducta futura, es decir, utilizamos las pruebas para ayudarnos a tomar
alguna decisión práctica (selección, clasificación, diagnóstico, etc.). En cada situación, cuanto
mayor es la extensión de predicción del resultado (el criterio), tanto más útil será la prueba.
Ejemplo: Las pruebas psicológicas son una parte aceptable de cualquier proceso de selección,
sólo, si se puede demostrar que, de hecho, las calificaciones de las pruebas predicen la
ejecución en algún componente importante del trabajo (criterio). O sea que, para que la prueba
se pueda utilizar como parte de un proceso de selección, es preciso demostrar la validez de la
prueba, relacionada con el criterio.

La designación de la validez relacionada con el criterio realza el hecho de que el interés


fundamental es la ejecución de un criterio dado. Nos interesan las calificaciones de la prueba,
debido a que predicen alguna conducta externa importante (criterio). Así, el contenido de la
prueba tiene una importancia secundaria y los reactivos no deben presentar una relación obvia
con el criterio. Lo importante es que las calificaciones de la prueba, de hecho, pueden predecir la
ejecución en el criterio dado (algunos llaman a la validez relacionada con el criterio, validez
empírica).

Las medidas obtenidas en una situación de la vida real (por ejemplo, notas escolares,
calificaciones de los supervisores, diagnósticos psiquiátricos, etc.) y que hacen referencia a
rasgos psicológicos se denominan medidas de criterio y la correlación (generalmente a través del
coeficiente de Pearson), entre los puntajes en el test y estas medidas de criterio se denominan
coeficientes de validez.

En la validez predictiva, también se llama validez relativa al criterio, validez criterio o validez de
pronóstico e intenta responder a la pregunta ¿predicen las puntuaciones del test un rendimiento o
conducta futura? Para verificarla se aplica el test y tiempo después se obtiene la medida de
criterio. Ambas mediciones se correlacionan y se encuentra un coeficiente de validez predictivo.
El problema principal es la obtención de criterios. Un criterio tiene que ser relevante, confiable,
válido y estar libre de contaminaciones.

(Cortada de Kohan, 1999), nos dice que la validez predictiva se refiere a la relación existente
entre los puntajes del test con la medida de un criterio basado en el desempeño algún tiempo
después. Se utiliza para los test de aptitudes. Aquí se busca que la prueba sea útil para predecir
o pronosticar algo para el futuro; es la validez más exigente, requiere siempre un criterio externo,
el test y una muestra donde aplicarlo

La validez predictiva de un test se refiere al grado de eficacia con el que se puede predecir o
pronosticar una variable de interés (criterio) a partir de las puntuaciones de ese test (Muñiz,
1994). Se operacionaliza mediante el coeficiente de validez, que es la correlación entre el test y
el criterio y lógicamente cuanto mayor sea la correlación entre estas variables más precisos serán
los pronósticos hechos a partir del test.

En todo caso, este tipo de validez permite correlacionar las calificaciones de la prueba con las
calificaciones basadas en una medida de criterio posterior (Aiken, 1996).

La interpretación de la validez predictiva requiere un dominio excelente del método de análisis


estadístico usado para obtenerla. Después del criterio los procedimientos estadísticos adquieren
vital importancia para obtener este tipo de validez (Schneideman, 1971).

Para Nunally (1968), la validez predictiva (al igual que la concurrente), rara vez constituye un
problema en psicología; sólo constituyen una cuestión importante en ciertos problemas de
psicología aplicada (organizacional, educacional, clínica y de la salud, etc.), tales como
decisiones de selección, clasificación, hospitalización, tratamiento. En importancia, es algo
inferior a la validez de contenido y a la de construcción.

En la validez concurrente, las calificaciones del test y las del criterio se reúnen al mismo
tiempo. Puesto que se dispone ya de las calificaciones del criterio, el propósito es determinar si
el calificativo de una prueba psicológica puede sustituirse por los datos registrados del criterio.
Ejemplo: ¿se pueden utilizar los resultados de un inventario de personalidad en lugar de un
examen psiquiátrico para determinar el grado de psicopatología?; ¿se puede utilizar un test de
inteligencia colectivo en lugar de un test individual?, ¿se pueden comparar los diagnósticos de
lesiones cerebrales con síntomas neurológicos a partir del test de cubos de Khos o del test de
maduración gestáltico viso-motor de Bender?

En la validez concurrente la pregunta es ¿permiten las puntuaciones del test la valoración de


ciertos hechos presentes? El problema principal para establecerla es encontrar criterios y test
(utilizados como criterios) válidos y confiables pues adolecen también de los errores de todos los
test. Análogamente a la validez predictiva se requiere de un amplio dominio de los
procedimientos estadísticos que se utilizan para su obtención (Crombach, 1972).

Según el diseño utilizado para calcular el coeficiente de validez, puede hablarse de validez
concurrente cuando el test y el criterio se miden al mismo tiempo (Muñiz, 1994).
La validez concurrente se refiere a la relación de los puntajes del test con un criterio
contemporáneo aceptado del desempeño de la variable que el test se propone medir.
Es cuando se trata de verificar la validez de un test mediante la correlación con otro, que se
supone que mide las mismas funciones y ya tiene a su vez una validez reconocida (Cortada de
Kohan, 1999).
También podemos afirmar que la validez concurrente permite correlacionar las calificaciones de
la prueba con las calificaciones que se basan en una medida de criterio obtenida al mismo tiempo
que las calificaciones de la prueba (Aiken, 1996).

2.-Validez de Contenido. Responde a la pregunta ¿los reactivos que constituyen la prueba son
realmente una muestra representativa del dominio de contenido (dominio conductual) que nos
interesa? Así pues la validación de contenido consiste en determinar lo adecuado del muestreo
de reactivos del universo de reactivos potenciales y la validez de contenido es una “medida” de lo
adecuado del muestreo. Ponemos “medida” entre comillas, debido a que, la validez de contenido
consiste en una serie de estimaciones u opiniones, que no proporcionan un índice cuantitativo de
la validez (no utiliza procedimientos estadísticos).

El contenido significa los constituyentes sustantivos de la “materia” o “tema”, sus componentes


reales o informativos. Este tipo de validez se asocia por lo común a las pruebas de rendimiento,
aunque no hay razón por la que no pueda aplicarse el concepto en otros campos de las pruebas
psicológicas (pruebas de aptitud, habilidades, etc.). En las pruebas psicológicas de rendimiento,
se hará hincapié, primordialmente, en el área temática que se cubre (por ejemplo: geometría,
lenguaje, etc.), y en los procesos utilizados para responder a los reactivos. El modo de la
respuesta tendrá la menor importancia.

La validez de contenido alude a la necesidad de garantizar que el test constituye una muestra
adecuada y representativa de los contenidos que se pretende evaluar con él (Muñiz, 1994). Este
tipo de validez surge a partir del análisis del contenido de la prueba (Aiken, 1996).

La validez de contenido es llamada algunas veces validez curricular y se refiere a la adecuación


del muestreo de un determinado universo de contenido. Se determina examinando el contenido
mismo del test y juzgando el grado en que mide verdaderamente los objetivos importantes de un
curso o que constituyen una muestra verdaderamente representativa de la materia de instrucción
en sus aspectos esenciales (Cortada de Kohan, 1999). La validez de contenido cuando se trata
de los test de personalidad se llama validez aparente.

La validez de contenido está en función de lo adecuado del muestreo de reactivos y el


procedimiento por excelencia para establecer este tipo de validez es someter a la prueba a una
valoración por jueces expertos, quienes evaluarán pregunta por pregunta con respecto a los
criterios de pertinencia, relevancia, claridad, redacción y suficiencia y, los resultados de esta
evaluación permitirán incluir, retirar o reestructurar los ítems (Medellín Lozano, 2001).

En la validez de contenido, los reactivos de la prueba deben ser una muestra representativa del
universo de las conductas o contenidos posibles. El muestreo representativo implica la selección
de reactivos en proporción a su énfasis o importancia.

En la construcción de pruebas, el proceso de muestreo de reactivos, tomados de un banco de


ítems potenciales, implica, primeramente la división del dominio de contenido en cierto número de
categorías o subcategorías cada una de las cuales representa un área relevante de contenido. A
continuación se asigna un peso proporcional a cada categoría, y, finalmente, se muestrean al
azar los reactivos de cada categoría, hasta alcanzar el número requerido.

En la práctica, el muestreo de la última etapa no es al azar. Una de las razones para esto es que
los reactivos seleccionados (después del análisis de ítems), tienen que satisfacer, en general,
ciertos requisitos estadísticos como por ejemplo, tener una dificultad apropiada. Otra razón, en
los test de rendimiento, es que se puede desear un equilibrio de contenido dentro de cada
categoría. En tercer lugar, los reactivos se escogen a veces para que desempeñen funciones
específicas, por ejemplo, para que sirvan de “calentamiento” o para probar los límites de los
conocimientos de los mejores alumnos.
Asimismo, no hay nada que exija que la prueba sea homogénea. Puesto que, hasta las unidades
de instrucción (unidades de aprendizaje, “lecciones”, etc.), más limitadas suelen incluir una gran
variedad de contenidos y capacidades, el exigir una elevada homogeneidad sería indeseable y
poco realista (Ebel, 1968).

Puede resultar conveniente un nivel elevado de homogeneidad dentro de las sub áreas (si el test
tiene varias áreas); pero no es necesario que la prueba completa sea homogénea; sin embargo,
si nos interesa la validez de contenido de una prueba destinada a medir alguna construcción o
rasgo psicológico, será conveniente una elevada homogeneidad (como vemos, todas estas
situaciones influirán en el proceso de construcción de un test dependiendo si éste es de
rendimiento o de aptitud).

La validez de contenido se determina mediante la comparación sistemática de los reactivos de la


prueba con el dominio conductual de contenido postulado. La clave está en el “muestreo”.
Generalmente para esta operación se recurre a expertos.
Este procedimiento de validación es lógico y racional y tiene algunas dificultades: no hay índices
estadísticos, asimismo, los distintos jueces pueden no estar de acuerdo en cuanto a la validez de
contenido de una prueba; asimismo, la falta de claridad en la especificidad del dominio hará que
resulten difíciles los juicios de validez de contenido.

Existen varios procedimientos que hacen que el proceso sea más objetivo, por ejemplo, se debe
lograr una definición específica del dominio del contenido, una descripción que delineará el
universo, los conocimientos y las capacidades pertinentes y el origen de los materiales utilizados
(si se trata de un examen de rendimiento). También se podrían definir subcategorías importantes
y especificar su énfasis proporcional. Además, el constructor de la prueba podría especificar qué
contenidos y qué habilidades fueron medidas por cada reactivo. Actualmente, se utilizan
algunos de estos pasos. El universo de contenido se suele establecer en forma bastante
detallada y casi siempre se dispone de una clasificación de reactivos por contenido y categoría
de habilidades.

En cierto sentido, la validez de contenido es una propiedad general de la prueba; más bien que
una situación específica. Si el constructor de la prueba define claramente el universo de
contenido y selecciona reactivos que lo representen, tendrá o no tendrá éxito (de manera más
precisa tendrá éxito en cierto grado), al alcanzar su meta.

Aun cuando podamos no estar de acuerdo con su definición de dominio, debemos evaluar la
prueba en función de lo bien que alcance la meta especificada, hasta qué punto represente el
dominio, tal y como lo definió su constructor (también se le denomina validez curricular).

Validez de Facie. Se confunde fácilmente con la de contenido. Una prueba tiene validez de
facie cuando los reactivos parece que miden lo que se supone que tiene que medir la prueba. La
validez de facie se determina mediante un examen bastante superficial de la prueba y considera
solamente la relevancia obvia. Esta validez puede ser una consideración importante, si la
relevancia aparente de los reactivos influye en la motivación del sujeto, por ejemplo, poner
preguntas en lenguaje y contenido infantil en una prueba destinada a adultos. En algunas
situaciones, el sujeto puede no sentirse motivado a obtener buenos resultados, al sentir que la
prueba es poco importante para la decisión que va a tomar.

3.-Validez de Constructo. La validez de construcción es importante, siempre que se diseñe una


prueba psicológica para medir algún atributo o alguna cualidad (construcción), que se suponga,
tengan las personas. Responde a la pregunta: ¿cómo se puede explicar psicológicamente la
puntuación del test?, ¿qué construcción psicológica mide la prueba?, ¿hasta qué punto mide bien
la prueba psicológica esta construcción?, etc. En este tipo de validez, se enfoca la atención en la
construcción (“en el constructo”) en la característica que se está midiendo.

La validez de constructo (Crombach y Meehl, 1955), se refiere a la recogida de evidencia


empírica que garantice la existencia de un constructo psicológico en las condiciones exigibles a
cualquier otro modelo o teoría científica.
Una prueba no es un conjunto de ítems que se juntan al azar para predecir un criterio, es más
bien una medida o índice de un concepto, teoría o constructo psicológico, o de otro tipo (Muñiz,
1994).

Este tipo de validez se obtiene por medio de un estudio sistemático de la eficacia de la prueba
como medida de un constructo psicológico específico (Aiken, 1996).

(Cortada de Kohan, 1999), nos dice que la validez de constructo se refiere a precisar “cuáles son
las cualidades psicológicas que un test mide”, y se evalúa “demostrando que ciertos constructos
explican en cierta medida el desempeño en el test”.

(Medellín Lozano, 2001), nos dice que este tipo de validez se obtiene mediante la acumulación
de evidencias respecto al rasgo que mide la prueba y está centrada en el rasgo y se puede
utilizar para el estudio de las diferencias individuales y para el desarrollo de teorías psicológicas.
En el ámbito de la psicología se han utilizado con mucha frecuencia dos procedimientos
metodológicos, el análisis factorial y la matriz multirrasgo - multimétodo, para obtener datos
acerca de la validez de constructos psicológicos, denominándose, respectivamente, validez
factorial y validez convergente-discriminante (Muñiz, 1994).

El proceso de la validación de construcción, puede verse como la construcción de una mini teoría
acerca de una prueba psicológica. La lógica de la validez de constructo, en muchos aspectos,
así como en sus métodos, son esencialmente los del método científico.

La construcción de la mini teoría tiene tres pasos: (1) en base a la teoría sostenida en ese
momento respecto a la prueba psicológica, el investigador deduce ciertas hipótesis sobre la
conducta esperada de las personas que obtienen diferentes calificaciones en ellas, (2) se reúne
datos que confirman o no esas hipótesis, y (3) en base a los datos acumulados, toma la decisión
relativa a si la teoría, de hecho, explica adecuadamente los datos. Si no es así, tiene que revisar
su teoría y repetir el proceso hasta lograr una explicación más adecuada. En este sentido, el
proceso de validación es de continua reformulación y refinamiento.

Al determinar la validez de construcción, el propósito es identificar todos los factores que influyen
en la ejecución del test y determinar el grado en que influyen cada uno de ellos. Ejemplo: (Kline,
1985), sirviéndose de un test hipotético sobre la ansiedad: propuso una serie de hipótesis cuyos
resultados globales nos pueden decir si el test tiene validez de constructo:

1.-Los que obtienen elevadas puntuaciones será más probable que acaben en clínicas
psiquiátricas que aquellos con puntajes bajos.

2.-Será más fácil que les receten drogas psicotrópicas a los que tienen altas puntuaciones que a
los de bajos puntajes.

3.-Los hijos de los de puntuaciones altas tendrán mayores probabilidades de tener una
puntuación alta en test de ansiedad, que los hijos de quienes tuvieron bajas puntuaciones.

4.-El test de ansiedad se correlacionará alta y significativamente (más allá de 0.60), con otros
sobre dicha ansiedad caracterizada.

5.-El test de ansiedad no se correlacionará con variables que no resulten conexas con la misma.

6.-Los grupos psiquiátricos caracterizados como ansiosos alcanzarán en el test unas


puntuaciones más altas que los de control.

7.-En el test de ansiedad, los sujetos evaluados por supervisores y colegas como ansiosos,
lograrán mayores puntuaciones que quienes están considerados como no ansiosos.

Es necesario tener presente que los resultados de los estudios que hagamos realmente no
“validan” o “prueban” la teoría completa, puesto que nunca se puede demostrar una construcción
en forma absoluta; solamente se puede aceptar como la mejor definición de trabajo.
Si los resultados son negativos, hay por lo menos tres interpretaciones posibles: la prueba puede
no medir la construcción, el marco teórico puede ser erróneo permitiendo inferencias incorrectas
o bien, quizá, el diseño del experimento no permite una prueba apropiada de la hipótesis. La falla
del diseño experimental suele ser la más fácil de detectar; pero no siempre se puede
experimentar con claridad el lugar exacto de la falla. Esta interpretación ambigua de los
resultados negativos es un inconveniente evidente del procedimiento de validación de los
constructos.

En la práctica, (Cortada de Kohan 1999), habla de dos categorías fundamentales de la validez: la


validez directa o primaria y la validez secundaria o derivada. Una prueba tiene validez directa en
la medida en que las tareas incluidas en ella representan verdaderamente y en la debida
proporción, las clases de tareas que dan lugar a una definición operacional para la variable o
rasgo en cuestión; mientras que, un test posee validez secundaria cuando los puntajes se
correlacionan con otros puntajes de un criterio que posee, a su vez, validez directa o primaria.

En tal sentido, pertenecerían a la validez directa: la validez de contenido, la validez curricular, la


validez intrínseca, la validez aparente y la validez por definición; y, corresponderían a la validez
secundaria: la validez empírica, la validez concurrente, la validez predictiva, la validez factorial y
la validez de constructo (Cortada de Kohan, 1999).

Métodos para calcular la validez. El método más simple para calcular la validez implica
obtener el índice de correlación de Pearson entre los puntajes del test y los puntajes del criterio
externo (Cortada de Kohan, 1999). Cuando por alguna razón este sistema no puede utilizarse,
ya que supone el mismo tipo de nivel de medición y homocedasticidad las variables, se puede
utilizar otro tipo de coeficiente de validez como los biseriales o el índice de correlación tetracórico
cuando el criterio tiene una clasificación en dos categorías: si o no, o verdadero-falso. Algunas
veces se utiliza la correlación múltiple.

Cuando la prueba se utiliza para pronosticar el desempeño en alguna situación de la vida


cotidiana, la validez suele definirse como la correlación entre la prueba y alguna medida del
desempeño en la situación de la vida real. En este caso, la correlación debe ser explicada
lógicamente y uno de los enfoques más adecuados es la teoría factorial (Crombach, 1984).

EVIDENCIA CONVERGENTE-DISCRIMINANTE COMO CATEGORIA RELEVANTE DE


FUENTE DE EVIDENCIA DE LA VALIDEZ

Cuando se elabora un test se deben contrastar los valores obtenidos, tanto con otras pruebas
construidas para medir el mismo factor, como con los elaborados para medir otros factores. La
razón para realizar dicha tarea es demostrar que la prueba en mención mide realmente el
constructo que se propone medir, al correlacionarse con otras pruebas reconocidas que miden el
mismo constructo, y no correlacionarse con pruebas que miden constructos distintos.

Por lo tanto, la nueva prueba debe arrojar correlaciones significativamente más altas con las
pruebas que miden el mismo factor que con aquellas que miden constructos diferentes, por lo
tanto, la evidencia convergencia o convergente tiene que ver con la existencia de correlaciones
relativamente altas entre las pruebas construidas para evaluar un factor o rasgo común. Caso
contrario se da en la evidencia de discriminación o discriminante caracterizada por la presencia
de correlaciones no significativas, muy débiles o negativas entre pruebas que miden factores o
rasgos diferentes.

VALIDEZ Y ANALISIS FACTORIAL

Las evidencias relacionadas con la estructura interna de una prueba nos van a indicar si las
relaciones entre los reactivos y las dimensiones (factores, escalas), permiten confirmar la
existencia de los constructos que el test pretende medir. El marco conceptual de una prueba
puede proponer una dimensión unitaria de comportamiento o varios factores (Pérez y Olaz,
2008).

Una encuesta podría construirse para medir salud orgánica y emocional. Ejemplo: si las inter
correlaciones entre los reactivos confirman la presencia de esos dos factores teóricos, ésta es
una información relevante para la evidencia de validez vinculada con la estructura interna del test
(APA, 1999).

Resulta necesario comprobar estadísticamente que los reactivos se agrupen de la manera que se
ha realizado la propuesta teórica, y para dicha finalidad el procedimiento adecuado es el análisis
factorial (Carretero-Dios y Pérez, 2005).

Debemos tener presente que el análisis factorial es un método estadístico utilizado para analizar
las inter correlaciones entre datos observables (Martínez Arias, 1995). Ejemplo: si se administran
90 reactivos o preguntas a 1,400 sujetos, el primer paso implica calcular las correlaciones de
cada elemento con los demás. Luego, al observar la matriz de correlaciones obtenidas
apreciaremos ciertas agrupaciones entre los reactivos, lo cual va a revelar la presencia de rasgos
o factores comunes.

En la práctica, cuando utilizamos el análisis factorial por lo general se va a reducir el número de


variables inicialmente consideradas y el comportamiento de cada sujeto puede describirse con
referencia a un número relativamente pequeño de factores o rasgos comunes (Anastasi y Urbina,
1998).

EL META-ANALISIS EN LA GENERALIZACION DE LA VALIDEZ

A lo largo del capítulo hemos mencionado en repetidas oportunidades que la validez de una
prueba está relacionada con la muestra particular que se ha utilizado en dicho proceso, lo cual
implica la presencia de una limitación que debe ser tratada convenientemente con los
procedimientos de generalización de la validez.

En tal sentido, el método más utilizado en la actualidad es la meta-análisis, el cual permite


integrar y combinar los hallazgos de diversas investigaciones empíricas mediante técnicas
específicas. En el caso de la utilización de este método para el tratamiento de la generalización
de la validez, surgió como respuesta a los coeficientes débiles de correlación obtenidos en
muchos estudios relacionados con la temática test-criterio (Martínez Arias, 1995). Todo ello
estaba vinculado con resultados contradictorios obtenidos en estudios relacionados sobre una
misma temática, los cuales eran resueltos por medio de revisiones narrativas o de resúmenes
verbales que implicaban una metodología subjetiva e informal, que sin duda, fue sometida a todo
tipo de críticas. Frente a esta situación los especialistas consideraron a la meta-análisis como la
solución más atinada para enfrentar esta problemática.

Metodológicamente, la meta-análisis convierte los hallazgos estadísticos de estudios empíricos


independientes a una métrica común, provee una estimación simple de la fortaleza de la relación
entre determinadas variables y permite comprobar estadísticamente si una serie de
investigaciones, conjuntamente considerados, apoyan o refutan las hipótesis de investigación
(Multon, Brown y Lent, 1991).

Operativamente, el meta-análisis se inicia con la reunión, clasificación y codificación de los


estudios existentes sobre una temática, lo cual infiere la consideración, clasificación y
codificación de las características sustantivas y metodológicas de los estudios particulares (tales
como tipo y duración de una intervención o tratamiento experimental, tipo de muestra e
instrumentos utilizados) (Pérez y Olaz, 2008).

En la medida que los hallazgos de los estudios a tener en cuenta podrían ser difíciles de
contrastar directamente, se les debe convertir a una medida común. Las dos medidas más
usadas para cuantificar e integrar los hallazgos de los estudios independientes son los niveles de
significación y las medidas de tamaño del efecto. La primera informa los resultados obtenidos
han ocurrido probablemente al azar, mientras que la segunda nos indica la intensidad de la
relación o el efecto de interés (Gómez Benito, 1987).

No obstante su importancia actual, la meta-análisis no está exento de críticas y entre las más
importantes tenemos:
a. El sesgo de publicación o de selección editorial a favor de investigaciones cuyos resultados
favorecen las hipótesis de estudio. Sobre el punto, la bibliografía especializada sugiere
incluir en la meta-análisis, investigaciones sin publicar, lo cual permite que el investigador
contraste los hallazgos de investigaciones publicadas frente a las no-publicadas y de ese
modo inferir la probabilidad de sesgo en la publicación.

b. La inclusión de investigaciones poco rigurosas conjuntamente con estudios bien diseñados, lo


cual afecta la interpretación que hace el meta-análisis, ya que esta situación compromete la
validez interna del procedimiento (Wolf, 1986).

c. La existencia en algunos casos del problema de las “peras y las manzanas”, metáfora referida
a que las conclusiones producto del meta-análisis son inadecuadas toda vez que tienen
como base la integración de investigaciones que incluyen diferentes definiciones de variables
y tipos de muestras o instrumentos.

También podría gustarte