Está en la página 1de 7

Evaluación en el aula, asignación de

calificaciones y pruebas estandarizadas


FUNDAMENTOS DE LA EVALUACIÓN ¿Le sorprendería saber que las pruebas publicadas, como los
exámenes de admisión universitarios y las pruebas de CI, se crearon en el siglo XX? Durante la primera
mitad del siglo XX, la admisión a las universidades generalmente se basaba en las calificaciones, pero
también en ensayos y entrevistas. Por experiencia propia, usted sabe que las pruebas han avanzado
mucho desde entonces (demasiado, según algunos críticos). Las pruebas que se publican en la
actualidad se denominan pruebas estandarizadas ya que se aplican, califican e interpretan de la misma
forma (con las mismas instrucciones, los mismos límites de tiempo y con iguales formas de calificar para
todos) (Popham, 2008). Los métodos estándar para elaborar reactivos, aplicar la prueba, calificarla y
reportar las puntuaciones están implícitos en el término pruebas estandarizadas. Es probable que las
escuelas donde trabaje utilicen este tipo de pruebas, especialmente para cubrir los requisitos de la Ley
para que ningún niño se quede atrás (NCLB). Sin embargo, en la mayoría de las escuelas, los profesores
no participan mucho en la selección de estas pruebas. Por otro lado, los maestros elaboran y
seleccionan las evaluaciones en el salón de clases, las cuales podrían adoptar muchas formas diferentes:
exámenes de unidades, ensayos, portafolios, proyectos, desempeño, presentaciones orales (la lista es
larga). Las evaluaciones son muy importantes porque la enseñanza implica muchos tipos de juicios, es
decir, decisiones basadas en valores: “¿Este programa de computadora es adecuado para mis
alumnos?”, “¿Jacob tendrá más éxito si repite el primer grado?”, “¿Emily debe obtener un 8 o un 7 en el
proyecto?”. En este capítulo estudiamos los juicios que implican la medición, evaluación y asignación de
calificaciones, así como todas las formas de evaluación. Aquí hablaremos de la evaluación en el salón de
clases y de las pruebas estandarizadas, y haremos mayor hincapié en la primera, ya que los profesores
son responsables de evaluar a los alumnos en el aula. Antes de referirnos a las evaluaciones
estandarizadas o en el salón de clases, examinaremos algunos aspectos fundamentales de ambas;
iniciaremos con las diferencias entre medición y evaluación. Medición y evaluación La medición es
cuantitativa, pues es la descripción numérica de un suceso o una característica. Mediante puntuaciones,
categorías o calificaciones, la medición nos indica cuánto, con qué frecuencia o qué tan bien. En vez de
decir “creo que Sara no entiende la suma”, un profesor diría que “Sara respondió correctamente sólo
dos de los 15 problemas en su tarea de sumas”. La medición también permite que los maestros
comparen el desempeño de un alumno en una tarea específica con un estándar o con el desempeño de
los demás estudiantes. No todas las decisiones que toman los educadores implican mediciones. Algunas
decisiones se basan en información difícil de expresar de forma numérica: las preferencias de los
alumnos, la información de los padres, experiencias anteriores e incluso la intuición. Sin embargo, la
medición sí tiene un papel importante en muchas decisiones del salón de clases y, cuando se realiza de
manera adecuada, ofrece datos imparciales para tal efecto. Los especialistas en medición cada vez
utilizan con mayor frecuencia el término evaluación para describir el proceso de recopilación de
información acerca del aprendizaje de los alumnos. La evaluación Evaluación sumativa Pruebas que se
aplican después de la instrucción y que evalúan el aprovechamiento. Pretest Prueba formativa para
evaluar los conocimientos, la preparación y las destrezas de los estudiantes. Evaluación formativa
Pruebas sin calificación que se utilizan antes o durante la instrucción como ayuda en la planeación y el
diagnóstico. EVALUACIÓN EN EL AULA, ASIGNACIÓN DE CALIFICACIONES Y PRUEBAS ESTANDARIZADAS
495 es más general que la medición y la aplicación de pruebas, ya que incluye todo tipo de métodos
para observar y obtener muestras de las habilidades, conocimientos y capacidades de los estudiantes
(Linn y Miller, 2005). Las evaluaciones pueden ser formales, como los exámenes de unidades, o
informales, como el hecho de observar quién desempeña el papel de líder en un grupo de trabajo. Los
encargados de diseñar las evaluaciones podrían ser los profesores del salón de clases, o bien,
organismos locales, estatales o nacionales, como los distritos escolares. Además, actualmente las
evaluaciones no sólo incluyen exámenes de papel y lápiz, sino también juicios basados en el desempeño,
los portafolios, los proyectos o los productos de los alumnos (Popham, 2008). Evaluación formativa y
sumativa. Hay dos funciones generales de la evaluación: formativa y sumativa. La evaluación formativa
se realiza antes o durante la instrucción. Los objetivos de la evaluación formativa son guiar al maestro
en la planeación y mejora de la instrucción, así como ayudar a los alumnos a mejorar su aprendizaje. En
otras palabras, la evaluación formativa ayuda a formar la instrucción. Es común que los estudiantes
resuelvan una prueba formativa antes de la instrucción, es decir, un pretest que ayude al profesor a
determinar lo que los estudiantes ya saben. En ocasiones se aplica un examen durante la instrucción
para verificar qué áreas aún son débiles y así la enseñanza puede enfocarse en estos temas. Los
exámenes formativos no se califican, de manera que en el caso de los alumnos que suelen sentirse muy
nerviosos en los exámenes “reales”, esta práctica de resolverlos casi sin tensión sería especialmente útil.
La evaluación sumativa se realiza al final de la instrucción. Su propósito consiste en permitir que el
maestro y los alumnos conozcan el nivel de rendimiento alcanzado. Por lo tanto, la evaluación sumativa
brinda un resumen de los logros. El examen final es un ejemplo clásico. La diferencia entre la evaluación
formativa y sumativa se basa en la forma en que se utilizan los resultados. El mismo procedimiento de
evaluación (tradicional, oral, de ejecución o con base en proyectos, portafolios, etcétera) podría
utilizarse para cualquiera de los propósitos. James Popham (2008) afirma que cualquier evaluación es
formativa “dependiendo del grado en que se utilice la información obtenida de la evaluación durante el
segmento instruccional en que se realiza, para adaptar la instrucción con la intención de mejorar el
aprendizaje de los estudiantes evaluados” (p. 274). Si el propósito es determinar el aprovechamiento
final (y asignar una calificación para el curso), la evaluación es sumativa. De hecho, la misma evaluación
podría ser formativa al inicio de una unidad y sumativa al final. En la tabla 14.1 se presentan algunos
ejemplos de los diferentes usos de la evaluación. EVALUACIÓN SUMATIVA El examen final es un ejemplo
clásico de una evaluación sumativa, la cual se realiza al final de la instrucción y ofrece un resumen de los
logros. MyEducationLab Vaya a la sección de Actividades y aplicaciones en el capítulo 14 de
MyEducationLab y realice la actividad 1. Mientras observa y lleva a cabo las actividades
correspondientes, piense de qué manera se podrían utilizar las autoevaluaciones de los alumnos como
un tipo de evaluación formativa. TABLA 14.1 Uso de los exámenes para tomar decisiones instruccionales
El mejor uso que se puede dar a una evaluación es considerarla un elemento para planear, guiar y dirigir
la instrucción. A continuación se presentan algunas decisiones que podrían beneficiarse de los
resultados de evaluaciones. Categoría de la decisión Estrategia típica de evaluación Posibles decisiones
¿Qué debemos enseñar en primera instancia? Evaluación previa a la instrucción ¿Debemos dar
instrucción para objetivos específicos? ¿Cuánto tiempo debemos enseñar para alcanzar un objetivo
instruccional específico? Evaluaciones de seguimiento del progreso de los estudiantes ¿Debemos
continuar o suspender la instrucción para un objetivo, ya sea para un individuo o para toda la clase?
¿Qué tan eficaz resultó una secuencia instruccional? Comparación del desempeño de los estudiantes en
el postest y el pretest ¿Debemos mantener, descartar o modificar una secuencia instruccional dada la
próxima vez que se utilice? Fuente: Popham W. James, Classroom Assessment: What Teachers need to
Know, 4a. ed. Publicado por Allyn and Bacon, Boston, MA. Derechos reservados © 2005 por Pearson
Education. Adaptado con autorización del editor. 496 CAPÍTULO 14 En realidad, los usos formativos de la
evaluación son los más importantes para la enseñanza. Popham considera que “cualquier profesor que
utiliza los exámenes principalmente para determinar si los estudiantes obtienen calificaciones altas o
bajas debería recibir una calificación de 5 en la evaluación del salón de clases” (2008, p. 256). Los
exámenes y todas las evaluaciones deberían emplearse para ayudar a los profesores a tomar mejores
decisiones en relación con la instrucción que imparten. Las respuestas dadas en cualquier tipo de prueba
no tienen un significado por sí mismas, pues es necesario que realicemos algún tipo de comparación
para interpretar sus resultados. Hay dos tipos básicos de comparaciones: en la primera, la puntuación de
un examen se compara con las puntuaciones obtenidas por otros individuos que resolvieron la misma
prueba (comparación referida a normas); en la segunda, la referida a criterio, la comparación se efectúa
con un parámetro fijo o con una puntuación de aprobación mínima. De hecho, el mismo examen podría
interpretarse con referencia a normas o con referencia a criterio. Interpretaciones de las pruebas
referidas a normas. En las pruebas referidas a normas, los sujetos que resolvieron la prueba determinan
las normas para establecer el significado de la puntuación de un individuo. Considere la norma como el
nivel típico en el desempeño de un grupo específico. Al comparar la puntuación cruda de un individuo
(el número real de respuestas correctas) con la norma, determinaremos si la puntuación está por arriba,
por debajo o alrededor del promedio de ese grupo. Hay por lo menos tres tipos de grupos normativos
(grupos de comparación) en la educación: el grupo o la escuela misma, el distrito escolar y las muestras
nacionales. Los estudiantes de los grupos normativos nacionales que participan en programas de
evaluación a gran escala se evalúan un año, y luego sus puntuaciones se utilizan como normas o datos
comparativos durante varios años, hasta que se revisa la prueba o se modifican las normas. Los grupos
normativos se seleccionan de manera que en la muestra se incluyan todos los niveles socioeconómicos
(NSE). Como los estudiantes con un NSE alto suelen obtener mejores resultados en muchas pruebas
estandarizadas, un distrito escolar con un alto nivel socioeconómico casi siempre obtiene puntuaciones
más altas con respecto al grupo normativo. Las pruebas referidas a normas cubren una amplia gama de
objetivos generales; son especialmente útiles para medir el aprovechamiento general de estudiantes
que han logrado entender material complejo a través de caminos diferentes. Estas pruebas también son
adecuadas cuando sólo se admitirá a los mejores candidatos a un programa. Sin embargo, la medición
referida a normas tiene sus limitaciones. Los resultados de tales pruebas no le indican si sus alumnos
están listos para pasar a un material más avanzado. Por ejemplo, el hecho de saber que un estudiante
está ubicado dentro del 3 por ciento superior de la clase en una prueba de conceptos de álgebra no
indica que esté preparado para estudiar matemáticas avanzadas; es probable que todos los miembros
de la clase tengan una comprensión limitada de los conceptos de álgebra. Las pruebas referidas a
normas tampoco se recomiendan para medir objetivos afectivos o psicomotores. Para evaluar el
aprendizaje psicomotor de los individuos, usted necesita una descripción clara de estándares (incluso el
mejor gimnasta de la escuela que realiza ciertos ejercicios mejor que otros necesita una guía específica
para mejorar). En el área afectiva, las actitudes y los valores son personales; las comparaciones entre
individuos, en realidad, no son adecuadas. Por ejemplo, ¿cómo mediríamos un nivel “promedio” de
valores o de opiniones políticas? Finalmente, las pruebas referidas a normas suelen fomentar la
competencia y la comparación entre puntuaciones. Algunos estudiantes compiten para ser el mejor;
otros, al darse cuenta de que es imposible ser el mejor, compiten para ser el peor. Cualquiera de esas
metas implica riesgos. Pruebas referidas a criterio. Cuando se comparan las puntuaciones de las
pruebas, no con las de otros individuos, sino con un criterio específico o un estándar de desempeño, nos
referimos a las pruebas referidas a criterio. Al decidir a quién debería permitírsele conducir un
automóvil, es importante determinar qué parámetro de desempeño sería adecuado para elegir a los
conductores eficaces. No importa la diferencia que exista entre los resultados de su prueba y la de otros;
si su desempeño en la prueba se ubica dentro del 10 por ciento superior, pero de manera persistente se
pasó la luz roja, usted no será un buen candidato para obtener una licencia, aun cuando su puntuación
haya sido elevada. Las pruebas referidas a criterio miden el dominio de objetivos muy específicos. Los
resultados de una prueba referida a criterio deberían indicarle al profesor exactamente lo que los
alumnos son capaces y no son capaces de hacer, al menos en ciertas condiciones. Una prueba de este
tipo, por ejemplo, sería útil para evaluar la habilidad de sumar números de tres dígitos. Se podría
diseñar una prueba con 20 problemas diferentes y establecer un estándar de dominio de 17 aciertos por
cada 20. (El estándar a menudo es hasta cierto punto arbitrario, y podría basarse en aspectos como la
experiencia del maestro). Si dos estudiantes reciben puntuaciones de 7 y 11, esto no significa que uno
haya tenido más éxito que el otro, porque ninguno de los dos logró el estándar de 17; ambos necesitan
más ayuda con las sumas. En la enseñanza de habilidades básicas hay muchos ejemplos donde la
comparación con un estándar preestablecido es más importante que la comparación con el desempeño
de otros individuos. Como padre, no sería muy gratificante saber que su hijo es mejor en lectura que la
mayoría de los estudiantes de su grupo, si ninguno de éstos tiene una lectura adecuada para su grado
escolar. En ocasiones, los esConexión y extensión con PRAXIS II™ Evaluación tradicional (II C1, 2, 4) Los
exámenes objetivos y de ensayo continúan teniendo un papel relevante en la evaluación eficaz y en los
programas de evaluación. Describa los usos convenientes de estos tipos de exámenes. Identifique las
ventajas y las limitaciones de cada uno. Grupo normativo Grupo grande de estudiantes que sirve como
grupo de referencia para comparar las puntuaciones en una prueba. Evaluación referida a normas
Evaluación en que las puntuaciones se comparan con el desempeño promedio de otros. Evaluación
referida a criterio Evaluación en que las puntuaciones se comparan con parámetros de desempeño
establecidos. EVALUACIÓN EN EL AULA, ASIGNACIÓN DE CALIFICACIONES Y PRUEBAS ESTANDARIZADAS
497 tándares para cubrir el criterio deben establecerse en un 100 por ciento de respuestas correctas. A
usted no le gustaría que le extirpara el apéndice un cirujano que olvida instrumentos quirúrgicos dentro
del cuerpo únicamente el 10 por ciento de las veces. Sin embargo, las pruebas referidas a criterio no
resultan adecuadas en todas las situaciones. Muchos temas no pueden dividirse en un conjunto de
objetivos específicos. Además, a pesar de que los estándares son importantes para las pruebas referidas
a criterio, a menudo son arbitrarios, como hemos visto. Cuando la cuestión de decidir si un estudiante
domina las sumas de números de tres dígitos depende de la diferencia entre 16 o 17 respuestas
correctas, parece difícil favorecer un estándar específico con respecto a otro. Finalmente, a veces
resulta valioso saber cómo comparar a los alumnos de su grupo con otros de su mismo grado escolar,
tanto en el ámbito local como nacional. Se observa que cada tipo de prueba es adecuada para ciertas
situaciones, aunque también tiene sus propias limitaciones. Evaluación de las evaluaciones:
Confiabilidad y validez Uno de los problemas más comunes de las evaluaciones, especialmente las
pruebas, es la mala interpretación de los resultados, que con mucha frecuencia se debe a la creencia de
que las pruebas son medidas exactas de las habilidades del sujeto. Ninguna prueba brinda una imagen
perfecta de las capacidades de un individuo; más bien, apenas ofrecen una pequeña muestra de su
comportamiento. Tres factores son importantes para el desarrollo de buenas pruebas y para la
interpretación de los resultados: confiabilidad, validez y ausencia de sesgo. Confiabilidad de las
puntuaciones de las pruebas. Si usted resuelve una prueba el lunes, luego resuelve nuevamente la
misma prueba una semana después, y cada vez recibe aproximadamente la misma puntuación, tendría
razones para creer que la prueba es confiable. Si 100 personas resuelven la prueba un día, luego lo
hacen nuevamente la siguiente semana, y el orden de las puntuaciones individuales es
aproximadamente el mismo en ambas pruebas, entonces tendría una mayor certeza de que la prueba es
confiable (desde luego, suponiendo que nadie busca las respuestas o aprende más material antes de la
segunda aplicación). Una prueba confiable brinda una “lectura” consistente y estable de las habilidades
de una persona de una ocasión a otra, suponiendo que las habilidades de ese individuo permanecen
constantes. Un termómetro confiable funciona de manera similar, al registrar una lectura de 100°C cada
vez que usted mide la temperatura del agua en ebullición. Medir la confiabilidad de una prueba de esta
manera, al aplicarla en dos ocasiones diferentes, indica estabilidad o confiabilidad test-retest. Si un
grupo de personas resuelven dos versiones equivalentes de una prueba, y las puntuaciones en ambas
pruebas son comparables, ello nos indica una confiabilidad de formas alternas. La confiabilidad también
se refiere a la consistencia interna o la precisión de una prueba. Este tipo de confiabilidad, conocida
como confiabilidad de división por mitades, se calcula al comparar el desempeño de la mitad de las
preguntas de la prueba con el desempeño de la mitad restante. Si, por ejemplo, alguien obtuvo buenos
resultados en los reactivos nones, pero bastante malos en los reactivos pares, supondríamos que los
reactivos no eran muy consistentes o precisos para medir lo que se esperaba. Hay varias formas para
calcular la confiabilidad; sin embargo, todas las posibilidades darán números entre 0.0 y 1.0, como un
coeficiente de correlación. Por arriba de 0.90 se considera muy confiable, entre 0.80 y 0.90 es buena, y
menos de 0.80 representa una confiabilidad no muy buena para pruebas estandarizadas como la
Scholastic Assessment Test (SAT) o la American College Test (ACT) (Haladyna, 2002). La forma más
efectiva de aumentar la confiabilidad es agregar más reactivos a la prueba; en general, las pruebas más
largas son más confiables que las breves. Error en las puntuaciones. Todas las pruebas constituyen
estimaciones imperfectas de las cualidades o destrezas que intentan medir. En cualquier situación de
prueba hay errores. Existen fuentes de error relacionadas con el alumno, como su estado de ánimo,
motivación, habilidades para resolver exámenes o incluso para hacer trampa. En ocasiones, los errores
son a favor y el individuo obtiene una puntuación mayor de lo que su habilidad amerita; quizás usted
revisó una sección clave antes de resolver la prueba. Otras veces los errores son en contra del sujeto:
quizá se siente enfermo, tiene mucho sueño o estudió el material incorrecto. Incluso existen fuentes de
error relacionadas con la prueba misma: las instrucciones no son claras, el nivel de lectura es demasiado
alto, los reactivos son ambiguos o el tiempo límite no es el correcto. La puntuación que recibe cada
estudiante siempre incluye cierta cantidad de error. ¿De qué manera se reduciría el error? Como tal vez
habrá adivinado, esto nos regresa a la cuestión de la confiabilidad. VALIDEZ Y CONFIABILIDAD Las
decisiones de validez y confiabilidad que se basan en las pruebas podrían verse influidas por el grado en
que miden la inteligencia, los conocimientos, la motivación o las diferencias en las experiencias de vida.
Confiabilidad Consistencia de los resultados de pruebas. Validez Grado en el cual una prueba mide lo
que pretende medir. Calificación verdadera La puntuación que obtendría un estudiante si la medición
fuera completamente exacta y sin errores. Intervalo de confianza Rango de puntuaciones donde tiene
mayores probabilidades de ubicarse la calificación específica de un individuo. Error estándar de
medición Estimado hipotético de la variación de las puntuaciones, si las pruebas se repitieran. 498
CAPÍTULO 14 Cuanto más confiable sea la prueba, menor será el error de la puntuación obtenida.
Quienes elaboran las pruebas estandarizadas toman esto en consideración y estiman qué tanto podrían
variar las puntuaciones de los estudiantes si se les aplicara la prueba de manera repetida. A ese
estimado se le denomina error estándar de medición. Así, una prueba confiable también puede definirse
como aquella que tiene un pequeño error estándar de medición. Al interpretar las pruebas, los maestros
también deben tomar en cuenta el margen de error. Intervalo de confianza. Nunca fundamente una
opinión acerca de las destrezas o el aprovechamiento de un alumno en la puntuación exacta que éste
obtiene. Muchas empresas dedicadas al diseño de pruebas estandarizadas reportan ahora las
calificaciones en un intervalo de confianza, o “banda de error estándar”, que incluye la calificación real
del estudiante. Aquí se utiliza el error estándar de medición y ello permite que un maestro considere el
rango de puntuaciones que podrían incluir la calificación verdadera de un alumno, es decir, la
puntuación que el estudiante obtendría si la medición fuera completamente exacta y libre de errores.
Supongamos, por ejemplo, que en su clase dos alumnos resuelven una prueba estandarizada de
aprovechamiento en español. El error estándar de medición de esta prueba es 5. Un estudiante obtiene
una puntuación de 79, y el otro, una puntuación de 85. A primera vista, estas puntuaciones parecen ser
bastante diferentes; no obstante, cuando toman en cuenta las bandas del error estándar alrededor de
las puntuaciones, y no sólo las puntuaciones, usted observa que las bandas se traslapan. La calificación
verdadera del primer estudiante podría estar en cualquier punto entre 74 y 84 (es decir, la calificación
verdadera obtenida de 79 más y menos el error estándar de 5). La calificación verdadera del segundo
estudiante estaría en cualquier punto entre 80 y 90. Ambos estudiantes podrían haber obtenido la
misma calificación verdadera de 80, 81, 82, 83 u 84, porque las bandas de puntuaciones se traslapan en
esos números. Resulta fundamental tener en mente la idea de bandas de error estándar cuando se
seleccionan estudiantes para programas especiales. Ninguno debe ser rechazado tan sólo porque su
puntuación obtenida no alcanzó el punto de corte por uno o dos puntos; es posible que su calificación
verdadera esté por encima del punto de corte. Validez. Si una prueba es lo suficientemente confiable, la
siguiente pregunta se refiere a su validez o, más específicamente, a si los juicios y decisiones basados en
la prueba son válidos. Para tener validez, las decisiones e inferencias basadas en la prueba deben estar
sustentadas por evidencias; esto significa que la validez se juzga en relación con un uso o propósito
específico, es decir, en relación con la decisión real tomada y con las evidencias que sustentan esa
decisión. Una prueba en particular que sea válida para un objetivo, quizá no lo sea para otro (Frisbie,
2005; Popham, 2008; Oosterhof, 2009). Hay distintos tipos de evidencias para sustentar un juicio
específico. Si la finalidad de una prueba es medir las destrezas cubiertas en un curso o unidad, entonces
esperaríamos ver preguntas sobre todos los temas importantes y no sobre temas ajenos. Si se cumple
esta condición, entonces tendríamos evidencia de validez relacionada con el contenido. ¿Alguna vez
usted ha resuelto una prueba que incluía únicamente algunas cuantas ideas de una exhibición o de unas
cuantas páginas del libro de texto? Si es así, entonces las decisiones basadas en esa prueba (como su
calificación) seguramente carecieron de evidencia de validez relacionada con el contenido. Algunas
pruebas están diseñadas para predecir resultados. Las pruebas SAT (Scholastic Assessment Test), por
ejemplo, fueron hechas para predecir el desempeño en la universidad. Si las puntuaciones en la prueba
SAT se correlacionan con el desempeño académico en la universidad, medido por, digamos, el promedio
de calificaciones durante el primer año, entonces tenemos evidencia de validez relacionada en el criterio
para el uso del examen SAT en decisiones de admisión. La mayoría de las pruebas estandarizadas están
diseñadas para medir alguna característica psicológica o “constructo”, como la capacidad de
razonamiento, la comprensión de lectura, la motivación de logro, la inteligencia, la creatividad, etcétera.
Es un poco más difícil reunir evidencia de validez relacionada con el constructo, aun cuando se trata de
un requisito muy importante, probablemente el más importante. La evidencia de validez relacionada
con el constructo se reúne a lo largo de muchos años y está indicada por un patrón de puntuaciones. Los
niños mayores, por ejemplo, son capaces de responder más preguntas de las pruebas de inteligencia
que los niños más pequeños, lo cual coincide con nuestro constructo de la inteligencia. Si el niño
promedio de cinco años de edad respondiera tantas preguntas correctas en una prueba como el niño
promedio de 13 años de edad, dudaríamos de que la prueba realmente mida la inteligencia. La evidencia
de validez relacionada con el constructo también se demuestra cuando los resultados de una prueba se
correlacionan con los resultados de otras medidas válidas y bien establecidas del mismo constructo. En
la actualidad, muchos psicólogos sugieren que la validez de constructo es la categoría más amplia, y que
el hecho de reunir evidencia relacionada con el contenido y con el criterio es otra forma de determinar
si la prueba mide el constructo para el cual fue diseñada. Hace más de 30 años, Sam Messick (1975)
formuló dos preguntas importantes al tomar cualquier decisión sobre el uso de una prueba: ¿La prueba
es una buena medida de las características que se supone que debe evaluar? ¿La prueba debería
utilizarse para el objetivo propuesto? La primera pregunta se refiere a la validez de constructo; y la
segunda, a los valores y a cuestiones éticas (Moss, 1992).

También podría gustarte