Está en la página 1de 14

1.

VALIDEZ se hará en la base de la puntuación o patrón de


ANTECEDENTES respuesta.

La validez se refiere al grado en que las pruebas y Ejemplos de construcciones utilizadas


la teoría apoyan las interpretaciones de la prueba actualmente en la evaluación incluyen el logro de
puntajes para los usos propuestos de las pruebas. las matemáticas, las matemáticas en general
La validez es, por lo tanto, la consideración más habilidad cognitiva, actitudes de identidad racial,
fundamental en desarrollo de pruebas y depresión, y autoestima. Apoyar el desarrollo de
evaluación de pruebas. de validación implica la pruebas, se elabora la interpretación del
acumulación de información relevante pruebas constructo propuesto describiendo su alcance y
que proporcionen una base científica sólida para extensión y definiendo los aspectos de la
las interpretaciones propuestas de la partitura. construcción que van a ser representada. La
Son las interpretaciones de los resultados de las descripción detallada proporciona una marco
pruebas para los usos propuestos que son no la conceptual para la prueba, delineando los
prueba en sí misma. Cuando los resultados de las conocimientos, habilidades, habilidades, rasgos,
pruebas son interpretado de más de una manera intereses, los procesos, competencias o
(por ejemplo, tanto para describir el nivel actual características que se han de evaluados.
del atributo del examinando y para hacer una Idealmente, el marco indica cómo el constructo tal
predicción sobre una futuro), cada una de las como está representado debe distinguirse de otras
interpretaciones previstas debe ser validado. construcciones y cómo debería relacionarse con
Declaraciones sobre la validez deben referirse a otras variables.
interpretaciones particulares para Es incorrecto El marco conceptual está parcialmente moldeado
utilizar el no calificado "la validez de la prueba". por la forma en que se utilizarán los resultados de
Pruebas de la validez de una interpretación dada las pruebas. Para de matemáticas podría ser una
de los resultados de las pruebas para un uso prueba de rendimiento matemático ser utilizado
específico es una condición necesaria para el uso para colocar a un estudiante en un programa
justificado de la prueba. existe prueba de validez, apropiado de instrucción, para avalar un diploma
la decisión como a si realmente administrar una de secundaria, o para informar una decisión de
prueba en particular generalmente tiene en cuenta admisión a la universidad. Cada uno de estos
consideraciones adicionales. Estas incluyen usos implican una interpretación algo diferente de
consideraciones de costo-beneficio, enmarcados las puntuaciones de la prueba de logro en
en diferentes subdisciplinas como análisis de matemáticas: que un el estudiante se beneficiará
utilidad o como consideración de las de un programa de instrucción particular
consecuencias negativas de uso de la prueba y intervención, que un estudiante ha dominado un
ponderación de las consecuencias negativas idioma específico plan de estudios, o que es
contra las consecuencias positivas del uso de la probable que un estudiante tenga éxito evidencia
prueba. que podría ser recolectada para evaluar la
interpretación propuesta a la luz de los objetivos
La validación - lógicamente comienza con una
de pruebas. A medida que avanza la validación, y
declaración de la interpretación propuesta del
nuevas pruebas con respecto a las
ensayo junto con una justificación de la pertinencia
interpretaciones que pueden y no pueden de los
de los resultados. la interpretación del uso
resultados de las pruebas está disponible, pueden
propuesto. El La interpretación propuesta incluye
ser necesarias revisiones en la prueba, en el
la especificación de la la construcción de la prueba
proceso conceptual y en el que le da forma, e
está destinada a medir. El se utiliza en las Normas
incluso en la construcción subyacente a la prueba.
para referirse al concepto o la característica de
que un ensayo está diseñado a medida. Rara vez, La gran variedad de pruebas y circunstancias
si es que alguna vez, hay un solo posible lo que hace que sea natural que algunos tipos de
significa que se puede adjuntar a un resultado de evidencia
un examen o a un patrón de respuestas a las ser especialmente crítico en un caso dado,
pruebas. Por lo tanto, siempre es incumbente en mientras que otros tipos serán menos útiles.
los desarrolladores y usuarios de pruebas para Decisiones sobre qué tipos de pruebas son
especificar la interpretación de la construcción que importantes para la validación en cada caso puede
ser aclarado mediante el desarrollo de un conjunto construir una deficiencia) y la variación irrelevante
de proposiciones o reivindicaciones que apoyan la de la construcción (o la contaminación de la
interpretación propuesta para el propósito construcción), respectivamente. La
particular de la prueba. Por ejemplo, cuando se subrepresentación constructiva se refiere a la
utiliza una prueba de rendimiento en matemáticas grado en el que una prueba no capta importantes
para evaluar preparación para un curso avanzado, aspectos de la construcción. Implica un
evidencia para las siguientes proposiciones estrechamiento de la el significado de los
podrían ser relevantes: a) que ciertas aptitudes resultados de la prueba porque la prueba no
son un requisito previo para la adquisición de muestrear adecuadamente algunos tipos de
conocimientos avanzados (b) que el dominio de contenido, participar algunos procesos
contenido de la prueba es consistente con estos psicológicos, u obtener algunas formas de
prerrequisitos c) que los resultados de las pruebas respuesta que se engloban en el ámbito de
pueden generalizarse a través de los conjuntos de aplicación de la construir. Tomemos, por ejemplo,
elementos pertinentes; d) que los resultados de una prueba concebida como medida completa de
las pruebas no están indebidamente influenciados la ansiedad. Un particular la prueba podría
por variables auxiliares, como la capacidad de subrepresentar la construcción prevista porque
escribir; (e) que el éxito en la educación avanzada sólo mide las reacciones fisiológicas y no
el curso puede ser evaluado válidamente; y (f) que componentes emocionales, cognitivos o
los examinandos con puntajes altos en el examen situacionales. Como otro ejemplo, una prueba de
ser más exitoso en el curso avanzado que lectura para medir la comprensión de los niños.
examinandos con bajas calificaciones en el capacidad de leer e interpretar historias con
examen. Ejemplos de proposiciones en otros comprensión podría no contener una variedad
contextos de pruebas podría incluyen, por suficiente de leyendo pasajes o puede ignorar un
ejemplo, la proposición de que la prueba las tipo común de material de lectura.
personas con altas puntuaciones de ansiedad La relevancia de la construcción se refiere al
general experimentan ansiedad significativa en grado de qué resultados de las pruebas se ven
una variedad de entornos, la proposición de que el afectados por procesos que son ajeno a la
puntaje de un niño en un examen de inteligencia finalidad prevista del ensayo. El los resultados de
está fuertemente relacionada con el nivel las pruebas pueden ser sistemáticamente
académico del niño. o la proposición de que un influenciados para en cierta medida por procesos
cierto patrón de puntuaciones en una batería que no forman parte de la construir. En el caso de
neuropsicológica indica un impedimento que es una comprensión de lectura puede incluir material
característico de lesión cerebral. El proceso de muy por encima o por debajo del nivel del agua.
validación evoluciona a medida que estas por debajo del nivel previsto para la prueba, una la
proposiciones se articulan y evidencian se reúne reacción al contenido del ensayo, la familiaridad
para evaluar su solidez. Identificar las con el el tema de los pasajes de lectura del
proposiciones implícitas en una propuesta la examen, o la habilidad de escritura necesaria para
interpretación de las pruebas puede facilitarse componer una respuesta. Dependiendo de la
mediante considerando hipótesis rivales que definición detallada de la construcción,
pueden desafiar la interpretación propuesta. Conocimiento de vocabulario o velocidad de
También es útil para considerar las perspectivas lectura.también podrían ser componentes
de los diferentes interesados de las partes, la irrelevantes. En una prueba diseñada para medir
experiencia existente con pruebas similares y y las la ansiedad, un sesgo de respuesta a la ansiedad
consecuencias esperadas de la crisis económica de uno podría ser considerada una fuente de
mundial. uso propuesto para el ensayo. Un desviación irrelevante para la construcción. En el
hallazgo de consecuencias no deseadas del uso caso con trabajo de nivel universitario. Del mismo
de la prueba también puede dar lugar a que se modo, una prueba de conciencia podría ser usado
considere la posibilidad de hipótesis rivales. para el asesoramiento psicológico -para informar
Hipótesis rivales plausibles a menudo se puede una decisión sobre el empleo, o para el propósito
generar al considerar si un mide menos o más de científico básico de elaborar el construcción de la
la construcción propuesta. Estas consideraciones conciencia. Cada uno de estos los usos
se denominan construir una subrepresentación (o potenciales conforman el marco especificado y la
interpretación propuesta de los resultados de la disminuye la necesidad de pruebas para apoyar
prueba y también puede tener implicaciones para otras partes de la interpretación. Por ejemplo,
el desarrollo de pruebas y evaluación. La cuando se realiza una prueba de empleo para la
validación se puede visualizar como una proceso selección, un fuerte criterio de predicción. relación
de construcción y evaluación de argumentos a en un ambiente de empleo es ordinariamente no
favor y en contra de la interpretación prevista de la es suficiente para justificar el uso de la prueba.
prueba y su relevancia para el uso propuesto. Uno debería considerar también la idoneidad y la
el marco conceptual apunta a los tipos de una significación de la medida criterio, la idoneidad de
prueba de matemáticas, podría incluir una la medida. de los materiales y procedimientos de
dependencia excesiva en habilidades de prueba para la gama completa de solicitantes, y la
comprensión lectora que el idioma inglés los consistencia de la el apoyo a la interpretación
estudiantes pueden estar faltando. En una prueba propuesta a través de grupos. El juicio profesional
diseñada para medir el conocimiento de la ciencia, guía las decisiones con respecto a las formas
la toma de pruebas de interiorización de los específicas de evidencia que pueden mejor apoyo
estereotipos de género sobre las mujeres en las a la interpretación prevista para una uso
ciencias podría ser una fuente de información especificado. Como en todos los esfuerzos
irrelevante para la construcción. varianza. Casi científicos, La calidad de las pruebas es
todas las pruebas dejan fuera elementos que primordial. Unas pocas piezas de evidencia sólida
algunos los usuarios potenciales creen que debe con respecto a una proposición en particular son
ser medido y incluyen algunos elementos que mejores que numerosas piezas de evidencia de
algunos usuarios potenciales La validación implica calidad cuestionable. La determinación de que un
un cuidadoso control de la calidad. atención a la interpretación de prueba dada para un propósito
posibles distorsiones de significado que se derivan específico es
de una representación inadecuada de la y también se basa en el juicio profesional que la
a aspectos de medición, como el formato de la preponderancia de las pruebas disponibles apoya
prueba, las condiciones de administración, o nivel esa interpretación. La calidad y cantidad de
de idioma, que pueda limitar materialmente o pruebas suficiente para llegar a la sentencia chis
calificar la interpretación de las puntuaciones de puede diferir para los usos de la prueba
las pruebas para varias grupos de examinandos.T dependiendo del Una interpretación dada. puede
es decir, el proceso de validación puede dar lugar no estar justificada como consecuencia de una
a revisiones en el ensayo, en el marco conceptual insuficiencia de pruebas en apoyo de la misma o
de la prueba, o ambos. Interpretaciones de la como resultado de una investigación creíble.
prueba revisada, se obtendrían de nuevo pruebas en su contra.
necesitan validación. La validación es responsabilidad conjunta de la
Cuando las proposiciones han sido identificadas, desarrollador de pruebas y el usuario de la
el chat apoyaría la interpretación propuesta de la prueba. es responsable de proporcionar las
prueba se puede proceder con la validación pruebas pertinentes y una justificación en apoyo
obteniendo evidencia empírica, examinando la de cualquier interpretación de las puntuaciones de
literatura relevante, y / o la realización de análisis los exámenes para usos específicos previstos por
lógicos para evaluar cada una de las el promotor. El el usuario de la prueba es
proposiciones. La evidencia empírica puede incluir responsable en última instancia de evaluar las
pruebas locales, producidas en el marco de la los pruebas en el entorno particular en el que se
contextos en los que se utilizará la prueba, y las encuentran las se debe utilizar la prueba. Cuando
pruebas de aplicaciones de pruebas similares en un usuario de prueba propone un interpretación o
otros entornos. Uso de la evidencia existente de uso de las puntuaciones de las pruebas que
pruebas similares y los contextos pueden mejorar difieren de los soportados por el desarrollador de
la calidad de la validez especialmente cuando los la prueba, el responsabilidad de proporcionar
datos para la prueba y la contexto en cuestión son pruebas de validez en el apoyo de esa
limitados. Porque una interpretación para un uso interpretación para el período de tiempo
dado típicamente depende de más de una especificado el uso es responsabilidad del usuario.
proposición, pruebas sólidas en apoyo de una Debería ser señaló que las importantes
parte de la interpretación de ninguna manera contribuciones a la validez la evidencia puede ser
hecha a medida que otros investigadores reportan dada se interpreta en múltiples maneras para
las conclusiones de las investigaciones, el chat múltiples usos, las proposiciones subyacentes a
está relacionado con la significado de los estas interpretaciones para diferentes usos
resultados de la prueba. también es probable que difieran. Se necesita
Fuentes de Evidencia de Validez apoyo para la propuestas que subyacen a cada
interpretación para una uso específico. Pruebas
Las siguientes secciones describen varias fuentes
que apoyan la interpretación de puntajes en una
de evidencia que podría ser utilizada en la
prueba de logro de matemáticas para colocar a los
valuación de la validez de una propuesta de
estudiantes en cursos subsiguientes (por ejemplo
interpretación de la prueba para un uso particular.
pruebas de que la interpretación de la prueba es
Estas fuentes de evidencia pueden iluminar
válida para su para el uso previsto) no permite
diferentes aspectos de la validez, pero no
inferir validez para otros fines (por ejemplo,
representan distintos tipos de validez. La validez
promoción o evaluación del profesorado).
es un concepto unitario. Es el grado en el que
todas las pruebas acumuladas apoya la Evidencia basada en el contenido de la prueba
interpretación prevista de la prueba para el uso Las pruebas de validez importantes pueden
propuesto. Como las normas de 1999, esta obtenerse en un análisis de la relación entre el
edición se refiere a los tipos de pruebas de contenido de una prueba y la estructura a la que
validez, en lugar de distintos tipos de validez. Para se destina El contenido de la prueba se refiere a
enfatizar esta distinción, el tratamiento que no los temas, la redacción, y el formato de los ítems,
sigue la nomenclatura histórica (es decir, el uso de tareas o preguntas en un prueba. La
los términos validez de contenido o predictivo administración y la puntuación también pueden ser
validez). Los desarrolladores de pruebas. a menudo
Como enfatiza la discusión en la sección anterior, trabajan a partir de una especificación del
cada tipo de evidencia presentada a continuación contenido La especificación del contenido describe
no es necesario en todos los entornos. Más bien, cuidadosamente el contenido en detalle, a
se necesita apoyo para cada proposición que menudo con una clasificación de áreas de
subyace en una propuesta interpretación de contenido y tipos de artículos. Evidencia basado
pruebas para un uso específico. que una prueba en el contenido de la prueba puede incluir lógica o
es predictiva de un criterio dado puede ser sin análisis empíricos de la idoneidad con la cual el
pruebas de que las muestras de ensayo un contenido de la prueba representa el dominio de
determinado dominio de contenido. En contraste, contenido y de la relevancia del dominio de
una propuesta que una prueba cubre una muestra contenido para la interpretación propuesta de los
representativa de un currículo en particular puede resultados de las pruebas. Evidencia basado en el
ser apoyado sin pruebas de que la prueba predice contenido también puede provenir de juicios
un criterio determinado. Sin embargo, un conjunto expertos de la relación entre las partes de la y la
más complejo de proposiciones, por ejemplo, que construcción. Por ejemplo, en el desarrollo de una
una prueba muestre un dominio específico y por lo prueba de licenciatura, las principales facetas que
tanto, es predictivo de un criterio que refleja una son relevantes al fin para el que está regulada la
relación de dominio, requerirá evidencia que ocupación y expertos en esa ocupación. se le
apoye tanto partes de este conjunto de puede pedir que asigne ítems de prueba a las
proposiciones. Desarrolladores de pruebas categorías definidas por esas facetas. Estos u
también se espera que demuestren que las otros expertos puede entonces juzgar la
puntuaciones no están indebidamente representatividad de los elegidos conjuntos de
influenciados por factores de construcción artículos. Algunas pruebas se basan en
irrelevantes. (véase cap. I, proyecto de decisión I, observaciones sistemáticas de comportamiento.
apartado a). 3 para el tratamiento detallado de Por ejemplo, una lista de las tareas que
cuestiones relacionadas con la varianza constituyen un dominio de trabajo puede ser
irrelevante de la construcción). En apoyo general y desarrollado a partir de observaciones del
adecuado a las interpretaciones propuestas para comportamiento en un trabajo, junto con juicios de
usos específicos requerirá múltiples fuentes de expertos en la materia. Juicios periciales puede
evidencia. La posición desarrollada anteriormente utilizarse para evaluar la importancia relativa, la
también subraya el hecho de que si una prueba criticidad y/o la frecuencia de las distintas tareas.
Una prueba de muestra de trabajo se puede La evidencia de validación orientada al contenido
construir a partir de una muestreo aleatorio o se encuentra en el corazón del proceso en el
estratificado de las tareas mejor valoradas en ámbito educativo conocido como alineación, que
estas características. La prueba puede entonces implica la evaluación de la correspondencia entre
ser administrada bajo condiciones estandarizadas los estándares de aprendizaje de los estudiantes y
en un fuera del trabajo. La idoneidad de un el contenido de la prueba. Los problemas de
determinado dominio de contenido está muestreo de contenido en el proceso de
relacionado con las inferencias específicas que se alineación incluyen la evaluación de si la prueba
deben hacer de los resultados de las pruebas. Por muestre adecuadamente el contenido del dominio
lo tanto, al considerar una prueba disponible para que se redirección en los estándares del currículo,
un fin distinto del de que fue desarrollado por si las demandas cognitivas de los elementos de
primera vez, es especialmente es importante prueba corresponden -al nivel reflejado en los
evaluar la idoneidad de las dominio de contenido estándares de aprendizaje de los estudiantes (por
original para la nueva propuesta propósito. Por ejemplo, contenido ), y si la prueba evita la
ejemplo, una prueba dada para la investigación inclusión de características irrelevantes para el
propósitos para comparar los logros de los estándar al que está destinado de cada elemento
estudiantes a través de en un dominio dado de ensayo.
también puede cubrir adecuadamente material Evidencia basada en procesos de respuesta
que recibe poca o ninguna atención en el Algunas interpretaciones de construcción implican
currículo. Los responsables de la formulación de más o menos explícitas acerca de las
políticas pueden entonces evaluar el logro del suposiciones cognitivas procesos en los que
estudiante con respecto a ambos contenidos participan las personas que descansan. Teórico y
desatendidos y el contenido abordado. Por otro análisis empíricos de los procesos de respuesta
lado mano, cuando el dominio del estudiante de de los que descansan pueden proporcionar
un plan de estudios impartido es probado con el pruebas relativas a la abeto entre la construcción y
propósito de informar decisiones sobre la naturaleza descarrilada de la actuación o
estudiantes individuales, tales como la promoción respuesta realmente comprometida por los
o la graduación, el marco que elabora un dominio examinandos. Por ejemplo, si se pretende realizar
de contenido se limita apropiadamente a lo que los una prueba para evaluar el razonamiento
estudiantes han tenido la oportunidad de aprender matemático, se vuelve importante para determinar
de si los examinandos están, en hecho, razonamiento
el plan de estudios tal como se imparte. sobre el material dado en su lugar de seguir un
La evidencia sobre el contenido puede ser algoritmo estándar aplicable sólo a los elementos
utilizada, en parte, para abordar cuestiones sobre específicos de la prueba.
las diferencias de significado o interpretación de Evidencia basada en procesos de respuesta en
las puntuaciones de las pruebas a través de los general proviene del análisis de las respuestas
subgrupos pertinentes de examinandos. Es motivo individuales. Interrogar a los examinandos de
de especial preocupación el grado de varios grupos que constituyen la población de
subrepresentación de la construcción o detección de pruebas a la que se pretende llegar
construcion-irrelevante puede dar una ventaja sobre sus estrategias de desempeño o respuestas
injusta o desventaja para uno o más subgrupos de los artículos particulares pueden producir
prueba tomadores. Por ejemplo, en una prueba de evidencia el chat enriquece re definición de un
empleo, el uso de vocabulario más complejo de lo constructo. Mantenimiento de registros char
necesario en el trabajo puede ser una fuente de monitorean el desarrollo de una respuesta a un
información irrelevante para la construcción tarea de escritura, a través de sucesivos
varianza para los estudiantes que están borradores escritos o revisiones controladas
aprendiendo inglés o los ocres. Revisión electrónicamente, por ejemplo, también
cuidadosa del contenido de la construcción y de la proporciona evidencia del proceso.
prueba por un panel diverso de expertos puede Documentación de otros aspectos del rendimiento,
apuntar a fuentes potenciales de dificultad como los movimientos oculares o rimas de
irrelevante ( o facilidad) requieren una mayor respuesta, también pueden ser relevantes para
investigación. algunas construcciones. Inferencias sobre los
procesos involucrados en rendimiento también disponibles para resolver los problemas de interés,
puede ser desarrollado por analizando la relación y el constructo de interés sólo se refiere a si el
entre las partes de la y entre el resto y otras problema se resolvió correctamente.
variables. Es un ejemplo simple, puede haber varios posibles
Las grandes diferencias individuales en el proceso vías para obtener la solución correcta a un
pueden ser reveladoras y puede dar lugar a la problema matemático. Evidencia basada en la
reconsideración de algunas formatos de estructura interna Los análisis de la estructura
descanso. La evidencia de los procesos de interna de una prueba pueden indicar el grado en
respuesta puede contribuir a para responder a que las relaciones entre los elementos y
preguntas sobre las diferencias de significado o componentes de prueba se ajustan a el constructo
interpretación de las puntuaciones de las pruebas sobre el que se basan las interpretaciones
a través de los subgrupos pertinentes de propuestas de los resultados de la prueba se
tomadores de descanso. Estudios de procesos basan. El marco conceptual para una prueba
que incluyen las personas que toman descanso de puede implicar una sola dimensión de
diferentes subgrupos pueden ayudar en comportamiento, o puede plantear varios
determinar hasta qué punto las capacidades componentes que son cada uno de ellos que se
irrelevantes o accesorio a la construcción puede espera que sean homogéneos, pero que también
ser diferencialmente influir en el rendimiento de los son distintos entre sí. Por ejemplo, una medida de
examinandos. malestar en una encuesta de salud podría evaluar
Los estudios de los procesos de respuesta no son tanto la salud física y emocional. las
limitados a la persona que realiza la prueba. Los interrelaciones de los ítems confirman las
asesoramientos a menudo se basan en presunciones del marco sería relevante para la
observadores o jueces para registrar y/o evaluar a validez.
los examinandos prestaciones o productos. En Los tipos específicos de análisis y su
tales casos, se debe tener en cuenta La evidencia interpretación depende de cómo se utilice la
de la validez incluye el grado en que la los prueba. Por ejemplo, si una aplicación en
procesos de los observadores o de los jueces son particular postuló una de componentes de prueba
coherentes con la interpretación de las partituras. cada vez más difíciles, pruebas empíricas de la
Por ejemplo, si se espera que los jueces apliquen medida en que la respuesta los patrones
determinadas en la puntuación de la actuación de conformes a esta expectativa serían Una teoría
los descansados, es importante para determinar si que postulaba la unidimensionalidad de la
son, de hecho, aplicando los criterios adecuados y homogeneidad del artículo. En este caso, el
no siendo influenciados por factores que son número de ítems y el ítem interrela- de los
irrelevantes para el objetivo que se persigue resultados de la evaluación de los resultados.
interpretación (por ejemplo, calidad de la escritura) fiabilidad, pero un índice de este tipo sería
es irrelevante para juzgar el contenido de un inapropiado para ensayos con una estructura
documento escrito. ensayo). Por lo tanto, la interna más compleja.
validación puede incluir pruebas empíricas Algunos estudios de la estructura interna de los
estudios sobre la forma en que los observadores o ensayos están diseñados para mostrar si
los jueces registran y evaluar los datos junto con determinados artículos pueden funcionar de forma
el análisis de la idoneidad de estos procesos a la diferente para subgrupos identificables de
interpretación prevista o construir la definición. examinandos (por ejemplo, subgrupos
Si bien las pruebas sobre los procesos de raciales/étnicos o de género). El funcionamiento
respuesta pueden ser central en entornos en los del elemento de diferencias se produce cuando
que las afirmaciones explícitas sobre los procesos diferentes grupos de examinandos con un total
de respuesta son realizados por desarrolladores similar capacidad, o un estado similar según un
de pruebas o donde las inferencias sobre las criterio apropiado, tienen, en promedio, respuestas
respuestas se hacen por medio de pruebas sistemáticamente diferentes a un artículo en
usuarios, hay muchos otros casos en los que las particular. Este tema se discute en capítulo 3. Sin
reclamaciones sobre los procesos de respuesta no embargo, el funcionamiento de la posición de
forman parte de la argumento de validez. En diferencias no siempre es un defecto o una
algunos casos, la respuesta múltiple están debilidad. Subconjuntos de artículos que tienen
una característica específica en común (por afirmaciones explícitas sobre procesos de
ejemplo, contenido específico, representación de respuesta.
tareas) puede funcionan de manera diferente para Evidencia convergente y discriminante.
diferentes grupos de personas de manera similar Relaciones entre los resultados de las pruebas y
que califica a los examinandos. Esto indica una otras medidas destinados a evaluar
especie de multidimensionalidad. que puede ser construcciones idénticas o similares proporcionar
inesperado o puede se ajustan al marco de evidencia convergente, mientras que las
pruebas. relaciones entre los resultados de las pruebas y
Evidencia basada en relaciones con otras las medidas supuestamente de diferentes
variables En muchos casos, la interpretación construcciones proporcionan evidencia
prevista para una de un uso determinado implica discriminante. Por ejemplo, dentro de algunos
que la construcción debe ser relacionados con marcos teóricos, calificaciones en una prueba de
otras variables y, como resultado, análisis de la comprensión de lectura de opción múltiple podría
relación entre las puntuaciones de las pruebas y la esperarse que se relacionen estrechamente
variables externas a la prueba proporcionan otra (evidencia convergente) a otras medidas de
importante fuente de validez de las pruebas. lectura comprensión basada en otros métodos,
Externo las variables pueden incluir medidas de tales como respuestas de ensayos. Por el
algunos criterios que se espera que la prueba contrario, los resultados de las pruebas pueden
prediga, así como las relaciones a otras pruebas ser se espera que se relacionen menos
hipotéticas para medir las mismas construcciones, estrechamente ("pruebas discriminatorias: lo") a
y las pruebas que miden las o diferentes medidas de otras habilidades, como el
construcciones. Medidas distintas del ensayo razonamiento lógico. Relaciones entre los
como los criterios de rendimiento, son a menudo diferentes métodos de medición la construcción
utilizado en entornos laborales. Variables puede ser especialmente útil en afinar y elaborar
categóricas, incluyendo las variables de el significado de la puntuación y interpretación.
pertenencia a un grupo, se convierten en relevante La evidencia de relaciones con otras variables
cuando la teoría que subyace a una propuesta el puede involucran evidencia tanto experimental
uso de pruebas sugiere que las diferencias de como correlacionar. Los estudios podrían estar
grupo deben ser presente o ausente si se propone diseñados, por ejemplo, para investigar si las
una interpretación de los resultados del examen puntuaciones en una medida de ansiedad mejorar
debe ser apoyada. Evidencia basada en como resultado de algún tratamiento psicológico o
relaciones con otras variables proporciona si las puntuaciones en una prueba de rendimiento
evidencia sobre el grado en que estas relaciones académico diferenciar entre instruidos y no
son que sea consistente con el constructo que instruidos grupos. Si el rendimiento aumenta
subyace a la propuesta interpretaciones de los debido al corto plazo son vistos como una
resultados de los exámenes. amenaza a la validez del adiestramiento sería útil
Evidencia convergente y discriminante. para investigar si los entrenadores y los grupos no
Relaciones entre los resultados de las pruebas y entrenados se comportan de manera diferente.
otras medidas importantes para determinar si son, Relaciones de criterio de prueba. Evidencia de la
de hecho, aplicando los criterios adecuados y no relación entre los resultados de las pruebas y un
siendo influenciados por factores que son criterio pertinente puede ser se exprese de varias
irrelevantes para el objetivo que se persigue maneras, pero el fundamental la pregunta es
interpretación (por ejemplo, calidad de la escritura) siempre, con qué precisión se obtienen los
es irrelevante para juzgar el contenido de un resultados de las pruebas predecir el rendimiento
documento escrito. Ensayo). Por lo tanto, la del criterio? El grado de precisión y el rango de
validación puede incluir pruebas empíricas puntuación dentro del cual la precisión depende
estudios sobre la forma en que los observadores o de la finalidad para la que se necesita. se utiliza la
los jueces registran y evaluar los datos junto con prueba.
el análisis de la idoneidad de estos procesos a la La variable criterio es una medida de algún
interpretación prevista o construir la definición. Si atributo o un resultado que sea operativamente
bien las pruebas sobre los procesos de respuesta distinto de la prueba. por lo tanto, la prueba no es
pueden ser central en entornos en los que las una medida de una sino que es una medida
hipotética como un predictor potencial de ese la validez del procedimiento de clasificación es
criterio. Si una prueba predice un criterio dado en proporcionado por que demuestre que la prueba
una el contexto dado es una hipótesis es útil para determinar qué personas pueden
comprobable. que son de interés son beneficiarse de forma diferente de un tratamiento
determinados por los usuarios de la prueba, por u otro. Es posible para pruebas para ser altamente
ejemplo, administradores en un sistema escolar o predictivas del rendimiento para diferentes
gerentes de una empresa. La elección del criterio programas de educación o trabajos sin
y los procedimientos de medición utilizados para proporcionar la información necesaria para hacer
obtener Las puntuaciones de los criterios son de una comparación juicio de la eficacia de las
importancia central. En la credibilidad de un asignaciones o tratamientos.
estudio de criterios de prueba depende de la En general, las reglas de decisión para la
pertinencia, fiabilidad y validez de la interpretación selección o la colocación también están
basado en el criterio de la medida para una influenciados por el número de personas a ser
aplicación de prueba dada. Históricamente, dos aceptadas o los números que pueden ser
diseños, a menudo llamados predictivos y acomodados en categorías de colocación
concurrentes, se han distinguido por evaluar alternativa (véase el capítulo 11). La evidencia
relaciones de criterio de prueba. Un predictivo el sobre las relaciones con otras variables es
estudio indica la fuerza de la relación entre las también se utiliza para investigar cuestiones de
puntuaciones de las pruebas y las puntuaciones diferencial predicción para subgrupos. Por
de los criterios que son obtenidos posteriormente. ejemplo, un hallazgo que la relación entre los
Un estudio simultáneo obtiene los resultados de resultados de las pruebas y un criterio pertinente
las pruebas y la información de los criterios en difiere de un subgrupo a otro puede implicar que
más o menos al mismo tiempo. Cuando la el significado de las puntuaciones no es lo mismo
predicción es en realidad como en el caso de la para los miembros de los diferentes grupos, tal
admisión académica o el empleo o en la vez debido a la construcción de la
planificación de la rehabilitación regímenes, los subrepresentación o fuentes de varianza
estudios predictivos pueden retener el tiempo irrelevantes para la construcción. Sin embargo, la
diferencias y otras características de la práctica C diferencia también puede implicar que el criterio
pruebas actuales, que evitan la pérdida de tiempo. tiene un significado diferente para los diferentes
Cambios, es particularmente útil para el grupos. El las diferencias en las relaciones de
psicodiagnóstico pruebas o en la investigación de criterio de prueba también pueden se derivan de
medidas alternativas de alguna construcción un error de medición, especialmente cuando grupo
especificada para la que se ha aceptado un El significa diferente, por lo que tales diferencias no
procedimiento de medición ya existe. de una necesariamente indican diferencias en el
estrategia de investigación predictiva o significado de la puntuación.
concurrente en un dominio determinado también
Ver la discusión sobre la justicia en el capítulo 3
se informa de forma útil mediante evidencia de
para una consideración más amplia de los
investigación con respecto a la medida en que
posibles cursos de acción cuando las
estudios predictivos y concurrentes en ese campo
puntuaciones tienen diferentes significados para
producen los mismos o diferentes resultados. Los
diferentes grupos.
resultados de las pruebas a veces se utilizan para
asignar individuos a diferentes tratamientos de Generalización de la validez.
una manera que es ventajoso para la institución Una cuestión importante en educativo y de
y/o para los individuos. Algunos ejemplos serían la empleo es el grado a la cual la evidencia de
asignación de a diferentes puestos de trabajo validez basada en el criterio de reposo las
dentro de una organización, o determinar si relaciones pueden generalizarse a una nueva
colocar a un determinado estudiante en una clase situación sin más estudios de validez en esa
de recuperación o en una clase normal. En ese nueva situación. Cuando se utiliza una prueba
contexto, se necesitan pruebas para juzgar la para predecir lo mismo o criterios similares (por
idoneidad de utilizar una prueba al clasificar o ejemplo, el desempeño de un trabajo
asignar un de una persona a un trabajo versus determinado) en diferentes momentos o en
otro o a uno tratamiento contra otro. Soporte para diferentes lugares. típicamente se encontró que
las correlaciones observadas entre los criterios de suficientes para apoyar o rechazar el uso de
prueba varían sustancialmente. En el pasado, pruebas en una nueva situación.
esto ha sido se ha interpretado como que los Esto pone de relieve la importancia de examinar
estudios de validación focal son siempre cuidadosamente el valor informativo comparativo
obligatorios. Más recientemente, una variedad de de estudios locales versus metaanalíticos. En la
los enfoques para generalizar la evidencia de realización de estudios de la generalizabilidad de
otras se han desarrollado escenarios, con meta- evidencia de validez, los estudios previos que se
análisis el más utilizado en la literatura publicada. incluyen puede variar de acuerdo a varias
En particular, los meta-análisis han demostrado situaciones facetas. Algunas de las principales
que en algunos ámbitos, gran parte de esta facetas son: a) las diferencias en la forma en que
variabilidad puede ser debido a artefactos se mide la construcción del predictor, b) el tipo de
estadísticos como las fluctuaciones del muestreo y trabajo o plan de estudios que se trate tipo de
variaciones entre los estudios de validación en los criterio de medición utilizado, d) el tipo de prueba
rangos de los resultados de las pruebas y en la e) el período de tiempo en el que se realizó el
fiabilidad de criterio mide. Cuando estas y otras estudio se llevó a cabo. En cualquier estudio
influencias se tienen en cuenta, puede constatarse particular de validez generalización, cualquier
que la la variabilidad restante en los coeficientes número de estas facetas podría varían, y uno de
de validez es relativamente pequeño. Por lo tanto, los principales objetivos del estudio es determinar
los resúmenes estadísticos del pasado los empíricamente la medida en que la variación en
estudios de validación en situaciones similares estas facetas afecta a las correlaciones criterio de
pueden ser útil para estimar las relaciones prueba obtenido. El grado en el que los factores
test/criterio en Esta práctica se conoce como la predictivos o concurrentes las pruebas de validez
estudio de generalización de validez. En algunas pueden generalizarse a nuevas situaciones es en
circunstancias, hay una fuerte para utilizar la gran medida una función de la acumulación de
generalización de validez. Este sería el caso investigación. Aunque la evidencia de
cuando los datos meta-analíticos- la base de datos generalización a menudo puede ayudar a apoyar
es grande, donde los datos meta-analíticos una reclamación de validez en una nueva
adecuadamente representan el tipo de situación a situación, el grado de disponibilidad. los datos
la cual se desea generalizar, y donde la corrección limitan el grado en que la reclamación puede ser
para los artefactos estadísticos produce una clara sostenida. La discusión anterior se centra en el
y consistente patrón de validez de las pruebas. uso de bases de datos acumulativas para estimar
En tales circunstancias, el valor informativo de un el criterio de predicción relaciones. Las técnicas
local el estudio de validez puede ser relativamente meta-analíticas también pueden se utilizará para
limitado, si no lo es realmente engañoso, integrar otras formas de datos relevantes a otras
especialmente si el tamaño de la muestra es inferencias que uno pueda desear extraer de los
pequeño. En otras circunstancias, el riesgo resultados de las pruebas en una aplicación en
potencial el salto requerido para la generalización particular, como por ejemplo efectos del coaching
puede ser mucho La base de datos meta-analítica y efectos de ciertas alteraciones en las
puede ser pequeña, los hallazgos pueden ser condiciones de ensayo para los examinandos con
menos consistentes, o el nuevo la situación puede discapacidades. Recopilación de pruebas sobre lo
implicar características marcadamente diferentes bien que funciona los resultados de la validez
de los representados en el meta-analítico base de pueden generalizarse en todos los grupos de los
datos. En tales circunstancias, la situación examinandos es una parte importante de la
específica las pruebas de validez serán validación Cuando la evidencia sugiere que las
relativamente más informativas. Una investigación inferencias de las puntuaciones de las pruebas se
sobre la generalización de la validez muestra que pueden dibujar para algunos subgrupos pero no
los resultados de una validación local única el para otros, buscando opciones como las
estudio puede ser bastante impreciso, hay siguientes discutido en el capítulo 3 puede reducir
situaciones donde un solo estudio, el riesgo de uso injusto de la prueba.
cuidadosamente realizado, con la adecuada
Evidencia de Validez y Consecuencias de las
tamaño de la muestra, proporciona pruebas
pruebas
Algunas consecuencias del uso de la prueba son algunos casos, acciones para hacer frente a una
las siguientes de la interpretación de los de las consecuencias otras consecuencias. Un
resultados de las pruebas para los usos previstos ejemplo de ello es el la noción de "oportunidades
por el desarrollador de la prueba. La validación perdidas", como en el caso de la pasar a la
implica la recopilación de pruebas para evaluar la calificación computarizada de los ensayos de los
solidez de las interpretaciones propuestas para los estudiantes para aumentar la consistencia de la
usos a los que están destinados. Otras clasificación, renunciando así a la beneficios
consecuencias también pueden formar parte de un educativos de abordar el mismo problema
que se extiende más allá de la interpretación o de capacitando a los maestros para que califiquen de
la el uso de las escobillas previstas por el manera más consistente. Este tipo de
desarrollador de la prueba. Para por ejemplo, una consideración de las consecuencias de las
prueba de rendimiento estudiantil podría pruebas se discuten más adelante.
proporcionar datos para un sistema destinado a Interpretación y uso de las puntuaciones de las
identificar y mejorar las escuelas de bajo pruebas previstas por desarrolladores de
rendimiento. La afirmación pruebas.
que los resultados de las pruebas, utilizados de Las pruebas son comúnmente regido con la
esta manera, darán como resultado la mejora del esperanza de que se obtenga algún beneficio de
aprendizaje de los estudiantes puede basarse en la interpretación y utilización de las partituras
proposiciones sobre el sistema o la intervención previstas por los desarrolladores de pruebas.
en sí, más allá de proposiciones basadas en el Algunos de los muchos posibles los beneficios que
significado de la prueba en sí mismo. Las pueden ser reclamados son la selección de los
consecuencias pueden indicar la necesidad de terapias, la colocación de los trabajadores en un
evidencia sobre los componentes del sistema que lugar adecuado trabajo, la prevención de personas
va más allá de la interpretación de los resultados no cualificadas de entrar en una profesión, o la
de las pruebas como una medida válida de los mejora de la clase prácticas de instrucción. Un
logros de los estudiantes. Y otras consecuencias propósito fundamental de La validación debe
son imprevistas, y son a menudo negativos. Por indicar si se trata de. Por lo tanto, en el caso de
ejemplo, el distrito escolar o pruebas educativas una prueba utilizada en las decisiones de
en todo el estado sobre temas seleccionados colocación, la validación se basaría en pruebas de
puede llevar a los profesores a centrarse en esas que la alternativa las colocaciones, de hecho, son
materias en a expensas de los demás. Como otro diferencialmente beneficiosas para las personas y
ejemplo, una prueba desarrollado para medir el la institución. En el caso del empleo si un editor de
conocimiento necesario para una de un trabajo pruebas afirma que usa de la prueba resultará en
dado puede resultar en menores tasas de una reducción de la formación de los empleados
aprobación para un grupo que para otro. costes, mejora de la eficiencia de la mano de obra,
Consecuencias imprevistas merecen un examen o algún otro tipo de beneficio, entonces la
minucioso. Aunque no todas las consecuencias en validación sería informada por evidencia en apoyo
algunos casos, se pueden anticipar factores tales de esa proposición.
como experiencias previas en otros ámbitos
Es importante tener en cuenta que la validez de la
ofrecen una base para Anticipar y tratar
prueba las interpretaciones de las partituras
proactivamente las situaciones no deseadas.
dependen no sólo de los usos
Consecuencias. Ver capítulo 12 para ejemplos
adicionales de los entornos educativos. En
NORMAS DE VALIDEZ grupos temáticos etiquetados de la siguiente
Las normas de este capítulo empiezan con un manera:
enfoque global estándar (numerada con 1.0), que 1. Establecimiento de los usos e interpretaciones
está diseñada para para transmitir la intención previstos
central o el enfoque primario del capítulo. La 2. Problemas relacionados con las muestras y los
norma general puede también como el principio ajustes utilizadosen Validación
rector del capítulo, y es aplicable a todas las
3. Formas Específicas de Evidencia de Validez
pruebas y a todos los usuarios de pruebas. Todos
las normas subsiguientes se han separado en tres
Estándar 1.0 No hay ningún tipo de evidencia intrínsecamente
Articulación clara de cada una de las preferible a otros; más bien, la calidad y relevancia
interpretaciones de los resultados del examen de la evidencia para la prueba prevista
para un uso específico, interpretación de la puntuación para un uso
determinado determinar la
y pruebas de validez apropiadas en apoyo de
cada interpretación prevista debe ser valor de un tipo particular de evidencia. de
proporcionada. evidencia empírica sobre cualquier punto debería
dar a todos los hallazgos relevantes en la
Cluster 1 . Esta blishing Intentado Usos e
investigación científica. literatura, incluyendo
Interrupciones
aquellas que son inconsistentes con la
Estándar 1 . 1 interpretación o uso previsto. Desarrolladores de
El desarrollador de la prueba debe establecer pruebas tienen la responsabilidad de proporcionar
claramente cómo los resultados de los exámenes apoyo para sus propias recomendaciones, pero
están destinados a ser interpretados y por lo tanto, los usuarios de prueba tienen la responsabilidad
se utiliza. La(s) población(es) para la(s) cual(es) la última de evaluar la calidad de las pruebas de
prueba que se pretende realizar debe estar validez aportadas y su pertinencia a la situación
claramente delimitada, y la construcción o local.
construcciones que la prueba es que se pretende Estándar 1.3
evaluar debe describirse claramente. Comentario:
Si la validez para alguna interpretación común o
Las declaraciones sobre la validez deben referirse
probable para un uso determinado no ha sido
a a interpretaciones particulares y usos
evaluado, o si dicho uso una interpretación es
consecuentes. Es incorrecto usar la frase sin
inconsistente con la disponible de la evidencia,
calificar "en la validez de la prueba." Ninguna
este hecho debe ser dejado claro y potencial los
prueba permite interpretaciones que son válidos
usuarios deben ser fuertemente advertidos acerca
para todos los propósitos o en todas las
de haciendo interpretaciones sin fundamento.
situaciones. Cada interpretación recomendada
Comentario: Si la experiencia pasada sugiere que
para un uso determinado requiere validación. El
una prueba es probable que se utilice de forma
desarrollador de la prueba debe especificar en un
inapropiada para ciertos fines.
lenguaje claro la población para la cual el ensayo
está previsto, la construcción que se pretende CAPÍTULO 1 tipos de decisiones o ciertos tipos de
conseguir los contextos en los que las examinandos, advertencias específicas contra
puntuaciones de las pruebas deben y los procesos tales usos deben ser dado. Se requiere juicio
mediante los cuales se llevará a cabo la prueba. profesional para evaluar el grado en que las
Debe ser administrada y puntuada. pruebas de validez existentes apoyanun uso de
prueba dado.
Estándar 1.2
Estándar 1.4
Se debe presentar un razonamiento para cada
uno de los proyectos. Interpretación de los Si se interpreta la puntuación de un examen para
resultados de las pruebas para un uso un uso determinado en una manera que no ha
determinado, junto con un resumen de las pruebas sido validada, es incumbente al usuario para que
y que se refiere a la interpretación que se justifique la nueva interpretación para que utilizan,
pretende dar. Comentario: La justificación debe proporcionando una base lógica y recogiendo
indicar lo que son necesarias para investigar las nuevas pruebas, si es necesario. Comentario: Se
interpretación prevista. El resumen debería requiere el juicio profesional para evaluar en qué
combinar el análisis lógico con la evidencia medida las pruebas de validez existentes se aplica
empírica para apoyar la lógica de la prueba. en la nueva situación o a la nueva grupo de
Evidencia puede provenir de estudios realizados examinandos y para determinar las nuevas puede
localmente, en la donde se va a utilizar la prueba; ser necesaria. La cantidad y tipo de evidencia de
de los valores específicos de de estudios previos; nueva evidencia requerida puede estar
o de estudios estadísticos exhaustivos síntesis de influenciada por experiencia con usos o
los estudios disponibles que se reúnen claramente interpretaciones de pruebas anteriores similares y
especificadas criterios de calidad de los estudios. por la cantidad, calidad y relevancia de los datos
existentes. Un examen que ha sido alterado o
administrado en formas que cambian la dichas alegaciones estén justificadas para un
construcción que subyace a la La prueba para el programa de pruebas, se convierten en parte del
uso con subgrupos de la población requiere la argumento para su uso en pruebas. Pruebas de
prueba de la validez de la interpretación de la tales afirmaciones debe examinarse junto con las
prueba modificada (véase el cap. I, proyecto de pruebas sobre la validez de la interpretación
decisión I, apartado a)). 3). Por ejemplo, si una prevista de los resultados de los exámenes y
prueba se adapta para su uso con individuos con evidencia sobre negativos no deseados
una discapacidad particular de una manera que consecuencias del uso de la prueba-en la
cambia el constructo subyacente, el modificado realización de un análisis general decisión sobre el
debe tener su propia evidencia de validez para la uso de la prueba. El peso debido debe ser a la
interpretación prevista. evidencia en contra de tales predicciones, por
Estándar 1.5 ejemplo, evidencia de que bajo ciertas condiciones
la educación puede tener un efecto negativo sobre
Cuando se afirma o se implica claramente que una
instrucción en el aula.
recomendación interpretación de los resultados de
la prueba para una el uso resultará en un Estándar 1.7
resultado específico, la base para esperar que el Si el rendimiento de la prueba, o una decisión
resultado sea prestablecido Comentario: tomada a partir de ahí, no se ve afectado en lo
Materiales para ayudar en la interpretación de la esencial por la práctica y el coaching, entonces la
puntuación debe resumir la evidencia que indica el propensión al rendimiento de la prueba para
grado de a la que mejora con la práctica o cambiar con estas formas de instrucción debe ser
Entrenamiento. es de esperar. Además, los documentada.
materiales escritos para el examen los interesados Cluster 2 . Cuestiones relativas a los servicios
deben proporcionar orientación práctica sobre el sanitariosy parametrizaciones utilizadas en la
valor de las actividades de preparación de validación
exámenes, incluyendo Entrenamiento. así como
Estándar 1.8
datos empíricos. Peso apropiadose deben tener
en cuenta los resultados de la investigación La composición de cualquier muestra de
científica. literatura que puede ser inconsistente examinandos de la que se obtienen pruebas de
con la declarada expectativa. validez deben se describirán con el mayor detalle
posible y en la medida de lo posible de la
Estándar 1 . 6
información, incluidos los principales datos
Cuando se recomienda el uso de una prueba en el sociodemográficos pertinentes y características de
terreno que las pruebas o el programa de pruebas desarrollo.
en sí mismo de un beneficio indirecto, además de
Comentario: Los resultados estadísticos pueden
los siguientes la utilidad de la información
ser influenciados por factores que afecten a la
procedente de la interpretación de los resultados
muestra en la que el Cuando la muestra tiene por
de las pruebas en sí mismos, el recomendante
objeto representan una población, esa población
debe explicitar los motivos de la anticipación el
debería y se debe prestar atención a lo siguiente
beneficio indirecto. Argumentos lógicos o teóricos
los factores sistemáticos que puedan limitar la
y evidencia empírica para la investigación indirecta
representatividad de la muestra. Factores que
se debe proporcionar un beneficio. Peso
podrían que se espere razonablemente que afecte
apropiado a cualquier hallazgo contradictorio que
los resultados incluyen autoselección, desgaste,
se produzca en la literatura científica, incluyendo
capacidad lingüística, discapacidad estatus,
los hallazgos que sugieren resultados indirectos
criterios de exclusión, entre otros. Si los
importantes que no sean los pronosticados.
participantes en un estudio de validez son
Comentario: Por ejemplo, ciertos descansos pacientes, por ejemplo, entonces los diagnósticos
educativos los programas han sido defendidos de los pacientes son importantes, así como otras
sobre la base de que que tendrían una influencia características, como la gravedad de las
saludable en el aula prácticas de instrucción o que condiciones diagnosticadas. En el caso de las
clarificarían las prácticas de los estudiantes la pruebas utilizadas en el entorno laboral, el empleo
comprensión del tipo o nivel de de los logros que (por ejemplo, los solicitantes frente a los actuales
se esperaba que alcanzaran. en la medida en que de los trabajadores), el nivel general de
experiencia y de educación, y el género y la normas de puntuación interpretación (por ejemplo,
igualdad de género. la composición étnica de la en el ajuste de las puntuaciones de corte), o en la
muestra puede ser pertinente información. Para prueba almacenamiento (por ejemplo, clasificación
las pruebas utilizadas en la credencialización, el de las respuestas de los ensayos). Siempre que
estado de las personas que proporcionan de los procedimientos empleados, la calidad de
información (por ejemplo, los candidatos para una los servicios Los juicios resultantes son
credencial contra una ya acreditada de los importantes para la validación. El nivel de acuerdo
individuos) es importante para la interpretación de debe especificarse claramente (p. ej, si el acuerdo
los resultados. datos. Para pruebas utilizadas en porcentual se refiere a un acuerdo antes o
entornos educativos, la información pertinente después de una discusión de consenso, y si el
puede incluir información educativa antecedentes, criterio para el acuerdo es el acuerdo exacto de o
nivel de desarrollo, características de la un acuerdo dentro de un cierto número de escala
comunidad o políticas de admisión a la escuela, de puntos.) La base para especificar ciertos tipos
como por ejemplo así como el género y la de individuos (por ejemplo, profesores
composición étnica de la población. muestra. A experimentados, profesores con experiencia los
veces las restricciones legales sobre la privacidad titulares de los puestos de trabajo y los
impedir la obtención o divulgación de dicha supervisores), según proceda. para el juicio o la
población información o limitar el nivel de tarea de calificación debe ser articulada. Puede
particularidad a qué datos pueden ser divulgados. ser totalmente apropiado que los expertos trabajen
El sistema de leyes de privacidad, si las hubiera, juntos para llegar a un consenso, pero no lo
que rigen el tipo de datos con el fin de garantizar lograría ser apropiados para tratar sus respectivas
que cualquier descripción de una población no sentencias como estadísticamente independiente.
tiene el potencial para identificar a un individuo de Los diferentes jueces pueden
una manera inconsistente con tales estándares. El ser usado para diferentes propósitos (por ejemplo,
alcance de los datos que faltan, si los hubiere, y un juego puede clasifican los artículos por su
los métodos de tratamiento datos faltantes (por sensibilidad cultural, mientras que otro para el
ejemplo, uso de procedimientos de imputación) nivel de lectura) o para diferentes porciones. de
debe ser descrita. una prueba.
Estándar 1 . 9 Estándar 1 . 1 O
Cuando una validación se basa en parte en los Cuando la evidencia de validez incluye análisis
dictámenes o decisiones de jueces expertos, estadísticos de los resultados de las pruebas,
observadores o calificadores, los procedimientos solos o junto con los datos en otras variables, las
para la selección de dichos expertos y para la la condiciones en las que los datos recopilados
obtención de sentencias o calificaciones debe ser deben describirse en suficiente detalle para que
completa descrito. Las calificaciones y experiencia los usuarios puedan juzgar la relevancia de los
de los jueces deben ser presentados. La resultados estadísticos a las condiciones locales.
descripción de los procedimientos debe incluir Atención deben ser atraídos a cualquier
cualquier tipo de capacitación y las instrucciones característica de una validación recopilación de
proporcionadas deben indicar si los participantes datos que pueden diferir de las pruebas de
tomaron sus decisiones de forma independiente; y funcionamiento típicas condiciones y que podría
debe informar el nivel de acuerdo alcanzado. Si influir de forma plausible en el rendimiento de las
los participantes interactuaran entre sí o pruebas.
intercambiado información, los procedimientos a
Comentario: Tales condiciones podrían incluir
través de que pueden haberse influenciado
(pero no se limitaría a) lo siguiente: persona que
mutuamente deben ser expuestos.
realiza la prueba la motivación o la preparación
Comentario: Recopilación sistemática de previa, la gama de pruebas resultados por encima
sentencias o las opiniones pueden darse en de los de los examinandos, el tiempo permitido
muchos puntos de la construcción del ensayo (por para el examen a los demandantes para que
ejemplo, obtener juicios de expertos sobre el respondan u otras condiciones administrativas, el
contenido adecuación o representación adecuada modo de administración de la prueba (por ejemplo,
del contenido), en la formulación de reglas o no reproducido) pruebas en línea frente a las
pruebas in situ supervisadas), formación del examinador u otras características del
examinador, los intervalos de tiempo que separan concordancia del contenido de la prueba con el
la recogida de datos sobre diferentes medidas, o objetivo en términos de complejidad cognoscitiva y
condiciones que pueden tener cambiado desde de la accesibilidad del contenido de la prueba a
que se obtuvo la prueba de validez. todos los miembros de la población destinataria
Cluster 3 . Formas específicas de son también consideraciones importantes.

Evidencia de Validez ( b) Evidence Regard ing Cognitive

( a) Evolución orientada al contenido Procesos

Estándar 1 . 1 1 1 Estándar 1 . 1 2

Cuando la justificación para la interpretación de Si la justificación de la interpretación de la


los resultados de la prueba para un uso dado se puntuación para una determinada el uso depende
basa en parte en la idoneidad del contenido de la de las premisas sobre el estado psicológico
prueba, los procedimientos seguidos en la procesos u operaciones cognitivas de los
especificación. a descripción del contenido de las examinandos, entonces la evidencia teórica o
pruebas y de su generación y justificado con empírica en apoyo de esos locales. Cuando los
referencia a la intención población a ser probada y extractos sobre los procesos empleados por los
la construcción de la está destinado a medir o el observadores o los calificadores son parte del
dominio en el que se encuentra que se pretendía argumento a favor de la validez, debe
representar. Si la definición de la el contenido de proporcionarse información similar.
la muestra incorpora criterios tales como Comentario: Si la especificación de la prueba
importancia, frecuencia o criticidad, estos criterios delinea la procesos a ser evaluados, entonces se
también deben ser claramente explicados y necesita evidencia que los elementos de prueba,
justificados. de hecho, golpean con el botón procesos.{c)
Comentario: Por ejemplo, los desarrolladores de Evolución de la estructura interna
pruebas pueden proporcionan una estructura Estándar 1 . 1 3
lógica que mapea los ítems sobre la prueba para Si la justificación de la interpretación de los
el dominio de contenido, ilustrando la la resultados de un examen para un uso
pertinencia de cada elemento y la idoneidad con determinado depende de las premisas sobre la
que el conjunto de elementos representa el relación
dominio de contenido. Áreas del dominio de
contenido que no son incluidos entre los ítems de
la prueba podrían ser indicadas también. La

También podría gustarte