VALIDEZ se hará en la base de la puntuación o patrón de
ANTECEDENTES respuesta.
La validez se refiere al grado en que las pruebas y Ejemplos de construcciones utilizadas
la teoría apoyan las interpretaciones de la prueba actualmente en la evaluación incluyen el logro de puntajes para los usos propuestos de las pruebas. las matemáticas, las matemáticas en general La validez es, por lo tanto, la consideración más habilidad cognitiva, actitudes de identidad racial, fundamental en desarrollo de pruebas y depresión, y autoestima. Apoyar el desarrollo de evaluación de pruebas. de validación implica la pruebas, se elabora la interpretación del acumulación de información relevante pruebas constructo propuesto describiendo su alcance y que proporcionen una base científica sólida para extensión y definiendo los aspectos de la las interpretaciones propuestas de la partitura. construcción que van a ser representada. La Son las interpretaciones de los resultados de las descripción detallada proporciona una marco pruebas para los usos propuestos que son no la conceptual para la prueba, delineando los prueba en sí misma. Cuando los resultados de las conocimientos, habilidades, habilidades, rasgos, pruebas son interpretado de más de una manera intereses, los procesos, competencias o (por ejemplo, tanto para describir el nivel actual características que se han de evaluados. del atributo del examinando y para hacer una Idealmente, el marco indica cómo el constructo tal predicción sobre una futuro), cada una de las como está representado debe distinguirse de otras interpretaciones previstas debe ser validado. construcciones y cómo debería relacionarse con Declaraciones sobre la validez deben referirse a otras variables. interpretaciones particulares para Es incorrecto El marco conceptual está parcialmente moldeado utilizar el no calificado "la validez de la prueba". por la forma en que se utilizarán los resultados de Pruebas de la validez de una interpretación dada las pruebas. Para de matemáticas podría ser una de los resultados de las pruebas para un uso prueba de rendimiento matemático ser utilizado específico es una condición necesaria para el uso para colocar a un estudiante en un programa justificado de la prueba. existe prueba de validez, apropiado de instrucción, para avalar un diploma la decisión como a si realmente administrar una de secundaria, o para informar una decisión de prueba en particular generalmente tiene en cuenta admisión a la universidad. Cada uno de estos consideraciones adicionales. Estas incluyen usos implican una interpretación algo diferente de consideraciones de costo-beneficio, enmarcados las puntuaciones de la prueba de logro en en diferentes subdisciplinas como análisis de matemáticas: que un el estudiante se beneficiará utilidad o como consideración de las de un programa de instrucción particular consecuencias negativas de uso de la prueba y intervención, que un estudiante ha dominado un ponderación de las consecuencias negativas idioma específico plan de estudios, o que es contra las consecuencias positivas del uso de la probable que un estudiante tenga éxito evidencia prueba. que podría ser recolectada para evaluar la interpretación propuesta a la luz de los objetivos La validación - lógicamente comienza con una de pruebas. A medida que avanza la validación, y declaración de la interpretación propuesta del nuevas pruebas con respecto a las ensayo junto con una justificación de la pertinencia interpretaciones que pueden y no pueden de los de los resultados. la interpretación del uso resultados de las pruebas está disponible, pueden propuesto. El La interpretación propuesta incluye ser necesarias revisiones en la prueba, en el la especificación de la la construcción de la prueba proceso conceptual y en el que le da forma, e está destinada a medir. El se utiliza en las Normas incluso en la construcción subyacente a la prueba. para referirse al concepto o la característica de que un ensayo está diseñado a medida. Rara vez, La gran variedad de pruebas y circunstancias si es que alguna vez, hay un solo posible lo que hace que sea natural que algunos tipos de significa que se puede adjuntar a un resultado de evidencia un examen o a un patrón de respuestas a las ser especialmente crítico en un caso dado, pruebas. Por lo tanto, siempre es incumbente en mientras que otros tipos serán menos útiles. los desarrolladores y usuarios de pruebas para Decisiones sobre qué tipos de pruebas son especificar la interpretación de la construcción que importantes para la validación en cada caso puede ser aclarado mediante el desarrollo de un conjunto construir una deficiencia) y la variación irrelevante de proposiciones o reivindicaciones que apoyan la de la construcción (o la contaminación de la interpretación propuesta para el propósito construcción), respectivamente. La particular de la prueba. Por ejemplo, cuando se subrepresentación constructiva se refiere a la utiliza una prueba de rendimiento en matemáticas grado en el que una prueba no capta importantes para evaluar preparación para un curso avanzado, aspectos de la construcción. Implica un evidencia para las siguientes proposiciones estrechamiento de la el significado de los podrían ser relevantes: a) que ciertas aptitudes resultados de la prueba porque la prueba no son un requisito previo para la adquisición de muestrear adecuadamente algunos tipos de conocimientos avanzados (b) que el dominio de contenido, participar algunos procesos contenido de la prueba es consistente con estos psicológicos, u obtener algunas formas de prerrequisitos c) que los resultados de las pruebas respuesta que se engloban en el ámbito de pueden generalizarse a través de los conjuntos de aplicación de la construir. Tomemos, por ejemplo, elementos pertinentes; d) que los resultados de una prueba concebida como medida completa de las pruebas no están indebidamente influenciados la ansiedad. Un particular la prueba podría por variables auxiliares, como la capacidad de subrepresentar la construcción prevista porque escribir; (e) que el éxito en la educación avanzada sólo mide las reacciones fisiológicas y no el curso puede ser evaluado válidamente; y (f) que componentes emocionales, cognitivos o los examinandos con puntajes altos en el examen situacionales. Como otro ejemplo, una prueba de ser más exitoso en el curso avanzado que lectura para medir la comprensión de los niños. examinandos con bajas calificaciones en el capacidad de leer e interpretar historias con examen. Ejemplos de proposiciones en otros comprensión podría no contener una variedad contextos de pruebas podría incluyen, por suficiente de leyendo pasajes o puede ignorar un ejemplo, la proposición de que la prueba las tipo común de material de lectura. personas con altas puntuaciones de ansiedad La relevancia de la construcción se refiere al general experimentan ansiedad significativa en grado de qué resultados de las pruebas se ven una variedad de entornos, la proposición de que el afectados por procesos que son ajeno a la puntaje de un niño en un examen de inteligencia finalidad prevista del ensayo. El los resultados de está fuertemente relacionada con el nivel las pruebas pueden ser sistemáticamente académico del niño. o la proposición de que un influenciados para en cierta medida por procesos cierto patrón de puntuaciones en una batería que no forman parte de la construir. En el caso de neuropsicológica indica un impedimento que es una comprensión de lectura puede incluir material característico de lesión cerebral. El proceso de muy por encima o por debajo del nivel del agua. validación evoluciona a medida que estas por debajo del nivel previsto para la prueba, una la proposiciones se articulan y evidencian se reúne reacción al contenido del ensayo, la familiaridad para evaluar su solidez. Identificar las con el el tema de los pasajes de lectura del proposiciones implícitas en una propuesta la examen, o la habilidad de escritura necesaria para interpretación de las pruebas puede facilitarse componer una respuesta. Dependiendo de la mediante considerando hipótesis rivales que definición detallada de la construcción, pueden desafiar la interpretación propuesta. Conocimiento de vocabulario o velocidad de También es útil para considerar las perspectivas lectura.también podrían ser componentes de los diferentes interesados de las partes, la irrelevantes. En una prueba diseñada para medir experiencia existente con pruebas similares y y las la ansiedad, un sesgo de respuesta a la ansiedad consecuencias esperadas de la crisis económica de uno podría ser considerada una fuente de mundial. uso propuesto para el ensayo. Un desviación irrelevante para la construcción. En el hallazgo de consecuencias no deseadas del uso caso con trabajo de nivel universitario. Del mismo de la prueba también puede dar lugar a que se modo, una prueba de conciencia podría ser usado considere la posibilidad de hipótesis rivales. para el asesoramiento psicológico -para informar Hipótesis rivales plausibles a menudo se puede una decisión sobre el empleo, o para el propósito generar al considerar si un mide menos o más de científico básico de elaborar el construcción de la la construcción propuesta. Estas consideraciones conciencia. Cada uno de estos los usos se denominan construir una subrepresentación (o potenciales conforman el marco especificado y la interpretación propuesta de los resultados de la disminuye la necesidad de pruebas para apoyar prueba y también puede tener implicaciones para otras partes de la interpretación. Por ejemplo, el desarrollo de pruebas y evaluación. La cuando se realiza una prueba de empleo para la validación se puede visualizar como una proceso selección, un fuerte criterio de predicción. relación de construcción y evaluación de argumentos a en un ambiente de empleo es ordinariamente no favor y en contra de la interpretación prevista de la es suficiente para justificar el uso de la prueba. prueba y su relevancia para el uso propuesto. Uno debería considerar también la idoneidad y la el marco conceptual apunta a los tipos de una significación de la medida criterio, la idoneidad de prueba de matemáticas, podría incluir una la medida. de los materiales y procedimientos de dependencia excesiva en habilidades de prueba para la gama completa de solicitantes, y la comprensión lectora que el idioma inglés los consistencia de la el apoyo a la interpretación estudiantes pueden estar faltando. En una prueba propuesta a través de grupos. El juicio profesional diseñada para medir el conocimiento de la ciencia, guía las decisiones con respecto a las formas la toma de pruebas de interiorización de los específicas de evidencia que pueden mejor apoyo estereotipos de género sobre las mujeres en las a la interpretación prevista para una uso ciencias podría ser una fuente de información especificado. Como en todos los esfuerzos irrelevante para la construcción. varianza. Casi científicos, La calidad de las pruebas es todas las pruebas dejan fuera elementos que primordial. Unas pocas piezas de evidencia sólida algunos los usuarios potenciales creen que debe con respecto a una proposición en particular son ser medido y incluyen algunos elementos que mejores que numerosas piezas de evidencia de algunos usuarios potenciales La validación implica calidad cuestionable. La determinación de que un un cuidadoso control de la calidad. atención a la interpretación de prueba dada para un propósito posibles distorsiones de significado que se derivan específico es de una representación inadecuada de la y también se basa en el juicio profesional que la a aspectos de medición, como el formato de la preponderancia de las pruebas disponibles apoya prueba, las condiciones de administración, o nivel esa interpretación. La calidad y cantidad de de idioma, que pueda limitar materialmente o pruebas suficiente para llegar a la sentencia chis calificar la interpretación de las puntuaciones de puede diferir para los usos de la prueba las pruebas para varias grupos de examinandos.T dependiendo del Una interpretación dada. puede es decir, el proceso de validación puede dar lugar no estar justificada como consecuencia de una a revisiones en el ensayo, en el marco conceptual insuficiencia de pruebas en apoyo de la misma o de la prueba, o ambos. Interpretaciones de la como resultado de una investigación creíble. prueba revisada, se obtendrían de nuevo pruebas en su contra. necesitan validación. La validación es responsabilidad conjunta de la Cuando las proposiciones han sido identificadas, desarrollador de pruebas y el usuario de la el chat apoyaría la interpretación propuesta de la prueba. es responsable de proporcionar las prueba se puede proceder con la validación pruebas pertinentes y una justificación en apoyo obteniendo evidencia empírica, examinando la de cualquier interpretación de las puntuaciones de literatura relevante, y / o la realización de análisis los exámenes para usos específicos previstos por lógicos para evaluar cada una de las el promotor. El el usuario de la prueba es proposiciones. La evidencia empírica puede incluir responsable en última instancia de evaluar las pruebas locales, producidas en el marco de la los pruebas en el entorno particular en el que se contextos en los que se utilizará la prueba, y las encuentran las se debe utilizar la prueba. Cuando pruebas de aplicaciones de pruebas similares en un usuario de prueba propone un interpretación o otros entornos. Uso de la evidencia existente de uso de las puntuaciones de las pruebas que pruebas similares y los contextos pueden mejorar difieren de los soportados por el desarrollador de la calidad de la validez especialmente cuando los la prueba, el responsabilidad de proporcionar datos para la prueba y la contexto en cuestión son pruebas de validez en el apoyo de esa limitados. Porque una interpretación para un uso interpretación para el período de tiempo dado típicamente depende de más de una especificado el uso es responsabilidad del usuario. proposición, pruebas sólidas en apoyo de una Debería ser señaló que las importantes parte de la interpretación de ninguna manera contribuciones a la validez la evidencia puede ser hecha a medida que otros investigadores reportan dada se interpreta en múltiples maneras para las conclusiones de las investigaciones, el chat múltiples usos, las proposiciones subyacentes a está relacionado con la significado de los estas interpretaciones para diferentes usos resultados de la prueba. también es probable que difieran. Se necesita Fuentes de Evidencia de Validez apoyo para la propuestas que subyacen a cada interpretación para una uso específico. Pruebas Las siguientes secciones describen varias fuentes que apoyan la interpretación de puntajes en una de evidencia que podría ser utilizada en la prueba de logro de matemáticas para colocar a los valuación de la validez de una propuesta de estudiantes en cursos subsiguientes (por ejemplo interpretación de la prueba para un uso particular. pruebas de que la interpretación de la prueba es Estas fuentes de evidencia pueden iluminar válida para su para el uso previsto) no permite diferentes aspectos de la validez, pero no inferir validez para otros fines (por ejemplo, representan distintos tipos de validez. La validez promoción o evaluación del profesorado). es un concepto unitario. Es el grado en el que todas las pruebas acumuladas apoya la Evidencia basada en el contenido de la prueba interpretación prevista de la prueba para el uso Las pruebas de validez importantes pueden propuesto. Como las normas de 1999, esta obtenerse en un análisis de la relación entre el edición se refiere a los tipos de pruebas de contenido de una prueba y la estructura a la que validez, en lugar de distintos tipos de validez. Para se destina El contenido de la prueba se refiere a enfatizar esta distinción, el tratamiento que no los temas, la redacción, y el formato de los ítems, sigue la nomenclatura histórica (es decir, el uso de tareas o preguntas en un prueba. La los términos validez de contenido o predictivo administración y la puntuación también pueden ser validez). Los desarrolladores de pruebas. a menudo Como enfatiza la discusión en la sección anterior, trabajan a partir de una especificación del cada tipo de evidencia presentada a continuación contenido La especificación del contenido describe no es necesario en todos los entornos. Más bien, cuidadosamente el contenido en detalle, a se necesita apoyo para cada proposición que menudo con una clasificación de áreas de subyace en una propuesta interpretación de contenido y tipos de artículos. Evidencia basado pruebas para un uso específico. que una prueba en el contenido de la prueba puede incluir lógica o es predictiva de un criterio dado puede ser sin análisis empíricos de la idoneidad con la cual el pruebas de que las muestras de ensayo un contenido de la prueba representa el dominio de determinado dominio de contenido. En contraste, contenido y de la relevancia del dominio de una propuesta que una prueba cubre una muestra contenido para la interpretación propuesta de los representativa de un currículo en particular puede resultados de las pruebas. Evidencia basado en el ser apoyado sin pruebas de que la prueba predice contenido también puede provenir de juicios un criterio determinado. Sin embargo, un conjunto expertos de la relación entre las partes de la y la más complejo de proposiciones, por ejemplo, que construcción. Por ejemplo, en el desarrollo de una una prueba muestre un dominio específico y por lo prueba de licenciatura, las principales facetas que tanto, es predictivo de un criterio que refleja una son relevantes al fin para el que está regulada la relación de dominio, requerirá evidencia que ocupación y expertos en esa ocupación. se le apoye tanto partes de este conjunto de puede pedir que asigne ítems de prueba a las proposiciones. Desarrolladores de pruebas categorías definidas por esas facetas. Estos u también se espera que demuestren que las otros expertos puede entonces juzgar la puntuaciones no están indebidamente representatividad de los elegidos conjuntos de influenciados por factores de construcción artículos. Algunas pruebas se basan en irrelevantes. (véase cap. I, proyecto de decisión I, observaciones sistemáticas de comportamiento. apartado a). 3 para el tratamiento detallado de Por ejemplo, una lista de las tareas que cuestiones relacionadas con la varianza constituyen un dominio de trabajo puede ser irrelevante de la construcción). En apoyo general y desarrollado a partir de observaciones del adecuado a las interpretaciones propuestas para comportamiento en un trabajo, junto con juicios de usos específicos requerirá múltiples fuentes de expertos en la materia. Juicios periciales puede evidencia. La posición desarrollada anteriormente utilizarse para evaluar la importancia relativa, la también subraya el hecho de que si una prueba criticidad y/o la frecuencia de las distintas tareas. Una prueba de muestra de trabajo se puede La evidencia de validación orientada al contenido construir a partir de una muestreo aleatorio o se encuentra en el corazón del proceso en el estratificado de las tareas mejor valoradas en ámbito educativo conocido como alineación, que estas características. La prueba puede entonces implica la evaluación de la correspondencia entre ser administrada bajo condiciones estandarizadas los estándares de aprendizaje de los estudiantes y en un fuera del trabajo. La idoneidad de un el contenido de la prueba. Los problemas de determinado dominio de contenido está muestreo de contenido en el proceso de relacionado con las inferencias específicas que se alineación incluyen la evaluación de si la prueba deben hacer de los resultados de las pruebas. Por muestre adecuadamente el contenido del dominio lo tanto, al considerar una prueba disponible para que se redirección en los estándares del currículo, un fin distinto del de que fue desarrollado por si las demandas cognitivas de los elementos de primera vez, es especialmente es importante prueba corresponden -al nivel reflejado en los evaluar la idoneidad de las dominio de contenido estándares de aprendizaje de los estudiantes (por original para la nueva propuesta propósito. Por ejemplo, contenido ), y si la prueba evita la ejemplo, una prueba dada para la investigación inclusión de características irrelevantes para el propósitos para comparar los logros de los estándar al que está destinado de cada elemento estudiantes a través de en un dominio dado de ensayo. también puede cubrir adecuadamente material Evidencia basada en procesos de respuesta que recibe poca o ninguna atención en el Algunas interpretaciones de construcción implican currículo. Los responsables de la formulación de más o menos explícitas acerca de las políticas pueden entonces evaluar el logro del suposiciones cognitivas procesos en los que estudiante con respecto a ambos contenidos participan las personas que descansan. Teórico y desatendidos y el contenido abordado. Por otro análisis empíricos de los procesos de respuesta lado mano, cuando el dominio del estudiante de de los que descansan pueden proporcionar un plan de estudios impartido es probado con el pruebas relativas a la abeto entre la construcción y propósito de informar decisiones sobre la naturaleza descarrilada de la actuación o estudiantes individuales, tales como la promoción respuesta realmente comprometida por los o la graduación, el marco que elabora un dominio examinandos. Por ejemplo, si se pretende realizar de contenido se limita apropiadamente a lo que los una prueba para evaluar el razonamiento estudiantes han tenido la oportunidad de aprender matemático, se vuelve importante para determinar de si los examinandos están, en hecho, razonamiento el plan de estudios tal como se imparte. sobre el material dado en su lugar de seguir un La evidencia sobre el contenido puede ser algoritmo estándar aplicable sólo a los elementos utilizada, en parte, para abordar cuestiones sobre específicos de la prueba. las diferencias de significado o interpretación de Evidencia basada en procesos de respuesta en las puntuaciones de las pruebas a través de los general proviene del análisis de las respuestas subgrupos pertinentes de examinandos. Es motivo individuales. Interrogar a los examinandos de de especial preocupación el grado de varios grupos que constituyen la población de subrepresentación de la construcción o detección de pruebas a la que se pretende llegar construcion-irrelevante puede dar una ventaja sobre sus estrategias de desempeño o respuestas injusta o desventaja para uno o más subgrupos de los artículos particulares pueden producir prueba tomadores. Por ejemplo, en una prueba de evidencia el chat enriquece re definición de un empleo, el uso de vocabulario más complejo de lo constructo. Mantenimiento de registros char necesario en el trabajo puede ser una fuente de monitorean el desarrollo de una respuesta a un información irrelevante para la construcción tarea de escritura, a través de sucesivos varianza para los estudiantes que están borradores escritos o revisiones controladas aprendiendo inglés o los ocres. Revisión electrónicamente, por ejemplo, también cuidadosa del contenido de la construcción y de la proporciona evidencia del proceso. prueba por un panel diverso de expertos puede Documentación de otros aspectos del rendimiento, apuntar a fuentes potenciales de dificultad como los movimientos oculares o rimas de irrelevante ( o facilidad) requieren una mayor respuesta, también pueden ser relevantes para investigación. algunas construcciones. Inferencias sobre los procesos involucrados en rendimiento también disponibles para resolver los problemas de interés, puede ser desarrollado por analizando la relación y el constructo de interés sólo se refiere a si el entre las partes de la y entre el resto y otras problema se resolvió correctamente. variables. Es un ejemplo simple, puede haber varios posibles Las grandes diferencias individuales en el proceso vías para obtener la solución correcta a un pueden ser reveladoras y puede dar lugar a la problema matemático. Evidencia basada en la reconsideración de algunas formatos de estructura interna Los análisis de la estructura descanso. La evidencia de los procesos de interna de una prueba pueden indicar el grado en respuesta puede contribuir a para responder a que las relaciones entre los elementos y preguntas sobre las diferencias de significado o componentes de prueba se ajustan a el constructo interpretación de las puntuaciones de las pruebas sobre el que se basan las interpretaciones a través de los subgrupos pertinentes de propuestas de los resultados de la prueba se tomadores de descanso. Estudios de procesos basan. El marco conceptual para una prueba que incluyen las personas que toman descanso de puede implicar una sola dimensión de diferentes subgrupos pueden ayudar en comportamiento, o puede plantear varios determinar hasta qué punto las capacidades componentes que son cada uno de ellos que se irrelevantes o accesorio a la construcción puede espera que sean homogéneos, pero que también ser diferencialmente influir en el rendimiento de los son distintos entre sí. Por ejemplo, una medida de examinandos. malestar en una encuesta de salud podría evaluar Los estudios de los procesos de respuesta no son tanto la salud física y emocional. las limitados a la persona que realiza la prueba. Los interrelaciones de los ítems confirman las asesoramientos a menudo se basan en presunciones del marco sería relevante para la observadores o jueces para registrar y/o evaluar a validez. los examinandos prestaciones o productos. En Los tipos específicos de análisis y su tales casos, se debe tener en cuenta La evidencia interpretación depende de cómo se utilice la de la validez incluye el grado en que la los prueba. Por ejemplo, si una aplicación en procesos de los observadores o de los jueces son particular postuló una de componentes de prueba coherentes con la interpretación de las partituras. cada vez más difíciles, pruebas empíricas de la Por ejemplo, si se espera que los jueces apliquen medida en que la respuesta los patrones determinadas en la puntuación de la actuación de conformes a esta expectativa serían Una teoría los descansados, es importante para determinar si que postulaba la unidimensionalidad de la son, de hecho, aplicando los criterios adecuados y homogeneidad del artículo. En este caso, el no siendo influenciados por factores que son número de ítems y el ítem interrela- de los irrelevantes para el objetivo que se persigue resultados de la evaluación de los resultados. interpretación (por ejemplo, calidad de la escritura) fiabilidad, pero un índice de este tipo sería es irrelevante para juzgar el contenido de un inapropiado para ensayos con una estructura documento escrito. ensayo). Por lo tanto, la interna más compleja. validación puede incluir pruebas empíricas Algunos estudios de la estructura interna de los estudios sobre la forma en que los observadores o ensayos están diseñados para mostrar si los jueces registran y evaluar los datos junto con determinados artículos pueden funcionar de forma el análisis de la idoneidad de estos procesos a la diferente para subgrupos identificables de interpretación prevista o construir la definición. examinandos (por ejemplo, subgrupos Si bien las pruebas sobre los procesos de raciales/étnicos o de género). El funcionamiento respuesta pueden ser central en entornos en los del elemento de diferencias se produce cuando que las afirmaciones explícitas sobre los procesos diferentes grupos de examinandos con un total de respuesta son realizados por desarrolladores similar capacidad, o un estado similar según un de pruebas o donde las inferencias sobre las criterio apropiado, tienen, en promedio, respuestas respuestas se hacen por medio de pruebas sistemáticamente diferentes a un artículo en usuarios, hay muchos otros casos en los que las particular. Este tema se discute en capítulo 3. Sin reclamaciones sobre los procesos de respuesta no embargo, el funcionamiento de la posición de forman parte de la argumento de validez. En diferencias no siempre es un defecto o una algunos casos, la respuesta múltiple están debilidad. Subconjuntos de artículos que tienen una característica específica en común (por afirmaciones explícitas sobre procesos de ejemplo, contenido específico, representación de respuesta. tareas) puede funcionan de manera diferente para Evidencia convergente y discriminante. diferentes grupos de personas de manera similar Relaciones entre los resultados de las pruebas y que califica a los examinandos. Esto indica una otras medidas destinados a evaluar especie de multidimensionalidad. que puede ser construcciones idénticas o similares proporcionar inesperado o puede se ajustan al marco de evidencia convergente, mientras que las pruebas. relaciones entre los resultados de las pruebas y Evidencia basada en relaciones con otras las medidas supuestamente de diferentes variables En muchos casos, la interpretación construcciones proporcionan evidencia prevista para una de un uso determinado implica discriminante. Por ejemplo, dentro de algunos que la construcción debe ser relacionados con marcos teóricos, calificaciones en una prueba de otras variables y, como resultado, análisis de la comprensión de lectura de opción múltiple podría relación entre las puntuaciones de las pruebas y la esperarse que se relacionen estrechamente variables externas a la prueba proporcionan otra (evidencia convergente) a otras medidas de importante fuente de validez de las pruebas. lectura comprensión basada en otros métodos, Externo las variables pueden incluir medidas de tales como respuestas de ensayos. Por el algunos criterios que se espera que la prueba contrario, los resultados de las pruebas pueden prediga, así como las relaciones a otras pruebas ser se espera que se relacionen menos hipotéticas para medir las mismas construcciones, estrechamente ("pruebas discriminatorias: lo") a y las pruebas que miden las o diferentes medidas de otras habilidades, como el construcciones. Medidas distintas del ensayo razonamiento lógico. Relaciones entre los como los criterios de rendimiento, son a menudo diferentes métodos de medición la construcción utilizado en entornos laborales. Variables puede ser especialmente útil en afinar y elaborar categóricas, incluyendo las variables de el significado de la puntuación y interpretación. pertenencia a un grupo, se convierten en relevante La evidencia de relaciones con otras variables cuando la teoría que subyace a una propuesta el puede involucran evidencia tanto experimental uso de pruebas sugiere que las diferencias de como correlacionar. Los estudios podrían estar grupo deben ser presente o ausente si se propone diseñados, por ejemplo, para investigar si las una interpretación de los resultados del examen puntuaciones en una medida de ansiedad mejorar debe ser apoyada. Evidencia basada en como resultado de algún tratamiento psicológico o relaciones con otras variables proporciona si las puntuaciones en una prueba de rendimiento evidencia sobre el grado en que estas relaciones académico diferenciar entre instruidos y no son que sea consistente con el constructo que instruidos grupos. Si el rendimiento aumenta subyace a la propuesta interpretaciones de los debido al corto plazo son vistos como una resultados de los exámenes. amenaza a la validez del adiestramiento sería útil Evidencia convergente y discriminante. para investigar si los entrenadores y los grupos no Relaciones entre los resultados de las pruebas y entrenados se comportan de manera diferente. otras medidas importantes para determinar si son, Relaciones de criterio de prueba. Evidencia de la de hecho, aplicando los criterios adecuados y no relación entre los resultados de las pruebas y un siendo influenciados por factores que son criterio pertinente puede ser se exprese de varias irrelevantes para el objetivo que se persigue maneras, pero el fundamental la pregunta es interpretación (por ejemplo, calidad de la escritura) siempre, con qué precisión se obtienen los es irrelevante para juzgar el contenido de un resultados de las pruebas predecir el rendimiento documento escrito. Ensayo). Por lo tanto, la del criterio? El grado de precisión y el rango de validación puede incluir pruebas empíricas puntuación dentro del cual la precisión depende estudios sobre la forma en que los observadores o de la finalidad para la que se necesita. se utiliza la los jueces registran y evaluar los datos junto con prueba. el análisis de la idoneidad de estos procesos a la La variable criterio es una medida de algún interpretación prevista o construir la definición. Si atributo o un resultado que sea operativamente bien las pruebas sobre los procesos de respuesta distinto de la prueba. por lo tanto, la prueba no es pueden ser central en entornos en los que las una medida de una sino que es una medida hipotética como un predictor potencial de ese la validez del procedimiento de clasificación es criterio. Si una prueba predice un criterio dado en proporcionado por que demuestre que la prueba una el contexto dado es una hipótesis es útil para determinar qué personas pueden comprobable. que son de interés son beneficiarse de forma diferente de un tratamiento determinados por los usuarios de la prueba, por u otro. Es posible para pruebas para ser altamente ejemplo, administradores en un sistema escolar o predictivas del rendimiento para diferentes gerentes de una empresa. La elección del criterio programas de educación o trabajos sin y los procedimientos de medición utilizados para proporcionar la información necesaria para hacer obtener Las puntuaciones de los criterios son de una comparación juicio de la eficacia de las importancia central. En la credibilidad de un asignaciones o tratamientos. estudio de criterios de prueba depende de la En general, las reglas de decisión para la pertinencia, fiabilidad y validez de la interpretación selección o la colocación también están basado en el criterio de la medida para una influenciados por el número de personas a ser aplicación de prueba dada. Históricamente, dos aceptadas o los números que pueden ser diseños, a menudo llamados predictivos y acomodados en categorías de colocación concurrentes, se han distinguido por evaluar alternativa (véase el capítulo 11). La evidencia relaciones de criterio de prueba. Un predictivo el sobre las relaciones con otras variables es estudio indica la fuerza de la relación entre las también se utiliza para investigar cuestiones de puntuaciones de las pruebas y las puntuaciones diferencial predicción para subgrupos. Por de los criterios que son obtenidos posteriormente. ejemplo, un hallazgo que la relación entre los Un estudio simultáneo obtiene los resultados de resultados de las pruebas y un criterio pertinente las pruebas y la información de los criterios en difiere de un subgrupo a otro puede implicar que más o menos al mismo tiempo. Cuando la el significado de las puntuaciones no es lo mismo predicción es en realidad como en el caso de la para los miembros de los diferentes grupos, tal admisión académica o el empleo o en la vez debido a la construcción de la planificación de la rehabilitación regímenes, los subrepresentación o fuentes de varianza estudios predictivos pueden retener el tiempo irrelevantes para la construcción. Sin embargo, la diferencias y otras características de la práctica C diferencia también puede implicar que el criterio pruebas actuales, que evitan la pérdida de tiempo. tiene un significado diferente para los diferentes Cambios, es particularmente útil para el grupos. El las diferencias en las relaciones de psicodiagnóstico pruebas o en la investigación de criterio de prueba también pueden se derivan de medidas alternativas de alguna construcción un error de medición, especialmente cuando grupo especificada para la que se ha aceptado un El significa diferente, por lo que tales diferencias no procedimiento de medición ya existe. de una necesariamente indican diferencias en el estrategia de investigación predictiva o significado de la puntuación. concurrente en un dominio determinado también Ver la discusión sobre la justicia en el capítulo 3 se informa de forma útil mediante evidencia de para una consideración más amplia de los investigación con respecto a la medida en que posibles cursos de acción cuando las estudios predictivos y concurrentes en ese campo puntuaciones tienen diferentes significados para producen los mismos o diferentes resultados. Los diferentes grupos. resultados de las pruebas a veces se utilizan para asignar individuos a diferentes tratamientos de Generalización de la validez. una manera que es ventajoso para la institución Una cuestión importante en educativo y de y/o para los individuos. Algunos ejemplos serían la empleo es el grado a la cual la evidencia de asignación de a diferentes puestos de trabajo validez basada en el criterio de reposo las dentro de una organización, o determinar si relaciones pueden generalizarse a una nueva colocar a un determinado estudiante en una clase situación sin más estudios de validez en esa de recuperación o en una clase normal. En ese nueva situación. Cuando se utiliza una prueba contexto, se necesitan pruebas para juzgar la para predecir lo mismo o criterios similares (por idoneidad de utilizar una prueba al clasificar o ejemplo, el desempeño de un trabajo asignar un de una persona a un trabajo versus determinado) en diferentes momentos o en otro o a uno tratamiento contra otro. Soporte para diferentes lugares. típicamente se encontró que las correlaciones observadas entre los criterios de suficientes para apoyar o rechazar el uso de prueba varían sustancialmente. En el pasado, pruebas en una nueva situación. esto ha sido se ha interpretado como que los Esto pone de relieve la importancia de examinar estudios de validación focal son siempre cuidadosamente el valor informativo comparativo obligatorios. Más recientemente, una variedad de de estudios locales versus metaanalíticos. En la los enfoques para generalizar la evidencia de realización de estudios de la generalizabilidad de otras se han desarrollado escenarios, con meta- evidencia de validez, los estudios previos que se análisis el más utilizado en la literatura publicada. incluyen puede variar de acuerdo a varias En particular, los meta-análisis han demostrado situaciones facetas. Algunas de las principales que en algunos ámbitos, gran parte de esta facetas son: a) las diferencias en la forma en que variabilidad puede ser debido a artefactos se mide la construcción del predictor, b) el tipo de estadísticos como las fluctuaciones del muestreo y trabajo o plan de estudios que se trate tipo de variaciones entre los estudios de validación en los criterio de medición utilizado, d) el tipo de prueba rangos de los resultados de las pruebas y en la e) el período de tiempo en el que se realizó el fiabilidad de criterio mide. Cuando estas y otras estudio se llevó a cabo. En cualquier estudio influencias se tienen en cuenta, puede constatarse particular de validez generalización, cualquier que la la variabilidad restante en los coeficientes número de estas facetas podría varían, y uno de de validez es relativamente pequeño. Por lo tanto, los principales objetivos del estudio es determinar los resúmenes estadísticos del pasado los empíricamente la medida en que la variación en estudios de validación en situaciones similares estas facetas afecta a las correlaciones criterio de pueden ser útil para estimar las relaciones prueba obtenido. El grado en el que los factores test/criterio en Esta práctica se conoce como la predictivos o concurrentes las pruebas de validez estudio de generalización de validez. En algunas pueden generalizarse a nuevas situaciones es en circunstancias, hay una fuerte para utilizar la gran medida una función de la acumulación de generalización de validez. Este sería el caso investigación. Aunque la evidencia de cuando los datos meta-analíticos- la base de datos generalización a menudo puede ayudar a apoyar es grande, donde los datos meta-analíticos una reclamación de validez en una nueva adecuadamente representan el tipo de situación a situación, el grado de disponibilidad. los datos la cual se desea generalizar, y donde la corrección limitan el grado en que la reclamación puede ser para los artefactos estadísticos produce una clara sostenida. La discusión anterior se centra en el y consistente patrón de validez de las pruebas. uso de bases de datos acumulativas para estimar En tales circunstancias, el valor informativo de un el criterio de predicción relaciones. Las técnicas local el estudio de validez puede ser relativamente meta-analíticas también pueden se utilizará para limitado, si no lo es realmente engañoso, integrar otras formas de datos relevantes a otras especialmente si el tamaño de la muestra es inferencias que uno pueda desear extraer de los pequeño. En otras circunstancias, el riesgo resultados de las pruebas en una aplicación en potencial el salto requerido para la generalización particular, como por ejemplo efectos del coaching puede ser mucho La base de datos meta-analítica y efectos de ciertas alteraciones en las puede ser pequeña, los hallazgos pueden ser condiciones de ensayo para los examinandos con menos consistentes, o el nuevo la situación puede discapacidades. Recopilación de pruebas sobre lo implicar características marcadamente diferentes bien que funciona los resultados de la validez de los representados en el meta-analítico base de pueden generalizarse en todos los grupos de los datos. En tales circunstancias, la situación examinandos es una parte importante de la específica las pruebas de validez serán validación Cuando la evidencia sugiere que las relativamente más informativas. Una investigación inferencias de las puntuaciones de las pruebas se sobre la generalización de la validez muestra que pueden dibujar para algunos subgrupos pero no los resultados de una validación local única el para otros, buscando opciones como las estudio puede ser bastante impreciso, hay siguientes discutido en el capítulo 3 puede reducir situaciones donde un solo estudio, el riesgo de uso injusto de la prueba. cuidadosamente realizado, con la adecuada Evidencia de Validez y Consecuencias de las tamaño de la muestra, proporciona pruebas pruebas Algunas consecuencias del uso de la prueba son algunos casos, acciones para hacer frente a una las siguientes de la interpretación de los de las consecuencias otras consecuencias. Un resultados de las pruebas para los usos previstos ejemplo de ello es el la noción de "oportunidades por el desarrollador de la prueba. La validación perdidas", como en el caso de la pasar a la implica la recopilación de pruebas para evaluar la calificación computarizada de los ensayos de los solidez de las interpretaciones propuestas para los estudiantes para aumentar la consistencia de la usos a los que están destinados. Otras clasificación, renunciando así a la beneficios consecuencias también pueden formar parte de un educativos de abordar el mismo problema que se extiende más allá de la interpretación o de capacitando a los maestros para que califiquen de la el uso de las escobillas previstas por el manera más consistente. Este tipo de desarrollador de la prueba. Para por ejemplo, una consideración de las consecuencias de las prueba de rendimiento estudiantil podría pruebas se discuten más adelante. proporcionar datos para un sistema destinado a Interpretación y uso de las puntuaciones de las identificar y mejorar las escuelas de bajo pruebas previstas por desarrolladores de rendimiento. La afirmación pruebas. que los resultados de las pruebas, utilizados de Las pruebas son comúnmente regido con la esta manera, darán como resultado la mejora del esperanza de que se obtenga algún beneficio de aprendizaje de los estudiantes puede basarse en la interpretación y utilización de las partituras proposiciones sobre el sistema o la intervención previstas por los desarrolladores de pruebas. en sí, más allá de proposiciones basadas en el Algunos de los muchos posibles los beneficios que significado de la prueba en sí mismo. Las pueden ser reclamados son la selección de los consecuencias pueden indicar la necesidad de terapias, la colocación de los trabajadores en un evidencia sobre los componentes del sistema que lugar adecuado trabajo, la prevención de personas va más allá de la interpretación de los resultados no cualificadas de entrar en una profesión, o la de las pruebas como una medida válida de los mejora de la clase prácticas de instrucción. Un logros de los estudiantes. Y otras consecuencias propósito fundamental de La validación debe son imprevistas, y son a menudo negativos. Por indicar si se trata de. Por lo tanto, en el caso de ejemplo, el distrito escolar o pruebas educativas una prueba utilizada en las decisiones de en todo el estado sobre temas seleccionados colocación, la validación se basaría en pruebas de puede llevar a los profesores a centrarse en esas que la alternativa las colocaciones, de hecho, son materias en a expensas de los demás. Como otro diferencialmente beneficiosas para las personas y ejemplo, una prueba desarrollado para medir el la institución. En el caso del empleo si un editor de conocimiento necesario para una de un trabajo pruebas afirma que usa de la prueba resultará en dado puede resultar en menores tasas de una reducción de la formación de los empleados aprobación para un grupo que para otro. costes, mejora de la eficiencia de la mano de obra, Consecuencias imprevistas merecen un examen o algún otro tipo de beneficio, entonces la minucioso. Aunque no todas las consecuencias en validación sería informada por evidencia en apoyo algunos casos, se pueden anticipar factores tales de esa proposición. como experiencias previas en otros ámbitos Es importante tener en cuenta que la validez de la ofrecen una base para Anticipar y tratar prueba las interpretaciones de las partituras proactivamente las situaciones no deseadas. dependen no sólo de los usos Consecuencias. Ver capítulo 12 para ejemplos adicionales de los entornos educativos. En NORMAS DE VALIDEZ grupos temáticos etiquetados de la siguiente Las normas de este capítulo empiezan con un manera: enfoque global estándar (numerada con 1.0), que 1. Establecimiento de los usos e interpretaciones está diseñada para para transmitir la intención previstos central o el enfoque primario del capítulo. La 2. Problemas relacionados con las muestras y los norma general puede también como el principio ajustes utilizadosen Validación rector del capítulo, y es aplicable a todas las 3. Formas Específicas de Evidencia de Validez pruebas y a todos los usuarios de pruebas. Todos las normas subsiguientes se han separado en tres Estándar 1.0 No hay ningún tipo de evidencia intrínsecamente Articulación clara de cada una de las preferible a otros; más bien, la calidad y relevancia interpretaciones de los resultados del examen de la evidencia para la prueba prevista para un uso específico, interpretación de la puntuación para un uso determinado determinar la y pruebas de validez apropiadas en apoyo de cada interpretación prevista debe ser valor de un tipo particular de evidencia. de proporcionada. evidencia empírica sobre cualquier punto debería dar a todos los hallazgos relevantes en la Cluster 1 . Esta blishing Intentado Usos e investigación científica. literatura, incluyendo Interrupciones aquellas que son inconsistentes con la Estándar 1 . 1 interpretación o uso previsto. Desarrolladores de El desarrollador de la prueba debe establecer pruebas tienen la responsabilidad de proporcionar claramente cómo los resultados de los exámenes apoyo para sus propias recomendaciones, pero están destinados a ser interpretados y por lo tanto, los usuarios de prueba tienen la responsabilidad se utiliza. La(s) población(es) para la(s) cual(es) la última de evaluar la calidad de las pruebas de prueba que se pretende realizar debe estar validez aportadas y su pertinencia a la situación claramente delimitada, y la construcción o local. construcciones que la prueba es que se pretende Estándar 1.3 evaluar debe describirse claramente. Comentario: Si la validez para alguna interpretación común o Las declaraciones sobre la validez deben referirse probable para un uso determinado no ha sido a a interpretaciones particulares y usos evaluado, o si dicho uso una interpretación es consecuentes. Es incorrecto usar la frase sin inconsistente con la disponible de la evidencia, calificar "en la validez de la prueba." Ninguna este hecho debe ser dejado claro y potencial los prueba permite interpretaciones que son válidos usuarios deben ser fuertemente advertidos acerca para todos los propósitos o en todas las de haciendo interpretaciones sin fundamento. situaciones. Cada interpretación recomendada Comentario: Si la experiencia pasada sugiere que para un uso determinado requiere validación. El una prueba es probable que se utilice de forma desarrollador de la prueba debe especificar en un inapropiada para ciertos fines. lenguaje claro la población para la cual el ensayo está previsto, la construcción que se pretende CAPÍTULO 1 tipos de decisiones o ciertos tipos de conseguir los contextos en los que las examinandos, advertencias específicas contra puntuaciones de las pruebas deben y los procesos tales usos deben ser dado. Se requiere juicio mediante los cuales se llevará a cabo la prueba. profesional para evaluar el grado en que las Debe ser administrada y puntuada. pruebas de validez existentes apoyanun uso de prueba dado. Estándar 1.2 Estándar 1.4 Se debe presentar un razonamiento para cada uno de los proyectos. Interpretación de los Si se interpreta la puntuación de un examen para resultados de las pruebas para un uso un uso determinado en una manera que no ha determinado, junto con un resumen de las pruebas sido validada, es incumbente al usuario para que y que se refiere a la interpretación que se justifique la nueva interpretación para que utilizan, pretende dar. Comentario: La justificación debe proporcionando una base lógica y recogiendo indicar lo que son necesarias para investigar las nuevas pruebas, si es necesario. Comentario: Se interpretación prevista. El resumen debería requiere el juicio profesional para evaluar en qué combinar el análisis lógico con la evidencia medida las pruebas de validez existentes se aplica empírica para apoyar la lógica de la prueba. en la nueva situación o a la nueva grupo de Evidencia puede provenir de estudios realizados examinandos y para determinar las nuevas puede localmente, en la donde se va a utilizar la prueba; ser necesaria. La cantidad y tipo de evidencia de de los valores específicos de de estudios previos; nueva evidencia requerida puede estar o de estudios estadísticos exhaustivos síntesis de influenciada por experiencia con usos o los estudios disponibles que se reúnen claramente interpretaciones de pruebas anteriores similares y especificadas criterios de calidad de los estudios. por la cantidad, calidad y relevancia de los datos existentes. Un examen que ha sido alterado o administrado en formas que cambian la dichas alegaciones estén justificadas para un construcción que subyace a la La prueba para el programa de pruebas, se convierten en parte del uso con subgrupos de la población requiere la argumento para su uso en pruebas. Pruebas de prueba de la validez de la interpretación de la tales afirmaciones debe examinarse junto con las prueba modificada (véase el cap. I, proyecto de pruebas sobre la validez de la interpretación decisión I, apartado a)). 3). Por ejemplo, si una prevista de los resultados de los exámenes y prueba se adapta para su uso con individuos con evidencia sobre negativos no deseados una discapacidad particular de una manera que consecuencias del uso de la prueba-en la cambia el constructo subyacente, el modificado realización de un análisis general decisión sobre el debe tener su propia evidencia de validez para la uso de la prueba. El peso debido debe ser a la interpretación prevista. evidencia en contra de tales predicciones, por Estándar 1.5 ejemplo, evidencia de que bajo ciertas condiciones la educación puede tener un efecto negativo sobre Cuando se afirma o se implica claramente que una instrucción en el aula. recomendación interpretación de los resultados de la prueba para una el uso resultará en un Estándar 1.7 resultado específico, la base para esperar que el Si el rendimiento de la prueba, o una decisión resultado sea prestablecido Comentario: tomada a partir de ahí, no se ve afectado en lo Materiales para ayudar en la interpretación de la esencial por la práctica y el coaching, entonces la puntuación debe resumir la evidencia que indica el propensión al rendimiento de la prueba para grado de a la que mejora con la práctica o cambiar con estas formas de instrucción debe ser Entrenamiento. es de esperar. Además, los documentada. materiales escritos para el examen los interesados Cluster 2 . Cuestiones relativas a los servicios deben proporcionar orientación práctica sobre el sanitariosy parametrizaciones utilizadas en la valor de las actividades de preparación de validación exámenes, incluyendo Entrenamiento. así como Estándar 1.8 datos empíricos. Peso apropiadose deben tener en cuenta los resultados de la investigación La composición de cualquier muestra de científica. literatura que puede ser inconsistente examinandos de la que se obtienen pruebas de con la declarada expectativa. validez deben se describirán con el mayor detalle posible y en la medida de lo posible de la Estándar 1 . 6 información, incluidos los principales datos Cuando se recomienda el uso de una prueba en el sociodemográficos pertinentes y características de terreno que las pruebas o el programa de pruebas desarrollo. en sí mismo de un beneficio indirecto, además de Comentario: Los resultados estadísticos pueden los siguientes la utilidad de la información ser influenciados por factores que afecten a la procedente de la interpretación de los resultados muestra en la que el Cuando la muestra tiene por de las pruebas en sí mismos, el recomendante objeto representan una población, esa población debe explicitar los motivos de la anticipación el debería y se debe prestar atención a lo siguiente beneficio indirecto. Argumentos lógicos o teóricos los factores sistemáticos que puedan limitar la y evidencia empírica para la investigación indirecta representatividad de la muestra. Factores que se debe proporcionar un beneficio. Peso podrían que se espere razonablemente que afecte apropiado a cualquier hallazgo contradictorio que los resultados incluyen autoselección, desgaste, se produzca en la literatura científica, incluyendo capacidad lingüística, discapacidad estatus, los hallazgos que sugieren resultados indirectos criterios de exclusión, entre otros. Si los importantes que no sean los pronosticados. participantes en un estudio de validez son Comentario: Por ejemplo, ciertos descansos pacientes, por ejemplo, entonces los diagnósticos educativos los programas han sido defendidos de los pacientes son importantes, así como otras sobre la base de que que tendrían una influencia características, como la gravedad de las saludable en el aula prácticas de instrucción o que condiciones diagnosticadas. En el caso de las clarificarían las prácticas de los estudiantes la pruebas utilizadas en el entorno laboral, el empleo comprensión del tipo o nivel de de los logros que (por ejemplo, los solicitantes frente a los actuales se esperaba que alcanzaran. en la medida en que de los trabajadores), el nivel general de experiencia y de educación, y el género y la normas de puntuación interpretación (por ejemplo, igualdad de género. la composición étnica de la en el ajuste de las puntuaciones de corte), o en la muestra puede ser pertinente información. Para prueba almacenamiento (por ejemplo, clasificación las pruebas utilizadas en la credencialización, el de las respuestas de los ensayos). Siempre que estado de las personas que proporcionan de los procedimientos empleados, la calidad de información (por ejemplo, los candidatos para una los servicios Los juicios resultantes son credencial contra una ya acreditada de los importantes para la validación. El nivel de acuerdo individuos) es importante para la interpretación de debe especificarse claramente (p. ej, si el acuerdo los resultados. datos. Para pruebas utilizadas en porcentual se refiere a un acuerdo antes o entornos educativos, la información pertinente después de una discusión de consenso, y si el puede incluir información educativa antecedentes, criterio para el acuerdo es el acuerdo exacto de o nivel de desarrollo, características de la un acuerdo dentro de un cierto número de escala comunidad o políticas de admisión a la escuela, de puntos.) La base para especificar ciertos tipos como por ejemplo así como el género y la de individuos (por ejemplo, profesores composición étnica de la población. muestra. A experimentados, profesores con experiencia los veces las restricciones legales sobre la privacidad titulares de los puestos de trabajo y los impedir la obtención o divulgación de dicha supervisores), según proceda. para el juicio o la población información o limitar el nivel de tarea de calificación debe ser articulada. Puede particularidad a qué datos pueden ser divulgados. ser totalmente apropiado que los expertos trabajen El sistema de leyes de privacidad, si las hubiera, juntos para llegar a un consenso, pero no lo que rigen el tipo de datos con el fin de garantizar lograría ser apropiados para tratar sus respectivas que cualquier descripción de una población no sentencias como estadísticamente independiente. tiene el potencial para identificar a un individuo de Los diferentes jueces pueden una manera inconsistente con tales estándares. El ser usado para diferentes propósitos (por ejemplo, alcance de los datos que faltan, si los hubiere, y un juego puede clasifican los artículos por su los métodos de tratamiento datos faltantes (por sensibilidad cultural, mientras que otro para el ejemplo, uso de procedimientos de imputación) nivel de lectura) o para diferentes porciones. de debe ser descrita. una prueba. Estándar 1 . 9 Estándar 1 . 1 O Cuando una validación se basa en parte en los Cuando la evidencia de validez incluye análisis dictámenes o decisiones de jueces expertos, estadísticos de los resultados de las pruebas, observadores o calificadores, los procedimientos solos o junto con los datos en otras variables, las para la selección de dichos expertos y para la la condiciones en las que los datos recopilados obtención de sentencias o calificaciones debe ser deben describirse en suficiente detalle para que completa descrito. Las calificaciones y experiencia los usuarios puedan juzgar la relevancia de los de los jueces deben ser presentados. La resultados estadísticos a las condiciones locales. descripción de los procedimientos debe incluir Atención deben ser atraídos a cualquier cualquier tipo de capacitación y las instrucciones característica de una validación recopilación de proporcionadas deben indicar si los participantes datos que pueden diferir de las pruebas de tomaron sus decisiones de forma independiente; y funcionamiento típicas condiciones y que podría debe informar el nivel de acuerdo alcanzado. Si influir de forma plausible en el rendimiento de las los participantes interactuaran entre sí o pruebas. intercambiado información, los procedimientos a Comentario: Tales condiciones podrían incluir través de que pueden haberse influenciado (pero no se limitaría a) lo siguiente: persona que mutuamente deben ser expuestos. realiza la prueba la motivación o la preparación Comentario: Recopilación sistemática de previa, la gama de pruebas resultados por encima sentencias o las opiniones pueden darse en de los de los examinandos, el tiempo permitido muchos puntos de la construcción del ensayo (por para el examen a los demandantes para que ejemplo, obtener juicios de expertos sobre el respondan u otras condiciones administrativas, el contenido adecuación o representación adecuada modo de administración de la prueba (por ejemplo, del contenido), en la formulación de reglas o no reproducido) pruebas en línea frente a las pruebas in situ supervisadas), formación del examinador u otras características del examinador, los intervalos de tiempo que separan concordancia del contenido de la prueba con el la recogida de datos sobre diferentes medidas, o objetivo en términos de complejidad cognoscitiva y condiciones que pueden tener cambiado desde de la accesibilidad del contenido de la prueba a que se obtuvo la prueba de validez. todos los miembros de la población destinataria Cluster 3 . Formas específicas de son también consideraciones importantes.
Evidencia de Validez ( b) Evidence Regard ing Cognitive
( a) Evolución orientada al contenido Procesos
Estándar 1 . 1 1 1 Estándar 1 . 1 2
Cuando la justificación para la interpretación de Si la justificación de la interpretación de la
los resultados de la prueba para un uso dado se puntuación para una determinada el uso depende basa en parte en la idoneidad del contenido de la de las premisas sobre el estado psicológico prueba, los procedimientos seguidos en la procesos u operaciones cognitivas de los especificación. a descripción del contenido de las examinandos, entonces la evidencia teórica o pruebas y de su generación y justificado con empírica en apoyo de esos locales. Cuando los referencia a la intención población a ser probada y extractos sobre los procesos empleados por los la construcción de la está destinado a medir o el observadores o los calificadores son parte del dominio en el que se encuentra que se pretendía argumento a favor de la validez, debe representar. Si la definición de la el contenido de proporcionarse información similar. la muestra incorpora criterios tales como Comentario: Si la especificación de la prueba importancia, frecuencia o criticidad, estos criterios delinea la procesos a ser evaluados, entonces se también deben ser claramente explicados y necesita evidencia que los elementos de prueba, justificados. de hecho, golpean con el botón procesos.{c) Comentario: Por ejemplo, los desarrolladores de Evolución de la estructura interna pruebas pueden proporcionan una estructura Estándar 1 . 1 3 lógica que mapea los ítems sobre la prueba para Si la justificación de la interpretación de los el dominio de contenido, ilustrando la la resultados de un examen para un uso pertinencia de cada elemento y la idoneidad con determinado depende de las premisas sobre la que el conjunto de elementos representa el relación dominio de contenido. Áreas del dominio de contenido que no son incluidos entre los ítems de la prueba podrían ser indicadas también. La