Está en la página 1de 10
capiruto1 de la prucba segiin los riesgos involucrados en la prueba, Es posible que una interpretacién dada no se justfique ya sea como resultado de eviden- cia insuficience que fa rexpalde o como resultado de evidencia crefble en contra de esta La validacién es responsabilidad conjunta del desatrollador de la prueba y del usuario de la prueba, El desarrollador de la prueba es responsa- ble de suministrar evidencia relevance y una razén fundamental que respalde cualquier incerpreta- cidn de puneajes de la peueba para usos especifiea- dos prevists por el desarrollador. El usuasio de la prueba es en ilkima instancia responsable de eva- Iuar la evidencia en el contexto en particular en el aque se usaré la prueba. Cuando el usuario de una prueba propone una interpretacién o uso de pun- tajes de la prucba que difiere de los respaldados por el desarrollador de la prucba, la responsal lidad de brindas evidencias de vader que tespal- den esa interpretacign para el uso especificado es del usuario, Debe observarse que pueden hacerse aportes importantes a la evidencia de validacién & ‘medida que ottos investigadores reporten cot siones de investigaciones que se relacionen con el significado de los puntajes en la prueba, Fuentes de evidencia de validacién Las siguientes secciones describen diversas fuen- tes de evidencia que podslan utilizarse en la evaluacién de la valider de una interpretacién propuesta de puntajes de Ia prueba para un uso cn particular, Estas fuentes de evidencia pueden ‘lumina diferentes aspectos de la validez, pero no representan tipos distintos de validez. La validez es un concepto unitaro, Bs el grado en que toda Ja evidencia acumulada respalda la interpretacin prevista de los puntajes de una prueba para el uso propuesto. Al igual que los Esténdares de 1999, cesta edicidn hace referencia alos tips de eviden- cia de validacién, més que a tipos distintos de vax Tides, Para destacar esta dstincién, el tratamiento ‘a continuacién no sigue la nomenclacuta histérica {es decir, el uso de los tétminos valides de conte- ido 0 valides predictiva) Come se destaca en el andlisis de la seccién, anterior, no se requiere cada tipo de evidencia “ presentado a continuacién en todos los contextos En lugar de ello, se necesita el respaldo de cada proposicién subyacente & una incerprecacion de la prueba propuesta para un uso especificado, Una proposicién de que una prueba e¢ predictiva de tun eriterio dado puede respaldatse sin evidencia de que la prueba toma muesteea un domino de contenido en particular, Por el contratio, una pro- posicidn de que una prueba cubze una muestra fepresencativa de un plan de estudios en pastieu- lar puede ser respaldada sin evidencia de que la prueba predice un criterio dado, Sin embargo, un Conjunto mis complejo de proposiciones, p. ej aque una prueba abarque un dominio especificado y por lo tanto sea predictiva de un criteria que refleja un dominio relacionado, roqueriré eviden- cia que respalde ambas partes de este conjunto de proposiciones, Tambign se espera que los desarto- lladores de la prucba demuestren que los puntajes no estin indebidamente influenciados por va- rianza irrelevance de constructo (véase el cap. 3 para un tratamiento deallado de euestiones eela- jonadas con varianza irrlevante de consteuet) sn general, cl respaldo adecusdo de as interpeeca- cones propuestas para usos especificos requerité luples Fuentes de evidencia, La postura desarvollada anteriormente tan bign subraya el hecho de que, si una prueba dada se interpreta de distintasmaneras para distincos sos, también es probable que difieran las pro- posiciones que sustentan estas interprecaciones para diferentes usos. Se necesita el rspaldo de las proposiciones que sustentan cada interprecacién para un uso espectfico, La evidencia que respalda Ia incerpretacién de puntajes en una prueba de rendimiento matemstico para colocar estudiantes cen cursos subsiguientes (es decir, evidencia de que Ia incerprecacign de la prueba es vilida para su fin previsto) no permite inferr validez para otcos fi- ‘es (p. ej. promocidn o evaluacién del profesor). Evidencia basada en el contenido de la prueba Se puede obtener evidencia de validacién in portance de un andlisis de la relacién entre el contenido de una prueba y el constructo que se intenta medit, El contenido de lx prucba hace referencia a los temas, la redaccién y el formato de los (ems, tateas o preguntas de una prueba, La administacién y el puntaje también pueden «er relevantes pata a evideneia basada en el con tenido, Los desarrolladores de la prueba suelen trabajar a parti de una especifcacisn del domi- no de contenido, La especifcacién del contenido describe euidadosamence el contenido en detale ‘a menudo con una clasificacidn de éreas de con tenido y tipos de seems. La eviden cl contenido de la prucba puede logicos 0 empiricos de la adecuacién con la que el contenido de la prueba representa el dominio de contenide y de la relevancia del dominio de ‘contenido para la interpretacién propuesta de los puntajes de fa prueba, La evidencia basada en el contenido también puede provenit de juicios ‘expertos de la relacién entre partes de la prueba y el constructo, Por ejemplo, en el desarollo de tuna prueba para el otorgamiento de una licencia, pueden especificarse los principales aspectos que son televantes para la finalidad para la eal se te- gula la ocupacién, y se puede pedir a expertos en ‘est ocupacién que asignen fcems de prueba a his ‘categoria definidas por esas acetas, Estos u otros ‘expertos pueden luego juzgat la representatividad, del conjunto de items elegido, Algunas pruebas se basan en observaciones sistematicas del comportamiento. Por ejemplo, una lista de las treas que constituyen un dominio de un puesto de trabajo puede desarrollarse a par- tir de observaciones del comportamiento en un ‘puesto, junto con juicios de expertos en el tema Los juicios expertos pueden utilzatse para evaluar la importancta telativa, criticidad ylo frecuencia de las diversas tazeas. Una prueba de muestra de ttabajo puede entonces consteuirse a partir de un muestreo aleatorio 0 estraificado de tareas califi- ‘eadas altamente en estas caracterfsticas, La prueba luego puede administrarse en condiciones estan darizadas en un contexto fuera del trabajo. Lo apropiado de un dominio de contenido dado se relaciona con las inferencias espectficas ‘que se hatin de los puncajes de la prueba. Por ‘onsiguiente, al considerar una prueba dispo- nible para un fin distinto del fin para el que se desurroll6 en primer término, es especialmente importante evaluar lo adecuado del dominio de vauioez contenido original para ef nuevo fin propuesto. Por ejemplo, una prueba dada para fines de inves- tigacién para comparat el rendimienco estudiantil cn diferentes esados en un dominio dado puede ccorrectamente tambicn cubrit material que reciba atencidn escasa o nula en el plan de escudios, Los responsables de formulas policicas pueden enton- ces evaluat el rendimienco estudiantil eon respecte tanto al contenido ignorado como al contenido abordado, Por otta parte, cuando se evala el do- ‘minio estudiantil de un plan de estudios dictado a las fines de informar decisiones sobre estudiantes individuales, como promocién o graduacién, el ‘marco que clabora an dominio de contenido es adecuadamente imicado a lo que los estudiantes hhan cenido la oportunidad de aprender del plan de estudios sogdn fuera dictado. La evidencia sobre el contenido puede usarse, cn parte, para abordar preguntas sobre diferencias cn el significado o la interpretacién de los punta- jes de a prueba entze subgrupos relevantes de exa- rminandos. Resulta de especial interés ls medida cn que la infrarrepresentacién de consteucto 0 [a inrclevancia de constructo pueden dat una ven- taja injusta © desventaja a uno o mis subgrupos de examinandos, Por ejemplo, en una prueba de empleo, el uso de vocabulario mis complejo que cl necesario para el puesto de trabajo puede ser una fuente de varianza irtlevante de constructo para los estudiantes de lengua inglesa u otros. La revisién atenta del consteucto y del dominio de contenido de la prucba por parce de un panel di- verso de expertos puede sefialar posibles fuentes de dificultad (0 fecilidad) irelevante que requie- sen mayor investigacén, La evidencia de validacién orientada al con- tenido se encuentra en el centro del proceso en 1 Ambito educative conocido como alineacién, que involucra evaluat fa correspondencia entte es- tindares de aprendizaje para estudiantes y el con- tenido de la prueba, Las cuestiones de muestrca de contenido en el proceso de alineacisn ineluyen evaluat siel contenido de la prucba muestrea ade- ‘cuadamente el domino propuesto en los esténds- res del plan de extudios,silas demandas cognitivas de los {tems de la prueba se corresponden con el nivel reflejado en los estandares de aprendizaje de 6 capiruto1 los estudiantes (p. ej esténdares de contenido) y sila prueba evita Ia inclusién de caracterisicas inrelevantes para el estindar que es el abjetivo pre- visto de cada fem de la prueba, Evidencia basada en los procesos de respuesta Algunas interpretaciones de consteuctos involu- cran suposiciones més © menos explictas sobre Tos procesos cognitivos empleados por los exa- minandos. Andlisis tedricos y empiticos de los procesos de respuesta de los examinsandos pueden proporcionar evidencia respecto de la adecuacién entre el construct y la nacuraleza detallada del desempesio 0 respuesta efectivamente empleada pot los examinandos. Por ejemplo, si una prueba tiene por objeto evaluar el szonamienco matems- ‘ico, es importance determinar silos examinandos estén, en realidad, razonando sobre el material dado en lugar de seguir un algoritmo estindar plicable solo alos fems expecifics en la prueba. La evidencia basada en los procesos de res- puesta por lo general proviene de andlisis de res- ppuestasindividuales, Preguncar los examinandos de diversos grupos que componen la poblacién cexaminada prevista sobre sus estracegias de des- cempefio 0 repuestas a fems en particular puede artojar evidencia que enriquezca la definicién de un consteucto, Mantener registeos que mo oreen el desarrollo de unsa respuesta @ uns tarea de eseriturs, mediante borradotesescttos sucesi- vos o revisiones monitoreadas electrénicamente, pot ejemplo, también proporciona evidencia del proceso, La documentacién de otros aspectos del desempetio, como los movimientos de los ojos © rapide al responder, también puede ser televante para algunos constructos, Las inferencias sobre procesos involucrados en el desempefio también pueden desarollarse analando la relacién entre pates de la prueba y entee Ia peucba y oteas vat bles, Grandes diferencias individuales pueden set reveladoras y pueden llevar a lx reconsideracién de ciertos formatos de prueba. La evidencia de los procesos de respuesta puede contribuir a responder preguntas sobre diferencias en cl significado o incerpretacion de puntajes de pruebas entre subgrupos relevantes de ‘examinandes, Los estudios de proceso en los que 6 patticipan examinandos de diferentes subgeupos pueden ayudar a determinar en qué medida las capacidadesierelevantes o auxiliaes al e pueden influir de manera dferencial en el desen pefio de los examinandos en la prueba. Les estudios de procesos de respuesta no se fan al examinando, Las evaluaciones suclen depender de observadores 0 jueces para que re- tistren yo evalden los desempeios o productos de los examinandos. En esos casos, a evidencia de validacién relevance ineluye la medida en que los procesos de observadoreso jueces son coherences con la interpretacién prevista de puntajes. Por «ejemplo, sise espera que los jueces apliquen crte- sios particulates al califcat los desempetios de los ‘examinandos, es importante determinar si est de hecho, aplicando los erterios apropiados y no siendo influenciados por Factores que son ittele- vantes para la interpretacién prevista (p. ej la calidad de la caligrafia es intelevante para juzgar el contenido de un ensayo escrito). Por lo tanto, fa validacién puede incluir estudios empiticos de cémo los observadores o jueces registran y eva- Ian datos junco con andlisis de lo adecuado que son estos procesos para la interpretacién prevista ola definicidn del construct Si bien le evidencia sobre los procesos de respuesta puede ser central en contextos en los que his afiemaciones explicitas sobre procesos de respuesta son hechas por desarrolladores de Fa prueba o en los que las inferencias sobre res- puestas son hechas por usuarios dela prueba, hay ‘muchos otros casos en los que las afizmaciones s0- bre los procesos de respuesta no son pate del ar- ‘gumento de valides, En algunos casos, miliples procesos de respuesta estin disponibles par solver los problemas de interés, y el constructo de interés solo tiene que ver con que el problema se resuelva de manera correcta, Para dar un ejemplo mple, puede haber multiples caminos posibles para obcener la solucién correcta a un problema materético Evidencia basada en la estructura interna Los andisis de la estructura interna de una prueba pueden indicar el grado en que las relaciones en tre ftems de la prueba y componentes de la prueba se ajustan al constructo sobre el que se basan hs interpretaciones propuestas de puntajes de la prueba, El marco conceptual para una prueba puede implicar una sola dimensién de comporta- miento, © puede planteat varios componentess se ‘espera que cada uno de ellos sea homogéneo, pero también son distincos unos de otros. Por ejemplo, uuna medida de malestar en una encuesta de salud podria evaluas tanto la salud fsica como emocio- ral, La medida en que las interrelaciones entre ‘ems confirman las presunciones del marco serfa relevante para la validea, Los tipos especificos de andliss y su imterpre- tacién dependen de obmo se utiizaré la prueba. Por ejemplo, si una aplicacién en particular planted una serie de componentes de Ja prueba ‘cada vea mis difliles, se proporcionaria eviden- cia empiric de la medida en que los patrones de respuesta cumplieron con esta expectativa, Una teorla que planteara Ia unidimensionalidad re- ‘quetitfa evidencia de homogeneidad de ivems, En. ‘este caso, la cantidad de ftems y las interrlaciones ‘entte {ems forman la base para una estimacién de confiabilidad del puntaje, pero un indice de ‘este tipo serfa inadecuado pata pruebas con una ‘estructura interns més compleja Algunos estudios de la estruccura interna de las prucbas se han disefiado para mostrar si fers en particular pueden funcionar de manera diferente para subgeupos de examinados identi Ficables (p. ej subgeupos raciales/émicos o de igénero). Se produce un fioncionamiento dife- rencial de los items cuando diferentes grupos de ‘eximinandos con capacidad general similar, 0 nivel similar en un ctiterio adecuado, tienen, en promedio, respuesta sistemdticamente diferentes ‘un fem en particular. Esa cuestign se analiaa cen el capitulo 3, Sin embargo, el funcionamiento difecencial de los (tems no siempre es una falla © debilidad, Subconjuntos de items que tienen una caraceristica espeetfica en comin (p. ¢ conte: nido expectfico, representacién de tarea) pueden funcionar de manera diferente para diferences ‘grupos de examinandos con puntajes similares Exo indica una clase de multidimensionalidad ‘que puede esperatse o puede ajustarse al marco dela prueba, vauioez Evidencia basada en relaciones con otras variables En muchos casos, Ia interpretacién prevista para uun uso dado implica que el constructo deberfa relacionarse con algunas otzas variables y, como resultado, andlisis de la relacion de los puntajes de la prucha con variables externas a ls prueba proporcionan ocra fuente importante de eviden- cia de validacién, Las variables externas pueden ineluie medidas de algunos ertetios que se espera aque I prucba prediga, asf como relaciones con ‘otras pruebas propuestas para medi los mismos constructs, y pruebas que miden constructos re- lacionados o diferentes. Las medidas distintas de Jos puntajes de la prueba, al como ctterios de desempesio, suelen utiizarse en contextos labo- rales, Las variables categéricas, incluidas variables de membrecla de grupos, se vuelven relevantes ‘cuando la ceorfa que sustenta un uso propuesto de Ia prueba sugiere que las diferencias del grupo de- Derfan estar presentes 0 ausentes si una incerpreta- cidn propuesta de los puntajes de la prueba debe suscentase, La evidencia basada en las rlaciones con otras variables proporcions evidencia sobre el grado en que estas relaciones son coherentes con €l constructo que sustenta las interpretaciones propuestas de los puntajes dela prueba, Bvidencia convergente y discriminante, Las re~ laciones entte los puncajes de la prueba y otras ‘medidas que tienen por objeto evaluar los mismos constructos 0 similares proporcionan evidencia convergente, mientras que las elaciones entre los puntajes de la prueba y medidas supuestamente de constructos diferentes proporcionan evidencia discriminante, Por ejemplo, dentro de algunos marcos teéticos, podra esperarse que los punta- jes en una prueba de seleccién miltiple de com- prensién de lectura se relacionen estechamente (evidencia convergente) con otras medidas de comprensién de lecura basadas en otros méto- dos, como las respuestas a ensayos. Al contrat, podria esperase que los puntajes de la prueba se relacionen menos estrechamente (evidencia dis- ctiminante) con medidas de otras habilidades, como el razonamientoldgico, Las relaciones entre wv capiruto1 diferentes mécodos de medicién del constructo pueden ser especialmence sles paa refnary borate significado yl interpretacién del puntae La evidencia de reaciones con ours variables puede involuerar evidencia experimental come cortelacional. Podrian diseiarse estudios, por cjemplo, para investiga si los puntajes en una medida de ansiedad mejoran como resultade de algin atamiento psicoldgico 0 si los pun- ‘ajes en una prueba de rendimiento académica diferencian entre grupos con instruccién y sin instuccidn, Si los aumentos del desempeso de- bide a orientacidn a corto plaza seven como una amenaza para la vader, seria tl investgae si los grupos con orientacidn y sin ovientaci tienen dleserpetios diferentes Relaciones prueba-crterio, La evidencia de rela- cid de puntajes de la prucba con un ctterio rele- vante puede expresarse de distintas maneras, pero Ja preguna fundamental siempre es zeon qué exac- ‘icud los puntajes de la prueba predicen el desem- pefio del crterio? El grado de exactitud y el rango de puntajes dentro del que se necesita exacticud dependen del fin pata el que se utlce la pracba. La variable del criterio es una medida de al- gin atributo o resultado que es operativamente discinta de la prueba. Por lo tanto, Ia prueba no es una medida de un etiteri, sino una medida planteada como un potencial predictor de ese et terio de interés. Si una prueba predice un rio dado en un contexto dado, es una hipétesis comprobable, Los cricetios que son de interés son determinados por los usuarios de la prueba, por cjemplo, administradores en un sistema escolar 0 gerentes de una empresa. La eleccidn del erterio y los procedimientos de medicién utlizados para fobtener puntajes de ctiterios son de primordial imporcancia, La credibilidad del estudio prucba- citerio depende de la relevancia, confiabilided y valider de la incerpretacién basada en [a medida del critero para una aplicacién de prueba dada, Hiseéricamente, se han distinguide dos dise- fios, a menudo llamados predictivo y concurrente, paca evaluar las relaciones prucbaccriceri, Un es- ‘udio predictive indica la fortaleza de la relacién centre los puncajes de la prueba y los puntajes de 8 critetios que se obtienen en un momento posce- rior. Un estudio concurrente obtiene puntajes de Fa prueba e informacién del crterio aproximada- mente al mismo tiempo, Cuando efectivamence se contempla la prediccién, como en la admisign académica los contextos laborales, o en la plani- ficacién de programas de rehabilitacién, los estu- dios predictivos pueden conservar las diferencias emporales y otras caracteristicas de la situacién prictica, La evidencia concurtente, que evica cambios temporales, es particularmente il para pruebas de psicodiagndstio o en la investigacién de medidas aternas de algiin constructo especi- ficado pata el que ya existe un procedimiento de medicién aceptado, La eleccién de una estrategia de investigacién predietiva 0 concusrente en dominio dado es también provechosamente i formada por evidencia de investigaciones previas respecto de la medida en que los estudios predic- tivos y concurrentes en ese dominio artojan los smismos o diferentes resultados, Los puncajes de la prueba a veces se usan para asignar a individuos a diferentes cratamientos de luna manera que sea ventajosa para la institucién ylo pata los individuos, Entre los ejemplos sei cluitian asignae a individuos a diferentes puestos ‘en una organizacion, o determina si colocar a un ‘estudiante dado en una clase de apoyo 0 uns clase regular, En ese contexto, se necesita evidencia pata juzgar la pertinencia de utilizar una prueba cuando se clasifica o asigna a una persona a un puesto en ver de otro 0 a un tratamiento en ver de uto, El respaldo de la valider del procedimiento de clasificacién se proporciona mostrando que la prueba es vil para determinar qué personas pro- bablemente se beneficien de manera diferente con tun qratamiento u otro, Es posible que las pruebas sean sumamente predictivas del desempefio para Giferentes programas educativos 0 puestos sin proporcionat la informacién necesaria pata hacer ln juicio comparativo de fs efcacia de las asigna- ciones © uatamientos, En general, las notmas de decision para la seleccién © asignacién cambign ‘estén influenciadas por la cantidad de personas aque se aceptarin o las cantidades que pueden ad imitirse en categorlas de asignacién alcernativas (véase el cap. 1D. También se usa la evidencia sobre relacio- nes con ottas vatlables para investigar preguntas de prediccién difetencial entze subgeupos. Por «jemplo, una conclusisn de que la relacibn de los ppuntajes de la prueba con uns variable de erterio relevante difiere entre subgrupo y oto puede im- plicar que el significado de los puntajes no es el mismo para miembros de los diferentes grupos, tal vex debido a infrarrepresentacién de cons- tructo o fuentes de varianea intelevante de cons- tructo. Sin embargo, la diferencia también puede implicar que el crterio tiene diferente significado ppara diferentes grupos. Las diferencias en las rela ciones pruebs-ctterio también pueden surgir de un error de medicién, en especial cuando las me- dias de los grupos difieren, de modo que dichas diferencias no necesatiamente indican diferencias cen al significado de los puntajes. Véase el andlisis de imparcalidad en el capfeulo 3 para una consi- deracién mis amplia de posibles cursos de accién ‘cuando los puntajes ienen diferentes significados para diferentes grupos. Generalizacién de valides. Una cuestién impor- tante en los contextos educativos y laborales es cl sgrado en que la evidencia de validacién basada fen telaciones pruebs-criterio puede generalzarse ‘4 una nueva situacién sin escudios adicionales de validez en esa nueva situacién, Cuando una prueba se usa para predecir los mismos eriterios © criterios similares (p. ej desempefio de un deceeminado puesto) en momentos diferentes © cen lugares diferentes, suele deverminarse que las correliciones prucbarcriterio observadas varlan sustancialmente, En el pasado, se ha considerado ‘que esto implica que siempre se requieren estu- dios de validacin locales. Més recientemente, se hhan desarollado vatios enfogues sobre la genera- lizacién de evidencia de ottos contextes, siendo cel metaanalisis el més utilizado en la bibliografla publicada, En particular, los metaanilisis han demostrado que, en algunos dominios, mucha de esta variablidad puede deberse a aztefactos sstadisticas como fluctuaciones en el muestreo ¥ vatiaciones entre estudios de validacién en los rangos de los puntajs de las pruebas y en la con- Gabilidad de las medidas de los eriterios. Cuando vauioez se tienen en cuenta ests y otasinfluencias, es po- sible que se determine que la varabilidad restante en los cocficientes de valider es telativamente pequefia, Por lo tanto, es posible que sean ttiles Tas resimenes estadisticos de estudios de valida- cidn anteriores en la estimacién de las relacio- nes prucba-criterio en una nueva situacién, Esta pprictica se denomina estudio de generalizacin de validee, En algunas circunstancias, existe un funda mento sélido para ucilzar [a generalizacién de validee, Ese sera el caso cuando la base de datos metaanalcica es amplia, cuando los datos meta- analiticos representan adecuadamente el tipo de situacién a la que se desea generalizar y cuando la correccién para artefacts estadisticns produce un patron claro y coherence de evidencia de valida- cidn, En esas citcunstancias, el valor informative de-un estudio de valider local puede set relativa- ‘mente limitado, si no efeesivamence confuso, et cxpecial si el tamafio de su muestra es pequesio. En otras circunstancias, el salto inferencial re- querido para la generaizacién serfa mucho més grande, La base de dacos metaanalitica puede ser pequefia, [as conclusiones pueden ser menos co- herentes © la sueva sicuacién puede involucrar caracteristicas marcadamente diferentes de las representadas en la base de datos metsanalitica En esas circunstancias, la evidencia de validacién cxpecifica de la sicuacién serd relaivamence ms informaciva, Si bien la investigacign sobre la ge- neralizacién de validee muestra que los resultados de un solo estudio de validacién local pueden set bastante imprecisos, hay situaciones en las que un solo estudio, realizado cuidadosamente, con un tamafio de muestra adecuado, proporciona sufi- ciente evidencia para respaldar o rechazar el uso de la prueba en una nueva situacién, Eso destaca Ia importancta de examina atentamente el valor informacivo comparativo de los estudios acotados frente a los metaanalftcos Cuando se evan a cabo estudios de la genera Dilidad de evidencia de vaidaci6n, los estudios an- teriores que se incluyen pueden variar de acuerdo con vatios aspectos situacionales, Algunas de las principales facetas son (a) diferencias en la manera en que se mide el constructo predictor, (b) el tipo 9 capiruto1 de puesto de trabajo © plan de estudio involu- crado, (Q el tipo de medida de crterio uilizado, (d) el tipo de examinandos, y (el perfodo en el que se reali el estudio. En cualquier estudio de generalizacién de valider, cualquier cantidad de estas facetas podria variar,y un objetive principal del estudio es determinar empfricamente la me- dida en que la variacién en estas facetasafecta las correlaciones prucbacctiterio obtenidas, La medida en que la evidencia de validacién predictiva © concurrente puede generalzarse a nuevas situackones esen gran medida una funcién de investigacién acumulada, Si bien Ia evidencia de genctalizacién a menudo puede ayudar a sus- tentar una afirmacién de valider en una nueva situacién, el aleance de datos disponibles limita cl grado en que puede sustencarse Ia afirmacién. a discusidn anterior se concentra en el uso de bases de datos acumulativas para estimar relacio- nes predictor-riterio. Las téenicas mecaanaliticas ‘también pueden usarse para resumir otras formas de datos relevantes a otras inferencias que se pue- den querer extrer de los puntajes dela prueba en tuna aplicacién en parcculas, como los efectos de Ja oriencacién y los efectos de deverminadas alte- zaciones en las condiciones de la prueba para exa- ‘minandos con discapacidades especificadss, Reunit cevidencia sobre en qué medida las conclusiones de valides pueden generalizarse entre grupos de exami nandos es una parte importance del proceso de var Tidacién, Cuando la evidencia sugiere que pueden hhacerse inferencias a partir de puntajs dela prucha para algunos subgrupos, pero no para otto, inten- tar opciones como las analizadas en el capftulo 3 puede reduci el riesgo de uso parcial de la prueba. Evidencia de validacién y consecuencias de las pruebas Algunas consecuencias del uso de pruebas surgen directamente de la interpretacién de los puntajes de la prueba para usos previstos por el desarolla- dor dela prucba, El proceso de validacién implica reunir evidencia para evaluat la solidee de estas in- ‘erpretaciones propuestas para sus usos prevstos ‘Otrasconsecuencias también pueden set parte de uns afizmacién que se extiende més ald de la interpretacién 0 el uso de puntajes previsto por 20 el desarollador de la prueba, Por gjemplo, una prueba de rendimiento estudiantil podria. pro- porcionar datos para un sistema cuyo objeto sea identificar y mejorar las escuclas con bajo rendi- miento, La afirmacién de que los resultados de las pruebas, utlizados de esta manera, darin por resultado una mejora en el aprendizaje estudiantil puede depender de proposiciones sobre el sistema ola intervencién propiamente dicha, més allé de las proposiciones basadas en el significado de la prueba misma, Las consecuencias pueden sefalar Fa necesidad de evidencia sobre componentes del sistema que irdn mas alld de la interpretacién de los puncajes de la prueba como una medida valida del rendimiento estudiantl, ‘Aun asf, otras consecuencias son imprevistas, y a menudo negativa Por ejemplo, las pruebas ‘educativas a nivel estatal o de distrito escolar so- bre asignaturas seleecionadas pueden Hlevat a los profesores concentrarse en esas asignaturas a ‘expensas de otras, Para citar otto ejemplo, una prueba desarrollada para medir el conocimiento nnecesatio para un determinade puesto de trabajo puede dat lugar a tasas de aprobacién més bajas para un grupo que para otro, Las consecuencias nprevistas merecen un examen decenido, Si bien ‘no todas las consecuencias pueden preverse, en al- _gunos casos los factores como experiencia previas fen o(tos contextos offecen una base para prever y abordar de manera proactiva las consecuencias nprevistas, Véase el capfeulo 12 para consultar sjemplos adicionales de contextos educativos En algunos casos, las acciones para abordar una consecuencia dan lugar a otras consecuencias. Un «jemplo involucra Ia nocién de “oporcunidades perdidas”, como en el caso de pasat a calficacién por computadora de los ensayos de estudiantes para aumentar la coherencia en las calificaciones, con lo cual se renuncia alos beneficios educativos de abordar el mismo problema capacitando a los profesores para calificar de manera més coherent, Estos tipos de consideracién de consecuencias de la pruebas se anaizan més adelante, Interpretacién y usos de puntajes de la prueba previstos por los desarrolladores de la prueba. Las pruebas por lo general se administran con la expectativa de que se concentraré algén beneficio «partir de la interpretacin y el uso de los punta- jes previstos por los desartoladores de la prueba. Algunos de los muchos beneficios posibles que ppodrfan citase son la seleccidn de terapias efica- ‘es, asignacién de tabsjadores en puestos ade- cuados, prevenir que individuos no ealifiados ingresen en una profesién, o mejora de las précti- cas de instruecién en el ala, Una finalidad fun- damental de a validacin es indicat sies probable ‘que estos beneficias espectficas se conereten. Por To tanto, en el caso de una prueba utiizada en decisiones sobre colocacién, la validacién serfa informada por evidencia de que colocaciones al temativas, de hecho, son beneficiosas de manera dferencial para as personas y Ia insticucién. Ea 1 caso de pruebas de empleo, si el editor de una prueba asevera que el uso de la prueba daré por resultado una reduccién de los costos de capaci- tacién de empleados, mejora de la eficiencia de a Fucraa de trabajo 0 alin ot benetici, entonees la validacin serfa informada por evidencia que sustente esa proposicién. Es importante destacar que la validez de las incerpretaciones de los puntajes de las pruebas de- ppende no solo de los usos de los puntajes de las pruebas sino especificamente de las afiemaciones ‘que sustentan la teorfa de accidn para estos usos. Por ejemplo, consideremos un dstrito escolar que ‘quiere determinar a preparacin delosnifos para dl jardin de infancia, y entonces administra una baceria de pruebas y descarta a los estudiantes con ‘puncajes bajos. Silos puncajes mas altos, efectiva- ‘mente, predicen un desempeio més alt en creas clave del jardin de infancia, la afirmacién de que 1 uso de los puntajes de la prueba para seleccio- nar resultados en desempefio més alto en estas tareas clave estd respaldada y la interpretacién de los puntajs de ls pruebas como un predictor de ppreparacin para el jardin de infanca seria vido. Sin embargo, si se hiciera fa afirmacién de que el uso de los puntajes de las pruebas para la selec- cidn darfa por resultado el mayor beneficio para los estudiantes, la interpretacién de los puntajes de las pruebas como indicadores de preparacién para el jardin de infancia no podela ser vélida por- ‘que los estudiantes con puntajes bajos podrian vauioez cfectivamente beneficiatse més con el acceso al jardin de infancia, En este caso, se necesita evi- dencia diferente para respaldar diferentes afima- ciones que podsfan hacerse sobre el mismo uso de la prueba de seleccidn (por ejemplo, evidencia de que los estudiantes por debsjo de un determi- nado puntaje de corte se beneficiasfan més con ‘otra asignacién que con la asignacién al jardin de infancia). El desartollador de la prueba es respon- sable de la validacién de la interpretacién de que los puntajes de la prueba determinan las habilids- desde preparacién indicadas, El distrto escolar es responsable de la validacién de la incerpretacin adecuada de los puntajes de la prueba de prepa racidn y de la evaluacién de la politica de usar Ia prucba de preparacin para las decisiones de colocacidn/admision, ‘Afirmaciones hechas sobre el uso de la prucba ‘que no se basan directamente en interpretacio- nes de los puntajes de la prueba. A veces se hacen afirmaciones sobre los beneficios de las pruebas que van mas allé de las interpretaciones directa 6 usos de los puntajes de la prueba propiamente dlichos que son especificados por los desarolla- dotes de la prueba. Las pruebas educativas, por ejemplo, pueden defenderse con el fundamento de que su uso mejoraré la motivacin de los estu- lanes para aprender o fomentard cambios en las pricticas de instruccidn en el aula al responsabili- zara los educadores de resultados de aprendiaje valorados. Cuando esas afirmaciones son eentra Jes para la razén fundamental adelantada para las pruebas, el examen directo de las consecuencias de la prueba necesariamente cobra aiin més im- portancia. Quienes hacen esas afiemaciones son. responsables de laevaluacidn de las afrmaciones. En algunos casos, esa informacién puede obte- nrse de datos exstentesteunidos para fines dis- tinos dela validacién de la pruebas en otros casos se necesitaré nueva informacién para abordar el impacto del programa de pruebas. Consecuencias que son imprevistas, La inter- pretacién de los puntajes de fa prueba para un uso dado puede dar por resultado consecuen- cas imprevistas, Una distincién clave es entre a capiruto1 consecuencias que surgen de una fuente de ertor cn la incerprecacién prevista de los puntajs de la prueba para un uso dado y las consecuencias que no resultan de un error en la incerprecacion de Tos puncajes de la prueba A continuacién, se dan cjemplos de cada una, Como se analiza con cierta extensién en el capitulo 3, un dominio en el que a veces se obser- van consccuencias negativas imprevistas del uso de las pruebas involucra diferencias de puntajes dela prucba para grupos definidos en términos de razalorigen éinico, géneto, edad y ouras caracte- rsticas, En esos casos, no obstance, es importante discinguir entte evidencia que es directamente relevance para la valides y evidencia que puede informar decisiones sobre politica social, pero queda fuera del terreno de la validea. Por ejem- plo, se han planceado inquietudes sobre el efecto de las diferencias de geupos en Tos puncajes de las pruebas en la seleecidn y promocién laborales, [a colocacién de nifios en clases de educacién espe- cial y el acotamiento del plan de estudios de la escuela para excluir objecivos de aprendizaje que no se evaldan, Si bien la informaciéa sobre las consecuencias de ls pruebas puede influ en las decisiones sobre el uso de la prueba, esas conse- ceuencias, de por sf, no le restan valor a la validee de la incerpretaciones previstas de los puntajes de Ia prueba, En cambio, los juicis de valider 0 falta desta ala luz de las consecuencias de las prucbas dependen de una investigacién més minuciosa de Tas fuences de esas conseewencis. Por ejemplo, una conclusién de diferentes ta: sas de contratacién para miembros de diferentes grupos come una consecuencia de utilizar una prueba de empleo, Si Ia diferencia se debe ex- clusivamente a una distribucién desigual de las habilidades que la prueba pretende medi, y si ‘sas habilidades son, de hecho, factores de con- iibucién importantes para el desempefio labora, centonces encontrar diferencias ence los grupos de pot sino implica ninguna falta de vaidee para la interpretacién prevista. Sin embargo, sila prueba ‘idiera diferencias de habilidades no relacionadas con el desempetio laboral (p. ¢)., una prueba de Tectuta sofisticada para un puesto de erabajo que requetia solo alfabetizacién funcional minima), 0 2 silas diferencias se debieran a la sensibilidad dela prueba ance alguna caracterstica del examinando que no tenia por objeto ser parte del constructo de la prueba, entonces la interpretacién prevista de los puncajes de la prucha como predictozes del desempefio laboral en una manera comparable para todos los grupos de solicitances se conside- rarfa invélida, incluso i los puntajes de la prueba se correlacionaran posiivamente con alguna me- dida de desempetio laboral, Si una prueba cubre I mayorfa del dominio de contenido relevante, pero omite algunas deeas, Ia cobercura de conce- ride podria considerarse inadecuada para algunos fines. Sin embargo, si se determina que excluir algunos componentes que podsian evaluasse de imediaco tiene un impacto notable en las tasas de seleccién para grupos de interés (p. ej, se de- ermina que las diferencias entte subgeupos son ‘menores en componentes excluidos que en ponentes incluidos), la incerpretacién previsa de Tos puntajes de la prueba como predictores del desempefio laboral en una manera comparable para todos los grupos de solicitances se consi- derarfa invdlida, Por lo canto, la evidencia sobre consecuencias es relevante para la valides cuando puede trazarse hacia una fuente de invalider como Is infrartepresentacién de constructo © compo- nnentes ierelevances de consteucto. La evidencia sobre consecuencias que no puede cazarse asf no cs relevante para la vides de las interpretaciones previstas de los puntajes de la prueba. En otro ejemplo, consideremos el caso en el aque la investigacidn respalda el uso por parte de tun empleador de una prueba en particular en el dominio de la personalidad (es decir, la prueba demuestra que es predictiva de un aspecto del posterior desempefio laboral), pero se determina ue algunos solictantes se forman una opinién nnegativa de la organizacién debide ala percepeién de que la prucba invade la privacidad personal. Por lo tanto, hay una consecuencia negativa prevista del uso de la prueba, pero que no se debe aun defecto en la interpretacién prevista de los puntajes de la prueba como predictor del desen pefio posterior. Ante esta situacién, algunos en pleadores pueden concluir que esta consecuencia nnegativa es un motivo para discontinuar el uso de la prueba; otros pueden concluir que los benefi- ios obtenidos al seleccionar a solicitantes supe- ran esta consecuencia negativa, Como mucstra ‘este eiemplo, una consideracién de consecuencias puede influir en una decisién sobre el uso de la prueba, aunque la consecuencia sea indepen- diente de la valider de la interpretacién prevista de los puntajes de fa prueba, El ejemplo ambién muestra que diferentes responsables de comar de- cisiones pueden hacer diferentes juicios de valor sobre el impacto de las consecuencias en el use dela prueba, El hecho de que a evidencia de validacign res- ppalde la interpretacién prevista de los puntajes de la prueba para usar en la seleccidn de solicitantes no significa que enconces se requiera el uso de la prueba: Cuestiones distintas de la vaidea, inclu- yyendo restricciones legales, pueden tener un papel importante y, en algunos casos, deters las decisiones sobre el uso de la prueba, Las res- twicciones legales también pueden limicar la dis- cerecidn de un empleador para descartar puntajes de la prueba que ya se han administrado, cuando ‘esa decisibn se basa en diferencias en los puntajes para subgrupos de diferentes razas,origenes éeni- ‘cos 0 géneros. Ténguse en cuenta que las consecuencias im- previstas ambign pueden ser positivas. Si se vierte el ejemplo anterior de examinandos que se forman una impresién negativa de una organiea- ign sobre la base del uso de una prueba en par- ticular, una prueba diferente puede ser percibida favorablemente por los solictantes, lo que lleva a tuna impresida positiva de la organizaciéa, Un uso

También podría gustarte