Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Publicado por la
American Educational Research Association
1430 K St., NW, Suite 1200
Washington, DC 20005, EE. UU.
Preparado por el
Comité Conjunto sobre los Estándares para Pruebas Educativas y Psicológicas de la American Educational
Research Association, la American Psychological Association y el National Council on Measurement in
Education
ISBN 978-0-935302-74-5
ii
PREFACIO������������������������������������������������������������������������������������������������������������������� ix
INTRODUCCIÓN����������������������������������������������������������������������������������������������������������� 1
La finalidad de los Estándares��������������������������������������������������������������������������������������������������1
Descargo de responsabilidad legal��������������������������������������������������������������������������������������������1
Pruebas y usos de las pruebas a los que se aplican estos Estándares�������������������������������������������2
Participantes en el proceso de prueba���������������������������������������������������������������������������������������3
Alcance de la revisión���������������������������������������������������������������������������������������������������������������4
Organización del volumen�������������������������������������������������������������������������������������������������������5
Categorías de estándares����������������������������������������������������������������������������������������������������������6
Presentación de estándares individuales������������������������������������������������������������������������������������6
Precauciones que deben considerarse al utilizar los Estándares�������������������������������������������������8
PARTE I
FUNDAMENTOS
1. Validez����������������������������������������������������������������������������������������������������������������������������������11
Antecedentes�������������������������������������������������������������������������������������������������������������������������11
Fuentes de evidencia de validación������������������������������������������������������������������������������������14
Integración de la evidencia de validación���������������������������������������������������������������������������23
Estándares de validez�������������������������������������������������������������������������������������������������������������25
Unidad 1. Establecimiento de usos e interpretaciones previstos�����������������������������������������25
Unidad 2. Cuestiones respecto de las muestras y contextos utilizados en la validación�������27
Unidad 3. Formas específicas de evidencia de validación���������������������������������������������������28
2. Confiabilidad/Precisión Y Errores De Medida���������������������������������������������������������������������35
Antecedentes�������������������������������������������������������������������������������������������������������������������������35
Implicaciones para la validez���������������������������������������������������������������������������������������������37
Especificaciones para replicaciones del procedimiento de evaluación���������������������������������37
Evaluación de la confiabilidad/precisión����������������������������������������������������������������������������39
Coeficientes de confiabilidad/generabilidad�����������������������������������������������������������������������40
Factores que afectan la confiabilidad/precisión������������������������������������������������������������������41
Errores estándares de medida��������������������������������������������������������������������������������������������42
Coherencia de decisiones��������������������������������������������������������������������������������������������������43
Confiabilidad/precisión de medias de grupos��������������������������������������������������������������������43
Documentación de la confiabilidad/precisión��������������������������������������������������������������������44
Estándares de confiabilidad/precisión�����������������������������������������������������������������������������������46
Unidad 1. Especificaciones para replicaciones del procedimiento de evaluación����������������46
Unidad 2. Evaluación de la confiabilidad/ precisión����������������������������������������������������������47
Unidad 3. Coeficientes de confiabilidad/generabilidad������������������������������������������������������48
Unidad 4. Factores que afectan la confiabilidad/precisión��������������������������������������������������49
Unidad 5. Errores estándares de medida����������������������������������������������������������������������������50
Unidad 6. Coherencia de decisiones����������������������������������������������������������������������������������51
iii
PARTE II
OPERACIONES
4. Diseño y Desarrollo de Pruebas������������������������������������������������������������������������������������������85
Antecedentes�������������������������������������������������������������������������������������������������������������������������85
Especificaciones de la prueba���������������������������������������������������������������������������������������������86
Desarrollo y revisión de ítems�������������������������������������������������������������������������������������������93
Reunión y evaluación de formularios de prueba����������������������������������������������������������������94
Desarrollo de procedimientos y materiales para administración y calificación��������������������94
Revisiones de las pruebas���������������������������������������������������������������������������������������������������95
Estándares para el diseño y desarrollo de pruebas�����������������������������������������������������������������96
Unidad 1. Estándares para especificaciones de la prueba����������������������������������������������������96
Unidad 2. Estándares para el desarrollo y la revisión de ítems��������������������������������������������99
Unidad 3. Estándares para desarrollar procedimientos y materiales
de administración y calificación de pruebas����������������������������������������������������������������102
Unidad 4. Estándares para revisión de pruebas����������������������������������������������������������������105
5. Puntajes, Escalas, Normas, Vinculación de Puntajes
y Puntajes de Corte������������������������������������������������������������������������������������������������������������107
Antecedentes�����������������������������������������������������������������������������������������������������������������������107
Interpretaciones de puntajes��������������������������������������������������������������������������������������������108
Normas���������������������������������������������������������������������������������������������������������������������������109
Vinculación de puntajes��������������������������������������������������������������������������������������������������110
Puntajes de corte�������������������������������������������������������������������������������������������������������������113
iv
PARTE III
APLICACIONES DE LAS PRUEBAS
10. Pruebas y Evaluación Psicológicas���������������������������������������������������������������������������������169
Antecedentes�����������������������������������������������������������������������������������������������������������������������169
Selección y administración de pruebas����������������������������������������������������������������������������170
Interpretación de los puntajes de las pruebas�������������������������������������������������������������������172
Información colateral usada en pruebas y evaluación psicológicas������������������������������������174
Tipos de pruebas y evaluación psicológicas����������������������������������������������������������������������174
Propósitos de las pruebas y evaluación psicológicas���������������������������������������������������������178
Resumen�������������������������������������������������������������������������������������������������������������������������183
Estándares para las pruebas y la evaluación psicológicas�����������������������������������������������������184
Unidad 1. Cualificaciones del usuario de la prueba���������������������������������������������������������184
Unidad 2. Selección de pruebas���������������������������������������������������������������������������������������185
Unidad 3. Administración de pruebas�����������������������������������������������������������������������������185
Unidad 4. Interpretación de pruebas�������������������������������������������������������������������������������186
Unidad 5. Seguridad de pruebas��������������������������������������������������������������������������������������188
11. Pruebas y Acreditación En El Centro de Trabajo�������������������������������������������������������������189
Antecedentes�����������������������������������������������������������������������������������������������������������������������189
Pruebas de empleo����������������������������������������������������������������������������������������������������������190
Pruebas en la acreditación profesional y ocupacional�������������������������������������������������������195
Estándares para pruebas y acreditación en el centro de trabajo�������������������������������������������199
Unidad 1. Estándares aplicables con carácter general a las pruebas y la
acreditación en el centro de trabajo����������������������������������������������������������������������������199
Unidad 2. Estándares para las pruebas de empleo������������������������������������������������������������200
Unidad 3. Estándares para la acreditación�����������������������������������������������������������������������203
12. Pruebas y Evaluación Educativas�������������������������������������������������������������������������������������205
Antecedentes�����������������������������������������������������������������������������������������������������������������������205
Diseño y desarrollo de evaluaciones educativas����������������������������������������������������������������206
Uso e interpretación de evaluaciones educativas��������������������������������������������������������������211
Administración, calificación y presentación de reportes de
evaluaciones educativas����������������������������������������������������������������������������������������������216
Estándares para pruebas y evaluación educativas����������������������������������������������������������������219
Unidad 1. Diseño y desarrollo de evaluaciones educativas�����������������������������������������������219
Unidad 2. Uso e interpretación de evaluaciones educativas����������������������������������������������221
Unidad 3. Administración, calificación y presentación de reportes
de evaluaciones educativas������������������������������������������������������������������������������������������224
13. Uso de Pruebas Para la Evaluación de Programas,
Estudios de Políticas y Rendición de Cuentas�����������������������������������������������������������������227
Antecedentes�����������������������������������������������������������������������������������������������������������������������227
Evaluación de programas e iniciativas de políticas�����������������������������������������������������������228
Sistemas de rendición de cuentas basada en pruebas��������������������������������������������������������230
vi
Glosario���������������������������������������������������������������������������������������������������������������� 241
Índice���������������������������������������������������������������������������������������������������������������������� 257
vii
La presente edición de los Estándares para Prue- financieros y un fondo de desarrollo; y realizar
bas Educativas y Psicológicas está patrocinada por otras tareas relacionadas con la revisión y la publi-
la American Educational Research Association cación de los Estándares.
(AERA; Asociación Estadounidense de Inves-
tigación Educativa), la American Psychological Comité Directivo de los Estándares
Association (APA; Asociación Estadounidense Wayne J. Camara (Presidente), designado por la APA
de Psicología) y el National Council on Measu- David Frisbie (2008—presente), designado por el
rement in Education (NCME; Consejo Nacio- NCME
nal de Medición en Educación). Documentos Suzanne Lane, designada por la AERA
Barbara S. Plake (2005—2007), designada por el NCME
anteriores de las organizaciones patrocinadoras
también sirvieron de guía para el desarrollo y uso La presente edición de los Estándares fue desa-
de pruebas. El primero fue las Recomendaciones rrollada por el Comité Conjunto sobre los Es-
Técnicas para las Pruebas Psicológicas y las Téc- tándares para Pruebas Educativas y Psicológicas,
nicas de Diagnóstico, elaborado por un comité designado por el Comité de Directivo de los
de la APA y publicadas por la APA en 1954. El Estándares en 2008. Los miembros del Comité
segundo fue las Recomendaciones Técnicas para Conjunto son miembros de al menos una de las
Pruebas de Rendimiento, elaborado por un co- tres organizaciones patrocinadoras, AERA, APA
mité que representaba a la AERA y al National y NCME. El Comité Conjunto tuvo a su cargo
Council on Measurement Used in Education la revisión de los Estándares y la elaboración del
(NCMUE; Consejo Nacional sobre Medición documento final para su publicación. Su primera
Utilizada en Educación) y publicadas por la Na- reunión tuvo lugar en enero de 2009.
tional Education Association (Asociación Nacio-
nal de Educación) en 1955. Comité Conjunto sobre los Estándares para
El tercero, que reemplazó a los dos anteriores, Pruebas Educativas y Psicológicas
fue elaborado por un comité conjunto que repre- Barbara S. Plake (Copresidente)
sentaba a la AERA, la APA y el NCME y fue pu- Lauress L. Wise (Copresidente)
blicado por la APA en 1966. Se trató de la primera Linda L. Cook
edición de los Estándares para Pruebas Educati- Fritz Drasgow
vas y Psicológicas, también conocidos como los Brian T. Gong
Estándares. Las tres ediciones posteriores de los Laura S. Hamilton
Estándares fueron elaboradas por comités con- Jo-Ida Hansen
juntos que representaban a la AERA, la APA y el Joan L. Herman
Michael T. Kane
NCME, publicadas en 1974, 1985 y 1999.
Michael J. Kolen
El actual Comité Directivo de los Estándares Antonio E. Puente
fue formado por la AERA, la APA y el NCME, Paul R. Sackett
las tres organizaciones patrocinadoras, en 2005, Nancy T. Tippins
integrado por un representante de cada organi- Walter D. Way
zación. Las responsabilidades del comité inclu- Frank C. Worrell
yeron determinar si era necesaria una revisión
de los Estándares de 1999 y luego crear el cargo, Cada organización patrocinadora designó uno
presupuesto y cronograma de trabajo para un co- o dos intermediarios, algunos de los cuales
mité conjunto; designar copresidentes y miem- eran miembros del Comité Conjunto, para ac-
bros del comité conjunto; supervisar los asuntos tuar como canales de comunicación entre las
ix
xi
La evaluación y las pruebas educativas y psi- relevantes. Todos los desarrolladores, patrocina-
cológicas se encuentran entre los aportes más dores, editores y usuarios profesionales de pruebas
importantes que las ciencias cognitivas y del deben hacer esfuerzos razonables para cumplir y
comportamiento han hecho a nuestra sociedad, seguir los Estándares y deben alentar a los demás
al brindar fuentes fundamentales y significativas a hacerlo. Todos los estándares aplicables deben
de información sobre individuos y grupos. No to- ser cumplidos por todas las pruebas y en todos los
das las pruebas están bien desarrolladas, ni todas usos de las pruebas a menos que exista un motivo
las prácticas de desarrollo de pruebas son sensatas profesional sólido que demuestre por qué un es-
o beneficiosas, pero existe amplia evidencia que tándar no es relevante o técnicamente viable en
documenta la utilidad de las pruebas bien cons- un caso en particular.
truidas y bien interpretadas. Las pruebas bien Los Estándares no intentan proporcionar
construidas que son válidas para sus fines previs- respuestas psicométricas a preguntas de política
tos presentan el potencial de brindar beneficios pública respecto del uso de pruebas. En general,
sustanciales para los examinandos y los usuarios los Estándares proponen que, dentro de límites
de las pruebas. Su uso adecuado puede dar lugar viables, se ponga a disposición información téc-
a mejores decisiones sobre individuos y progra- nica de modo que los involucrados en las deci-
mas que las que se generarían sin su uso y tam- siones sobre políticas puedan estar plenamente
bién pueden proporcionar un camino hacia un informados.
acceso más amplio y equitativo a la educación y
el empleo. El uso inadecuado de las pruebas, por Descargo de responsabilidad legal
otra parte, puede dar lugar a un daño considera-
ble para los examinandos y otras partes afectadas Los Estándares no constituyen una declaración de
por las decisiones basadas en las pruebas. La in- requisitos legales, y el cumplimiento con los Es-
tención de los Estándares para Pruebas Educa- tándares no sustituye el asesoramiento legal. Nu-
tivas y Psicológicas es promover prácticas sólidas merosas leyes, regulaciones, normas y decisiones
de desarrollo de pruebas y brindar una base para judiciales federales, estatales y locales se relacio-
evaluar la calidad de esas prácticas. Los Estánda- nan con algunos aspectos del uso, la producción,
res están dirigidos a profesionales que especifican, el mantenimiento y el desarrollo de pruebas y
desarrollan o seleccionan pruebas y para quienes resultados de pruebas e imponen estándares que
interpretan los resultados de las pruebas o evalúan pueden ser diferentes para los diferentes tipos de
su calidad técnica. pruebas. La revisión de estas cuestiones legales ex-
cede el alcance de los Estándares, cuyo propósito
La finalidad de los Estándares distintivo es establecer los criterios para prácticas
sólidas de desarrollo de pruebas desde la perspec-
La finalidad de los Estándares es proporcionar cri- tiva de profesionales de las ciencias cognitiva y del
terios para el desarrollo y la evaluación de prue- comportamiento. En los casos en que al parecer
bas y prácticas de desarrollo de pruebas y brindar uno o más estándares abordan una cuestión res-
pautas para evaluar la validez de las interpretacio- pecto de la cual los requisitos legales establecidos
nes de los puntajes de las pruebas para los usos pueden ser especialmente relevantes, el están-
previstos de las pruebas. Si bien esas evaluaciones dar, comentario o material introductorio puede
deberían depender ampliamente del juicio profe- tomar nota de ese hecho. La falta de referencia
sional, los Estándares brindan un marco de refe- específica a requisitos legales, no obstante, no im-
rencia para garantizar que se aborden cuestiones plica la ausencia de un requisito legal relevante.
Al aplicar estándares a nivel internacional, las inventario se utilizan para medidas de actitudes,
diferencias legales pueden dar lugar a cuestiones interés y disposiciones, los Estándares utilizan el
adicionales o requerir un tratamiento diferente de único término prueba para referirse a todos esos
las cuestiones. dispositivos evaluativos.
En algunas áreas, como la recopilación, aná- En ocasiones se hace una distinción entre
lisis y uso de datos y resultados de pruebas para pruebas y evaluaciones. Evaluación es un término
diferentes subgrupos, la ley puede tanto reque- más amplio que prueba; comúnmente se refiere
rir que los participantes en el proceso de prueba a un proceso que integra la información de la
hagan determinadas acciones como prohibir prueba con información de otras fuentes (p. ej.,
que esos participantes hagan otras acciones. Asi- información de otras pruebas, inventarios y entre-
mismo, debido a que la ciencia de las pruebas es vistas; o de los antecedentes sociales, educativos,
una disciplina en evolución, es posible que las re- laborales, de salud o psicológicos de la persona).
visiones recientes de los Estándares no se reflejen La aplicabilidad de los Estándares a un dispositivo
en autoridades legales existentes, incluidas deci- o método de evaluación se determina por el con-
siones judiciales y pautas de organismos. En todas tenido y no se altera por el término aplicado a este
las situaciones, los participantes en el proceso de (p. ej., prueba, evaluación, escala, inventario). Los
prueba deberían obtener el consejo de un asesor Estándares no deben utilizarse como una lista de
respecto de los requisitos legales aplicables. comprobación, como se destaca en la sección
Además, si bien las organizaciones patrocina- “Precauciones que deben considerarse al utilizar
doras no pueden hacer cumplir los Estándares, las los Estándares” al final de este capítulo.
autoridades de regulación y los tribunales los han Las pruebas difieren en una serie de dimen-
reconocido en reiteradas oportunidades como el siones: el modo en que se presentan los materiales
establecimiento de estándares profesionales gene- de la prueba (p. ej., papel y lápiz, administración
ralmente aceptados que siguen los desarrolladores oral o por computadora); el grado con el que se
y usuarios de pruebas y otros procedimientos de estandarizan los materiales de estímulo; el tipo de
selección. El cumplimiento o incumplimiento de formato de respuesta (selección de una respuesta
los Estándares puede utilizarse como evidencia re- de un conjunto de alternativas, en oposición a la
levante de responsabilidad legal en procedimien- producción de una respuesta en forma libre); y
tos judiciales y regulatorios. Los Estándares, por el grado con el que se diseñan los materiales de
lo tanto, merecen la consideración atenta de todos la prueba para reflejar o simular un contexto en
los participantes en el proceso de prueba. particular. En todos los casos, no obstante, las
Ninguna parte de los Estándares tiene por pruebas estandarizan el proceso mediante el cual
objeto constituir asesoramiento legal. Además, se evalúan y califican las respuestas de los exami-
los editores niegan toda responsabilidad generada nandos a los materiales de la prueba. Como se
por la participación en el proceso de prueba. observó en versiones anteriores de los Estándares,
se necesitan los mismos tipos generales de infor-
Pruebas y usos de las pruebas a los que mación para juzgar la solidez de los resultados ob-
se aplican estos Estándares tenidos del uso de todas las variedades de pruebas.
La demarcación precisa entre dispositivos de
Una prueba es un dispositivo o procedimiento en medición utilizados en los campos de las pruebas
el cual se obtiene y posteriormente se evalúa y ca- educativas y psicológicas que se encuadran y no
lifica una muestra del comportamiento de un in- se encuadran dentro del alcance de los Estánda-
dividuo examinado en un dominio especificado, res es difícil de identificar. Si bien los Estánda-
a través de un proceso estandarizado. Si bien el res se aplican de manera más directa a medidas
término prueba en ocasiones se reserva a instru- estandarizadas generalmente reconocidas como
mentos en los que las respuestas se evalúan según “pruebas”, como medidas de habilidad, aptitud,
su corrección o calidad, y los términos escala e rendimiento, actitudes, intereses, personalidad,
funcionamiento cognitivo y salud mental, los Es- trabajo, empleados, clientes, pacientes, supervi-
tándares también pueden aplicarse con utilidad sores, ejecutivos y evaluadores, entre otros. Las
en diversos grados a una amplia variedad de téc- instituciones afectadas incluyen escuelas, universi-
nicas de evaluación menos formales. La aplicación dades, empresas, la industria, clínicas psicológicas
rigurosa de los Estándares a evaluaciones de em- y organismos gubernamentales. Los individuos y
pleo no estandarizadas (como algunas entrevistas las instituciones se benefician cuando las pruebas
de trabajo) o a la amplia variedad de muestras de los ayudan a alcanzar sus metas. La sociedad, a su
comportamiento no estructurado utilizadas en vez, se beneficia cuando las pruebas contribuyen
algunas formas de evaluación clínica y psicoló- al logro de metas individuales e institucionales.
gica escolar (p. ej., una entrevista de admisión) o Hay muchos participantes en el proceso de
a pruebas hechas por instructores que se utilizan prueba, que incluyen, entre otros, los siguien-
para evaluar el desempeño estudiantil en educa- tes: (a) los que preparan y desarrollan la prueba;
ción y capacitación, por lo general no es posible. (b) los que publican y comercializan la prueba;
Resulta útil distinguir entre dispositivos que rei- (c) los que administran y califican la prueba;
vindican los conceptos y técnicas del campo de (d) los que interpretan los resultados de la prueba
las pruebas educativas y psicológicas y los disposi- para los clientes; (e) los que utilizan los resultados
tivos que representan ayudas no estandarizadas o de la prueba para algún fin de toma de decisiones
menos estandarizadas a las decisiones evaluativas (incluidos los responsables de formular políticas
diarias. Si bien los principios y conceptos sub- y quienes utilizan datos para informar la política
yacentes a los Estándares pueden aplicarse con social); (f ) los que se someten a la prueba por elec-
éxito a las decisiones diarias —como cuando un ción, instrucción o necesidad; (g) los que patroci-
empresario entrevista a un solicitante de empleo, nan las pruebas, como juntas que representan a
un gerente evalúa el desempeño de subordinados, instituciones u organismos gubernamentales que
un profesor desarrolla una evaluación en el aula tienen contrato con una desarrollador de prue-
para monitorear el progreso de los estudiantes ha- bas para un instrumento o servicio específico; y
cia una meta educativa, o un entrenador evalúa (h) los que seleccionan o revisan las pruebas, eva-
a un futuro deportista—, sería excesivo esperar luando sus méritos comparativos o la aptitud para
que quienes toman esas decisiones sigan los es- los usos propuestos. En general, quienes partici-
tándares del campo de las pruebas educativas y pan en el proceso de prueba deben tener cono-
psicológicas. Por el contrario, un sistema de en- cimiento adecuado de las pruebas y evaluaciones
trevistas estructurado desarrollado por un psicó- para permitirles tomar buenas decisiones sobre
logo y acompañado por afirmaciones de que se qué pruebas usar y cómo interpretar los resulta-
ha determinado que el sistema es predictivo del dos de las pruebas.
desempeño laboral en diversos otros contextos se Los intereses de las diversas partes involu-
encuadra dentro del alcance de los Estándares. cradas en el proceso de prueba pueden ser con-
Adherir a los Estándares se vuelve más crítico a gruentes o no. Por ejemplo, cuando se toma una
medida que aumentan los riesgos para el exami- prueba para fines de asesoramiento o para una
nando y la necesidad de proteger al público. colocación laboral, los intereses del individuo y
de la institución suelen coincidir. Por el contra-
Participantes en el proceso de prueba rio, cuando una prueba se utiliza para hacer una
selección de entre muchos individuos para un
La evaluación y las pruebas educativas y psico- puesto altamente competitivo o para ingresar en
lógicas involucran y afectan significativamente un programa educativo o de capacitación, es posi-
a individuos, instituciones y a la sociedad en su ble que las preferencias de un solicitante no coin-
conjunto. Los individuos afectados incluyen es- cidan con las de un empleador o responsable de
tudiantes, padres, familias, profesores, adminis- admisiones. De manera similar, cuando las prue-
tradores educativos, solicitantes de puestos de bas son ordenadas por un tribunal, los intereses
del examinando pueden ser diferentes de los de la sus roles, así como un conocimiento de factores
parte que solicita la orden judicial. personales y contextuales que pueden influir en
Los individuos o instituciones pueden cumplir el proceso de desarrollo de la prueba. Por ejem-
varios roles en el proceso de prueba. Por ejemplo, plo, los desarrolladores de pruebas y los que se-
en clínicas el examinando suele ser el beneficiario leccionan pruebas e interpretan los resultados de
previsto de los resultados de la prueba. En algunas las pruebas necesitan un conocimiento adecuado
situaciones, el administrador de la prueba es un de los principios psicométricos como validez y
representante del desarrollador de la prueba, y en confiabilidad. También deben obtener cualquier
ocasiones el administrador de la prueba es tam- credencial de experiencia supervisada y de ejer-
bién el usuario de la prueba. Cuando una orga- cicio obligatoria por ley que corresponda, que se
nización prepara sus propias pruebas de empleo, requiera para cumplir de manera competente con
es tanto el desarrollador como el usuario. A ve- todos los aspectos del proceso de desarrollo de la
ces, una prueba es desarrollada por un autor de la prueba en el que participen. Todos los profesiona-
prueba, pero es luego publicada, comercializada y les en el proceso de desarrollo de la prueba deben
distribuida por un editor independiente, aunque seguir las pautas éticas de su profesión.
el editor puede desempeñar un rol activo en el
proceso de desarrollo de la prueba. Los roles, a su Alcance de la revisión
vez, también pueden subdividirse. Por ejemplo,
tanto una organización como un evaluador profe- Este volumen funciona como una revisión de
sional pueden desempeñar un rol en la provisión los Estándares para Pruebas Educativas y Psico-
de un centro de evaluaciones. Dada esta mezcla lógicas de 1999. El proceso de revisión comenzó
de roles, suele ser difícil asignar la responsabilidad con la designación de un Comité Directivo com-
precisa de abordar diversos estándares a partici- puesto por representantes de las tres organiza-
pantes específicos en el proceso de prueba. Los ciones patrocinadoras responsables de supervisar
usos de pruebas y prácticas de desarrollo de prue- la dirección general de la iniciativa: la American
bas se mejoran en la medida en que las personas Educational Research Association (AERA), la
involucradas tienen niveles adecuados de conoci- American Psychological Association (APA) y el
mientos en evaluación. National Council on Measurement in Educa-
Las pruebas son diseñadas, desarrolladas y uti- tion (NCME). Para brindar orientación para la
lizadas de diversas maneras. En algunos casos, son revisión, el Comité Directivo solicitó y resumió
desarrolladas y “publicadas” para usarse fuera de comentarios sobre los Estándares de 1999 de
la organización que las produce. En otros casos, al miembros de las organizaciones patrocinadores
igual que las evaluaciones educativas, son diseña- y en 2009 convocó al Comité Conjunto para la
das por el organismo educativo estatal y desarrolla- Revisión de los Estándares de 1999 para que efec-
das por contratistas para uso exclusivo y a menudo tuara la revisión propiamente dicha. El Comité
por única vez del estado y en realidad no se “pu- Conjunto también estuvo compuesto por miem-
blican”. A lo largo de los Estándares, utilizamos el bros de las tres organizaciones patrocinadoras y el
término general desarrollador de la prueba, en lu- Comité Directivo le encargó abordar cinco áreas
gar del término más específico editor de la prueba, principales: considerar las cuestiones de rendición
para hacer referencia a las personas involucradas en de cuentas para uso de pruebas en política educa-
el diseño y desarrollo de pruebas en toda la gama tiva; ampliar el concepto de accesibilidad de las
competa de escenarios de desarrollo de pruebas. pruebas para todos los individuos examinados;
Los Estándares parten de la premisa de que representar de manera más completa el rol de las
las pruebas y evaluaciones efectivas requieren que pruebas en el centro de trabajo; ampliar el rol de
todos los profesionales del proceso de desarrollo la tecnología en el desarrollo de pruebas; y dispo-
de la prueba tengan el conocimiento, las habili- ner una mejor estructura organizativa para comu-
dades y las capacidades necesarias para cumplir nicar los estándares.
Para responder a esta tarea, se tomaron varias cambio importante en la organización de este
medidas: volumen tiene que ver con la conceptualiza-
ción de la imparcialidad. La edición de 1999
• Los capítulos “Pruebas y evaluación educati-
tenía una parte dedicada a este tema, con ca-
vas” y “Pruebas en la evaluación de programas
pítulos separados titulados “Imparcialidad en
y política pública”, en la versión de 1999, se
las pruebas y uso de pruebas”, “Pruebas a per-
reescribieron para atender a las cuestiones aso-
sonas de características lingüísticas diversas” y
ciadas con los usos de pruebas para fines de
“Pruebas a personas con discapacidades”. En
rendición de cuentas en materia educativa.
la presente edición, los temas abordados en
• Se escribió un nuevo capítulo, “Imparcia- esos capítulos se combinan en un único ca-
lidad en las pruebas” para hacer hincapié pítulo integral, y el capítulo se encuentra en
en la accesibilidad y la imparcialidad como la Parte I. Este cambio se hizo para destacar
cuestiones fundamentales en las pruebas. A que la imparcialidad exige que todos los exa-
lo largo de todos los capítulos de los Están- minandos sean tratados con imparcialidad. La
dares se hilvanan cuestiones específicas sobre imparcialidad y la accesibilidad, la oportuni-
imparcialidad. dad no obstruida para que todos los indivi-
duos examinados demuestren su situación en
• El capítulo “Pruebas relacionadas con empleo el o los constructos que se miden, son relevan-
y acreditación” (ahora, “Pruebas y acredita- tes para hacer interpretaciones válidas de los
ción en el centro de trabajo”) se reorganizó puntajes para todos los individuos y subgru-
para identificar de manera más clara cuándo pos en la población prevista de examinandos.
un estándar es relevante para el empleo y/o Debido a que las cuestiones relacionadas con
acreditación. la imparcialidad en las pruebas no se restrin-
• En todo el volumen se consideró el impacto gen a individuos con características lingüísti-
de la tecnología. Uno de los principales pro- cas diversas o con discapacidades, el capítulo
blemas que se identificaron en relación con se amplió para recoger experiencias de prue-
la tecnología fue la tensión entre el uso de bas adecuadas para todos los individuos. Si
algoritmos patentados y la necesidad de que bien los ejemplos del capítulo suelen referirse
los usuarios de pruebas pueden evaluar apli- a individuos con características lingüísticas y
caciones complejas en áreas como calificación culturales diversas y a individuos con discapa-
automatizada de ensayos, administración y cidades, también incluyen ejemplos relevantes
calificación de tipos de ítems innovadores y al género y a adultos mayores, personas de
pruebas basadas en computadora. Estos pro- diversos orígenes étnicos y raciales, y niños
blemas se consideran en el capítulo “Diseño y pequeños, para ilustrar los posibles obstáculos
desarrollo de pruebas”. a una evaluación imparcial y equitativa para
todos los individuos examinados.
• Se contrató a un editor de contenidos para que
ayudara con la precisión y claridad técnicas de Organización del volumen
cada capítulo y con la coherencia de lenguaje
entre los capítulos. Como se observa a conti- La Parte I de los Estándares, “Fundamentos”, con-
nuación, los capítulos de la Parte I (“Funda- tiene estándares de validez (cap. 1); confiabilidad/
mentos”) y de la Parte II (“Operaciones”) aho- precisión y errores de medición (cap. 2); e impar-
ra tienen un “estándar global” y temas en los cialidad en las pruebas (cap. 3). La Parte II, “Ope-
que se organizan los estándares individuales. raciones”, aborda el diseño y desarrollo de pruebas
Además, se actualizó el glosario de los Están- (cap. 4); puntajes, escalas, normas, vinculación
dares para Pruebas Educativas y Psicológicas de puntajes y puntajes de corte (cap. 5); admi-
de 1999. Como se observó anteriormente, un nistración de pruebas, calificación, presentación
los estándares. Los estándares a menudo le indi- del contexto. Por ejemplo, los subgrupos étnicos
can a un desarrollador o usuario que implemente referentes que se considerarán durante la fase de
determinadas acciones. Según el tipo de prueba, diseño de una prueba dependerían de la composi-
en ocasiones no está claro en el enunciado de un ción étnica esperada del grupo de prueba previsto.
estándar a quién está dirigido el estándar. Por Además, muchos más subgrupos podrían ser rele-
ejemplo, el Estándar 1.2 en el capítulo “Validez” vantes para un estándar relacionado con el diseño
indica: de preguntas imparciales de la prueba que para
un estándar que se relacione con adaptaciones del
Se debe presentar una razón fun-
formato de una prueba. Los usuarios de los Es-
damental para cada interpreta-
tándares deberán ejercer su juicio profesional al
ción prevista de los puntajes de la
decidir qué subgrupos en particular son relevantes
prueba para un uso determinado,
para la aplicación de un estándar específico.
junto con un resumen de la evi-
Al decidir qué subgrupos son relevantes para
dencia y la teoría que inciden en la
un estándar en particular, pueden considerarse,
interpretación prevista.
entre otros, los siguientes factores: evidencia creí-
La parte responsable de implementar este están- ble que sugiera que un grupo puede enfrentar
dar es la parte o persona que está articulando la obstáculos particulares irrelevantes del constructo
interpretación recomendada de los puntajes de la para evaluar el desempeño, leyes o regulaciones
prueba. Esta puede ser un usuario de la prueba, que designan a un grupo como relevante para
un desarrollador de la prueba o alguien que esté interpretaciones de puntajes, y grandes cantida-
planeando usar los puntajes de la prueba para un des de individuos en el grupo dentro de la po-
fin en particular, como tomar decisiones de clasi- blación general. Dependiendo del contexto, los
ficación u otorgamiento de licencias. A menudo subgrupos relevantes podrían incluir, por ejem-
no es posible especificar en el enunciado de un plo, hombres y mujeres, individuos de diferente
estándar quién es responsable de dichas acciones; nivel socioeconómico, individuos diferentes en
se tiene la intención de que la parte o persona que cuanto a raza y/u origen étnico, individuos con
realiza la acción especificada en el estándar sea la diferentes orientaciones sexuales, individuos con
parte responsable de adherir al estándar. características lingüísticas y culturales diversas (en
Algunos de los estándares individuales y el particular cuando las pruebas se realizan a nivel
texto introductorio se refieren a grupos y subgru- internacional), individuos con discapacidades, ni-
pos. El término grupo por lo general se utiliza ños pequeños o adultos mayores.
para identificar a la población completa de indivi- Se brindan numerosos ejemplos en los Están-
duos examinados, referida como el grupo previsto dares para aclarar puntos o proporcionar ilustra-
de individuos examinados, el grupo previsto de ciones de cómo aplicar un estándar en particular.
examinandos, la población prevista de individuos Muchos de los ejemplos se extraen de investiga-
examinados, o la población. Un subgrupo incluye ciones con estudiantes con discapacidades o per-
miembros de un grupo más amplio que son iden- sonas de grupos de lenguaje o culturales diversos;
tificables de alguna manera que sea relevante para una cantidad menor, de investigaciones con gru-
el estándar que se aplica. Cuando los datos o los pos identificables, como niños pequeños o adul-
análisis se indican para varios subgrupos, por lo tos. También se realizó un esfuerzo mayor para
general se los denomina subgrupos dentro del proporcionar ejemplos de contextos educativos,
grupo previsto de individuos examinados, grupos psicológicos e industriales.
de la población prevista de individuos examina- Los estándares en cada capítulo de las Partes
dos, o subgrupos relevantes. I y II (“Fundamentos” y “Operaciones”) son in-
Al aplicar los Estándares, es importante tener troducidos por un estándar global, diseñado para
presente que los subgrupos referentes previstos transmitir la intención central del capítulo. Es-
para los estándares individuales son específicos tos estándares globales están siempre numerados
con .0 tras el número de capítulo. Por ejemplo, de la prueba hayan satisfecho la intención del
el estándar global en el capítulo 1 está numerado estándar; (c) los dispositivos de medición al-
1.0. Los estándares globales resumen los princi- ternativos que estén inmediatamente dispo-
pios rectores aplicables a todas las pruebas y usos nibles; (d) evidencia de investigaciones y em-
de pruebas. Además, los temas y estándares en pírica respecto de la viabilidad de cumplir el
cada capítulo están ordenados para guardar cohe- estándar; y (e) leyes y regulaciones aplicables.
rencia con la secuencia del material en el texto
• Cuando las pruebas están sobre el tapete en
introductorio del capítulo. Debido a que algunos
procedimientos judiciales y otras situaciones
usuarios de los Estándares pueden consultar solo
que requieren el dictamen de peritos, es im-
los capítulos directamente relevantes para una
portante que el juicio profesional se base en
aplicación determinada, ciertos estándares se repi-
el corpus aceptado de conocimientos al deter-
ten en diferentes capítulos, en especial en la Parte
minar la relevancia de estándares particulares
III, “Aplicaciones de las pruebas”. Cuando ocurre
en una situación dada. La intención de los
esa repetición, la esencia del estándar es la misma.
Estándares es ofrecer orientación para dichos
Solo se cambia la redacción, el área de aplicación
juicios.
o el nivel de elaboración en el comentario.
• Las afirmaciones de los desarrolladores de
pruebas o usuarios de pruebas respecto de que
Precauciones que deben considerarse una prueba, manual o procedimiento satisface
al utilizar los Estándares o sigue los estándares en este volumen deben
hacerse con cuidado. Es apropiado que los de-
Además del descargo de responsabilidad legal es-
sarrolladores o usuarios indiquen que se hicie-
tablecido anteriormente, varias precauciones son
ron esfuerzos por adherir a los Estándares, y
importantes si se quieren evitar malas interpreta-
que proporcionen documentos que describan
ciones, aplicaciones incorrectas o usos indebidos
y respalden esos esfuerzos. No deben hacerse
de los Estándares:
afirmaciones generales sin evidencia que las
• Evaluar la aceptabilidad de una prueba o sustente.
aplicación de una prueba no depende de la
• Los estándares se relacionan con un campo
satisfacción literal de cada estándar en este
de rápida evolución. En consecuencia, existe
documento, y la aceptabilidad de una prueba
la necesidad continua de monitorear cam-
o aplicación de una prueba no puede determi-
bios en el campo y revisar este documento a
narse utilizando una lista de comprobación.
medida que se desarrollan conocimientos. El
Circunstancias específicas afectan la impor-
uso de versiones anteriores de los Estándares
tancia de los estándares individuales, y los
puede constituir un perjuicio para los usuarios
estándares individuales no deben considerarse
de pruebas y los examinandos.
en forma aislada. Por lo tanto, evaluar la acep-
tabilidad depende de lo siguiente: (a) el juicio • No es la intención de los Estándares reque-
profesional que se basa en un conocimiento rir el uso de métodos técnicos específicos. Por
de la ciencia del comportamiento, psicome- ejemplo, en los casos en que se mencionen re-
tría, y los estándares relevantes en el campo quisitos de presentación de reportes estadísti-
profesional al que se aplica la prueba; (b) el cos específicos, siempre debe entenderse la fra-
grado con el que el desarrollador y el usuario se “o un equivalente generalmente aceptado”.
Fundamentos
Antecedentes
La validez se refiere al grado en que la evidencia utiliza en los Estándares para referirse al concepto
y la teoría respaldan las interpretaciones de los o característica para cuya medición se diseña una
puntajes de una prueba para usos propuestos de prueba. Casi nunca, o nunca, existe un solo sig-
las pruebas. La validez es, por lo tanto, la con- nificado posible que puede atribuirse al puntaje
sideración más fundamental al desarrollar y eva- de una prueba o a un patrón de respuestas de la
luar pruebas. El proceso de validación involucra prueba. Por lo tanto, siempre corresponde a los
acumular evidencia pertinente para proporcionar desarrolladores y usuarios de la prueba especifi-
una base científica sólida para las interpretaciones car la interpretación del constructo que se hará en
de puntajes propuestas. Lo que se evalúa son las función del puntaje o patrón de respuestas.
interpretaciones de los puntajes de la prueba para Entre los ejemplos de constructos que se utili-
los usos propuestos, no la prueba propiamente zan actualmente en evaluación se incluyen rendi-
dicha. Cuando los puntajes de la prueba se inter- miento matemático, capacidad cognitiva general,
pretan en más de una manera (p. ej., tanto para actitudes de identidad racial, depresión y autoes-
describir el nivel actual del atributo que se mide tima. Para apoyar el desarrollo de la prueba, la in-
del examinando como para hacer una predicción terpretación del constructo propuesta se elabora
sobre un futuro resultado), cada interpretación describiendo su alcance y extensión y delineando
prevista debe validarse. Los enunciados sobre la los aspectos del constructo que se representa-
validez deben referirse a interpretaciones particu- rán. La descripción detallada proporciona un
lares para usos especificados. Es incorrecto usar la marco conceptual para la prueba, delineando el
frase no calificada “la validez de la prueba”. conocimiento, habilidades, capacidades, rasgos,
La evidencia de la validez de una interpreta- intereses, procesos, competencias o característi-
ción dada de puntajes de la prueba para un uso es- cas a evaluar. Idealmente, el marco indica cómo
pecificado es una condición necesaria para el uso el constructo según lo representado debe distin-
justificado de la prueba. Cuando existe evidencia guirse de otros constructos y cómo debe relacio-
suficiente de validez, la decisión en cuanto a ad- narse con otras variables.
ministrar efectivamente o no una prueba en parti- El marco conceptual se forma en parte por
cular suele tener en cuenta otras consideraciones. las maneras en que se utilizarán los puntajes de la
Estas incluyen consideraciones sobre costo-be- prueba. Por ejemplo, una prueba de rendimiento
neficio, enmarcadas en subdisciplinas diferentes matemático podría usarse para colocar a un estu-
como análisis de utilidad o como consideración diante en un programa de instrucción adecuado,
de consecuencias negativas del uso de la prueba, para respaldar un diploma de escuela secundaria o
y una ponderación de cualquier consecuencia ne- para informar una decisión sobre admisiones uni-
gativa frente a las consecuencias positivas del uso versitarias. Cada uno de estos usos implica una
de la prueba. interpretación un tanto diferente de los puntajes
La validación lógicamente comienza con un de la prueba de rendimiento matemático: que un
enunciado explícito de la interpretación pro- estudiante se beneficiará con una intervención
puesta de los puntajes de la prueba, junto con una de instrucción en particular, que un estudiante
razón fundamental para la relevancia de la inter- ha dominado un plan de estudios especificado,
pretación para el uso propuesto. La interpretación o que es probable que un estudiante tenga éxito
propuesta incluye especificar el constructo que la con el trabajo de nivel universitario. De manera
prueba intenta medir. El término constructo se similar, una prueba de responsabilidad podría
11
utilizarse para asesoramiento psicológico, para in- bajos en la prueba. Ejemplos de proposiciones en
formar una decisión sobre empleo, o para el fin otros contextos de pruebas podrían incluir, por
científico básico de elaborar el constructo de res- ejemplo, la proposición de que los examinandos
ponsabilidad. Cada uno de estos usos potenciales con puntajes altos de ansiedad general experimen-
da forma al marco especificado y la interpretación tan ansiedad significativa en una serie de contex-
propuesta de los puntajes de la prueba y también tos, la proposición de que el puntaje de un niño
puede tener implicaciones para el desarrollo y en una escala de inteligencia se relaciona fuerte-
la evaluación de la prueba. La validación puede mente con el desempeño académico del niño, o la
verse como un proceso de construir y evaluar ar- proposición de que un cierto patrón de puntajes
gumentos a favor y en contra de la interpretación en una batería neuropsicológica indica afectación
prevista de los puntajes de la prueba y su relevan- que es característica de lesión cerebral. El proceso
cia para el uso propuesto. El marco conceptual de validación evoluciona a medida que se articu-
señala las clases de evidencia que podrían reunirse lan estas proposiciones y se reúne evidencia para
para evaluar la interpretación propuesta teniendo evaluar su solidez.
en cuenta los fines de la prueba. A medida que La identificación de las proposiciones im-
la validación continúa y surge nueva evidencia plícitas por una interpretación propuesta de la
respecto de las interpretaciones que pueden y no prueba puede facilitarse considerando hipótesis
pueden extraerse de los puntajes de la prueba, es rivales que pueden desafiar la interpretación pro-
posible que se necesiten revisiones en la prueba, puesta. También es útil considerar las perspecti-
en el marco conceptual que la forma e, incluso, en vas de diferentes partes interesadas, la experiencia
el constructo subyacente de la prueba. existente con pruebas y contextos similares, y las
La amplia variedad de pruebas y circunstan- consecuencias previstas del uso propuesto de la
cias hace que sea normal que algunos tipos de prueba. El hallazgo de consecuencias imprevistas
evidencia sean especialmente críticos en un caso del uso de la prueba también puede dar lugar a
determinado, mientras que otros tipos serán una consideración de hipótesis rivales. A menudo
menos útiles. Las decisiones sobre qué tipos de pueden considerarse hipótesis rivales plausibles
evidencia son importantes para el argumento de considerando si una prueba mide menos o más
validación en cada caso pueden aclararse desarro- que su constructo propuesto. Se hace referencia
llando un conjunto de proposiciones o afirma- a dichas consideraciones como infrarrepresenta-
ciones que respalden la interpretación propuesta ción de constructo (o deficiencia de constructo) y
para el fin particular de la prueba. Por ejemplo, varianza irrelevante de constructo (o contamina-
cuando se utiliza una prueba de rendimiento ción de constructo), respectivamente.
matemático para evaluar la preparación para un La infrarrepresentación de constructo se refiere
curso avanzado, la evidencia para las siguientes al grado en el cual una prueba no logra capturar
proposiciones podría ser relevante: (a) que de- aspectos importantes del constructo. Implica un
terminadas habilidades son prerrequisito para el significado acotado de los puntajes de la prueba
curso avanzado; (b) que el dominio de contenido porque la prueba no muestrea adecuadamente
de la prueba guarda coherencia con estas habili- algunos tipos de contenido, no involucra algu-
dades de prerrequisito; (c) que los puntajes de la nos procesos psicológicos o no obtiene algunas
prueba pueden generalizarse entre conjuntos de maneras de responder que abarca el constructo
ítems relevantes; (d) que los puntajes de la prueba previsto. Pensemos, por ejemplo, en una prueba
no están indebidamente influenciados por varia- que tiene por objeto ser una medida completa de
bles auxiliares, como la capacidad de escritura; ansiedad. Una prueba en particular podría infra-
(e) que el éxito en el curso avanzado puede eva- rrepresentar el constructo previsto porque mide
luarse válidamente, y (f ) que los examinandos con solo las reacciones psicológicas y no los compo-
puntajes altos en la prueba serán más exitosos en el nentes emocionales, cognitivos o situacionales.
curso avanzado que los examinandos con puntajes En otro ejemplo, una prueba de comprensión de
12
lectura que tiene por objeto medir la capacidad prueba, en el marco conceptual de la prueba, o en
de los niños para leer e interpretar historias con ambos. Las interpretaciones extraídas de la prueba
comprensión podría no contener una variedad su- revisada deberían volver a validarse.
ficiente de pasajes de lectura o podría ignorar un Cuando se han identificado proposiciones
tipo común de material de lectura. que respaldarían la interpretación propuesta de
La irrelevancia de constructo se refiere al grado los puntajes de la prueba, se puede continuar
en el cual los puntajes de la prueba se ven afecta- con la validación obteniendo evidencia empírica,
dos por procesos que son externos al fin previsto estudiando bibliografía relevante y/o realizando
de la prueba. Lo puntajes de la prueba pueden es- análisis lógicos para evaluar cada una de las pro-
tar sistemáticamente influenciados en alguna me- posiciones. La evidencia empírica puede incluir
dida por procesos que no son parte del constructo. tanto evidencia local, producida dentro de con-
En caso de una prueba de comprensión de lectura, textos donde se utilizará la prueba, como eviden-
estos podrían incluir material muy por encima o cia de aplicaciones de prueba similares en otros
por debajo del nivel que se pretende evaluar, una contextos. El uso de evidencia existente de prue-
reacción emocional al contenido de la prueba, fa- bas y contextos similares puede mejorar la calidad
miliaridad con el tema de los pasajes de lectura del argumento de validez, en especial cuando los
de la prueba, o la habilidad de escritura necesa- datos para la prueba y el contexto en cuestión son
ria para elaborar una respuesta. Dependiendo de limitados.
la definición detallada del constructo, el conoci- Debido a que una interpretación para un uso
miento de vocabulario o la velocidad de lectura dado suele depender de más de una proposición,
también podrían ser componentes irrelevantes. En la evidencia sólida en respaldo de una parte de
una prueba diseñada para medir la ansiedad, un la interpretación de ninguna manera reduce la
sesgo de respuesta para reportar un nivel menor de necesidad de evidencia que respalde otras partes
la propia ansiedad podría considerarse una fuente de la interpretación. Por ejemplo, cuando una
de varianza irrelevante de constructo. En el caso prueba de empleo se considera para selección, una
de una prueba matemática, esto podría incluir fuerte relación predictor-criterio en un contexto
una sobredependencia de las habilidades de com- de empleo habitualmente no es suficiente para
prensión de lectura que podría faltarles a los estu- justificar el uso de la prueba. También se debe-
diantes de lengua inglesa. En una prueba diseñada ría considerar lo apropiada y significativa que sea
para medir el conocimiento en ciencias, la inter- la medida del criterio, lo apropiados que sean los
nalización de los examinandos de estereotipos de materiales y procedimientos de la prueba para la
género sobre las mujeres en las ciencias podría ser toda la variedad de solicitantes y la coherencia del
una fuente de varianza irrelevante del constructo. respaldo para la interpretación propuesta entre los
Casi todas las pruebas dejan afuera elementos grupos. El juicio profesional orienta las decisiones
que algunos potenciales usuarios consideran que respecto de formas específicas de evidencia que
deberían medirse e incluyen algunos elementos pueden respaldar mejor la interpretación prevista
que algunos potenciales usuarios consideran in- para el uso especificado. Como en todas las tareas
apropiados. La validación involucra la atención científicas, la calidad de la evidencia es primor-
minuciosa a posibles distorsiones en el significado dial. Algunas evidencias sólidas respecto de una
que surgen de la representación inadecuada del proposición en particular son mejores que nume-
constructo y también a aspectos de la medición, rosas evidencias de calidad cuestionable. La deter-
como el formato de la prueba, las condiciones de minación de que la interpretación de una prueba
administración o el nivel de lenguaje, que pueden dada para un fin específico se justifica se basa en el
limitar o calificar significativamente la interpre- juicio profesional de que la preponderancia de la
tación de los puntajes de la prueba para diver- evidencia disponible respalda esa interpretación.
sos grupos de examinandos. Es decir, el proceso La calidad y cantidad de evidencia suficiente para
de validación puede conducir a revisiones en la alcanzar este juicio puede diferir para los usos
13
de la prueba según los riesgos involucrados en la presentado a continuación en todos los contextos.
prueba. Es posible que una interpretación dada En lugar de ello, se necesita el respaldo de cada
no se justifique ya sea como resultado de eviden- proposición subyacente a una interpretación de la
cia insuficiente que la respalde o como resultado prueba propuesta para un uso especificado. Una
de evidencia creíble en contra de esta. proposición de que una prueba es predictiva de
La validación es responsabilidad conjunta un criterio dado puede respaldarse sin evidencia
del desarrollador de la prueba y del usuario de la de que la prueba toma muestrea un domino de
prueba. El desarrollador de la prueba es responsa- contenido en particular. Por el contrario, una pro-
ble de suministrar evidencia relevante y una razón posición de que una prueba cubre una muestra
fundamental que respalde cualquier interpreta- representativa de un plan de estudios en particu-
ción de puntajes de la prueba para usos especifica- lar puede ser respaldada sin evidencia de que la
dos previstos por el desarrollador. El usuario de la prueba predice un criterio dado. Sin embargo, un
prueba es en última instancia responsable de eva- conjunto más complejo de proposiciones, p. ej.,
luar la evidencia en el contexto en particular en el que una prueba abarque un dominio especificado
que se usará la prueba. Cuando el usuario de una y por lo tanto sea predictiva de un criterio que
prueba propone una interpretación o uso de pun- refleja un dominio relacionado, requerirá eviden-
tajes de la prueba que difiere de los respaldados cia que respalde ambas partes de este conjunto de
por el desarrollador de la prueba, la responsabi- proposiciones. También se espera que los desarro-
lidad de brindar evidencias de validez que respal- lladores de la prueba demuestren que los puntajes
den esa interpretación para el uso especificado es no están indebidamente influenciados por va-
del usuario. Debe observarse que pueden hacerse rianza irrelevante de constructo (véase el cap. 3
aportes importantes a la evidencia de validación a para un tratamiento detallado de cuestiones rela-
medida que otros investigadores reporten conclu- cionadas con varianza irrelevante de constructo).
siones de investigaciones que se relacionen con el En general, el respaldo adecuado de las interpreta-
significado de los puntajes en la prueba. ciones propuestas para usos específicos requerirá
múltiples fuentes de evidencia.
Fuentes de evidencia de validación La postura desarrollada anteriormente tam-
bién subraya el hecho de que, si una prueba dada
Las siguientes secciones describen diversas fuen- se interpreta de distintas maneras para distintos
tes de evidencia que podrían utilizarse en la usos, también es probable que difieran las pro-
evaluación de la validez de una interpretación posiciones que sustentan estas interpretaciones
propuesta de puntajes de la prueba para un uso para diferentes usos. Se necesita el respaldo de las
en particular. Estas fuentes de evidencia pueden proposiciones que sustentan cada interpretación
iluminar diferentes aspectos de la validez, pero no para un uso específico. La evidencia que respalda
representan tipos distintos de validez. La validez la interpretación de puntajes en una prueba de
es un concepto unitario. Es el grado en que toda rendimiento matemático para colocar estudiantes
la evidencia acumulada respalda la interpretación en cursos subsiguientes (es decir, evidencia de que
prevista de los puntajes de una prueba para el uso la interpretación de la prueba es válida para su fin
propuesto. Al igual que los Estándares de 1999, previsto) no permite inferir validez para otros fi-
esta edición hace referencia a los tipos de eviden- nes (p. ej., promoción o evaluación del profesor).
cia de validación, más que a tipos distintos de va-
lidez. Para destacar esta distinción, el tratamiento Evidencia basada en el contenido de la prueba
a continuación no sigue la nomenclatura histórica Se puede obtener evidencia de validación im-
(es decir, el uso de los términos validez de conte- portante de un análisis de la relación entre el
nido o validez predictiva). contenido de una prueba y el constructo que se
Como se destaca en el análisis de la sección intenta medir. El contenido de la prueba hace
anterior, no se requiere cada tipo de evidencia referencia a los temas, la redacción y el formato
14
de los ítems, tareas o preguntas de una prueba. contenido original para el nuevo fin propuesto.
La administración y el puntaje también pueden Por ejemplo, una prueba dada para fines de inves-
ser relevantes para la evidencia basada en el con- tigación para comparar el rendimiento estudiantil
tenido. Los desarrolladores de la prueba suelen en diferentes estados en un dominio dado puede
trabajar a partir de una especificación del domi- correctamente también cubrir material que reciba
nio de contenido. La especificación del contenido atención escasa o nula en el plan de estudios. Los
describe cuidadosamente el contenido en detalle, responsables de formular políticas pueden enton-
a menudo con una clasificación de áreas de con- ces evaluar el rendimiento estudiantil con respecto
tenido y tipos de ítems. La evidencia basada en tanto al contenido ignorado como al contenido
el contenido de la prueba puede incluir análisis abordado. Por otra parte, cuando se evalúa el do-
lógicos o empíricos de la adecuación con la que minio estudiantil de un plan de estudios dictado a
el contenido de la prueba representa el dominio los fines de informar decisiones sobre estudiantes
de contenido y de la relevancia del dominio de individuales, como promoción o graduación, el
contenido para la interpretación propuesta de marco que elabora un dominio de contenido es
los puntajes de la prueba. La evidencia basada en adecuadamente limitado a lo que los estudiantes
el contenido también puede provenir de juicios han tenido la oportunidad de aprender del plan
expertos de la relación entre partes de la prueba de estudios según fuera dictado.
y el constructo. Por ejemplo, en el desarrollo de La evidencia sobre el contenido puede usarse,
una prueba para el otorgamiento de una licencia, en parte, para abordar preguntas sobre diferencias
pueden especificarse los principales aspectos que en el significado o la interpretación de los punta-
son relevantes para la finalidad para la cual se re- jes de la prueba entre subgrupos relevantes de exa-
gula la ocupación, y se puede pedir a expertos en minandos. Resulta de especial interés la medida
esa ocupación que asignen ítems de prueba a las en que la infrarrepresentación de constructo o la
categorías definidas por esas facetas. Estos u otros irrelevancia de constructo pueden dar una ven-
expertos pueden luego juzgar la representatividad taja injusta o desventaja a uno o más subgrupos
del conjunto de ítems elegido. de examinandos. Por ejemplo, en una prueba de
Algunas pruebas se basan en observaciones empleo, el uso de vocabulario más complejo que
sistemáticas del comportamiento. Por ejemplo, el necesario para el puesto de trabajo puede ser
una lista de las tareas que constituyen un dominio una fuente de varianza irrelevante de constructo
de un puesto de trabajo puede desarrollarse a par- para los estudiantes de lengua inglesa u otros. La
tir de observaciones del comportamiento en un revisión atenta del constructo y del dominio de
puesto, junto con juicios de expertos en el tema. contenido de la prueba por parte de un panel di-
Los juicios expertos pueden utilizarse para evaluar verso de expertos puede señalar posibles fuentes
la importancia relativa, criticidad y/o frecuencia de dificultad (o facilidad) irrelevante que requie-
de las diversas tareas. Una prueba de muestra de ren mayor investigación.
trabajo puede entonces construirse a partir de un La evidencia de validación orientada al con-
muestreo aleatorio o estratificado de tareas califi- tenido se encuentra en el centro del proceso en
cadas altamente en estas características. La prueba el ámbito educativo conocido como alineación,
luego puede administrarse en condiciones estan- que involucra evaluar la correspondencia entre es-
darizadas en un contexto fuera del trabajo. tándares de aprendizaje para estudiantes y el con-
Lo apropiado de un dominio de contenido tenido de la prueba. Las cuestiones de muestreo
dado se relaciona con las inferencias específicas de contenido en el proceso de alineación incluyen
que se harán de los puntajes de la prueba. Por evaluar si el contenido de la prueba muestrea ade-
consiguiente, al considerar una prueba dispo- cuadamente el domino propuesto en los estánda-
nible para un fin distinto del fin para el que se res del plan de estudios, si las demandas cognitivas
desarrolló en primer término, es especialmente de los ítems de la prueba se corresponden con el
importante evaluar lo adecuado del dominio de nivel reflejado en los estándares de aprendizaje de
15
16
se ajustan al constructo sobre el que se basan las Evidencia basada en relaciones con otras
interpretaciones propuestas de puntajes de la variables
prueba. El marco conceptual para una prueba En muchos casos, la interpretación prevista para
puede implicar una sola dimensión de comporta- un uso dado implica que el constructo debería
miento, o puede plantear varios componentes; se relacionarse con algunas otras variables y, como
espera que cada uno de ellos sea homogéneo, pero resultado, análisis de la relación de los puntajes
también son distintos unos de otros. Por ejemplo, de la prueba con variables externas a la prueba
una medida de malestar en una encuesta de salud proporcionan otra fuente importante de eviden-
podría evaluar tanto la salud física como emocio- cia de validación. Las variables externas pueden
nal. La medida en que las interrelaciones entre incluir medidas de algunos criterios que se espera
ítems confirman las presunciones del marco sería que la prueba prediga, así como relaciones con
relevante para la validez. otras pruebas propuestas para medir los mismos
Los tipos específicos de análisis y su interpre- constructos, y pruebas que miden constructos re-
tación dependen de cómo se utilizará la prueba. lacionados o diferentes. Las medidas distintas de
Por ejemplo, si una aplicación en particular los puntajes de la prueba, tal como criterios de
planteó una serie de componentes de la prueba desempeño, suelen utilizarse en contextos labo-
cada vez más difíciles, se proporcionaría eviden- rales. Las variables categóricas, incluidas variables
cia empírica de la medida en que los patrones de de membrecía de grupos, se vuelven relevantes
respuesta cumplieron con esta expectativa. Una cuando la teoría que sustenta un uso propuesto de
teoría que planteara la unidimensionalidad re- la prueba sugiere que las diferencias del grupo de-
queriría evidencia de homogeneidad de ítems. En berían estar presentes o ausentes si una interpreta-
este caso, la cantidad de ítems y las interrelaciones ción propuesta de los puntajes de la prueba debe
entre ítems forman la base para una estimación sustentarse. La evidencia basada en las relaciones
de confiabilidad del puntaje, pero un índice de con otras variables proporciona evidencia sobre el
este tipo sería inadecuado para pruebas con una grado en que estas relaciones son coherentes con
estructura interna más compleja. el constructo que sustenta las interpretaciones
Algunos estudios de la estructura interna propuestas de los puntajes de la prueba.
de las pruebas se han diseñado para mostrar si
ítems en particular pueden funcionar de manera
diferente para subgrupos de examinados identi- Evidencia convergente y discriminante. Las re-
ficables (p. ej., subgrupos raciales/étnicos o de laciones entre los puntajes de la prueba y otras
género). Se produce un funcionamiento dife- medidas que tienen por objeto evaluar los mismos
rencial de los ítems cuando diferentes grupos de constructos o similares proporcionan evidencia
examinandos con capacidad general similar, o convergente, mientras que las relaciones entre los
nivel similar en un criterio adecuado, tienen, en puntajes de la prueba y medidas supuestamente
promedio, respuestas sistemáticamente diferentes de constructos diferentes proporcionan evidencia
a un ítem en particular. Esta cuestión se analiza discriminante. Por ejemplo, dentro de algunos
en el capítulo 3. Sin embargo, el funcionamiento marcos teóricos, podría esperarse que los punta-
diferencial de los ítems no siempre es una falla o jes en una prueba de selección múltiple de com-
debilidad. Subconjuntos de ítems que tienen una prensión de lectura se relacionen estrechamente
característica específica en común (p. ej., conte- (evidencia convergente) con otras medidas de
nido específico, representación de tarea) pueden comprensión de lectura basadas en otros méto-
funcionar de manera diferente para diferentes dos, como las respuestas a ensayos. Al contrario,
grupos de examinandos con puntajes similares. podría esperarse que los puntajes de la prueba se
Esto indica una clase de multidimensionalidad relacionen menos estrechamente (evidencia dis-
que puede esperarse o puede ajustarse al marco criminante) con medidas de otras habilidades,
de la prueba. como el razonamiento lógico. Las relaciones entre
17
diferentes métodos de medición del constructo criterios que se obtienen en un momento poste-
pueden ser especialmente útiles para refinar y ela- rior. Un estudio concurrente obtiene puntajes de
borar el significado y la interpretación del puntaje. la prueba e información del criterio aproximada-
La evidencia de relaciones con otras variables mente al mismo tiempo. Cuando efectivamente
puede involucrar evidencia experimental como se contempla la predicción, como en la admisión
correlacional. Podrían diseñarse estudios, por académica o los contextos laborales, o en la plani-
ejemplo, para investigar si los puntajes en una ficación de programas de rehabilitación, los estu-
medida de ansiedad mejoran como resultado dios predictivos pueden conservar las diferencias
de algún tratamiento psicológico o si los pun- temporales y otras características de la situación
tajes en una prueba de rendimiento académico práctica. La evidencia concurrente, que evita
diferencian entre grupos con instrucción y sin cambios temporales, es particularmente útil para
instrucción. Si los aumentos del desempeño de- pruebas de psicodiagnóstico o en la investigación
bido a orientación a corto plazo se ven como una de medidas alternas de algún constructo especi-
amenaza para la validez, sería útil investigar si los ficado para el que ya existe un procedimiento de
grupos con orientación y sin orientación tienen medición aceptado. La elección de una estrategia
desempeños diferentes. de investigación predictiva o concurrente en un
dominio dado es también provechosamente in-
Relaciones prueba-criterio. La evidencia de la rela- formada por evidencia de investigaciones previas
ción de puntajes de la prueba con un criterio rele- respecto de la medida en que los estudios predic-
vante puede expresarse de distintas maneras, pero tivos y concurrentes en ese dominio arrojan los
la pregunta fundamental siempre es ¿con qué exac- mismos o diferentes resultados.
titud los puntajes de la prueba predicen el desem- Los puntajes de la prueba a veces se usan para
peño del criterio? El grado de exactitud y el rango asignar a individuos a diferentes tratamientos de
de puntajes dentro del que se necesita exactitud una manera que sea ventajosa para la institución
dependen del fin para el que se utilice la prueba. y/o para los individuos. Entre los ejemplos se in-
La variable del criterio es una medida de al- cluirían asignar a individuos a diferentes puestos
gún atributo o resultado que es operativamente en una organización, o determinar si colocar a un
distinto de la prueba. Por lo tanto, la prueba no estudiante dado en una clase de apoyo o una clase
es una medida de un criterio, sino una medida regular. En ese contexto, se necesita evidencia
planteada como un potencial predictor de ese cri- para juzgar la pertinencia de utilizar una prueba
terio de interés. Si una prueba predice un crite- cuando se clasifica o asigna a una persona a un
rio dado en un contexto dado, es una hipótesis puesto en vez de otro o a un tratamiento en vez de
comprobable. Los criterios que son de interés son otro. El respaldo de la validez del procedimiento
determinados por los usuarios de la prueba, por de clasificación se proporciona mostrando que la
ejemplo, administradores en un sistema escolar o prueba es útil para determinar qué personas pro-
gerentes de una empresa. La elección del criterio bablemente se beneficien de manera diferente con
y los procedimientos de medición utilizados para un tratamiento u otro. Es posible que las pruebas
obtener puntajes de criterios son de primordial sean sumamente predictivas del desempeño para
importancia. La credibilidad del estudio prueba- diferentes programas educativos o puestos sin
criterio depende de la relevancia, confiabilidad y proporcionar la información necesaria para hacer
validez de la interpretación basada en la medida un juicio comparativo de la eficacia de las asigna-
del criterio para una aplicación de prueba dada. ciones o tratamientos. En general, las normas de
Históricamente, se han distinguido dos dise- decisión para la selección o asignación también
ños, a menudo llamados predictivo y concurrente, están influenciadas por la cantidad de personas
para evaluar las relaciones prueba-criterio. Un es- que se aceptarán o las cantidades que pueden ad-
tudio predictivo indica la fortaleza de la relación mitirse en categorías de asignación alternativas
entre los puntajes de la prueba y los puntajes de (véase el cap. 11).
18
También se usa la evidencia sobre relacio- se tienen en cuenta estas y otras influencias, es po-
nes con otras variables para investigar preguntas sible que se determine que la variabilidad restante
de predicción diferencial entre subgrupos. Por en los coeficientes de validez es relativamente
ejemplo, una conclusión de que la relación de los pequeña. Por lo tanto, es posible que sean útiles
puntajes de la prueba con una variable de criterio los resúmenes estadísticos de estudios de valida-
relevante difiere entre subgrupo y otro puede im- ción anteriores en la estimación de las relacio-
plicar que el significado de los puntajes no es el nes prueba-criterio en una nueva situación. Esta
mismo para miembros de los diferentes grupos, práctica se denomina estudio de generalización de
tal vez debido a infrarrepresentación de cons- validez.
tructo o fuentes de varianza irrelevante de cons- En algunas circunstancias, existe un funda-
tructo. Sin embargo, la diferencia también puede mento sólido para utilizar la generalización de
implicar que el criterio tiene diferente significado validez. Este sería el caso cuando la base de datos
para diferentes grupos. Las diferencias en las rela- metaanalítica es amplia, cuando los datos meta
ciones prueba-criterio también pueden surgir de analíticos representan adecuadamente el tipo de
un error de medición, en especial cuando las me- situación a la que se desea generalizar y cuando la
dias de los grupos difieren, de modo que dichas corrección para artefactos estadísticos produce un
diferencias no necesariamente indican diferencias patrón claro y coherente de evidencia de valida-
en el significado de los puntajes. Véase el análisis ción. En esas circunstancias, el valor informativo
de imparcialidad en el capítulo 3 para una consi- de un estudio de validez local puede ser relativa-
deración más amplia de posibles cursos de acción mente limitado, si no efectivamente confuso, en
cuando los puntajes tienen diferentes significados especial si el tamaño de su muestra es pequeño.
para diferentes grupos. En otras circunstancias, el salto inferencial re-
querido para la generalización sería mucho más
Generalización de validez. Una cuestión impor- grande. La base de datos metaanalítica puede ser
tante en los contextos educativos y laborales es el pequeña, las conclusiones pueden ser menos co-
grado en que la evidencia de validación basada herentes o la nueva situación puede involucrar
en relaciones prueba-criterio puede generalizarse características marcadamente diferentes de las
a una nueva situación sin estudios adicionales representadas en la base de datos metaanalítica.
de validez en esa nueva situación. Cuando una En esas circunstancias, la evidencia de validación
prueba se usa para predecir los mismos criterios específica de la situación será relativamente más
o criterios similares (p. ej., desempeño de un informativa. Si bien la investigación sobre la ge-
determinado puesto) en momentos diferentes o neralización de validez muestra que los resultados
en lugares diferentes, suele determinarse que las de un solo estudio de validación local pueden ser
correlaciones prueba-criterio observadas varían bastante imprecisos, hay situaciones en las que un
sustancialmente. En el pasado, se ha considerado solo estudio, realizado cuidadosamente, con un
que esto implica que siempre se requieren estu- tamaño de muestra adecuado, proporciona sufi-
dios de validación locales. Más recientemente, se ciente evidencia para respaldar o rechazar el uso
han desarrollado varios enfoques sobre la genera- de la prueba en una nueva situación. Esto destaca
lización de evidencia de otros contextos, siendo la importancia de examinar atentamente el valor
el metaanálisis el más utilizado en la bibliografía informativo comparativo de los estudios acotados
publicada. En particular, los metaanálisis han frente a los metaanalíticos.
demostrado que, en algunos dominios, mucha Cuando se llevan a cabo estudios de la genera-
de esta variabilidad puede deberse a artefactos bilidad de evidencia de validación, los estudios an-
estadísticos como fluctuaciones en el muestreo teriores que se incluyen pueden variar de acuerdo
y variaciones entre estudios de validación en los con varios aspectos situacionales. Algunas de las
rangos de los puntajes de las pruebas y en la con- principales facetas son (a) diferencias en la manera
fiabilidad de las medidas de los criterios. Cuando en que se mide el constructo predictor, (b) el tipo
19
de puesto de trabajo o plan de estudio involu- el desarrollador de la prueba. Por ejemplo, una
crado, (c) el tipo de medida de criterio utilizado, prueba de rendimiento estudiantil podría pro-
(d) el tipo de examinandos, y (e) el período en el porcionar datos para un sistema cuyo objeto sea
que se realizó el estudio. En cualquier estudio de identificar y mejorar las escuelas con bajo rendi-
generalización de validez, cualquier cantidad de miento. La afirmación de que los resultados de
estas facetas podría variar, y un objetivo principal las pruebas, utilizados de esta manera, darán por
del estudio es determinar empíricamente la me- resultado una mejora en el aprendizaje estudiantil
dida en que la variación en estas facetas afecta las puede depender de proposiciones sobre el sistema
correlaciones prueba-criterio obtenidas. o la intervención propiamente dicha, más allá de
La medida en que la evidencia de validación las proposiciones basadas en el significado de la
predictiva o concurrente puede generalizarse a prueba misma. Las consecuencias pueden señalar
nuevas situaciones es en gran medida una función la necesidad de evidencia sobre componentes del
de investigación acumulada. Si bien la evidencia sistema que irán más allá de la interpretación de
de generalización a menudo puede ayudar a sus- los puntajes de la prueba como una medida válida
tentar una afirmación de validez en una nueva del rendimiento estudiantil.
situación, el alcance de datos disponibles limita Aun así, otras consecuencias son imprevistas,
el grado en que puede sustentarse la afirmación. y a menudo negativas. Por ejemplo, las pruebas
La discusión anterior se concentra en el uso de educativas a nivel estatal o de distrito escolar so-
bases de datos acumulativas para estimar relacio- bre asignaturas seleccionadas pueden llevar a los
nes predictor-criterio. Las técnicas metaanalíticas profesores a concentrarse en esas asignaturas a
también pueden usarse para resumir otras formas expensas de otras. Para citar otro ejemplo, una
de datos relevantes a otras inferencias que se pue- prueba desarrollada para medir el conocimiento
den querer extraer de los puntajes de la prueba en necesario para un determinado puesto de trabajo
una aplicación en particular, como los efectos de puede dar lugar a tasas de aprobación más bajas
la orientación y los efectos de determinadas alte- para un grupo que para otro. Las consecuencias
raciones en las condiciones de la prueba para exa- imprevistas merecen un examen detenido. Si bien
minandos con discapacidades especificadas. Reunir no todas las consecuencias pueden preverse, en al-
evidencia sobre en qué medida las conclusiones de gunos casos los factores como experiencias previas
validez pueden generalizarse entre grupos de exami- en otros contextos ofrecen una base para prever
nandos es una parte importante del proceso de va- y abordar de manera proactiva las consecuencias
lidación. Cuando la evidencia sugiere que pueden imprevistas. Véase el capítulo 12 para consultar
hacerse inferencias a partir de puntajes de la prueba ejemplos adicionales de contextos educativos.
para algunos subgrupos, pero no para otros, inten- En algunos casos, las acciones para abordar una
tar opciones como las analizadas en el capítulo 3 consecuencia dan lugar a otras consecuencias. Un
puede reducir el riesgo de uso parcial de la prueba. ejemplo involucra la noción de “oportunidades
perdidas”, como en el caso de pasar a calificación
Evidencia de validación y consecuencias por computadora de los ensayos de estudiantes
de las pruebas para aumentar la coherencia en las calificaciones,
Algunas consecuencias del uso de pruebas surgen con lo cual se renuncia a los beneficios educativos
directamente de la interpretación de los puntajes de abordar el mismo problema capacitando a los
de la prueba para usos previstos por el desarrolla- profesores para calificar de manera más coherente.
dor de la prueba. El proceso de validación implica Estos tipos de consideración de consecuencias
reunir evidencia para evaluar la solidez de estas in- de las pruebas se analizan más adelante.
terpretaciones propuestas para sus usos previstos.
Otras consecuencias también pueden ser parte Interpretación y usos de puntajes de la prueba
de una afirmación que se extiende más allá de la previstos por los desarrolladores de la prueba.
interpretación o el uso de puntajes previsto por Las pruebas por lo general se administran con la
20
expectativa de que se concentrará algún beneficio efectivamente beneficiarse más con el acceso al
a partir de la interpretación y el uso de los punta- jardín de infancia. En este caso, se necesita evi-
jes previstos por los desarrolladores de la prueba. dencia diferente para respaldar diferentes afirma-
Algunos de los muchos beneficios posibles que ciones que podrían hacerse sobre el mismo uso
podrían citarse son la selección de terapias efica- de la prueba de selección (por ejemplo, evidencia
ces, asignación de trabajadores en puestos ade- de que los estudiantes por debajo de un determi-
cuados, prevenir que individuos no calificados nado puntaje de corte se beneficiarían más con
ingresen en una profesión, o mejora de las prácti- otra asignación que con la asignación al jardín de
cas de instrucción en el aula. Una finalidad fun- infancia). El desarrollador de la prueba es respon-
damental de la validación es indicar si es probable sable de la validación de la interpretación de que
que estos beneficios específicos se concreten. Por los puntajes de la prueba determinan las habilida-
lo tanto, en el caso de una prueba utilizada en des de preparación indicadas. El distrito escolar es
decisiones sobre colocación, la validación sería responsable de la validación de la interpretación
informada por evidencia de que colocaciones al- adecuada de los puntajes de la prueba de prepa-
ternativas, de hecho, son beneficiosas de manera ración y de la evaluación de la política de usar
diferencial para las personas y la institución. En la prueba de preparación para las decisiones de
el caso de pruebas de empleo, si el editor de una colocación/admisión.
prueba asevera que el uso de la prueba dará por
resultado una reducción de los costos de capaci- Afirmaciones hechas sobre el uso de la prueba
tación de empleados, mejora de la eficiencia de la que no se basan directamente en interpretacio-
fuerza de trabajo o algún otro beneficio, entonces nes de los puntajes de la prueba. A veces se hacen
la validación sería informada por evidencia que afirmaciones sobre los beneficios de las pruebas
sustente esa proposición. que van más allá de las interpretaciones directas
Es importante destacar que la validez de las o usos de los puntajes de la prueba propiamente
interpretaciones de los puntajes de las pruebas de- dichos que son especificados por los desarrolla-
pende no solo de los usos de los puntajes de las dores de la prueba. Las pruebas educativas, por
pruebas sino específicamente de las afirmaciones ejemplo, pueden defenderse con el fundamento
que sustentan la teoría de acción para estos usos. de que su uso mejorará la motivación de los estu-
Por ejemplo, consideremos un distrito escolar que diantes para aprender o fomentará cambios en las
quiere determinar la preparación de los niños para prácticas de instrucción en el aula al responsabili-
el jardín de infancia, y entonces administra una zar a los educadores de resultados de aprendizaje
batería de pruebas y descarta a los estudiantes con valorados. Cuando esas afirmaciones son centra-
puntajes bajos. Si los puntajes más altos, efectiva- les para la razón fundamental adelantada para las
mente, predicen un desempeño más alto en tareas pruebas, el examen directo de las consecuencias
clave del jardín de infancia, la afirmación de que de la prueba necesariamente cobra aún más im-
el uso de los puntajes de la prueba para seleccio- portancia. Quienes hacen esas afirmaciones son
nar resultados en desempeño más alto en estas responsables de la evaluación de las afirmaciones.
tareas clave está respaldada y la interpretación de En algunos casos, esa información puede obte-
los puntajes de las pruebas como un predictor de nerse de datos existentes reunidos para fines dis-
preparación para el jardín de infancia sería válido. tintos de la validación de la prueba; en otros casos
Sin embargo, si se hiciera la afirmación de que el se necesitará nueva información para abordar el
uso de los puntajes de las pruebas para la selec- impacto del programa de pruebas.
ción daría por resultado el mayor beneficio para
los estudiantes, la interpretación de los puntajes Consecuencias que son imprevistas. La inter-
de las pruebas como indicadores de preparación pretación de los puntajes de la prueba para un
para el jardín de infancia no podría ser válida por- uso dado puede dar por resultado consecuen-
que los estudiantes con puntajes bajos podrían cias imprevistas. Una distinción clave es entre
21
consecuencias que surgen de una fuente de error si las diferencias se debieran a la sensibilidad de la
en la interpretación prevista de los puntajes de la prueba ante alguna característica del examinando
prueba para un uso dado y las consecuencias que que no tenía por objeto ser parte del constructo
no resultan de un error en la interpretación de de la prueba, entonces la interpretación prevista
los puntajes de la prueba. A continuación, se dan de los puntajes de la prueba como predictores del
ejemplos de cada una. desempeño laboral en una manera comparable
Como se analiza con cierta extensión en el para todos los grupos de solicitantes se conside-
capítulo 3, un dominio en el que a veces se obser- raría inválida, incluso si los puntajes de la prueba
van consecuencias negativas imprevistas del uso se correlacionaran positivamente con alguna me-
de las pruebas involucra diferencias de puntajes dida de desempeño laboral. Si una prueba cubre
de la prueba para grupos definidos en términos de la mayoría del dominio de contenido relevante,
raza/origen étnico, género, edad y otras caracte- pero omite algunas áreas, la cobertura de conte-
rísticas. En esos casos, no obstante, es importante nido podría considerarse inadecuada para algunos
distinguir entre evidencia que es directamente fines. Sin embargo, si se determina que excluir
relevante para la validez y evidencia que puede algunos componentes que podrían evaluarse de
informar decisiones sobre política social, pero inmediato tiene un impacto notable en las tasas
queda fuera del terreno de la validez. Por ejem- de selección para grupos de interés (p. ej., se de-
plo, se han planteado inquietudes sobre el efecto termina que las diferencias entre subgrupos son
de las diferencias de grupos en los puntajes de las menores en componentes excluidos que en com-
pruebas en la selección y promoción laborales, la ponentes incluidos), la interpretación prevista de
colocación de niños en clases de educación espe- los puntajes de la prueba como predictores del
cial y el acotamiento del plan de estudios de la desempeño laboral en una manera comparable
escuela para excluir objetivos de aprendizaje que para todos los grupos de solicitantes se consi-
no se evalúan. Si bien la información sobre las deraría inválida. Por lo tanto, la evidencia sobre
consecuencias de las pruebas puede influir en las consecuencias es relevante para la validez cuando
decisiones sobre el uso de la prueba, esas conse- puede trazarse hacia una fuente de invalidez como
cuencias, de por sí, no le restan valor a la validez la infrarrepresentación de constructo o compo-
de las interpretaciones previstas de los puntajes de nentes irrelevantes de constructo. La evidencia
la prueba. En cambio, los juicios de validez o falta sobre consecuencias que no puede trazarse así no
de esta a la luz de las consecuencias de las pruebas es relevante para la validez de las interpretaciones
dependen de una investigación más minuciosa de previstas de los puntajes de la prueba.
las fuentes de esas consecuencias. En otro ejemplo, consideremos el caso en el
Por ejemplo, una conclusión de diferentes ta- que la investigación respalda el uso por parte de
sas de contratación para miembros de diferentes un empleador de una prueba en particular en el
grupos como una consecuencia de utilizar una dominio de la personalidad (es decir, la prueba
prueba de empleo. Si la diferencia se debe ex- demuestra que es predictiva de un aspecto del
clusivamente a una distribución desigual de las posterior desempeño laboral), pero se determina
habilidades que la prueba pretende medir, y si que algunos solicitantes se forman una opinión
esas habilidades son, de hecho, factores de con- negativa de la organización debido a la percepción
tribución importantes para el desempeño laboral, de que la prueba invade la privacidad personal.
entonces encontrar diferencias entre los grupos de Por lo tanto, hay una consecuencia negativa im-
por sí no implica ninguna falta de validez para la prevista del uso de la prueba, pero que no se debe
interpretación prevista. Sin embargo, si la prueba a un defecto en la interpretación prevista de los
midiera diferencias de habilidades no relacionadas puntajes de la prueba como predictor del desem-
con el desempeño laboral (p. ej., una prueba de peño posterior. Ante esta situación, algunos em-
lectura sofisticada para un puesto de trabajo que pleadores pueden concluir que esta consecuencia
requería solo alfabetización funcional mínima), o negativa es un motivo para discontinuar el uso de
22
23
de evidencia. Para dar otro ejemplo, en áreas en se describen en capítulos siguientes de los Es-
que la recopilación de datos tiene un costo más tándares, e incluyen evidencia de la construcción
alto, podría ser necesario basar las interpretacio- cuidadosa de la prueba; confiabilidad adecuada
nes en menor cantidad de datos que en áreas en de los puntajes; administración y calificación
que la recopilación de datos tiene un costo menor. adecuadas de la prueba; precisión en el estable-
En última instancia, la validez de una inter- cimiento de escala de puntajes, equiparación, y
pretación prevista de los puntajes de la prueba se fijación de estándares; y atención cuidadosa a la
basa en toda la evidencia disponible relevante para imparcialidad para todos los examinandos, según
la calidad técnica de un sistema de prueba. Dife- corresponda a la interpretación de la prueba en
rentes componentes de la evidencia de validación cuestión.
24
Estándares de validez
Los estándares en este capítulo comienzan con validación. El desarrollador de la prueba debe es-
un estándar global (numerado 1.0), que se ha pecificar en lenguaje claro la población para la que
diseñado para transmitir la intención central o está prevista la prueba, el constructo que tiene pre-
enfoque principal del capítulo. El estándar global visto medir, los contextos en los que se emplearán
también puede verse como el principio rector del los puntajes de la prueba y los procesos mediante
capítulo, y es aplicable a todas las pruebas y usua- los que la prueba se administrará y calificará.
rios de pruebas. Todos los estándares posteriores
se han separado en tres unidades temáticas deno-
Estándar 1.2
minadas de la siguiente manera:
Se debe presentar una razón fundamental para
1. Establecimiento de usos e interpretaciones cada interpretación prevista de los puntajes de la
previstos prueba para un uso determinado, junto con un
2. Cuestiones respecto de las muestras y contex- resumen de la evidencia y la teoría que inciden
tos utilizados en la validación en la interpretación prevista.
3. Formas específicas de evidencia de validación
Comentario: La razón fundamental debe indicar
qué proposiciones son necesarias para investigar la
Estándar 1.0 interpretación prevista. El resumen debe combinar
Debe establecerse la articulación clara de cada análisis lógico con evidencia empírica para respal-
interpretación prevista de los puntajes de la dar la razón fundamental de la prueba. La evidencia
prueba para un uso especificado, y debe propor- puede proceder de estudios realizados a nivel local,
cionarse evidencia de validación apropiada que en el contexto en el que se usará la prueba; de es-
respalde cada interpretación prevista. tudios previos específicos; o de síntesis estadísticas
completas de estudios disponibles que reúnan cla-
ramente los criterios de calidad del estudio especifi-
Unidad 1. Establecimiento de usos e cado. Ningún tipo de evidencia es intrínsecamente
preferible a otros, sino que la calidad y relevancia
interpretaciones previstos de la evidencia para la interpretación prevista de los
puntajes de la prueba para un uso dado determi-
Estándar 1.1 nan el valor de una clase de evidencia en particular.
Una presentación de evidencia empírica en cual-
El desarrollador de la prueba debe establecer cla- quier momento debe dar la debida importancia a
ramente cómo se tiene previsto que se interpre- todas las conclusiones relevantes en la bibliografía
ten y en consecuencia se utilicen los puntajes de científica, incluidas las que no son coherentes con
la prueba. Las poblaciones para las que está pre- la interpretación o uso previstos. Los desarrollado-
vista la prueba deben definirse claramente, y el res de la prueba tienen la responsabilidad de respal-
constructo o los constructos que la prueba tiene dar sus propias recomendaciones, pero los usuarios
por objeto evaluar deben describirse claramente. de la prueba tienen la responsabilidad máxima de
Comentario: Los enunciados sobre validez deben evaluar la calidad de la evidencia de validación pro-
referirse a interpretaciones particulares y usos con- porcionada y su relevancia para la situación local.
secuentes. Es incorrecto usar la frase no calificada
“la validez de la prueba”. Ninguna prueba permite Estándar 1.3
interpretaciones que sean válidas para todos los
fines o en todas las situaciones. Cada interpre- Si la validez para alguna interpretación común o
tación recomendada para un uso dado requiere probable para un uso dado no se ha evaluado, o
25
si dicha interpretación no es coherente con la evi- puntajes de la prueba para un determinado uso
dencia disponible, ese hecho debe aclararse y se dará un resultado específico, se debe presentar el
debe advertir enfáticamente a los posibles usua- fundamento para prever ese resultado, junto con
rios sobre hacer interpretaciones sin fundamento. la evidencia relevante.
Comentario: Si la experiencia pasada sugiere que Comentario: Si se asevera, por ejemplo, que in-
es probable que una prueba se use de manera in- terpretar y usar puntajes en una prueba dada para
adecuada para determinadas clases de decisiones la selección de empleados dará por resultado la
o determinadas clases de examinandos, se deben reducción de errores de los empleados o de costos
hacer advertencias específicas contra dichos usos. de capacitación, debe proporcionarse evidencia
Se requiere juicio profesional para evaluar la me- que respalde esa aseveración. Una afirmación dada
dida en que la evidencia de validación existente puede ser respaldada por un argumento lógico o
respalda un uso determinado de la prueba. teórico, así como también por datos empíricos.
Debe darse la debida importancia a las conclusio-
Estándar 1.4 nes en la bibliografía científica que pueden no ser
coherentes con la expectativa indicada.
Si el puntaje de una prueba se interpreta para
un uso determinado de una manera que no ha Estándar 1.6
sido validada, corresponde al usuario justificar
la nueva interpretación para ese uso, propor- Cuando el uso de una prueba se recomienda
cionando una razón fundamental y reuniendo aduciéndose que la prueba o el programa de
nueva evidencia, si fuera necesario. pruebas propiamente dicho dará por resultado
algún beneficio indirecto, además de la utilidad
Comentario: Se requiere juicio profesional para
de la información de la interpretación de los
evaluar la medida en que la evidencia de validación
puntajes de la prueba propiamente dichos, quien
existente se aplica en la nueva situación y al nuevo
hace la recomendación debe explicitar la razón
grupo de examinandos y para determinar qué
fundamental para prever el beneficio indirecto.
nueva evidencia puede ser necesaria. La cantidad y
Deben proporcionarse los argumentos lógicos o
las clases de nueva evidencia requeridas pueden es-
teóricos y la evidencia empírica para el beneficio
tar influenciadas por experiencia con usos o inter-
indirecto. Debe darse la debida importancia a
pretaciones de pruebas anteriores similares o por la
cualquier conclusión contradictoria en la biblio-
cantidad, calidad y relevancia de datos existentes.
grafía científica, incluyendo conclusiones que
Una prueba que ha sido alterada o adminis-
sugieran resultados indirectos importantes que
trada de maneras que cambian el constructo sub-
no sean los pronosticados.
yacente a la prueba para uso con subgrupos de la
población requiere evidencia de la validez de la Comentario: Por ejemplo, se han defendido de-
interpretación hecha sobre la base de la prueba terminados programas de pruebas educativas adu-
modificada (véase el cap. 3). Por ejemplo, si una ciéndose que tendrían una influencia conveniente
prueba se adapta para usarse con individuos con en las prácticas de instrucción en el aula o que
una discapacidad en particular de una manera aclararían la comprensión de los estudiantes de
que cambia el constructo subyacente, la prueba la clase o nivel de rendimiento que se espera que
modificada debe tener su propia evidencia de va- alcancen. En la medida en que dichas afirmacio-
lidación para la interpretación prevista. nes entren en la justificación para un programa de
pruebas, se vuelven parte del argumento para el
Estándar 1.5 uso de la prueba. Se debe examinar la evidencia
para dichas afirmaciones —junto con evidencia
Cuando se indica claramente o se deja implí- sobre la validez de la interpretación prevista de
cito que una interpretación recomendada de los los puntajes de la prueba sobre las consecuencias
26
negativas imprevistas del uso de la prueba— al razonablemente que afecten los resultados inclu-
tomar una decisión general sobre el uso de la yen autoselección, atrición, capacidad lingüística,
prueba. Debe darse la debida importancia a la evi- condición de discapacidad, y criterios de exclu-
dencia contra dichas predicciones, por ejemplo, sión, entre otros. Si los participantes en un es-
evidencia de que en algunas condiciones las prue- tudio de validez son pacientes, por ejemplo, los
bas educativas pueden tener un efecto negativo en diagnósticos de los pacientes son importantes, así
la instrucción en el aula. como otras características, como la gravedad de
las afecciones diagnosticadas. En pruebas utiliza-
Estándar 1.7 das en contextos laborales, la condición de empleo
(p. ej., solicitantes frente a actuales ocupantes de
Si se afirma que el desempeño en una prueba, puestos), el nivel general de experiencia y antece-
o una decisión tomada a partir de este, se ve dentes educativos, y la composición de género y
esencialmente afectado por la práctica y la orien- étnica de la muestra pueden ser información rele-
tación, entonces se debe documentar la propen- vante. En las pruebas utilizadas en acreditación, la
sión del desempeño en la prueba a cambiar con condición de quienes brindan información (p. ej.,
estas formas de instrucción. candidatos para una credencial frente a personas
ya acreditadas) es importante para interpretar los
Comentario: Los materiales para ayudar en la datos resultantes. En las pruebas utilizadas en
interpretación de los puntajes deben resumir contextos educativos, la información relevante
evidencia que indique el grado en que puede es- puede incluir antecedentes educativos, nivel de
perarse la mejora con la práctica u orientación. desarrollo, características de la comunidad, o po-
Además, los materiales escritos para los exami- líticas de admisión escolar, como así también la
nandos deben proporcionar orientación práctica composición de género y étnica de la muestra. En
sobre el valor de las actividades de preparación de ocasiones, las restricciones legales sobre privaci-
la prueba, incluida la orientación.
dad impiden obtener o divulgar esa información
de la población o limitan el nivel de particulari-
dad al que pueden divulgarse esos datos. Deben
Unidad 2. Cuestiones respecto de las considerarse las leyes específicas sobre privacidad,
muestras y contextos utilizados en la si las hubiera, que rigen el tipo de datos, a fin de
asegurar que cualquier descripción de una pobla-
validación
ción no tenga el potencial de identificar a un in-
dividuo de una manera que no sea coherente con
Estándar 1.8 dichos estándares. Deben describirse el alcance de
datos faltantes, si los hubiera, y los métodos para
La composición de cualquier muestra de exami-
tratar los datos faltantes (p. ej., uso de procedi-
nandos de la cual se obtiene evidencia de vali-
mientos de imputación de datos).
dación debe describirse con tanto detalle como
sea práctico y aceptable, incluidas características
sociodemográficas y de desarrollo relevantes. Estándar 1.9
Comentario: Las conclusiones estadísticas pue- Cuando una validación se basa en parte en las
den estar influenciadas por factores que afec- opiniones o decisiones de jueces, observadores
tan la muestra en la que se basan los resultados. o calificadores expertos, se deben describir com-
Cuando la muestra tiene por objeto representar pletamente los procedimientos para seleccionar
una población, esa población debe describirse, a dichos expertos y para obtener los juicios o
y debe prestarse atención a cualquier factor sis- calificaciones. Deben presentarse las califica-
temático que pueda limitar la representatividad ciones y la experiencia de los jueces. La descrip-
de la muestra. Los factores que podrían esperarse ción de procedimientos debe incluir cualquier
27
capacitación e instrucciones proporcionadas, describirse con detalle suficiente para que los
debe indicar si los participantes llegaron a sus usuarios puedan juzgar la relevancia de las con-
decisiones de manera independiente y debe clusiones estadísticas para las condiciones locales.
reportar el nivel de acuerdo alcanzado. Si los Se debe prestar atención a cualquier caracterís-
participantes interactuaron entre sí o intercam- tica de una recopilación de datos de validación
biaron información, deben establecerse los pro- que probablemente difiera de las condiciones de
cedimientos mediante los cuales pueden haber prueba operativas típicas y que podría plausible-
ejercido influencia entre ellos. mente influir en el desempeño en la prueba.
Comentario: La recopilación sistemática de jui- Comentario: Esas condiciones podrían incluir
cios u opiniones puede darse en muchos mo- (a modo de ejemplo) las siguientes: motivación o
mentos en la construcción de la prueba (p. ej., preparación previa de los examinandos, el rango
obteniendo juicios expertos de lo adecuado del de los puntajes de la prueba sobre los exami-
contenido o representación adecuada del conte- nandos, el tiempo dado a los examinandos para
nido), en la formulación de reglas o estándares responder u otras condiciones administrativas,
para la interpretación de los puntajes (p. ej., en el modo de administración de la prueba (p. ej.,
el establecimiento de puntajes de corte), o en la prueba en línea sin supervisión frente a prueba
calificación de la prueba (p. ej., calificación de in situ), capacitación del examinador u otras
respuestas de un ensayo). Cada vez que se em- características del examinador, los intervalos de
pleen esos procedimientos, la calidad de los jui- tiempo que separan la recopilación de datos sobre
cios resultantes es importante para la validación. diferentes medidas o las condiciones que puedan
El nivel de acuerdo debe especificarse claramente haber cambiado desde que se obtuvo la evidencia
(p. ej., si el acuerdo de porcentaje se refiere al de validación.
acuerdo anterior o posterior a una discusión de
consenso, y si el criterio para el acuerdo es el
acuerdo exacto de calificaciones o el acuerdo den- Unidad 3. Formas específicas de
tro una cierta cantidad de puntos de la escala). La evidencia de validación
base para especificar ciertos tipos de individuos
(p. ej., profesores experimentados, titulares de
puestos experimentados, supervisores) como ex- (a) Evidencia orientada al contenido
pertos adecuados para la tarea de emitir un juicio Estándar 1.11
o calificación debe articularse. Es posible que sea
completamente adecuado que los expertos traba- Cuando la razón fundamental para la interpre-
jen juntos para alcanzar el consenso, pero no sería tación de los puntajes de la prueba para un uso
apropiado tratar sus respectivos juicios como es- dado se basa en parte en lo apropiado del conte-
tadísticamente independientes. Pueden utilizarse nido de la prueba, los procedimientos seguidos
diferentes jueces para diferentes fines (p. ej., un en la especificación y generación del contenido
grupo puede calificar ítems para sensibilidad cul- de la prueba deben describirse y justificarse con
tural mientras que otro puede calificar el nivel de referencia a la población que se prevé evaluar y al
lectura) o para diferentes partes de una prueba. constructo que la prueba tiene por objeto medir
o el dominio que tiene por objeto representar.
Si la definición del contenido muestreado incor-
Estándar 1.10 pora criterios como la importancia, frecuencia o
criticidad, estos criterios también deben expli-
Cuando la evidencia de validación incluye análi-
carse y justificarse con claridad.
sis estadísticos de los resultados de la prueba, ya
sean solos o junto con datos u otras variables, las Comentario: Por ejemplo, los desarrolladores de
condiciones en que se recopilaron los datos deben la prueba podrían proporcionar una estructura
28
lógica que mapee los ítems en la prueba al do- estadístico multivariado, como un análisis facto-
minio de contenido, ilustrando la relevancia de rial, que muestre que la variabilidad de los pun-
cada ítem y la adecuación con la que el conjunto tajes atribuible a una dimensión principal fue
de ítems representa el dominio de contenido. mucho mayor que la variabilidad de los puntajes
También podrían indicarse áreas del dominio de atribuible a cualquier otra dimensión identifi-
contenido que no están incluidas entre los ítems cada, o que muestre que un solo factor representa
de la prueba. El emparejamiento del contenido de adecuadamente la covarianza entre ítems de la
la prueba con el dominio objetivo en términos de prueba. Cuando una prueba proporciona más
complejidad cognitiva y la accesibilidad del con- de un puntaje, debe mostrarse que las interrela-
tenido de la prueba a todos los miembros de la ciones de esos puntajes son coherentes con el/los
población prevista también son consideraciones constructo(s) que se evalúan.
importantes.
Estándar 1.14
(b) Evidencia respecto de los procesos
Cuando se sugiere la interpretación de subpun-
cognitivos
tajes, diferencias de puntajes o perfiles, debe pro-
Estándar 1.12 porcionarse la razón fundamental y la evidencia
relevante que respalde dicha interpretación.
Si la razón fundamental para la interpretación Cuando se desarrollan puntajes compuestos, se
de los puntajes para un uso dado depende de deben dar la base y la razón fundamental para
premisas sobre los procesos psicológicos u ope- llegar a los valores compuestos.
raciones cognitivas de los examinandos, debe
proporcionarse la evidencia teórica o empírica Comentario: Cuando una prueba proporciona
que respalde esas premisas. Cuando enunciados más de un puntaje, debe demostrarse el carác-
sobre los procesos empleados por observadores ter distintivo y la confiabilidad de los puntajes
o calificadores sean parte del argumento de va- separados, y debe mostrarse que las interrelacio-
lidez, debe proporcionarse información similar. nes de esos puntajes son coherentes con el/los
constructo(s) que se evalúan. Asimismo, la evi-
Comentario: Si la especificación de la prueba de- dencia para la validez de interpretaciones de dos
linea los procesos a evaluar, entonces se necesita o más puntajes separados no necesariamente jus-
evidencia de que los ítems de la prueba, efectiva- tificaría una interpretación estadística o de con-
mente, utilizan los procesos previstos. tenido de la diferencia entre ellas. En cambio,
la razón fundamental y la evidencia de respaldo
(c) Evidencia respecto de la estructura deben concernir directamente al puntaje especí-
fico, la combinación de puntajes o el patrón de
interna
puntajes que se interpretarán para un uso dado.
Estándar 1.13 Cuando se combinan subpuntajes de una prueba
o puntajes de diferentes pruebas en un valor com-
Si la razón fundamental de la interpretación de puesto, debe especificarse la base para combinar
los puntajes de una prueba para un uso dado puntajes y cómo se combinan los puntajes (p. ej.,
depende de premisas sobre las relaciones entre ponderación diferencial frente a suma simple).
ítems de la prueba o entre partes de la prueba,
debe proporcionarse evidencia sobre la estruc-
tura interna de la prueba. Estándar 1.15
Comentario: Podría decirse, por ejemplo, que Cuando se sugiere la interpretación del desem-
una prueba es esencialmente unidimensional. Tal peño en ítems específicos, o pequeños subcon-
afirmación podría estar respaldada por análisis juntos de ítems, debe proporcionarse la razón
29
fundamental que respalde dicha interpretación. evidencia de validación para la prueba en estudio.
Cuando la interpretación de respuestas a ítems Si dichas variables incluyen puntajes compuestos,
individuales es probable pero no recomendada se debe explicar la manera en que se construyeron
por el desarrollador, se debe advertir al usuario los valores compuestos (p. ej., transformación o
de no hacer dichas interpretaciones. estandarización de las variables, y ponderación de
las variables). Además de considerar las propieda-
Comentario: Se debe dar suficiente orientación
des de cada variable en forma aislada, es impor-
a los usuarios para permitirles juzgar el grado de
tante advertir sobre interpretaciones defectuosas
confianza justificado para cualquier interpretación
que surgen de fuentes espurias de dependencia
para un uso recomendado por el desarrollador de
entre medidas, incluidos errores correlacionados o
la prueba. Los manuales de pruebas y los reportes
varianza compartida debido a métodos comunes
de puntajes deben desalentar la sobreinterpreta-
de medición o elementos comunes.
ción de información que puede estar sujeta a error
considerable. Esto es especialmente importante
si se sugiere la interpretación del desempeño en (e) Evidencia respecto de las relaciones
ítems aislados, pequeños subconjuntos de ítems o con criterios
puntajes de subpruebas.
Estándar 1.17
(d) Evidencia respecto de las relaciones Cuando la validación se basa en evidencia de que
con constructos relacionados los puntajes de la prueba están relacionados con
conceptualmente una o más variables de criterios, debe reportarse
información sobre la pertinencia y la calidad téc-
Estándar 1.16 nica de los criterios.
Cuando la evidencia de validación incluye análi- Comentario: La descripción de cada variable de
sis empíricos de respuestas a ítems de la prueba criterio debe incluir evidencia respecto de su con-
junto con datos sobre otras variables, debe fiabilidad, la medida en que representa el cons-
proporcionarse la razón fundamental para se- tructo previsto (p. ej., desempeño de tareas en el
leccionar las variables adicionales. Cuando sea puesto de trabajo), y la medida en que es probable
apropiado y viable, debe presentarse o citarse la que esté influida por fuentes de varianza externas.
evidencia concerniente a constructos representa- Debe prestarse especial atención a las fuentes que
dos por otras variables, así como sus propieda- la investigación previa sugiera que pueden intro-
des técnicas. Debe prestarse atención a cualquier ducir varianza externa que podría sesgar el criterio
fuente probable de dependencia (o falta de inde- a favor o en contra de grupos identificables.
pendencia) entre variables distintas de las depen-
dencias entres los constructos que representan. Estándar 1.18
Comentario: Los patrones de asociación entre
Cuando se asevera que un determinado nivel de
puntajes en la prueba en estudio y otras variables
desempeño en la prueba predice el desempeño
deben ser coherentes con las expectativas teóricas.
adecuado o inadecuado del criterio, se debe pro-
Las variables adicionales podrían ser caracterís-
porcionar información sobre los niveles de des-
ticas demográficas, indicadores de condiciones
empeño del criterio asociados con niveles dados
de tratamiento o puntajes sobre otras medidas.
de puntajes de la prueba.
Podrían incluir medidas previstas del mismo
constructo o de constructos diferentes. La confia- Comentario: A los fines de vincular puntajes
bilidad de los puntajes de esas otras medidas y la específicos de la prueba con niveles específicos
validez de las interpretaciones previstas de punta- de desempeño de criterios, las ecuaciones de re-
jes de esas medidas son una parte importante de la gresión son más útiles que los coeficientes de
30
correlación, que por lo general son insuficientes los coeficientes de regresión u otros índices. Los
para describir completamente patrones de asocia- procedimientos de validación cruzada incluyen
ción entre pruebas y otras variables. Se necesitan estimaciones de validez de fórmulas en muestras
medias, desviaciones estándares y otros resúmenes posteriores y enfoques empíricos como derivar
estadísticos, así como información sobre la distri- ponderaciones en una parte de una muestra y
bución de desempeños de criterios condicionales aplicarlas a una submuestra independiente.
a un puntaje determinado de una prueba. En el
caso de variables categóricas más que continuas, Estándar 1.20
deben utilizarse las técnicas apropiadas para di-
chos datos (p. ej., el uso de regresión logística en Cuando las medidas del tamaño del efecto (p. ej.,
el caso de un criterio dicotómico). La evidencia correlaciones entre puntajes de la prueba y me-
sobre la asociación general entre variables debe didas de criterios, diferencias de puntajes medios
complementarse con información sobre la forma estandarizados de la prueba entre subgrupos) se
de esa asociación y sobre la variabilidad de esa usan para obtener inferencias que van más allá
asociación en diferentes rangos de puntajes de la de describir la muestra o las muestras sobre las
prueba. Obsérvese que las recopilaciones de datos que se han recopilado datos, deben reportarse
que emplean examinandos seleccionados por sus índices del grado de incertidumbre asociado con
puntajes extremos en una o más medidas (grupos estas medidas (p. ej., errores estándares, interva-
extremos) por lo general no pueden proporcionar los de confianza o pruebas de significación).
información adecuada sobre la asociación.
Comentario: Las medidas del tamaño del efecto
se emparejan de manera útil con índices que refle-
Estándar 1.19 jan su error de muestreo para hacer que sea posi-
ble la evaluación significativa. Hay varias medidas
Si se usan puntajes de la prueba junto con otras posibles del tamaño del efecto, cada una aplicable
variables para predecir algún resultado o criterio, a diferentes contextos. En la presentación de ín-
los análisis basados en modelos estadísticos de dices de incertidumbre, los errores estándares o
la relación predictor-criterio deben incluir esas intervalos de confianza proporcionan más infor-
variables relevantes adicionales junto con los mación y en consecuencia se prefieren en lugar de
puntajes de la prueba. las pruebas de significación o como complemento
de estas.
Comentario: En general, si varios predictores de
algún criterio están disponibles, la combinación
óptima de predictores no puede determinarse ex- Estándar 1.21
clusivamente a partir de exámenes por pares, de la
Cuando se realizan ajustes estadísticos, como
variable de criterio con cada predictor separado a
aquellos para restricción de rango o atenuación,
su vez, debido a la intercorrelación entre predic-
se deben reportar tanto los coeficientes ajustados
tores. Suele ser informativo estimar el incremento
como los no ajustados, así como el procedimiento
en la exactitud predictiva que puede esperarse
específico utilizado y todas las estadísticas utili-
cuando cada variable, incluyendo el puntaje de
zadas en el ajuste. Las estimaciones de la relación
la prueba, se introduce además de todas las de-
constructo-criterio que eliminan los efectos del
más variables disponibles. Como las pondera-
error de medición en la prueba deben reportarse
ciones derivadas empíricamente para combinar
claramente como estimaciones ajustadas.
predictores pueden aprovechar factores aleatorios
en una muestra dada, los análisis que involucran Comentario: La correlación entre dos variables,
múltiples predictores deben verificarse mediante como los puntajes de la prueba y las medidas de
validación cruzada o análisis equivalente siempre criterio, depende del rango de valores de cada va-
que sea viable, y debe reportarse la precisión de riable. Por ejemplo, los puntajes de la prueba y
31
32
de rango, y deben aclararse las consecuencias de reunir suficientes casos para análisis estadísticos.
esas suposiciones. Se reconoce, no obstante, que es posible que esa
investigación no sea viable, porque las restriccio-
Comentario: La descripción debe incluir infor-
nes éticas y legales sobre asignaciones diferenciales
mación documentada sobre cada estudio utili-
pueden prohibir los grupos de control.
zado como dato de entrada en el metaanálisis,
permitiendo así la evaluación por una parte inde-
pendiente. Obsérvese también que el metaanálisis
involucra inevitablemente una serie de opciones (f) Evidencia basada en consecuencias
metodológicas. Las bases para estos juicios deben de las pruebas
articularse. En el caso de elecciones que involu- Estándar 1.25
cran algún grado de incertidumbre, como correc-
ciones de artefactos basadas en valores supuestos, Cuando surgen consecuencias imprevistas del
la incertidumbre debe reconocerse y debe exami- uso de la prueba, debe intentarse investigar si
narse y reportarse el grado en que las conclusiones dichas consecuencias surgen de la sensibilidad
sobre validez dependen de estas suposiciones. de la prueba a características distintas de las que
Como en el caso del Estándar 1.22, el indi- tiene previsto evaluar o de que la prueba no lo-
viduo que recurre a evidencia metaanalítica para gra representar completamente el constructo
respaldar la interpretación de puntajes de una previsto.
prueba para un uso dado puede ser o no también
Comentario: La validez de las interpretaciones de
el que realiza el metaanálisis. Como el Estándar
los puntajes de la prueba puede estar limitada por
1.22 aborda el reporte de evidencia metaanalítica,
componentes irrelevantes de constructo o infra-
el individuo que recurre a evidencia metaanalítica
rrepresentación de constructo. Cuando las conse-
existente debe evaluar la solidez del análisis me-
cuencias imprevistas parecen provenir, al menos
taanalítico para el contexto en cuestión.
en parte, del uso de una o más pruebas, es espe-
cialmente importante comprobar que estas conse-
Estándar 1.24 cuencias no surjan de componentes irrelevantes de
constructo o infrarrepresentación de constructo.
Si se recomienda una prueba para usar en la asig-
Por ejemplo, si bien las diferencias del grupo, de
nación de personas a tratamientos alternativos,
por sí, no cuestionan la validez de una interpreta-
y si los resultados de esos tratamientos pueden
ción propuesta, pueden aumentar la prominencia
compararse razonablemente sobre un criterio en
de hipótesis rivales plausibles que deben evaluarse
común, entonces, cuando sea viable, debe pro-
como parte del esfuerzo de validación. Encontrar
porcionarse evidencia de respaldo de los resulta-
consecuencias imprevistas también puede llevar a
dos diferenciales.
reconsiderar lo adecuado del constructo en cues-
Comentario: Si una prueba se utiliza para clasifi- tión. Asegurar que las consecuencias imprevistas
cación en programas ocupacionales, terapéuticos se evalúen es responsabilidad de quienes toman
o educativos alternativos, no es suficiente solo la decisión de usar o no una prueba en particular,
mostrar que la prueba predice resultados de tra- aunque las restricciones legales puedan limitar la
tamiento. El respaldo de la validez del procedi- discreción del usuario de la prueba para descartar
miento de clasificación se proporciona mostrando los resultados de una prueba administrada previa-
que la prueba es útil para determinar qué personas mente, cuando esa decisión se base en diferencias
probablemente se beneficien de manera diferen- en puntajes para subgrupos de diferentes razas,
cial con un tratamiento u otro. Es posible que orígenes étnicos o géneros. Estas cuestiones se
deban combinarse categorías de tratamiento para analizan en mayor detalle en el capítulo 3.
33
35
de las clases de variabilidad permitidas en el pro- repetidas veces y, por lo tanto, no es posible es-
cedimiento de evaluación (p. ej., entre tareas, timar el error estándar para el puntaje de cada
contextos, evaluadores) y la interpretación pro- persona mediante medición repetida. En cambio,
puesta de los puntajes de la prueba. Por ejem- utilizando suposiciones basadas en modelos, el
plo, si la interpretación de los puntajes supone error promedio de medida se estima respecto de
que el constructo que se evalúa no varía entre alguna población, y este promedio se denomina
ocasiones, la variabilidad entre ocasiones es una error estándar de medida (SEM, por sus siglas
posible fuente de error de medida. Si las tareas en inglés). El SEM es un indicador de una falta
de la prueba varían entre formularios alternati- de coherencia en los puntajes generados por el
vos de la prueba, y los desempeños observados procedimiento de evaluación para alguna pobla-
se tratan como una muestra de un dominio de ción. Un SEM relativamente grande indica con-
tareas similares, la variabilidad aleatoria en los fiabilidad/precisión relativamente baja. El error
puntajes de un formulario a otro se consideraría estándar de medida condicional para un nivel de
un error. Si se utilizan evaluadores para asignar puntaje es el error estándar de medida a ese nivel
puntajes a respuestas, la variabilidad en los pun- de puntaje.
tajes entre evaluadores cualificados es una fuente Decir que un puntaje incluye error implica
de error. Las variaciones en los puntajes de un que existe un valor hipotético sin error que ca-
examinando que no son coherentes con la defi- racteriza la variable que se evalúa. En la teoría
nición del constructo que se evalúa se atribuyen clásica de los tests, este valor sin error se deno-
a errores de medida. mina puntaje verdadero de la persona para el
Una manera muy básica de evaluar la cohe- procedimiento de la prueba. Se conceptualiza
rencia de puntajes involucra un análisis de la va- como el puntaje promedio hipotético en un
riación en los puntajes de cada examinando entre conjunto infinito de replicaciones del procedi-
replicaciones del procedimiento de evaluación. miento de evaluación. En términos estadísticos,
La prueba se administra y luego, tras un período el puntaje verdadero de una persona es un pará-
breve durante el cual no se prevería que cambie metro desconocido, o constante, y el puntaje ob-
la situación del individuo examinado respecto de servado para la persona es una variable aleatoria
la variable sometida a medición, la prueba (o un que fluctúa en torno al puntaje verdadero para
formulario distinto pero equivalente de la prueba) la persona.
se administra por segunda vez; se supone que la La teoría de generabilidad proporciona un
primera administración no tiene influencia sobre marco diferente para estimar la confiabilidad/pre-
la segunda administración. Dado que se supone cisión. Si bien la teoría clásica de los tests supone
que el atributo sometido a medición permanece una sola distribución para los errores en los pun-
igual para cada examinado durante las dos ad- tajes de un examinando, la teoría de generabili-
ministraciones y que las administraciones de la dad busca evaluar las contribuciones de diferentes
prueba son independientes una de otra, más va- fuentes de error (p. ej., ítems, ocasiones, evalua-
riación entre las dos administraciones indica más dores) al error general. El puntaje de universo
error en los puntajes de la prueba y, por lo tanto, para una persona se define como el valor esperado
menor confiabilidad/precisión. sobre un universo de todas las replicaciones po-
El impacto de dichos errores de medida sibles de un procedimiento de evaluación para el
puede resumirse de varias maneras, pero general- examinando. El puntaje de universo de la teoría
mente, en la medición educativa y psicológica, de generabilidad cumple un rol que es similar al
se conceptualiza en términos de la desviación es- rol de los puntajes verdaderos en la teoría clásica
tándar en los puntajes para una persona durante de los tests.
replicaciones del procedimiento de evaluación. La teoría de respuesta al ítem (TRI) aborda la
En la mayoría de los contextos de evaluación, no cuestión básica de la confiabilidad/precisión uti-
es posible replicar el procedimiento de evaluación lizando funciones de información, que indican la
36
precisión con la que los desempeños en las tareas/ coherentes entre replicaciones del procedimiento
ítems observados pueden utilizarse para estimar el de evaluación y es baja si los puntajes no son co-
valor de un rasgo latente para cada examinando. herentes entre replicaciones. Por lo tanto, al eva-
Utilizando TRI, los índices análogos a los coefi- luar la confiabilidad/precisión, es importante ser
cientes de confiabilidad tradicionales pueden esti-claros respecto de qué constituye una replicación
marse a partir de las funciones de información del del procedimiento de evaluación.
ítem y distribuciones del rasgo latente en alguna Las replicaciones involucran administraciones
población. independientes del procedimiento de evaluación,
En la práctica, la confiabilidad/precisión de tal que no se esperaría que el atributo sometido
los puntajes suele evaluarse en términos de varios a medición cambie. Por ejemplo, al evaluar un
coeficientes, incluyendo coeficientes de confiabi- atributo que no se espera que cambie durante un
lidad, coeficientes de generabilidad, y funciones período de tiempo prolongado (p. ej., en la medi-
de información de TRI, dependiendo del enfo- ción de un rasgo), los puntajes generados en dos
que del análisis y del modelo de medición que se días consecutivos (utilizando diferentes formula-
utilice. Los coeficientes tienden a tener valores rios de prueba si corresponde) se considerarían
altos cuando la variabilidad asociada con el error replicaciones. Para una variable de estado (p. ej.,
es pequeña en comparación con la variación ob- estado de ánimo o hambre), donde los cambios
servada en los puntajes (o diferencias de puntajes)bastante rápidos son comunes, los puntajes gene-
a estimar. rados en dos días consecutivos no se considera-
rían replicaciones; los puntajes obtenidos en cada
Implicaciones para la validez ocasión se interpretarían en términos del valor de
la variable de estado en esa ocasión. En muchas
Si bien en este caso se analiza la confiabilidad/ pruebas de conocimiento o habilidad, la adminis-
precisión como una característica independiente tración de formularios alternativos de una prueba
de los puntajes de prueba, debe reconocerse que el con diferentes muestras de ítems se considerarían
nivel de confiabilidad/precisión de puntajes tiene replicaciones de la prueba; para instrumentos de
implicaciones para la validez. La confiabilidad/ sondeo y algunas medidas de personalidad, se es-
precisión de datos en última instancia incide en pera que las mismas preguntas se utilicen cada vez
la generabilidad o fiabilidad de los puntajes y/o que se administre la prueba, y cualquier cambio
la coherencia de clasificaciones de individuos de- sustancial en la redacción constituiría un formu-
rivadas de los puntajes. En la medida en que los lario de prueba diferente.
puntajes no sean coherentes entre replicaciones Las pruebas estandarizadas presentan los mis-
del procedimiento de evaluación (es decir, en la mos materiales de la prueba o materiales muy
medida en que reflejen errores de medida aleato- similares a todos los examinandos, mantienen
rios), su potencial de predicción exacta de crite- una rigurosa adhesión a procedimientos estipula-
rios, para diagnóstico beneficioso del individuo dos para la administración de pruebas y emplean
examinado, y para toma de decisiones inteligentes reglas de calificación prescriptas que pueden
es limitado. aplicarse con un alto grado de coherencia. Admi-
nistrar las mismas preguntas o preguntas puestas
Especificaciones para replicaciones del en una escala común a todos los examinandos en
procedimiento de evaluación las mismas condiciones promueve la imparciali-
dad y facilita las comparaciones de puntajes entre
Como se indicó anteriormente, la noción general individuos. Las condiciones de observación que
de confiabilidad/precisión se define en términos se fijan o estandarizan para el procedimiento de
de coherencia entre replicaciones del procedi- evaluación permanecen iguales entre replicacio-
miento de evaluación. La confiabilidad/precisión nes. Sin embargo, se permitirá variar algunos as-
es alta si los puntajes para cada persona son pectos de cualquier procedimiento de evaluación
37
estandarizado. Por lo general se permite que el confiabilidad de coherencia interna (p. ej., coefi-
momento y el lugar de evaluación, así como las ciente dividido, KR-20, coeficiente alfa) utili-
personas que administran la prueba, varíen en zan la medida de concordancia observada entre
cierta medida. Es posible que se permita variar diferentes partes de una prueba para estimar la
las tareas en particular incluidas en la prueba confiabilidad asociada con variabilidad entre
(como muestras de un dominio de contenido co- formularios. Para el método dividido, se correla-
mún), y las personas que califican los resultados cionan los puntajes en dos mitades más o menos
pueden variar en algún conjunto de evaluadores paralelas de la prueba (p. ej. ítems con números
cualificados. impares e ítems con números pares), y el coefi-
Los formularios alternativos (o formularios ciente de confiabilidad de la mitad de la prueba
paralelos) de una prueba estandarizada se dise- que se obtiene se ajusta estadísticamente para
ñan para que tengan la misma distribución ge- estimar la confiabilidad de la prueba completa.
neral de contenido y formatos de ítems (según lo Sin embargo, cuando una prueba se diseña para
descripto, por ejemplo, en especificaciones de la reflejar la tasa de trabajo, es probable que las esti-
prueba detalladas), los mismos procedimientos maciones de confiabilidad de coherencia interna
administrativos y al menos aproximadamente las (en particular por el método par-impar) arrojen
mismas medias de puntaje y desviaciones están- estimaciones infladas de confiabilidad para prue-
dares en alguna población o poblaciones especifi- bas de aceleración alta.
cadas. Los formularios alternativos de una prueba En algunos casos, es posible que sea razonable
se consideran intercambiables, en el sentido de suponer que es probable que una posible fuente
que se elaboran según las mismas especificacio- de variabilidad sea insignificante o que el usuario
nes, y se interpretan como medidas del mismo podrá inferir confiabilidad adecuada de otros ti-
constructo. pos de evidencia. Por ejemplo, si los puntajes de
En la teoría clásica de los tests, se supone una prueba se utilizan principalmente para prede-
que las pruebas estrictamente paralelas miden el cir algunos puntajes de criterio y la prueba hace
mismo constructo y arrojan puntajes que tienen un trabajo aceptable en la predicción del criterio,
las mismas medias y desviaciones estándares en puede inferirse que los puntajes de la prueba son
las poblaciones de interés y tienen las mismas suficientemente confiables/precisos para su uso
correlaciones con todas las demás variables. Un previsto.
coeficiente de confiabilidad clásico se define en La definición de lo que constituye una prueba
términos de la correlación entre puntajes de for- o procedimiento de medición estandarizado se
mularios estrictamente paralelos de la prueba, ha ampliado significativamente en las últimas
pero se estima en términos de la correlación entre décadas. Se han desarrollado varias clases de eva-
formularios alternativos de la prueba que pueden luaciones de desempeño, simulaciones y evalua-
no ser tan estrictamente paralelos. ciones basadas en porfolios para brindar medidas
Pueden implementarse diferentes enfoques de constructos que de otro modo podrían ser
a la estimación de confiabilidad/precisión para difíciles de evaluar. Cada paso hacia una mayor
ajustarse a diferentes diseños de recopilación flexibilidad en los procedimientos de evaluación
de datos y diferentes interpretaciones y usos de amplía el alcance de las variaciones permitidas en
puntajes. En algunos casos, es posible que sea replicaciones del procedimiento de evaluación, y
viable estimar la variabilidad entre replicaciones por lo tanto tiende a aumentar el error de me-
directamente (p. ej., teniendo una serie de eva- dida. Sin embargo, algunos de estos sacrificios en
luadores cualificados que evalúen una muestra de la confiabilidad/precisión pueden reducir la irre-
desempeños en la prueba para cada examinando). levancia de constructo o infrarrepresentación de
En otros casos, es posible que sea necesario usar constructo y, por consiguiente, mejorar la validez
estimaciones menos directas del coeficiente de de las interpretaciones previstas de los puntajes.
confiabilidad. Por ejemplo, las estimaciones de Por ejemplo, las evaluaciones de desempeño que
38
dependen de calificaciones de respuestas extendi- aprendizaje o maduración que ha ocurrido entre las
das tienden a tener menor confiabilidad que las medidas iniciales y finales). En esos casos, los cam-
evaluaciones más estructuradas (p. ej., pruebas de bios en el desempeño constituirían el fenómeno de
opciones múltiples o de respuestas cortas), pero a interés y no se considerarían errores de medida.
veces pueden proporcionar medidas más directas El error de medida reduce la utilidad de los
del atributo de interés. puntajes de prueba. Limita la medida en que
Los errores de medida aleatorios se ven como los resultados de la prueba pueden generalizarse
fluctuaciones impredecibles en los puntajes. Se más allá de los detalles de una replicación dada
distinguen conceptualmente de los errores sis- del procedimiento de evaluación. Reduce la con-
temáticos, que también pueden afectar los des- fianza que puede depositarse en los resultados de
empeños de individuos o grupos, pero de una una sola medición y por lo tanto la confiabilidad/
manera coherente más que aleatoria. Por ejemplo, precisión de los puntajes. Dado que los errores de
una hoja de respuestas incorrecta contribuiría a medida aleatorios son impredecibles, no pueden
un error sistemático, como lo harían las diferen- eliminarse de los puntajes observados. Sin em-
cias en la dificultad de los formularios de prueba bargo, su magnitud agregada puede resumirse de
que no se hayan equiparado o vinculado adecua- varias maneras, como se analiza a continuación, y
damente; los individuos examinados que comple- pueden controlarse hasta cierto punto (p. ej., me-
ten un formulario pueden recibir puntajes más diante estandarización o promediando múltiples
altos en promedio que si hubieran completado puntajes).
el otro formulario. Esos errores sistemáticos por El error estándar de medida, como tal, pro-
lo general no se incluirían en el error estándar de porciona una indicación del nivel esperado de
medida, y no se considera que contribuyan a una error aleatorio entre puntos de puntaje y replica-
falta de confiabilidad/precisión. En cambio, los ciones para una población específica. En muchos
errores sistemáticos constituyen factores irrele- casos, es útil tener estimaciones de los errores es-
vantes de constructo que reducen la validez, pero tándares para cada individuo examinado (o para
no la confiabilidad/precisión. individuos examinados con puntajes en determi-
Las fuentes importantes de error aleatorio nados rangos de puntaje). Estos errores estándares
pueden agruparse en dos categorías amplias: las condicionales son difíciles de estimar en forma di-
que tienen su origen en los examinandos y las recta, pero pueden estimarse indirectamente. Por
externas a ellos. Las fluctuaciones en el nivel de ejemplo, las funciones de información de prueba
motivación, interés o atención de un individuo basadas en modelos de TRI pueden usarse para
examinado y la aplicación incoherente de habili- estimar errores estándares para diferentes valores
dades son claramente fuentes internas que pueden de un parámetro de capacidad latente y/o para di-
conducir a error aleatorio. Las variaciones en las ferentes puntajes observados. Al usar cualquiera
condiciones de evaluación (p. ej., momento del de estas estimaciones de errores estándares con-
día, nivel de distracciones) y las variaciones en la dicionales basadas en modelos, es importante que
calificación debido a subjetividad del evaluador las suposiciones del modelo sean coherentes con
son ejemplos de fuentes externas que pueden con- los datos.
ducir a error aleatorio. La importancia de cual-
quier fuente de variación en particular depende Evaluación de la confiabilidad/precisión
de las condiciones específicas en las que se tomen
las medidas, cómo se califican los desempeños y El enfoque ideal de la evaluación de confiabili-
las interpretaciones derivadas de los puntajes. dad/precisión requeriría muchas replicaciones
Algunos cambios en los puntajes de una oca- independientes del procedimiento de evaluación
sión a otra no se consideran error (aleatorio o sis- en una muestra grande de examinandos. El rango
temático), porque surgen, en parte, de cambios en de diferencias permitido en replicaciones del
el constructo sometido a medición (p. ej., debido a procedimiento de evaluación y la interpretación
39
40
pero los diferentes coeficientes transmiten in- información de TRI se basa en los resultados ob-
formación diferente. Un coeficiente puede abar- tenidos en una ocasión específica o en un con-
car una o más fuentes de error. Por ejemplo, un texto específico, y por lo tanto no proporciona
coeficiente puede reflejar error debido a incohe- una indicación de generabilidad entre ocasiones
rencias del evaluador, pero no reflejar la variación o contextos.
en los desempeños o productos de un individuo Los coeficientes (p. ej., coeficientes de con-
examinado. Un coeficiente puede reflejar solo la fiabilidad, generabilidad y basados en TRI) tie-
coherencia interna de repuestas al ítem dentro de nen dos ventajas principales sobre los errores
un instrumento y no reflejar el error de medida estándares. En primer lugar, como se indicó ante-
asociado con los cambios diarios en el desempeño riormente, pueden usarse para estimar errores es-
del individuo examinado. tándares (generales y/o condicionales) en casos en
No debe inferirse, sin embargo, que los coefi- que no sería posible hacerlo directamente. En se-
cientes de formularios alternativos o test-retest gundo lugar, los coeficientes (p. ej., coeficientes de
basados en administraciones de la prueba con va- confiabilidad y generabilidad), que se definen en
rios días o semanas de diferencia son siempre pre- términos de relaciones de varianzas para puntajes
feribles a los coeficientes de coherencia interna. en la misma escala, son invariantes en transforma-
En casos en que podemos suponer que no es pro- ciones lineales de la escala de puntajes y pueden
bable que los puntajes cambien, en función de ex- ser útiles para comparar diferentes procedimientos
periencia pasada y/o consideraciones teóricas, es de evaluación sobre la base de escalas diferentes.
posible que sea razonable suponer invariancia en- Sin embargo, esas comparaciones rara vez son di-
tre ocasiones (sin realizar un estudio test-retest). rectas, porque pueden depender de la variabilidad
Otra limitación de los coeficientes test-retest es de los grupos en que se basan los coeficientes, las
que, cuando se utiliza el mismo formulario de la técnicas usadas para obtener los coeficientes, las
prueba, la correlación entre los primeros y segun- fuentes de error reflejadas en los coeficientes, y
dos puntajes podría inflarse por el recuerdo del las extensiones y contenidos de los instrumentos
examinando de las respuestas iniciales. que se comparan.
La función de información de prueba, un re-
sultado importante de TRI, resume qué tan bien Factores que afectan la confiabilidad/
la prueba discrimina entre individuos en varios precisión
niveles de capacidad en el rasgo que se evalúa. En
la conceptualización de TRI para ítems califica- Varios factores pueden tener efectos significativos
dos de manera dicotómica, la curva característica en la confiabilidad/precisión, y en algunos casos,
de ítem o función de respuesta al ítem se utiliza esos factores pueden conducir a interpretacio-
como un modelo para representar la proporción nes erróneas de los resultados, si no se tienen en
creciente de respuestas correctas a un ítem en ni- cuenta.
veles crecientes de la capacidad o rasgo sometido En primer lugar, cualquier evaluación de con-
a medición. Dados los datos apropiados, pueden fiabilidad/precisión se aplica a un procedimiento
estimarse los parámetros de la curva característica de evaluación en particular y es probable que
para cada ítem en una prueba. La función de in- cambie si el procedimiento cambia de cualquier
formación de prueba puede entonces calcularse a manera sustancial. En general, si la evaluación es
partir de estimaciones de parámetros para el con- acortada (p. ej., reduciendo la cantidad de ítems
junto de ítems en la prueba y puede usarse para o tareas), es probable que la confiabilidad dismi-
derivar coeficientes con interpretaciones similares nuya; y si la evaluación se extiende con tareas o
a los coeficientes de confiabilidad. ítems comparables, es probable que la confiabili-
La función de información puede verse como dad aumente. De hecho, extender la evaluación, y
un enunciado matemático de la precisión de me- por consiguiente aumentar el tamaño de la mues-
dida en cada nivel del rasgo dado. La función de tra de tareas/ítems (o evaluadores u ocasiones) que
41
42
el mismo para los dos tipos de interpretaciones. Es más probable que los errores de medida para
Cualquier fuente de error que sea la misma para individuos examinados cuyos puntajes verdade-
todos los individuos no contribuye al error rela- ros se acercan al puntaje de corte conduzcan a
tivo, pero puede contribuir al error absoluto. errores de clasificación. La elección de las técni-
Los coeficientes de confiabilidad conformes a cas utilizadas para cuantificar la confiabilidad/
normas tradicionales se desarrollaron para evaluar precisión debería tener en cuenta estas circuns-
la precisión con la que los puntajes de la prueba tancias. Esto puede hacerse reportando el error
estiman la situación relativa de individuos exami- estándar condicional en la proximidad del pun-
nados en la misma escala, y evalúan la confiabi- taje de corte o los índices de coherencia/exacti-
lidad/precisión en términos de la relación de la tud de decisiones (p. ej., porcentaje de decisiones
varianza de puntaje verdadero respecto de la va- correctas, kappa de Cohen), que varían como
rianza de puntaje observado. A medida que se ha funciones tanto de la confiabilidad/precisión
expandido la variedad de usos de los puntajes de del puntaje como de la ubicación del puntaje
prueba y se han extendido los contextos de uso de corte.
(p. ej., categorización de diagnóstico, la evalua- La coherencia de decisiones se refiere a la
ción de programas educativos), el rango de ín- medida en que las clasificaciones observadas de
dices que se usan para evaluar la confiabilidad/ individuos examinados sería la misma entre re-
precisión también ha aumentado para incluir ín- plicaciones del procedimiento de evaluación. La
dices para diversas clases de puntajes de cambio y exactitud de decisiones se refiere a la medida en
puntajes de diferencia, índices de coherencia de que las clasificaciones observadas de individuos
decisiones, e índices apropiados para evaluar la examinados basadas en los resultados de una
precisión de las medias de grupos. sola replicación concordarían con su estado de
Algunos índices de precisión, especialmente clasificación verdadero. Hay métodos estadísti-
errores estándares y errores estándares condicio- cos disponibles para calcular índices tanto para
nales, también dependen de la escala en la que coherencia de decisiones como para exactitud de
se reportan. Un índice expresado en términos decisiones. Estos métodos evalúan la coherencia o
de puntajes brutos o de estimaciones de TRI del exactitud de clasificaciones más que la coherencia
nivel de rasgo puede transmitir una percepción en los puntajes per se. Obsérvese que el grado de
muy diferente del error si se vuelve a expresar en coherencia o concordancia en la clasificación del
términos de puntajes de escala. Por ejemplo, para individuo examinado es específico del puntaje de
la escala de puntajes brutos, el error estándar con- corte empleado y su ubicación dentro de la distri-
dicional puede parecer alto en un nivel de puntaje bución de puntajes.
y bajo en otro, pero cuando los errores estándares
condicionales se reexpresan en unidades de pun- Confiabilidad/precisión de medias
tajes de escala, pueden surgir tendencias bastante de grupos
diferentes en precisión comparativa.
Las estimaciones de puntajes medios (o prome-
Coherencia de decisiones dio) de grupos (o proporciones en ciertas ca-
tegorías) involucran fuentes de error que son
Cuando la finalidad de la medición es la clasifi- diferentes de las que operan a nivel individual.
cación, algunos errores de medida son más graves Dichas estimaciones suelen utilizarse como me-
que otros. Los examinandos que están muy por didas de efectividad de programas (y, en algunos
encima o muy por debajo del puntaje de corte sistemas de rendición de cuentas en materia edu-
establecido para aprobar/reprobar o para elegi- cativa, pueden usarse para evaluar la efectividad
bilidad para un programa especial pueden tener de escuelas y profesores).
error considerable en sus puntajes observados sin Al evaluar el desempeño grupal estimando
ningún efecto en sus decisiones de clasificación. el desempeño medio o mejora media en el
43
desempeño para muestras del grupo, la variación documentar la precisión de medida. Esta obliga-
debida al muestreo de personas puede ser una ción se mantiene cuando una de las finalidades
fuente de error importante, en especial si los ta- principales de la medición es clasificar estudiantes
maños de la muestra son pequeños. En la medida usando estándares de desempeño desarrollados lo-
en que diferentes muestras del grupo de interés calmente, o clasificar a los individuos examinados
(p. ej., todos los estudiantes que usan determi- dentro de la población local. También se mantiene
nados materiales educativos) arrojen resultados cuando los usuarios deben basarse en evaluadores
diferentes, las conclusiones sobre el resultado locales que están capacitados para usar las rúbricas
esperado entre todos los estudiantes en el grupo de puntajes proporcionadas por el desarrollador
(incluyendo los que podrían unirse al grupo en de la prueba. En esos contextos, los factores lo-
el futuro) son inciertas. Para muestras grandes, cales pueden afectar sustancialmente la magnitud
la variabilidad debida al muestreo de personas en de la varianza de error y la varianza de puntajes
las estimaciones de las medias del grupo puede observados. Por lo tanto, la confiabilidad/preci-
ser bastante pequeña. Sin embargo, en casos en sión de puntajes puede diferir apreciablemente de
que las muestras de personas no son muy grandes la reportada por el desarrollador.
(p. ej., en la evaluación del rendimiento medio Las evaluaciones de confiabilidad/precisión
de estudiantes en una sola aula o la satisfacción reportadas deben identificar las posibles fuentes
expresada promedio de muestras de clientes en un de error para el programa de evaluación, dados
programa clínico), el error asociado con el mues- los usos propuestos de los puntajes. Estas posibles
treo de personas puede ser un componente im- fuentes de error pueden luego evaluarse en tér-
portante del error general. Puede ser una fuente minos de investigación reportada previamente,
de error significativa en inferencias sobre progra- nuevos estudios empíricos o análisis de los moti-
mas incluso si existe un alto grado de precisión en vos para suponer que es probable que una posible
los puntajes individuales de la prueba. fuente de error sea insignificante y, por lo tanto,
Los errores estándares para puntajes indivi- pueda ignorarse.
duales no son medidas apropiadas de la precisión El reporte de índices de confiabilidad/pre-
de los promedios del grupo. Una estadística más cisión solo —con escaso detalle respecto de los
apropiada es el error estándar para las estimacio- métodos usados para estimar los índices reporta-
nes de las medias del grupo. dos, la naturaleza del grupo del que se derivaron
los datos, y las condiciones en las que se obtu-
Documentación de la confiabilidad/ vieron los datos— constituye documentación
precisión inadecuada. Las declaraciones generales al efecto
de que una prueba sea “confiable” o de que sea
Por lo general, los desarrolladores y distribuido- “suficientemente confiable para permitir inter-
res de pruebas tienen la responsabilidad principal pretaciones de puntajes individuales” casi nunca,
de obtener y reportar evidencia de confiabilidad/ o nunca, son aceptables. Es el usuario quien debe
precisión (p. ej., errores estándares apropiados, asumir la responsabilidad de determinar si los
coeficientes de confiabilidad o generabilidad, o puntajes son suficientemente fiables para justi-
funciones de información de la prueba). El usua- ficar usos e interpretaciones previstos para usos
rio de la prueba debe tener dichos datos para particulares. No obstante, los constructores y edi-
hacer una elección informada entre enfoques de tores de pruebas están obligados a proporcionar
medición alternativos y por lo general podrá reali- datos suficientes para que los juicios informados
zar estudios de confiabilidad/precisión adecuados sean posibles.
antes del uso operativo de un instrumento. Si los puntajes deben usarse para clasificación,
En algunos casos, no obstante, los usuarios lo- son útiles los índices de coherencia de decisiones
cales de un procedimiento de prueba o evaluación además de las estimaciones de la confiabilidad/
deben aceptar al menos responsabilidad parcial de precisión de los puntajes. Si es probable que las
44
medias del grupo tengan un rol sustancial en el información relevante. Ningún método de inves-
uso de los puntajes, la confiabilidad/precisión de tigación es óptimo en todas las situaciones, ni el
estos puntajes medios debe reportarse. desarrollador de la prueba se limita a un único
Como se destaca en los comentarios anterio- enfoque para cualquier instrumento. La elección
res, no existe un único enfoque preferido para la de técnicas de estimación y el nivel mínimo acep-
cuantificación de la confiabilidad/precisión. Nin- table de cualquier índice continúan siendo un
gún índice solo transmite adecuadamente toda la asunto de juicio profesional.
45
Estándares de confiabilidad/precisión
Los estándares en este capítulo comienzan con Unidad 1. Especificaciones para
un estándar global (numerado 2.0), que se ha
replicaciones del procedimiento de
diseñado para transmitir la intención central o
enfoque principal del capítulo. El estándar global evaluación
también puede verse como el principio rector del
capítulo, y es aplicable a todas las pruebas y usua- Estándar 2.1
rios de pruebas. Todos los estándares posteriores
se han separado en ocho unidades temáticas de- El rango de replicaciones sobre el que se eva-
nominadas de la siguiente manera: lúa la confiabilidad/precisión debe indicarse
claramente, junto con una justificación para la
1. Especificaciones para replicaciones del proce- elección de esta definición, dada la situación de
dimiento de evaluación evaluación.
2. Evaluación de la confiabilidad/precisión Comentario: Para cualquier programa de evalua-
3. Coeficientes de confiabilidad/generabilidad ción, es probable que algunos aspectos del proce-
4. Factores que afectan la confiabilidad/ dimiento de evaluación (p. ej., límites de tiempo
precisión y disponibilidad de recursos como libros, calcula-
5. Errores estándares de medida doras y computadoras) sean fijos, y se permitirá
6. Coherencia de decisiones que algunos aspectos varíen de una administra-
7. Confiabilidad/precisión de medias de grupos ción a otra (p. ej., tareas o estímulos específicos,
8. Documentación de la confiabilidad/precisión contextos de evaluación, evaluadores y, posible-
mente, ocasiones). Cualquier administración de
Estándar 2.0 la prueba que mantenga condiciones fijas e invo-
lucre muestras aceptables de las condiciones que
Se debe proporcionar evidencia apropiada de
se permita variar se consideraría una replicación
confiabilidad/precisión para la interpretación de
legítima del procedimiento de evaluación. Como
cada uso previsto de los puntajes.
primer paso en la evaluación de la confiabilidad/
Comentario: La forma de la evidencia (coeficiente precisión de los puntajes obtenidos con un pro-
de confiabilidad o generabilidad, función de in- cedimiento de evaluación, es importante identi-
formación, error estándar condicional, índice de ficar el rango de condiciones de varias clases que
coherencia de decisiones) para la confiabilidad/ se permitan variar, y sobre qué puntajes deben
precisión debe ser apropiada para los usos previs- generalizarse.
tos de los puntajes, la población involucrada y los
modelos psicométricos utilizados para derivar los Estándar 2.2
puntajes. Se requiere un grado de confiabilidad/
precisión más alto para usos de puntajes que tie- La evidencia proporcionada para la confiabili-
nen consecuencias más significativas para los exa- dad/precisión de los puntajes debe ser coherente
minandos. Al contrario, un grado más bajo puede con el dominio de replicaciones asociadas con
ser aceptable cuando una decisión basada en el los procedimientos de evaluación, y con las in-
puntaje de una prueba es reversible o depende de terpretaciones previstas para uso de los puntajes
la corroboración de otras fuentes de información. de la prueba.
46
Comentario: La evidencia de confiabilidad/ pre- usuarios datos de confiabilidad para todos los
cisión debe ser coherente con el diseño de los puntajes a interpretarse, y esos datos deben ser lo
procedimientos de evaluación y con las interpre- suficientemente detallados para permitir que los
taciones propuestas para uso de los puntajes de la usuarios juzguen si los puntajes son lo suficiente-
prueba. Por ejemplo, si la prueba puede tomarse mente precisos para las interpretaciones previstas
en cualquiera de una serie de ocasiones, y la inter- para su uso. Los puntajes compuestos formados a
pretación supone que los puntajes son invariantes partir de subpruebas seleccionadas dentro de una
en estas ocasiones, entonces cualquier variabilidad batería de pruebas suelen proponerse para fines
en los puntajes en esas ocasiones es una posible predictivos y de diagnóstico. Los usuarios nece-
fuente de error. Si se permite que las tareas o estí- sitan información sobre la confiabilidad de esos
mulos varíen entre formularios alternativos de la puntajes compuestos.
prueba, y los desempeños observados son tratados
como una muestra de un dominio de tareas simi-
lares, la variabilidad en los puntajes de un formu- Estándar 2.4
lario a otro se consideraría un error. Si se utilizan
evaluadores para asignar puntajes a respuestas, la Cuando la interpretación de puntajes de una
variabilidad en los puntajes entre evaluadores cua- prueba destaca diferencias entre dos puntajes
lificados es una fuente de error. Diferentes fuentes observados de un individuo o dos promedios de
de error pueden evaluarse en un solo coeficiente o un grupo, deben proporcionarse datos de confia-
error estándar, o pueden evaluarse por separado, bilidad/precisión, incluyendo errores estándares,
pero todas deben abordarse de alguna manera. para dichas diferencias.
Los reportes de confiabilidad/precisión deben es- Comentario: Las diferencias de puntajes obser-
pecificar las posibles fuentes de error incluidas en vados se utilizan para diversos fines. Los logros
los análisis. de rendimiento suelen ser de interés para grupos
y para individuos. En algunos casos, la confia-
Unidad 2. Evaluación de la bilidad/precisión de puntajes de cambio puede
ser mucho más baja que las confiabilidades de
confiabilidad/ precisión
los puntajes separados involucrados. Las diferen-
cias entre puntajes verbales y de desempeño en
Estándar 2.3 pruebas de inteligencia o capacidad académica
suelen emplearse en el diagnóstico de deterioro
Para cada puntaje total, subpuntaje o combina-
cognitivo y problemas de aprendizaje. Las infe-
ción de puntajes que deba interpretarse, deben
rencias psicodiagnósticas suelen hacerse a partir
reportarse estimaciones de índices relevantes de
de diferencias entre puntajes de subpruebas. Las
confiabilidad/ precisión.
baterías de aptitud y rendimiento, inventarios de
Comentario: No es suficiente reportar estimacio- interés y evaluaciones de personalidad se utili-
nes de confiabilidades y errores estándares de me- zan comúnmente para identificar y cuantificar
dida solo para puntajes totales cuando también las fortalezas y debilidades relativas, o el patrón
se interpretan subpuntajes. La coherencia entre de niveles de rasgos, de un examinando. Cuando
formularios y día a día de los puntajes totales en la interpretación de los puntajes de la prueba se
una prueba puede ser aceptablemente alta, aun- centra en los valores altos y bajos en el perfil de
que los subpuntajes pueden tener confiabilidad puntajes de la prueba del individuo examinado,
inaceptablemente baja, dependiendo de cómo la confiabilidad de las diferencias de puntajes es
se definan y utilicen. Se debe suministrar a los crítica.
47
48
lo tanto, la concordancia entre los evaluadores no que no se cumplan (p. ej., que los ítems en la
garantiza alta confiabilidad de los puntajes del in- prueba existente y los ítems que se agregarán o
dividuo examinado. quitarán son todos muestreados de manera alea-
toria de un solo dominio). Los efectos del con-
texto son corrientes en las pruebas de desempeño
Unidad 4. Factores que afectan la máximo, y la versión corta de una prueba estan-
confiabilidad/precisión darizada a menudo comprende una muestra no
aleatoria de ítems de la versión completa. Como
Estándar 2.8 resultado, es posible que el valor predicho de la
confiabilidad/precisión no proporcione una esti-
Cuando las pruebas de respuesta construida se mación muy buena del valor real, y por lo tanto,
califican localmente, los datos de confiabilidad/ cuando sea viable, la confiabilidad/precisión de
precisión deben reunirse y reportarse para la ca- ambos formularios debería evaluarse directa e
lificación local cuando hay disponibles muestras independientemente.
de tamaño adecuado.
Comentario: Por ejemplo, muchos programas de Estándar 2.10
evaluación a nivel estatal dependen de califica-
ciones locales de ensayos, ejercicios de respuesta Cuando se permitan variaciones significativas en
construida, y tareas de desempeño. Los análisis de las pruebas o procedimientos de administración
confiabilidad/precisión pueden indicar que se ne- de pruebas, deben proporcionarse análisis de
cesita capacitación adicional de los calificadores y, confiabilidad/precisión separados para puntajes
por consiguiente, deben ser una parte integral de producidos en cada variación importante si hay
la supervisión del programa. Los datos de confia- disponibles tamaños de la muestra adecuados.
bilidad/precisión deben comunicarse solo cuando Comentario: Para hacer que una prueba sea ac-
son suficientes para arrojar resultados sólidos cesible para todos los individuos examinados,
desde el punto de vista estadístico y son coheren- los editores o usuarios de la prueba podrían au-
tes con las obligaciones de privacidad aplicables. torizar, o podría requerirse legalmente que se
autoricen, adecuaciones o modificaciones en los
Estándar 2.9 procedimientos que se especifican para la admi-
nistración de una prueba. Por ejemplo, pueden
Cuando una prueba está disponible en versio- usarse versiones en audio o en letra grande para
nes largas y cortas, la evidencia de confiabilidad/ los examinandos que tienen problemas de la vista.
precisión debe reportarse para puntajes en cada Cualquier alteración en los materiales o proce-
versión, preferentemente basada en adminis- dimientos de evaluación estándares puede tener
traciones independientes de cada versión con un impacto en la confiabilidad/precisión de los
muestras independientes de examinandos. puntajes resultantes y por lo tanto, en la medida
Comentario: La confiabilidad/precisión de pun- en que sea viable, la confiabilidad/precisión debe
tajes en cada versión se evalúa mejor a través de examinarse para todas las versiones de la prueba y
una administración independiente de cada una, procedimientos de evaluación.
utilizando los límites de tiempo designados.
Pueden utilizarse modelos psicométricos para Estándar 2.11
estimar la confiabilidad/precisión de una versión
más corta (o más larga) de una prueba existente, Los editores de la prueba deben proporcionar
basados en datos de una administración de la estimaciones de confiabilidad/precisión tan
prueba existente. Sin embargo, estos modelos pronto como sea viable para cada subgrupo rele-
por lo general hacen suposiciones que es posible vante para el que se recomienda la prueba.
49
Comentario: Reportar estimaciones de confiabi- generabilidad y los errores estándares deben re-
lidad/precisión para subgrupos relevantes es útil portarse por separado para cada subgrupo.
en muchos contextos, pero es especialmente im-
portante si la interpretación de puntajes involucra
inferencias dentro del grupo (p. ej., en términos Unidad 5. Errores estándares de
de normas del subgrupo). Por ejemplo, los usua- medida
rios de la prueba que trabajan con un subgrupo
lingüístico y cultural específico o con individuos Estándar 2.13
que tienen una discapacidad en particular se be-
neficiarían con una estimación del error estándar El error estándar de medida, tanto general como
para el subgrupo. Del mismo modo, la evidencia condicional (si se reporta), debe proporcionarse
de que los niños de preescolar tienden a responder en unidades de cada puntaje reportado.
a estímulos de la prueba de una manera menos Comentario: El error estándar de medida (gene-
coherente que los niños mayores sería útil para ral o condicional) que se reporta debe ser cohe-
los usuarios de la prueba que interpretan puntajes rente con las escalas que se utilizan en el reporte
entre grupos etarios. de puntajes. Los errores estándares en unidades
Al considerar la confiabilidad/precisión de
de puntajes de escala para las escalas utilizadas
puntajes de la prueba para subgrupos relevan-
para reportar puntajes y/o para tomar decisiones
tes, es útil evaluar y reportar el error estándar de
son particularmente útiles para el usuario de la
medida, así como cualquier coeficiente que se
prueba típico. Los datos sobre desempeño del in-
estime. Los coeficientes de confiabilidad y gene-
dividuo examinado deben ser coherentes con las
rabilidad pueden diferir sustancialmente cuando
suposiciones incorporadas en cualquier modelo
los subgrupos tienen varianzas diferentes en el
estadístico utilizado para generar puntajes de
constructo que se evalúa. Las diferencias en la
escala y estimar los errores estándares para esos
variabilidad dentro del grupo tienden a tener
puntajes.
menos impacto en el error estándar de medida.
Estándar 2.14
Estándar 2.12
Cuando sea posible y corresponda, los errores es-
Si una prueba se propone para utilizarse en va- tándares de medida condicionales deben reportarse
rios grados o en un rango de edades, y si se pro- en varios niveles de puntajes a menos que exista
porcionan normas separadas para cada grado o evidencia de que el error estándar es constante en-
rango de edades, deben proporcionarse los da- tre los niveles de puntajes. Cuando se especifican
tos de confiabilidad/precisión para cada edad o puntajes de corte para selección o clasificación, los
subgrupo de nivel de grado, no solo para todos errores estándares de medida deben reportarse en
los grados o edades combinados. la proximidad de cada puntaje de corte.
Comentario: Un coeficiente de confiabilidad o Comentario: La estimación de errores estándares
generabilidad basado en una muestra de indivi- condicionales por lo general es viable con los ta-
duos examinados que abarca varios grados o un maños de la muestra que se usan para análisis de
rango amplio de edades en que los puntajes pro- confiabilidad/precisión. Si se supone que el error
medio aumentan en forma constante por lo gene- estándar es constante en un amplio rango de ni-
ral dará una impresión de confiabilidad/precisión veles de puntaje, debe presentarse la justificación
falsamente inflada. Cuando una prueba tiene por para esta suposición. El modelo en el que se basa
objeto discriminar dentro de poblaciones de eda- el cálculo de los errores estándares condicionales
des o grados, los coeficientes de confiabilidad o debe especificarse.
50
51
evaluación de programas o descripciones de po- Dado que hay muchas maneras de estimar la
blaciones, los análisis de confiabilidad/precisión confiabilidad/precisión, y cada una está influen-
deben tener en cuenta el esquema de muestreo. ciada por diferentes fuentes de error de medida,
es inaceptable decir simplemente: “La confia-
Comentario: Este tipo de programa de medición
bilidad/precisión de puntajes en la prueba X es
recibe el nombre de muestreo de matriz. Se ha
0,90”. Un enunciado mejor sería: “El coeficiente
diseñado para reducir el tiempo requerido de cada
de confiabilidad de 0,90 reportado para puntajes
individuo examinado y aun así aumentar la canti-
en la prueba X se obtuvo correlacionando punta-
dad total de ítems sobre los que pueden obtenerse
jes de los formularios A y B administrados en días
datos. Este enfoque de evaluación proporciona el
consecutivos. Los datos se basaron en una mues-
mismo tipo de información sobre desempeños de
tra de 400 estudiantes de 10.° grado de cinco
grupos que se obtendría si todos los individuos
escuelas suburbanas de clase media en el estado
examinados hubieran realizado todos los ítems.
de Nueva York. El desglose demográfico de este
Las estadísticas de confiabilidad/precisión deben
grupo fue el siguiente:...”. En algunos casos, por
reflejar el plan de muestreo utilizado con respecto
ejemplo, cuando se involucran tamaños pequeños
a los individuos examinados e ítems.
de la muestra o datos especialmente confidencia-
les, las restricciones legales aplicables que rigen la
Unidad 8. Documentación de la privacidad pueden limitar el nivel de información
confiabilidad/precisión que debería divulgarse.
52
Antecedentes
Este capítulo aborda la importancia de la impar- de examinandos, como individuos con discapaci-
cialidad como cuestión fundamental en la protec- dades e individuos con características lingüísticas
ción de los examinandos y usuarios de pruebas en y culturales diversas, se presentaron en capítulos
todos los aspectos de evaluación. El término im- separados. En la versión actual de los Estándares,
parcialidad no tiene un solo significado técnico y estas cuestiones se presentan en un solo capítulo
se utiliza de muchas maneras diferentes en el de- para hacer hincapié en que la imparcialidad para
bate público. Es posible que individuos avalen la todos los individuos en la población prevista de
imparcialidad en las pruebas como una meta social examinandos es un interés primordial y funda-
deseable, y aun así lleguen a conclusiones bastante mental, y que se aplican principios comunes en
diferentes sobre la imparcialidad de un programa la respuesta a características de los examinandos
de evaluación determinado. Una consideración que podrían interferir con la validez de la inter-
completa del tema exploraría las múltiples fun- pretación de los puntajes de la prueba. Esto no
ciones de las pruebas en relación con sus nume- quiere decir que la respuesta a características de
rosas metas, incluyendo la meta amplia de lograr los examinandos sea la misma para individuos de
igualdad de oportunidades en nuestra sociedad. subgrupos diversos como los definidos por raza,
Consideraría las propiedades técnicas de las prue- origen étnico, género, cultura, idioma, edad, dis-
bas, las maneras en que se reportan y utilizan los capacidad o nivel socioeconómico, sino que esas
resultados de las pruebas, los factores que afectan respuestas deberían ser sensibles a características
la validez de las interpretaciones de puntajes y las individuales que de otro modo comprometerían
consecuencias del uso de las pruebas. Un análisis la validez. No obstante, como se analizó en la in-
completo de imparcialidad en las pruebas también troducción, es importante tener presente, al usar
examinaría las regulaciones, leyes y la jurispruden- los Estándares, que la aplicabilidad depende del
cia que rigen el uso de pruebas y las reparaciones contexto. Por ejemplo, posibles amenazas a la
para prácticas de evaluación perjudiciales. Los Es- validez de la prueba para individuos examinados
tándares no pueden esperar tratar adecuadamente con competencia limitada en inglés son diferentes
todas estas amplias cuestiones, algunas de las cua- de las correspondientes a individuos examinados
les han suscitado fuerte desacuerdo entre especia- con discapacidades. Además, las amenazas a la va-
listas en evaluación y otras partes interesadas en lidez pueden diferir incluso para individuos den-
la evaluación. Nuestro enfoque debe limitarse en tro del mismo subgrupo. Por ejemplo, individuos
este caso a delinear los aspectos de las pruebas, la con discapacidades específicas diversas constitu-
evaluación y el uso de pruebas que se relacionan yen el subgrupo de “individuos con discapacida-
con la imparcialidad según se describe en este ca- des” e individuos examinados clasificados como
pítulo, que son la responsabilidad de quienes de- con “competencia limitada en inglés” represen-
sarrollan, usan e interpretan los resultados de las tan un rango de niveles de competencia en un
pruebas, y sobre los cuales existe acuerdo profesio- idioma, nivel educativo y características culturales
nal y técnico general. y experiencias previas. Además, la equivalencia
La imparcialidad es una cuestión de validez del constructo que se evalúa es un tema central
fundamental y requiere atención en todas las eta- en la imparcialidad, tanto si el contexto es, por
pas del desarrollo y uso de las pruebas. En versiones ejemplo, individuos con discapacidades especiales
anteriores de los Estándares, la imparcialidad y la diversas, individuos con competencia limitada en
evaluación de individuos de subgrupos específicos inglés o individuos de diversos países y culturas.
53
Al igual que en versiones anteriores de los Los ítems y tareas de la prueba pueden entonces
Estándares, el capítulo actual aborda el sesgo de diseñarse y desarrollarse intencionalmente desde
medición como una amenaza central a la impar- el comienzo para reflejar el constructo previsto,
cialidad en las pruebas. Sin embargo, también minimizar las características irrelevantes del cons-
incorpora dos conceptos importantes que han tructo que de otro modo podrían impedir el des-
surgido en la bibliografía, en especial en la biblio- empeño de los grupos previstos de individuos
grafía relacionada con educación, para minimizar examinados, y para maximizar, en la medida po-
el sesgo y por consiguiente aumentar la impar- sible, el acceso para tantos individuos examinados
cialidad. El primer concepto es la accesibilidad, como sea posible en la población prevista, inde-
la noción de que todos los examinandos deben pendientemente de la raza, origen étnico, edad,
tener la oportunidad sin obstáculos de demostrar género, nivel socioeconómico, discapacidad o ca-
su situación respecto de los constructos someti- racterísticas de idioma o culturales.
dos a medición. Por ejemplo, es posible que los Aun así, para algunos individuos en algunos
individuos con competencia limitada en inglés no contextos de prueba y para algunos fines —como
se diagnostiquen adecuadamente en el constructo se describe más adelante— es posible que exista la
de destino de un examen clínico si la evaluación necesidad de adaptaciones adicionales de la prueba
requiere un nivel de competencia en inglés que para responder a características individuales que
no poseen. De manera similar, la letra estándar y de otro modo limitarían el acceso al constructo tal
algunos formatos electrónicos pueden constituir como se mide. Algunos ejemplos son la creación
desventajas para los individuos examinados con de una versión de la prueba en sistema braille, per-
problemas de la vista y algunos adultos mayores mitir tiempo adicional de evaluación, y proporcio-
que necesitan aumento para leer, y la desventaja se nar traducciones o simplificación del lenguaje de
considera injusta si la agudeza visual es relevante la prueba. Cualquier adaptación de la prueba debe
para el constructo sometido a medición. Estos considerarse atentamente, ya que algunas adapta-
ejemplos muestran cómo el acceso al constructo ciones pueden alterar el constructo previsto de la
que mide la prueba puede verse impedido por ca- prueba. Responder a características individuales
racterísticas y/o habilidades que no se relacionan que de otro modo impedirían el acceso y mejorar
con el constructo previsto y que, por ende, pue- la validez de las interpretaciones de los puntajes de
den limitar la validez de las interpretaciones de los la prueba para los usos previstos son dos considera-
puntajes para los usos previstos para determinados ciones para respaldar la imparcialidad.
individuos y/o subgrupos en la población prevista En resumen, este capítulo interpreta la impar-
de examinandos. La accesibilidad es un requisito cialidad como la capacidad de respuesta a carac-
legal en algunos contextos de evaluación. terísticas individuales y contextos de evaluación
El segundo nuevo concepto contenido en este de modo que los puntajes de la prueba arrojen
capítulo es el de diseño universal. El diseño uni- interpretaciones válidas para los usos previstos.
versal es un enfoque hacia el diseño de pruebas que La definición de imparcialidad de los Estánda-
busca maximizar la accesibilidad para todos los res es a menudo más amplia de lo que se requiere
examinandos previstos. El diseño universal, según legalmente. Una prueba que es imparcial dentro
se describe con mayor profundidad más adelante del significado de los Estándares refleja los mis-
en este capítulo, requiere que los desarrolladores mos constructos para todos los examinandos, y los
de la prueba sean claros sobre los constructos so- puntajes de esta tienen el mismo significado para
metidos a medición, incluyendo el objetivo de la todos los individuos en la población prevista; una
evaluación, el fin para el que se usarán los pun- prueba imparcial no favorece ni desfavorece a algu-
tajes, las inferencias que se harán a partir de los nos individuos debido a características irrelevantes
puntajes, y las características de los individuos para el constructo previsto. En la medida posible,
examinados y los subgrupos de la población pre- deben considerarse las características de todos los
vista de la prueba que podrían influir en el acceso. individuos en la población prevista de la prueba,
54
incluyendo las asociadas con raza, origen étnico, gé- examinandos demuestren su situación respecto
nero, edad, nivel socioeconómico, o características del o de los constructos que la prueba tiene por
lingüísticas o culturales, a lo largo de todas las eta- objeto medir. Tradicionalmente, la estandariza-
pas de desarrollo, administración, calificación, in- ción cuidadosa de las pruebas, las condiciones de
terpretación y uso, de modo que puedan reducirse administración y los procedimientos de califica-
los obstáculos a la evaluación imparcial. Al mismo ción han ayudado a asegurar que los examinandos
tiempo, los puntajes de la prueba deben arrojar in- tengan contextos comparables en los que demos-
terpretaciones válidas para los usos previstos, y es trar sus capacidades o atributos sometidos a medi-
posible que diferentes contextos y usos de la prueba ción. Por ejemplo, se implementan instrucciones
requieran diferentes enfoques hacia la imparciali- uniformes, límites de tiempo especificados, arre-
dad. Por ejemplo, en las pruebas utilizadas para fi- glos especificados en las salas, uso de monitores,
nes de selección, las adaptaciones a procedimientos y uso de procedimientos de seguridad coherentes
estandarizados que aumentan la accesibilidad para de modo que las diferencias en las condiciones de
algunos individuos, pero cambian el constructo so- administración no influyan involuntariamente en
metido a medición podrían reducir la validez de las el desempeño de algunos examinandos respecto
inferencias de los puntajes para los fines previstos y de otros. De manera similar, las cuestiones sobre
favorecer injustamente a quienes reúnen los requi- imparcialidad en el trato pueden requerir, para
sitos para adaptación en relación con los que no lo algunas pruebas, que todos los examinandos ten-
hacen. Por el contrario, para fines de diagnóstico gan administradores de pruebas cualificados con
en medicina y educación, adaptar una prueba para quienes puedan comunicarse y sentirse cómodos
aumentar la accesibilidad para algunos individuos en la medida posible. En los casos que involucren
podría aumentar la exactitud del diagnóstico. tecnología, es importante que los individuos exa-
Estas cuestiones se analizan en las secciones a minados hayan tenido exposición previa similar a
continuación y se representan en los estándares la tecnología y que los equipos proporcionados a
que siguen a la introducción del capítulo. todos los examinandos tengan una velocidad de
procesamiento similar y proporcionen claridad y
Puntos de vista generales de la tamaño similares para las imágenes y otros me-
imparcialidad dios. Los procedimientos para la administración
estandarizada de una prueba deben ser documen-
El primer punto de vista de la imparcialidad en las tados con detenimiento por el desarrollador de
pruebas que se describe en este capítulo establece la prueba y el administrador de la prueba debe
el principio de trato justo y equitativo para todos seguirlos cuidadosamente.
los examinandos durante el proceso de evalua- Si bien la estandarización ha sido un principio
ción. El segundo, tercer y cuarto punto de vista fundamental para asegurar que todos los indivi-
presentados aquí hacen hincapié en cuestiones duos examinados tengan la misma oportunidad
de imparcialidad en la calidad de la medición: de demostrar su situación respecto del constructo
imparcialidad como falta o ausencia de sesgo de que la prueba tiene por objeto medir, a veces se
medición, imparcialidad como acceso a los cons- necesita flexibilidad para proporcionar oportu-
tructos medidos, e imparcialidad como validez de nidades esencialmente equivalentes para algunos
las interpretaciones de los puntajes individuales examinandos. En esos casos, es posible que as-
de la prueba para el uso o los usos previstos. pectos de un proceso de evaluación estandarizado
que no plantean un desafío en particular para la
Imparcialidad en el trato durante el proceso de mayoría de los examinandos eviten que grupos o
evaluación individuos específicos demuestren con exactitud
Independientemente de la finalidad de la prueba, su situación con respecto al constructo de inte-
la meta de la imparcialidad es maximizar, en la rés. Por ejemplo, pueden surgir desafíos debido
medida posible, la oportunidad para que los a la discapacidad, origen cultural, característica
55
lingüística, raza, origen étnico, nivel socioeconó- puntajes de la prueba y otras variables para dife-
mico de un individuo examinado, limitaciones rentes grupos, lo que trae consigo preocupaciones
que pueden venir con la edad, o alguna combi- sobre sesgo en las inferencias extraídas del uso de
nación de estos u otros factores. En algunos ca- los puntajes de la prueba. La predicción diferen-
sos, puede alcanzarse mayor comparabilidad de cial se examina utilizando análisis de regresión.
puntajes si los procedimientos estandarizados se Un enfoque examina las diferencias de pendiente
cambian para abordar las necesidades de grupos e intersección entre dos grupos de destino (p. ej.,
o individuos específicos sin ningún efecto adverso individuos examinados afroamericanos e indivi-
en la validez o confiabilidad de los resultados ob- duos examinados caucásicos), mientras que otro
tenidos. Por ejemplo, pueden proporcionarse un examina desviaciones sistemáticas de una línea
formulario de prueba en sistema braille, una hoja de regresión común para cualquier número de
de respuestas en letra grande o un lector de pan- grupos de interés. Ambos enfoques proporcionan
talla para permitir que quienes tienen problemas información valiosa al examinar predicción dife-
de la vista obtengan acceso más equitativo al con- rencial. Los coeficientes de correlación proporcio-
tenido de la prueba. Las consideraciones legales nan evidencia inadecuada a favor o en contra de
también pueden influir en cómo abordar necesi- una hipótesis de predicción diferencial si se de-
dades individualizadas. termina que los grupos tienen medias y varianzas
desiguales en la prueba y en el criterio.
Imparcialidad como falta de sesgo de medición Cuando evidencia creíble indica posible sesgo
Las características de la prueba propiamente dicha en la medición (es decir, falta de significado co-
que no se relacionen con el constructo sometido a herente del constructo entre grupos, DIF, DTF)
medición, o la manera en que se utiliza la prueba, o sesgo en relaciones predictivas, estas posibles
pueden en ocasiones dar por resultado diferentes fuentes de sesgo deben investigarse de manera
significados para los puntajes obtenidos por los independiente porque la presencia o ausencia de
miembros de subgrupos identificables. Por ejem- una forma de dicho sesgo puede no tener relación
plo, se dice que ocurre funcionamiento diferencial con otras formas de sesgo. Por ejemplo, es posi-
de los ítems (DIF, por sus siglas en inglés) cuando ble que una prueba predictora no muestre niveles
examinandos con iguales capacidades difieren en significativos de DIF, pero muestre diferencias de
sus probabilidades de responder a un ítem de la grupos en líneas de regresión en la predicción de
prueba correctamente como una función de per- un criterio. Si bien es importante advertir sobre la
tenencia a un grupo. El DIF puede evaluarse de posibilidad de sesgo de medición para los subgru-
diversas maneras. La detección de DIF no siem- pos que se han definido como relevantes en la po-
pre indica sesgo en un ítem; es necesario que haya blación prevista de la prueba, es posible que no
una explicación adecuada sustancial para que el sea viable investigar completamente todas las po-
DIF justifique la conclusión de que el ítem está sibilidades, en especial en el contexto laboral. Por
sesgado. El funcionamiento diferencial de la ejemplo, el número de miembros del subgrupo
prueba (DTF, por sus siglas en inglés) se refiere a en la prueba de campo o población de normali-
diferencias en el funcionamiento de las pruebas (o zación puede limitar la posibilidad de análisis em-
conjuntos de ítems) para diferentes grupos espe- píricos estándares. En estos casos, la investigación
cialmente definidos. Cuando ocurre DTF, los in- previa, una justificación basada en el constructo
dividuos de diferentes grupos que tienen la misma y/o datos de pruebas similares pueden abordar las
situación respecto de la característica evaluada por inquietudes relacionadas con posible sesgo en la
la prueba no tienen el mismo puntaje de la prueba medición. Además, y especialmente cuando existe
esperado. evidencia creíble de posible sesgo, deben conside-
El término sesgo predictivo puede usarse rarse metodologías para muestras pequeñas. Por
cuando se encuentra evidencia de que existen ejemplo, se puede examinar el posible sesgo para
diferencias en los patrones de asociaciones entre subgrupos relevantes mediante ensayos a pequeña
56
escala que utilizan laboratorios cognitivos y/o en- para responder a las tareas de la prueba o a los
trevistas o grupos focales para solicitar evidencia ítems de la prueba. Para algunos examinandos,
sobre la validez de interpretaciones hechas a partir los factores relacionados con características in-
de puntajes de la prueba. dividuales como edad, raza, origen étnico, nivel
Una cuestión relacionada es la medida en que socioeconómico, antecedentes culturales, disca-
el constructo que se evalúa tiene un significado pacidad o competencia en lengua inglesa pueden
equivalente entre los individuos y grupos dentro restringir la accesibilidad y por consiguiente in-
de la población prevista de examinandos. Esto es terferir con la medición de los constructos de in-
especialmente importante cuando la evaluación se terés. Por ejemplo, es posible que un examinando
realiza a nivel internacional y de diferentes cul- con problemas de la vista no pueda acceder al
turas. La evaluación del constructo subyacente y texto impreso de una prueba de personalidad.
propiedades de la prueba dentro de un país o cul- Si el texto se proporcionara en letra grande, las
tura no puede generalizarse a nivel internacional preguntas de la prueba podrían ser más accesibles
o de otras culturas. Esto puede llevar a interpreta- para el examinando y sería más probable que lle-
ciones inválidas de los puntajes de la prueba. En varan a una medición válida de las características
esos contextos se debe prestar mucha atención al de personalidad del examinando. Es importante
sesgo en las interpretaciones de los puntajes. ser consciente de las características de la prueba
que pueden hacer involuntariamente que las pre-
Imparcialidad en el acceso a los constructos guntas de la prueba sean menos accesibles para
tal como se miden algunos subgrupos de la población prevista de la
La meta de que todos los examinandos previs- prueba. Por ejemplo, una pregunta de una prueba
tos tengan una oportunidad plena de demostrar que emplee frases idiomáticas no relacionadas al
su situación respecto del constructo sometido a constructo sometido a medición podría tener el
medición ha generado inquietudes sobre la acce- efecto de hacer que la prueba sea menos accesi-
sibilidad en las pruebas. Las situaciones de eva- ble para examinandos que no son hablantes na-
luación accesibles son aquellas que permiten que tivos de inglés. La accesibilidad de una prueba
todos los examinandos en la población prevista, también podría verse reducida por preguntas que
en la medida en que sea viable, muestren su es- utilizan vocabulario regional no relacionado con
tado respecto de los constructos de destino sin ser el constructo de destino o que utilizan contextos
indebidamente favorecidos o desfavorecidos por de estímulo que son menos conocidos para los in-
características individuales (p. ej., características dividuos de algunos subgrupos culturales que de
relacionadas con la edad, discapacidad, raza/ori- otros.
gen étnico, género o idioma) que son irrelevantes Como se analiza más adelante en este capí-
para el constructo que la prueba tiene por objeto tulo, algunas características de los examinandos
medir. La accesibilidad es en realidad una cues- que impiden el acceso se relacionan con el cons-
tión de sesgo de la prueba porque los obstáculos tructo sometido a medición, por ejemplo, dislexia
a la accesibilidad pueden dar lugar a diferentes en el contexto de pruebas de lectura. En estos ca-
interpretaciones de los puntajes de la prueba para sos, proporcionar a los individuos acceso al cons-
los individuos de diferentes grupos. La accesibi- tructo y obtener alguna medida de este puede
lidad tiene también importantes ramificaciones requerir alguna adaptación del constructo tam-
éticas y legales. bién. En situaciones como esta, es posible que no
La accesibilidad puede entenderse mejor se pueda desarrollar una medición que sea compa-
comparando el conocimiento, las habilidades y rable entre versiones adaptadas y no adaptadas de
las capacidades que reflejan los constructos que la prueba; sin embargo, la medida obtenida por
la prueba tiene por objeto medir con el conoci- la prueba adaptada muy probablemente propor-
miento, las habilidades y las capacidades que no cione una evaluación más exacta de las habilida-
son el objeto de la prueba pero que se requieren des y/o capacidades del individuo (aunque tal vez
57
58
puntajes o uso de normas y/o favorecen injusta- fuentes de sesgo en el contenido y los formatos de
mente a algunos individuos. la prueba, el potencial de algún sesgo de puntaje
Al cerrar esta sección sobre los significados de no puede descartarse por completo. Por lo tanto,
la imparcialidad, obsérvese que la perspectiva de se justifican los esfuerzos continuos en el diseño
medición de los Estándares excluye explícitamente y desarrollo de pruebas para eliminar posibles
un punto de vista común de la imparcialidad en el fuentes de sesgo sin comprometer la validez, y
debate público: la imparcialidad como la igualdad que sean compatibles con los estándares legales y
de resultados de evaluación para subgrupos de regulatorios.
examinandos relevantes. Desde luego, la mayo-
ría de los profesionales dedicados a la evaluación Amenazas a las interpretaciones
coinciden en que las diferencias de grupos en los imparciales y válidas de los
resultados de evaluación deberían dar lugar a ma- puntajes de una prueba
yor escrutinio sobre posibles fuentes de sesgo en
las pruebas. El examen de diferencias de grupos Una amenaza principal a la interpretación impar-
también puede ser importante en la generación cial y válida de los puntajes de una prueba proviene
de nuevas hipótesis sobre sesgo, trato imparcial, y de aspectos de la prueba o del proceso de evalua-
la accesibilidad del constructo tal como se mide; y ción que pueden producir varianza irrelevante de
de hecho, es posible que existan requisitos legales constructo en los puntajes que sistemáticamente
para investigar ciertas diferencias en los resultados reduce o aumenta los puntajes para grupos iden-
de evaluación entre subgrupos. Sin embargo, las tificables de examinados y da por resultado inter-
diferencias de grupos en los resultados en sí mis- pretaciones inapropiadas de los puntajes para los
mas no indican que una aplicación de evaluación usos previstos. Dichos componentes irrelevantes
esté sesgada o sea imparcial. del constructo de los puntajes pueden ser intro-
En muchos casos, no está claro si las diferen- ducidos por muestreo inapropiado del contenido
cias se deben a diferencias reales entre grupos en de la prueba, aspectos del contexto de la prueba
el constructo sometido a medición o a alguna como falta de claridad en las instrucciones de la
fuente de sesgo (p. ej., varianza irrelevante de prueba, complejidades de los ítems que no se re-
constructo o infrarrepresentación de constructo). lacionan con el constructo sometido a medición,
En la mayoría de los casos, puede ser alguna com- y/o expectativas de respuestas a la prueba o cri-
binación de diferencias reales y sesgo. Una bús- terios de calificación que pueden favorecer a un
queda seria de posibles fuentes de sesgo que no grupo por sobre otro. Además, la oportunidad de
arroje resultados proporciona la confirmación de aprendizaje (es decir, la medida en que un indivi-
que el potencial de sesgo es limitado, pero incluso duo examinado ha estado expuesto a instrucción
un programa de investigación muy extensivo no o experiencias que han sido supuestas por el desa-
puede descartar la posibilidad. Siempre es posi- rrollador y/o usuario de la prueba) puede influir
ble que algo se pase por alto, y por consiguiente, en las interpretaciones imparciales y válidas de los
la prudencia sugeriría que se intente minimizar puntajes de una prueba para sus usos previstos.
las diferencias. Por ejemplo, algunos subgrupos
raciales y étnicos tienen puntajes medios más ba- Contenido de la prueba
jos en algunas pruebas estandarizadas que otros Una posible fuente de varianza irrelevante de
subgrupos. Algunos de los factores que contribu- constructo en los puntajes de la prueba surge
yen a estas diferencias se entienden (p. ej., grandes de contenido inapropiado de la prueba, es decir,
diferencias en el ingreso familiar y otros recursos, contenido de la prueba que confunde la medición
diferencias en la calidad escolar y la oportunidad del constructo de destino y favorece en forma di-
de aprendizaje de los estudiantes en cuanto al ferencial a individuos de algunos subgrupos por
material que se evaluará), pero incluso cuando se sobre otros. Una prueba que tiene por objeto me-
han hecho esfuerzos serios para eliminar posibles dir lectura crítica, por ejemplo, no debe incluir
59
palabras y expresiones especialmente asociadas desde el punto de vista emocional para algunos
con ocupaciones, disciplinas o características cul- examinandos.
turales, nivel socioeconómico, grupos raciales/
étnicos o ubicaciones geográficas en particular, Contexto de la prueba
de modo que se maximice la medición del cons- El término contexto de la prueba, tal como se usa
tructo (la capacidad para leer críticamente) y se en el presente, se refiere a múltiples aspectos de la
minimice la confusión de esta medición con co- prueba y del entorno de evaluación que pueden
nocimientos y experiencias previos que probable- afectar el desempeño de un individuo examinado
mente favorezcan o desfavorezcan a examinandos y en consecuencia dar lugar a varianza irrelevante
de subgrupos en particular. de constructo en los puntajes de la prueba. Dado
El compromiso y el valor motivacional di- que la investigación de factores contextuales
ferenciales también pueden ser factores en la (p. ej., amenaza de estereotipo) es continua, los de-
exacerbación de los componentes del contenido sarrolladores de la prueba y usuarios de la prueba
irrelevantes del constructo. El material que pro- deben prestar atención a la bibliografía empírica
bablemente sea interesante de manera diferencial que surja sobre estos temas de modo que puedan
debe equilibrarse para atraer en general a todo usar esta información cuando la preponderancia
el alcance de la población de destino de la eva- de evidencia indique que es apropiado hacerlo.
luación (excepto cuando el nivel de interés sea La varianza irrelevante de constructo puede sur-
parte del constructo sometido a medición). En gir de una falta de claridad en las instrucciones
las pruebas, ese equilibrio se extiende a la re- de la prueba, de complejidad no relacionada o de
presentación de individuos de una variedad de exigencias de lenguaje en las tareas de la prueba,
subgrupos dentro del contenido de la prueba y/o de otras características de ítems de la prueba
propiamente dicho. Por ejemplo, problemas apli- que no se relacionan con el constructo pero que
cados pueden presentar a niños y familias de di- pueden llevar a algunos individuos a responder
ferentes grupos raciales/étnicos, socioeconómicos de ciertas maneras. Por ejemplo, los individuos
y de idioma. Además, el contenido de la prueba examinados de diversos orígenes raciales/étnicos,
o situaciones que sean ofensivos o perturbadores lingüísticos o culturales o que difieren por género
desde el punto de vista emocional para algunos pueden ser mal evaluados por un inventario de
examinandos y que puedan impedir su capacidad interés vocacional cuyas preguntas se refieren de
para comprometerse con la prueba no deben apa- manera desproporcionada a competencias, activi-
recer en la prueba a menos que el uso del conte- dades e intereses que están típicamente asociadas
nido ofensivo o perturbador sea necesario para con subgrupos en particular.
medir el constructo previsto. Ejemplos de este Cuando los ámbitos de prueba tienen un
tipo de contenido son las descripciones gráficas contexto interpersonal, la interacción del exami-
de esclavitud o del Holocausto, cuando dichas nador con el examinando puede ser una fuente
descripciones son específicamente requeridas por de varianza irrelevante de constructo o sesgo. Los
el constructo. usuarios de pruebas deben estar alertas ante la po-
Dependiendo del contexto y de la finalidad sibilidad de que dichas interacciones puedan en
de las pruebas, es tanto común como aconsejable ocasiones afectar la imparcialidad de la prueba.
que los desarrolladores de la prueba contraten a Los profesionales que administran la prueba de-
un panel independiente y diverso de expertos para ben ser conscientes de la posibilidad de interac-
que revisen el contenido de la prueba en cuanto ciones complejas con los examinandos y otras
a representaciones del lenguaje, ilustraciones, grá- variables situacionales. Los factores que pueden
ficos y otras que podrían ser diferencialmente co- afectar el desempeño del examinando incluyen
nocidas o interpretadas de manera diferente por la raza, origen étnico, género y características lin-
miembros de diferentes grupos y en cuanto a ma- güísticas y culturales tanto del examinador como
teriales que podrían ser ofensivos o perturbadores del examinando, la experiencia del examinador
60
con la educación formal, el estilo de evaluación que consideren que espera el administrador de la
del examinador, el nivel de aculturación del exa- prueba, en lugar de las respuestas que mejor los
minado y del examinador, el idioma principal del describen.
examinando, el idioma utilizado para la adminis- Los componentes irrelevantes del constructo
tración de la prueba (si no es el idioma principal en los puntajes de las pruebas también pueden
del examinando), y el uso de un intérprete bilin- asociarse con formatos de respuesta a la prueba
güe o bicultural. que plantean dificultades particulares o que son
La evaluación de individuos que son bilingües valorados de manera diferencial por individuos
o multilingües plantea desafíos especiales. Es po- en particular. Por ejemplo, el desempeño en
sible que una persona que sabe dos o más idiomas la prueba puede depender de alguna capacidad
no salga bien en la prueba en uno o más de los (p. ej., competencia en lengua inglesa o coor-
idiomas. Por ejemplo, es posible que los niños dinación de motricidad fina) que es irrelevante
de hogares cuyas familias hablan español puedan para los constructos de destino, pero que no obs-
comprender el español pero se expresen mejor en tante implica impedimentos a las respuestas de
inglés o viceversa. Además, algunas personas que la prueba para algunos examinandos que no tie-
son bilingües utilizan su lengua nativa en la ma- nen la capacidad. De manera similar, diferentes
yoría de las situaciones sociales y utilizan el inglés valores asociados con la naturaleza y el grado de
principalmente para actividades académicas y re- producción verbal pueden influir en las respues-
lacionadas con el trabajo; el uso de una o ambas tas del examinando. Algunos individuos pueden
lenguas depende de la naturaleza de la situación. juzgar la verbosidad o el discurso rápido como
Los hablantes de inglés no nativos que dan la im- algo grosero, mientras que otros pueden conside-
presión de tener buen nivel en inglés conversacio- rar esos patrones del habla como indicaciones de
nal pueden ser más lentos o no completamente alta capacidad mental o cordialidad. Un indivi-
competentes para realizar pruebas que requieren duo del primer tipo que es evaluado con valores
habilidades de comprensión y lectoescritura en apropiados para el segundo puede considerarse
inglés. Por lo tanto, en algunos contextos, un taciturno, introvertido o de baja capacidad men-
entendimiento del tipo y grado de bilingüismo tal. Otro ejemplo es la persona con problemas de
o multilingüismo de un individuo es importante memoria o de lenguaje o depresión; la capacidad
para evaluar al individuo de manera apropiada. de esa persona para comunicarse o mostrar interés
Obsérvese que esta cuestión puede no aplicarse en comunicarse verbalmente puede estar restrin-
cuando el constructo de interés se define como gida, lo cual puede dar lugar a interpretaciones de
una clase particular de competencia en lenguaje los resultados de la evaluación que sean inválidos
(p. ej., lenguaje académico del tipo que se encuen- y posiblemente perjudiciales para la persona que
tra en libros, lenguaje y vocabulario específico de se evalúa.
las pruebas de centro de trabajo y empleo). En el desarrollo y uso de rúbricas de punta-
jes, es especialmente importante que el crédito se
Respuesta a la prueba otorgue por características de respuesta centrales
En algunos casos, la varianza irrelevante de cons- para el constructo sometido a medición y no por
tructo puede surgir porque los ítems de la prueba características de respuesta que sean irrelevan-
suscitan variedades de respuestas distintas de las tes o tangenciales al constructo. Las rúbricas de
previstas o porque los ítems pueden resolverse de puntajes pueden favorecer involuntariamente a
maneras que no fueron previstas. En la medida en algunos individuos por sobre otros. Por ejemplo,
que dichas respuestas sean más típicas de algunos una rúbrica de puntajes para un ítem de respuesta
subgrupos de que otros, pueden surgir interpreta- construida podría reservar el nivel de puntaje
ciones de puntajes sesgadas. Por ejemplo, algunos más alto para los examinandos que proporcio-
clientes que responden a una prueba neuropsico- nan más información o elaboración que la que
lógica pueden intentar proporcionar las respuestas efectivamente se solicitó. En esta situación, los
61
examinandos que simplemente siguen instruccio- puede verse comprometida. No tener en cuenta la
nes, o los examinandos que valoran la concisión oportunidad previa de aprendizaje podría dar lu-
en las respuestas, obtendrán menores puntajes; gar a un diagnóstico equivocado, colocación ina-
por consiguiente, las características de los indi- propiada y/o asignación inapropiada de servicios,
viduos se convierten en componentes irrelevan- lo que podría tener consecuencias significativas
tes del constructo de los puntajes de la prueba. para un individuo.
De manera similar, la calificación de repuestas Más allá de su impacto en la validez de las in-
abiertas puede introducir varianza irrelevante terpretaciones de puntajes de la prueba para usos
de constructo para algunos examinandos si los previstos, la oportunidad de aprendizaje tiene im-
evaluadores y/o rutinas de puntaje automático portantes ramificaciones legales y en materia de
no son sensibles a toda la diversidad de modos políticas en educación. La oportunidad de apren-
en que los individuos expresan sus ideas. Con el dizaje es una cuestión de imparcialidad cuando
advenimiento del puntaje automático para tareas una autoridad proporciona acceso diferencial a
de desempeño complejas, por ejemplo, es impor- la oportunidad de aprendizaje para algunos in-
tante examinar la validez de los resultados del dividuos y responsabiliza de su desempeño en la
puntaje automático para subgrupos relevantes en prueba a los individuos a quienes no se les pro-
la población de examinandos. porcionó esa oportunidad. Este problema puede
afectar a las pruebas de competencia de alto riesgo
Oportunidad de aprendizaje en educación, por ejemplo, cuando las autorida-
Por último, la oportunidad de aprendizaje —el des educativas requieren un cierto nivel de desem-
grado en que los individuos han estado expuestos peño en la prueba para la graduación de la escuela
a instrucción o conocimientos que les ofrezcan la secundaria. En este caso, existe una cuestión de
oportunidad de aprender el contenido y las habi- imparcialidad en cuanto a que los estudiantes
lidades objeto de la prueba— tiene varias implica- no sean responsabilizados de sus resultados en la
ciones para la interpretación imparcial y válida de prueba, o enfrenten consecuencias negativas per-
los puntajes de la prueba para sus usos previstos. manentes graves por ellos, cuando sus experien-
La oportunidad previa de aprendizaje de los indi- cias escolares no les hayan dado la oportunidad
viduos puede ser un importante factor contextual de aprender la asignatura cubierta por la prueba.
a considerar al interpretar y hacer inferencias de En esos casos, los puntajes bajos de los estudiantes
los puntajes de la prueba. Por ejemplo, es posible pueden reflejar exactamente qué saben y pueden
que un inmigrante reciente que ha tenido escasa hacer, de modo que, técnicamente, la interpreta-
exposición previa a la escuela no haya tenido la ción de los resultados de la prueba para el fin de
oportunidad de aprender conceptos que un in- medir cuánto han aprendido los estudiantes no
ventario de personalidad o medida de capacidad puede estar sesgada. Sin embargo, puede conside-
suponen como conocimientos comunes, incluso rarse injusto penalizar severamente a los estudian-
si la medida es administrada en la lengua nativa tes por circunstancias ajenas a su control, es decir,
del examinando. De manera similar, como otro por no aprender contenido que sus escuelas no
ejemplo, ha habido considerable debate público han enseñado. Se encuentra generalmente acep-
sobre las posibles desigualdades en los recursos tado que antes de que puedan imponerse conse-
escolares disponibles para estudiantes de grupos cuencias de alto riesgo por reprobar un examen
tradicionalmente desfavorecidos, por ejemplo, en contextos educativos, debe haber evidencia de
minorías raciales, étnicas, de lenguas y culturales que los estudiantes han recibido un plan de estu-
y estudiantes rurales. Dichas desigualdades afec- dios e instrucción que incorporan los constructos
tan la calidad de educación recibida. En la me- abordados por la prueba.
dida en que exista desigualdad, la validez de las Varias cuestiones importantes surgen cuando
inferencias sobre la capacidad de los estudiantes la oportunidad de aprendizaje se considera como
extraídas de puntajes de pruebas de rendimiento un componente de imparcialidad. En primer
62
lugar, es difícil definir la oportunidad de apren- dentro de la propia prueba. Algunos de estos
dizaje en la práctica educativa, particularmente principios básicos se incluyen en el proceso de
a nivel de individuo. La oportunidad es general- diseño de pruebas denominado diseño universal.
mente un asunto de grado y es difícil de cuanti- Al utilizar el diseño universal, los desarrolladores
ficar; además, la medición de algunos resultados de la prueba comienzan el proceso de desarrollo
de aprendizaje importantes puede requerir que de la prueba con vistas a maximizar la impar-
los estudiantes trabajen con materiales que han cialidad. El diseño universal destaca la necesidad
visto antes. En segundo lugar, incluso si es posi- de desarrollar pruebas que sean tan utilizables
ble documentar los temas incluidos en el plan de como sea posible para todos los examinandos en
estudios para un grupo de estudiantes, la cober- la población prevista de la prueba, independien-
tura de contenido específico para cualquier es- temente de características tales como género,
tudiante puede ser imposible de determinar. En edad, características lingüísticas, cultura, nivel
tercer lugar, otorgar un diploma a un individuo socioeconómico o discapacidad.
examinado con bajo puntaje basándose en que Los principios del diseño universal incluyen
el estudiante no ha tenido suficiente oportuni- definir constructos de manera precisa, de modo
dad de aprender el material evaluado significa que lo que se mida pueda diferenciarse clara-
certificar a alguien que no alcanzado el grado mente de las características del examinando que
de competencia que el diploma tiene por objeto sean irrelevantes para el constructo pero que po-
representar. drían de otro modo interferir con la capacidad
Debe observarse que las inquietudes sobre la de responder de algunos examinandos. El diseño
oportunidad de aprendizaje no necesariamente universal evita, cuando es posible, característi-
se aplican a situaciones en las que la misma au- cas y formatos de los ítems, o características de
toridad no es responsable tanto de impartir ins- la prueba (por ejemplo, aceleración de la prueba
trucción como de evaluar y/o interpretar los inapropiada), que puedan sesgar los puntajes para
resultados. Por ejemplo, en las decisiones sobre individuos o subgrupos debido a características
admisión universitaria, la oportunidad de apren- irrelevantes del constructo que sean específicas de
dizaje puede escapar al control de los usuarios de estos examinandos.
la prueba y puede no influir en la validez de las Los procesos del diseño universal se esfuerzan
interpretaciones de la prueba para su uso previsto por minimizar las dificultades de acceso teniendo
(p. ej., decisiones de selección y/o admisiones). El en cuenta características de la prueba que pueden
capítulo 12, “Pruebas y evaluación educativas”, impedir el acceso al constructo para determina-
proporciona una perspectiva adicional sobre la dos examinandos, como la elección de conte-
oportunidad de aprendizaje. nido, las tareas de la prueba, los procedimientos
de respuesta y los procedimientos de evaluación.
Minimizar los componentes irrelevantes Por ejemplo, el contenido de pruebas puede ha-
del constructo mediante el diseño de la cerse más accesible proporcionando tamaños
prueba y adaptaciones de la prueba de fuente seleccionadas por los usuarios en una
prueba basada en tecnología, evitando contextos
Las pruebas estandarizadas deben diseñarse para de ítems que probablemente no serían conocidos
facilitar la accesibilidad y minimizar los obstá- para los individuos debido a su contexto cultural,
culos irrelevantes del constructo para todos los proporcionando tiempo de administración exten-
examinandos en la población de destino, siem- dido cuando la velocidad no es relevante para el
pre que sea posible. Antes de considerar la nece- constructo sometido a medición, o minimizando
sidad de cualquier adaptación de evaluación para la carga lingüística de los ítems de la prueba pre-
los examinandos que puedan tener necesidades vistos para medir constructos distintos de com-
especiales, el desarrollador de la evaluación petencias en el idioma en que se administra la
primero debe intentar mejorar la accesibilidad prueba.
63
Si bien los principios del diseño universal indicar cambios que afectan el constructo medido
para evaluación proporcionan una guía útil para por la prueba. Con una modificación, los cam-
desarrollar evaluaciones que reducen la varianza bios afectan el constructo sometido a medición y
irrelevante de constructo, los investigadores aún en consecuencia llevan a puntajes que difieren en
están reuniendo evidencia empírica para respaldar significado de los de la prueba original.1
algunos de estos principios. Es importante obser- Es importante tener presente que la atención
var que no todas las pruebas pueden hacerse ac- al diseño y la provisión de pruebas alteradas no
cesibles para todos mediante atención a cambios siempre garantiza que los resultados de la prueba
de diseño como los mencionados arriba. Incluso serán imparciales y válidos para todos los indivi-
cuando las pruebas se desarrollan para maximizar duos examinados. Quienes administran pruebas
la imparcialidad a través del uso de diseño univer- e interpretan los puntajes de la prueba necesitan
sal y otras prácticas para aumentar el acceso, aún desarrollar una comprensión cabal de la utilidad
existirán situaciones en las que la prueba no es y las limitaciones de los procedimientos de diseño
apropiada para todos los examinandos en la po- de pruebas para accesibilidad y cualquier alteración
blación prevista. Por lo tanto, es posible que se que se ofrezca.
necesiten algunas adaptaciones de la prueba para
los individuos cuyas características de otro modo Variedad de adaptaciones de prueba
impedirían su acceso al examen. En lugar de una simple dicotomía, las posibles
Las adaptaciones son cambios al diseño o ad- adaptaciones de prueba reflejan una amplia varie-
ministración originales de la prueba para aumen- dad de cambios en las pruebas. En un extremo
tar el acceso a la prueba para dichos individuos. de la variedad se encuentran las adecuaciones de
Por ejemplo, una persona que es ciega puede leer la prueba. Tal como el término se utiliza en los
solo en formato braille, y es posible que un indi- Estándares, las adecuaciones consisten en cam-
viduo con hemiplejia no pueda sostener un lápiz bios relativamente menores en la presentación
y por lo tanto tenga dificultad para completar y/o el formato de la prueba, la administración
un examen escrito estándar. Los estudiantes con de la prueba, o los procedimientos de respuesta
competencia limitada en inglés pueden ser com- que mantienen el constructo original y dan por
petentes en física, pero es posible que no puedan resultado puntajes comparables a los de la prueba
demostrar su conocimiento si la prueba de física original. Por ejemplo, el aumento del tamaño
se administra en inglés. Dependiendo de las cir- del texto podría ser una adecuación para un exa-
cunstancias de evaluación y los fines de la prueba, minando con un problema de la vista que de
así como de las características individuales, esas otro modo tendría dificultad para descifrar las
adaptaciones podrían incluir cambiar el conte- instrucciones o ítems de la prueba. Los glosa-
nido o presentación de los ítems de la prueba, rios de lengua inglesa nativa son un ejemplo de
cambiar las condiciones de administración y/o una adecuación que podría proporcionarse para
cambiar los procesos de respuesta. El término
adaptación se utiliza para hacer referencia a cual-
quiera de estos cambios. Es importante, no obs- 1
La Ley sobre Estadounidenses con Discapacidades
tante, diferenciar entre cambios que dan lugar a (ADA, por sus siglas en inglés) utiliza los términos adecuación
y modificación de manera diferente que los Estándares. El Tí-
puntajes comparables y cambios que pueden no tulo I de la ADA utiliza el término adecuación razonable para
producir puntajes que sean comparables a los de referirse a cambios que permiten que individuos cualificados
la prueba original. Si bien los términos pueden con discapacidades obtengan empleo para realizar sus trabajos.
tener significados diferentes en virtud de las leyes Los Títulos II y III utilizan el término modificación razonable
aplicables, tal como se utiliza en los Estándares el gran en parte de la misma manera. En virtud de la ADA, una
adecuación o modificación a una prueba que fundamental-
término adecuación se utiliza para indicar cam- mente altera el constructo sometido a medición no se llamaría
bios con los que se conserva la comparabilidad de de manera diferente; sino que probablemente se consideraría
puntajes, y el término modificación se utiliza para no “razonable”.
64
examinandos con competencia limitada en inglés estudiante no tiene que decodificar el texto im-
en una prueba de seguridad en construcción para preso; pero sin la adaptación, es posible que el es-
ayudarles a comprender lo que se pregunta. Los tudiante no pueda demostrar ninguna situación
glosarios contendrían palabras que, si bien no se con respecto al constructo de comprensión de
relacionan directamente al constructo sometido lectura. Por otra parte, si la finalidad de la prueba
a medición, ayudarían a examinandos con com- de lectura es evaluar la comprensión sin importar
petencia limitada en inglés a comprender el con- la capacidad de decodificación, podría juzgarse
texto de la pregunta o tarea planteada. que la adaptación respalda interpretaciones más
En el otro extremo de la variedad se en- válidas de la comprensión de lectura de algunos
cuentran las adaptaciones que transforman el estudiantes y la esencia de las partes relevantes
constructo sometido a medición, incluyendo el del constructo podría juzgarse intacta. El desafío
contenido de la prueba y/o las condiciones de para quienes reportan, interpretan y/o utilizan
evaluación, para obtener una medida razonable puntajes de pruebas de pruebas adaptadas es re-
de un constructo algo diferente pero apropiado conocer qué adaptaciones proporcionan puntajes
para los examinandos designados. Por ejemplo, que son comparables con los puntajes de la eva-
en evaluación educativa, se diseñan diferentes luación original sin adaptar y qué adaptaciones
pruebas que abordan los estándares de rendi- no. Este desafío se vuelve aún más difícil cuando
miento alternativos para estudiantes con disca- la evidencia para respaldar la comparabilidad de
pacidades cognitivas graves correspondientes a puntajes no está disponible.
los mismos temas en los que se evalúa a los es-
tudiantes sin discapacidades. Claramente, los Adecuaciones de la prueba: medidas
puntajes de estas pruebas diferentes no pueden comparables que mantienen el constructo
considerarse comparables a los que surgen de la previsto
evaluación general, pero en cambio representan La comparabilidad de puntajes permite a los
puntajes de una nueva prueba que requiere los usuarios de las pruebas hacer inferencias com-
mismos procesos rigurosos de desarrollo y valida- parables basadas en los puntajes para todos los
ción que se llevarían a cabo para cualquier nueva examinandos. La comparabilidad también es
evaluación. (En el capítulo 12 se incluye un de- la característica definitoria para que una adap-
bate ampliado del uso de dichas evaluaciones tación de prueba se considere una adecuación.
alternativas; las evaluaciones alternativas no se Los puntajes de la versión adaptada de la prueba
seguirán tratando en el presente capítulo). Otras deben arrojar inferencias comparables a los de la
adaptaciones cambian el constructo previsto para versión estándar; hacer que esto ocurra es una
hacer que sea accesible para los estudiantes de- proposición que plantea desafíos. Por un lado,
signados mientras conservan tanto como sea po- los procedimientos comunes, uniformes son un
sible del constructo original. Por ejemplo, una apoyo básico para la validez y comparabilidad
adaptación de una prueba de lectura podría pro- de puntajes. Por otra parte, las adecuaciones por
porcionar a un estudiante disléxico un lector de su propia naturaleza significan que algo en las
pantalla que lea en voz alta los pasajes y las pre- circunstancias de evaluación ha sido cambiado
guntas de la prueba que miden la comprensión porque adherir a los procedimientos estanda-
de lectura. Si el constructo está intencionalmente rizados originales interferiría con la medición
definido como que requiere tanto la capacidad válida de los constructos previstos para algunos
de decodificar como la capacidad de compren- individuos.
der lenguaje escrito, la adaptación requeriría La comparabilidad de inferencias hechas a
una interpretación diferente de los puntajes de partir de puntajes de prueba adaptados se basa
la prueba como una medida de la comprensión en gran parte en que los puntajes representen
de lectura. Claramente, esta adaptación cambia o no los mismos constructos que los de la
el constructo sometido a medición, porque el prueba original. Esta determinación requiere
65
una definición muy clara de los constructos siguiendo procedimientos idénticos y luego se
previstos. Por ejemplo, cuando hablantes no equiparan estadísticamente, esos procedimien-
nativos del idioma de la prueba completan una tos por lo general no son posibles para versio-
encuesta de sus conocimientos sobre salud y nu- nes adaptadas y no adaptadas de las pruebas. En
trición, uno puede no saber si el puntaje de la cambio, la evidencia relevante puede adoptar
prueba es, total o parcialmente, una medida de diversas formas, desde estudios experimentales
la capacidad para leer en el idioma de la prueba para determinar la equivalencia de constructo
más que una medida del constructo previsto. Si hasta estudios cualitativos, más pequeños, y/o el
la prueba no tiene por objeto también ser una uso de juicio profesional y revisión de expertos.
medida de la capacidad para leer en inglés, los Cualquiera sea el caso, los desarrolladores y/o
puntajes de la prueba no representan los mismos usuarios de la prueba deben buscar evidencia de
constructos para los individuos examinados que la comparabilidad de las evaluaciones adaptada
pueden tener habilidades de lectura deficientes, y original.
como examinandos con competencia limitada Se ha implementado una variedad de estrate-
en inglés, que para los que son completamente gias para adecuar las pruebas y procedimientos de
competentes para leer en inglés. Una adaptación evaluación para responder a las necesidades de los
que mejora la accesibilidad de la prueba para examinandos con discapacidades y aquellos con
hablantes no nativos de inglés proporcionando características lingüísticas y culturales diversas.
apoyos lingüísticos directos o indirectos puede Similares enfoques pueden adaptarse para otros
arrojar un puntaje no contaminado por la capa- subgrupos. Las estrategias específicas dependen
cidad de comprender inglés. de la finalidad de la prueba y de los constructos
Al mismo tiempo, la infrarrepresentación de que la prueba tiene por objeto medir. Algunas
constructo es una amenaza primaria a la validez estrategias requieren cambiar los procedimientos
de las adecuaciones de la prueba. Por ejemplo, el de administración de la prueba (p. ej., instruc-
tiempo extra es una adecuación común, pero si ciones, formato de respuesta), mientras que otras
la velocidad es parte del constructo previsto, no alteran el medio, el momento, los contextos o el
es apropiado permitir tiempo extra en la admi- formato de evaluación. Dependiendo del con-
nistración de la prueba. Los puntajes obtenidos texto lingüístico o de la naturaleza y grado de la
en la prueba con tiempo de administración exten- discapacidad, uno o más cambios en la evalua-
dido pueden infrarrepresentar el constructo me- ción pueden ser apropiados para un individuo en
dido por la prueba estrictamente cronometrada particular.
porque la velocidad no será parte del constructo Independientemente de las características del
medido por la prueba de tiempo extendido. De individuo que hacen que las adecuaciones sean
manera similar, traducir una prueba de compren- necesarias, es importante que las adecuaciones
sión de lectura utilizada para la selección para un de la prueba aborden las cuestiones de acceso
programa de capacitación de una organización es específicas que de otro modo sesgarían los resul-
inapropiado si la comprensión de lectura en inglés tados de la prueba de un individuo. Por ejemplo,
es importante para la participación exitosa en el las adecuaciones provistas a examinandos con
programa. competencia limitada en inglés deben diseñarse
Las afirmaciones de que las versiones adapta- para abordar necesidades de apoyo lingüístico
das de una prueba arrojan interpretaciones com- apropiado; las proporcionadas a examinandos
parables a las basadas en puntajes de la prueba con problemas de la vista deben abordar la inca-
original y de que el constructo sometido a me- pacidad de ver el material de la prueba. Las ade-
dición no se ha cambiado deben evaluarse y sus- cuaciones deben ser efectivas en la eliminación
tentarse con evidencia. Si bien la comparabilidad de los obstáculos irrelevantes del constructo al
de puntajes es más fácil de establecer cuando desempeño en la prueba de un individuo sin pro-
diferentes formularios de prueba se construyen porcionar una ventaja injusta sobre individuos
66
que no reciben la adecuación. Verdaderamente, siempre que sea posible, de modo que se man-
alcanzar ambos objetivos puede ser un desafío. tenga la comparabilidad de puntajes. Los proce-
Las adaptaciones que involucran traduccio- dimientos estandarizados para las adecuaciones de
nes de la prueba merecen consideración especial. las pruebas deben incluir reglas para determinar
Simplemente traducir una prueba de un idioma quién es elegible para una adecuación, y precisa-
a otro no asegura que la traducción produzca mente cómo debe administrarse la adecuación.
una versión de la prueba que sea comparable en Los usuarios de la prueba deben supervisar la ad-
contenido y nivel de dificultad con la versión ori- hesión a las reglas de elegibilidad y administra-
ginal de la prueba, o que la prueba traducida pro- ción apropiada de la prueba adaptada.
duzca puntajes que sean igualmente confiables/
precisos y válidos que los de la prueba original. Modificaciones de la prueba: medidas no
Además, no se puede suponer que la aculturación comparables que cambian el constructo
relevante, las experiencias clínicas o educativas previsto
sean similares para los examinandos que realizan Es posible que haya ocasiones en que se requiera
la versión traducida y para el grupo de destino flexibilidad adicional para obtener incluso una
utilizado para desarrollar la versión original. Asi- medida parcial del constructo; es decir, es posi-
mismo, no se puede suponer que la traducción ble que sea necesario considerar una modificación
a la lengua nativa sea siempre una adecuación a una prueba que dará por resultado cambios en
preferida. La investigación en evaluaciones edu- el constructo previsto para proporcionar incluso
cativas, por ejemplo, muestra que las pruebas con acceso limitado al constructo sometido a medi-
contenido traducido no son efectivas a menos que ción. Por ejemplo, un individuo con discalculia
a los examinandos se los haya instruido utilizando puede tener capacidad limitada para hacer cál-
el idioma de la prueba traducida. Cuando las culos sin una calculadora; sin embargo, si se le
pruebas se traducen de un idioma a un segundo proporciona una calculadora, es posible que el
idioma, debe reunirse y reportarse evidencia de individuo pueda hacer los cálculos requeridos en
la validez, confiabilidad/precisión y comparabili- la evaluación. Si el constructo que se evalúa invo-
dad de puntajes en las diferentes versiones de las lucra una habilidad matemática más amplia, el in-
pruebas. dividuo puede tener acceso limitado al constructo
Cuando la adecuación de la prueba emplea que se mide sin el uso de una calculadora; con
el uso de un intérprete, es aconsejable, cuando la modificación, no obstante, el individuo puede
sea viable, obtener a alguien que tenga una com- demostrar habilidades de resolución de problemas
prensión básica del proceso de evaluación psico- matemáticos, incluso si no puede demostrar ha-
lógica y educativa, tenga buen nivel en el idioma bilidades de cálculo. Puesto que las evaluaciones
de la prueba y la lengua nativa del examinando modificadas miden un constructo diferente del
y esté familiarizado con el contexto cultural del medido por la evaluación estandarizada, es im-
examinando. El intérprete idealmente debe com- portante interpretar los puntajes de la evaluación
prender la importancia de seguir procedimientos como puntajes resultantes de una nueva prueba
estandarizados, la importancia de transmitir exac- y reunir toda evidencia que sea necesaria para
tamente al examinador las respuestas reales del evaluar la validez de las interpretaciones para los
examinando, y el rol y las responsabilidades del usos previstos de los puntajes. Para interpreta-
intérprete en la evaluación. El intérprete debe ser ciones de puntajes basadas en normas, cualquier
cuidadoso de no proporcionar asistencia alguna modificación que cambie el constructo invalidará
al candidato que pudiera comprometer la validez las normas para las interpretaciones de puntajes.
de la interpretación para los usos previstos de los Del mismo modo, si se cambia el constructo, las
resultados de la evaluación. interpretaciones de puntajes basadas en criterios
Por último, es importante estandarizar pro- de la evaluación modificada (por ejemplo, to-
cedimientos para implementar adecuaciones, mar decisiones de clasificación como “aprobado/
67
reprobado” o asignar categorías de dominio como situaciones de evaluación en las que las adecua-
“básico,” “competente” o “avanzado” utilizando ciones tal como las definen los Estándares no son
puntajes de corte determinados sobre la evalua- necesarias o en que las modificaciones tal como
ción original) no serán válidas. las definen los Estándares no son apropiadas. En
primer lugar, el motivo para la posible alteración,
Reporte de puntajes de pruebas adaptadas y como habilidades en lengua inglesa o una disca-
modificadas pacidad, puede de hecho ser directamente rele-
vante para el constructo principal. En las pruebas
Por lo general, los administradores de pruebas y
de empleo, sería inapropiado hacer cambios en la
los profesionales de evaluación documentan pasos
prueba si la prueba se ha diseñado para evaluar
utilizados al hacer adecuaciones o modificaciones
habilidades esenciales requeridas para el puesto
de las pruebas en el reporte de la prueba; los mé-
y los cambios en la prueba alterarían fundamen-
dicos también pueden incluir una discusión de
talmente el constructo sometido a medición. Por
la validez de las interpretaciones de los puntajes
ejemplo, a pesar del aumento de la automatiza-
resultantes para los usos previstos. Esta práctica
ción y el uso de dispositivos de grabación, algunos
de reportar la naturaleza de las adecuaciones y
puestos de escribientes judiciales requieren indi-
modificaciones es coherente con los requisitos
viduos que puedan trabajar rápidamente y con
implícitos para comunicar información en cuanto
precisión. La velocidad es un aspecto importante
a la naturaleza del proceso de evaluación si estos
del constructo y no puede adaptarse. En otro
cambios pueden afectar la confiabilidad/precisión
ejemplo, una muestra de trabajo para un puesto
de los puntajes de la prueba o la validez de inter-
de servicio al cliente que requiere comunicación
pretaciones derivadas de los puntajes de la prueba.
fluida en inglés no sería traducida a otro idioma.
La indicación de reportes de puntajes de la
En segundo lugar, una adaptación para una
prueba puede ser una cuestión controvertida y
discapacidad en particular es inapropiada cuando
sujeta a requisitos legales. Cuando existe eviden-
la finalidad de una prueba es diagnosticar la pre-
cia clara de que los puntajes de pruebas o admi-
sencia o el grado de esa discapacidad. Por ejem-
nistraciones de pruebas regulares y alteradas no
plo, dar tiempo extra en una prueba de tiempo
son comparables, debe considerarse informar a los
para determinar el nivel de distracción y las di-
usuarios de los puntajes, posiblemente indicando
ficultades en la velocidad de procesamiento aso-
los resultados de la prueba para señalar su natu-
ciadas con trastorno por déficit de atención haría
raleza especial, en la medida permitida por ley.
imposible determinar el grado en que realmente
Cuando existe evidencia creíble de que los punta-
existen las dificultades de atención y de velocidad
jes de pruebas regulares y alteradas son compara-
de procesamiento.
bles, la indicación por lo general no es apropiada.
En tercer lugar, es importante destacar que
Existe escaso acuerdo en el campo en cuanto a
no todos los individuos dentro de una clase ge-
cómo proceder cuando no existe evidencia creíble
neral de individuos examinados, como los de
sobre comparabilidad. En la medida posible, los
características lingüísticas y culturales diversas
desarrolladores y/o usuarios de la prueba deben
o con discapacidades, pueden requerir disposi-
reunir evidencia para examinar la comparabilidad
ciones especiales cuando realizan pruebas. Las
de pruebas o procedimientos de administración
habilidades de idioma, el conocimiento cultural
regulares y alterados para los fines previstos de la
o discapacidades específicas que poseen estos in-
prueba.
dividuos, por ejemplo, podrían no influir en su
desempeño en un tipo particular de prueba. Por
Uso apropiado de adecuaciones o consiguiente, para estos individuos, no se necesi-
modificaciones tan cambios.
Dependiendo del constructo sometido a medi- La efectividad de una adecuación dada tam-
ción y de la finalidad de la prueba, existen algunas bién desempeña un papel en determinaciones de
68
69
Estándares de imparcialidad
Los estándares en este capítulo comienzan con comparabilidad de la interpretación de puntajes
un estándar global (numerado 3.0), que se ha de la prueba para usos previstos.
diseñado para transmitir la intención central o
enfoque principal del capítulo. El estándar global
también puede verse como el principio rector del Unidad 1. Diseño, desarrollo,
capítulo, y es aplicable a todas las pruebas y usua- administración y procedimientos
rios de pruebas. Todos los estándares posteriores de calificación de las pruebas que
se han separado en cuatro unidades temáticas de-
nominadas de la siguiente manera: minimizan los obstáculos a
interpretaciones válidas de los
1. Diseño, desarrollo, administración y procedi- puntajes para la variedad más amplia
mientos de calificación de las pruebas que mini-
mizan los obstáculos a interpretaciones válidas de individuos y subgrupos relevantes
de los puntajes para la variedad más amplia
posible de individuos y subgrupos relevantes Estándar 3.1
2. Validez de las interpretaciones de los puntajes
de las pruebas para los usos previstos para la Los responsables del desarrollo, la revisión y la
población prevista de individuos examinados administración de la prueba deben diseñar todos
3. Adecuaciones para eliminar obstáculos los pasos del proceso de evaluación para promo-
irrelevantes del constructo y respaldar inter- ver interpretaciones válidas de los puntajes para
pretaciones válidas de puntajes para sus usos los usos previstos de los puntajes para la variedad
previstos más amplia posible de individuos y subgrupos
4. Protecciones contra las interpretaciones relevantes en la población prevista.
inapropiadas de los puntajes para los usos
previstos Comentario: Los desarrolladores de la prueba de-
ben delinear claramente tanto los constructos que
ha de medir la prueba como las características de
Estándar 3.0
los individuos y subgrupos en la población prevista
Todos los pasos en el proceso de evaluación, de examinandos. Las tareas e ítems de la prueba
incluyendo diseño, validación, desarrollo, ad- deben diseñarse para maximizar el acceso y estar
ministración y procedimientos de calificación libres de obstáculos irrelevantes del constructo
de la prueba, deben diseñarse de tal manera que siempre que sea posible para todos los individuos
minimicen la varianza irrelevante de constructo y subgrupos relevantes en la población prevista de
y promuevan las interpretaciones válidas de los examinandos. Una manera de lograr estas metas
puntajes para los usos previstos para todos los es crear la prueba utilizando principios de diseño
individuos examinados en la población prevista. universal, que tienen en cuenta las características
de todos los individuos para los que está prevista
Comentario: La idea central de la imparcialidad la prueba e incluyen elementos tales como definir
en las pruebas es identificar y eliminar obstáculos precisamente los constructos y evitar, cuando es
irrelevantes del constructo al desempeño máximo posible, características y formatos de ítems y prue-
para cualquier individuo examinado. Eliminar bas (por ejemplo, aceleración de la prueba) que
estos obstáculos permite la interpretación com- pueden comprometer las interpretaciones válidas
parable y válida de los puntajes de la prueba de los puntajes para individuos o subgrupos re-
para todos los individuos examinados. La impar- levantes. Otro principio del diseño universal es
cialidad es por lo tanto central para la validez y proporcionar procedimientos e instrucciones de
70
evaluación simples, claros e intuitivos. En última similar, las exigencias físicas y verbales de los re-
instancia, la meta es diseñar un proceso de eva- quisitos de respuesta deben ser coherentes con el
luación que, en la medida de lo posible, eliminará constructo previsto.
los potenciales obstáculos a la medición del cons-
tructo previsto para todos los individuos, inclu-
yendo los individuos que requieren adecuaciones. Estándar 3.3
Los desarrolladores de la prueba deben ser cono-
Los responsables del desarrollo de la prueba de-
cedores de las diferencias del grupo que pueden
ben incluir subgrupos relevantes en estudios de
interferir con la precesión de puntajes y la validez
validez, confiabilidad/precisión y otros estudios
de inferencias de puntajes de la prueba y deben
preliminares utilizados cuando se construye la
poder tomar medidas para reducir el sesgo.
prueba.
Comentario: Los desarrolladores de la prueba de-
Estándar 3.2 ben incluir a individuos de subgrupos relevantes
de la población prevista de la prueba en muestras
Los desarrolladores de la prueba son responsa-
de pruebas piloto o de campo utilizadas para eva-
bles de desarrollar pruebas que midan el cons-
luar lo adecuado de un ítem y una prueba para las
tructo previsto y de minimizar el potencial de
interpretaciones del constructo. Los análisis que
que las pruebas se vean afectadas por caracterís-
se llevan a cabo utilizando datos de pruebas pi-
ticas irrelevantes del constructo, como caracte-
loto y de campo deben procurar detectar aspectos
rísticas lingüísticas, comunicativas, cognitivas,
del diseño, contenido y formato de la prueba que
culturales, físicas y otras.
podrían distorsionar las interpretaciones de los
Comentario: Las características lingüísticas, co- puntajes de la prueba para los usos previstos de
municativas, cognitivas, culturales, físicas y/u los puntajes de la prueba para grupos e individuos
otras innecesarias en el estímulo del ítem de la en particular. Dichos análisis podrían emplear
prueba y/o los requisitos de respuesta pueden una variedad de metodologías, incluyendo las
impedir a algunos individuos la demostración de apropiadas para tamaños de la muestra pequeños,
su situación respecto de los constructos previs- como el juicio de expertos, grupos focales y labo-
tos. Los desarrolladores de pruebas deben utilizar ratorios cognitivos. Las fuentes de evidencia tanto
lenguaje en las pruebas que sea coherente con los cualitativas como cuantitativas son importantes
fines de las pruebas y que sea familiar para la va- al evaluar si los ítems son sólidos y apropiados
riedad más amplia posible de examinandos. Evitar desde el punto de vista psicométrico para todos
el uso de lenguaje que tenga diferentes significa- los subgrupos relevantes.
dos o diferentes connotaciones para subgrupos Si los tamaños de la muestra lo permiten, a
relevantes de examinandos ayudará a garantizar menudo es valioso llevar adelante análisis sepa-
que los examinandos que tienen las habilidades rados para subgrupos relevantes de la población.
que se evalúan puedan comprender qué se les está Cuando no es posible incluir cantidades suficien-
pidiendo y respondan adecuadamente. El nivel de tes en las muestras de las pruebas piloto y/o de
competencia en idioma, la respuesta física u otras campo a fin de hacer análisis separados, los resul-
exigencias requeridas por la prueba deben man- tados de la prueba operativa pueden acumularse
tenerse al mínimo requerido para satisfacer los y utilizarse para llevar a cabo análisis cuando los
requisitos de trabajo y acreditación y/o para re- tamaños de la muestra se vuelven lo suficiente-
presentar los constructos de destino. En situacio- mente grandes para respaldar los análisis.
nes laborales, la modalidad en la que se evalúa la Si los resultados de las pruebas piloto o de
competencia en idioma debe ser comparable con campo indican que los ítems o pruebas fun-
la requerida en el puesto, por ejemplo, oral y/o cionan de manera diferencial para individuos
escrita, comprensión y/o producción. De manera de, por ejemplo grupos etarios, culturales, de
71
discapacidad, género, lingüísticos y/o raciales/ deben tener acceso a tecnología de modo que los
étnicos relevantes en la población de exami- aspectos de la tecnología propiamente dichos no
nandos, los desarrolladores de la prueba deben influyan en los puntajes. Los individuos exami-
investigar aspectos del diseño, contenido y for- nados que trabajan en equipos más viejos y más
mato de la prueba (incluyendo formatos de res- lentos pueden verse injustamente desfavorecidos
puesta) que podrían contribuir al desempeño en relación con los que trabajan en equipos más
diferencial de miembros de estos grupos y, si se nuevos. Si las computadoras u otros dispositivos
justifica, eliminar estos aspectos de prácticas de difieren en velocidad de procesamiento o movi-
desarrollo de pruebas futuras. miento de una pantalla a la otra, en la fidelidad
Las revisiones de expertos y de sensibilidad de los objetos visuales, o en otras maneras im-
pueden servir para proteger contra lenguaje e portantes, es posible que factores irrelevantes del
imágenes irrelevantes del constructo, incluyendo constructo puedan influir en el desempeño en la
los que pueden ofender a algunos individuos prueba.
o subgrupos, y contra contexto irrelevante del Cuestiones relacionadas con la seguridad
constructo que puede ser más conocido para al- de la prueba y la fidelidad de la administración
gunos que para otros. Los editores de la prueba también pueden amenazar la comparabilidad del
suelen realizar revisiones de sensibilidad de todo trato de individuos y la validez e imparcialidad de
el material de la prueba para detectar y eliminar las interpretaciones de puntajes de la prueba. Por
material sensible de las pruebas (p. ej., texto, grá- ejemplo, la distribución no autorizada de ítems a
ficos y otras representaciones visuales dentro de algunos individuos examinados, pero no a otros,
la prueba que podrían percibirse como ofensivas o administraciones de pruebas sin supervisión en
para algunos grupos y posiblemente afectar los las que la estandarización no puede garantizarse,
puntajes de individuos de estos grupos). Esas re- podrían proporcionar una ventaja a algunos exa-
visiones deben llevarse a cabo antes de que una minandos por sobre otros. En estas situaciones,
prueba se vuelva operativa. los resultados de la prueba deben interpretarse
con cautela.
Estándar 3.4
Estándar 3.5
Los examinandos deben recibir un trato compa-
rable durante la administración y el proceso de Los desarrolladores de la prueba deben especi-
calificación de la prueba. ficar y documentar disposiciones que se hayan
hecho para la administración de la prueba y los
Comentario: Los responsables de evaluar deben
procedimientos de calificación para eliminar
adherir a administración, calificación y protoco-
obstáculos irrelevantes del constructo para to-
los de seguridad de la prueba estandarizados de
dos los subgrupos relevantes en la población de
modo que los puntajes de la prueba reflejen los
examinandos.
constructos que se evalúan y no estén indebida-
mente influidos por idiosincrasias en el proceso Comentario: Los desarrolladores de la prueba de-
de evaluación. Los responsables de la administra- ben especificar cómo se minimizaron los obstá-
ción de la prueba deben mitigar la posibilidad de culos irrelevantes del constructo en el proceso de
predisposiciones personales que podrían afectar la desarrollo de la prueba para individuos de todos
administración de la prueba o la interpretación de los subgrupos relevantes en la población prevista
puntajes. de la prueba. Los desarrolladores y/o usuarios de
Las pruebas computarizadas y otras formas de la prueba también deben documentar cualquier
evaluación basadas en tecnología suman cuestio- estudio llevado a cabo para examinar la confiabili-
nes extras para la estandarización en la adminis- dad/precisión de los puntajes y la validez de las in-
tración y calificación. Los individuos examinados terpretaciones de los evaluadores para subgrupos
72
73
Comentario: Cuando los tamaños de la muestra puntajes del constructo para individuos de algu-
son suficientes, la predicción diferencial suele exa- nos subgrupos.
minarse utilizando análisis de regresión. Un enfo- Para la calificación realizada por seres huma-
que al análisis de regresión examina las diferencias nos, los procedimientos de calificación deben
de pendiente e intersección entre dos grupos de diseñarse con la intención de que los puntajes
destino (p. ej., muestras de negros y blancos), reflejen la situación del individuo examinado en
mientras que otro examina las desviaciones sis- relación con los constructos evaluados y no estén
temáticas de una línea de regresión común para influenciados por las percepciones y predisposi-
los grupos de interés. Ambos enfoques pueden ciones personales de los evaluadores. Es esencial
tener en cuenta la posibilidad de sesgo predictivo que se realice y supervise la capacitación y cali-
y/o diferencias en heterogeneidad entre grupos y bración adecuadas de los evaluadores en todo el
proporcionar información valiosa para el examen proceso de calificación para respaldar la cohe-
de predicciones diferenciales. Por el contrario, los rencia de calificaciones de los evaluadores para
coeficientes de correlación proporcionan eviden- individuos de subgrupos relevantes. Cuando los
cia inadecuada a favor o en contra de una hipó- tamaños de la muestra lo permitan, la precisión
tesis de predicción diferencial si se determina que y exactitud de puntajes para subgrupos relevantes
los grupos tienen medias y varianzas desiguales en también debería calcularse.
la prueba y en el criterio. Es particularmente im- Se pueden usar algoritmos de puntaje au-
portante en el contexto de evaluación para fines tomático para calificar respuestas construidas
de alto riesgo que los desarrolladores y/o usuarios complejas, como ensayos, ya sea como único
de la prueba examinen la predicción diferencial y determinador del puntaje o en conjunto con un
eviten el uso de coeficientes de correlación en si- puntaje proporcionado por un evaluador hu-
tuaciones en las que los grupos o tratos den lugar mano. Los algoritmos de calificación deben revi-
a medias o varianzas desiguales en la prueba y el sarse para detectar posibles fuentes de sesgo. La
criterio. precisión de puntajes y validez de interpretaciones
de puntajes resultantes de puntajes automáticos
deben evaluarse para todos los subgrupos relevan-
Estándar 3.8 tes de la población prevista.
Cuando las pruebas requieran la calificación de
respuestas construidas, los desarrolladores y/o Unidad 3. Adecuaciones para
usuarios de la prueba deben reunir y reportar
eliminar obstáculos irrelevantes
evidencia de la validez de las interpretaciones de
puntajes para subgrupos relevantes en la pobla- del constructo y respaldar
ción prevista de examinandos para los usos pre- interpretaciones válidas de puntajes
vistos de los puntajes de la prueba.
para sus usos previstos
Comentario: Las diferencias de los subgrupos en
las respuestas de los individuos examinados y/o Estándar 3.9
las expectativas y percepciones de los evaluadores
pueden introducir varianza irrelevante de cons- Los desarrolladores de la prueba y/o los usuarios
tructo en los puntajes de pruebas de respuestas de la prueba son responsables de desarrollar y
construidas. Estas, a su vez, podrían afectar seria- proporcionar adecuaciones de la prueba, cuando
mente la confiabilidad/precisión, validez y com- corresponda y sea viable, para eliminar obstácu-
parabilidad de las interpretaciones de los puntajes los irrelevantes del constructo que de otro modo
para los usos previstos para algunos individuos. interferirían con la capacidad de los individuos
Diferentes métodos de calificación podrían in- examinados de demostrar su situación respecto
fluir de manera diferencial en la representación de de los constructos de destino.
74
75
76
adaptación involucra no solo traducir el idioma requiere una consideración atenta del contexto y
de la prueba de modo que sea adecuado para el la finalidad de la evaluación. Excepto en casos en
subgrupo que realiza la prueba, sino también los que la finalidad de la evaluación sea determi-
abordar cualquier característica del subgrupo nar el nivel de competencia de los examinandos
lingüística o cultural irrelevante del constructo en un idioma en particular, los examinandos de-
que pueda interferir con la medición de los cons- ben evaluarse en el idioma en el que tienen mayor
tructos previstos. Cuando versiones en múltiples competencia. En algunos casos, el idioma en el
idiomas de una prueba tienen por objeto propor- que los examinandos tienen mayor competencia
cionar puntajes comparables, los desarrolladores en general puede no ser el idioma en el que reci-
de la prueba deben describir en detalle los méto- bieron instrucción o capacitación en relación con
dos utilizados para la traducción y la adaptación los constructos evaluados, y en estos casos es posi-
de la prueba y deben reportar evidencia de la va- ble que se sea apropiado administrar la prueba en
lidez de los puntajes de la prueba pertinente a los el idioma de instrucción.
grupos lingüísticos y culturales para los que está Debe emplearse el juicio profesional para de-
prevista la prueba y pertinente a los usos previstos terminar los procedimientos más apropiados para
de los puntajes. La evidencia de validación puede establecer las competencias en idioma relativas.
incluir estudios empíricos y/o juicio profesional Esos procedimientos pueden variar desde autoi-
que documente que las versiones en diferentes dentificación por parte de los individuos exami-
idiomas miden constructos comparables o simi- nados hasta pruebas formales de competencia en
lares y que las interpretaciones de los puntajes de idioma. La sensibilidad a características lingüísti-
las dos versiones tienen validez comparable para cas y culturales puede requerir el uso exclusivo de
sus usos previstos. Por ejemplo, si una prueba se un idioma en la evaluación o el uso de múltiples
traduce y adapta al español para usarse con po- idiomas para minimizar la introducción de com-
blaciones centroamericanas, cubanas, mexicanas, ponentes irrelevantes del constructo en el proceso
portorriqueñas, sudamericanas y españolas, la va- de medición.
lidez de las interpretaciones de los puntajes de la La determinación del idioma en el que el
prueba para usos específicos debe evaluarse con examinando tiene mayor competencia para la ad-
miembros de cada uno de estos grupos por sepa- ministración de la prueba no garantiza automáti-
rado, cuando sea viable. Cuando los tamaños de camente la validez de las inferencias de puntajes
la muestra lo permitan, debe proporcionarse evi- para el uso previsto. Por ejemplo, los individuos
dencia de la exactitud y precisión de los puntajes pueden tener mayor competencia en un idioma
para cada grupo, y las propiedades de la prueba que en otro, pero no ser necesariamente com-
para cada grupo deben incluirse en los manuales petentes desde el punto de vista del desarrollo
de la prueba. en cualquiera de los dos; las desconexiones en-
tre el idioma de adquisición del constructo y el
de la evaluación también pueden comprometer
Estándar 3.13 la interpretación apropiada de los puntajes del
examinando.
Una prueba debe administrarse en el idioma que
sea más relevante y apropiado para la finalidad
de la prueba. Estándar 3.14
Comentario: Los usuarios de la prueba deben Cuando la prueba requiere el uso de un intér-
tener en cuenta las características lingüísticas y prete, el intérprete debe seguir procedimientos
culturales y las competencias en idioma relativas estandarizados y, en la medida en que sea via-
de los individuos examinados que son bilingües ble, tener un nivel suficientemente bueno en
o utilizan varios idiomas. Identificar el o los idio- el idioma y contenido de la prueba y la lengua
mas más apropiados para la evaluación también nativa y la cultura del individuo examinado
77
para traducir la prueba y los materiales de eva- deben seleccionarse los intérpretes y su rol en la
luación relacionados y explicar las respuestas de administración.
la prueba del individuo examinado, según sea
necesario.
Unidad 4. Protecciones contra
Comentario: Si bien los individuos con com- interpretaciones inapropiadas de los
petencia limitada en el idioma de la prueba (in- puntajes para los usos previstos
cluyendo individuos sordos y con dificultades
auditivas cuya lengua nativa puede ser la lengua
de señas) idealmente deben ser evaluados por Estándar 3.15
examinadores bilingües/biculturales profesional- Los desarrolladores y editores de la prueba que
mente capacitados, el uso de un intérprete puede afirman que una prueba puede ser usada con in-
ser necesario en algunas situaciones. Si se requiere dividuos examinados de subgrupos específicos
un intérprete, el usuario de la prueba es respon- son responsables de proporcionar la información
sable de seleccionar un intérprete con cualifica- necesaria para respaldar interpretaciones apro-
ciones, experiencia y preparación razonables para piadas de puntajes de la prueba para sus usos
ayudar apropiadamente en la administración de
previstos para individuos de estos subgrupos.
la prueba. Al igual que con otros aspectos de la
evaluación estandarizada, los procedimientos para Comentario: Los desarrolladores de la prueba
administrar una prueba cuando se utiliza un in- deben incluir en los manuales de la prueba e ins-
térprete deben estandarizarse y documentarse. Es trucciones para la interpretación de puntajes de-
necesario que el intérprete comprenda la impor- claraciones explícitas sobre la aplicabilidad de la
tancia de seguir procedimientos estandarizados prueba para subgrupos relevantes. Los desarrolla-
para esta prueba, la importancia de transmitir dores de la prueba deben proporcionar evidencia
exactamente al examinador las respuestas reales de de la aplicabilidad de la prueba para subgrupos
un individuo examinado, y el rol y las responsa- relevantes y hacer advertencias explícitas contra
bilidades del intérprete en la evaluación. Cuando usos indebidos previsibles (basadas en experiencia
la traducción de términos técnicos sea importante previa u otras fuentes relevantes como bibliografía
para evaluar con exactitud el constructo, el intér- de investigación) de los resultados de la prueba.
prete debe estar familiarizado con el significado
de estos términos y los vocabularios correspon-
dientes en los idiomas respectivos. Estándar 3.16
A menos que la prueba se haya estandarizado
Cuando investigación creíble indique que los
y normalizado con el uso de intérpretes, su uso
puntajes de la prueba para algunos subgrupos
puede necesitar ser visto como una alteración que
relevantes se ven diferencialmente afectados
podría cambiar la medición del constructo pre-
por características irrelevantes del constructo
visto, en particular debido a la introducción de
de la prueba o de los individuos examinados,
un tercero durante la evaluación, así como la mo-
cuando sea legalmente aceptable, los usuarios
dificación del protocolo estandarizado. Las dife-
de la prueba deben utilizar la prueba solo para
rencias en el significado, familiaridad, frecuencia,
esos subgrupos para los que existe evidencia sufi-
connotaciones y asociaciones de las palabras ha-
ciente de validez para respaldar las interpretacio-
cen que sea difícil comparar directamente punta-
nes de los puntajes para los usos previstos.
jes de cualquier traducción no estandarizada con
las normas de la lengua inglesa. Comentario: Una prueba no puede medir los
Cuando es probable que la prueba requiera el mismos constructos para individuos de diferen-
uso de intérpretes, el desarrollador de la prueba tes subgrupos relevantes porque diferentes carac-
debe proporcionar orientación clara sobre cómo terísticas del contenido o formato de la prueba
78
influyen en los puntajes de los examinandos de un en cuanto a raza/origen étnico, individuos con
subgrupo a otro. Cualquiera de esas diferencias diferentes orientaciones sexuales, individuos con
puede favorecer o desfavorecer involuntariamente características lingüísticas y culturales diversas,
a individuos de estos subgrupos. La decisión en individuos con discapacidades, niños pequeños
cuanto usar una prueba con cualquier subgrupo o adultos mayores— los usuarios de la prueba
relevante dado involucra necesariamente un aná- son responsables de proporcionar evidencia de
lisis detenido de la evidencia de validación para el comparabilidad y de incluir declaraciones de
subgrupo, como se requiere en el Estándar 1.4. advertencia cuando la investigación creíble o la
La decisión también requiere consideración de teoría indique que es posible que los puntajes
los requisitos legales aplicables y el ejercicio de de la prueba no tengan significado comparable
juicio profesional profundo respecto de la signi- entre estos subgrupos.
ficación de cualquier componente irrelevante del
constructo. En los casos en que existe evidencia Comentario: Reportar puntajes para subgrupos
creíble de validez diferencial, los desarrolladores relevantes se justifica solo si los puntajes tienen
deben proporcionar orientación clara al usuario significado comparable entre estos grupos y existe
de la prueba sobre cuándo y si las interpretacio- un tamaño de la muestra suficiente por grupo
nes válidas de los puntajes para sus usos previstos para proteger la identidad individual y justificar
pueden o no pueden extraerse para individuos de la agregación. Este estándar tiene por objeto ser
estos subgrupos. aplicable a contextos en los que los puntajes se
Es posible que existan ocasiones en que los presenten implícita o explícitamente como com-
individuos examinados soliciten o exijan que parables en significado entre subgrupos. Se debe
se tome una versión de la prueba distinta de la tener la precaución de que los términos utilizados
considerada más apropiada por el desarrollador o para describir subgrupos reportados se definan
usuario. Por ejemplo, un individuo con una dis- claramente, de conformidad con el uso común, y
capacidad puede rechazar un formato alterado y sean comprendidos claramente por quienes inter-
solicitar el formulario estándar. Acceder a tales so- pretan los puntajes de la prueba.
licitudes, después de informar completamente al La terminología para describir subgrupos es-
individuo examinado sobre las características de la pecíficos para los que pueden y no pueden ex-
prueba, las adecuaciones que están disponibles, y traerse inferencias válidas de puntajes de la prueba
cómo se utilizarán los puntajes de la prueba, no es debe ser lo más precisa posible, y las categorías
una violación de este estándar y en algunos casos deben ser coherentes con los usos previstos de los
puede ser requerido por ley. resultados. Por ejemplo, los términos latino o his-
En algunos casos, como cuando una prueba pano pueden ser ambiguos si no se definen espe-
distribuirá beneficios o cargas (como reunir re- cíficamente, en el sentido de que pueden denotar
quisitos para una clase para estudiantes sobresa- individuos de origen cubano, mexicano, porto-
lientes o la denegación de una promoción en un rriqueño, sudamericano o centroamericano o de
empleo), la ley puede limitar la medida en que otra cultura hispana, independientemente de la
un usuario de la prueba puede evaluar a algunos raza/origen étnico, y pueden combinar a quienes
grupos conforme a la prueba y a otros grupos con- son inmigrantes recientes con quienes son nati-
forme a una prueba diferente. vos nacidos en EE. UU., quienes pueden no ser
competentes en inglés, y quienes son de un nivel
Estándar 3.17 socioeconómico diverso. De manera similar, el
término “individuos con discapacidades” abarca
Cuando se informen públicamente puntajes una amplia variedad de afecciones y características
agregados para subgrupos relevantes —por ejem- de antecedentes específicas. Incluso las referencias
plo, hombres y mujeres, individuos de diferente a categorías específicas de individuos con discapa-
nivel socioeconómico, individuos que difieren cidades, como problemas auditivos, deben estar
79
acompañadas de una explicación del significado como variación cultural) por lo general deberán
del término y una indicación de la variabilidad de evaluarse. Los usuarios de la prueba son respon-
individuos dentro del grupo. sables de interpretar puntajes individuales a la luz
de explicaciones alternativas y/o variables indivi-
duales relevantes observadas en el manual de la
Estándar 3.18 prueba.
En la evaluación de individuos para fines de diag-
nóstico y/o colocación en un programa especial, Estándar 3.19
los usuarios de la prueba no deben usar puntajes
de la prueba como los únicos indicadores para En contextos en los que la misma autoridad es
caracterizar el funcionamiento, la competencia, responsable tanto de la provisión del plan de es-
las actitudes y/o las predisposiciones de un in- tudios como de las decisiones de alto riesgo ba-
dividuo. En cambio, deben utilizarse múltiples sadas en la evaluación del dominio del plan de
fuentes de información, deben considerarse ex- estudios por parte de los individuos examinados,
plicaciones alternativas para el desempeño en la estos últimos no deberían sufrir consecuencias
prueba, y el juicio profesional de alguien familia- negativas permanentes si la evidencia indica que
rizado con la prueba debe aplicarse a la decisión. no han tenido la oportunidad de aprender el
contenido de la prueba.
Comentario: Muchos manuales de prueba se-
ñalan variables que deberían considerarse en Comentario: En contextos educativos, la oportu-
la interpretación de los puntajes de la prueba, nidad de los estudiantes de aprender el contenido
como antecedentes clínicamente relevantes, me- y las habilidades evaluadas por una prueba de ren-
dicamentos, registro escolar, estado vocacional dimiento puede afectar seriamente su desempeño
y motivación del examinando. Las influencias en la prueba y la validez de las interpretaciones
asociadas con variables tales como edad, cultura, de los puntajes de la prueba para el uso previsto
discapacidad, género y características lingüísticas para las decisiones individuales de alto riesgo. Si
o raciales/étnicas también pueden ser relevantes. no hay una correspondencia apropiada entre el
La oportunidad de aprendizaje es otra varia- contenido del plan de estudios y la instrucción y
ble que puede ser necesario tener en cuenta en el de los constructos evaluados para algunos estu-
los contextos educativos y/o clínicos. Por ejem- diantes, no se puede esperar que esos estudiantes
plo, si inmigrantes recientes que se evalúan en un salgan bien en la prueba y pueden ser desfavore-
inventario de personalidad o una medida de capa- cidos injustamente por decisiones individuales de
cidad tienen escasa exposición previa a la escuela, alto riesgo, como la denegación de la graduación
es posible que no hayan tenido la oportunidad de la escuela secundaria, que se toman sobre la
de aprender conceptos que la prueba supone son base de los resultados de la prueba. Cuando una
conocimientos comunes o experiencias comunes, autoridad, como un estado o distrito, es respon-
incluso si la prueba es administrada en la lengua sable de indicar y/o impartir el plan de estudios y
nativa. No tener en cuenta la oportunidad pre- la instrucción, no debe penalizar a los individuos
via de aprendizaje puede conducir a diagnósticos por el desempeño en la prueba en cuanto al con-
equivocados, colocaciones y/o servicios inapro- tenido que la autoridad no proporcionó.
piados y consecuencias negativas imprevistas. Obsérvese que este estándar no es aplicable en
Las inferencias sobre la competencia general situaciones en las que diferentes autoridades son
en idioma de los examinandos deben basarse en responsables del plan de estudios, la evaluación
pruebas que midan una serie de características del y/o la interpretación y el uso de resultados. Por
idioma, no una sola habilidad lingüística. Una va- ejemplo, la oportunidad de aprendizaje puede es-
riedad más completa de capacidades comunicati- capar al conocimiento o control de los usuarios
vas (p. ej., conocimiento de palabras, sintaxis, así de la prueba, y es posible que no influya en la
80
validez de las interpretaciones de la prueba como que influye en la elección entre una prueba u
las predicciones de desempeño futuro. otra. Sin embargo, otros factores, como costo,
tiempo de evaluación, seguridad de la prueba y
cuestiones logísticas (p. ej., la necesidad de cri-
Estándar 3.20 bar cantidades muy grandes de individuos exa-
minados en muy poco tiempo), también deben
Cuando un constructo puede medirse de diferen-
ser parte de los juicios profesionales sobre la se-
tes maneras que son iguales en su grado de repre-
lección y uso de la prueba. Si los puntajes de dos
sentación del constructo y validez (incluyendo la
pruebas conducen a interpretaciones igualmente
ausencia de varianza irrelevante de constructo),
válidas e imponen costos y otras cargas simila-
los usuarios de la prueba deben considerar, en-
res, las consideraciones legales pueden requerir
tre otros factores, evidencia de diferencias de los
seleccionar la prueba que minimice las diferen-
subgrupos en los puntajes medios o en porcen-
cias de subgrupos. Debe establecerse la articula-
tajes de individuos examinados cuyos puntajes
ción clara de cada interpretación prevista de los
excedan los puntajes de corte, en la decisión de
puntajes de la prueba para un uso especificado,
qué puntajes de prueba y/o de corte usar.
y debe proporcionarse evidencia de validación
Comentario: La evidencia de desempeño dife- apropiada que respalde cada interpretación
rencial de los subgrupos es un factor importante prevista.
81
Operaciones
85
ensayo y evaluación de los ítems; (c) reunión y Declaración de finalidad y usos previstos
evaluación de nuevos formularios de la prueba; y El proceso de desarrollar pruebas educativas y
(d) desarrollo de procedimientos y materiales para psicológicas debe comenzar con una declaración
administración y calificación. Lo que sigue es una de la(s) finalidad(es) de la prueba, los usuarios
descripción de los procedimientos de desarrollo y usos previstos, el constructo o dominio de
típicos de la prueba, aunque puede haber motivos contenido sometido a medición, y la población
sólidos por los que algunos pasos cubiertos en la prevista de individuos examinados. Las pruebas
descripción se sigan en algunos contextos y no en del mismo constructo o dominio pueden dife-
otros. rir de maneras importantes porque factores tales
como finalidad, usos previstos y población de
Especificaciones de la prueba individuos examinados pueden variar. Además,
las pruebas previstas para diversas poblaciones
Consideraciones generales de individuos examinados deben ser desarrolla-
En casi todos los casos, el desarrollo de la prueba das para minimizar los factores irrelevantes del
está guiado por un conjunto de especificaciones constructo que puedan deprimir o inflar injus-
de la prueba. La naturaleza de estas especifica- tamente el desempeño de algunos individuos
ciones y el modo en que se crean pueden variar examinados. En muchos casos, es posible que
ampliamente como una función de la naturaleza deban especificarse adecuaciones y/o versiones
de la prueba y sus usos previstos. El término espe- alternativas de las pruebas para eliminar obstácu-
cificaciones de la prueba a veces se limita a la des- los irrelevantes al desempeño para subgrupos en
cripción del contenido y formato de la prueba. En particular en la población prevista de individuos
los Estándares, las especificaciones de la prueba se examinados.
definen en líneas más generales para incluir tam- La especificación de los usos previstos in-
bién documentación de la finalidad y los usos pre- cluirá una indicación de que las interpretaciones
vistos de la prueba, así como decisiones detalladas de los puntajes de la prueba son principalmente
sobre contenido, formato, extensión de la prueba, conformes a normas o conformes a criterios.
características psicométricas de los ítems y de la Cuando los puntajes son conformes a normas,
prueba, modo de ejecución, administración, cali- las interpretaciones de puntajes relativas son de
ficación, y reporte de puntajes. principal interés. Un puntaje para un individuo
La responsabilidad del desarrollo de especifi- o para un grupo definible se clasifica dentro de
caciones de la prueba también varía ampliamente una distribución de puntajes o se compara con
entre los programas de evaluación. En la mayoría el desempeño promedio de examinandos en una
de las pruebas comerciales, las especificaciones de población de referencia (p. ej., basada en edad,
la prueba son creadas por el desarrollador de la grado, categoría de diagnóstico o clasificación del
prueba. En otros contextos, como las pruebas uti- trabajo). Cuando las interpretaciones son confor-
lizadas en rendición de cuentas en materia educa- mes a criterios, las interpretaciones de puntajes
tiva, muchos aspectos de las especificaciones de la absolutas son de principal interés. El significado
prueba se establecen a través del proceso de polí- de dichos puntajes no depende de la informa-
tica pública. Como se analizó en la introducción, ción de clasificación. En cambio, el puntaje de
el término genérico desarrollador de la prueba se la prueba transmite directamente un nivel de
utiliza en este capítulo con preferencia respecto competencia en algún dominio de criterios de-
de otros términos, como editor de la prueba, finido. Tanto las interpretaciones relativas como
para cubrir tanto a los responsables del desarrollo absolutas suelen utilizarse con una prueba dada,
como a los responsables de la implementación de pero el desarrollador de la prueba determina qué
las especificaciones de la prueba en una amplia enfoque es el más relevante para los usos específi-
variedad de procesos de desarrollo de la prueba. cos de la prueba.
86
87
examinados previstos, en la máxima medida posi- Las evaluaciones de desempeño requieren que los
ble, es fundamental. Los formatos que pueden no examinandos lleven a cabo un proceso tal como
ser conocidos para algunos grupos de examinandos tocar un instrumento musical o afinar el motor
o que presentan exigencias inapropiadas deben evi- de un auto o crear un producto como un ensayo
tarse. Los principios del diseño universal describen escrito. Una evaluación de un psicólogo clínico en
el uso de formatos de prueba que permiten tomar capacitación puede requerir que el examinando
pruebas sin adaptación a la variedad más amplia entreviste a un cliente, elija pruebas apropiadas,
posible de individuos, pero no necesariamente eli- llegue a un diagnóstico y planifique la terapia.
minan la necesidad de adaptaciones. Las especifi- Debido a que las evaluaciones de desempeño
caciones de formato deben incluir la consideración habitualmente consisten en una pequeña cantidad
de formatos alternativos que también podrían ser de tareas, establecer el grado en que los resultados
necesarios para eliminar obstáculos irrelevantes al pueden generalizarse a un dominio más amplio
desempeño, como letra grande o formato braille descripto en las especificaciones de la prueba es es-
para individuos examinados que tienen problemas pecialmente importante. Las especificaciones de la
de la vista o, cuando corresponda al constructo so- prueba deben indicar dimensiones críticas a medir
metido a medición, diccionarios bilingües para exa- (p. ej., habilidades y conocimiento, procesos cog-
minandos que son más competentes en un idioma nitivos, contexto para realizar las tareas) de modo
que no es el idioma de la prueba. La cantidad y ti- que las tareas seleccionadas para la evaluación re-
pos de adaptaciones a especificarse dependen tanto presenten sistemáticamente las dimensiones críti-
de la naturaleza del constructo que se evalúa como cas, lo que conduce a una cobertura integral del
de la población de destino de examinandos. dominio, así como cobertura coherente entre los
formularios de prueba. La especificación del do-
Formatos de ítems complejos. Algunos progra- minio a cubrir es también importante para aclarar
mas de evaluación emplean formatos de ítems fuentes posiblemente irrelevantes de variación en
más complejos. Los ejemplos incluyen evalua- el desempeño. Además, tanto la evidencia teó-
ciones de desempeño, simulaciones y porfolios. rica como la empírica son importantes para do-
Las especificaciones para formatos de ítems más cumentan la medida en que las evaluaciones de
complejos deben describir el dominio del que se desempeño —tareas como así también criterios de
toman muestras de ítems o tareas, componentes calificación— reflejan los procesos o habilidades
del dominio que se evaluará mediante las tareas que son especificados por la definición del do-
o ítems, y características críticas de los ítems que minio. Cuando las tareas se diseñan para suscitar
deberían replicarse en la creación de ítems para procesos cognitivos complejos, los análisis detalla-
formularios alternativos. Consideraciones espe- dos de las tareas y criterios de calificación y análisis
ciales para formatos de ítems complejos se des- tanto teóricos como empíricos de los desempeños
criben en el siguiente análisis de evaluaciones de de los examinandos en las tareas proporcionan la
desempeño, simulaciones y porfolios. evidencia de validación necesaria.
88
por las tareas, dimensiones críticas de desempeño selección de su trabajo y productos que demues-
a reflejarse en cada tarea, y consideraciones de for- tren sus competencias para fines de promoción.
mato específicas como la cantidad o duración de De manera análoga, en aplicaciones educativas,
las tareas y aspectos esenciales de cómo interactúa los estudiantes pueden participar en la selección
el usuario con las tareas. Las especificaciones de- de parte de su trabajo y los productos a incluir en
ben ser suficientes para permitir que los expertos sus porfolios.
juzguen la comparabilidad de diferentes conjun- Las especificaciones en cuanto a cómo se ca-
tos de tareas de simulación incluidas en formula- lifican los porfolios y quién los califica variarán
rios alternativos. como una función del uso de los puntajes del
porfolio. La evaluación centralizada de porfolios
Porfolios. Los porfolios son recopilaciones sis- es común cuando estos se utilizan en decisiones
temáticas de productos educativos o de trabajo, de alto riesgo. Cuanto más estandarizados sean
por lo general reunidos a lo largo del tiempo. El los contenidos y procedimientos para recopilar
diseño de una evaluación de porfolio, al igual y calificar el material, más comparables serán los
que el de otros procedimientos de evaluación, puntajes de los porfolios resultantes. Indepen-
debe surgir de la finalidad de la evaluación. Las dientemente de los métodos usados, todas las eva-
finalidades típicas incluyen juzgar la mejora en el luaciones de desempeño, simulaciones y porfolios
desempeño laboral o educativo y la evaluación de se evalúan según los mismos estándares de calidad
la elegibilidad para un empleo, promoción o gra- técnica que de otras formas de pruebas.
duación. Las especificaciones del porfolio indican
la naturaleza del trabajo que ha de incluirse en el Extensión de la prueba
porfolio. El porfolio puede incluir entradas tales Los desarrolladores de la prueba con frecuencia
como productos representativos, el mejor trabajo siguen proyectos básicos de prueba que especifican
del examinando, o indicadores de progreso. Por la cantidad de ítems para cada área de contenido
ejemplo, en un contexto laboral que involucra que se incluirá en cada formulario de prueba. Las
decisiones de promoción, se puede instruir a los especificaciones para la extensión de la prueba de-
empleados para que incluyan sus mejores produc- ben equilibrar los requisitos de tiempo de evalua-
tos o trabajo. Alternativamente, si la finalidad es ción con la precisión de los puntajes resultantes;
juzgar el crecimiento educativo de los estudiantes, las pruebas más largas generalmente conducen a
se puede pedir a los estudiantes que proporcionen puntajes más precisos. Los desarrolladores de la
evidencia de mejora con respecto a competencias prueba con frecuencia siguen proyectos básicos
o habilidades en particular. También se puede de prueba que proporcionan orientación sobre la
pedir a los estudiantes que proporcionen justifi- cantidad o porcentaje de ítems para cada área de
caciones para sus elecciones o una nota de presen- contenido y que también pueden incluir la especi-
tación que refleje el trabajo presentado y lo que el ficación de la distribución de ítems por requisitos
estudiante ha aprendido de ello. Otros métodos cognitivos o por formato de ítem. Las especifica-
pueden requerir el uso de videos, exhibiciones o ciones de extensión y del proyecto básico de la
demostraciones. prueba suelen actualizarse en función de datos
Las especificaciones para el porfolio indican de ensayos sobre requisitos de tiempo, cobertura
quién es responsable de seleccionar sus conteni- de contenido y precisión de puntajes. Cuando
dos. Por ejemplo, las especificaciones deben in- las pruebas se administran en forma adaptable,
dicar si el examinando, el examinador o ambas la extensión de la prueba (la cantidad de ítems
partes que trabajan juntas deben involucrarse en administrados a cada individuo examinado) es
la selección de los contenidos del porfolio. Las determinada por reglas de espera, que pueden
responsabilidades particulares de cada parte se basarse en una cantidad fija de preguntas de la
delinean en las especificaciones. En contextos la- prueba o pueden basarse en un nivel deseado de
borales, los empleados pueden involucrarse en la precisión de puntajes.
89
90
deben indicar el formulario del modelo, cómo a medición. En esos casos, los ítems se seleccionan
han de estimarse los parámetros del modelo y principalmente sobre la base de su relación empí-
cómo ha de evaluarse el ajuste del modelo. rica con un criterio externo, sus relaciones entre
sí, o el grado en que discriminan entre grupos de
Especificaciones de la administración individuos. Por ejemplo, ítems para una prueba
de la prueba para personal de ventas podrían seleccionarse
Las especificaciones de administración de la sobre la base de las correlaciones de puntajes de
prueba describen cómo tiene que administrarse ítems con medidas de productividad del personal
la prueba. Los procedimientos de administra- de ventas actual. De manera similar, un inventa-
ción incluyen el modo de ejecución de la prueba rio para ayudar a identificar diferentes patrones
(p. ej., papel y lápiz o basada en computadora), de psicopatología podría desarrollarse utilizando
límites de tiempo, procedimientos de adecuación, pacientes de diferentes subgrupos de diagnóstico.
instrucciones y materiales provistos a los exami- Cuando el desarrollo de la prueba se basa en un
nadores e individuos examinados y procedimien- enfoque basado en datos, es probable que algunos
tos para supervisar la ejecución de la prueba y ítems se seleccionen sobre la base de ocurrencias
garantizar la seguridad de la prueba. Para pruebas al azar en los datos. Los estudios de validación
administradas por computadora, las especifica- cruzada se realizan habitualmente para determi-
ciones de administración también incluirán una nar la tendencia a seleccionar ítems al azar, lo cual
descripción de cualquier requisito de hardware o involucra administrar la prueba a una muestra
software, incluyendo consideraciones de conecti- comparable que no estuvo involucrada en el es-
vidad para pruebas basadas en Internet. fuerzo de desarrollo de la prueba original.
En otras aplicaciones de evaluación, no obs-
Perfeccionamiento de las especificaciones tante, las especificaciones de la prueba se fijan
de la prueba con antelación y orientan el desarrollo de ítems
A menudo existe una sutil interacción entre el y procedimientos de calificación. Las relaciones
proceso de conceptualizar un constructo o domi- empíricas pueden entonces utilizarse para infor-
nio de contenido y el desarrollo de una prueba mar decisiones sobre conservar, rechazar o mo-
de ese constructo o dominio. Las especificaciones dificar ítems. Las interpretaciones de puntajes de
para la prueba proporcionan una descripción de las pruebas desarrolladas mediante este proceso
cómo se representará el constructo o dominio y tienen la ventaja de un fundamento teórico y uno
es posible que deban perfeccionarse a medida que empírico para las dimensiones subyacentes repre-
avanza el desarrollo. Los procedimientos utiliza- sentadas por la prueba.
dos para desarrollar ítems y rúbricas de puntajes y
para examinar las características de los ítems y la Consideraciones para pruebas adaptables
prueba a menudo pueden contribuir a aclarar las En las pruebas adaptables, los ítems o conjuntos
especificaciones. La medida en que el constructo de ítems de la prueba se seleccionan a medida
se define completamente a priori depende de la que se administra la prueba sobre la base de las
aplicación de la evaluación. En muchas aplicacio- respuestas del examinando a ítems anteriores. La
nes de evaluación, las especificaciones de la prueba especificación de los algoritmos de selección de
bien definidas y detalladas orientan el desarrollo ítems puede involucrar la consideración de cober-
de ítems y sus rúbricas de puntajes y procedi- tura de contenido como así también el aumento de
mientos asociados. En algunas áreas de medición la precisión de la estimación de puntajes. Cuando
psicológica, el desarrollo de la prueba puede ser varios ítems están relacionados a un solo pasaje
menos dependiente de un marco definido a priori o tarea, se necesitan algoritmos más complejos
y puede depender más de un enfoque basado en para seleccionar el siguiente pasaje o tarea. En al-
datos que da por resultado una definición deri- gunos casos, se desarrolla una cantidad mayor de
vada en forma empírica del constructo sometido ítems para cada pasaje o tarea y el algoritmo de
91
selección elige ítems específicos para administrar ítems desarrollados para usar en pruebas adap-
basados en consideraciones de contenido y preci- tables deben examinarse para detectar posibles
sión. Las especificaciones también deben indicar efectos de contexto para evaluar cuánto podrían
si se debe administrar una cantidad fija de ítems o cambiar los parámetros de los ítems cuando
si la prueba debe continuar hasta que se cumplan los ítems se administran en órdenes diferentes.
los criterios de precisión o cobertura de contenido. Además, si los ítems se asocian con un pasaje o
El uso de pruebas adaptables y de modelos de estímulo común, el desarrollo debe estar infor-
pruebas basadas en computadora también invo- mado por una comprensión de cómo funcionará
lucra consideraciones especiales relacionadas con la selección de ítems. Por ejemplo, el enfoque
desarrollo de ítems. Cuando un conjunto de ítems para desarrollar ítems asociados con un pasaje
operativos se desarrolla para una prueba adaptable puede diferir dependiendo de que el algoritmo
computarizada, las especificaciones se refieren tanto de selección de ítems seleccione todos los ítems
al conjunto de ítems como a las reglas o procedi- disponibles relacionados con el pasaje o pueda
mientos por los cuales se selecciona un conjunto de elegir subconjuntos de los ítems disponibles re-
ítems individualizado para cada examinando. Al- lacionados con el pasaje. Debido a los problemas
gunas de las características atractivas de las pruebas que surgen cuando los ítems o tareas están ani-
adaptables computarizadas, como crear a medida dados dentro de pasajes o estímulos en común, a
el nivel de dificultad de los ítems de acuerdo con menudo se consideran variaciones de las pruebas
la capacidad del examinando, colocan restricciones adaptables. Por ejemplo, la evaluación de múlti-
adicionales sobre el diseño de dichas pruebas. En la ples etapas comienza con una serie de ítems de
mayoría de los casos, se necesitan grandes cantida- direccionamiento. Una vez que estos se dan y se
des de ítems para construir una prueba adaptable califican, la computadora hace una ramificación
computarizada para garantizar que el conjunto de a grupos de ítems que están explícitamente desti-
ítems administrado a cada examinando cumpla nados a niveles de dificultad apropiados, basados
todos los requisitos de las especificaciones de la en la evaluación del desempeño observado de los
prueba. Además, a menudo se desarrollan pruebas individuos examinados en los ítems de direccio-
en el contexto de sistemas o programas de mayor namiento. En general, los requisitos especiales de
tamaño. Se pueden crear múltiples conjuntos de las pruebas adaptables exigen algún cambio en el
ítems, por ejemplo, para usar con diferentes gru- modo en que se desarrollan y prueban los ítems.
pos de examinandos o en diferentes fechas de eva- Si bien los principios de calidad fundamentales
luación. Las preocupaciones sobre la seguridad de del desarrollo de ítems no son diferentes, debe
la prueba se intensifican cuando la disponibilidad prestarse mayor atención a las interacciones entre
limitada de equipos hace que sea imposible eva- contenido, formato y dificultad de los ítems para
luar a todos los examinandos al mismo tiempo. lograr conjuntos de ítems que sean más adecuados
Una serie de cuestiones, incluyendo la seguridad a este enfoque de evaluación.
de la prueba, la complejidad de los requisitos de
cobertura de contenido, niveles de precisión de Sistemas que respaldan el desarrollo de ítems
puntajes requeridos, y si podría permitirse que los y pruebas
examinandos vuelvan a dar la prueba utilizando el La mayor dependencia de la tecnología y la ne-
mismo conjunto, deben considerarse al especificar cesidad de velocidad y eficiencia en el proceso de
el tamaño de los conjuntos de ítems asociados con desarrollo de pruebas requieren la consideración
cada formulario de la prueba adaptable. de los sistemas que respaldan el desarrollo de
El desarrollo de ítems para pruebas adapta- ítems y pruebas. Dichos sistemas pueden mejorar
bles por lo general requiere que se desarrolle una la buena práctica de desarrollo de ítems y pruebas
mayor proporción de ítems a niveles altos o ba- facilitando la creación y revisión de ítems/tareas,
jos de dificultad en relación con la población de proporcionando un banco de ítems y herramien-
la prueba de destino. Los datos de ensayos para tas automatizadas para asistir con el desarrollo de
92
formularios de prueba, e integrando información descripciones de tareas. Los revisores deben ser
estadística de ítems/tareas con texto y gráficos conocedores del contenido de la prueba y de los
de ítems/tareas. Estos sistemas pueden desarro- grupos de individuos examinados cubiertos por
llarse para cumplir con estándares y marcos de esta revisión.
interoperabilidad y accesibilidad que faciliten a A menudo, nuevos ítems de prueba se admi-
los usuarios de la prueba la transición de sus pro- nistran a un grupo de examinandos que son lo
gramas de evaluación de un desarrollador de la más representativos posible de la población de
prueba a otro. Si bien los aspectos específicos de destino para la prueba, y cuando es posible, que
las bases de datos de ítems y sistemas de respaldo representan adecuadamente a individuos de los
están fuera del alcance de los Estándares, el au- subgrupos previstos. Los ensayos de ítems ayudan
mento de disponibilidad de esos sistemas obliga a determinar algunas de las propiedades psico-
a los responsables de desarrollar esas pruebas a métricas de los ítems de prueba, como dificul-
considerar la aplicación de tecnología al diseño tad de un ítem y capacidad para distinguir entre
y desarrollo de pruebas. Los desarrolladores de examinandos de diferente situación respecto del
pruebas deben evaluar los costos y beneficios de constructo que se evalúa. Los programas de eva-
diferentes aplicaciones, considerando cuestiones luación continuos suelen hacer una prueba previa
tales como velocidad de desarrollo, transportabili- de los ítems insertándolos en pruebas operativas
dad entre plataformas de evaluación, y seguridad. existentes (los ítems de ensayo no contribuyen a
los puntajes que reciben los examinandos). Los
Desarrollo y revisión de ítems análisis de las respuestas a estos ítems de ensayo
proporcionan datos útiles para evaluar la calidad
El desarrollador de la prueba por lo general reúne y pertinencia antes del uso operativo.
un conjunto de ítems que consiste en más pre- Los análisis estadísticos de los datos de los
guntas o tareas que las necesarias para llenar el ensayos de ítems incluyen estudios de funciona-
formulario o los formularios de la prueba que miento diferencial de los ítems (véase el cap. 3,
se elaborarán. Esto permite al desarrollador de “Imparcialidad en las pruebas”). Se dice que existe
la prueba seleccionar un conjunto de ítems para funcionamiento diferencial de los ítems cuando
uno o más formularios de la prueba que cumplen examinandos de diferentes grupos (p. ej., grupos
las especificaciones de la prueba. La calidad de definidos por género, raza/origen étnico o edad)
los ítems suele determinarse a través de procedi- que tienen capacidad aproximadamente igual
mientos de revisión de ítems y ensayos de ítems, respecto del constructo de destino o dominio de
a menudo denominados evaluación previa. Los contenido difieren en sus respuestas a un ítem.
ítems se revisan en cuanto a calidad de conte- En teoría, la meta máxima de dichos estudios es
nido, claridad y aspectos de contenido irrelevan- identificar aspectos irrelevantes del constructo
tes del constructo que influyen en las respuestas del contenido del ítem, formato de ítems, o cri-
de los examinandos. En la mayoría de los casos, terios de calificación que pueden afectar en forma
la práctica acertada dicta que los ítems se revisen diferencial los puntajes de la prueba de uno o
en cuanto a sensibilidad y potencial de resultar más grupos de examinandos. Cuando se detecta
ofensivos que podrían introducir varianza irre- funcionamiento diferencial de los ítems, los de-
levante de constructo para individuos o grupos sarrolladores de la prueba intentan identificar ex-
de examinandos. Por lo general se intenta evitar plicaciones plausibles de las diferencias, y pueden
palabras y temas que puedan ofender o de otro luego reemplazar o revisar ítems para promover
modo molestar a examinandos, si material menos interpretaciones sólidas de puntajes para todos
ofensivo es igualmente útil (véase el cap. 3). Para los individuos examinados. Cuando los ítems
preguntas de respuestas construidas y tareas de se abandonan debido a un índice de funciona-
desempeño, el desarrollo incluye rúbricas de pun- miento diferencial de los ítems, el desarrollador
tajes específicas de ítems así como indicaciones o de la prueba debe tener cuidado de que ningún
93
94
para administradores de pruebas también deben que reutilizan ítems de prueba o formularios de
desarrollarse y probarse. Una consideración clave prueba, los procedimientos de seguridad deben
en el desarrollo de procedimientos y materiales incluir evaluación de cambios en las estadísticas
de administración de pruebas es que la adminis- de ítems para evaluar la posibilidad de una viola-
tración de la prueba debe ser imparcial para todos ción de seguridad. Los desarrolladores o usuarios
los individuos examinados. Esto significa que las de la prueba podrían considerar la supervisión de
instrucciones para dar la prueba deben ser claras y sitios web respecto de la posible divulgación del
que las condiciones de administración de la prueba contenido de la prueba.
deben ser estandarizadas para todos los individuos
examinados. También significa que deben conside- Revisiones de las pruebas
rarse con antelación las adecuaciones de la prueba
correspondientes para individuos examinados que Las pruebas y sus documentos de respaldo (p. ej.,
las necesiten, como se analiza en el capítulo 3. manuales de la prueba, manuales técnicos, guías
Para pruebas administradas por computadora, de usuario) deben revisarse periódicamente para
los procedimientos de administración deben ser determinar si se necesitan revisiones. Las revi-
coherentes con los requisitos de hardware y soft- siones o modificaciones son necesarias cuando
ware incluidos en las especificaciones de la prueba. nuevos datos de investigación, cambios significa-
Los requisitos de hardware pueden cubrir veloci- tivos en el dominio o nuevas condiciones del uso
dad y memoria del procesador; teclado, mouse u y la interpretación de la prueba sugieren que la
otros dispositivos de entrada de datos; tamaño del prueba ha dejado de ser óptima o completamente
monitor y resolución de pantalla; y conectividad apropiada para algunos de sus usos previstos. Por
a servidores locales o a Internet. Los requisitos de ejemplo, las pruebas se revisan si el contenido o
software cubren sistemas operativos, navegadores el lenguaje de la prueba se ha desactualizado y,
u otras herramientas comunes y disposiciones para por lo tanto, puede afectar posteriormente la va-
bloquear acceso a otro software o interferencia de lidez de las interpretaciones de los puntajes de la
este. Los individuos examinados que dan pruebas prueba. Sin embargo, las normas desactualizadas
administradas por computadora deben ser infor- pueden no tener las mismas implicaciones para
mados acerca de cómo responder a las preguntas, las revisiones que una prueba desactualizada. Por
cómo desplazarse por la prueba, si pueden saltar ejemplo, es posible que sea necesario actualizar
ítems, si pueden volver a ver ítems respondidos las normas para una prueba de rendimiento des-
previamente más adelante en el período de evalua- pués de un período de aumento o descenso del
ción, si pueden suspender la sesión de evaluación rendimiento en la población de normalización, o
para un tiempo más tarde, y otras exigencias que cuando hay cambios en la población que se so-
pueden ocurrir durante la evaluación. mete a la prueba, pero el contenido de la prueba
También deben implementarse procedi- propiamente dicho puede continuar siendo tan
mientos de seguridad de la prueba junto con la relevante como lo era cuando se desarrolló la
administración y la calificación de las pruebas. prueba. El momento en que se necesite la revisión
Dichos procedimientos a menudo incluyen el variará como una función del contenido y los usos
seguimiento y almacenamiento de materiales; ci- previstos de la prueba. Por ejemplo, las pruebas
frado de transmisión electrónica del contenido y de dominio de planes de estudios educativos o de
los puntajes del examen; acuerdos de confidencia- capacitación deben revisarse cada vez que se ac-
lidad para examinandos, evaluadores y adminis- tualice el plan de estudios correspondiente. Las
tradores; y procedimientos para supervisar a los pruebas que evalúan constructos psicológicos de-
individuos examinados durante la sesión de eva- ben revisarse cuando la investigación sugiere una
luación. Además, para programas de evaluación conceptualización revisada del constructo.
95
96
97
98
99
100
de los ítems incluyen motivación de los examinan- Comentario: Los desarrolladores de la prueba de-
dos, posición de los ítems, límites de tiempo, ex- ben proporcionar evidencia del grado en que los
tensión de la prueba, modo de evaluación (p. ej., ítems de la prueba y los criterios de calificación
papel y lápiz frente a administración por compu- arrojan resultados que representan el dominio defi-
tadora) y uso de calculadoras u otras herramientas. nido. Esto ofrece una base para ayudar a determinar
si el desempeño en la prueba puede generalizarse
al dominio que se evalúa. Esto es especialmente
Estándar 4.11 importante para las pruebas que contienen una
Los desarrolladores de la prueba deben realizar pequeña cantidad de ítems, como las evaluaciones
estudios de validación cruzada cuando los ítems de desempeño. Dicha evidencia puede ser propor-
o pruebas se seleccionan principalmente sobre cionada por jueces expertos. En algunas situacio-
la base de relaciones empíricas más que sobre la nes, se lleva a cabo un estudio independiente de la
base de consideraciones de contenido o teóricas. alineación de las preguntas de la prueba a las espe-
Debe documentarse el grado a en que los dife- cificaciones de contenido para validar el procesa-
rentes estudios muestran resultados coherentes. miento interno del desarrollador para garantizar la
cobertura de contenido apropiada.
Comentario: Cuando se utilizan enfoques ba-
sados en datos para el desarrollo de la prueba,
los ítems se seleccionan principalmente sobre la Estándar 4.13
base de sus relaciones empíricas con un criterio
Cuando evidencia creíble indica que la varianza
externo, sus relaciones entre sí, o su poder para
irrelevante podría afectar los puntajes de la
discriminar entre grupos de individuos. En estas
prueba, en la medida en que sea viable, el desa-
circunstancias, es probable que algunos ítems se
rrollador de la prueba debe investigar las fuen-
seleccionen sobre la base de ocurrencias al azar
tes de varianza irrelevante. Cuando sea posible,
en los datos usados. Administrar la prueba a una
dichas fuentes de varianza irrelevante deben ser
muestra comparable de examinandos o el uso de
eliminadas o reducidas por el desarrollador de
una muestra de validación separada proporciona
la prueba.
verificación independiente de las relaciones utili-
zadas en la selección de ítems. Comentario: Se pueden utilizar diversos métodos
Las técnicas de optimización estadística como para verificar la influencia de factores irrelevantes,
la regresión escalonada se utilizan a veces para incluyendo análisis de correlaciones con medidas
desarrollar compuestos de pruebas o para selec- de otros constructos relevantes e irrelevantes y,
cionar pruebas para otro uso en una batería de en algunos casos, análisis cognitivos más profun-
pruebas. Al igual que con la selección empírica dos (p. ej., uso de sondeos de seguimiento para
de ítems, puede ocurrir capitalización del azar. La identificar motivos relevantes e irrelevantes de
validación cruzada de una muestra independiente respuestas correctas e incorrectas) de la situación
o el uso de una fórmula que prediga la reducción del individuo examinado respecto del constructo
de correlaciones en una muestra independiente de destino. Un entendimiento más profundo de
pueden proporcionar un índice menos sesgado las fuentes de varianza irrelevantes también puede
del poder predictivo de las pruebas o compuesto. conducir al perfeccionamiento de la descripción
del constructo sometido a examen.
Estándar 4.12
Estándar 4.14
Los desarrolladores de la prueba deben docu-
mentar el grado en que el dominio de contenido Para una prueba que tiene un límite de tiempo,
de una prueba representa el dominio definido en la investigación del desarrollo de la prueba debe
las especificaciones de la prueba. examinar el grado en que los puntajes incluyen
101
102
103
puntaje automático debe tener un respaldo de in- que podrían surgir durante la calificación. Los
vestigación empírica, como tasas de concordancia materiales de capacitación deben abordar cual-
con evaluadores humanos, antes del uso opera- quier idea equivocada común sobre las rúbri-
tivo, así como evidencia de que los algoritmos de cas utilizadas para describir niveles de puntajes.
puntaje no introducen sesgo sistemático contra Cuando se califica texto escrito, es común incluir
algunos subgrupos. un conjunto de respuestas precalificadas para usar
Debido a lo que los algoritmos de puntaje au- en la capacitación y para juzgar la exactitud de
tomático a menudo se consideran patentados, sus la calificación. La base para determinar la cohe-
desarrolladores rara vez están dispuestos a revelar rencia de calificación (p. ej., porcentaje de con-
las reglas de calificación y ponderación en docu- cordancia exacta, porcentaje dentro de un punto
mentación pública. Además, en algunos casos, la de puntaje, o algún otro índice de concordancia)
divulgación completa de detalles del algoritmo debe indicarse. La información sobre la coheren-
de puntaje podría dar por resultado estrategias cia de calificación es fundamental para estimar la
de orientación que aumentarían los puntajes sin precisión de los puntajes resultantes.
ningún cambio real en el o los constructos que se
evalúan. En esos casos, los desarrolladores deben Estándar 4.21
describir las características generales de los algo-
ritmos de puntaje. También pueden hacer que Cuando los usuarios de la prueba son responsa-
los algoritmos sean revisados por expertos inde- bles de calificar y la calificación requiere el juicio
pendientes, en condiciones de confidencialidad, del evaluador, el usuario de la prueba es respon-
y reunir juicios independientes de la medida sable de proporcionar capacitación e instrucción
en que los puntajes resultantes implementarán adecuadas a los evaluadores y de examinar la
exactamente las rúbricas de puntajes previstas y concordancia y exactitud de los evaluadores. El
estarán libres de sesgo para las subpoblaciones desarrollador de la prueba debe documentar el
previstas de individuos examinados. nivel esperado de concordancia y exactitud del
evaluador y debe proporcionar tanta orientación
técnica como sea posible para ayudar a los usua-
Estándar 4.20 rios de la prueba a cumplir con este estándar.
El proceso para seleccionar, capacitar, cualificar Comentario: Una práctica común de los desa-
y supervisar a evaluadores debe ser especificado rrolladores de pruebas es proporcionar materia-
por el desarrollador de la prueba. Los materiales les de capacitación (p. ej., rúbricas de puntajes,
de capacitación, como las rúbricas de puntajes ejemplos de respuestas de examinandos en cada
y ejemplos de respuestas de examinandos que nivel de puntaje) y procedimientos cuando la ca-
ejemplifican los niveles en la escala de puntajes lificación es realizada por usuarios de la prueba y
de rúbrica, y los procedimientos para la capaci- requiere el juicio del evaluador. La capacitación
tación de evaluadores deben dar por resultado proporcionada para respaldar la calificación local
un grado de exactitud y concordancia entre eva- debe incluir estándares para verificar la exactitud
luadores que permita que los puntajes se inter- de los evaluadores durante la capacitación y la
preten según lo previsto originalmente por el calificación operativa. La capacitación también
desarrollador de la prueba. Las especificaciones debe cubrir cualquier consideración especial para
también deben describir procesos para evaluar grupos de examinandos que podrían interactuar
la coherencia de evaluadores y la posible des- de manera diferente con la tarea que se calificará.
viación con el tiempo en la calificación de los
evaluadores. Estándar 4.22
Comentario: En la medida posible, los procesos y Los desarrolladores de la prueba deben especifi-
materiales de calificación deben prever problemas car los procedimientos utilizados para interpretar
104
puntajes de la prueba y, cuando corresponda, las Comentario: Los cambios en la población de exa-
muestras normativas o de estandarización o el minandos, junto con otros cambios, por ejemplo,
criterio utilizado. en instrucciones, capacitación o requisitos de em-
pleo, pueden afectar las ponderaciones de ítems
Comentario: Las especificaciones de la prueba
derivadas originales, lo cual necesita estudios pos-
pueden indicar que los puntajes previstos deben
teriores. En muchos casos, las áreas de contenido
interpretarse como indicación de un nivel abso-
se ponderan especificando una cantidad diferente
luto del constructo sometido a medición o como
de ítems de áreas diferentes. La justificación para
indicación de la situación respecto del constructo
ponderar las diferentes áreas de contenido debe
en relación con otros individuos examinados, o
también documentarse y revisarse en forma
ambas. En las interpretaciones de puntaje abso-
periódica.
lutas, se supone que el puntaje o promedio refleja
directamente un nivel de competencia o destreza
en algún dominio de criterios definido. En las
interpretaciones de puntaje relativas el estado de Unidad 4. Estándares para revisión
un individuo (o grupo) se determina comparando de pruebas
el puntaje (o puntaje medio) con el desempeño
de otros en una o más poblaciones definidas. Las Estándar 4.24
pruebas diseñadas para facilitar un tipo de inter-
pretación pueden funcionar de manera menos Las especificaciones de la prueba deben modifi-
efectiva para el otro tipo de interpretación. Dado carse o revisarse cuando nuevos datos de inves-
el diseño de la prueba adecuado y los datos de tigación, cambios significativos en el dominio
respaldo adecuados, no obstante, los puntajes que representado o condiciones recientemente reco-
surgen de programas de evaluación conformes a mendadas del uso de la prueba pueden reducir
normas pueden proporcionar interpretaciones de la validez de las interpretaciones de los puntajes
puntajes absolutas razonables, y los puntajes que de la prueba. Si bien no es necesario que una
surgen de programas conformes a criterios pue- prueba que mantiene su utilidad sea retirada o
den proporcionar interpretaciones de puntajes revisada simplemente debido al paso del tiempo,
relativas razonables. los desarrolladores de la prueba y los editores de
la prueba son responsables de supervisar condi-
ciones cambiantes y de modificar, revisar o reti-
Estándar 4.23 rar la prueba según lo indicado.
Cuando el puntaje de una prueba se deriva de la Comentario: Los desarrolladores de la prueba de-
ponderación diferencial de ítems o subpuntajes, ben considerar una serie de factores que pueden
el desarrollador de la prueba debe documentar justificar la revisión de una prueba, incluyendo
la justificación y el proceso utilizados para desa- contenido y lenguaje de la prueba desactuali-
rrollar, revisar y asignar ponderaciones de ítems. zados, nueva evidencia de relaciones entre los
Cuando se obtienen ponderaciones de ítems so- constructos medidos y predichos, o cambios en
bre la base de datos empíricos, la muestra utili- los marcos de prueba para reflejar cambios en el
zada para obtener las ponderaciones de los ítems plan de estudios, la instrucción o los requisitos
debe ser representativa de la población para la de empleo. Si se utiliza una versión más antigua
que está prevista la prueba y suficientemente de una prueba cuando se ha publicado o puesto
grande para proporcionar estimaciones exactas a disposición una versión más nueva, los usuarios
de ponderaciones óptimas. Cuando se obtienen de la prueba son responsables de proporcionar
ponderaciones de ítems sobre la base de juicio de evidencia de que la versión más antigua es tan
expertos, las cualificaciones de los jueces deben apropiada como la nueva para ese uso en particu-
documentarse. lar de la prueba.
105
106
107
similares (p. ej., pruebas de un constructo en par- se denominan en forma conjunta como interpre-
ticular de diferentes desarrolladores de pruebas) taciones conformes a criterios. Los puntajes de
y para relacionar puntajes de escala en pruebas escala que respaldan esas interpretaciones pue-
que miden constructos similares dados en modos den indicar la proporción probable de respuestas
diferentes de administración (p. ej., administra- correctas que se obtendrían en algún dominio
ciones por computadora y con papel y lápiz). Los más grande de ítems similares, o la probabilidad
métodos de escalamiento vertical se utilizan a ve- de que un individuo examinado responda tipos
ces para colocar puntajes de diferentes niveles de particulares de ítems correctamente. Otras inter-
una prueba de rendimiento en una sola escala con pretaciones conformes a criterios pueden indicar
el fin de facilitar inferencias sobre crecimiento o la probabilidad de que haya presente alguna psi-
desarrollo. El grado de comparabilidad de pun- copatología. Además, otras interpretaciones con-
tajes que se deriva de la aplicación de un proce- formes a criterios pueden indicar la probabilidad
dimiento de vinculación varía a lo largo de un de que el nivel de conocimiento o habilidad eva-
continuum. La equiparación tiene por objeto luado de un individuo examinado sea adecuado
permitir que puntajes en formularios alternativos para desempeñarse con éxito en algún otro con-
de una prueba se utilicen de manera intercambia- texto. Los puntajes de escala para respaldar esas
ble, mientras que la comparabilidad de puntajes interpretaciones de puntaje conformes a criterios
asociada con otros tipos de vinculación puede ser suelen desarrollarse sobre la base de análisis es-
más restringida. tadísticos de las relaciones de los puntajes de la
prueba con otras variables.
Interpretaciones de puntajes Algunos puntajes de escala se desarrollan prin-
cipalmente para respaldar interpretaciones con-
Los puntajes brutos o puntajes de escala de un formes a normas; otros respaldan interpretaciones
individuo a menudo se comparan con la distri- conformes a criterios. En la práctica, no obstante,
bución de puntajes para uno o más grupos de no siempre hay una distinción marcada. Tanto las
comparación para derivar inferencias útiles sobre escalas conformes a criterios como las conformes
el desempeño relativo de la persona. Se dice que a normas pueden desarrollarse y utilizarse con los
las interpretaciones de los puntajes de la prueba mismos puntajes de la prueba si se usan métodos
basadas en esas comparaciones son conformes a apropiados para validar cada tipo de interpreta-
normas. Las normas de rango de percentil, por ción. Sin embargo, una escala de puntajes con-
ejemplo, indican la situación de un individuo o forme a normas originalmente desarrollada, por
grupo dentro de una población definida de in- ejemplo, para indicar desempeño en relación con
dividuos o grupos. Un ejemplo podrían ser los alguna población de referencia específica podría,
puntajes de percentil utilizados en las pruebas de con el tiempo, también llegar a respaldar interpre-
reclutamiento militar, que comparan el puntaje taciones conformes a criterios. Esto podría ocu-
de cada postulante con puntajes para la población rrir puesto que la investigación y la experiencia
de jóvenes estadounidenses de 18 a 23 años. Los aportan mayor comprensión de las capacidades
percentiles, promedios u otras estadísticas para implícitas por los diferentes niveles de puntajes de
dichos grupos de referencia se llaman normas. Al escala. Al contrario, los resultados de una evalua-
mostrar cómo es el puntaje de la prueba de un in- ción educativa podrían reportarse en una escala
dividuo examinado determinado en comparación compuesta por varios niveles de competencia or-
con los de otros, las normas ayudan en la clasifi- denados, definidos por descripciones de las clases
cación o descripción de individuos examinados. de tareas que pueden realizar los estudiantes en
Otras interpretaciones de puntajes de la cada nivel. Esa sería una escala conforme a crite-
prueba no hacen referencia directa al desempeño rios, pero una vez que se reporta la distribución
de otros individuos examinados. Estas interpreta- de puntajes en niveles, supongamos, para todos
ciones pueden adoptar diversas formas; la mayoría los estudiantes de octavo grado en un estado
108
determinado, los puntajes de cada estudiante Debe reconocerse, no obstante, que la probabi-
también transmitirán información sobre su situa- lidad de clasificación errónea por lo general será
ción en relación con la población evaluada. relativamente alta para personas con puntajes cer-
Las interpretaciones basadas en puntajes de canos a los puntajes de corte.
corte pueden del mismo modo ser conformes a
criterios o conformes a normas. Si descripciones Normas
cualitativamente diferentes se asocian a rangos de
puntajes sucesivos, se admite una interpretación La validez de interpretaciones conformes a nor-
conforme a criterios. Por ejemplo, las descripcio- mas depende en parte de la adecuación del grupo
nes de niveles de competencia en algunas rúbri- de referencia con el cual se comparan los punta-
cas de puntajes de tareas de evaluaciones pueden jes de la prueba. Las normas basadas en pacientes
mejorar la interpretación de puntajes resumiendo hospitalizados, por ejemplo, podrían ser inapro-
las capacidades que deben demostrarse para me- piadas para algunas interpretaciones de puntajes
recer un puntaje dado. En otros casos, las inter- de pacientes no hospitalizados. Por lo tanto, es
pretaciones conformes a criterios pueden basarse importante que las poblaciones de referencia se
en relaciones determinadas empíricamente entre definan cuidadosamente y se describan con clari-
los puntajes de la prueba y otras variables. Pero dad. La validez de esas interpretaciones también
cuando las pruebas se utilizan para selección, es depende de la exactitud con la que las normas
posible que sea apropiado clasificar a los indivi- resumen el desempeño de la población de refe-
duos examinados de acuerdo con su desempeño rencia. La población puede ser suficientemente
en la prueba y establecer un puntaje de corte para pequeña para que básicamente toda la población
seleccionar una cantidad o proporción preespeci- pueda evaluarse (p. ej., todos los examinandos en
ficada de individuos examinados de un extremo un nivel de grado dado en un distrito dado eva-
de la distribución, siempre que el uso de la se- luados en la misma ocasión). A menudo, no obs-
lección esté suficientemente respaldado por evi- tante, solo se evalúa una muestra de individuos
dencia de confiabilidad y validez relevante para examinados de la población de referencia. Es por
respaldar la clasificación. En esos casos, la inter- lo tanto importante que las normas se basen en
pretación de los puntajes de corte es conforme una muestra representativa, técnicamente sólida
a normas; las etiquetas “rechazar” o “reprobar” de examinandos de tamaño suficiente. Es poco
frente a “aceptar” o “aprobar” son determinadas probable que los pacientes en algunos hospitales
principalmente por la situación del individuo en una región geográfica pequeña sean represen-
examinado en relación con otros evaluados en el tativos de todos los pacientes en Estados Unidos,
proceso de selección actual. por ejemplo. Además, la utilidad de las normas
Las interpretaciones conformes a criterios ba- basadas en una muestra determinada puede re-
sadas en puntajes de corte a veces son criticadas ducirse con el tiempo. Por lo tanto, para prue-
con el argumento de que pocas veces existe una bas que han estado en uso durante varios años,
distinción marcada entre aquellos apenas por en- por lo general se requiere una revisión periódica
cima y aquellos apenas por debajo de un puntaje para asegurar la utilidad continua de sus normas.
de corte. Una prueba neuropsicológica puede ser Es posible que se requiera renormalización para
útil en el diagnóstico de algún deterioro en parti- mantener la validez de interpretaciones de punta-
cular, por ejemplo, pero es probable que la proba- jes de la prueba conformes a normas.
bilidad de que el deterioro esté presente aumente Más de una población de referencia puede ser
en forma continua como una función del puntaje apropiada para la misma prueba. Por ejemplo, el
de la prueba en lugar de cambiar notoriamente en desempeño en una prueba de rendimiento podría
un puntaje en particular. Los puntajes de corte interpretarse por referencia a normas locales so-
pueden ayudar a formular reglas para arribar a de- bre la base de muestreo de un distrito escolar en
cisiones sobre la base del desempeño en la prueba. particular para uso en la toma de decisiones sobre
109
instrucción locales, o a normas para un estado o medidos en forma reiterada, tal vez para medir
tipo de comunidad para usar en la interpretación cambios en los niveles de disfunción psicológica,
de resultados de evaluación a nivel estatal, o a nor- actitudes o rendimiento educativo. En estos casos,
mas nacionales para usarse al hacer comparacio- reutilizar los mismos ítems de la prueba puede
nes con grupos nacionales. Para otras pruebas, las dar lugar a estimaciones de cambio sesgadas. La
normas podrían basarse en clasificaciones ocupa- equiparación de puntajes permite el uso de for-
cionales o educativas. Las estadísticas descriptivas mularios alternativos, con lo cual se evitan estas
para todos los individuos examinados que resul- preocupaciones.
tan ser evaluados durante un período de tiempo Si bien los formularios alternativos se elaboran
determinado (a veces denominadas normas de según las mismas especificaciones de contenido y
usuario o normas de programa) pueden ser úti- estadísticas, ocurrirán diferencias en la dificul-
les para algunos fines, como describir tendencias tad de la prueba, lo que generará la necesidad de
conforme avanza el tiempo. Pero debe haber un equiparación. Un enfoque hacia la equiparación
motivo sólido para considerar a ese grupo de implica administrar los formularios a equiparar
examinandos como una base apropiada para di- a la misma muestra de individuos examinados o
chas inferencias. Cuando existe una justificación a muestras equivalentes. Otro enfoque involucra
adecuada para usar a dicho grupo, las estadísti- administrar un conjunto común de ítems, de-
cas descriptivas deben caracterizarse claramente nominados ítems de anclaje, a las muestras que
como basadas en una muestra de personas habi- toman cada formulario. Cada enfoque tiene for-
tualmente evaluadas como parte de un programa talezas exclusivas, pero también involucra suposi-
continuo. ciones que podrían influir en los resultados de la
equiparación, y por lo tanto estas suposiciones de-
Vinculación de puntajes ben verificarse. Elegir entre enfoques de equipara-
ción puede incluir las siguientes consideraciones:
Vinculación de puntajes es un término general
que se refiere a relacionar puntajes de diferentes • Administrar formularios a la misma muestra
pruebas o formularios de prueba. Cuando dife- permite una estimación de la correlación entre
rentes formularios de una prueba se construyen los puntajes de los dos formularios, así como
según las mismas especificaciones de contenido y proporcionar datos necesarios para ajustar por
estadísticas, y se administran en las mismas con- diferencias en la dificultad. Sin embargo, po-
diciones, se denominan formularios alternativos dría haber efectos de orden relacionados con
o a veces formularios paralelos o equivalentes. la práctica o fatiga que pueden afectar la dis-
El proceso de colocar puntajes brutos de dichos tribución de puntajes para el formulario ad-
formularios alternativos en una escala común se ministrado en segundo lugar.
denomina equiparación. La equiparación involu-
• Administrar formularios alternativos a mues-
cra pequeños ajustes estadísticos para representar
tras equivalentes, por lo general mediante
diferencias menores en la dificultad de los formu-
asignación aleatoria, evita cualquier efecto de
larios alternativos. Después de la equiparación,
orden pero no proporciona una estimación di-
los formularios alternativos de la misma prueba
recta de la correlación entre los puntajes; otros
arrojan puntajes de escala que pueden usarse en
métodos son necesarios para demostrar que los
forma intercambiable aunque se basen en dife-
dos formularios miden el mismo constructo.
rentes conjuntos de ítems. En muchos programas
de evaluación que administran pruebas múltiples • Incorporar un conjunto de ítems de anclaje
veces, pueden plantearse preocupaciones sobre la en cada uno de los formularios que se equi-
seguridad de la prueba si el mismo formulario se paran proporciona una base para ajustar por
usa en forma reiterada. En otros programas de diferencias en las muestras de individuos exa-
evaluación, los mismos examinandos pueden ser minados que completan cada formulario. Los
110
ítems de anclaje deben cubrir el mismo con- entre subgrupos relevantes debe documentarse.
tenido y rango de dificultad que cada uno de Cuando sea posible, las definiciones de poblacio-
los formularios completos que se equiparan nes importantes de individuos examinados deben
de modo que las diferencias en los ítems de incluir grupos para los que la imparcialidad puede
anclaje reflejarán de manera exacta diferencias ser una cuestión particular, como individuos exa-
en los formularios completos. Además, la po- minados con discapacidades o de características
sición de los ítems de anclaje y otros factores lingüísticas y culturales diversas. Cuando los ta-
de contexto deben ser los mismos en ambos maños de la muestra lo permitan, es importante
formularios. Es importante verificar que los examinar la estabilidad de las conversiones de
ítems de anclaje funcionen de manera similar equiparación entre estas poblaciones.
en los formularios que se equiparan. Los ítems El mayor uso de pruebas ejecutadas por com-
de anclaje a menudo se retiran del anclaje si su putadora plantea consideraciones especiales para
dificultad relativa es sustancialmente diferente la equiparación y la vinculación porque se hacen
en los formularios que se equiparan. posibles modelos más flexibles para ejecutar prue-
• A veces se utiliza una prueba de anclaje bas. Estos incluyen pruebas adaptables así como
externa en la que los ítems de anclaje se enfoques en los que se seleccionan ítems exclu-
administran en una sección separada y no sivos o múltiples conjuntos intactos de ítems de
contribuyen al puntaje total de la prueba. un conjunto más grande de ítems disponibles.
Este enfoque elimina algunos factores de Hace mucho tiempo que se reconoce que poco
contexto dado que la presentación de los se aprende de las respuestas de los individuos
ítems de anclaje es idéntica para cada muestra examinados a ítems que son demasiado fáciles o
de individuos examinados. Nuevamente, no demasiado difíciles para ellos. En consecuencia,
obstante, la prueba de anclaje debe reflejar el algunos procedimientos de evaluación utilizan
contenido y la dificultad de los formularios solo un subconjunto de los ítems disponibles con
operativos que se equiparan. Los diseños de cada individuo examinado. Una prueba adaptable
pruebas de anclaje tanto incorporadas como consiste en un conjunto de ítems junto con re-
externas involucran fuertes suposiciones glas para seleccionar un subconjunto de los ítems
estadísticas respecto de la equivalencia del que se administrarán a cada individuo examinado
anclaje y los formularios que se equiparan. y un procedimiento para colocar los puntajes de
Estas suposiciones son particularmente diferentes individuos examinados en una escala
críticas cuando las muestras de individuos común. La selección de ítems sucesivos se basa en
examinados que completan los diferentes parte en las respuestas de los individuos exami-
formularios varían considerablemente en el nados a ítems anteriores. Pueden diseñarse reglas
constructo que se mide. de selección de ítems y de conjuntos de ítems
de modo que cada individuo examinado reciba
Cuando se afirma que los puntajes en los un conjunto representativo de ítems de dificul-
formularios de prueba están equiparados, es im- tad apropiada. Con algunas pruebas adaptables,
portante documentar cómo los formularios se puede resultar que dos individuos examinados
elaboran según las mismas especificaciones de casi nunca, o nunca, reciban el mismo conjunto
contenido y estadísticas y demostrar que los pun- de ítems. Además, es posible dar a dos individuos
tajes en los formularios alternativos son medidas examinados que hacen la misma prueba adaptable
del mismo constructo y tienen confiabilidad si- conjuntos de ítems que difieren marcadamente en
milar. La equiparación debe proporcionar conver- cuanto a dificultad. No obstante, los puntajes de
siones de puntaje exactas para cualquier conjunto la prueba adaptable pueden reportare en una es-
de personas tomado de la población de indivi- cala común y funcionar de manera muy similar a
duos examinados para la que se diseña la prueba; puntajes de un solo formulario alternativo de una
por lo tanto, la estabilidad de las conversiones prueba que no es adaptable.
111
112
Los procesos utilizados para facilitar compa- Estos ejemplos difieren en aspectos importan-
raciones pueden describirse con términos tales tes, pero todos involucran delinear categorías de
como vinculación, calibración, concordancia, individuos examinados sobre la base de puntajes
escalamiento vertical, proyección o moderación. de la prueba. Estos puntajes de corte proporcio-
Estos procesos pueden ser técnicamente sólidos nan la base para usar e interpretar resultados de la
y pueden satisfacer completamente las metas de prueba. Por lo tanto, en algunas situaciones, la va-
compatibilidad deseadas para una finalidad o para lidez de las interpretaciones de los puntajes de la
un subgrupo relevante de individuos examinados, prueba puede depender de los puntajes de corte.
pero no puede suponerse que sean estables con No puede haber un solo método para determinar
el tiempo o invariantes entre múltiples subgru- puntajes de corte para todas las pruebas o para
pos de la población de individuos examinados, y todos los fines, ni un único conjunto de proce-
tampoco hay ninguna garantía de que los punta- dimientos para establecer su posibilidad de de-
jes obtenidos utilizando diferentes pruebas sean fenderlos. Además, aunque los puntajes de corte
igualmente precisos. Por lo tanto, su uso para son útiles para informar la selección, colocación, y
otros fines o con otras poblaciones que no sean la otras clasificaciones, debe reconocerse que dichas
población originalmente prevista puede requerir decisiones categóricas rara vez se toman sobre la
respaldo adicional. Por ejemplo, una conversión base del desempeño en la prueba únicamente. Las
de puntajes que fue exacta para un grupo de ha- situaciones a continuación solo ejemplos.
blantes nativos podría sistemáticamente sobrepre- El primer ejemplo, de un empleador que
decir o infrapredecir los puntajes de un grupo de entrevista a todos lo que obtienen puntajes por
hablantes no nativos. encima de un nivel determinado en una prueba
de empleo, es el más directo. Suponiendo que se
Puntajes de corte haya proporcionado evidencia de validación para
los puntajes de la prueba de empleo para su uso
Un paso crítico en el desarrollo y uso de algunas previsto, por lo general se esperaría que el desem-
pruebas es establecer uno o más puntajes de corte peño laboral promedio aumente en forma cons-
dividiendo el rango de puntajes para separar la dis- tante, aunque lenta, con cada incremento en el
tribución de puntajes en categorías. Estas catego- puntaje de la prueba, al menos para algún rango
rías pueden utilizarse solo para fines descriptivos de puntajes cercanos al puntaje de corte. En ese
o pueden usarse para distinguir entre individuos caso, la designación del valor particular para el
examinados para los que se consideran aconseja- puntaje de corte puede determinarse principal-
bles diferentes programas o para los que se justifi- mente por la cantidad de personas a ser entrevis-
can diferentes predicciones. Un empleador puede tadas o que continuarán siendo cribadas.
determinar un puntaje de corte para seleccionar En el segundo ejemplo, un departamento de
posibles empleados o para promover a los emplea- educación estatal establece estándares de conte-
dos actuales; pueden establecerse niveles de com- nido para lo que los estudiantes de cuarto grado
petencia de “básico”, “competente” y “avanzado” deben aprender en matemáticas e implementa
utilizando métodos de fijación de estándares para una prueba para evaluar el rendimiento de los es-
fijar puntajes de corte en una prueba estatal de tudiantes en estos estándares. Utilizando un pro-
rendimiento matemático en cuarto grado; es po- ceso de fijación de estándares basado en juicios,
sible que los educadores quieran usar puntajes de estructurado, comités de expertos en la materia
la prueba para identificar a estudiantes que están desarrollan o elaboran descriptores de nivel de
preparados para continuar con la universidad y desempeño (a veces denominados descriptores de
tomar cursos que dan créditos; o en la obtención nivel de rendimiento) que indican qué deberían
de una licencia profesional, un estado puede espe- saber y poder hacer en matemáticas de cuarto
cificar un puntaje de aprobación mínimo en una grado los estudiantes en los niveles de rendi-
prueba para la obtención de la licencia. miento “básico”, “competente” y “avanzado”.
113
Además, comités examinan ítems de la prueba y de exponer al público a posible daño emitiendo
desempeño estudiantil para recomendar puntajes una licencia a un individuo incompetente (falso
de corte que se usarán para asignar a estudiantes positivo) debe ponderarse frente a alguna proba-
a cada nivel de rendimiento sobre la base de su bilidad correspondiente de denegar una licencia,
desempeño en la prueba. La decisión final sobre y así inhabilitar, a un individuo examinado cua-
los puntajes de corte es una decisión de políticas lificado (falso negativo). Cambiar el puntaje de
que por lo general toma un organismo de políti- corte para reducir cualquiera de las dos probabili-
cas como un consejo de educación para el estado. dades aumentará la otra, aunque ambas clases de
En el tercer ejemplo, educadores desean utili- errores pueden minimizarse mediante un diseño
zar puntajes de la prueba para identificar a estu- de la prueba sólido que prevea el rol del puntaje
diantes que están preparados para continuar con de corte en el uso y la interpretación de la prueba.
la universidad y tomar cursos que otorgan crédi- Determinar puntajes de corte en esas situacio-
tos. Los puntajes de corte podrían identificarse nes no puede ser un asunto meramente técnico,
inicialmente sobre la base de juicios sobre requisi- aunque estudios empíricos y modelos estadísticos
tos para tomar cursos que otorgan créditos en una pueden ser de gran valor para informar el proceso.
serie de universidades. Alternativamente, podrían Los puntajes de corte incorporan juicios de
reunirse juicios sobre estudiantes individuales y valor, así como consideraciones técnicas y em-
luego utilizarse para buscar un nivel de puntaje píricas. Cuando los resultados del proceso de
que diferencie de manera más efectiva a quienes fijación de estándares tienen consecuencias alta-
se considera preparados de los que se considera mente significativas, los involucrados en el pro-
no están preparados. En esos casos, los jueces de- ceso de fijación de estándares deben preocuparse
ben estar familiarizados tanto con los requisitos de que el proceso por el cual se determinan los
del curso universitario como con los propios es- puntajes de corte se documente claramente y que
tudiantes. Cuando sea posible, podría hacerse un sea defendible. Cuando la fijación de estándares
seguimiento de los juicios iniciales con datos lon- involucra a jueces o expertos en la materia, sus
gitudinales que indiquen si anteriores individuos cualificaciones y el proceso por el cual fueron se-
examinados tomaron o no cursos de apoyo. leccionados son parte de esa documentación. Se
En el último ejemplo, el de un examen para la debe tener cuidado de garantizar que estas per-
obtención de una licencia profesional, el puntaje sonas comprendan lo que deben hacer y que sus
de corte representa un juicio informado de que juicios sean tan razonados y objetivos como sea
quienes obtienen puntajes por debajo de él están posible. El proceso debe ser tal que participantes
en riesgo de cometer graves errores porque care- bien cualificados puedan aplicar su conocimiento
cen del conocimiento o las habilidades evaluadas. y experiencia para arribar a juicios significativos y
Ninguna prueba es perfecta, por supuesto, e inde- relevantes que reflejen exactamente sus entendi-
pendientemente de los puntajes de corte elegidos, mientos e intenciones. Debe emplearse un grupo
es probable que algunos individuos examinados de participantes suficientemente grande y repre-
con habilidades insuficientes aprueben, y algunos sentativo para proporcionar una seguridad razo-
con habilidades suficientes reprueben. Las pro- nable de que las calificaciones de expertos entre
babilidades relativas de esos errores de falso po- jueces sean suficientemente confiables y que los
sitivo y falso negativo variarán dependiendo del resultados de los juicios no varíen en gran medida
puntaje de corte elegido. Una probabilidad dada si el proceso se replicara.
114
115
la cantidad de puntos de puntaje que se utilizan. apoyo a cualquier interpretación de este tipo reco-
Este estándar corresponde a escalas de puntajes mendada por el desarrollador de la prueba.
previstas para interpretaciones conformes a crite-
rios y conformes a normas. Estándar 5.5
116
117
118
119
como los utilizados en pruebas adaptables com- formularios de prueba diseñados para adminis-
putarizadas o de múltiples etapas, se debe pro- tración individual frente a grupal, pruebas que se
porcionar documentación para indicar que los escalan verticalmente, pruebas adaptables compu-
puntajes tienen significado comparable en con- tarizadas, pruebas que son sustancialmente revisa-
juntos alternativos de ítems de prueba. das, pruebas dadas en diferentes idiomas, pruebas
administradas con varias adecuaciones, pruebas
Comentario: Cuando se utilizan procedimientos
que miden diferentes constructos y pruebas de
psicométricos basados en modelos, se debe pro-
diferentes editores.
porcionar documentación técnica que respalde
la comparabilidad de puntajes en conjuntos de
ítems alternativos. Dicha documentación debe Estándar 5.18
incluir las suposiciones y procedimientos que
se utilizaron para establecer la comparabilidad, Cuando se utilizan procedimientos de vincula-
incluyendo descripciones claras de algoritmos ción para relacionar puntajes en pruebas o for-
basados en modelos, software utilizado, procedi- mularios de prueba que no son muy paralelos,
mientos de control de calidad que se siguieron, la construcción, la interpretación prevista y las
y análisis técnicos realizados que justifiquen el limitaciones de esas vinculaciones deben descri-
uso de modelos psicométricos para los puntajes birse claramente.
de prueba en particular que tienen por objeto ser Comentario: Se han realizado varias vinculaciones
comparables. relacionando puntajes en pruebas desarrolladas en
diferentes niveles de dificultad, relacionando for-
Estándar 5.17 mularios anteriores con formularios revisados de
pruebas publicadas, creando concordancias entre
Cuando se vinculan puntajes en pruebas que no diferentes pruebas de constructos similares o dife-
pueden equipararse, debe proporcionarse evi- rentes o para otros fines. Esas vinculaciones sue-
dencia directa de la comparabilidad de puntajes, len ser útiles, pero también pueden estar sujetas a
y la población de individuos examinados para la interpretación errónea. Las limitaciones de dichas
que se aplica la comparabilidad de puntajes debe vinculaciones deben describirse claramente. Se
especificarse claramente. La justificación especí- debe proporcionar información técnica detallada
fica y la evidencia requerida dependerán en parte sobre la metodología de vinculación y la calidad
de los usos previstos para los cuales se afirma la de la vinculación. Se debe incluir información
comparabilidad de puntajes. técnica sobre la vinculación, según corresponda,
Comentario: Se debe proporcionar respaldo para la confiabilidad de los conjuntos de puntajes
cualquier aseveración respecto de que puntajes que se vinculan, la correlación entre los punta-
vinculados obtenidos con uso de pruebas elabora- jes de la prueba, una evaluación de la similitud
das según diferentes especificaciones de contenido del contenido, las condiciones de medición para
y estadísticas, pruebas que utilizan diferentes ma- cada prueba, el diseño de recopilación de datos,
teriales de prueba o pruebas que se administran los métodos estadísticos utilizados, los errores es-
en diferentes condiciones de administración de tándares de la función de vinculación, evaluacio-
la prueba son comparables para la finalidad pre- nes de estabilidad de muestreo, y evaluaciones de
vista. Para estas vinculaciones, debe especificarse comparabilidad de puntajes.
claramente la población de individuos examina-
dos para la que se establece la comparabilidad de Estándar 5.19
puntajes. Este estándar se aplica, por ejemplo, a
pruebas que difieren en extensión, pruebas admi- Cuando las pruebas se crean tomando un sub-
nistradas en diferentes formatos (p. ej., pruebas conjunto de los ítems en una prueba existente
con papel y lápiz y basadas en computadora), o reorganizando ítems, se debe proporcionar
120
evidencia de que no hay distorsiones de punta- Comentario: A veces ocurren cambios impor-
jes de escala, puntajes de corte o normas para tantes en las especificaciones de pruebas que se
las diferentes versiones o para vinculaciones de utilizan por períodos de tiempo sustanciales. A
puntajes entre ellas. menudo, esos cambios aprovechan las mejoras
en los tipos de ítems o cambios en el contenido
Comentario: Algunas pruebas y baterías de prue-
que se haya demostrado mejoran la validez y por
bas se publican tanto en versión completa como
lo tanto son muy recomendables. Es importante
en formato de sondeo o versión corta. En otros
reconocer, sin embargo, que dichos cambios da-
casos, pueden crearse múltiples versiones de un
rán por resultado puntajes que no pueden hacerse
solo formulario de prueba reorganizando sus
estrictamente intercambiables con puntajes en un
ítems. No debe suponerse que los datos de des-
formulario anterior de la prueba, incluso cuando
empeño derivados de la administración de ítems
se utilizan procedimientos de vinculación estadís-
como parte de la versión inicial pueden usarse
tica. Para evaluar la comparabilidad de puntajes,
para calcular puntajes de escala, calcular punta-
es aconsejable evaluar la relación entre puntajes
jes vinculados, construir tablas de conversión,
en las versiones anteriores y nuevas.
aproximar normas o aproximar puntajes de corte
para pruebas intactas alternativas. Se requiere pre-
caución en casos en los que son probables efectos Unidad 4. Puntajes de corte
de contexto, incluyendo pruebas aceleradas, prue-
bas largas en las que la fatiga puede ser un factor,
Estándar 5.21
pruebas adaptables, y pruebas desarrolladas a par-
tir de conjuntos de ítems calibrados. Las opciones Cuando las interpretaciones de puntajes pro-
para reunir evidencia relacionada con efectos de puestas involucran uno o más puntajes de corte,
contexto podrían incluir exámenes de ajuste de deben documentarse claramente la justificación
datos de modelo, recalibraciones operativas de es- y los procedimientos utilizados para establecer
timaciones de parámetros de ítems inicialmente puntajes de corte.
derivadas utilizando datos de pruebas previas, y
comparaciones de desempeño sobre formularios Comentario: Los puntajes de corte pueden esta-
de pruebas originales y revisados según lo admi- blecerse para seleccionar una cantidad especifi-
nistrado a grupos equivalentes en forma aleatoria. cada de individuos examinados (p. ej., identificar
una cantidad fija de solicitantes de empleo para
mayor cribado), en cuyo caso es posible que se
Estándar 5.20 necesite un poco más de documentación respecto
de la pregunta específica de cómo se establecen
Si las especificaciones de la prueba se cambian de los puntajes de corte, aunque se debe prestar aten-
una versión de una prueba a una versión poste- ción a la justificación para usar la prueba en la
rior, dichos cambios deben identificarse, y se debe selección y la precisión de comparaciones entre
dar una indicación de que los puntajes converti- individuos examinados. En otros casos, no obs-
dos para las dos versiones pueden no ser estric- tante, los puntajes de corte pueden usarse para
tamente equivalentes, incluso cuando se hayan clasificar individuos examinados en distintas ca-
usado procedimientos estadísticos para vincular tegorías (p. ej., categorías de diagnóstico, niveles
puntajes de las versiones diferentes. Cuando ocu- de competencia, o aprobar y reprobar) para las
rren cambios importantes en las especificaciones que no hay cuotas preestablecidas. En estos casos,
de la prueba, los puntajes deben reportarse en el método de fijación de estándares debe docu-
una nueva escala, o debe proporcionarse una de- mentarse con mayor detalle. Idealmente, el rol de
claración clara para alertar a los usuarios de que los puntajes de corte en el uso y la interpretación
los puntajes no son directamente comparables de pruebas se tiene en cuenta durante el diseño
con los de versiones anteriores de la prueba. de la prueba. La precisión adecuada en regiones
121
de escalas de puntajes donde se establecen punta- utilizados para obtener dichos juicios deben dar
jes de corte es un prerrequisito para la clasificación por resultado estándares de competencia razona-
confiable de individuos examinados en categorías. bles y defendibles que reflejen con exactitud los
Si la fijación de estándares emplea datos sobre dis- valores e intenciones de los participantes en la fi-
tribuciones de puntajes para grupos de criterios o jación de estándares. Llegar a esos juicios puede
sobre la relación de los puntajes de la prueba con ser más directo cuando se pide a los participantes
una o más variables de criterios, esos datos deben que consideren clases de desempeño con las que
resumirse en la documentación técnica. Si se si- están familiarizados y para las se han formado
gue un proceso de fijación de estándares basado conceptos claros de adecuación y calidad. Cuando
en juicios, el método empleado debe describirse las repuestas suscitadas por una prueba no mues-
claramente, y debe presentarse la naturaleza pre- trean ni simulan de cerca el uso de conocimientos
cisa y la confiabilidad de los juicios requeridos, o habilidades evaluados en el dominio de criterios
sean juicios de personas, de desempeños en ítems real, es probable que los participantes no aborden
o en la prueba, o de desempeños en otros criterios la tarea con ese entendimiento claro de adecua-
predichos por los puntajes de la prueba. La do- ción y calidad. Se debe tener especial cuidado de
cumentación también debe incluir la selección y asegurar que los participantes tengan un funda-
cualificaciones de participantes de paneles de fija- mento sólido para elaborar los juicios solicitados.
ción de estándares, la capacitación proporcionada, El conocimiento exhaustivo de las descripciones
cualquier comentario a los participantes respecto de los diferentes niveles de competencia, la prác-
de las implicaciones de sus juicios provisionales, y tica en el juzgamiento de la dificultad de las tareas
cualquier oportunidad para que los participantes con comentarios sobre exactitud, la experien-
deliberen entre ellos. Cuando corresponda, debe cia de efectivamente tomar un formulario de la
reportarse la variabilidad entre participantes. prueba, comentarios sobre las tasas de aprobación
Cuando sea viable, se debe proporcionar una esti- que conllevan los estándares de competencia pro-
mación de la cantidad de variación en los puntajes visionales, y otras formas de información pueden
de corte que podría esperarse si el procedimiento ser beneficiosos para ayudar a los participantes a
de fijación de estándares se replicara con un llegar a decisiones sólidas y ejemplares.
panel de fijación de estándares comparable.
Estándar 5.23
Estándar 5.22
Cuando sea viable y apropiado, los puntajes
Cuando los puntajes de corte que definen apro- de corte que definan categorías con interpreta-
bado/reprobado o niveles de competencia se ba- ciones sustantivas distintas deben informarse
sen en juicios directos sobre la adecuación de los mediante datos empíricos sólidos respecto de
desempeños en el ítem o la prueba, el proceso la relación del desempeño en la prueba con los
basado en juicios debe diseñarse de modo que criterios relevantes.
los participantes que proporcionan los juicios
Comentario: En contextos laborales donde se
puedan aplicar su conocimiento y experiencia de
haya establecido que los puntajes de prueba se
una manera razonable.
relacionan con el desempeño laboral, es posible
Comentario: Los puntajes de corte a veces se que la relación precisa de la prueba y el criterio
basan en juicios sobre la adecuación de los des- tenga escasa incidencia en la elección de un pun-
empeños en los ítems o la prueba (p. ej., respues- taje de corte, si la elección se basa en la necesidad
tas de ensayos a una indicación de redacción) o de una cantidad predeterminada de candidatos.
expectativas de competencia (p. ej., el puntaje Sin embargo, en contextos en que se aplican in-
de escala que caracterizaría a un individuo exa- terpretaciones distintas a diferentes categorías de
minado que está al límite). Los procedimientos puntajes, la relación empírica de la prueba con el
122
criterio supone mayor importancia. Por ejemplo, a menudo no están disponibles. No obstante,
si un puntaje de corte debe fijarse en una prueba cuando corresponda y sea viable, el desarrollador
de matemáticas de la escuela secundaria que in- de la prueba debe investigar y reportar la relación
dica la preparación para instrucción en mate- entre los puntajes de la prueba y el desempeño en
máticas de nivel universitario, es posible que sea contextos prácticos relevantes. Se requiere juicio
aconsejable reunir datos empíricos que establez- profesional para determinar un enfoque apro-
can una relación entre los puntajes de la prueba piado de fijación de estándares (o combinación de
y las calificaciones obtenidas en cursos universi- enfoques) en cualquier situación dada. En gene-
tarios relevantes. Los puntajes de corte utilizados ral, se esperaría encontrar una marcada diferencia
en la interpretación de pruebas de diagnóstico en niveles de la variable de criterios entre aquellos
pueden establecerse sobre la base de distribucio- apenas por debajo y aquellos apenas por encima
nes de puntajes determinadas en forma empírica del puntaje de corte, pero debe proporcionarse
para grupos de criterios. Con muchas pruebas de evidencia, cuando sea viable, de la relación entre
rendimiento o competencia, como las utilizadas el desempeño en la prueba y en el criterio en un
en acreditación, grupos de criterios adecuados intervalo de puntajes que incluya o aborde el pun-
(p. ej., profesionales exitosos frente a no exitosos) taje de corte.
123
125
las condiciones de la elección y el criterio para la uso de computadoras necesiten capacitación para
evaluación de los productos. Cuando una evalua- reducir la varianza irrelevante de constructo. In-
ción permite un determinado tipo de colabora- cluso aquellos examinandos familiarizados con
ción entre los examinandos o entre el examinando computadoras podrían requerir una breve expli-
y el administrador de la prueba, se deben especi- cación y práctica para gestionar detalles específi-
ficar los límites de esa colaboración. En algunas cos de la prueba, por ejemplo, la interfaz de la
evaluaciones cabe esperar que los administradores prueba. Se producen problemas especiales en la
de la prueba adapten las instrucciones para ase- gestión del entorno de la prueba para reducir la
gurarse de que todos los examinandos entienden varianza irrelevante de constructo, por ejemplo,
lo que se espera de ellos. En todos estos casos, el evitar reflejos de luz en los monitores que interfie-
objetivo sigue siendo el mismo: proporcionar una ran con la legibilidad de la pantalla, o mantener
medición precisa, imparcial y comparable para un entorno tranquilo cuando los examinandos
todos. El grado de estandarización viene dictado empiezan o terminan la prueba en momentos
por ese objetivo y por el uso previsto de los pun- diferentes con respecto a sus vecinos. Quienes
tajes de la prueba. administren pruebas basadas en computadora de-
Las instrucciones estandarizadas ayudan a ga- ben recibir capacitación para resolver los proble-
rantizar que todos los examinandos tengan una mas de hardware, software o administración de la
compresión común de la mecánica de la evalua- prueba. Las pruebas administradas por computa-
ción. Por lo general, las instrucciones informan a dora en aplicaciones basadas en Web pueden re-
los examinandos sobre cómo presentar sus respues- querir apoyos adicionales para mantener entornos
tas, qué clase de ayuda pueden razonablemente estandarizados.
obtener si no comprenden la pregunta o tarea, Los procedimientos de calificación estandari-
cómo pueden corregir las respuestas accidentales zados ayudan a garantizar una calificación y pre-
y la naturaleza de las restricciones temporales si las sentación de reportes coherentes, fundamentales
hubiera. En ocasiones, se proporciona orientación en cualquier circunstancia. Cuando la calificación
general sobre la omisión de respuestas de ítems. se realiza por máquina, se debe establecer y su-
Muchas pruebas, incluyendo las pruebas adminis- pervisar la precisión de la máquina, incluyendo
tradas por computadora, requieren equipos o soft- cualquier programa o algoritmo de calificación.
ware especiales. En tales casos, suelen presentarse Cuando la calificación de respuestas complejas
ejercicios de práctica e instrucción, de manera la realizan evaluadores humanos o motores au-
que los examinandos entiendan el modo de fun- tomáticos de calificación, se requiere una cuida-
cionamiento del equipo o software. El principio dosa capacitación. Normalmente, la capacitación
de estandarización incluye la orientación de los requiere que evaluadores humanos expertos pro-
examinandos en los materiales y adecuaciones con porcionen una muestra de respuestas que abarque
los que podrían no estar familiarizados. Algunos el rango de posibles clasificaciones o puntajes.
equipos se pueden facilitar en la ubicación de la Dentro de los rangos de puntajes, los instructores
prueba, por ejemplo, herramientas comerciales o también deben proporcionar muestras que ejem-
sistemas de software. A menudo resulta apropiado plifiquen la variedad de respuestas que se tradu-
que los examinandos tengan la oportunidad de cirán en clasificaciones o niveles de puntaje. La
practicar con el equipo, a menos que el constructo supervisión periódica ayuda a garantizar que to-
en evaluación sea la capacidad de usar el equipo. dos los desempeños de las pruebas se califiquen de
En ocasiones, las pruebas se administran a acuerdo con los mismos criterios estandarizados
través de medios tecnológicos, ingresando las res- y que los evaluadores no aplique los criterios de
puestas mediante el teclado, ratón, entrada de voz manera diferente a medida que avanzan por las
u otros dispositivos. Cada vez más examinandos respuestas entregadas.
están acostumbrados al uso de computadoras. En sí mismos, los puntajes no se interpretan
Es posible que aquellos no familiarizados con el fácilmente sin información adicional como, por
126
127
128
de los ajustes deben estar matizados por la con- Características como los límites de tiempo, la
sideración de que las desviaciones respecto de los elección de tipos de ítems y formatos de respuesta,
procedimientos estándar pueden poner en peligro las interfaces complejas y las instrucciones que po-
la validez o complicar la comparabilidad de las in- tencialmente introducen varianza irrelevante de
terpretaciones de los puntajes. Estos juicios se de- constructo, se deben analizar en términos de pro-
ben llevar a cabo por profesionales cualificados y pósito de la prueba y los constructos sometidos a
ser coherentes con las directrices proporcionadas medición. Si es factible, se deben llevar a cabo in-
por el usuario o desarrollador de la prueba. vestigaciones empíricas y de usabilidad apropiadas
Las políticas relacionadas con las contraprue- para documentar (y de ser posible, minimizar) el
bas deben ser establecidas por el usuario o desa- impacto de las fuentes o condiciones que contri-
rrollador de la prueba. El usuario o administrador buyen a la variabilidad irrelevante de constructo.
de la prueba debe seguir la política establecida. El
usuario de la prueba debe comunicar claramente Estándar 6.2
estas políticas de contrapruebas, como parte de
las condiciones para la administración estanda- Cuando se han establecido procedimientos for-
rizada de una prueba. Las contrapruebas tienen males para la solicitud y obtención de adecuacio-
como finalidad reducir las probabilidades de que nes, se debe informar a los examinandos sobre
se clasifique erróneamente a una persona por no estos procedimientos con antelación a la prueba.
cumplir un determinado estándar. Por ejemplo,
algunos programas de pruebas especifican que Comentario: Cuando los programas de pruebas
una persona debe repetir la prueba; otros ofrecen han establecido procedimientos y criterios para
varias oportunidades de hacer una prueba, por identificar y facilitar adecuaciones para los exami-
ejemplo, después de aprobar una prueba necesaria nandos, los procedimientos y criterios se deben
para la graduación secundaria o para la obtención seguir y documentar cuidadosamente. De forma
de autorizaciones. óptima, estos procedimientos incluyen la conside-
Los desarrolladores de la prueba deben espe- ración de los casos donde, además de las adecuacio-
cificar las condiciones estandarizadas de admi- nes previstas y especificadas por el desarrollador de
nistración que respalden los usos previstos de las la prueba, puede resultar apropiada una alternativa.
Los examinandos deben recibir información sobre
interpretaciones de puntajes. Los usuarios de la
cualquier adecuación que puedan tener a dispo-
prueba deben tener presentes las implicaciones de
sición, y sobre los procesos y requisitos (si existe
condiciones de administración con menor con-
alguno) para obtener las adecuaciones necesarias.
trol. Los usuarios de la prueba tienen la respon-
De forma similar, en contextos educativos, el per-
sabilidad de ofrecer apoyo técnico o de otro tipo
sonal de la escuela y los padres o tutores legales de-
para garantizar que las administraciones cumplan
ben recibir información de los requisitos (si existe
estas condiciones en el mayor grado posible. Sin
alguno) para obtener las adecuaciones necesarias
embargo, la tecnología e Internet han hecho po-
para los estudiantes que realizan la prueba.
sible administrar pruebas en muchos contextos,
incluyendo contextos donde las condiciones de
administración no se controlan o supervisan de Estándar 6.3
manera estricta. Quienes permiten deficiencias de
Los cambios o alteraciones en los procedimientos
estandarización son responsables de proporcionar
estandarizados de administración o calificación
la evidencia de que esas deficiencias no han afec-
de pruebas se deben documentar y presentar al
tado al desempeño del examinando o a la calidad
usuario de la prueba.
o comparabilidad de los puntajes obtenidos. La
documentación completa incluirá los informes Comentario: La información sobre la naturaleza
sobre el grado de incumplimiento de las condi- de los cambios en los procedimientos estanda-
ciones estandarizadas de administración. rizados de administración o calificación se debe
129
130
la medida del constructo previsto (p. ej., cuando obtenidos por medios engañosos o fraudulentos.
se evalúa la actitud espontánea de un individuo Tales medidas pueden incluir, cuando sea facti-
a la situación de la prueba). También se deben ble y apropiado, la estipulación de requisitos de
proporcionar instrucciones sobre el uso de cual- identificación, el diseño de gráficos de asientos,
quier equipo o software con el que los examinan- la asignación de asientos a los examinandos, la
dos no estuvieran familiarizados, a menos que la necesidad de espacio apropiado entre asientos y
adaptación a tales herramientas sea parte de la la supervisión continua del proceso de la prueba.
evaluación. Es posible que algunos examinandos Los desarrolladores deben diseñar los materiales
no estén familiarizados con las funciones o inter- y procedimientos de la prueba para minimizar
faces de las pruebas administradas por compu- la posibilidad de trampas. Un cambio local en
tadora y que necesiten cierto aprendizaje sobre la fecha u hora de la prueba puede ofrecer una
el inicio de sesión, la navegación o el acceso a oportunidad de engaño. Se debe capacitar a los
herramientas. Cuando se utilizan equipos, se instructores sobre las precauciones apropiadas
deben proporcionar oportunidades de práctica, para evitar y detectar oportunidades de engaño,
a menos que la evaluación sea el propio uso del por ejemplo, las oportunidades que ofrece la tec-
equipo. Es posible que algunos examinandos ne- nología para que un examinando se comunique
cesiten practicar las respuestas con los medios con un cómplice fuera del área de prueba, o sobre
específicos que demanda la prueba, por ejemplo, tecnología que permite a un examinando copiar
rellenar recuadros de respuestas múltiples o inte- información de la prueba para su divulgación
ractuar con una simulación multimedia. Donde posterior. Los administradores deben seguir las
sea posible, se debe supervisar la práctica de las políticas establecidas para tratar con cualquier
respuestas para confirmar que el examinando res- caso de irregularidades en las pruebas. En gene-
ponde de forma aceptable. Si un examinando no ral, se deben tomar medidas para minimizar la
puede usar el equipo o formular las respuestas, posibilidad de vulnerabilidades en la seguridad
puede ser conveniente considerar modos alterna- de las pruebas y para detectar cualquier punto
tivos de prueba. Además, se debe informar con vulnerable. En las evaluaciones de productos de
claridad a los examinandos sobre la forma en que trabajo (p. ej., porfolios) se deben tomar medi-
su velocidad de trabajo puede afectar a los pun- das para garantizar que el producto represente el
tajes y sobre cómo se tratarán algunas respuestas propio trabajo del examinando y que la cantidad
en el puntaje (por ejemplo, no responder, hacer y la clase de asistencia proporcionada es coherente
suposiciones o responder de forma incorrecta), con la finalidad de la evaluación. Puede ser útil
a menos que tales instrucciones perjudiquen al documentación complementaria, como la fecha
constructo en evaluación. en que se realizó el trabajo. Los programas de
pruebas pueden usar tecnologías durante la ca-
lificación para detectar posibles irregularidades
Estándar 6.6 (p. ej., análisis computarizado de patrones de
borraduras, patrones de respuestas similares para
Se deben tomar las medidas razonables para ga-
varios examinandos, plagio de fuentes online o
rantizar la integridad de los puntajes de las prue-
cambios inusuales en los parámetros de ítems).
bas, eliminando las oportunidades para que los
Los usuarios de tales tecnologías son responsables
examinandos logren puntajes mediante medios
de su precisión y aplicación apropiada. Es posible
engañosos o fraudulentos.
que los desarrolladores y usuarios de las pruebas
Comentario: En los programas de pruebas donde tengan que supervisar la divulgación de los ítems
se considera que los resultados pueden tener im- de la prueba en Internet o desde otras fuentes.
portantes consecuencias, se debe mantener la Los programas de pruebas con consecuencias de
integridad de los puntajes a través de medidas ac- alto riesgo deben tener políticas y procedimien-
tivas que eviten, detecten y corrijan los puntajes tos definidos para detectar y procesar potenciales
131
132
criterios de control de calidad. Se debe propor- esto puede conllevar la recalificación de respuestas
cionar una capacitación adecuada. La calidad de previamente puntuadas, así como la corrección de
la calificación se debe supervisar y documentar. la fuente del error. Se deben examinar los errores
Cualquier fuente sistemática de errores de califi- administrativos o mecánicos. Los errores de cali-
cación se debe documentar y corregir. ficación se deben minimizar y, cuando se encuen-
tren, se deben tomar medidas rápidamente para
Comentario: Se deben establecer criterios para minimizar su recurrencia.
una calidad de calificación aceptable. Se deben Habitualmente, los responsables de la califi
establecer procedimientos para calibrar a los eva- cación documentarán los procedimientos seguidos
luadores (humanos o máquinas) antes de la califi- para la calificación, los procedimientos seguidos
cación operativa, y para supervisar su coherencia para el control de calidad de esa calificación,
en la calificación según los estándares estableci- los resultados del control de calidad y cualquier
dos durante la calificación operativa. Cuando la circunstancia inusual. En función del usuario de
calificación se divide entre varios calificadores, la prueba, se puede facilitar esa documentación
los procedimientos para supervisar la precisión y periódicamente o por peticiones razonables. Las
confiabilidad de los evaluadores pueden ser útiles aplicaciones de calificación computarizadas de
como procedimiento de control de calidad. Con texto, voz u otras respuestas construidas deben
frecuencia, la coherencia en la aplicación de los proporcionar documentación similar de la preci-
criterios de calificación se comprueba mediante la sión y confiabilidad, incluyendo comparaciones
recalificación independiente de respuestas aleato- con la calificación humana.
riamente seleccionadas. Las comprobaciones pe- Cuando la calificación se hace localmente y
riódicas de las propiedades estadísticas (p. ej. las requiere del juicio de un evaluador, el usuario de
medias, las desviaciones estándar, el porcentaje la prueba es responsable de facilitar capacitación e
de concordancia con puntajes cuya precisión se instrucción adecuadas a los evaluadores y de exa-
ha determinado anteriormente) de los puntajes minar la concordancia y precisión de los evalua-
asignados por evaluadores individuales durante dores. Cuando se posible, se debe documentar el
una sesión de calificación pueden proporcio- nivel previsto de concordancia y precisión de un
nar información a los evaluadores y ayudarles a evaluador.
mantener los estándares de calificación. Además,
el análisis podría controlar los posibles efectos
sobre la precisión de la calificación de variables Unidad 3. Presentación de informes
como el evaluador, la tarea, el tiempo o el día de
e interpretación
calificación, el instructor de calificación, el em-
parejamiento de evaluadores, etc., para informar
las acciones correctivas o preventivas apropiadas. Estándar 6.10
Cuando se usan los mismos ítems en varias admi-
Cuando se divulgue la información de puntajes de
nistraciones, los programas deben tener estableci-
la prueba, los responsables de los programas de cali-
dos procedimientos para supervisar la coherencia
ficación deben ofrecer interpretaciones apropiadas
de la calificación entre las administraciones (p. ej.,
a la audiencia. Las interpretaciones deben descri-
comparabilidad interanual). Una manera de revi-
bir, en lenguaje sencillo, el ámbito de la prueba, lo
sar la coherencia a lo largo del tiempo es recalificar
que representan los puntajes, la precisión/confiabi-
algunas respuestas de administraciones anteriores.
lidad de los puntajes y su uso previsto.
Una calificación imprecisa o incoherente puede
requerir reentrenamiento, recalificación, la revo- Comentario: Los usuarios de la prueba deben
cación de algunos evaluadores o el reexamen de consultar el material interpretativo preparado por
las rúbricas o programas de calificación. Se deben el desarrollador de la prueba y deben revisar o
corregir los errores de calificación sistemáticos y complementar el material según sea necesario para
133
presentar los resultados individuales de manera pre- funcionan con calificaciones computarizadas o
cisa y clara a la audiencia objetivo, que puede incluir mediante materiales preparados manualmente.
clientes, representantes legales, medios de comuni- Es posible que las interpretaciones generadas
cación, fuentes de referencia, examinandos, padres automáticamente no tomen en consideración
o profesores. Los reportes y comentarios deben el contexto de circunstancias de los individuos.
estar diseñados para respaldar las interpretaciones Las interpretaciones generadas automática-
válidas y el uso, y para minimizar las consecuen- mente se deben usar con cuidado en contextos
cias negativas potenciales. La precisión del puntaje de diagnóstico, ya que es posible que no tomen
podría representarse mediante márgenes de error o en cuenta otra información relevante sobre el
rangos probables de puntajes que muestren el error examinando individual que proporcione con-
estándar de medida. Los reportes deben incluir las texto a los resultados, por ejemplo, la edad, el
deliberaciones sobre las variaciones administrativas género, el nivel educativo, el empleo anterior,
u observaciones de conducta en contextos clínicos la situación psicológica, el estado de salud, los
que puedan afectar a los resultados e interpreta- antecedentes psicológicos y la sintomatología.
ciones. Los usuarios de la prueba deben evitar las De forma similar, los desarrolladores y usuarios
interpretaciones erróneas o el uso indebido de la de las pruebas con interpretaciones generadas
información de calificación. Aunque los usuarios automáticamente del desempeño académico y
de la prueba son los principales responsables de de prescripciones complementarias de segui-
evitar las interpretaciones erróneas o el uso inde- miento instruccional deben reportar las bases y
bido, los materiales interpretativos preparados por limitaciones de las interpretaciones. Las inter-
el desarrollador o editor de la prueba pueden resol- pretaciones de las pruebas no deben implicar la
ver los usos indebidos o errores de interpretación existencia de evidencia empírica de una relación
comunes. Para conseguir esto, los desarrolladores entre los resultados de pruebas específicas, in-
de reportes y materiales interpretativos pueden tervenciones prescritas y conclusiones deseadas,
llevar a cabo investigaciones para verificar que los a menos que la evidencia empírica esté disponi-
reportes y materiales pueden interpretarse como se ble para poblaciones similares a las representati-
pretende (p. ej., grupos temáticos con usuarios fi- vas del examinando.
nales representativos de los reportes). El desarrolla-
dor debe informar a los usuarios de la prueba sobre
los cambios en la prueba a lo largo del tiempo que Estándar 6.12
puedan afectar a la interpretación del puntaje, por
Cuando se obtiene información de nivel de
ejemplo, los cambios en las normas, los modelos
grupo mediante la agregación de los resultados
de contenido de la prueba o los significados de los
de pruebas parciales realizadas por individuos,
puntajes de escala.
se debe reportar la evidencia de validación y con-
fiabilidad/precisión del nivel de agregación en el
Estándar 6.11 cual se presentan los resultados. No se deben re-
portar los puntajes por individuos sin la eviden-
Cuando se reportan interpretaciones de proto- cia apropiada que respalde las interpretaciones
colos de respuestas de pruebas o de desempeño para los usos previstos.
en pruebas generados automáticamente, las
Comentario: Con frecuencia, las interpretaciones
fuentes, justificaciones y bases empíricas de es-
a gran escala logran eficiencia mediante un “mues-
tas interpretaciones deben estar disponibles y se
treo de matriz” del contenido del dominio, para el
deben describir sus limitaciones.
cual se hacen diferentes preguntas a diferentes exa-
Comentario: En ocasiones, las interpretaciones minandos. De este modo, la evaluación requiere
de resultados de pruebas se generan automática- menos tiempo para cada examinando, en tanto que
mente, ya sea por programas computarizados que la agregación de resultados individuales confiere
134
cobertura de dominio que puede resultar ade- Los usuarios de las pruebas deben desarrollar una
cuada para interpretaciones relevantes en un nivel política de gestión de errores materiales en los
de grupo o programa, por ejemplo, para escuelas puntajes de pruebas y deben documentar las ac-
o niveles de grado en una localidad o en áreas te- ciones realizadas en el caso de errores materiales
máticas específicas. No obstante, debido a que se reales o supuestos.
solo administra una prueba incompleta al indivi-
duo, los puntajes individuales tendrían un signifi-
cado limitado, si lo tienen. Estándar 6.14
Las organizaciones que mantienen información
Estándar 6.13 de puntajes con identificación personal deben
desarrollar un conjunto claro de directrices so-
Cuando se encuentra un error material en los bre la duración de la conservación de los regis-
puntajes de las pruebas u otra información im- tros de los individuos y sobre la disponibilidad
portante publicada por una organización de y uso a lo largo del tiempo de tales datos para
evaluación u otra institución, se debe distribuir investigación u otros fines. La política debe estar
esta información y un reporte de calificación co- documentada y disponible para el examinando.
rregida tan pronto como sea posible a todos los Los usuarios de la prueba deben mantener una
destinatarios conocidos quienes, de lo contrario, seguridad de datos apropiada, que debe incluir
podrían usar los puntajes erróneos como base protecciones administrativas, técnicas y físicas.
para la toma de decisiones. El reporte corregido
Comentario: En algunos casos, los puntajes de las
se debe etiquetar como tal. Se deben documentar
pruebas quedan obsoletos a lo largo del tiempo y ya
las acciones realizadas para corregir los reportes.
no reflejan el estado actual del examinando. En ge-
Los motivos del reporte de calificación corregida
neral, los puntajes desactualizados no se deben usar
deben presentarse claramente a los destinatarios
ni estar disponibles, excepto para fines de investiga-
del reporte.
ción. En otros casos, los puntajes obtenidos en años
Comentario: Un error material es un error que anteriores pueden ser útiles, como en las evaluacio-
puede cambiar la interpretación del puntaje de la nes longitudinales o en el seguimiento del deterioro
prueba y suponer una diferencia importante. Un de una función o cognición. El factor clave es el uso
ejemplo es un puntaje de prueba erróneo (p. ej., válido de la información. Las organizaciones e in-
calculado de manera incorrecta u obtenido de dividuos que mantienen información de puntajes
forma fraudulenta) que afectaría a una decisión con identificación personal deben tener en cuenta
importante sobre el examinando, por ejemplo, y cumplir los requisitos legales y profesionales. Es
la decisión de otorgar una acreditación o la con- posible que se solicite a las organizaciones e indi-
cesión de un título de secundaria. Se excluirían viduos que mantienen puntajes de pruebas sobre
los errores tipográficos. La pertinencia temporal individuos que proporcionen los datos a investiga-
es crucial en las decisiones que se toman poco dores u otros usuarios terceros. Cuando la divulga-
después de recibir los puntajes de las pruebas. ción de los datos se considera apropiada y no esté
Cuando los resultados de las pruebas se han usado prohibida por estatutos o normativas, el usuario de
para informar decisiones de alto riesgo, es posible la prueba debe proteger la confidencialidad de los
que los usuarios de la prueba tengan que llevar examinandos a través de políticas adecuadas, por
a cabo acciones correctivas para rectificar las cir- ejemplo, suprimiendo cualquier dato de identi-
cunstancias afectadas por los puntajes erróneos, ficación o mediante acuerdos de no revelación y
además de publicar los reportes corregidos. En de- confidencialidad de los datos. Las organizaciones
terminados trabajos u otros contextos, es posible e individuos que mantienen o usan información
que no sea factible o no se puedan llevar a cabo confidencial sobre los examinandos o sus puntajes
acciones correctivas y de presentación de reportes. deben tener e implementar una política apropiada
135
para mantener la seguridad e integridad de los da- autorizadas se debe hacer de manera que se pro-
tos, incluyendo la protección de modificaciones teja la naturaleza confidencial de los puntajes y
accidentales o deliberadas, así como la prevención la información complementaria pertinente.
ante pérdidas o destrucción no autorizada. En al-
Comentario: Siempre hace falta poner mucha
gunos casos, es posible que las organizaciones de-
atención cuando se comunican los puntajes de
ban obtener el consentimiento de los examinandos
examinandos identificados, independientemente
para usar o revelar los registros. Se deben establecer
del medio de comunicación. Puede ser necesaria
protocolos apropiados y una seguridad adecuada
una atención similar para proteger la confiden-
cuando los datos confidenciales de una prueba for-
cialidad de la información complementaria, por
man parte de un registro de mayor tamaño (p. ej.,
ejemplo, información de identificación personal
registros médicos electrónicos) o cuando se combi-
sobre el estado de discapacidad de estudiantes o
nan en un almacén de datos. Si los registros se van a
puntajes de pruebas clínicas que comparten los
comunicar para evaluaciones clínicas o forenses, se
médicos. Se deben tomar las precauciones apro-
debe tener cuidado en comunicarlos a las personas
piadas con respecto a la información confidencial
debidamente autorizadas, con las autorizaciones de
en las comunicaciones presenciales, así como por
publicación firmadas por el examinando o la auto-
teléfono, fax y otras formas de comunicación es-
ridad legal pertinente.
crita. De forma similar, la transmisión de datos
de las pruebas a través de medios electrónicos y
Estándar 6.15 la transmisión y almacenamiento en redes com-
putarizadas (incluyendo la transmisión y alma-
Cuando se retienen datos individuales de las
cenamiento inalámbricos o el procesamiento en
pruebas, se debe conservar de alguna forma
Internet) requieren precauciones para mantener
tanto el protocolo de la prueba como cualquier
la confidencialidad y seguridad apropiadas. Tam-
reporte escrito.
bién se debe mantener la integridad de los datos
Comentario: Es posible que el protocolo sea ne- impidiendo la modificación inapropiada de los
cesario para responder una potencial recusación resultados durante tales transmisiones. Los usua-
de un examinando o para facilitar la interpreta- rios de las pruebas son responsables de conocer
ción en un momento posterior. Normalmente, el y adherirse a las obligaciones legales vigentes en
protocolo debería adjuntar los materiales y pun- materia de gestión, transmisión, uso y prácticas
tajes de la prueba. La retención de más registros de retención de datos, incluyendo la recopilación,
detallados de respuestas dependería de las cir- manipulación, almacenamiento y disposición.
cunstancias y debe estar incluida en una política Los usuarios de las pruebas deben establecer y se-
de retención. El mantenimiento de los registros guir las políticas de seguridad apropiadas relacio-
debe estar sujeto a los requisitos legales y profe- nadas con los datos confidenciales de las pruebas
sionales. La política de publicación de cualquier y otra información de evaluación. La publicación
información de la prueba para fines diferentes a la de datos brutos, pruebas o protocolos clínicos a
investigación se trata en el capítulo 9, “Derechos terceros deben seguir las leyes, normativas y di-
y responsabilidades de los usuarios de la prueba”. rectrices proporcionadas por las organizaciones
profesionales y deben tener en cuenta el impacto
Estándar 6.16 de la disponibilidad de las pruebas en dominios
públicos (p. ej., en procesos judiciales) y las posi-
La transmisión de puntajes de pruebas con iden- bilidades de infracción de los derechos de propie-
tificación personal a individuos o instituciones dad intelectual.
136
137
Los responsables de seleccionar las pruebas ne- Los documentos de la prueba deben incluir
cesitan tener la capacidad de juzgar la idoneidad suficiente información para permitir que los
técnica de las pruebas y, por lo tanto, requieren usuarios y revisores de la prueba determinen la
una combinación de manuales técnicos, guías pertinencia de la prueba para los usos previstos.
de usuario, manuales de la prueba, complemen- Se deben citar otros materiales que proporcionen
tos de la prueba, kits de examen y conjuntos de más detalles sobre la investigación por parte del
muestras. Normalmente, estos documentos de editor o de investigadores independientes (p. ej.
respaldo se suministran a los usuarios potenciales las muestras en que se basa la investigación y
o a revisores de la prueba, con suficiente infor- los datos sumariales) y el usuario o revisor de la
mación para permitirles evaluar la pertinencia e prueba debe poder conseguirlos fácilmente. Este
idoneidad técnica de una prueba. Los tipos de material complementario se puede suministrar en
información presentados en estos documentos cualquier tipo de modalidad de publicación o in-
incluyen, por lo general, una descripción de la édita, ya sea en formato papel o electrónico.
población de examinandos objetivo, el propósito Además de la documentación técnica, en al-
declarado de la prueba, las especificaciones de la gunos contextos se requieren materiales descrip-
prueba, los formatos de ítems, los procedimientos tivos para informar a los examinandos y a otras
de administración y calificación, los protocolos partes interesadas de la naturaleza y contenido de
de seguridad de la prueba, los puntajes de corte la prueba. La cantidad y el tipo de información
u otros estándares, y una descripción del proceso suministrada dependerán de la prueba y las aplica-
de desarrollo de la prueba. Habitualmente, tam- ciones específicas. Por ejemplo, en situaciones que
bién se suministran resúmenes de datos técnicos requieren consentimiento informado, la informa-
como, por ejemplo, índices psicométricos de los ción debe ser suficiente para que los examinandos
ítems, evidencias de validez y confiabilidad/preci- (o sus representantes) puedan tener un criterio só-
sión, datos normativos, y puntajes de corte o re- lido sobre la prueba. Esta información debe for-
glas para la combinación de puntajes, incluyendo mularse en lenguaje no técnico y debe contener
las reglas para las interpretaciones generadas por información que sea coherente con el uso de los
computadora. puntajes de la prueba, y debe ser suficiente para
Una característica esencial de la documenta- ayudar a que el usuario tome una decisión infor-
ción para cualquier prueba son las deliberaciones mada. Los materiales pueden incluir una descrip-
de los usos comunes apropiados o inapropiados ción general y la justificación de la prueba, los
de los puntajes y un resumen de la evidencia que usuarios previstos de los resultados de la prueba,
respalda las conclusiones. La inclusión de ejem- ítems de muestra o pruebas con muestras com-
plos de interpretaciones de puntajes coherentes pletas, e información sobre las condiciones de ad-
con las aplicaciones previstas por los desarrollado- ministración, confidencialidad y retención de los
res de la prueba resulta útil para que los usuarios resultados. Sin embargo, para algunas aplicacio-
puedan extraer inferencias precisas sobre la base nes, el nombre y la finalidad verdaderos se ocultan
de los puntajes. Cuando sea posible, los ejemplos o encubren deliberadamente para evitar la simula-
de usos inapropiados de la prueba o de interpreta- ción o el sesgo de las respuestas. En estos casos, los
ciones inadecuadas de los puntajes resultarán úti- examinandos podrían sentirse motivados a revelar
les como salvaguarda ante usos indebidos de las más o menos de una característica que se pretende
pruebas o de sus puntajes. Cuando sea factible, se evaluar. El ocultamiento o encubrimiento de la
deben describir las consecuencias negativas comu- verdadera naturaleza o finalidad de una prueba
nes, no intencionadas, del uso de las pruebas (in- son aceptables siempre y cuando las acciones que
cluyendo las oportunidades perdidas) y se deben comportan sean coherentes con los principios le-
ofrecer sugerencias para evitar tales consecuencias. gales y los estándares éticos.
138
139
140
de corte potenciales), información sobre puntajes resultados y, por lo tanto, se debe documentar.
brutos y puntajes repetidos, datos normativos, los También se debe documentar cualquier cambio
errores estándar de medida y una descripción de en las condiciones estandarizas de las pruebas,
los procedimientos usados para equiparar diversos por ejemplo, las adecuaciones y modificaciones
formularios (véase los capítulos 3 y 4 para obtener hechas en las pruebas o en la administración de
más información sobre evaluación de la imparcia- la prueba. Cuando se facilite la documentación
lidad y sobre los procedimientos y estadísticas de requerida por este estándar, los desarrolladores y
uso común en el desarrollo de pruebas). usuarios deben prestar atención al cumplimiento
de los requisitos legales vigentes y de los estánda-
res profesionales relacionados con la privacidad y
Estándar 7.5 seguridad de los datos.
Los documentos de la prueba deben registrar
las características relevantes de los individuos o Estándar 7.6
grupos de individuos que participan en los tra-
Cuando una prueba está disponible en más de
bajos de recolección de datos asociados con el
un idioma, la documentación de la prueba debe
desarrollo o la validación de la prueba (p. ej., in-
proporcionar información sobre los procedi-
formación demográfica, situación laboral, nivel
mientos que se emplearon para traducir y adap-
de grado), la naturaleza de los datos aportados
tar la prueba. Cuando sea factible, también se
(p. ej., datos de pronóstico, datos de criterio),
deberá suministrar información relacionada con
la naturaleza de los juicios hechos por expertos
la evidencia de confiabilidad/precisión y validez.
en la materia (p. ej., vinculaciones de validación
de contenido), las instrucciones que se propor- Comentario: Además de proporcionar informa-
cionaron a los participantes en los trabajos de ción sobre los procedimientos de traducción y
recolección de datos para tareas específicas, y las adaptación, los documentos de la prueba deben
condiciones bajo las cuales se recolectaron los incluir aspectos demográficos de los traductores
datos del estudio de validez. y muestras de examinandos usadas en el proceso
de adaptación, así como información sobre los
Comentario: Los desarrolladores de la prueba
problemas de interpretación de puntajes en cada
deben describir las características relevantes de
uno de los idiomas a los que la prueba se haya
quienes participan en las diferentes fases del pro-
traducido y adaptado. Cuando sea factible, se de-
ceso de desarrollo de la prueba y qué tareas realizó
berá proporcionar la evidencia de confiabilidad/
cada persona o grupo. Por ejemplo, se debe docu-
precisión, validez y comparabilidad de los punta-
mentar quiénes son los participantes que deter-
jes traducidos y adaptados (véase el estándar 3.14,
minaron los puntajes de corte y sus experiencias
en el capítulo 3, para más información sobre las
pertinentes. En función del uso de los resultados
traducciones).
de la prueba, las características relevantes de los
participantes pueden incluir la raza/origen ét-
nico, género, edad, situación laboral, educación, Unidad 3. Contenido de documentos
situación de discapacidad e idioma principal. Las
descripciones de las tareas y las instrucciones es- de la prueba: Administración y
pecíficas proporcionadas a los participantes pue- calificación de la prueba
den ser útiles para que los futuros usuarios de
la prueba seleccionen, y posteriormente usen, la Estándar 7.7
prueba de manera apropiada. Las condiciones
de las pruebas (por ejemplo, la extensión de la Los documentos de la prueba deben especificar
monitorización en el estudio de validez) pueden las cualificaciones de usuario que se requieren
tener implicaciones para la generalización de los para administrar y calificar una prueba, así como
141
las cualificaciones de usuario necesarias para in- sobre la forma de obtener una prueba calificada.
terpretar con precisión los puntajes. Finalmente, la documentación de administración
de una prueba debe incluir instrucciones para
Comentario: Las declaraciones de las cualificacio-
tratar con las irregularidades en la administra-
nes de usuario deben especificar la capacitación,
ción de la prueba y orientación sobre la forma de
la certificación, las competencias y la experiencia
documentarlas.
necesarias para permitir el acceso a una prueba o a
Si una prueba está diseñada de manera que
los puntajes obtenidos con la misma. Cuando las
se puede usar más de un método para la admi-
cualificaciones se expresan en términos de cono-
nistración o para el registro de las respuestas (por
cimientos, competencias, capacidades y otras ca-
ejemplo, dar las respuestas en un cuadernillo, en
racterísticas requeridas para administrar, calificar
una hoja separada o mediante computadora), el
e interpretar una prueba, la documentación de la
manual debe documentar claramente el grado
prueba debe definir claramente los requisitos, de
en que los puntajes que proceden de la aplica-
manera que el usuario pueda evaluar adecuada-
ción de estos métodos son intercambiables. Si
mente la competencia de los administradores.
los puntajes no son intercambiables, se debe re-
portar este hecho y se proporcionará orientación
Estándar 7.8 sobre la comparabilidad de los puntajes obteni-
dos bajo las diversas condiciones o métodos de
La documentación de la prueba debe incluir ins-
administración.
trucciones detalladas sobre la administración y
calificación de una prueba.
Comentario: Independientemente de que vaya Estándar 7.9
a ser administrada en formato de papel y lápiz,
Si la seguridad de la prueba es crítica para la in-
formato computarizado u oralmente, o de que la
terpretación de los puntajes, la documentación
prueba se base en el desempeño, la documenta-
debe explicar los pasos necesarios para proteger
ción de la prueba debe incluir las instrucciones
los materiales de la prueba y para evitar el inter-
de administración. Cuando proceda, estas ins-
cambio inapropiado de información durante la
trucciones deberán incluir todos los factores re-
sesión de administración.
lacionados con la administración de la prueba,
incluyendo las cualificaciones, competencias y Comentario: Cuando la interpretación correcta
capacitación de los administradores de la prueba; de los puntajes asume que el examinando no se
los equipos necesarios; los protocolos para los ad- ha visto expuesto al contenido de la prueba ni
ministradores; las instrucciones de cronometraje ha recibido asistencia ilícita, las instrucciones
y los procedimientos para la implementación de deben incluir procedimientos para garantizar la
las adecuaciones de la prueba. Cuando estén dis- seguridad del proceso de evaluación y de todos
ponibles, la documentación de la prueba incluirá los materiales de la prueba en todo momento.
estimaciones del tiempo requerido para adminis- Los procedimientos de seguridad pueden in-
trar la prueba a poblaciones clínicas, poblaciones cluir orientación para el almacenamiento y la
con discapacidades u otras poblaciones especiales distribución de los materiales de la prueba, así
con las que se prevé usar la prueba, basándose en como instrucciones para mantener un proceso
los datos obtenidos de estos grupos durante la de evaluación seguro (por ejemplo, la identifica-
normalización de la prueba. Además, los usuarios ción de los examinandos y la colocación de estos
de la prueba necesitan instrucciones sobre cómo para evitar el intercambio de información). Los
calificar una prueba y qué puntajes de corte usar usuarios de la prueba deben ser conscientes de
(o si se deben usar puntajes de corte) en la inter- que las leyes, normativas y políticas federales y
pretación de puntajes. Si el usuario de la prueba estatales pueden afectar a los procedimientos de
no califica la prueba, se deben dar instrucciones seguridad.
142
En muchas situaciones, también se debe man- prueba y representar a miembros de los subgru-
tener la seguridad de los puntajes de las pruebas. pos para los que la prueba resulte pertinente. Para
Por ejemplo, en las pruebas de ascenso de algunos ilustrar la diversidad de los posibles examinandos,
contextos laborales, solo el candidato y el perso- los estudios de caso pueden citar ejemplos donde
nal de contratación tienen autorización para ver participen mujeres y hombres de edades diversas,
los puntajes, y el supervisor actual del candidato individuos que difieren en su orientación sexual,
tiene expresamente prohibido hacerlo. La docu- personas que representen varios grupos raciales o
mentación puede incluir información sobre el étnicos, e individuos con discapacidades. Los de-
almacenamiento de los puntajes y sobre las perso- sarrolladores de la prueba pueden tal vez informar
nas autorizadas para verlos. a los usuarios de que la inclusión de tales ejem-
plos tiene como fin ilustrar la diversidad de los
Estándar 7.10 examinandos potenciales y no promover la inter-
pretación de los puntajes de manera que pueda
Las pruebas diseñadas para ser calificadas e entrar en conflicto con requisitos legales como la
interpretadas por examinandos deben incluir normalización del origen étnico o el género en
instrucciones de calificación y materiales inter- contextos de empleo.
pretativos escritos en un idioma que los exami-
nandos comprendan y que les ayuden a entender
los puntajes de las pruebas. Estándar 7.12
Comentario: Si una prueba está diseñada para ser Cuando los puntajes de las pruebas se usan para
calificada por examinandos o para que sus pun- hacer predicciones sobre el comportamiento fu-
tajes sean interpretados por los mismos, el editor turo, se debe proporcionar al usuario de la prueba
y desarrollador de la prueba deberá desarrollar la evidencia que respalda esas predicciones.
procedimientos que faciliten la calificación e in-
Comentario: Se debe informar al usuario de la
terpretación precisas. El material interpretativo
prueba sobre cualquier puntaje de corte o regla
puede incluir información como, por ejemplo,
para la combinación de puntajes brutos o repor-
el constructo que se ha medido, los resultados
tados que sean necesarios para entender las inter-
del examinando y el grupo de comparación. El
pretaciones de los puntajes. Se debe proporcionar
idioma apropiado para los procedimientos de
una descripción de los grupos de jueces que esta-
calificación y los materiales interpretativos es el
blecen los puntajes de corte y de los métodos usa-
que satisfaga las necesidades específicas del exami-
dos para obtener los puntajes de corte. Cuando
nando. Por lo tanto, es posible que los puntajes y
se requiere la retención de los puntajes de corte o
materiales interpretativos tengan que proporcio-
de las reglas para combinar puntajes por motivos
narse en el idioma nativo del examinando para
de seguridad o propiedad, los propietarios de la
que puedan ser comprendidos.
propiedad intelectual serán responsables de do-
cumentar la evidencia que respalda la validez de
Estándar 7.11 las interpretaciones para los usos previstos. Estas
evidencias se facilitarán, por ejemplo, mediante
Los materiales interpretativos para las pruebas
el reporte de los hallazgos de una revisión inde-
que incluyen estudios de caso deben proporcio-
pendiente de los algoritmos por profesionales
nar ejemplos que ilustren la diversidad de los
cualificados. Cuando se proporcionen interpreta-
posibles examinandos.
ciones de los puntajes, incluyendo interpretacio-
Comentario: Cuando los estudios de caso pue- nes generadas por computadora, se facilitará un
dan ayudar al usuario en la interpretación de los resumen de la evidencia que respalda las interpre-
puntajes y perfiles de la prueba, se deben incluir taciones, así como las reglas y directrices usadas
los estudios de caso en la documentación de la en la formulación de las interpretaciones.
143
144
145
146
A veces, los programas de pruebas usan pun- los detalles de los procedimientos para la detección
tajes especiales, indicadores estadísticos y otros de problemas se mantienen confidenciales para
datos indirectos sobre irregularidades en las prue- evitar comprometer su uso. Sin embargo, se debe
bas para examinar si los puntajes de una prueba informar a los examinandos de que, en circunstan-
se han obtenido limpiamente. Patrones inusuales cias especiales (como anomalías en las respuestas
de respuestas, grandes cambios en los puntajes de o en los puntajes de una prueba), sus respuestas
prueba y contraprueba, la velocidad de las respues- pueden someterse a un escrutinio especial. Se debe
tas e indicadores similares pueden acarrear un es- informar a los examinandos de que, si se detectan
crutinio detallado de determinados protocolos de evidencias de irregularidad o fraude, sus puntajes
evaluación y puntajes de pruebas. Por lo general, podrían anularse o tomarse otras medidas.
147
148
149
alternativa. Los examinandos deben conocer las con discapacidades o de diferentes procedencias
características de cada alternativa que esté dispo- lingüísticas).
nible, de manera que puedan tomar una decisión
informada.
Unidad 2. Derechos de los
Estándar 8.4 examinandos a obtener acceso a los
resultados de sus pruebas y a la
Se debe obtener el consentimiento informado de
los examinandos, o de sus representantes legales protección frente a usos no
si procede, antes de comenzar la prueba, excepto autorizados de estos resultados
(a) cuando la evaluación sin consentimiento sea
obligatoria por ley o normativa gubernamental, Estándar 8.5
(b) cuando la evaluación se lleve a cabo como
parte ordinaria de las actividades escolares, o Se deben considerar cuidadosamente las polí-
(c) cuando el consentimiento sea claramente im- ticas de publicación de puntajes de las pruebas
plícito, por ejemplo, en contextos de empleo. Es que contienen datos de identificación y comu-
posible que la ley y los estándares profesionales nicarse claramente a quienes tengan acceso a los
vigentes requieran el consentimiento informado. puntajes. Las políticas deben garantizar que los
resultados de las pruebas que contengan nom-
Comentario: El consentimiento informado con-
bres de examinandos individuales u otros datos
lleva que los examinandos o sus representantes
de identificación personal solo se divulguen a
tengan conocimiento, en un idioma que pue-
quienes tengan un interés profesional legítimo
dan comprender, de las razones de la evaluación,
en los examinandos y disponga de autorización
los tipos de pruebas que se van a usar, los usos
para acceder a dicha información bajo las leyes
previstos de los resultados de los examinandos u
de privacidad vigentes, a quienes se encuentren
otra información, y de las diversas consecuencias
amparados por documentos de consentimiento
materiales del uso previsto. En general, se reco-
informado de los examinandos o a quienes
mienda que se solicite directamente a las personas
cuente con los permisos legales para obtener ac-
que den su consentimiento formal en lugar de so-
ceso a los resultados.
licitarles únicamente que indiquen si deniegan su
consentimiento. Comentario: Se debe mantener la confidencia-
No se requiere de consentimiento cuando la lidad de los resultados de las pruebas de indivi-
prueba es una obligación legal, como en el caso duos identificados por el nombre o por algún
de una evaluación psicológica por mandato judi- otro dato que permita identificar fácilmente
cial, aunque pueden existir requisitos legales para a una persona, o identificarla rápidamente
suministrar información sobre los resultados de la cuando esa información se combina con otra
sesión de la prueba a los examinandos. Por lo ge- información. En algunos casos, la información
neral, tampoco se requiere el consentimiento en se puede suministrar con carácter confidencial
contextos educativos para las pruebas administra- a otros profesionales con un interés legítimo en
das a todos los alumnos. Cuando se requiere una el caso específico, de modo coherente con las
evaluación por motivos de empleo, acreditación consideraciones legales y éticas, incluyendo, si
o admisiones educativas, los solicitantes otorgan corresponde, las leyes de privacidad. La infor-
implícitamente su consentimiento al enviar su mación podría facilitarse a investigadores si se
solicitud. Cuando sea factible, la persona que ex- cumplen todas las siguientes condiciones: (a) se
plique las razones de una prueba debe tener expe- mantiene la confidencialidad de todos los exa-
riencia en la comunicación con los individuos de minandos, (b) el uso previsto es compatible con
la población objetivo de la prueba (p. ej., personas la práctica de investigación aceptada, (c) el uso
150
151
al examinando una copia del reporte de la prueba puede constituir una infracción a los derechos
y hay un motivo aparente para creer que los pun- de autor. En pruebas de certificación o licencia-
tajes pueden tener una interpretación incorrecta, miento, tales acciones pueden poner en peligro
el examinador o un tercero informado debe estar la salud y la seguridad públicas. En general, la
disponible para interpretarlos, incluso si el re- validez de las interpretaciones de los puntajes se
porte está redactado con claridad, ya que el exa- verá cuestionada por la divulgación inapropiada
minando podría malinterpretar o tener preguntas de la prueba.
que el reporte no responda de manera específica.
En situaciones de pruebas de empleo, cuando los
resultados se usan exclusivamente para decisiones Estándar 8.10
de selección, las renuncias al acceso suelen ser una En programas de pruebas educativas y de acredi-
condición de las solicitudes de empleo, aunque tación, cuando se espera que un reporte de pun-
el acceso a la información de la prueba pueda, taje individual se retrase de forma considerable
con frecuencia, exigirse apropiadamente en otras más allá de un breve periodo de investigación
circunstancias. debido a posibles irregularidades (por ejemplo,
una posible conducta indebida), se debe notifi-
Unidad 4. Responsabilidades de car al examinando y dar el motivo de la investi-
gación. Se deben tomar las medidas razonables
comportamiento de los examinandos para facilitar la revisión y para proteger el interés
a lo largo de todo el proceso de del examinando. Una vez finalizada la investiga-
administración de la prueba ción, se deberá notificar al examinando sobre la
resolución.
Estándar 8.9
Estándar 8.11
Los examinandos deben entender que la suplan-
tación de examinandos para realizar la prueba, la En programas de pruebas educativas y de acre-
divulgación del material de la prueba o la parti- ditación, cuando se considere necesario cancelar
cipación en cualquier forma de engaño son ac- o retener el puntaje de un examinando debido
ciones inaceptables y que tales comportamientos a posibles irregularidades en la prueba, inclu-
pueden acarrear sanciones. yendo una posible conducta indebida, se deberá
explicar el tipo de evidencia y los procedimientos
Comentario: Aunque los Estándares no puedan
generales que se usarán para investigar la irregu-
regular el comportamiento de los examinandos,
laridad a todos los examinandos cuyos puntajes
los examinandos deben ser conscientes de sus
se vean directamente afectados por la decisión.
responsabilidades personales y legales. Disponer
Se proporcionará a los examinandos una oportu-
la suplantación del examinando por otra persona
nidad razonable para que aporten evidencias de
constituye un fraude. En las pruebas diseñadas
que el puntaje no se debería cancelar o retener.
para medir el pensamiento independiente de un
Las evidencias tomadas en consideración para
examinando, proporcionar respuestas que usen
decidir la acción final deberán estar disponibles
el trabajo de otras personas sin atribución o que
para el examinando, a petición.
hayan sido preparadas por alguien distinto al exa-
minando constituye plagio. La divulgación de Comentario: Cualquier forma de engaño o com-
material confidencial de la prueba con la finali- portamiento que reduzca la validez e imparcia-
dad de dar a otros examinandos un conocimiento lidad de las interpretaciones de los resultados
previo interfiere con la validez de las interpreta- de la prueba se deberá investigar con rapidez,
ciones de los puntajes, y la circulación de ítems adoptando las medidas apropiadas. El puntaje de
de la prueba en formato impreso o electrónico una prueba se puede cancelar o retener debido a
152
una posible conducta indebida del examinando Comentario: Cuando se cuestiona o invalida el
o por anomalías que involucren a otras personas, puntaje de un examinando, o cuando un exami-
como el robo o contratiempos administrativos. nando busca una revisión o reconsideración de su
Debe estar disponible un recurso de apelación puntaje o de algún otro aspecto del proceso de
y se debe comunicárselo a los candidatos cuyos prueba, calificación o presentación de reportes,
puntajes se podrían enmendar o retener. Algunas el examinando tiene derecho a un proceso metó-
organizaciones de evaluación ofrecen la opción dico para un debate o revisión eficaz de la toma
de una contraprueba rápida y gratuita o el arbi- de decisiones del administrador o usuario de la
traje de disputas. La información proporcionada prueba. En función de la magnitud de las con-
a los examinandos deberá ser lo suficientemente secuencias asociadas con la prueba, este proceso
específica para entender la evidencia que se usa puede incluir desde una revisión interna de todos
para respaldar la alegación de irregularidades los datos pertinentes por un administrador hasta
en la prueba, pero no tan específica como para una conversación informal con un examinando
divulgar los secretos comerciales o facilitar el o una extensa audiencia administrativa. Cuanto
engaño. mayores sean las consecuencias, mayor será el
grado de protecciones procesales que deberán es-
tar disponibles. Los examinandos también debe-
Estándar 8.12
rán conocer los procedimientos para el recurso,
En programas de pruebas educativas y de acre- las posibles tasas asociadas con los procedimien-
ditación, un examinando tiene derecho a un tra- tos de recurso, el tiempo previsto de resolución
tamiento imparcial y a un proceso de resolución y cualquier otro asunto importante relacionado,
razonable, apropiado a las circunstancias espe- incluyendo las consecuencias para el examinando.
cíficas, con respecto a los cargos asociados con Algunos programas de pruebas pueden recomen-
las irregularidades de la prueba o a las cuestio- dar que el examinando esté representado por un
nes planteadas por el examinando relacionadas abogado, aunque posiblemente con gastos a cargo
con la precisión de la calificación o de la clave del examinando. En función de las circunstancias
de calificación. Los examinandos tienen derecho y el contexto, los principios de los procedimien-
a recibir información sobre cualquier medio de tos reglamentarios podrían ser pertinentes para el
recurso disponible. proceso aplicado a los examinandos.
153
155
156
comunicación, tribunales y el público en general cualificados para integrar esta diversa informa-
suelen preferir interpretaciones inequívocas de ción de manera eficaz.
los datos de una prueba. En particular, tienden No es apropiado que estos estándares dicten
a atribuir los resultados positivos o negativos niveles mínimos de correlación de criterios de
(incluyendo las diferencias de grupos) a un solo pruebas, precisión de clasificación o confiabili-
factor o a las condiciones que prevalecen en una dad/precisión para un propósito determinado.
institución social —en la mayoría de los casos, el Tales niveles dependen de factores como la natu-
hogar o la escuela. Frecuentemente, estos consu- raleza del constructo medido, la edad de los in-
midores de datos de pruebas presionan por ob- dividuos sometidos a la prueba y si las decisiones
tener justificaciones basadas en los puntajes para se deben tomar inmediatamente en base a la me-
decisiones que solo se basan parcialmente en los jor evidencia disponible, aunque sea escasa, o si
puntajes de las pruebas. Un usuario de la prueba se pueden retrasar hasta que esté disponible una
sensato ayudará a todas las partes interesadas a evidencia mejor. Sin embargo, resulta apropiado
comprender que las decisiones correctas relacio- que los usuarios se cercioren de las alternativas
nadas con el uso de una prueba y la interpretación existentes, la calidad y las consecuencias de estas
de los puntajes incluyen un elemento de juicio alternativas, y de si un retraso en la toma de de-
profesional. No siempre resulta evidente para los cisiones resultaría beneficioso. Como suele pasar
consumidores que la elección de diversos proce- en el desarrollo de pruebas, los equilibrios costo-
dimientos de recolección de información implica beneficio resultan necesarios en el uso de pruebas.
una experiencia que no se puede cuantificar o ver- No obstante, en algunos contextos, los requisitos
balizar con facilidad. El usuario puede ayudar a legales pueden establecer límites al grado de tales
que los consumidores reconozcan el hecho de que equilibrios. Como pasa con los estándares para las
la ponderación de datos cuantitativos, la informa- diversas fases del desarrollo de pruebas, cuando
ción educativa u ocupacional, las observaciones los estándares pertinentes no se cumplen en el uso
conductuales, los reportes anecdóticos y otros de la prueba, los motivos deben ser convincentes.
datos relevantes no siempre se pueden especifi- Cuanto mayor sea el impacto potencial sobre los
car con precisión. No obstante, los usuarios de la examinandos, para bien o para mal, mayor será la
prueba deben proporcionar reportes e interpreta- necesidad de identificar y satisfacer los estándares
ciones de los datos de la prueba que sean claros y pertinentes.
comprensibles. En la selección de una prueba y la interpre-
Debido a que frecuentemente los resultados tación del puntaje, se espera que el usuario de la
de una prueba se reportan de forma numérica, prueba tenga un conocimiento claro del propósito
suelen tener una apariencia de precisión, y a veces de la prueba y de sus consecuencias probables. El
se tolera que los datos de la prueba anulen otras usuario informado tendrá ideas definidas sobre
fuentes de evidencia sobre los examinandos. Hay cómo conseguir estos propósitos y cómo evitar la
circunstancias en las que una selección basada parcialidad y las consecuencias no deseables. Al
exclusivamente en los puntajes de una prueba suscribir estos Estándares, los editores de la prueba
puede resultar apropiada (p. ej., en el cribado y los organismos que encargan el uso de la prueba
laboral previo). Sin embargo, en contextos edu- aceptan proporcionar información sobre los pun-
cativos, psicológicos, forenses y algunos de em- tos fuertes y débiles de sus instrumentos. Aceptan
pleo, se recomienda a los usuarios de la prueba (y la responsabilidad de advertir de posibles interpre-
podría ser legalmente obligatorio) que consideren taciones incorrectas por intérpretes no sofisticados
otras fuentes relevantes de información sobre los de puntajes individuales o datos agregados. Sin
examinandos y no solo los puntajes. En estas si- embargo, la responsabilidad última del uso y la
tuaciones, los psicólogos, educadores u otros pro- interpretación correctos recae principalmente en
fesionales familiarizados con el contexto local y el usuario de la prueba. Al asumir esta responsa-
con los examinandos locales suelen estar mejor bilidad, el usuario deberá adquirir conocimientos
157
sobre los usos apropiados de la prueba y las pobla- gran escala. Si se usa el mismo material de pruebas
ciones para las cuales resulta idónea. El usuario de en años sucesivos, los usuarios deberán supervi-
la prueba deberá estar preparado para desarrollar sar activamente el programa para determinar si la
un análisis lógico que respalde las diversas face- reutilización ha puesto en riesgo la integridad de
tas de la evaluación y las inferencias extraídas de los resultados.
los resultados de la evaluación. Los usuarios de la Algunos de los estándares siguientes reiteran
prueba en todos los contextos (p. ej. clínico, de ideas incluidas en otros capítulos, sobre todo el
orientación, de acreditación, educativos, empleo, capítulo 3 (“Imparcialidad en las pruebas”), el
forense, psicológico) también deberán convertirse capítulo 6 (“Administración, calificación, presen-
en expertos en comunicar las implicaciones de los tación de reportes e interpretación de pruebas”),
resultados de la prueba a quienes estén facultados el capítulo 8 (“Derechos y responsabilidades de
para recibir esta información. los examinandos”), el capítulo 10 (“Pruebas y
En algunos casos, es posible que los usuarios evaluación psicológicas”), el capítulo 11 (“Prue-
tengan la obligación de recopilar evidencias adi- bas y acreditación en el centro de trabajo”) y el
cionales sobre la calidad técnica de la prueba. capítulo 12 (“Pruebas y evaluación educativas”).
Por ejemplo, si las evaluaciones de desempeño se La repetición es intencional. Permite la enumera-
califican localmente, se podría requerir evidencia ción en un capítulo de las principales obligaciones
del grado de concordancia entre evaluadores. Los que debe asumir el administrador y usuario de la
usuarios también deben estar atentos a las proba- prueba, aunque estas responsabilidades pueden
bles consecuencias locales del uso de la prueba, hacer referencia a temas que se tratan con mayor
sobre todo en el caso de programas de pruebas a detalle en otros capítulos.
158
159
160
obstante, estas hipótesis se deben etiquetar clara- solventar cualquier consecuencia negativa que se
mente como provisionales. Las partes interesa- pueda producir.
das deben tener conocimiento de las limitaciones
potenciales de los puntajes de la prueba en tales Estándar 9.7
situaciones.
Los usuarios de la prueba deben verificar perió-
Estándar 9.5 dicamente que sus interpretaciones de los datos
de la prueba siguen siendo apropiadas frente a
Los usuarios de la prueba deben estar atentos a cualquier cambio relevante en la población de
la posibilidad de errores de puntaje y deben to- examinandos, los métodos de administración o
mar las medidas apropiadas cuando se sospeche los propósitos de la evaluación.
la existencia de errores.
Comentario: A lo largo del tiempo, un cambio
Comentario: Los costos de los errores de puntaje gradual de las características de una población de
son altos, sobre todo en los programas de pruebas examinandos puede afectar de forma significativa
de alto riesgo. En algunos casos, el examinando a la precisión de las inferencias extraídas de medias
puede solicitar una nueva calificación. Si este grupales. Las modificaciones en la administración
derecho del examinando se reconoce en mate- de la prueba en respuesta a circunstancias imprevis-
riales publicados, debe respetarse. Sin embargo, tas también pueden afectar a las interpretaciones.
los usuarios de la prueba no deben depender de
que los examinandos sean quienes los alerten de Estándar 9.8
la posibilidad de errores de puntaje. Cuando sea
factible, la supervisión de la precisión de los pun- Cuando los resultados de una prueba se comu-
tajes deberá ser una responsabilidad de rutina de nican al público o a los responsables de políti-
los administradores de un programa de pruebas y cas, los responsables de la comunicación deben
se debe llevar a cabo una recalificación cuando se proporcionar y explicar cualquier información
sospeche la existencia de errores. complementaria que pueda minimizar posibles
interpretaciones erróneas de los datos.
Estándar 9.6 Comentario: Los usuarios de la prueba tienen la
responsabilidad de reportar los resultados de ma-
Los usuarios de la prueba deben estar atentos
nera que faciliten las interpretaciones previstas
a potenciales interpretaciones erróneas de los
para los usos propuestos de los puntajes, y esta
puntajes de la prueba; deberán adoptar medi-
responsabilidad se extiende más allá del exami-
das para minimizar o evitar las interpretaciones
nando individual y llega a los grupos o individuos
erróneas previsibles y los usos inapropiados de
a quienes se proporciona los puntajes. Los usua-
los puntajes.
rios de la prueba en situaciones de evaluaciones
Comentario: Audiencias no capacitadas pueden grupales son responsables de garantizar que los
adoptar interpretaciones simplistas de los resulta- individuos que usan los resultados de la prueba
dos de una prueba o pueden atribuir los puntajes estén capacitados para interpretar correctamente
altos, bajos o promedios a factores causales únicos. los puntajes. Presentaciones preliminares antes de
A veces, los usuarios de la prueba pueden antici- la publicación de los resultados pueden dar a pe-
par tales interpretaciones erróneas y deben inten- riodistas, responsables de políticas o miembros el
tar evitarlas. Por supuesto, no es posible anticipar público la oportunidad de asimilar los datos fun-
todas las interpretaciones no deseadas y pueden damentales. A menudo, la interpretación errónea
producirse consecuencias negativas imprevistas. puede ser el resultado de una presentación inade-
Lo que se requiere es un esfuerzo razonable para cuada de la información relevante para la inter-
propiciar interpretaciones y usos válidos y para pretación de los puntajes.
161
Los usuarios de la prueba no deben depender Comentario: Pueden darse resultados sesgados
exclusivamente de interpretaciones genera- por la exclusión de subgrupos específicos de exa-
das por computadora de los resultados de la minandos. Por lo tanto, las decisiones de exclu-
prueba. sión o inclusión de examinandos deben basarse
en la representación apropiada de la población.
Comentario: El usuario de servicios de cali-
ficación y presentación de reportes generados
automáticamente tiene la obligación de fami- Estándar 9.13
liarizarse con los principios que sirven de base
En contextos educativos, clínicos o de orienta-
a esas interpretaciones. Todos los usuarios que
ción, el puntaje de un examinando no se debe
formulan inferencias y toman decisiones sobre
interpretar de forma aislada; se debe considerar
la base de esos reportes deben tener la capacidad
otro tipo de información pertinente que pueda
de evaluar una interpretación de puntaje gene-
llevar a explicaciones alternativas del desempeño
rada por computadora a la luz de otra eviden-
del examinando en la prueba.
cia pertinente de un examinando. Los reportes
narrativos automatizados no sustituyen al juicio Comentario: No es factible ni necesario realizar
profesional sólido y pueden ser equívocos si se una revisión intensiva de los puntajes de cada
usan de forma aislada. uno de los examinandos. En algunos contextos, la
162
información colateral puede ser escasa o no existir a los examinandos sobre la disponibilidad de las
en absoluto. Sin embargo, en contextos de orien- adecuaciones. La responsabilidad de solicitar las
tación, clínicos o educativos, a veces se encuentra adecuaciones y de proporcionar documentación
disponible abundante información pertinente. que respalde sus solicitudes puede recaer entonces
Las explicaciones alternativas evidentes de pun- en los examinandos o en sus tutores. Los usuarios
tajes bajos pueden incluir una baja motivación, de la prueba deberán tener la capacidad de espe-
fluidez limitada en el idioma de la prueba, opor- cificar la información o evidencia (p. ej., manual
tunidad limitada de aprendizaje, escasa familiari- de la prueba, estudio de investigación) usada para
dad con conceptos culturales en los que se basan optar por una adecuación apropiada.
los ítems y discapacidad perceptual o motora. El
usuario de la prueba corrobora los resultados de
la evaluación con información adicional de una Unidad 2. Diseminación de la
variedad de fuentes, por ejemplo, entrevistas y re-
información
sultados de otras pruebas (p. ej., para examinar
el concepto de confiabilidad del desempeño a lo
largo del tiempo o de varias pruebas). Cuando Estándar 9.15
una inferencia se basa en un solo estudio o en
Se debe informar a quienes tienen un interés
estudios con muestras no representativas de los
legítimo en una evaluación sobre los propósitos
examinandos, el usuario de la prueba deberá te-
de esta, cómo se administrarán las pruebas, los
ner mayor cautela con respecto a la inferencia
factores considerados en la calificación de las res-
formulada. En contextos clínicos o de orienta-
puestas de los examinandos, cómo se usarán los
ción, el usuario de la prueba no debe pasar por
puntajes, durante cuánto tiempo de retendrán
alto el grado de funcionamiento del examinando
los registros y a quién y bajo qué condiciones se
en la vida diaria. Si las pruebas se administran
divulgarán.
mediante computadoras y otros dispositivos elec-
trónicos o a través de Internet, los usuarios de la Comentario: Los individuos con un interés le-
prueba seguirán teniendo la responsabilidad de gítimo en los resultados de la evaluación inclu-
proporcionar respaldo a la interpretación de los yen, entre otros, a los examinandos, los padres
puntajes, incluyendo consideraciones de explica- o tutores, los educadores y los magistrados. Este
ciones alternativas cuando sea apropiado. estándar tiene un mayor grado de relevancia y
aplicación para la evaluación educativa y clínica
que para la evaluación laboral. En la mayoría de
Estándar 9.14 los usos de las pruebas para la selección de soli-
citantes de empleo y programas educativos, para
Los usuarios de la prueba deben informar a los
la concesión de licencias profesionales y de acre-
individuos que puede necesitar adecuaciones en
ditaciones, o para medir el rendimiento, los pro-
la administración (p. ej. adultos mayores, exami-
pósitos de la evaluación y los usos previstos de los
nandos con discapacidades o estudiantes de in-
puntajes resultan evidentes para los examinandos.
glés) sobre la disponibilidad de las adecuaciones
Sin embargo, se recomienda comunicar esta infor-
y, cuando se requieran, deben asegurarse de que
mación al menos brevemente en estos contextos.
estas adecuaciones estén disponibles de forma
No obstante, en algunas situaciones, es posible
apropiada.
que la justificación de la evaluación solo quede
Comentario: Las adecuaciones apropiadas depen- clara para relativamente pocos examinandos. En
den de la naturaleza de la prueba y las necesidades tales contextos, puede ser necesario un análisis
de los examinandos, y deben estar en consonan- más detallado y explícito. La retención de regis-
cia con la documentación proporcionada con la tros, los requisitos de seguridad y la privacidad de
prueba. Los usuarios de la prueba deben informar los registros suelen regirse por requisitos legales
163
o prácticas institucionales, incluso en situaciones Comentario: Es posible que los monitores de los
donde la divulgación de registros sería claramente programas de pruebas de admisión o licencia-
beneficiosa para los examinandos. Antes de la eva- miento reporten irregularidades en el proceso de
luación, cuando proceda, el usuario de la prueba administración de la prueba que se traduzcan en
deberá comunicar al examinando quien va a te- cuestionamientos por parte de los examinandos
ner acceso a los resultados y al reporte escrito, de (p. ej., alarma de incendios en un edificio o fallo
qué manera se compartirán los resultados con el temporal del acceso a Internet). Cuando los pun-
examinando y si los resultados se van a compartir tajes de las pruebas sean manifiestamente inco-
con un tercero o el público, y en qué condiciones herentes con la información de otros candidatos,
(p. ej. en procesos judiciales). los usuarios de la prueba (p. ej., funcionarios de
admisión a la universidad) podrían plantear otros
cuestionamientos. Los examinandos deberán ser
Estándar 9.16 informados de sus derechos en tales situaciones,
A menos que las circunstancias demanden clara- si los hubiere.
mente que los resultados de la prueba se reten-
gan, el usuario de la prueba tiene la obligación Estándar 9.18
de proporcionar un reporte oportuno de los re-
Los usuarios de la prueba deben explicar a los
sultados al examinando y a otros facultados para
examinandos las oportunidades, si las hubiere,
recibir esta información.
para repetir un examen; los usuarios también de-
Comentario: Con frecuencia, la naturaleza de los ben indicar si se reportará algún puntaje previo
reportes de puntajes viene dictada por conside- o posterior a las personas facultadas para recibir
raciones prácticas. En algunos casos (p. ej., con los reportes de puntajes.
algunas certificaciones o pruebas de empleo),
Comentario: Algunos programas de pruebas per-
solo puede ser factible un breve reporte escrito.
miten a los examinandos repetir un examen varias
En otros casos, podría ser deseable facilitar tanto
veces, cancelar los puntajes u ocultar los puntajes
un reporte oral como un reporte escrito. La inter-
pretación debe variar de acuerdo con el nivel de a destinatarios potenciales. Se debe informar a los
sofisticación del destinatario. Cuando el exami- examinandos y a otros destinatarios de puntajes
nando es un niño, son los padres o tutores quienes de tales privilegios, si los hubiese, y de las condi-
suelen recibir una explicación de los resultados. ciones bajo las que se aplican.
Cuando las pruebas se administran para selección
o promoción de personal, o en otras circunstan- Estándar 9.19
cias específicas, no siempre se suministra un co-
mentario en forma de reporte o interpretación del Los usuarios de la prueba tienen la obligación de
puntaje. En algunos casos, las leyes de privacidad proteger la privacidad de los examinandos y las
estatales o federales pueden regir el alcance y los instituciones que participan en un programa de
destinatarios de la información divulgada. pruebas, a menos que se acuerde la divulgación
de información privada o esté autorizada por la
ley de manera específica.
Estándar 9.17
Comentario: La protección de la privacidad de los
Si un examinando o usuario de la prueba tiene examinandos individuales es un principio bien es-
dudas sobre la integridad de los puntajes de los tablecido en la medición psicológica y educativa.
examinandos, el usuario de la prueba debe infor- El almacenamiento y la transmisión de este tipo
mar al examinando de sus derechos pertinentes, de información deben cumplir los estándares le-
incluyendo la posibilidad de apelación y repre- gales y profesionales vigentes, y se debe extremar
sentación letrada. la precaución para proteger la confidencialidad
164
de los puntajes y la información complementaria comunidades a las que sirven y facilitar la crea-
(p. ej., la condición de discapacidad). En algunos ción de políticas comunes relacionadas con la
casos, los usuarios de la prueba y los organismos publicación de los resultados. Por ejemplo, en
de evaluación pueden adoptar restricciones más muchos estados, la publicación de datos de prue-
estrictas de las que dicta la ley con respecto a la co- bas educativas a gran escala suele ser una exigencia
municación y uso compartido de los resultados de legal. Sin embargo, incluso cuando no se requiere
las pruebas. Es posible que se apliquen las leyes de la publicación de datos, pero se realiza de forma
privacidad a determinados tipos de información y, rutinaria, los usuarios de la prueba deben tener
a veces, los códigos de ética adoptados por organi- políticas claras que rijan los procedimientos de
zaciones profesionales pueden contener estándares publicación. Diferentes políticas sin las justifica-
similares o más estrictos. En algunos programas ciones apropiadas pueden confundir al público y
de pruebas las condiciones para la divulgación causar controversias innecesarias.
se indican al examinando antes de la evaluación,
y hacer la prueba puede constituir la aceptación Unidad 3. Seguridad de la prueba y
de la divulgación de los puntajes correspondien-
protección de los derechos de autor
tes, de la manera en que se especifique. En otros
programas, el examinando (o sus padres o tutores)
deberán aceptar formalmente cualquier divulga- Estándar 9.21
ción de información de la prueba a individuos u
Los usuarios de la prueba tienen la responsabili-
organismos que no se hayan especificado en la lite-
dad de proteger la seguridad de las pruebas, in-
ratura publicada del administrador. Es posible que
cluyendo la de ediciones anteriores.
las leyes de privacidad vigentes, si las hubiere, rijan
y permitan (como en el caso de los distritos escola- Comentario: Cuando las pruebas se usan para
res para fines de rendición de cuentas) o prohíban fines de selección, acreditación, rendición de
(como en contextos clínicos) la divulgación de la cuentas en el ámbito educativo, o para diag-
información de la prueba. Se debe señalar que, con nóstico, tratamiento y monitorización clínicos,
frecuencia, la ley garantiza el derecho del público resulta esencial la protección rigurosa de la se-
y los medios a examinar los resultados agregados guridad de la prueba por motivos relacionados
de las pruebas del sistema público de educación. con la validez de las inferencias extraídas, la
Esto suele incluir los puntajes de las pruebas desa- protección de los derechos de propiedad intelec-
gregados por subgrupos demográficos cuando los tual y los costos asociados con el desarrollo de
números son suficientes para generar resultados pruebas. Los desarrolladores y editores de prue-
estadísticamente válidos y para evitar la identifica- bas, y los individuos titulares de los derechos de
ción de los examinandos individuales. autor de las pruebas, proporcionarán directrices
específicas sobre la seguridad de la prueba y la
eliminación de los materiales de la prueba. El
Estándar 9.20 usuario de la prueba tiene la responsabilidad
de garantizar la seguridad de los materiales de
En situaciones donde los resultados de la prueba
la prueba de acuerdo con las directrices profe-
se comparten con el público, los usuarios de la
sionales establecidas para la prueba, así como
prueba deben formular y compartir la política
con los estándares legales vigentes. La reventa de
establecida relacionada con la publicación de los
materiales protegidos por derechos de autor en
resultados (p. ej., pertinencia temporal, nivel
foros abiertos es una violación de este estándar,
de detalle) y aplicar esa política a lo largo del
y las grabaciones de audio y vídeo para fines de
tiempo de forma sistemática.
entrenamiento se deben gestionar de manera que
Comentario: Los desarrolladores y usuarios de no se divulguen al público. Estas prohibiciones
la prueba deben considerar las prácticas de las también se aplican a las ediciones anteriores de
165
la prueba; los usuarios de la prueba deberán ayu- como hojas de respuestas y formularios de perfi-
dar a garantizar que los materiales se eliminen de les, plantillas de calificación, tablas de conversión
forma segura cuando ya no estén en uso (p. ej., de puntajes brutos a puntajes reportados y tablas
en el momento de su retirada o después de la de normas. El almacenamiento y transmisión de
compra de una nueva edición). En tales situacio- la información de la prueba debe cumplir los es-
nes, la coherencia y la claridad de la definición tándares legales y profesionales vigentes.
de prácticas aceptables y no aceptables resultan
esenciales. Cuando las pruebas se vean involucra- Estándar 9.23
das en litigios, se debe restringir la inspección de
los instrumentos (en la medida en que lo permita Los usuarios de la prueba deben recordar a todos
la ley) a quienes tengan la obligación de salva- los examinandos, incluyendo a aquellos que rea-
guardar la seguridad de la prueba por imperativo lizan pruebas administradas electrónicamente, y
legal o ética profesional. a otras personas que puedan tener acceso a los
materiales de la prueba, que las políticas y nor-
Estándar 9.22 mativas sobre derechos de autor pueden prohibir
la divulgación de los ítems de la prueba sin auto-
Los usuarios de la prueba tienen la responsa- rización específica.
bilidad de respetar los derechos de autor de la
Comentario: En algunos casos, la información
prueba, incluyendo los derechos de autor de
sobre los derechos de autor y las prohibiciones
pruebas que se administren mediante dispositi-
sobre la divulgación de los ítems de la prueba se
vos electrónicos.
proporcionan en formato escrito o verbal como
Comentario: Por ley y ética, los usuarios de la parte del procedimiento previo al inicio de una
prueba no pueden reproducir o crear versiones prueba o como parte de los procedimientos de
electrónicas de materiales protegidos por de- administración. No obstante, incluso en los casos
rechos de autor para usos rutinarios sin el con- en que esta información no es parte formal de la
sentimiento del titular de los derechos de autor. administración de la prueba, si los materiales es-
Estos materiales (tanto en formato papel como tán protegidos por derechos de autor, los usuarios
electrónico) incluyen ítems de la prueba, proto- de la prueba deberán informar a los examinandos
colos de la prueba, formularios complementarios de sus responsabilidades en esta área.
166
169
170
prueba se diseñó originalmente y que tienen dis- comenzar el proceso de evaluación, el usuario de
ponibles datos normativos iniciales y posteriores la prueba o la parte responsable (p. ej., el padre, o
son también consideraciones importantes para la tutor legal) deberá saber quién va a tener acceso a
selección de pruebas. Seleccionar una prueba con los resultados de la prueba y al reporte escrito, de
grupos normativos apropiados demográfica y clí- qué manera se compartirán los resultados con el
nicamente, pertinentes para el examinando y para examinando, y si las decisiones que se basan en los
el propósito de la evaluación, es importante para resultados se van a compartir con el examinando,
la generabilidad de las inferencias que los pro- un tercero o el público y cuándo (p. ej. en proce-
fesionales tratan de formular. Es posible que no sos judiciales).
sea apropiado aplicar a otros grupos una prueba Los administradores de pruebas deben ser
construida para un grupo concreto. Si la prueba conscientes de las limitaciones personales que
se usa, las interpretaciones de los puntajes se de- afectan a su capacidad de administrar y calificar
berán clasificar y presentar como hipótesis y no una prueba de manera precisa e imparcial. Es-
como conclusiones. tas limitaciones pueden incluir factores físicos,
Las pruebas y los inventarios que cumplen los perceptuales y cognitivos. Algunas pruebas pre-
exigentes estándares técnicos de calidad son una sentan exigencias considerables a los administra-
condición necesaria, pero no suficiente, para una dores (p. ej., registrar las respuestas rápidamente,
administración y calificación de pruebas responsa- manipulación de equipos o ejecución de ítems
ble, y para la interpretación y uso de los puntajes. complejos durante la administración). Los admi-
Un profesional que lleva a cabo una evaluación nistradores de pruebas que no pueden cumplir de
psicológica debe disponer de una capacitación y forma cómoda estas exigencias no deben adminis-
entrenamiento completos y apropiados, adquirir trar tales pruebas. Para las pruebas que requieren
las acreditaciones adecuadas, adherirse a las direc- instrucciones orales antes o durante su adminis-
trices éticas profesionales y tener un alto grado de tración, los administradores deberán asegurarse
juicio profesional y de conocimientos científicos. de que no existen barreras a una clara compren-
Los profesionales que supervisan las pruebas sión por parte de los examinandos.
y la evaluación deben ser expertos en los procedi- Cuando se usan baterías de pruebas, el profe-
mientos correctos de administración de pruebas. sional debe determinar el orden apropiado de las
Son los responsables de garantizar que todas las pruebas que se administran. Por ejemplo, cuando
personas que administran y califican las pruebas se administren pruebas cognitivas o neuropsico-
hayan recibido la capacitación y entrenamiento lógicas, algunos profesionales administran pri-
adecuados para llevar a cabo las tareas asignadas. mero las pruebas que evalúan dominios básicos
Los administradores de pruebas deben adminis- (p. ej., la atención) y termina con pruebas que
trar las pruebas tal como se indica en los manuales evalúan dominios más complejos (p. ej., funcio-
de las pruebas y deben adherirse a los estándares nes ejecutivas). Los profesionales también tienen
éticos y profesionales. Por lo general, la educación la responsabilidad de establecer las condiciones
y la experiencia necesarias para administrar prue- de la evaluación que sean apropiadas para las ne-
bas de grupo o para monitorizar pruebas adminis- cesidades y capacidades de los examinandos. Por
tradas por computadora son menos extensas que ejemplo, es posible que el examinador tenga que
las cualificaciones necesarias para administrar e determinar si un examinando es capaz de leer en
interpretar puntajes de pruebas administradas in- el nivel requerido y si las discapacidades visuales,
dividualmente, que requieren interacciones entre auditivas, psicomotoras o clínicas o los déficits
el examinando y el administrador de la prueba. neurológicos cuentan con las adecuaciones co-
En muchas situaciones donde se requieren ob- rrectas. El capítulo 3 trata en detalle las conside-
servaciones de conducta complejas, es posible raciones y estándares relacionados con el acceso.
que no sea apropiado el uso de no profesionales La administración estandarizada no es nece-
para administrar o calificar las pruebas. Antes de saria para todas las pruebas, pero es importante
171
para la interpretación de los puntajes en muchas de evaluación. Cuando son evidentes unos bajos
pruebas y propósitos. En esas situaciones, se de- niveles de esfuerzo y motivación durante la admi-
ben seguir los procedimientos de administración nistración de la prueba, seguir con la evaluación
estandarizada de pruebas. Cuando se requieran podría traducirse en interpretaciones incorrectas
o admitan procedimientos de administración no de los puntajes.
estándar, estos se deben describir y justificar. Si Los profesionales tienen la responsabilidad de
la prueba no estaba monitorizada o si se admi- proteger la confidencialidad y seguridad de los
nistró bajo procedimientos no estandarizados, resultados y materiales de las pruebas. El almace-
se debe informar al intérprete de los resultados. namiento y la transmisión de este tipo de infor-
En algunos casos, la administración de la prueba mación deberán cumplir los estándares legales y
puede proporcionar la oportunidad para que exa- profesionales.
minadores especializados observen atentamente el
desempeño de los examinandos bajo condiciones Interpretación de los puntajes
estandarizadas. Por ejemplo, las observaciones de las pruebas
de los administradores de la prueba les pueden
permitir el registro de los comportamientos que Idealmente, los puntajes usados en la evaluación
se evalúan, entender la manera en que los exa- psicológica se interpretan a la luz de un número
minandos llegan a las respuestas, identificar los de factores, incluyendo los datos normativos dis-
puntos fuertes y débiles de los examinandos, y ponibles apropiados para las características del
hacer modificaciones en el proceso de evaluación. examinando, las propiedades psicométricas de la
Si las pruebas se administran por computadora u prueba, los indicadores de esfuerzo, las circunstan-
otros dispositivos técnicos, el profesional tiene la cias del examinando en el momento de ejecutar la
responsabilidad de determinar si el propósito de prueba, la estabilidad temporal de los constructos
la evaluación y las capacidades del examinando que se miden, y los efectos de las variables mo-
requieren la presencia de un monitor o personal deradoras y las características demográficas en los
de respaldo (p. ej., para ayudar con el uso de las resultados de la prueba. Es poco frecuente que el
computadoras o el software). Asimismo, algunas profesional tenga los recursos disponibles para
pruebas administradas por computadora pueden realizar personalmente la investigación o para re-
requerir que se dé al examinando la oportunidad copilar las normas representativas que, en algunos
de recibir instrucciones y practicar antes de la tipos de evaluación, serían necesarias para hacer
administración de la prueba. Los capítulos 4 y 6 inferencias sobre el funcionamiento pasado, pre-
proporcionan detalles adicionales sobre las prue- sente y futuro de cada examinando. Por lo tanto,
bas administradas por medios tecnológicos. es posible que el profesional tenga que basarse
Esfuerzos inapropiados por parte de la persona en la investigación y el corpus de conocimientos
que está en evaluación podrían afectar los resulta- científicos disponibles para la prueba que respalda
dos de la evaluación psicológica e introducir erro- las inferencias apropiadas. La presentación de la
res en la medida del constructo en cuestión. Por evidencia de validación y confiabilidad/precisión
lo tanto, en algunos casos, se deberá explicar al no suele ser necesaria en el informe escrito que
examinando la importancia de emplear los esfuer- resume las conclusiones de la evaluación, pero el
zos apropiados cuando se lleva a cabo una prueba. profesional debe hacer todos los esfuerzos necesa-
En muchas pruebas, la medida del esfuerzo se rios para conocer (y estar preparado para articu-
puede deducir de pruebas independientes o de lar) tal evidencia si fuese necesario.
respuestas incorporadas en un procedimiento Cuando se deducen características y se hacen
de evaluación estándar (p. ej., número elevado de inferencias sobre los comportamientos pasados,
errores, respuestas no coherentes y respuestas in- presentes y futuros de un examinando a partir de
usuales correspondientes a patrones de síntomas) los puntajes de una prueba, el profesional debe
y el esfuerzo se puede medir a lo largo del proceso considerar otros datos disponibles que respalden
172
o cuestionen las inferencias. Por ejemplo, el pro- inexactas o equívocas. En situaciones donde se
fesional deberá revisar el historial y la información anticipa el sesgo de las respuestas o la simulación,
de comportamientos pasados del examinando, así los profesionales pueden seleccionar una prueba
como la literatura pertinente, para familiarizarse que tenga escalas (p. ej., porcentaje de “sí”, por-
con la evidencia de respaldo. En ocasiones, el pro- centaje de “no”; “simulación positiva” “simu-
fesional también deberá corroborar los resultados lación negativa”) que aclaren los riesgos para la
de una sesión de evaluación con los resultados de validez. De este modo, los profesionales podrían
otras pruebas y sesiones de evaluación para exa- evaluar el grado de tolerancia de los examinandos
minar la confiabilidad/precisión y la validez de a las demandas percibidas del administrador de la
las inferencias formuladas sobre el desempeño de prueba o los intentos de presentarse a sí mismos
un examinando a lo largo del tiempo o de varias como discapacitados (con “simulación negativa”)
pruebas. La triangulación de varias fuentes de o funcionales (“simulación positiva”).
información, incluyendo comportamientos esti- Con frecuencia, para algunos fines (incluida
lísticos y de ejecución que se deducen de la ob- la orientación profesional y la evaluación neu-
servación durante la administración de la prueba, ropsicológica), se usan baterías de pruebas. Por
puede reforzar la confianza en la inferencia. Es ejemplo, las baterías de orientación profesional
importante que se reconozcan los datos que no podrían incluir pruebas de capacidades, valores,
respaldan las inferencias y bien conciliarse con intereses y personalidad. Las baterías neuropsico-
otra información o anotarse como limitación de lógicas podrían incluir medidas de orientación,
la confianza puesta en la inferencia. Cuando hay atención, habilidades comunicativas, función
una sólida evidencia para la confiabilidad/preci- ejecutiva, fluidez, habilidades motoras visuales y
sión y la validez de los puntajes para los usos pre- visuales-espaciales, resolución de problemas, or-
vistos, y una sólida evidencia de la idoneidad de la ganización, memoria, inteligencia, rendimiento
prueba para el examinando que se evalúa, aumen- académico y/o personalidad, junto con baterías de
tará la competencia del profesional para extraer esfuerzo. Con frecuencia, cuando las baterías de
inferencias apropiadas. Cuando una inferencia se pruebas psicológicas incorporan varios métodos y
basa en un solo estudio o se basa en varios estudios puntajes, los patrones de resultados de las pruebas
cuyas muestras tienen una generabilidad limitada se interpretan como el reflejo de un constructo o
respecto del examinando, el profesional deberá ser incluso de una interacción entre constructos que
más cauteloso con la inferencia y deberá anotar subyace en el desempeño de las pruebas. Basán-
en el reporte las limitaciones relacionadas con las dose en los patrones de los puntajes de las prue-
conclusiones extraídas de la inferencia. bas, se podrían postular las interacciones entre los
La definición clara de la forma en que se van a constructos que subyacen en las configuraciones
utilizar pruebas psicológicas concretas minimizará de resultados de la prueba Cuando sea posible, se
los riesgos para la interpretabilidad de los pun- debe identificar la literatura que reporta evidencia
tajes obtenidos. Estos riesgos se producen como de confiabilidad/precisión y validez de las confi-
resultados de la varianza irrelevante de constructo guraciones de los puntajes que respaldan las inter-
(es decir, aspectos de la prueba y del proceso de pretaciones propuestas. Sin embargo, se entiende
evaluación que no son pertinentes para el propó- que existe poca o ninguna literatura que describa
sito de los puntajes de la prueba) y la subrepre- la validez de las interpretaciones de los puntajes
sentación del constructo (es decir, la incapacidad de baterías de pruebas flexibles o altamente per-
de la prueba de representar importantes aspectos sonalizadas. El profesional debe reconocer que
para el propósito de la evaluación). El sesgo de las es habitual que se produzca variabilidad de los
respuestas y la simulación son ejemplos de com- puntajes en distintas pruebas de una batería en
ponentes irrelevantes de constructo que pueden la población general y, si están disponibles, debe
desviar considerablemente los puntajes obtenidos, usar datos de valoración de referencia para deter-
traduciéndose posiblemente en interpretaciones minar si la variabilidad observada es excepcional.
173
174
Rendimiento académico. Las pruebas de rendi- de habilidades y capacidades. Los resultados de las
miento académico miden los conocimientos y la pruebas se usan para formular inferencias sobre
competencia que ha adquirido una persona en el nivel general de funcionamiento intelectual de
situaciones formales e informales de aprendizaje. una persona y sobre los puntos fuertes y débiles de
Los dos principales tipos de pruebas de rendi- varias capacidades cognitivas, y para diagnosticar
miento académico son las baterías generales de trastornos cognitivos.
rendimiento y las pruebas diagnósticas de rendi-
miento. Las baterías generales de rendimiento es- Función ejecutiva. Este tipo de funciones inter-
tán diseñadas para evaluar el nivel de aprendizaje vienen en los desempeños organizados (p. ej.,
de una persona en varias áreas (p. ej., lectura, ma- flexibilidad cognitiva, control inhibitorio, mul-
temáticas y ortografía). Por el contrario, las prue- titarea) que se necesitan para la consecución in-
bas diagnósticas de rendimiento se centran, por dependiente, deliberada y efectiva de objetivos
lo general, en un área temática (p. ej., la lectura) en diversas situaciones sociales, el procesamiento
y evalúan una competencia académica con mayor cognitivo y la resolución de problemas. Algunas
detalle. Los resultados de las pruebas se usan para pruebas remarcan (a) los planes razonados de
determinar los puntos fuertes de los examinandos acción que anticipan las consecuencias de solu-
y también para identificar fuentes de dificultades ciones alternativas, (b) el desempeño motor en
o deficiencias académicas. El capítulo 12 propor- situaciones de resolución de problemas que re-
ciona detalles adicionales sobre pruebas de rendi- quieren intenciones orientadas a los objetivos, y/o
miento académico en contextos educativos. (c) la regulación del desempeño para conseguir un
resultado deseado.
Atención. La atención se refiere a un dominio que
abarca los constructos de estimulación, creación Lenguaje. Por lo general, las deficiencias de
de conjuntos, despliegue estratégico de atención, lenguaje se identifican con evaluaciones que se
atención continua, atención dividida, atención centran en la fonología, morfología, sintaxis,
concentrada, atención selectiva y vigilante. Las semántica, supralingüística y pragmática. Se
pruebas pueden medir (a) los niveles de alerta, pueden evaluar varias funciones, incluyendo las
orientación y localización; (b) la capacidad de capacidades y habilidades de lectura, auditivas,
centrar, desplazar y mantener la atención y de y de lenguaje oral y escrito. Las evaluaciones de
seguir uno o más estímulos bajo diversas con- trastornos de lenguaje se centran en el habla fun-
diciones; (c) la amplitud de la atención; y (d) el cional y la compresión verbal medidas a través de
funcionamiento del almacenamiento de atención los modos orales, escritos o gestuales; el acceso y la
a corto plazo. Los puntajes de cada uno de los elaboración léxicos; la repetición de lenguaje oral
aspectos de la atención que se haya examinado se y la fluidez verbal asociativa. Si se evalúa a una
deben reportar individualmente, de manera que persona multilingüe por un posible trastorno de
sea posible clarificar la naturaleza de un trastorno lenguaje, se debe abordar el grado en que el tras-
de atención. torno se debe más directamente a problemas de
desarrollo del lenguaje (p. ej., retrasos fonológi-
Capacidad cognitiva. Entre las pruebas más ex- cos, morfológicos, sintácticos, semánticos o prag-
tensamente administradas están las medidas dise- máticos; discapacidades intelectuales; deterioros
ñadas para cuantificar las capacidades cognitivas. periféricos, sensoriales o neurológicos centrales;
La interpretación de resultados de una prueba de condiciones psicológicas o trastornos sensoriales)
capacidad cognitiva se rige por los constructos que a una falta de destreza en un determinado
teóricos usados para desarrollar la prueba. Algunas idioma.
evaluaciones de la capacidad cognitiva se basan en
resultados de baterías de pruebas multidimensio- Aprendizaje y memoria. Este tipo de funciones
nales diseñadas para acceder a una amplia gama incluye la adquisición, retención y recuperación
175
176
177
personal, para la orientación profesional, el aseso- profesional. Habitualmente, los inventarios que
ramiento en reasignación y la toma de decisiones miden el desarrollo y la madurez profesional re-
en el ámbito vocacional. Con frecuencia, estas caban autodescripciones en respuesta a los ítems
intervenciones tienen lugar en el contexto de re- que preguntan sobre el conocimiento del indivi-
habilitación educativa y vocacional. No obstante, duo del mundo laboral; autovaloraciones de sus
las pruebas vocacionales también se pueden usar capacidades en la toma de decisiones; las actitudes
en el centro de trabajo como parte de programas hacia las profesiones y la elección de profesiones;
corporativos de desarrollo profesional. y el grado actual de compromiso de los individuos
en la planificación profesional. Por lo general, las
Inventarios de intereses. La medición de intereses medidas de la indecisión profesional se constru-
está diseñada para identificar las preferencias de yen y estandarizan para evaluar el nivel de indeci-
una persona con respecto a diversas actividades. sión profesional de un examinando y las razones
Los inventarios de autoevaluación de intereses o antecedentes de esa indecisión. Los resultados
son muy utilizados para evaluar las preferencias de estas pruebas se utilizan, con frecuencia, como
personales, incluyendo el agrado o aversión por guía para el diseño y el suministro de servicios
diversos trabajos y actividades de ocio, áreas esco- profesionales a individuos y grupos, y para eva-
lares, ocupaciones o tipos de personas. Los pun- luar la eficacia de las intervenciones profesionales.
tajes resultantes pueden proporcionar una mayor
comprensión de los tipos y patrones de intereses Propósitos de las pruebas
en planes de estudio (p. ej., especialidades uni- y evaluación psicológicas
versitarias), diversos campos de trabajo (p. ej.,
ocupaciones específicas), o en áreas más básicas y Para fines de este capítulo, el uso de las pruebas
generales de interés relacionadas con actividades psicológicas se ha dividido en cinco categorías:
concretas (p. ej., ventas, prácticas de oficina o ac- pruebas de diagnóstico; pruebas de evaluaciones
tividades mecánicas). neuropsicológicas; pruebas de planificación de
intervenciones y evaluación de resultados; prue-
Inventarios de valores del trabajo. La medición bas para decisiones judiciales y gubernamentales;
de valores del trabajo identifica las preferencias y pruebas de conciencia personal, identidad so-
de una persona por los diversos reforzamientos cial, y salud, desarrollo y acción psicológicos. Sin
que se pueden obtener de las actividades de tra- embargo, no siempre estas categorías son mutua-
bajo. A veces estos valores se identifican como mente exclusivas.
necesidades que esas personas tratan de satisfacer.
Los valores o necesidades del trabajo se pueden Pruebas de diagnóstico
categorizar como intrínsecas e importantes por El diagnóstico se refiere a un proceso que incluye
el placer obtenido de la actividad (p. ej., ser in- la recopilación e integración de los resultados de
dependiente, usar las habilidades personales) o las pruebas con información previa y actual sobre
extrínsecas e importantes por las compensaciones una persona, junto con las condiciones contex-
que aportan (p. ej., pago, ascensos). En general, tuales pertinentes, para identificar característi-
el formato de las pruebas de valores del trabajo cas de funcionamiento psicológico saludable, así
incluye una autoclasificación de la importancia como trastornos psicológicos. Los trastornos se
del valor asociado con las cualidades descritas por pueden manifestar por sí mismos en la informa-
los ítems. ción obtenida durante la evaluación de los atri-
butos cognitivos, emocionales, de adaptación, de
Medidas de desarrollo, madurez e indecisión conducta, de personalidad, neuropsicológicos,
profesionales. Áreas adicionales de la evaluación físicos o sociales.
vocacional incluyen medidas del desarrollo y la Las pruebas psicológicas resultan útiles para
madurez profesional, y medidas de la indecisión los profesionales involucrados en el diagnóstico
178
de la salud psicológica de un individuo. La eva- diferir considerablemente de otra prueba que usa
luación se puede llevar a cabo para confirmar un título similar o de una subescala que usa el
un diagnóstico hipotesizado o para descartar mismo término. Por ejemplo, algunos sistemas
diagnósticos alternativos. El diagnóstico se com- diagnósticos pueden definir la depresión por
plica por la prevalencia de la comorbilidad en- sintomatología conductual (p. ej., retardo psico-
tre categorías de diagnósticos. Por ejemplo, un motor, perturbaciones en el apetito o el sueño),
individuo diagnosticado con demencia podría por sintomatología afectiva (p. ej., sentimientos
ser diagnosticado simultáneamente como depre- disfóricos, monotonía emocional) o por sintoma-
sivo. O un niño diagnosticado con discapacidad tología cognitiva (p. ej., pensamientos de deses-
de aprendizaje también podría ser diagnosticado peración, morbilidad). Además, los síntomas de
con el trastorno por déficit de atención e hipe- las categorías diagnósticas raramente son mutua-
ractividad. El objetivo del diagnóstico es propor- mente exclusivas. Por lo tanto, se puede prever que
cionar una breve descripción de la disfunción varias categorías diagnósticas puedan compartir
psicológica del examinando y ayudar a que cada un síntoma dado. Se podrían obtener inferencias
examinando reciba las intervenciones apropiadas formuladas con más información y precisión re-
para la disfunción psicológica o conductual que lacionadas con un diagnóstico de los puntajes de
el cliente, o un tercero, considera que afecta al las pruebas si se diese una ponderación apropiada
funcionamiento previsto del cliente y/o a su ca- a los síntomas incluidos en la categoría diagnós-
lidad de vida. Cuando la intención de la evalua- tica y a la idoneidad de cada prueba para evaluar
ción es el diagnóstico diferencial, el profesional los síntomas. Por lo tanto, el primer paso en la
debe usar pruebas donde exista evidencia de que evaluación de la idoneidad de una prueba para la
los puntajes discriminan entre dos o más grupos obtención de puntajes o información indicativa
de diagnóstico. Las diferencias de medias entre de un síndrome específico de diagnóstico es com-
grupos no proporcionan suficiente evidencia para parar el constructo que la prueba tiene previsto
la precisión del diagnóstico diferencial; los desa- medir con la sintomatología descrita en los crite-
rrolladores de pruebas también deben suministrar rios de diagnóstico.
información adicional como los tamaños de los Se pueden usar distintos métodos para evaluar
efectos o datos que indiquen el grado de superpo- categorías diagnósticas específicas. Algunos mé-
sición entre grupos de criterios. En el desarrollo todos se basan fundamentalmente en entrevistas
de planes de tratamiento, los profesionales suelen estructuradas que usan un formato de “sí” / “no”
usar descripciones de diagnóstico no categóricas o “verdadero” / “falso”, donde el profesional se
del funcionamiento del cliente, junto con dimen- interesa en la presencia o ausencia de la sintoma-
siones pertinentes al tratamiento (p. ej., capacidad tología específica del diagnóstico. Otros métodos
funcional, grado de ansiedad, grado de descon- suelen basarse sobre todo en pruebas de perso-
fianza, receptividad a interpretaciones, grado de nalidad o de funcionamiento cognitivo y usan
conocimiento de los comportamientos y nivel de configuraciones de los puntajes obtenidos. Estas
funcionamiento intelectual). configuraciones de puntajes indican el grado de
Los criterios de diagnóstico pueden variar de similitud de las respuestas de los examinandos
un sistema de nomenclatura a otro. Anotar el sis- con respecto a las respuestas de individuos que
tema de nomenclatura en uso es un paso inicial pertenecen a un grupo de diagnóstico específico,
importante porque distintos sistemas diagnósti- de acuerdo con investigaciones previas.
cos pueden usar el mismo término para describir Los diagnósticos hechos con la ayuda de pun-
distintos síntomas. Incluso dentro de un sistema tajes de pruebas se suelen basar en relaciones em-
diagnóstico, los síntomas descritos por el mismo píricamente demostradas entre el puntaje de la
término pueden diferir entre distintas ediciones prueba y la categoría diagnóstica. Actualmente,
del manual. De forma similar, una prueba que están actualmente estudios de validez que de-
usa un término de diagnóstico en el título puede muestran las relaciones entre los puntajes de las
179
pruebas y algunas categorías diagnósticas, aun- neuroquímicos que puedan surgir durante el
que no todas. Muchos otros estudios acreditan la desarrollo o de psicopatologías, lesiones corpo-
evidencia de validación para las relaciones entre rales o cerebrales, o enfermedad. Por lo general,
los puntajes de las pruebas y varios subconjun- los propósitos de las pruebas neuropsicológicas
tos de síntomas que contribuyen a una categoría incluyen, entre otros, los siguientes: diagnóstico
diagnóstica. Aunque a menudo no resulta factible diferencial asociado con las fuentes de disfun-
para los profesionales individuales llevar a cabo ción cognitiva, perceptual y de personalidad;
personalmente una investigación entre los pun- diagnóstico diferencial entre dos o más presun-
tajes obtenidos y las categorías diagnósticas es tas etiologías de disfunción cerebral; evaluación
importante familiarizarse con la literatura inves- de funcionamiento deficiente secundario a un
tigativa que examina estas relaciones. evento cortical o subcortical; establecimiento de
A menudo, el profesional puede mejorar las medidas de referencia neuropsicológicas para el
interpretaciones del diagnóstico que se derivan control de enfermedades cerebrales progresivas o
de los puntajes de las pruebas mediante la inte- los efectos de la recuperación; identificación de
gración de esos resultados con inferencias for- patrones de funciones y disfunciones corticales
muladas a partir de otras fuentes de información superiores para la formulación de estrategias de
sobre el funcionamiento del examinando, por recuperación y para el diseño de procedimientos
ejemplo, información del historial de autoeva- correctivos; y caracterización de las funciones de
luaciones proporcionada por personas allegadas la conducta cerebral para ayudar en acciones judi-
u observaciones sistemáticas en el entorno na- ciales civiles o penales.
tural o en el contexto de evaluación. En el pro-
ceso para llegar a un diagnóstico, un profesional Pruebas de planificación de intervenciones y
también debe buscar información que no corro- evaluación de resultados
bore el diagnóstico y, en algunos casos, deter- Con frecuencia, los profesionales se basan en los
minar límites apropiados al grado de confianza resultados de las pruebas para la asistencia en la
que se da al diagnóstico. Cuando sea pertinente planificación, ejecución y evaluación de interven-
para una decisión de remisión, el profesional ciones. Por lo tanto, es importante su nivel de co-
debe reconocer los diagnósticos alternativos que nocimiento respecto de la información de validez
pueden requerir consideración. Se debe prestar que respalda o no las relaciones entre los resultados
especial atención a todos los datos disponibles de las pruebas, las intervenciones prescritas y los
pertinentes antes de concluir que un exami- resultados deseados. Las intervenciones se pueden
nando encaja en una categoría diagnóstica. La usar para prevenir la aparición de uno o más sín-
competencia cultural resulta esencial para evi- tomas, para remediar las deficiencias y para aten-
tar los diagnósticos erróneos o patologizar en der las necesidades psicológicas, físicas y sociales
exceso un comportamiento, afecto o cognición básicas de una persona con el fin de mejorar su
culturalmente apropiada. Las pruebas también calidad de vida. Por lo general, la planificación de
se usan para evaluar la idoneidad de continuar una intervención se produce después de una eva-
el diagnóstico inicial, especialmente después de luación de la naturaleza, evolución y severidad de
un plan de tratamiento o si el funcionamiento un trastorno y de una revisión de las condiciones
psicológico del cliente ha cambiado a lo largo personales y contextuales que pueden afectar a su
del tiempo. resolución. Podrían darse evaluaciones posterio-
res que requieran de la administración repetida de
Pruebas de evaluaciones neuropsicológicas la misma prueba en un esfuerzo de diagnosticar la
Las pruebas neuropsicológicas analizan el ac- naturaleza y severidad del trastorno, para revisar
tual estado psicológico y conductual de un los efectos de las intervenciones, para revisar las
examinando, incluyendo manifestaciones de intervenciones según sea necesario y para cumplir
los cambios neurológicos, neuropatológicos o los estándares éticos y legales.
180
181
182
de un proceso educativo o de desarrollo profesio- psicológicas dentro de los límites definidos por los
nal, o en otras situaciones. principios educativos, de experiencia y éticos del
profesional. Los capítulos y estándares anteriores
Resumen pertinentes para las pruebas y la evaluación psico-
lógicas describen aspectos generales sobre la cali-
El uso responsable de las pruebas en la práctica dad (cap. 1 y 2), imparcialidad (cap. 3), diseño y
psicológica requiere que el profesional se compro- desarrollo (cap. 4) y administración (cap. 6) de las
meta a desarrollar y mantener los conocimientos pruebas. El capítulo 11 examina el uso de pruebas
y la competencia necesarios para seleccionar, ad- para el centro de trabajo, incluyendo la acredita-
ministrar e interpretar las pruebas e inventarios ción, y la importancia de la recopilación de datos
como elementos cruciales del proceso de pruebas que proporcionen evidencia de la precisión de una
y evaluación psicológicas (véase el cap. 9). Los prueba para la predicción de desempeño en el tra-
estándares de este capítulo ofrecen un marco de bajo; el capítulo 12 examina las aplicaciones educa-
orientación para los profesionales para la consecu- tivas; y el capítulo 13 examina el uso de las pruebas
ción de relevancia y eficacia en el uso de pruebas en evaluación de programas y políticas públicas.
183
184
185
186
por la profesión y/o la fuente de referencia, y la in- evaluaciones. Además, a menudo se usan pruebas
formación se deberá documentar de manera que de esfuerzo o simulación para determinar la posi-
sea comprensible para la fuente de referencia. En bilidad de fraude o simulación.
algunas situaciones clínicas, podría ser perjudicial
compartir observaciones con el examinando. Se Estándar 10.13
debe prestar atención para minimizar las conse-
cuencias imprevistas de las observaciones de una Cuando la validez de un diagnóstico se valora
prueba. Cualquier divulgación de los resultados de mediante la evaluación del nivel de concordan-
una prueba a un individuo o cualquier decisión de cia entre interpretaciones de los puntajes de una
no divulgar tales resultados deberá ser coherente prueba y el diagnóstico, los términos o catego-
con los estándares legales vigentes, por ejemplo, rías diagnósticas empleadas se deben definir o
con las leyes de privacidad. identificar cuidadosamente.
Comentario: Dos sistemas de diagnóstico que se
usan de forma habitual son los relacionados con la
Estándar 10.12
psiquiatría (es decir, basados en el Manual diag-
En la evaluación psicológica, la interpretación de nóstico y estadístico de los trastornos mentales) y
puntajes de pruebas o de patrones de resultados con la salud (es decir, basados en la Clasificación
de una batería de pruebas debe considerar otros internacional de enfermedades). Se debe anotar el
factores que pueden influir en una determinada sistema usado para diagnosticar al examinando, se-
conclusión de la evaluación. Si procede, se debe gún sea pertinente. Algunos síndromes (p. ej., de-
incluir en el reporte una descripción de tales fac- terioro cognitivo leve, discapacidad del aprendizaje
tores y un análisis de las hipótesis o explicacio- social) no aparecen en ninguno de los sistemas;
nes alternativas que pueden haber contribuido a para estos, se debe usar una descripción de las de-
los patrones de resultados. ficiencias, con el diagnóstico más cercano posible.
Comentario: Existen muchos factores que pue-
den influir en los resultados de pruebas indi- Estándar 10.14
viduales o en las conclusiones generales de una
Cuando los profesionales presenten recomenda-
evaluación psicológica (por ejemplo, la cultura, el
ciones o decisiones en términos de base actuarial,
género, la raza u origen étnico, el nivel educativo,
debe estar disponible la evidencia de validación
el ser diestro o zurdo, el estado mental actual, el
relacionada con los criterios.
estado de salud, las preferencias lingüísticas y la
situación de la prueba). Cuando se preparan las Comentario: Las interpretaciones de las prue-
interpretaciones de los puntajes de una prueba y bas no deben implicar la existencia de evidencia
los reportes extraídos de una evaluación, los pro- empírica de una relación entre los resultados de
fesionales deben considerar el grado en que esos pruebas específicas, intervenciones prescritas y
factores pueden introducir varianza irrelevante de conclusiones deseadas, a menos que tal evidencia
constructo en los resultados de la prueba. Cuando esté disponible para poblaciones similares a las re-
sea posible o apropiado, también se debe informar presentativas del examinando.
la interpretación de los resultados de una prueba
en el proceso de evaluación a través de un análisis Estándar 10.15
de las características estilísticas y cualitativas del
comportamiento en la realización de la prueba, La interpretación de los resultados de una
que se puedan obtener de las observaciones, en- prueba o de una batería de pruebas para fines
trevistas e información histórica. La inclusión diagnósticos se debe basar en varias fuentes de
de información cualitativa puede ser útil para la pruebas e información colateral, y en el conoci-
comprensión de las conclusiones de las pruebas y miento de los principios normativos, empíricos
187
188
189
experimentados y, por lo tanto, sus puntajes se especializadas, ya que el trabajo no requiere estas
verían afectados. Una persona no familiarizada especializaciones o porque la organización tiene
con la tecnología puede tener dificultades con la previsto ofrecer capacitación una vez contratadas.
interfaz de usuario en una evaluación con simu- En otros casos, se buscan trabajadores cualificados
laciones computarizadas. En cada uno de estos o con experiencia, con la expectativa de que pue-
casos, el desempeño se ve obstaculizado por una dan desempeñar de inmediato un trabajo especia-
fuente de varianza que no está relacionada con el lizado. Por lo tanto, un trabajo específico puede
constructo de interés. Una práctica de pruebas co- requerir sistemas de selección muy diferentes, en
rrecta supone una supervisión cuidadosa de todos función de la contratación o promoción de indi-
los aspectos del proceso de evaluación y tomar viduos cualificados o no cualificados.
las medidas apropiadas cuando se requieren para
evitar ventajas o desventajas indebidas de algunos Corto plazo vs. largo plazo. En algunos casos, el
candidatos, causadas por factores no relacionados objetivo del sistema de selección es predecir el
con el constructo que se evalúa. desempeño inmediatamente o poco después de la
contratación. En otros casos, el interés es el des-
Pruebas de empleo empeño a largo plazo, como en el caso de pre-
dicciones que se refieren a la posibilidad de que
La influencia del contexto en el uso de la prueba los candidatos lleven a cabo satisfactoriamente
Las pruebas de empleo comportan el uso de la in- una tarea asignada en el extranjero y a lo largo
formación de la prueba como ayuda en la toma de varios años. Las cuestiones sobre el cambio de
de decisiones sobre el personal. Tanto el contenido tareas y requisitos del trabajo también pueden lle-
como el contexto de las pruebas de empleo pueden var a centrarse en los conocimientos, capacidades,
variar en gran medida. El contenido puede abar- habilidades y otras características que se prevén
car varios dominios de conocimientos, capacida- necesarias para el desempeño del trabajo objetivo
des, habilidades, rasgos, actitudes, valores y otras en el futuro, incluso si no son parte de la configu-
características individuales. Algunas características ración actual del trabajo.
contextuales representan elecciones hechas por la
organización empleadora; otras representan restric- Cribado de inclusión vs. cribado de exclusión. En
ciones que deben tenerse en cuenta por esa misma algunos casos, el objetivo del sistema de selección
organización. Las decisiones sobre el diseño, la es cribar a los individuos que pueden ofrecer un
evaluación y la implementación del sistema de alto desempeño en un conjunto de criterios de
evaluación son específicas al contexto donde se va conducta o de resultados de interés para la orga-
a usar el sistema. Entre las características contex- nización. En otros, el objetivo es hacer una criba
tuales importantes se incluye las siguientes: de exclusión de las personas que probablemente
tendrían un desempeño deficiente. Por ejemplo,
Conjunto de candidatos internos vs. externos. es posible que una organización quiera descartar
En algunos casos, como en contextos de promo- a una pequeña proporción de individuos que pre-
ción, los candidatos que se someten a la prueba sentan un alto riesgo de comportamiento patoló-
son ya empleados de la organización. En otros, gico, anormal, contraproducente o criminal. La
se buscan solicitudes de individuos que no perte- misma organización puede requerir un cribado de
nezcan a la organización. También se puede dar el inclusión de personas con una alta probabilidad
caso de que se busque una combinación de candi- de desempeño óptimo.
datos internos y externos.
Toma de decisiones mecánica vs. crítica. En al-
Candidatos cualificados vs. no cualificados. gunos casos, la información de la prueba se usa de
En algunos casos, se buscan personas con poca manera automatizada y mecánica. Este es el caso
cualificación en conocimientos o capacidades cuando los puntajes de una batería de pruebas se
190
combinan mediante fórmulas y los candidatos se Tamaño de muestra pequeño vs. grande. El ta-
seleccionan en un estricto orden descendente de maño de una muestra afecta al grado de uso de
clasificación, o cuando únicamente los candidatos distintas líneas de evidencia para el examen de la
con puntajes de corte específicos resultan elegi- validez e imparcialidad de las interpretaciones de
bles para continuar con las fases posteriores de un los puntajes para los usos previstos de las pruebas.
sistema de selección. En otros casos, la informa- Por ejemplo, para tamaños de muestra peque-
ción de una prueba se integra críticamente con la ños, no resulta técnicamente factible basarse en
información de otras pruebas y con información el contexto local para establecer relaciones empí-
externa a las pruebas para formar una evaluación ricas entre la prueba y los puntajes de criterios.
general del candidato. En pruebas de empleo, los tamaños de muestra
suelen ser pequeños; el ejemplo extremo es un
Uso continuo vs. uso puntual de una prueba. En trabajo con un solo titular. En ocasiones, están
algunos casos, una prueba se puede usar en una or- disponibles tamaños de muestra grandes cuando
ganización a lo largo de un periodo extenso, permi- hay varios titulares para el trabajo, cuando varios
tiendo la acumulación de datos y experiencias en el trabajos comparten requisitos similares y se pue-
uso de la prueba en ese contexto. En otros casos, la den agrupar, o cuando organizaciones con traba-
preocupación sobre la seguridad de la prueba hace jos similares colaboran para desarrollar un sistema
que el uso repetido no sea factible y se requiere una de selección.
nueva prueba en cada administración. Por ejem-
plo, una prueba de trabajo para socorristas donde Un nuevo trabajo. Un caso especial del problema
se requiera el rescate de un maniquí desde el fondo de un tamaño de muestra pequeño se produce
de una piscina no se ve afectada si los candidatos cuando se crea un nuevo trabajo y no hay titula-
tienen un conocimiento detallado de la prueba con res para el mismo. A medida que surgen nuevos
antelación. Por el contrario, una prueba escrita de trabajos, los empleadores necesitan procedimien-
conocimientos para agentes de policía puede verse tos de selección para cubrir los nuevos puestos.
seriamente afectada si algunos candidatos tienen Se puede usar el juicio profesional para identificar
acceso por adelantado a la prueba. La cuestión pruebas de empleo apropiadas y proporcionar una
clave es si el conocimiento previo del contenido de justificación para el programa de selección, in-
una prueba afecta de forma indebida el desempeño cluso si la variedad de métodos para documentar
de los candidatos y, en consecuencia, cambia el la validez presenta limitaciones. Aunque es raro
constructo medido por la prueba y la validez de las que la evidencia de validación basada en estudios
inferencias basadas en los puntajes. orientados a criterios se pueda recabar antes de la
creación de un nuevo trabajo, es posible usar mé-
Conjunto fijo vs. flujo continuo de candidatos. todos para generalizar la evidencia de validación
En algunos casos, se puede reunir un conjunto en situaciones con tamaños de muestra pequeños
de candidatos antes del comienzo del proceso de (véase el análisis en la página 192 sobre contextos
selección, como sucede cuando la política de una con muestras pequeñas), así como estudios orien-
organización es considerar a todos los candidatos tados a criterios que trabajan con expertos en la
que se presenten antes de una fecha específica. En materia responsables de diseñar el trabajo.
otros casos, hay un flujo continuo de postulantes
sobre los que se debe tomar decisiones de empleo Tamaño del conjunto de candidatos relativo al
de forma continuada. En el caso de un conjunto número de vacantes de trabajo. El tamaño del
fijo, es posible una clasificación de los candidatos; conjunto de candidatos puede limitar el tipo de
en el caso de un flujo continuo, es posible que sistema de evaluación viable. En el caso de tra-
la decisión sobre cada candidato deba tomarse bajos atractivos, puede existir un alto número de
independientemente de la información de otros candidatos y se podrían usar pequeñas pruebas
candidatos. de cribado para reducir el conjunto a un tamaño
191
práctico para la administración de pruebas más evaluación de la evidencia pertinente para sostener
caras y prolongadas. Grandes conjuntos de can- o cuestionar esta inferencia. Como se explicó ante-
didatos también pueden comportar problemas de riormente en el capítulo 1 (en la sección “Eviden-
seguridad de la prueba, limitando a la organiza- cia basada en relaciones con otras variables”), se
ción a métodos de evaluación que permitan una puede usar una variedad de estrategias de validez
administración simultánea a todos los candidatos. para respaldar la inferencia.
Por lo tanto, establecer esta inferencia predic-
Por lo tanto, el uso de la prueba por parte de los tiva requiere prestar atención a dos dominios: el
empleadores está condicionado por las caracterís- dominio de la prueba (el predictor) y el dominio
ticas contextuales. El conocimiento de estas carac- del comportamiento o resultado de trabajo de in-
terísticas juega un papel importante en el juicio terés (el criterio). Evaluar el uso de una prueba
profesional que influirá en los tipos de sistemas para una decisión de empleo se puede considerar
de evaluación desarrollados y en las estrategias como una evaluación de la hipótesis de la vincula-
usadas para evaluar críticamente la validez de las ción entre estos dominios. Operativamente, exis-
interpretaciones de los puntajes para los usos pre- ten muchas formas de relacionar estos dominios,
vistos de la prueba. como ilustra el siguiente diagrama.
El proceso de validación en las pruebas de Medida de Medida de
1
empleo predictor criterio
192
respecto de las características evaluadas en esos constructo de criterio. Como ilustra el diagrama,
dominios. existen diversas estrategias para establecer esta
El diagrama enumera inferencias sobre un nú- vinculación esencial. Una estrategia es directa, a
mero de vinculaciones que suelen ser de interés. través de la vinculación 5; una segunda implica el
La primera vinculación (con la etiqueta 1 en el emparejamiento de las vinculaciones 1 y 4; y una
diagrama) se da entre los puntajes de una medida tercera comporta el emparejamiento de las vincu-
de predictor y los puntajes de una medida de crite- laciones 2 y 3.
rio. Esta inferencia se prueba a través de exámenes Cuando la prueba está diseñada como un
empíricos de las relaciones entre las dos medidas. ejemplo del dominio de constructo de criterio, la
Las vinculaciones segunda y cuarta (con las eti- evidencia de validación se puede establecer direc-
quetas 2 y 4) son conceptualmente similares: Am- tamente a través de la vinculación 5. Otra estrate-
bas examinan la relación de una medida operativa gia para la relación entre una medida de predictor
con el dominio de constructo de interés. Entre las y el dominio de constructo de criterio se centra en
formas de evidencia que se pueden examinar en la las vinculaciones 1 y 4: emparejar una vinculación
evaluación de estas vinculaciones están el análisis empírica entre el predictor y las medidas de cri-
lógico, el juicio experto y la convergencia con (o terio con la evidencia de idoneidad con la que la
la divergencia de) medidas conceptualmente si- medida de criterio representa el dominio de cons-
milares o diferentes. La vinculación 3 implica la tructo de criterio. La vinculación empírica entre
relación entre el dominio de constructo de pre- la medida de predictor y la medida de criterio es
dictor y el dominio de constructo de criterio. La parte de lo que los Estándares denominan eviden-
vinculación inferida se establece sobre la base de cia de validación basada en relaciones con otras
un análisis teórico y lógico. Habitualmente, se variables. La vinculación empírica de la prueba
basa en una evaluación sistemática del contenido y la medida de criterio debe complementarse con
del trabajo y el juicio experto sobre las caracterís- la evidencia de relevancia de la medida de criterio
ticas individuales relacionadas con un desempeño para el dominio de constructo de criterio, a fin de
de trabajo óptimo. La vinculación 5 examina una completar la vinculación entre la prueba y el do-
relación directa de la medida de predictor con el minio de constructo de criterio. La evidencia de
dominio de constructo de criterio. relevancia de la medida de criterio para el domi-
Algunas medidas de predictor están diseña- nio de constructo de criterio se basa normalmente
das explícitamente como ejemplos de dominios en el análisis del trabajo, aunque en algunos casos
de constructo de criterio de interés; por lo tanto, la vinculación entre el dominio y la medida es tan
el isomorfismo entre la medida y el dominio de directa que la relevancia es aparente sin el aná-
constructo constituye una evidencia directa de la lisis del trabajo (p. ej., cuando el constructo de
vinculación 5. Establecer la vinculación 5 de este criterio de interés es el absentismo o la rotación).
modo es el signo característico de enfoques que Observe que esta estrategia no se basa necesaria-
dependen en gran medida de lo que los Están- mente en un dominio de constructo de predic-
dares denominan evidencia de validación basada tor bien desarrollado. Las medidas de predictor
en el contenido de la prueba. Las pruebas donde como, por ejemplo, medidas de biodatos afina-
los candidatos a puestos de socorristas realizan dos empíricamente, se construyen sobre la base
operaciones de rescate, o en las que candidatos a de vinculaciones empíricas entre las respuestas a
puestos de procesadores de datos escriben y editan los ítems de la prueba y la medida de criterio de
textos, ofrecen ejemplos de contenido de pruebas interés. Tales medidas pueden, en algunos casos,
que forman la base de validez. desarrollarse sin una concepción plenamente esta-
Un requisito previo al uso de una medida de blecida del dominio de constructo de predictor; la
predictor en la selección de personal es que se base para su uso es la vinculación empírica directa
establezcan las inferencias relativas a la vincula- entre las respuestas de la prueba y una medida de
ción entre la medida de predictor y el dominio de criterio pertinente. A menos que los tamaños de
193
194
y el dominio de constructo de criterio de interés. relacionado con las alternativas disponibles, in-
No hay un solo método de investigación de prefe- fluye en las decisiones sobre el uso de la prueba.
rencia para el establecimiento de esta vinculación. A menudo, las decisiones sobre el uso de la
Más bien, el usuario de la prueba debe conside- prueba se ven influidas por consideraciones adi-
rar las características específicas de la situación de cionales, incluyendo la utilidad (es decir, la rela-
evaluación y aplicar el juicio profesional para de- ción costo-beneficio) y el retorno de inversión,
sarrollar una estrategia para probar la hipótesis de los juicios de valor sobre la importancia relativa
una vinculación entre la medida de predictor y el de seleccionar un dominio de criterio en vez de
dominio de criterio. otros, las preocupaciones sobre las reacciones de
los postulantes ante el contenido y los procesos
Bases para evaluar el uso de la prueba de de la prueba, la disponibilidad e idoneidad de
empleo métodos de selección alternativos, y los requisi-
Aunque el objetivo principal de las pruebas de tos legales o reglamentarios que rigen el uso, la
trabajo es la predicción precisa de los compor- imparcialidad y los objetivos de la política de la
tamientos o resultados de trabajo posteriores, prueba, por ejemplo, la diversidad del personal.
es importante reconocer que hay límites en el Sin duda, los valores organizacionales juegan un
grado de predicción de tales criterios. No se papel en las decisiones sobre el uso de la prueba;
puede alcanzar una predicción perfecta. En pri- así, incluso organizaciones con evidencia compa-
mer lugar, el comportamiento en el contexto de rable que respalda una inferencia prevista extraída
trabajo se ve influido por una amplia variedad de los puntajes de una prueba pueden alcanzar
de factores organizacionales y extraorganiza- diferentes conclusiones sobre si se debe usar o no
cionales, incluyendo el entrenamiento del su- una prueba específica.
pervisor y los colegas, la capacitación formal e
informal, el diseño del trabajo, las estructuras y Pruebas en la acreditación profesional y
sistemas de la organización, y las responsabili- ocupacional
dades familiares, entre otros. En segundo lugar,
el comportamiento en el contexto de trabajo Las pruebas son ampliamente utilizadas en la
también se ve influido por una amplia variedad acreditación de personas para muchas activida-
de características individuales, incluyendo los des y profesiones. Los gobiernos federales, es-
conocimientos, capacidades, habilidades, perso- tatales y locales imponen requisitos legales para
nalidad y actitudes de trabajo, entre otros. Por lo garantizar que quienes obtienen una licencia
tanto, cualquier característica única solo será un tiene los conocimientos y capacidades suficien-
predictor imperfecto, e incluso complejos siste- tes para realizar actividades profesionales impor-
mas de selección solo se centran en el conjunto tantes con seguridad y eficacia. La certificación
de constructos considerados más críticos para juega un papel similar en muchas actividades no
el trabajo, y no en todas las características que reguladas por los gobiernos y, con frecuencia, es
pueden influir en el comportamiento de trabajo. un precursor necesario para la promoción. Asi-
En tercer lugar, siempre se producirán errores de mismo, la certificación se ha usado también en
medida, incluso en pruebas y medidas de criterio gran medida para indicar que una persona tiene
bien desarrolladas. unas habilidades específicas (p. ej., manejo de
Por lo tanto, los sistemas de evaluación no se equipos especializados de reparación automo-
pueden juzgar con respecto a un estándar de pre- triz), las cuales pueden ocupar solo una parte de
dicción perfecta. En su lugar, se deben juzgar en sus tareas profesionales. En general, la obtención
términos comparativos con métodos de selección de licencias y la certificación se denominarán
alternativos disponibles. El juicio profesional, in- aquí acreditación.
formado por el conocimiento de la literatura de in- Las pruebas usadas en la acreditación tie-
vestigación sobre el grado de precisión predictiva nen como objetivo proporcionar al público,
195
196
mediante el cual se desarrollaron las especificacio- del trabajo y su relación, es imposible establecer
nes del contenido y la especialización de las per- un estándar correcto. En segundo lugar, sin infor-
sonas que han emitido juicios sobre el dominio de mación detallada sobre el formato de la prueba y
contenido. La evidencia relacionada con los crite- la dificultad de los ítems, estos puntajes de corte
rios es de aplicabilidad limitada porque los exá- arbitrarios carecen de significado.
menes de acreditación no tienen como objetivo Los puntajes de las pruebas de acreditación
predecir el desempeño individual en un trabajo deben ser precisos en las inmediaciones del pun-
específico, sino más bien proporcionar evidencia taje de corte. Es posible que no necesiten ser tan
de que los candidatos han adquirido los conoci- precisos para los examinandos que aprueban o
mientos, habilidades y juicios necesarios para un reprueban con claridad. Las pruebas de destreza
desempeño eficaz, a menudo en una amplia varie- basadas en computadora pueden incluir una dis-
dad de trabajos o contextos (usamos el término posición para finalizar la prueba cuando resulta
juicio para referirnos a la aplicación de conoci- evidente que se puede tomar una decisión sobre
mientos o capacidades en situaciones específicas). el desempeño de los candidatos, lo que se traduce
Además, normalmente las medidas de desempeño en una prueba más corta para los candidatos cuyo
en ejercicio no están disponibles para quienes no rendimiento claramente supera o está por debajo
obtienen una acreditación. del desempeño mínimo requerido para un pun-
La definición del nivel mínimo de conoci- taje de aprobación. Debido a que las pruebas de
mientos y capacidades que requiere la obtención destreza pueden no estar diseñadas para propor-
de licencias o la certificación es una de las tareas cionar resultados exactos para el rango completo
más importantes y difíciles para los responsables de puntajes, muchas de estas pruebas reportan
de la acreditación. La validez de la interpretación los resultados simplemente como “aprobado” o
de los puntajes de las pruebas depende de que el “reprobado”. Cuando los candidatos reciben co-
estándar para aprobar haga una distinción apro- mentarios sobre su desempeño, se requiere pre-
piada entre el desempeño correcto e incorrecto. cisión para todo el rango de puntajes. Los errores
A menudo, se usan paneles de expertos para es- estándar de medida condicional, examinados en
pecificar el nivel de desempeño que se establece el capítulo 2, proporcionan información sobre la
como requisito. Los estándares deben ser lo bas- precisión de puntajes específicos.
tante altos como para garantizar que el público, Los candidatos que reprueben pueden en-
los empleadores y los organismos gubernamenta- contrar útil la información sobre las áreas en las
les obtengan un servicio adecuado, pero no tan tuvieron un desempeño especialmente deficiente.
altos que se conviertan en limitaciones injus- Esta es la razón por la que a veces se suminis-
tificadas. La verificación de la idoneidad de los tran subpuntajes. A menudo, los subpuntajes se
puntajes de corte o de los puntajes de una prueba basan en un número relativamente pequeño de
para la obtención de licencias o la certificación es ítems y pueden ser mucho más confiables que
un elemento crucial en el proceso de validez. El el puntaje total. Además, las diferencias entre
capítulo 5 ofrece un análisis general sobre la fi- los subpuntajes pueden reflejar simplemente un
jación de puntajes de corte (véase los Estándares error de medida. Por estas razones, la decisión de
5.21—5.23 para ver temas específicos sobre los proporcionar subpuntajes a los candidatos debe
puntajes de corte). considerarse cuidadosamente, y se debe facilitar la
En ocasiones, los órganos legislativos intentan información para una interpretación apropiada.
legislar sobre un puntaje de corte, por ejemplo, En el capítulo 2 y el estándar 2.3 se trata la im-
un 70% de ítems de prueba respondidos correc- portancia de la confiabilidad de los subpuntajes.
tamente. Los puntajes de cortes que se establecen Debido a que la acreditación suele acarrear
de este modo tan arbitrario pueden ser perjudi- riesgos altos y es un proceso continuo, con prue-
ciales por dos razones. En primer lugar, sin infor- bas aplicadas mediante un programa regular, nor-
mación detallada sobre la prueba, los requisitos malmente no es deseable usar el mismo formulario
197
de prueba repetidamente. Por lo tanto, general- puntaje de aprobación como indicador de compe-
mente se necesitan nuevos formularios o versio- tencias de nivel básico. Ajustar periódicamente los
nes de una prueba de forma periódica. Desde una puntajes de corte también implica que los están-
perspectiva técnica, todos los formularios de una dares tendrán un nivel más alto en unos años que
prueba se deben preparar con las mismas especi- en otros, una práctica que es difícil de justificar
ficaciones, evaluar el mismo contenido y usar la en términos de calidad del desempeño. A veces,
misma ponderación de componentes o temas. la escala de puntajes se ajusta de manera que un
Los formularios de pruebas alternativos deben número determinado o una proporción de can-
tener la misma escala de puntajes, de manera que didatos alcancen el puntaje de aprobación. Este
estos puedan retener su significado. Se pueden método, aunque menos obvio para los candidatos
usar varios métodos de vinculación o equipara- que cambiar el puntaje de corte, también es téc-
ción de formularios alternativos para garantizar nicamente inapropiado ya que cambia el signifi-
que el estándar para la aprobación representa el cado de los puntajes de un año a otro. Aprobar
mismo nivel de desempeño en todos los formu- un examen de acreditación debe significar que el
larios. Observe que la divulgación de formularios candidato cumple con los estándares de conoci-
de pruebas anteriores puede poner en riesgo el mientos y capacidades establecidos por el órgano
grado de comparabilidad de distintos formularios de acreditación para garantizar un ejercicio eficaz.
de pruebas. Los problemas de engaño y seguridad de la
La práctica de profesiones y actividades suele prueba son de especial importancia en la realiza-
cambiar a lo largo del tiempo. Las restricciones ción de pruebas de acreditación. Los problemas de
legales cambiantes, el progreso en áreas científicas seguridad se tratan en los capítulos 6 y 9. Los pro-
y el refinamiento de las técnicas pueden implicar blemas de engaño por parte de los examinandos
la necesidad de cambios en el contenido de la se examinan en el capítulo 8 (véase los Estándares
prueba. Cada profesión o actividad debe reevaluar 8.9-8.12, que tratan sobre las irregularidades en
periódicamente los conocimientos y habilidades las pruebas).
medidos en los exámenes que se utilizaron para La imparcialidad y el acceso, temas del capí-
cumplir los requisitos de la acreditación. Cuando tulo 3, son importantes para las pruebas de obten-
el cambio es sustancial, será necesario revisar la ción de licencias y certificación. La evaluación de
definición de la profesión y el contenido de la una adecuación o modificación de una prueba de
prueba para reflejar las circunstancias cambiantes. acreditación deberá tener en cuenta las funciones
Estos cambios en la prueba podrían alterar el sig- críticas que se realizan en el trabajo de interés de
nificado de la escala de puntajes. Cuando se ha- la prueba. En el caso de las pruebas de acredita-
cen revisiones importantes en la prueba o cuando ción, la criticalidad de las funciones del trabajo se
cambia la escala de puntajes, se debe volver a esta- basa en el interés público, así como en la propia
blecer el puntaje de corte. naturaleza del trabajo. Cuando una condición li-
Algunos grupos de acreditación consideran mita la capacidad de un individuo para realizar
necesario, como asunto práctico, ajustar periódi- una función crítica de un trabajo, es posible que
camente el puntaje de aprobación u otros criterios no resulte apropiado adecuar o modificar el exa-
para regular el número de candidatos acreditados men de obtención de licencia o certificación (es
que acceden a la profesión. Este procedimiento decir, algunos cambios pueden alterar sustancial-
es cuestionable y presenta graves problemas para mente factores que el examen tiene previsto medir
la calidad técnica de los puntajes de las pruebas, para la protección de la seguridad, el bienestar y
y amenaza la validez de la interpretación de un la salud pública).
198
199
los expertos, simula correctamente el contenido requisitos específicos de experiencia o nivel edu-
de las tareas del trabajo (p. ej., con determinados cativo. Se debe proporcionar una justificación y la
ejercicios de evaluación del centro) o si la prueba evidencia de respaldo para cada uno de estos re-
muestrea los conocimientos específicos del trabajo quisitos. En las pruebas y evaluaciones, la eviden-
(p. ej., información necesaria para realizar algunas cia incluye, entre otros, la confiabilidad/precisión
tareas) o las habilidades que se requieren para un de los puntajes y la correlación entre las pruebas
desempeño competente, se puede ofrecer eviden- y evaluaciones.
cia relacionada con el contenido como forma En las pruebas de empleo, durante la toma de
principal de evidencia de validación. Si la relación decisiones, la persona responsable puede integrar
entre el contenido de la prueba y el contenido del los puntajes de las pruebas con los datos de la entre-
trabajo no es clara y directa, cobrarán importancia vista, verificaciones de referencias y muchas otras
otras líneas de evidencia de validación. fuentes de información. Las inferencias extraídas
Cuando se presenta una evidencia de valida- de los puntajes de las pruebas se deben limitar a las
ción basada en el contenido de la prueba para que cuentan con evidencia de validación disponi-
un trabajo o tipo de trabajos, la evidencia debe ble. Por ejemplo, en una prueba que mide un solo
incluir una descripción de las principales carac- dominio pertinente muy concreto (como el co-
terísticas del trabajo que la prueba se propone nocimiento de trabajo) sería una inferencia inco-
muestrear. A menudo resulta útil incluir informa- rrecta considerar un puntaje alto como indicador
ción sobre la frecuencia relativa, la importancia de idoneidad global para el trabajo (excluyendo,
y la criticalidad de los elementos. En un examen por tanto, la necesidad de verificar las referencias).
de acreditación, la evidencia deberá incluir una En otras circunstancias, los responsables de tomar
descripción de las principales responsabilidades, decisiones pueden integrar los puntajes de varias
tareas o actividades desempeñadas por los profe- pruebas, o de varias escalas de una prueba.
sionales que la prueba quiere muestrear, así como
los conocimientos y capacidades fundamentales y
necesarias para desempeñar esas responsabilida- Unidad 2. Estándares para las
des, tareas o actividades.
pruebas de empleo
200
estudios acotados tienen el máximo valor en con- o en la capacitación relacionada con el trabajo,
textos donde la literatura de investigación acu- según lo indique una revisión apropiada de la
mulada es escasa (p. ej., debido a la novedad del información sobre el trabajo.
predictor o del criterio usado), donde el registro
Comentario: Cuando se construyen criterios
acumulado no es sistemático, o donde la litera-
para representar actividades o comportamientos
tura acumulada no incluye estudios similares al
de trabajo (p. ej., calificaciones de supervisión de
estudio del contexto local (p. ej., el estudio de una
subordinados en dimensiones importantes del
prueba con una literatura acumulada considera-
trabajo), la recopilación sistemática de informa-
ble que trata exclusivamente de trabajos de pro-
ción sobre el trabajo deberá informar el desarrollo
ducción y un contexto local que abarca trabajos
de las medidas de criterio. Sin embargo, no hay
administrativos).
una opción clara entre los numerosos métodos
disponibles de análisis del trabajo. Observe que
Estándar 11.6 el análisis del trabajo no se limita a la observación
directa del trabajo o al muestreo directo de exper-
La dependencia en la evidencia local de las re- tos en la materia; a menudo, las bases de datos
laciones predictor-criterio determinadas empí- analíticas a gran escala ofrecen información útil.
ricamente como una estrategia de validez está Cuando los criterios de interés son medidas como
supeditada a la determinación de la viabilidad el absentismo, la rotación o los accidentes, no hay
técnica. una clara necesidad de análisis del trabajo para
Comentario: La evidencia pertinente de las re- respaldar el uso de criterios.
laciones predictor-criterio está supeditada a un
número de características, incluyendo (a) los tra- Estándar 11.8
bajos que son relativamente estables y no de un
Los individuos que realizan o interpretan es-
periodo de rápida evolución; (b) la disponibilidad
tudios empíricos de las relaciones predictor-
de una medida de criterio pertinente y confiable;
criterio deben identificar artefactos que pueden
(c) la disponibilidad de una muestra razonable-
haber influido en las conclusiones del estudio,
mente representativa de la población de interés;
y (d) un tamaño de muestra adecuado para es- como errores de medida, restricción de rango,
timar la solidez de la relación predictor-criterio. deficiencias de criterios, contaminación de cri-
Si alguna de estas condiciones no se cumple, se terios o datos omitidos. Se debe documentar
deberá usar una estrategia de validez alternativa. la evidencia de presencia o ausencia de talas
Por ejemplo, como se observó en el comentario características (y de las acciones realizadas para
del Estándar 11.5, la literatura de investigación eliminar o controlar su influencia) y ponerse a
acumulada podría proporcionar una evidencia de disposición según sea necesario.
validación sólida. Comentario: Los errores de medida en los criterios
y las restricciones en la variabilidad de los puntajes
Estándar 11.7 del predictor o el criterio reducen sistemáticamente
las estimaciones de la relación entre las medidas del
Cuando la evidencia empírica de las relacio- predictor y el dominio de constructo de criterio,
nes predictor-criterio es parte de un patrón de pero están disponibles procedimientos de correc-
evidencia usado para respaldar el uso de una ción de los efectos de estos artefactos. Cuando se
prueba, las medidas de criterio usadas deben aplican estos procedimientos, se deben presentar
reflejar el dominio de constructo de criterio de tanto los valores corregidos como los no corregidos,
interés para la organización. Todos los criterios junto con la justificación de los procedimientos
deben representar comportamientos o resulta- de corrección elegidos. No se deben usar pruebas
dos de trabajo importantes, ya sea en el trabajo de relevancia estadísticas para correlaciones no
201
202
que los puntajes de la prueba son confiables y de se debe justificar en términos de la importancia
que el contenido de la prueba presenta adecua- del contenido para el desempeño acreditado de
damente el dominio de constructo de predictor. una profesión o actividad. Se debe proporcionar
En segundo lugar, debe existir evidencia de la una justificación o evidencia que respalde el ar-
relación entre el dominio de constructo de pre- gumento de que los conocimientos o habilida-
dictor y los principales factores del dominio de des evaluadas son necesarios para el desempeño
constructo de criterio. acreditado de esa actividad y que son coherentes
con el propósito para el cual se estableció el pro-
Comentario: Debe existir una justificación con-
grama de acreditación.
ceptual clara para estas relaciones. Se deberá de-
finir con claridad tanto el dominio de constructo
Comentario: Habitualmente, alguna forma de
de predictor como el dominio de constructo de
análisis del trabajo o práctica proporcionan la
criterio con el que se le vincula. No existe una sola
base principal para definir el dominio de conte-
ruta de preferencia para establecer estas relacio-
nido. Si se usa el mismo examen en la acredita-
nes. La evidencia que respalda las vinculaciones
ción de personas empleadas en una variedad de
entre los dos dominios de constructo incluye pa-
contextos y especialidades, es posible que sea
trones de conclusiones de la literatura de investi-
necesario analizar un número de distintos con-
gación y una evaluación sistemática del contenido
textos de trabajo. Aunque las técnicas de análisis
del trabajo para identificar constructos de predic-
del trabajo pueden ser similares a las usadas en las
tor vinculados al dominio de criterio. Se deben
pruebas de empleo, el enfoque de la acreditación
documentar las bases de los juicios que vinculan
se limita apropiadamente a los conocimientos y
los dominios de constructo de predictor y criterio.
habilidades necesarias para un ejercicio eficaz. Los
Por ejemplo, se podría usar una prueba de
conocimientos y habilidades incluidas en un plan
capacidad cognitiva para predecir el desempeño
de estudios básico diseñado para capacitar a per-
en un trabajo complejo que requiere un análisis
sonas para el trabajo o actividad pueden ser perti-
sofisticado de muchos factores. Aquí, el domi-
nentes, especialmente si el plan de estudios se ha
nio de constructo de predictor sería la capacidad
diseñado para ser coherente con análisis empíricos
cognitiva, y verificar el primer vínculo requeriría
del trabajo o la práctica.
demostrar que la prueba es una medida adecuada
En las pruebas que se usan para la obtención
del dominio de capacidad cognitiva. El segundo
de licencias, no se deben incluir los conocimien-
vínculo podría respaldarse con varias líneas de
tos y habilidades que pueden ser importantes para
evidencia, incluyendo un conjunto de hallazgos
el éxito, pero no se relacionan directamente con el
de investigaciones que demuestren una relación
propósito de la obtención de una licencia (p. ej.,
sistemática entre la capacidad cognitiva y el des-
la protección del público). Por ejemplo, en conta-
empeño en tareas complejas, y por los juicios de
bilidad, las habilidades de marketing pueden ser
expertos en la materia relacionados con la impor-
importantes para el éxito y la evaluación de esas
tancia de la capacidad cognitiva para el desem-
habilidades podría resultar útil para las organiza-
peño en el dominio de desempeño.
ciones que seleccionan contadores. Sin embargo,
es posible que la carencia de esas habilidades no
sea un riesgo para el público y, por lo tanto, estas
Unidad 3. Estándares para la habilidades podrían excluirse correctamente del
acreditación examen para la obtención de licencias. El hecho
de que los profesionales con éxito presenten al-
Estándar 11.13 gunos conocimientos o habilidades es pertinente,
pero no convincente. Esa información se debe
Se debe definir claramente el dominio de conte- cotejar con un análisis del propósito del pro-
nido que abarcará una prueba de acreditación y grama de acreditación y las razones por las que se
203
requieren los conocimientos o habilidades en una puntajes iguales o superiores a un mínimo espe-
profesión o actividad. cificado en todas las pruebas. En otros casos, la
decisión de aprobar-reprobar se puede basar ex-
clusivamente en un puntaje agregado total. Si las
Estándar 11.14 pruebas se van a combinar en un puntaje agre-
Se deben proporcionar valoraciones sobre la gado, se deberá proporcionar información a los
coherencia de las decisiones de acreditación ba- candidatos sobre el peso relativo de las pruebas.
sadas en pruebas, además de otras fuentes de evi- No siempre es posible informar a los candidatos
dencia de confiabilidad. de la ponderación exacta antes de la administra-
ción de la prueba ya que los pesos pueden depen-
Comentario: Los estándares para la coherencia de der de propiedades empíricas de las distribuciones
la decisión descritos en el capítulo 2 se aplican de los puntajes (p. ej., sus varianzas). No obstante,
a las pruebas que se usan en la obtención de li- se deberá informar a los candidatos de la inten-
cencias y certificación. También pueden ser úti- ción de ponderación (p. ej., la prueba A contri-
les otros tipos de valoraciones de confiabilidad y buye con un 25 % y la prueba B contribuye con
errores estándar de medida asociados, especial- un 75 % al puntaje total).
mente el error estándar condicional en el puntaje
de corte. No obstante, es de importancia funda-
mental la coherencia de las decisiones en relación Estándar 11.16
con la certificación. El nivel de desempeño requerido para aprobar
una prueba de acreditación depende de los co-
Estándar 11.15 nocimientos y habilidades necesarios para el des-
empeño acreditado en la actividad o profesión
Las reglas y procedimientos que se usan para y no se debe ajustar para controlar el número o
combinar puntajes de diferentes partes de una proporción de personas que superan la prueba.
evaluación o puntajes de varias evaluaciones para
Comentario: El puntaje de corte se debe deter-
determinar el resultado general de una prueba
minar mediante un cuidadoso análisis y juicio
de acreditación se deben reportar a los exami-
del desempeño acreditado (véase el capítulo 5).
nandos, preferentemente antes de la administra-
Cuando existan formularios alternativos de una
ción de la prueba.
prueba, el puntaje de corte debe hacer referen-
Comentario: En algunos casos de acreditación, es cia al mismo nivel de desempeño en todos los
posible que se exija a los candidatos que obtengan formularios.
204
205
206
Debido a que los resultados de las pruebas pueden suficientes para guiar la enseñanza y el aprendi-
influir en las decisiones sobre la instrucción poste- zaje. Los estándares de rendimiento académico,
rior, es importante que los puntajes de dominios que a veces se denominan estándares de desem-
o subdominios de contenido se basen en un nú- peño, conectan los estándares de contenido con
mero suficiente de ítems o tareas que respalde de la información que describe en qué medida los
forma confiable los usos previstos. estudiantes están adquiriendo los conocimientos
En algunos casos, las evaluaciones adminis- y capacidades incluidos en los estándares de con-
tradas durante el año escolar se pueden usar para tenido académico. Los estándares de desempeño
predecir el desempeño del estudiante en una eva- pueden incluir etiquetas de desempeño (p. ej.,
luación sumativa a final de año. Si el desempeño “básico”, “competente”, “avanzado”), descripcio-
pronosticado en la evaluación de final de año es nes de lo que saben y pueden hacer estudiantes
bajo, podrían estar justificadas intervenciones for- de diferentes niveles de desempeño, ejemplos
mativas adicionales. Se pueden usar técnicas esta- de trabajos de estudiantes que ilustren el rango
dísticas, como la regresión lineal, para establecer de rendimiento en cada nivel de desempeño, y
las relaciones predictivas. Una variable confusa en puntajes de corte que especifiquen los niveles de
tales predicciones puede ser el grado en que las desempeño en una evaluación que separa niveles
intervenciones formativas que se basan en resul- adyacentes de consecución. El proceso de estable-
tados provisionales mejoran, a lo largo del año cer los puntajes de corte para estándares de rendi-
escolar, el desempeño de estudiantes con punta- miento académico se conoce normalmente como
jes inicialmente bajos; las relaciones predictivas fijación de estándar.
se reducirán en la medida que el aprendizaje del Aunque a partir de la consideración de las
estudiante mejora. pruebas basadas en estándares se desprende que
las evaluaciones deben alinearse estrechamente
Evaluación de los resultados de los estudiantes. con los estándares de contenido, en general no es
Normalmente, la evaluación de los resultados de posible medir exhaustivamente todos los están-
los estudiantes presenta funciones sumativas, esto dares de contenido usando una sola prueba su-
es, ayuda a evaluar el aprendizaje de los alumnos a mativa. Por ejemplo, los estándares de contenido
la finalización de una secuencia formativa especí- que se centran en la colaboración del estudiante,
fica (p. ej., al final del año escolar). Los resultados la argumentación oral o las actividades en el labo-
de pruebas educativas de los estudiantes pueden ratorio de ciencias no se prestan fácilmente a la
ser considerados con varios tipos de interpretacio- medición mediante pruebas tradicionales. Como
nes de puntajes, incluyendo interpretaciones ba- resultado, se ha restado importancia a algunos
sadas en estándares, interpretaciones basadas en el estándares de contenido en la instrucción a ex-
crecimiento e interpretaciones normativas. Estos pensas de estándares que se pueden medir con
resultados se pueden relacionar con el estudiante pruebas sumativas de final de año. Estas limita-
individual o agregarse por grupos de estudiantes, ciones se pueden solventar mediante el desarrollo
por ejemplo, clases, subgrupos, escuelas, distritos, de componentes de evaluación que se centren en
estados o países. diversos aspectos de un conjunto de estándares de
Por lo general, las interpretaciones basadas contenido comunes. Por ejemplo, las evaluacio-
en estándares de los resultados de los estudiantes nes de desempeño que están más estrechamente
empiezan con estándares de contenido, que espe- conectadas con las unidades formativas podrían
cifican qué se espera que los estudiantes conozcan medir determinados estándares de contenido que
y sean capaces de hacer. Normalmente, estos es- no se evalúan fácilmente mediante una evaluación
tándares los establecen comités de expertos en el sumativa de final de año más tradicional.
área que se someterá a prueba. Los estándares de La evaluación de los resultados de los es-
contenido deben ser claros y específicos, y dar a tudiantes también puede comportar interpre-
los profesores, estudiantes y padres instrucciones taciones relacionadas con los progresos de los
207
208
209
pruebas de nivel se usan para exonerar a los estu- principios de diseño universal (un método para el
diantes de asignaturas que normalmente deberían desarrollo de evaluaciones que intenta maximizar
cursar. Los asesores usan otras pruebas de nivel la accesibilidad de una prueba para todos los exa-
para situar a los estudiantes en cursos de apoyo minandos previstos) proporcionan una base para
o en el curso más apropiado de una secuencia de desarrollar evaluaciones educativas de este modo.
introducción de nivel universitario. En algunos Un factor esencial en el proceso es la documenta-
casos, las decisiones de nivel se mecanizan a través ción explícita de los pasos que se toman durante
de la aplicación de puntajes de corte localmente el proceso de desarrollo a fin de proporcionar
determinados en el examen de nivel. Estos pun- evidencia de imparcialidad, confiabilidad/preci-
tajes de corte se deben establecer a través de un sión y validez para los usos previstos de la prueba.
proceso documentado que involucre a los agentes Cuantos mayores son los riesgos asociados con la
apropiados y que se valide a través de la investiga- evaluación, más atención se deberá prestar a esta
ción empírica. documentación. En el capítulo sobre imparciali-
Los resultados de las pruebas educativas tam- dad en las pruebas (cap. 3) y en el capítulo sobre
bién pueden informar las decisiones relacionadas el diseño y desarrollo de pruebas (cap. 4) se deta-
con la asignación de nivel de los estudiantes en llan consideraciones relacionadas con el desarrollo
programas formativos especiales, incluyendo a de pruebas educativas.
estudiantes con discapacidades, estudiantes de En el desarrollo de pruebas educativas se
lengua inglesa y estudiantes dotados y talento- usan una variedad de formatos, desde formatos
sos. Los puntajes de las pruebas nunca se deben tradicionales de ítems abiertos y de selección
usar como único fundamento para la inclusión múltiple hasta evaluaciones de desempeño, in-
de un estudiante en un programa de educación cluyendo porfolios puntuables, simulaciones y
especial o para la exclusión de un estudiante de juegos. Ejemplos de estas evaluaciones de desem-
tales programas. Los puntajes de las pruebas se peño podrían incluir la resolución de problemas
deben interpretar en el contexto del historial, el usando materiales manipulables, hacer inferen-
funcionamiento y las necesidades del estudiante. cias complejas después de recopilar información,
No obstante, los resultados de las pruebas pueden o explicar oralmente o por escrito la justificación
proporcionar una base importante para determi- de un curso de acción gubernamental concreto
nar si un estudiante tiene una discapacidad y cuá- bajo determinadas condiciones económicas. Se
les son sus necesidades educativas. podría usar un porfolio individual como otro tipo
de evaluación de desempeño. Los porfolios pun-
Desarrollo de pruebas educativas tuables son colecciones sistemáticas de productos
Al igual que en todas las pruebas, una vez que se educativos normalmente recopilados, y posible-
han delineado el constructo y los propósitos de mente revisados, a lo largo del tiempo.
una prueba educativa, se debe tener en cuenta En contextos educativos, se suele usar la tec-
la población prevista de examinandos, así como nología para presentar material de evaluación y
los problemas prácticos como, por ejemplo, el para registrar y puntuar las respuestas de los exa-
tiempo y los recursos de evaluación disponibles minandos. Ejemplos incluyen mejoras del texto
que respaldan las tareas de desarrollo. En el desa- mediante instrucciones por audio para facilitar la
rrollo de pruebas educativas, la atención se centra comprensión del estudiante, pruebas adaptables
en la medición de los conocimientos, competen- y basadas en computadora, y ejercicios de simu-
cias y habilidades de todos los examinandos de la lación donde los atributos de las evaluaciones de
población prevista, sin introducir ventajas o des- desempeño se refuerzan mediante tecnología.
ventajas que se deban a características individua- Algunos formatos de administración de pruebas
les (p. ej., cultura, discapacidad, género, idioma, también pueden tener la capacidad de capturar as-
raza/origen étnico) que sean irrelevantes para pectos de los procesos de los estudiantes a medida
el constructo que la prueba trata de medir. Los que resuelven los ítems de la prueba. Por ejemplo,
210
se podría monitorizar el tiempo empleado en los una evaluación sumativa. En tales evaluaciones,
ítems, las soluciones probadas y rechazadas, o la es importante validar las interpretaciones hechas a
edición de secuencias de texto creadas por los partir de los puntajes de las pruebas para cada uno
examinandos. Las tecnologías también permiten de los usos previstos.
proporcionar condiciones de administración de Con frecuencia, se producen tensiones aso-
pruebas diseñadas para adecuarse a estudiantes ciadas con el uso de evaluaciones educativas para
con necesidades especiales como, por ejemplo, distintos propósitos. Por ejemplo, no es probable
distintos orígenes lingüísticos, trastornos de défi- que una prueba desarrollada para controlar el pro-
cit de atención o discapacidades físicas. greso o crecimiento de estudiantes individuales en
Las interpretaciones de los puntajes en prue- distintos años escolares también proporcione efi-
bas basadas en tecnología se evalúan con los mis- cazmente información de diagnóstico detallada y
mos estándares de validez, confiabilidad/precisión factible sobre los puntos fuertes y débiles de los
e imparcialidad que las pruebas administradas a estudiantes. De forma similar, es improbable que
través de medios más tradicionales. Es especial- una evaluación diseñada para ser administrada
mente importante que los examinandos se fa- varias veces a lo largo del curso anual escolar para
miliaricen con las tecnologías de evaluación, de predecir el desempeño de un estudiante en una
manera que cualquier desconocimiento de un evaluación sumativa de final de año proporcione
dispositivo de entrada o interfaz de evaluación información útil sobre el aprendizaje del estu-
no suponga inferencias basadas en varianza irre- diante con respecto a unidades didácticas específi-
levante de constructo. Además, la consideración cas. La mayoría de las pruebas educativas servirán
explícita de las fuentes de varianza irrelevante de mejor para un propósito que para otros, y cuanto
constructo deberá ser parte del marco de validez más propósitos se supone atiende una prueba
a medida que nuevas tecnologías e interfaces se educativa, menos probable será que sirva eficaz-
incorporan a los programas de evaluación. Fi- mente a cualquiera de esos propósitos. Por esta
nalmente, es importante describir los algoritmos razón, los desarrolladores y usuarios de la prueba
de calificación usados en las pruebas basadas en deben diseñar y/o seleccionar evaluaciones educa-
tecnología y los modelos expertos en los que se tivas para conseguir los propósitos que consideran
puedan basar, y proporcionar datos técnicos que más importantes, y deben considerar si se pueden
respalden su uso en la documentación del sistema lograr propósitos adicionales y supervisar la ido-
de pruebas. Sin embargo, esta documentación neidad de cualquier uso adicional identificado.
no debe comprometer la seguridad de la evalua-
ción de forma que la validez de las interpreta-
ciones de los puntajes pueda quedar afectada de Uso e interpretación de
manera adversa. evaluaciones educativas
Evaluación que sirve para distintos propósitos Riesgos y consecuencias de la evaluación
Mediante la evaluación de los conocimientos y Con frecuencia, la importancia de los resultados
habilidades de los estudiantes relacionados con de los programas de evaluación para individuos,
un conjunto específico de objetivos académicos, instituciones o grupos hace referencia a los riesgos
los resultados de las pruebas pueden servir para del programa de evaluación. Cuando los riesgos
una variedad de propósitos, incluyendo la mejora para un individuo son altos y decisiones impor-
de la instrucción para satisfacer mejor las necesi- tantes dependen sensiblemente del desempeño
dades de los estudiantes; la evaluación de planes en la prueba, la responsabilidad de proporcio-
de estudios y planes didácticos en el ámbito dis- nar evidencia que respalde el propósito previsto
trital; la identificación de estudiantes, escuelas o de una prueba es mayor de la que cabría esperar
profesores que requieren ayuda; o la predicción de para pruebas usadas en contextos de bajo riesgo.
las probabilidades de éxito de cada estudiante en Aunque no es posible lograr la exactitud perfecta
211
en la descripción del desempeño de un individuo, incluyen (a) la contracción de los planes de estu-
es necesario hacer esfuerzos para minimizar los dios de algunas escuelas para centrarse exclusiva-
errores de medida o los errores de clasificación mente en el contenido anticipado de la prueba,
de los individuos en categorías como “aprobado”, (b) la restricción de la gama de métodos didácti-
“reprobado”, “admitido” o “rechazado”. Además, cos para corresponderse al formato de la prueba,
respaldar la validez de interpretaciones para pro- (c) índices de abandono más altos entre los es-
pósitos de alto riesgo (ya sean individuales o insti- tudiantes que no aprueban la prueba, y (d) el
tucionales), requiere generalmente la recopilación fomento de prácticas institucionales o adminis-
de información colateral fidedigna que se pueda trativas que pueden elevar el puntaje de las prue-
usar para ayudar a la comprensión de los factores bas sin mejorar la calidad de la educación. Resulta
que contribuyen a los resultados de la prueba y esencial que quienes encargan y usan pruebas edu-
para corroborar la evidencia que respalda las infe- cativas conozcan esas consecuencias negativas po-
rencias basadas en los resultados. Por ejemplo, los tenciales (incluyendo las oportunidades perdidas
resultados de las pruebas pueden verse influidos para mejorar la enseñanza y el aprendizaje) para
por distintos factores, tanto institucionales como recabar información relacionada con estos proble-
individuales, como la calidad de la educación pro- mas y tomar decisiones sobre el uso de las eva-
porcionada, la exposición de los estudiantes a la luaciones que tengan en cuenta esta información.
educación (p. ej., a través de la asistencia regular
a la escuela) y la motivación de los estudiantes Evaluaciones para estudiantes con
para realizar bien la prueba. Recopilar este tipo de discapacidades y estudiantes que están
información puede contribuir a interpretaciones aprendiendo la lengua inglesa
apropiadas de los resultados de las pruebas. En la edición de 1999 de los Estándares, el ma-
La naturaleza de alto riesgo de algunos pro- terial sobre pruebas educativas para poblaciones
gramas de prueba puede crear dificultades espe- especiales se centraba en la evaluación diagnóstica
ciales cuando se introducen nuevas versiones. Por individualizada y en la asignación educativa de
ejemplo, un estado puede introducir una serie de los estudiantes con necesidades especiales. Desde
pruebas de final de curso para secundaria que se entonces, los requisitos emanados de la legisla-
basen en nuevos estándares de contenido y estén ción federal han incrementado notablemente la
parcialmente vinculadas a los requisitos de gra- participación de las poblaciones especiales en los
duación. El uso operativo de estas nuevas pruebas programas de evaluación educativa a gran escala.
debe ir acompañado de documentación que haya Las poblaciones especiales también se han hecho
sido impartida a los estudiantes sobre contenido más diversas y ahora representan un porcentaje
que responda a los nuevos estándares. Debido a más alto de los examinandos que participan en
las limitaciones de viabilidad, esto puede requerir programas educativos generales. Se diagnostica a
un periodo escalonado cuidadosamente planifi- más estudiantes con discapacidades y se incluye
cado que incluya encuestas especiales o estudios más de estos estudiantes en los programas de edu-
de investigación cualitativos que proporcionen la cación general y en las evaluaciones basadas en
documentación necesaria para la oportunidad de estándares de un estado. Además, el número de
aprendizaje. Hasta que no esté disponible tal do- estudiantes que son estudiantes de lengua inglesa
cumentación, no se deben usar las pruebas para ha aumentado considerablemente y el número in-
los propósitos de alto riesgo previstos. cluido en las evaluaciones educativas ha crecido
Muchos tipos de pruebas educativas se ven en consonancia.
como herramientas de política educativa. Por Como se examinó en el capítulo 3 (“Impar-
encima de los objetivos de la política fijada, es cialidad en las pruebas”), las evaluaciones para
importante considerar los efectos potenciales poblaciones especiales requieren un continuo de
imprevistos de los programas de evaluación a adaptaciones potenciales, que van desde evalua-
gran escala. Estos efectos potenciales imprevistos ciones alternativas especialmente desarrolladas
212
213
mismo constructo y producen resultados que son proporcionar a algunos estudiantes acceso a la
comparables a los obtenidos por estudiantes que evaluación educativa. Como con las evaluaciones
no usan adecuaciones. Las adecuaciones se pue- alternativas, el uso de modificaciones en progra-
den facilitar a estudiantes que estudian la lengua mas de pruebas educativas presenta problemas de
inglesa para solventar sus necesidades lingüísticas, compatibilidad.
así como a estudiantes con discapacidades para Las pruebas modificadas se deben diseñar y
gestionar características individuales específicas desarrollar con las mismas consideraciones de va-
que, de otro modo, interferirían con la accesibi- lidez, confiabilidad/precisión e imparcialidad que
lidad. Por ejemplo, se puede facilitar a un estu- las pruebas habituales. No es suficiente suponer
diante con dislexia extrema un lector de pantalla que la evidencia de validación asociada con una
que lea en voz alta escenarios y preguntas de una evaluación habitual se puede generalizar para una
prueba que mida las capacidades de investigación versión modificada.
en ciencias. El lector de pantalla se consideraría En el capítulo 3 (“Imparcialidad en las prue-
una adecuación porque la lectura no es parte del bas”) se examinan en detalle las modificaciones y
constructo definido (la investigación en ciencias) adecuaciones para poblaciones especiales.
y se asume que los puntajes obtenidos por el estu-
diante de la prueba serían comparables a los obte- Evaluaciones de competencia en el idioma in-
nidos por estudiantes que hicieran la prueba bajo glés. La presencia cada vez mayor de estudiantes
condiciones habituales. de lengua inglesa en las aulas de EE. UU. se ha
El uso de adecuaciones se debe respaldar por reflejado en una atención creciente en la medi-
la evidencia de que su aplicación no cambia el ción de su competencia en el idioma inglés (ELP,
constructo que mide la evaluación. Tal evidencia por sus siglas en inglés). Como con las pruebas de
puede estar disponible de estudios de aplicaciones contenido basadas en estándares, las pruebas ELP
similares, pero también podría requerir una inves- se basan en estándares ELP y se llevan a cabo con
tigación especialmente diseñada. los mismos estándares de precisión de validez e
Las modificaciones son adaptaciones del for- imparcialidad de las interpretaciones de puntajes
mato o administración de la prueba que cambian para los usos previstos, como otras pruebas a gran
el constructo que se mide a fin de hacerla accesi- escala.
ble para los estudiantes designados, manteniendo Las pruebas ELP pueden servir para una di-
tanto como sea posible el constructo original. versidad de propósitos. Se usan para identificar
Las modificaciones pueden dar como resultado estudiantes como educandos de inglés y clasifi-
puntajes que difieren en significado de aquellos carlos para programas y servicios especiales para
obtenidos mediante evaluaciones habituales. Por estudiantes del idioma inglés, para redesignar es-
ejemplo, se puede facilitar a un estudiante con tudiantes como competentes en inglés y para fines
dislexia extrema un lector de pantalla que lea en de diagnóstico e instrucción. Asimismo, estados,
voz alta los pasajes y preguntas de una prueba distritos y escuelas usan las pruebas ELP para mo-
de comprensión lectora que incluya la decodifi- nitorizar el progreso de estos estudiantes y para la
cación como parte del constructo. En este caso, rendición de cuentas de escuelas y educadores res-
el lector de pantalla se consideraría una modifi- pecto del aprendizaje y progreso de los educandos
cación porque cambia el constructo que se mide de inglés hacia un nivel de competencia.
y los puntajes obtenidos por el estudiante de la Como en cualquier prueba educativa, se
prueba no serían comparables a los obtenidos por puede proporcionar evidencia de validación de las
estudiantes que hicieran la prueba bajo condicio- medidas de ELP mediante el examen del proyecto
nes habituales. En muchos casos, las adecuaciones de la prueba, la concordancia del contenido con
pueden atender las necesidades de acceso del estu- los estándares ELP, la comparabilidad del cons-
diante sin el uso de modificaciones, pero en otros tructo entre los estudiantes, la coherencia de la
casos, las modificaciones son la única opción para clasificación y otras afirmaciones del argumento
214
de validez. La justificación y la evidencia que res- Si procede, cuando se usen los resultados de la
paldan la definición del dominio ELP y las fun- prueba como ayuda para decisiones de asignación,
ciones/relaciones de las modalidades del lenguaje los profesionales de evaluación cualificados deben
(p. ej., lectura, escritura, competencia oral, audi- tener en cuenta aspectos de la prueba que pueden
tiva) con respecto a la competencia en el idioma generar varianza irrelevante de constructo en es-
inglés, son consideraciones importantes en la tudiantes con determinadas características perti-
articulación del argumento de validez para una nentes. Por ejemplo, la competencia en el idioma
prueba ELP y pueden informar la interpretación inglés de los estudiantes o la experiencia educativa
de los resultados de la prueba. Dado que una sola previa podría interferir con su desempeño en una
evaluación no tiene el mismo grado de eficacia prueba de capacidad académica y, si no se tiene en
para atender a todos los propósitos deseados, los cuenta, podría conducir a una clasificación erró-
usuarios deben considerar los usos de las pruebas nea en educación especial. Una vez que se ha ubi-
ELP que tengan mayor prioridad y elegir o desa- cado a un estudiante, se pueden administrar las
rrollar los instrumentos en consonancia. pruebas para supervisar el progreso del estudiante
Las adecuaciones asociadas con las pruebas con respecto a las metas y objetivos de aprendizaje
ELP se deben considerar cuidadosamente, ya que prescritos. Los resultados de las pruebas también
las adaptaciones que son apropiadas para evalua- se pueden usar para informar evaluaciones de la
ciones de contenido habituales pueden poner en eficacia didáctica y determinaciones sobre la ne-
riesgo los estándares ELP que se evalúan. Además, cesidad de continuar, modificar o interrumpir los
los usuarios deben establecer directrices comunes servicios especiales.
para el uso de los resultados de ELP en la toma Se usan muchos tipos de pruebas en la evalua-
de decisiones sobre educandos del idioma inglés. ción de necesidades individualizadas y especiales.
Estas directrices deben incluir políticas y procedi- Esto incluye pruebas de capacidades cognitivas,
mientos explícitos para el uso de los resultados en rendimiento académico, procesos de aprendizaje,
la identificación y redesignación de los educandos memoria visual y auditiva, habla y lenguaje, vista
de inglés como competentes en el idioma inglés, y audición, y comportamiento y personalidad.
un proceso importante debido a la importancia Por lo general, estas pruebas se usan junto con
legal y educativa de estas designaciones. Los or- otros métodos de evaluación (por ejemplo, entre-
ganismos y escuelas de educación locales deben vistas, observaciones conductuales y revisión de
disponer de un fácil acceso a estas directrices. registros) para fines de identificación y ubicación
de estudiantes con discapacidades. Independien-
Evaluaciones individuales. Psicólogos y otros temente de las cualidades en evaluación y de los
profesionales de escuelas y contextos relacionados métodos de recopilación de datos empleados,
usan las pruebas administradas individualmente los datos de evaluación que se usan en la toma
para informar decisiones sobre una variedad de de decisiones de educación especial se evalúan en
servicios que se pueden administrar a los estu- términos de la evidencia que respalda las interpre-
diantes. Los servicios se facilitan a estudiantes do- taciones previstas en relación con las necesidades
tados, así como a aquellos que tienen dificultades específicas de los estudiantes. Los datos también
académicas (p. ej., estudiantes que requieren cla- se deben juzgar en términos de su utilidad para la
ses de apoyo para la lectura). Hay otros servicios designación de programas educativos apropiados
que se proporcionan a estudiantes que presentan para estudiantes que tengan necesidades especia-
dificultades conductuales, emocionales, físicas o les. Para obtener más información, vea el capítulo
de aprendizaje más severas. Los servicios pueden 10 (“Pruebas y evaluación psicológicas”).
prestarse a estudiantes que reciben clases en aulas
normales, así como a aquellos que reciben ins- Capacidad de evaluar y desarrollo profesional
trucción más especializada (p. ej., estudiantes de La capacidad de evaluar se puede definir, en
educación especial). sentido amplio, como el conocimiento de los
215
principios básicos de la práctica de evaluación co- Debido a que, por lo general, el personal de la
rrecta, incluyendo la terminología, el desarrollo y escuela administra las pruebas educativas, es im-
uso de metodologías y técnicas de evaluación, y portante que el organismo promotor proporcione
la familiaridad con los estándares por los cuales la supervisión apropiada sobre el proceso y que
se juzga la calidad de las prácticas de evaluación. las escuelas asignen funciones y responsabilida-
Los resultados de las evaluaciones educativas se des locales (p. ej., la coordinación de la prueba)
usan para la toma de decisiones en una variedad para capacitar a las personas que administrarán
de contextos de aulas, escuelas, distritos y estados. la prueba. De forma similar, los desarrolladores
Dado la amplitud y la complejidad de propósitos de la prueba tienen la obligación de respaldar el
de las pruebas, es importante que los desarrollado- proceso de administración de la prueba y propor-
res de pruebas y los responsables de los programas cionar recursos que ayuden a resolver los proble-
de pruebas educativas animen a que los educa- mas que puedan surgir. Por ejemplo, en pruebas
dores se conviertan en consumidores informados de alto riesgo administradas por computadora,
de las pruebas, y entiendan a cabalidad y usen de un soporte técnico eficaz resulta crítico para la
forma apropiada los reportes de resultados que administración local y debe incluir a personas
les llegan. De forma similar, como usuarios de que conozcan el contexto del programa de prue-
la prueba, es responsabilidad de los educadores bas, así como los aspectos técnicos del sistema de
buscar y conseguir la capacidad de evaluar en lo suministro.
tocante a sus funciones en el sistema educativo. Los responsables de los programas de prue-
Los promotores y desarrolladores de pruebas bas educativas deben tener procedimientos for-
pueden promover la capacidad de evaluar de los males para admitir adecuaciones de la prueba
educadores de muchas formas, incluyendo talle- e implicar a personal cualificado en el proceso
res, el desarrollo de materiales escritos y audiovi- de toma de decisiones. Para los estudiantes con
suales, y la colaboración con los educadores en el discapacidades, los cambios didácticos y de eva-
proceso de desarrollo de las pruebas (p. ej., desa- luación se suelen especificar en un programa de
rrollo de los estándares de contenido, redacción y educación individualizado (IEP, por sus siglas en
revisión de los ítems, y fijación de estándares). En inglés). Para los estudiantes de lengua inglesa,
particular, los responsables de programas de prue- las escuelas pueden usar las directrices del es-
bas educativas deben incorporar la capacidad de tado o distrito para compaginar la competencia
evaluar en el desarrollo profesional continuo de idiomática de los estudiantes y la experiencia
los educadores. Además, se deben hacer intentos didáctica con las adecuaciones apropiadas del
continuos para educar a otros agentes del proceso idioma. Personal cualificado debe seleccionar
educativo, incluyendo a los padres, estudiantes y las adecuaciones de la prueba basándose en las
responsables de políticas. necesidades individuales de los estudiantes. En
programas de evaluación a gran escala, resulta
especialmente importante establecer políticas y
Administración, calificación y procedimientos claros para la asignación y uso de
presentación de reportes de las adecuaciones. Estos pasos ayudan a mantener
evaluaciones educativas la comparabilidad de los puntajes de las pruebas
con adecuaciones en evaluaciones académicas de
Administración de pruebas educativas distintos distritos y escuelas. Una vez seleccio-
La mayoría de las pruebas educativas conllevan nadas, las adecuaciones se deben usar de forma
procedimientos estandarizados de administra- sistemática en la instrucción y la evaluación, y
ción. Estos procedimientos incluyen instruccio- los administradores de la prueba deben estar
nes para los administradores y examinandos de familiarizados con los procedimientos para una
la prueba, especificaciones para las condiciones evaluación con adecuaciones. En el capítulo 3
de la evaluación y procedimientos de calificación. (“Imparcialidad en las pruebas”) se proporciona
216
información relacionada con las adecuaciones de métodos, denominados también reglas de deci-
administración de pruebas. sión. Por ejemplo, como parte de los requisitos
de graduación, un estado puede requerir que un
Calificación ponderada y compuesta estudiante obtenga niveles establecidos de des-
La calificación de pruebas y evaluaciones educa- empeño en varias pruebas que miden diferentes
tivas requiere el desarrollo de reglas para la com- áreas de contenido usando una regla de decisión
binación de puntajes de ítems y/o tareas para compensatoria o una no compensatoria. Bajo
obtener un puntaje total y, en algunos casos, para la regla de decisión no compensatoria, el estu-
la combinación de varios puntajes en un puntaje diante tiene que conseguir un nivel determinado
agregado. A veces, los puntajes de varias pruebas de desempeño en cada prueba; bajo la regla de
se combinan en agregados lineales usando pesos decisión compensatoria, es posible que el estu-
nominales, que se asignan a cada puntaje com- diante solo tenga que conseguir un determinado
ponente de acuerdo con un criterio lógico de puntaje agregado total basado en una combina-
su importancia relativa. En ocasiones, los pesos ción de puntajes de las distintas pruebas. Para una
nominales pueden se equívocos debido a que la decisión de alto riesgo, como la relacionada con
varianza del agregado también está determinada la graduación, las reglas usadas para combinar
por las varianzas y covarianzas de los puntajes in- puntajes de distintas pruebas se deben establecer
dividuales componentes. Como resultado, es po- con un conocimiento claro de las implicaciones
sible que el “peso efectivo” de cada componente asociadas. En estas situaciones, las consecuencias
no refleje el peso nominal. Cuando se usan pun- importantes (como calificaciones de aprobado o
tajes agregados, se deben conocer y documentar índices de errores de clasificación) serán diferentes
las diferencias entre los pesos nominal y efectivo. en función de las reglas para combinar los resulta-
Para una sola prueba, a menudo los puntajes dos de las pruebas. Los desarrolladores de pruebas
totales se basan en una simple suma de los pun- deben documentar y comunicar estas implicacio-
tajes de ítems y tareas. Sin embargo, se pueden nes a los responsables de las políticas para propi-
aplicar sistemas de ponderación diferencial para ciar decisiones plenamente informadas.
reflejar el énfasis diferencial sobre contenidos
o constructos específicos. Por ejemplo, en una Reportes de puntajes
prueba de idioma inglés, se podría asignar un ma- Los reportes de puntajes para evaluaciones edu-
yor peso a un extenso ensayo debido a la impor- cativas deben respaldar las interpretaciones y de-
tancia de la tarea y porque no es factible incluir en cisiones de sus audiencias previstas, que incluyen
la prueba más de una tarea escrita extensa. Ade- estudiantes, profesores, padres, directores, res-
más, la calificación basada en modelos de la teoría ponsables de políticas y otros educadores. Se pue-
de respuesta al ítem (IRT) puede dar como resul- den desarrollar y producir diferentes reportes para
tado pesos de ítems que difieren de los pesos no- diferentes audiencias, y los diseños de los reportes
minales o deseados. Estas aplicaciones de la IRT de puntajes pueden diferir en consonancia. Por
deben incluir la consideración y explicación de los ejemplo, los reportes preparados para estudiantes
pesos de los ítems en la calificación. En general, individuales y padres pueden incluir información
las reglas de calificación que se usan en pruebas sobre el propósito de la evaluación, definiciones
educativas se deben documentar y deben incluir de categorías de desempeño y representaciones
una justificación basada en la validez. de error de medida más accesibles para el usuario
Además, los desarrolladores de la prueba de- (p. ej., márgenes de error sobre gráficas de punta-
ben tratar con los responsables de políticas sobre jes). Quienes desarrollan estos reportes se deben
los diversos métodos de combinación de los re- esforzar en proporcionar información que ayude
sultados de diferentes pruebas educativas usadas a los estudiantes a tomar decisiones productivas
para tomar decisiones sobre los estudiantes, y sobre su propio aprendizaje. En contraste, los re-
deben documentar y comunicar claramente estos portes preparados para directores y personal del
217
distrito pueden incluir resúmenes más detallados, los resultados por contenido o subgrupo. Las op-
pero menos información básica, ya que estas per- ciones proporcionadas a los usuarios de la prueba
sonas suelen tener un conocimiento mucho ma- para realizar consultas de resultados deben res-
yor de estas evaluaciones. paldar los usos e interpretaciones previstos de la
Como se examinó en el capítulo 3, cuando se prueba. Por ejemplo, los sistemas online pueden
han hecho modificaciones a una prueba para al- disuadir o anular la presentación de resultados,
gunos examinandos y estas afectan al constructo en algunos casos exigida por ley, si los tamaños
que se mide, se puede considerar el reporte de esa de muestra de subgrupos específicos están por
modificación ya que afecta a la confiabilidad/pre- debajo de un número aceptable. Además, se de-
cisión de los puntajes de la prueba o a la validez de ben tomar las medidas necesarias para permitir el
las interpretaciones de los puntajes. Por el contra- acceso únicamente a los individuos apropiados.
rio, cuando se hacen adecuaciones que no afectan Al igual que con los reportes de puntajes, la vali-
a la comparabilidad de los puntajes de la prueba, dez de las interpretaciones a partir de sistemas de
no resulta apropiado indicarlas. apoyo online se puede mejorar a través de estu-
En general, los reportes de puntajes de prue- dios de usabilidad donde participen los usuarios
bas educativas se deben diseñar para proporcionar previstos.
información que sea comprensible y útil para los La tecnología facilita la estrecha concordancia
interesados, y no lleven a interpretaciones in- de los materiales didácticos y los resultados de las
justificadas de los puntajes. Los desarrolladores pruebas educativas. Por ejemplo, los resultados
de pruebas pueden mejorar significativamente reportados para un estudiante individual podrían
el diseño de los reportes de puntajes llevando a incluir no solo sus puntos fuertes y débiles sino
cabo investigaciones de respaldo. Por ejemplo, el también vínculos directos con materiales didác-
estudio de los reportes disponibles de otras prue- ticos específicos que un profesor podría usar con
bas educativas puede aportar ideas para una pre- el estudiante en el futuro. Se debe proporcionar
sentación eficaz de los resultados de las pruebas. la justificación y documentación que respalda la
Además, los estudios de usabilidad con consumi- eficacia de las intervenciones recomendadas, y
dores de reportes de puntajes proporcionan indi- se debe recomendar a los usuarios que conside-
caciones sobre el diseño del reporte. Se pueden ren esta información junto con otras evidencias
usar diversas técnicas en este tipo de investigacio- y criterios sobre las necesidades formativas de los
nes, incluyendo grupos de enfoque, encuestas y estudiantes.
análisis de protocolos verbales. Por ejemplo, las Cuando se reportan resultados para evaluacio-
ventajas y desventajas de diseños de prototipos nes a gran escala, los promotores o usuarios de
alternativos se pueden comparar mediante la re- la prueba deben preparar directrices complemen-
copilación de datos sobre las interpretaciones e tarias para fomentar el uso correcto y las inter-
inferencias formuladas por los usuarios basadas pretaciones válidas de los datos por los medios de
en los datos presentados en cada reporte. comunicación y otros interesados en el proceso de
La capacidad de presentación de reportes evaluación. Estas comunicaciones deben abordar,
online da a los usuarios acceso flexible a los re- probablemente, las consecuencias de la evalua-
sultados de las pruebas. Por ejemplo, el usuario ción (tanto positivas como negativas), así como
puede seleccionar opciones online para desglosar los usos indebidos anticipados de los resultados.
218
219
reducir la validez para otros propósitos. Diferen- se supone, mantienen el constructo sometido a
tes propósitos pueden requerir diferentes tipos de medición) como modificaciones (cambios que, se
evidencia técnica, y el desarrollador de la prueba supone, crean una versión alterada del constructo
debe proporcionar la evidencia apropiada de vali- accesible). El capítulo 3 (“Imparcialidad en las
dez, confiabilidad/precisión e imparcialidad para pruebas”) incluye consideraciones adicionales re-
cada propósito. Si el usuario de la prueba desea lacionadas con la imparcialidad y la accesibilidad
usarla para un propósito no respaldado por la evi- en pruebas y evaluaciones educativas.
dencia disponible, corresponderá al usuario pro-
porcionar la evidencia adicional necesaria. Vea el
capítulo 1 (“Validez”). Estándar 12.4
Cuando una prueba se usa como indicador de
Estándar 12.3 rendimiento en un dominio didáctico o con res-
pecto a estándares específicos de contenido, se
Los responsables del desarrollo y uso de evalua- debe proporcionar evidencia del grado en que la
ciones educativas deben diseñar todos los pasos prueba abarca el rango de conocimientos y revela
pertinentes del proceso de pruebas para promo- los procesos reflejados en el dominio objetivo.
ver el acceso al constructo de todos los indivi- Tanto el dominio probado como el objetivo se de-
duos y subgrupos a quienes se destina la prueba. ben describir con suficiente detalle para que pueda
evaluarse esta relación. El análisis debe explicitar
Comentario: En contextos educativos, es impor-
los aspectos del dominio objetivo que la prueba
tante facilitar a todos los estudiantes (indepen-
representa y también los que no representa.
dientemente de sus características individuales)
la oportunidad de demostrar su competencia en Comentario: Normalmente, las pruebas se de-
el constructo sometido a medición. Las espe- sarrollan para controlar el estado o progreso de
cificaciones de la prueba deben especificar cla- individuos o grupos con respecto a estándares de
ramente todos los subgrupos pertinentes de la contenido locales, estatales, nacionales o profesio-
población objetivo, incluyendo aquellos para nales. Es muy raro que una sola prueba abarque
quienes la prueba no permitiría la demostración la gama completa de desempeños reflejada en los
de conocimientos o habilidades. Los ítems y las estándares de contenido. En el desarrollo de una
tareas se deben diseñar para maximizar el acceso nueva prueba o en la selección de una prueba exis-
al contenido de la prueba a todos los individuos tente, la interpretación apropiada de los puntajes
de la población de examinandos prevista. Se de- como indicadores de desempeño en estos están-
ben implementar herramientas y estrategias para dares requiere documentar y evaluar la relevancia
familiarizar a todos los examinandos con la tec- de la prueba respecto de los estándares y el grado
nología y el formato de evaluación utilizados, y de alineación de la prueba con estos estándares.
se debe evitar que el método de administración Estos estudios de alineación deben abordar varios
y calificación introduzca alguna varianza irrele- criterios, incluyendo no solo la alineación de la
vante de constructo en el proceso de la prueba. prueba con las áreas de contenido incluidas en los
En situaciones en que se cree que características estándares, sino también la alineación con los es-
individuales (como la competencia en el inglés, tándares en términos de variedad y complejidad
los orígenes culturales o lingüísticos, la discapa- de los conocimientos y habilidades que se espera
cidad o la edad) pueden interferir con el acceso demuestren los estudiantes. Además, realizar es-
a los constructos que la prueba intenta medir, se tudios de las estrategias y capacidades cognitivas
deben proporcionar adaptaciones apropiadas que de los examinandos, o estudios de las relaciones
permitan el acceso al contenido, contexto y for- entre los puntajes de la prueba y otros indicado-
matos de respuesta de los ítems de la prueba. Esto res de desempeño pertinentes al dominio objetivo
podría incluir tanto adecuaciones (cambios que, más general, permite la evaluación del grado de
220
221
Estándar 12.9 solo los puntajes de una sola prueba sino otra
información pertinente.
Los estudiantes que deben demostrar destreza en
determinados conocimientos o habilidades para Comentario: En general, distintas medidas o
obtener una promoción o un título deben dispo- fuentes de datos suelen mejorar la idoneidad de
ner de un número razonable de oportunidades las decisiones sobre los estudiantes en contextos
para tener éxito en formularios alternativos de educativos y, por lo tanto, los promotores y usua-
la prueba, o se les debe facilitar alternativas téc- rios de la prueba deben tenerlos en cuenta a la
nicamente adecuadas para demostrar su destreza hora de establecer reglas y políticas de decisión.
en los mismos conocimientos o habilidades. Es importante que, además de los puntajes de una
En la mayoría de las circunstancias, cuando se sola prueba, se tome en consideración otra infor-
proporciona a los estudiantes varias oportunida- mación pertinente (p. ej., trabajos de la escuela,
des para demostrar su destreza, el intervalo de observación en el aula, reportes parentales, otros
tiempo entre las oportunidades debe permitirles puntajes de pruebas) cuando esté justificado. Es-
obtener experiencias didácticas pertinentes. tas fuentes de datos adicionales deben demostrar
información pertinente para el constructo pre-
Comentario: El número de oportunidades de visto. Por ejemplo, tal vez no sea recomendable
evaluación y el tiempo entre las oportunidades o legal admitir automáticamente estudiantes en
variará con las circunstancias específicas del un programa de talento si su CI medido está por
contexto. Además, la política puede dictar que encima de 130, sin considerar información per-
algunos estudiantes dispongan de oportunida- tinente adicional sobre su desempeño. De forma
des para demostrar su rendimiento usando un similar, algunos estudiantes con CI medidos por
método diferente. Por ejemplo, algunos estados debajo de 130 podrían ser admitidos basándose
que administran pruebas de graduación en se- en otras medidas o fuentes de datos como, por
cundaria permiten que los estudiantes que hayan ejemplo, una prueba de creatividad, un porfolio
participado en el plan de estudios regular, pero de trabajos o recomendaciones de los profesores.
que no han podido demostrar el nivel de des- En estos casos, otro tipo de evidencia de desem-
empeño requerido en una o más pruebas, mues- peño talentoso sirve para compensar un puntaje
tren, a través de un porfolio estructurado de los de CI más bajo.
trabajos del curso y otros indicadores (p. ej.,
participación en programas de apoyo aprobados,
Estándar 12.11
satisfacción de otros requisitos de graduación),
que tienen los conocimientos y capacidades ne- Cuando se usan puntajes de diferencia o de cre-
cesarios para obtener un título de secundaria. Si cimiento para estudiantes individuales, estos
se usa otro método de evaluación, deberá llevarse puntajes se deben definir claramente y se debe
a cabo con los mismos estándares de calidad téc- reportar evidencia de validación, confiabilidad/
nica que la evaluación principal. En particular, precisión e imparcialidad.
se debe proporcionar evidencia de que el método
alternativo mide las mismas habilidades y tiene Comentario: Se debe reportar el error estándar de
las mismas expectativas de calificación de apro- la diferencia entre puntajes de pretest y postest,
bación que la evaluación principal. la regresión de puntajes de postest en puntajes
de pretest, o datos pertinentes de otros métodos
apropiados para examinar el cambio.
Estándar 12.10 En los casos donde se predicen puntajes de cre-
cimiento para estudiantes individuales, se pueden
En contextos educativos, una decisión o carac- usar resultados basados en diferentes versiones de
terización que vaya a tener un impacto signifi- pruebas realizadas a lo largo del tiempo. Por ejem-
cativo en un estudiante debe tener en cuenta no plo, los puntajes de matemáticas en los grados 3,
222
4 y 5 se podrían usar para predecir el puntaje de cuando estos puntajes se usen como fundamento
matemáticas esperado en el grado 6. En tales ca- para tomar decisiones importantes sobre un es-
sos, si se usan modelos estadísticos complejos para tudiante. Este estándar también es pertinente en
estudiantes individuales, el método para la cons- comparaciones de subpuntajes o puntajes de di-
trucción de modelos deberá ser explícito y estar ferentes componentes de la misma prueba, como
justificado, y se deberá proporcionar información pueden ser los reportados por varias baterías de
técnica e interpretativa de respaldo a los usuarios pruebas de aptitudes, pruebas educativas o prue-
de los puntajes. El capítulo 13 (“Uso de pruebas bas de selección.
para la evaluación de programas, estudios de polí-
ticas y rendición de cuentas”) aborda la aplicación
de modelos más complejos a grupos o sistemas en Estándar 12.13
contextos de rendición de cuentas.
Cuando se prevé que los puntajes de las pruebas
se usen como parte del proceso de toma de deci-
Estándar 12.12 siones sobre ubicación o promoción educativas,
implementación de programas educativos indi-
Cuando se comparan los puntajes de distintas vidualizados o suministro de servicios para estu-
pruebas de un estudiante individual, cualquier diantes de lengua inglesa, se debe proporcionar
decisión educativa basada en la comparación evidencia empírica que documente la relación
debe tener en cuenta el grado de superposición entre los puntajes de pruebas específicas, los
entre los dos constructos y la confiabilidad o programas didácticos y los resultados deseados
error estándar del puntaje de diferencia. de los estudiantes. Cuando no esté disponible la
evidencia empírica, debe advertirse a los usua-
Comentario: Cuando se usan puntajes de di-
rios que ponderen los resultados de la prueba en
ferencia entre dos pruebas como ayuda para la
función de otra información pertinente sobre los
toma de decisiones educativas, es importante
estudiantes.
que las dos pruebas se coloquen sobre una escala
común, ya sea mediante estandarización o me- Comentario: El uso de los puntajes de una prueba
diante otros medios, y, si resulta apropiado, se para decisiones de asignación o promoción debe
normalicen con respecto a la misma población en estar respaldado por evidencia sobre la relación
aproximadamente el mismo momento. Además, entre los puntajes de la prueba y los beneficios
la confiabilidad y el error estándar de los puntajes previstos de los programas educativos resultantes.
de diferencia entre las dos pruebas se ven afecta- De este modo, se debe recopilar evidencia empí-
dos por la relación entre los constructos medidos rica para respaldar el uso de una prueba por una
por las pruebas, así como por los errores estándar escuela universitaria para ubicar a los estudiantes
de medida de los puntajes de las dos pruebas. Por que ingresan en diferentes cursos de matemáticas.
ejemplo, cuando puntajes de una capacidad no De forma similar, en educación especial, cuando
verbal se comparan con puntajes de pruebas de los puntajes de las pruebas se usen en el desarrollo
rendimiento, el carácter superpuesto de los dos de objetivos educativos y estrategias didácticas es-
constructos puede generar una confiabilidad más pecíficos, se necesitará la evidencia que demuestre
baja de los puntajes de diferencia de lo que espera- que la instrucción prescrita (a) está directamente
rían normalmente los usuarios de la prueba. Si las vinculada con los puntajes de la prueba, y (b) pro-
pruebas de habilidad y/o rendimiento incluyen bablemente mejore el aprendizaje del estudiante.
una cantidad significativa de error de medida, esto Cuando haya evidencia limitada sobre la relación
también reducirá la confianza que se pueda poner entre los resultados de la prueba, los planes di-
en los puntajes de diferencia. Todos estos factores dácticos y los resultados de rendimiento de los
afectan a la confiabilidad de los puntajes de di- estudiantes, los desarrolladores y usuarios de la
ferencia entre las pruebas y se deben considerar prueba deberán enfatizar la naturaleza preliminar
223
de las recomendaciones basadas en la prueba y re- hacerlo o tengan la asistencia o asesoría de per-
comendar a los profesores y a otros responsables sonas que disponen de esa cualificación.
de tomar decisiones a ponderar la utilidad de los
Comentario: Cuando los programas educativos se
puntajes a la luz de otra información pertinente
usan como estrategia para orientar la instrucción,
sobre los estudiantes.
el personal de la escuela que se prevé deberá for-
mular inferencias sobre la planificación didáctica,
Estándar 12.14 puede necesitar asistencia en la interpretación de
los resultados de la prueba para esa finalidad. Esta
En contextos educativos, quienes supervisan a asistencia puede consistir en desarrollo profesio-
otros en la selección, administración e interpre- nal continuo, guías de interpretación, capacita-
tación de puntajes de pruebas, deben estar fa- ción, sesiones informativas y la disponibilidad de
miliarizados con la evidencia de confiabilidad/ expertos para responder a las preguntas que surjan
precisión, la validez de las interpretaciones pre- a medida que se diseminan los resultados de la
vistas y la imparcialidad de los puntajes. Deben prueba.
tener la capacidad de articular y preparar eficaz- La interpretación de algunos puntajes de
mente a otros para que articulen una explicación pruebas es suficientemente compleja para reque-
lógica de las relaciones entre las pruebas usadas, rir que el usuario tenga capacitación y experien-
los propósitos de las pruebas y las interpretacio- cia pertinentes o cuente con la ayuda o asesoría
nes de los puntajes de las pruebas para los usos de personas con esa capacitación y experiencia.
previstos. Los ejemplos incluyen las pruebas de inteligen-
Comentario: Las interpretaciones apropiadas de cia administradas individualmente, inventarios
los puntajes en pruebas educativas dependen de de interés, puntajes de crecimiento en evalua-
la preparación efectiva de los individuos que lle- ciones estatales, pruebas proyectivas y pruebas
van a cabo la administración de la prueba y de la neuropsicológicas.
capacitación apropiada de aquellos que hacen uso
de los resultados de la prueba. Establecer progra-
mas de desarrollo profesional continuo que hagan Unidad 3. Administración,
hincapié en la mejora de la capacidad de evaluar calificación y presentación de
de los profesores e interesados es un mecanismo
que permite a los responsables del uso de prue- reportes de evaluaciones educativas
bas en contextos educativos facilitar la validez de
las interpretaciones de los puntajes. La fijación Estándar 12.16
de requisitos educativos (p. ej., un grado avan-
zado, trabajos académicos pertinentes o asistencia Los responsables de los programas de pruebas
a talleres proporcionados por el desarrollador o educativas deben proporcionar la capacitación,
promotor de la prueba) es otra estrategia que se documentación y supervisión apropiadas, de
puede usar para suministrar documentación de manera que los individuos que administren o
cualificaciones y especialización. califiquen las pruebas sean competentes en los
procedimientos apropiados de administración o
calificación de las pruebas y entiendan la impor-
Estándar 12.15 tancia de adherirse a las instrucciones facilitadas
por el desarrollador.
Los responsables de programas de pruebas edu-
cativas deben tomar las medidas necesarias para Comentario: Además de estar familiarizados con
verificar que los individuos que interpretan los la documentación y los procedimientos estan-
resultados de la prueba para la toma de decisio- darizados de administración de pruebas (inclu-
nes en el contexto escolar estén cualificados para yendo los protocolos de seguridad de pruebas), es
224
importante que los coordinadores y administra- con cada puntaje o nivel de clasificación, y de
dores de pruebas se familiaricen con los materiales información complementaria relacionada con
y procedimientos de las adecuaciones y modifi- los puntajes de resumen de grupo. Además, los
caciones en la evaluación. Por lo tanto, los de- reportes de puntajes deben incluir las fechas de
sarrolladores de pruebas deben proporcionar los administración de las pruebas y los estudios de
manuales y el material de capacitación apropiados normalización pertinentes.
que aborden específicamente la administración de
Comentario: La información de puntajes se debe
pruebas con adecuaciones. Los coordinadores y
comunicar de forma que sea accesible para las
administradores de pruebas también deben reci-
personas que reciben el reporte. La investigación
bir información sobre las características de las po-
empírica relacionada con los usuarios de reportes
blaciones de estudiantes incluidas en el programa
de puntajes puede ser útil para mejorar la claridad
de evaluación.
de los reportes. Por ejemplo, el grado de incer-
tidumbre de los puntajes se podría representar
Estándar 12.17 mediante errores estándar de medida presentados
gráficamente; o se podría proporcionar la proba-
En contextos educativos, cuando sea posible, los bilidad de clasificación incorrecta asociada con los
reportes de las diferencias entre grupos en los niveles de desempeño. De forma similar, cuando
puntajes de las pruebas deben ir acompañados de se reporten los promedios o puntajes de resumen
información contextual pertinente para facilitar de grupos de estudiantes, deben complementarse
la interpretación significativa de las diferencias. con información adicional sobre los tamaños de
Cuando la información contextual apropiada no muestra y los perfiles o dispersiones de la distri-
esté disponible, los usuarios deben ser cautos bución de puntajes. En los reportes de puntajes,
respecto de las interpretaciones indebidas. se debe tener especial cuidado al representar la
Comentario: Las diferencias entre los puntajes información de subpuntajes de manera que fa-
de las pruebas entre subgrupos pertinentes (p. ej., cilite una interpretación apropiada. Los reportes
clasificados por género, raza/origen étnico, es- de puntajes deben incluir la fecha de administra-
cuela/distrito o región geográfica) pueden verse ción, de modo que los usuarios de los puntajes
influidas, por ejemplo, por las diferencias en las puedan considerar la validez de las inferencias
características de los estudiantes, los patrones de con el paso del tiempo. Los reportes de puntajes
elección de cursos, el plan de estudios, las cualifi- también deben incluir las fechas de los estudios
caciones de los profesores o los niveles educativos de normalización pertinentes, de manera que los
parentales. Las diferencias en el desempeño en co- usuarios puedan tener en cuenta la antigüedad de
hortes de estudiantes a lo largo del tiempo pueden las normas cuando formulen inferencias sobre el
verse influidas por los cambios en la población de desempeño de los estudiantes.
estudiantes bajo prueba o los cambios en las opor-
tunidades de aprendizaje para los estudiantes. Se Estándar 12.19
debe recomendar a los usuarios que consideren la
información contextual apropiada y sean cautos En contextos educativos, cuando los reportes
respecto de las interpretaciones indebidas. de puntajes incluyan recomendaciones de inter-
vención formativa o estén vinculados a planes
recomendados o materiales didácticos, se debe
Estándar 12.18 proporcionar la justificación y evidencia que res-
palde estas recomendaciones.
En contextos educativos, los reportes de punta-
jes deben ir acompañados de una presentación Comentario: La tecnología permite asignar,
clara de información sobre cómo interpretarlos, cada vez en mayor medida, intervenciones for-
incluyendo el grado de error de medida asociado mativas específicas a los estudiantes basándose
225
en los resultados de las evaluaciones. Se puede se use para asignar estudiantes a intervenciones
poner a disposición de los estudiantes conte- formativas concretas, es importante proporcio-
nido digital específico (p. ej., fichas de trabajo o nar una justificación y evidencia empírica que
lecciones) usando una interpretación basada en respalde la alegación de idoneidad de estas asig-
reglas de su desempeño en una prueba basadas naciones. Además, se debe recomendar a los
en estándares. En estos casos, se debe propor- usuarios que consideren estas recomendaciones
cionar documentación que respalde la idoneidad pedagógicas junto con otra información perti-
de las asignaciones formativas. De forma similar, nente sobre los puntos fuertes y débiles de los
cuando el patrón de subpuntajes de una prueba estudiantes.
226
227
formular inferencias sobre la calidad de los servi- para grupos de comparación apropiados. Si bien
cios suministrados y, como resultado, se toman muchas actividades de evaluación se dirigen a
decisiones sobre estados, recompensas o sanciones documentar el desempeño de examinandos in-
institucionales. Por ejemplo, la calidad del plan dividuales, la evaluación de programas y estudios
de estudio y la enseñanza de la lectura se podría de políticas tiene como objetivo el desempeño
juzgar en parte sobre la base de los resultados de de grupos o el impacto de los resultados de las
las pruebas del nivel alcanzado por grupos de es- pruebas en estos grupos. Se puede usar una varie-
tudiantes. De forma similar, a veces los puntajes dad de pruebas para la evaluación de programas
agregados de pruebas psicológicas se usan para y políticas; los ejemplos incluyen las pruebas de
evaluar la eficacia del tratamiento que proporcio- rendimiento estandarizadas administradas por
nan programas u organismos de salud mental, y estados y distritos, pruebas psicológicas publica-
se pueden incluir en los sistemas de rendición de das que miden resultados de interés, y medidas
cuentas. Incluso cuando se reportan los resultados desarrolladas específicamente para los propósitos
de pruebas de forma agregada y se destinan a fi- de la evaluación. Además, las evaluaciones de pro-
nes de bajo riesgo, la comunicación pública de los gramas y políticas resumen a veces los resultados
datos se podría usar para informar juicios sobre la de distintos estudios y pruebas.
calidad del programa, el personal o sobre los pro- Es importante evaluar cualquier prueba pro-
gramas educativos y podría tener influencia sobre puesta en términos de su relevancia para los ob-
las decisiones normativas. jetivos del programa o política y/o las preguntas
específicas que se pueden solventar con su uso. Es
Evaluación de programas e iniciativas relativamente raro que una prueba esté específica-
de políticas mente diseñada para propósitos de evaluación de
programas o estudios de políticas; por lo tanto,
Como se indicó anteriormente, un programa de a menudo es necesario que aquellos que realizan
evaluación implica habitualmente la formulación pruebas se basen en medidas desarrolladas para
de juicios sobre un solo programa, mientras que otros propósitos. Además, por razones de coste
los estudios de políticas abordan planes, princi- o evidencia, algunas pruebas se pueden adoptar
pios o procedimientos dictados para conseguir para usarlas en una evaluación de programa o es-
objetivos públicos generales. Los estudios de po- tudio de políticas, incluso si se han desarrollado
líticas pueden tratar políticas en varios niveles de para una población de examinandos un tanto
gobierno, incluyendo el local, estatal, federal e diferente. Algunas pruebas se pueden seleccionar
internacional, y se pueden llevar a cabo en con- porque son bastante conocidas y se las considera
textos organizacionales o institucionales tanto especialmente confiables desde la perspectiva de
públicos como privados. No hay una distinción los clientes o consumidores públicos, o porque ya
nítida entre estudios de políticas y evaluaciones existen datos útiles de administraciones anterio-
de programas, y en muchos casos hay una super- res. Se debe proporcionar evidencia de validación
posición sustancial entre los dos tipos de investi- de los puntajes de pruebas para los usos previstos
gaciones. Los resultados de las pruebas suelen ser siempre que se usen pruebas para la evaluación de
una fuente importante de evidencia para el inicio, programas o políticas o para fines de rendición
continuación, modificación, terminación o ex- de cuentas.
pansión de diversos programas y políticas. Debido a realidades administrativas, como las
Las pruebas se pueden usar en evaluaciones de limitaciones de costo y la carga de respuestas, se
programas o estudios de políticas para proporcio- pueden adoptar ajustes metodológicos para au-
nar información sobre el estado de clientes, estu- mentar la eficiencia de las pruebas. Una estrategia
diantes u otros grupos antes, durante y después es obtener una muestra de participantes a evaluar
de una intervención o adopción de política, así a partir de un conjunto más grande de participan-
como para proporcionar información de puntajes tes expuestos a un programa o política. Cuando
228
un número suficiente de clientes se ve afectado adicional. También puede ser necesario conocer
por el programa o la política que se va a evaluar, el grado en que la información de identificación
y cuando exista el deseo de limitar el tiempo que personal ha sido suprimida del conjunto de datos
se dedica a la evaluación, los evaluadores pueden de acuerdo con la normativa vigente. Al seleccio-
crear diversos formularios de pruebas cortas a par- nar (o desarrollar) una prueba o al decidir el uso
tir de un conjunto más grande de ítems. Mediante de datos existentes en evaluaciones o estudios de
la construcción de un número de formularios de políticas, los investigadores prudentes intentan
pruebas compuestos cada uno por un número re- equilibrar el propósito de la prueba, la proba-
lativamente bajo de ítems y la asignación de los bilidad de que sea sensible a la intervención en
formularios a diferentes submuestras de exami- estudio, su credibilidad con respecto a las partes
nandos (un procedimiento conocido como mues- interesadas y los costos de administración. De lo
treo de matriz), se puede incluir en el estudio un contrario, los resultados de las pruebas pueden
mayor número de ítems del que podría adminis- llevar a conclusiones inapropiadas sobre el pro-
trarse razonablemente a un solo examinando. Este greso, el impacto y el valor general de los progra-
método se suele usar cuando es deseable represen- mas y las políticas bajo revisión
tar un dominio con un gran número de ítems de La interpretación de puntajes de las pruebas
prueba. No obstante, en las pruebas con muestreo en evaluación de programas y estudios de polí-
de matriz, normalmente los puntajes individua- ticas requiere habitualmente el análisis complejo
les no se crean ni interpretan. Debido a que los de un número de variables. Por ejemplo, algunos
procedimientos para el muestreo de individuos o programas son obligatorios para un grupo de
ítems de prueba pueden variar en distintas for- población; otros se dirigen solo a determinados
mas, el análisis e interpretación adecuados de los subgrupos. Algunos están diseñados para afectar
resultados de las pruebas dependen de una clara a las actitudes, creencias o valores; en tanto que
descripción del modo cómo se forman las mues- otros tienen como meta tener un impacto directo
tras y de cómo se diseñan, califican y reportan las en el comportamiento, los conocimientos o las
pruebas. Los reportes de resultados de las pruebas habilidades. Es importante que los participantes
usados para la evaluación o la rendición de cuen- incluidos en cualquier estudio cumplan los crite-
tas, deben describir la estrategia de muestreo y el rios especificados para participar en el programa o
grado de representatividad de la muestra respecto política bajo revisión, de manera que sea posible
de la población pertinente para las inferencias una interpretación apropiada de los resultados de
previstas. la prueba. Los resultados de la prueba reflejarán
En ocasiones, las evaluaciones y estudios de no solo los efectos de las reglas para la selección
política se basan en análisis de datos secundarios: de participantes y el impacto en los participan-
el análisis de los datos recopilados anteriormente tes de programas o tratamientos, sino también
para otros propósitos. En algunos casos, puede ser las características de los participantes. Se puede
difícil garantizar una concordancia correcta entre obtener información contextual pertinente so-
la prueba existente y la intervención o política bre clientes o estudiantes para reforzar las infe-
bajo examen, o reconstruir en detalle las condi- rencias derivadas de los resultados de la prueba.
ciones bajo las cuales se recopilaron originalmente Las interpretaciones válidas pueden depender de
los datos. El análisis de datos secundarios también consideraciones adicionales que no tengan nada
requiere la consideración de los derechos de pri- que ver con la idoneidad de la prueba o su calidad
vacidad de los examinandos y de otros afectados técnica, incluyendo el diseño del estudio, la via-
por el análisis. A veces esto requiere determinar bilidad administrativa y la calidad de otros datos
si el consentimiento informado obtenido de los disponibles. Este capítulo se centra en las pruebas
participantes en la recopilación original de datos y no examina esas otras consideraciones de ma-
resulta adecuado para que se realice un análisis nera sustancial. Sin embargo, para el desarrollo de
secundario sin necesidad de un consentimiento conclusiones defendibles, los investigadores que
229
llevan a cabo evaluaciones de programas y estu- (p. ej., distrito, escuela, profesor), los riesgos apa-
dios de políticas deben complementar los resul- rejados con los resultados, la frecuencia de la me-
tados de las pruebas con datos de otras fuentes. dición y la inclusión o no de indicadores externos
Estos datos podrían incluir información sobre a la prueba en el sistema de rendición de cuentas.
características del programa, prestaciones, costos, Una cuestión de medición importante en la ren-
antecedentes de clientes, grado de participación y dición de cuentas se deriva de la construcción de
evidencias de efectos secundarios. Debido a que un índice de rendición de cuentas: un número o
los resultados de las pruebas tienen un peso im- etiqueta que refleja un conjunto de reglas para la
portante para la evaluación y los estudios de po- combinación de puntajes y otra información para
líticas, resulta crucial que cualquier prueba usada llegar a conclusiones e informar la toma de deci-
en estas investigaciones sea sensible con respecto siones. Un índice de rendición de cuentas podría
a las preguntas del estudio y apropiada para los ser tan sencillo como un puntaje promedio de
examinandos. pruebas para los estudiantes de un grado especí-
fico de una escuela concreta, pero la mayoría de
Sistemas de rendición de cuentas los sistemas dependen de índices más complejos.
basada en pruebas Estos pueden incluir un conjunto de reglas (a
menudo, denominadas reglas de decisión) para
La inclusión de puntajes de pruebas en sistemas sintetizar distintas fuentes de información como,
de rendición de cuentas del ámbito educativo se por ejemplo, puntajes de pruebas, calificaciones
ha hecho común en los Estados Unidos y otros de graduación, calificaciones de elección de curso
países. En la mayoría de los casos, la rendición y cualificaciones del profesor. Un índice de ren-
de cuentas basada en pruebas tiene lugar en el dición de cuentas también podría crearse a partir
nivel K-12, pero muchos de los problemas que de aplicaciones de modelos estadísticos complejos
surgen en el contexto K-12 son pertinentes para como, por ejemplo, los utilizados en métodos de
los esfuerzos de adoptar una rendición de cuen- modelos de valor añadido. Como se expuso en el
tas basada en resultados en la educación post- capítulo 12, para decisiones de alto riesgo, como
secundaria. Además, los sistemas de rendición la clasificación de escuelas o profesores en cate-
de cuentas pueden incorporar información de gorías de desempeño vinculadas a recompensas o
sistemas de datos longitudinales que relacionan sanciones, el establecimiento de reglas usadas para
el desempeño de los estudiantes en las pruebas crear índices de rendición de cuentas deberá estar
y otros indicadores, incluyendo sistemas que informado por la consideración de la naturaleza
capturan el desempeño de una cohorte desde el de la información que se prevé proporcionará el
nivel pre-escolar hasta educación superior y en sistema y por el conocimiento del efecto de estas
la fuerza laboral. En ocasiones, la rendición de reglas en las consecuencias. Las implicaciones de
cuentas basada en pruebas se produce en sectores estas reglas se deben comunicar a los responsa-
distintos a la educación; un ejemplo es el uso bles de las decisiones, de manera que conozcan
de pruebas psicológicas con el fin crear medidas las consecuencias de cualquier decisión sobre las
de eficacia para proveedores de servicios de sa- políticas que se basan en el índice de rendición
lud mental. Estos usos de las pruebas plantean de cuentas.
cuestiones similares a las que surgen en contex- Los sistemas de rendición de cuentas basada
tos educativos. en pruebas incluyen interpretaciones y supues-
Los sistemas de rendición de cuentas basada tos que van más allá de la interpretación de
en pruebas adoptan una variedad de métodos los puntajes de las pruebas en las que se basan;
para medir el desempeño y exigir a individuos o por lo tanto, requieren evidencia adicional que
grupos responsabilidad por ese desempeño. Estos respalde su validez. Por lo general, los sistemas
sistemas varían en un número de dimensiones, de rendición de cuentas en educación agregan
incluyendo la unidad de la rendición de cuentas los puntajes de los estudiantes de una clase o
230
escuela, y se pueden usar complejos modelos varios sujetos y niveles de grado, y determinar si
matemáticos para generar un resumen esta- se mide el desempeño con respecto a un objetivo
dístico, o índice, para cada profesor o escuela. fijo o se usa un método basado en clasificacio-
Estos índices se suelen interpretar como esti- nes. El desarrollo de un índice de rendición de
maciones de la eficacia del profesor o escuela. cuentas también implica consideraciones políti-
Los usuarios de la información de los sistemas cas, por ejemplo, cómo equilibrar las cuestiones
de rendición de cuentas podrían asumir que los técnicas y la transparencia.
índices de rendición de cuentas proporcionan
indicadores válidos de los resultados educativos Problemas en la evaluación de
previstos (p. ej., competencia en las habilidades programas y políticas y en la
y conocimientos descritos en los estándares de rendición de cuentas
contenido de un estado), que las diferencias en-
tre índices se pueden atribuir a diferencias en la En ocasiones, los resultados de las pruebas se
eficacia del profesor o escuela, y que esas dife- usan como una forma de motivar a los admi-
rencias son razonablemente estables a lo largo nistradores de programas u otros proveedores de
del tiempo y para distintos estudiantes e ítems. servicios, así como para inferir la eficacia ins-
Estos supuestos deben estar respaldados por evi- titucional. Se cree que el uso de estas pruebas,
dencias. Además, los responsables del desarrollo incluyendo el reporte público de los resultados,
e implementación de sistemas de rendición de recomienda a que una institución mejore los
cuentas basada en pruebas sostienen, a menudo, servicios que ofrece a sus clientes. Por ejemplo,
que estos sistemas conducen a resultados especí- en algunos sistemas de rendición de cuentas ba-
ficos, como una mayor motivación del educador sada en pruebas, resultados sistemáticamente
o mejoras de rendimiento; estas afirmaciones deficientes en las pruebas de rendimiento en el
también se deben respaldar con evidencias. En nivel escolar pueden dar como resultado inter-
particular, se deben adoptar medidas para inves- venciones que afectan al personal o a las ope-
tigar cualquier consecuencia positiva o negativa raciones de la escuela. La interpretación de los
potencial del sistema de rendición de cuentas resultados de las pruebas es particularmente
seleccionado. compleja cuando las pruebas se usan como me-
De modo similar, la elección de reglas y datos canismo de políticas institucionales y también
específicos que se usan para crear un índice de como una medida de eficacia. Por ejemplo, una
rendición de cuentas debe reflejar los objetivos y política o programa se puede basar en el su-
valores de quienes están desarrollando el sistema puesto de que proporcionar objetivos claros y
de rendición de cuentas, así como las inferencias especificaciones generales del contenido de una
que el diseño del sistema respalda. Por ejemplo, prueba (p. ej., tipos de temas, constructos, do-
si el objetivo principal de un sistema de rendi- minios cognitivos y formatos de respuestas in-
ción de cuentas es identificar a profesores que cluidos en la prueba) puede ser una estrategia
sean eficaces en la mejora del rendimiento de los razonable para comunicar nuevas expectativas
estudiantes, el índice de rendición de cuentas se a los educadores. Sin embargo, el deseo de in-
debe basar en evaluaciones que estén estrecha- fluir en los resultados de una prueba o evalua-
mente alineadas con el contenido que se prevé ción para demostrar un desempeño institucional
cubrirá el profesor y deberá tener en cuenta aceptable podría llevar a prácticas de evaluación
factores fuera del control del profesor. Normal- inapropiadas como, por ejemplo, enseñar los
mente, el proceso conlleva decisiones como, por ítems de la prueba con antelación, modificar los
ejemplo, determinar si se miden los porcentajes procedimientos de administración, desanimar
sobre un puntaje de corte o sobre una media de a que determinados estudiantes o clientes par-
los puntajes de escala, si se mide el estado o el ticipen en las sesiones de evaluación, o centrar
crecimiento, cómo combinar la información de la enseñanza exclusivamente en las capacidades
231
que se someten a prueba. Estas respuestas ilus- examinando del propio proceso de evaluación,
tran que cuanto más se usa un indicador para la incluyendo las prácticas de administración y pre-
toma de decisiones, más probabilidades hay que sentación de reportes.
se corrompa y distorsione el proceso que debe Raras veces las decisiones de políticas públi-
medir. Prácticas no deseables (por ejemplo, un cas se basan exclusivamente en los resultados de
énfasis excesivo en las habilidades sometidas a estudios empíricos, ni siquiera cuando los estu-
prueba) podrían sustituir a las prácticas que tie- dios son de alta calidad. Cuanto más expansiva
nen como objetivo que los examinandos apren- e indirecta es la política, más probable es que
dan los dominios más generales medidos por entren en juego otras consideraciones como, por
la prueba. Debido a que los resultados que se ejemplo, el impacto político y económico de
derivan de tales prácticas pueden conducir a es- abandonar, cambiar o mantener la política, o las
timaciones artificialmente altas del desempeño, reacciones de diversos agentes cuando las institu-
el investigador diligente debe estimar el impacto ciones se convierten en objetivo de recompensas
de los cambios en las prácticas de enseñanza que o sanciones. Las pruebas usadas en contextos de
puedan deducirse de la evaluación a fin de inter- políticas pueden estar sujetas a un intenso y de-
pretar correctamente los resultados de la prueba. tallado escrutinio por motivos políticos. Cuando
Examinar las consecuencias potenciales inapro- los resultados de las pruebas contradicen una po-
piadas de las pruebas, así como sus beneficios, sición favorecida, es posible que se hagan inten-
dará como resultado una evaluación más precisa tos de desacreditar el procedimiento, contenido
de los argumentos políticos sobre los tipos espe- o interpretación de la evaluación. Los usuarios de
cíficos de programas de pruebas que inducen a la prueba deben tener la capacidad de defender
mejores desempeños. el uso de la prueba y la interpretación de los re-
Es posible que los investigadores que llevan a sultados, pero también deben reconocer que no
cabo estudios de políticas y evaluaciones de pro- pueden controlar las reacciones de los grupos
gramas no den razones claras a los examinandos interesados.
sobre la participación en el procedimiento de Es esencial que todas las pruebas usadas en
evaluación y, a menudo, oculten los resultados a contextos de rendición de cuentas, evaluación de
los examinandos. Cuando se usa el muestreo de programas o políticas cumplan los estándares de
matriz para la evaluación de programas, es posi- validez, confiabilidad e imparcialidad apropiados
ble que no sea viable suministrar tales reportes. para las interpretaciones y usos previstos de los
Si se hacen escasos esfuerzos para motivar a los puntajes de las pruebas. Además, como se des-
examinandos para que se tomen la prueba con cribe en el capítulo 6, las pruebas deben adminis-
seriedad (p. ej., si no se explica el propósito de trarse por personal con la capacitación apropiada
la prueba), los examinandos tendrían pocas razo- para implementar los procedimientos de admi-
nes para maximizar su esfuerzo en la prueba. De nistración. También es esencial que se asista a los
este modo, los resultados de la prueba podrían responsables de interpretar los resultados del estu-
tergiversar el impacto de un programa, insti- dio para profesionales, medios de comunicación
tución o política. Cuando existan sospechas de y público general. Una cuidadosa comunicación
que una prueba no se ha realizado seriamente, se sobre los objetivos, procedimientos, conclusiones
puede explorar la motivación de los examinandos y limitaciones aumenta la probabilidad de que las
mediante la recogida de información adicional interpretaciones de los resultados sean precisas y
donde sea factible, usando métodos de observa- útiles.
ción o entrevista. Los problemas de preparación
inapropiada y desempeño desmotivado plantean Consideraciones adicionales
preguntas sobre la validez de las interpretaciones
de los resultados de las pruebas. En todo caso, es Este capítulo y los estándares asociados se dirigen
importante considerar el impacto potencial en el a los usuarios de pruebas para la evaluación de
232
programas, estudios de políticas y sistemas de ren- políticas, así como a los educadores, administrado-
dición de cuentas. Los usuarios incluyen a aquellos res y responsables de políticas que trabajan en la
que encargan, diseñan o implementan estas eva- medición del desempeño de las escuelas y la eva-
luaciones, estudios o sistemas, y aquellos que to- luación de la eficacia de programas y políticas de
man decisiones basándose en la información que educación. Además de los estándares siguientes,
proporcionan. Los usuarios incluyen, entre otros, los usuarios deben considerar otros documentos
a los psicólogos que desarrollan, evalúan o aplican disponibles que contienen estándares pertinentes.
233
234
los puntajes de cambio es más alto que el error de la eficacia de los profesores en la mejora del
asociado con los puntajes originales en los cuales rendimiento de los estudiantes, será necesario
aquellos se basan. Si se usan puntajes de cambio, proporcionar evidencia de la idoneidad de esta
se debe reportar la información sobre la confia- inferencia. De forma similar, si las calificaciones
bilidad/precisión de estos puntajes. También es publicadas de proveedores de servicios de salud se
importante reportar el periodo de tiempo entre basan en índices construidos a partir de puntajes
las administraciones de las pruebas y, si se usa la de pruebas psicológicas de sus pacientes, la infor-
misma prueba en varias ocasiones, se debe exami- mación pública deberá incluir información que
nar la posibilidad de efectos prácticos (es decir, ayude a los usuarios a entender qué inferencias
la mejora del desempeño debido a la familiaridad sobre el desempeño del proveedor están justifica-
con los ítems de la prueba). das. Los desarrolladores y usuarios de índices de-
ben tener en cuenta las formas en que el proceso
Estándar 13.3 de combinación de puntajes individuales en un
índice puede introducir problemas técnicos que
Cuando se usen índices de rendición de cuen-
no repercuten en los puntajes originales. Errores
tas, indicadores de eficacia en evaluaciones de
de vinculación, efectos suelo o techo, diferencias
programas o estudios de políticas u otros mo-
de variabilidad en distintas medidas y carencia de
delos estadísticos (por ejemplo, modelos de
una escala de intervalos son algunos ejemplos que
valor añadido), se debe describir y justificar el
podrían no ser problemáticos para el propósito
método para construir tales índices, indicadores
de interpretar puntajes individuales, pero pueden
o modelos, y se deben reportar sus cualidades
representar un problema cuando los puntajes se
técnicas.
combinan en una medida agregada. Finalmente,
Comentario: Un índice que se construye me- cuando las evaluaciones o sistemas de rendición
diante la manipulación y combinación de de cuentas se basan en medidas que combinan va-
puntajes de pruebas deberá estar sujeto a las rias fuentes de información (por ejemplo, cuando
mismas investigaciones de validez, confiabilidad se combinan puntajes de varios formularios de
e imparcialidad que se esperan para los punta- una prueba o cuando se incluye información
jes de las pruebas que fundamentan el índice. externa a la prueba en un índice de rendición
Los métodos y reglas para construir estos índi- de cuentas), será necesario formular explícita-
ces deberán estar disponibles para los usuarios, mente y justificar las reglas para la combinación
junto con la documentación de sus propieda- de la información. Es importante reconocer que
des técnicas. Se deberá evaluar las cualidades y cuando varias fuentes de datos se reducen a un
limitaciones de diversos métodos para la com- solo puntaje o calificación agregados, los pesos y
binación de puntajes, y deberá estar disponible características de distribución de las fuentes afec-
la información que permitiría una replicación tarán a la distribución de los puntajes agregados.
independiente de la construcción de los índi- Se deben investigar los efectos de la ponderación
ces, indicadores o modelos para uso de las partes y las características de distribución en el puntaje
pertinentes. agregado.
Al igual que con los puntajes de pruebas ha- Cuando los índices combinan puntajes de
bituales, deberá presentarse un argumento de pruebas administradas bajo condiciones estándar
validez para justificar las inferencias sobre los ín- con aquellos que incluyen modificaciones u otros
dices como medidas de un resultado deseado. Es cambios en las condiciones de administración,
importante ayudar a que los usuarios entiendan deberá existir una justificación clara de la combi-
el grado en que estos modelos respaldan las in- nación de la información en un solo índice, y se
ferencias causales. Por ejemplo, cuando se usan deberán examinar las implicaciones para la validez
estimaciones de valor añadido como medidas y la confiabilidad.
235
236
los usuarios de la prueba deben llevar a cabo aná- como las reglas de inclusión/exclusión, el pro-
lisis para evaluar la confiabilidad/precisión de los pósito de la prueba, el muestreo de contenido,
puntajes para tales grupos y la validez de las inter- la alineación didáctica y la vinculación con altos
pretaciones de los puntajes, y se debe reportar esta riesgos pueden afectar a los resultados agregados y
información cuando se publiquen los resúmenes. se deben poner en conocimiento de las audiencias
Los análisis de índices complejos usados para la para su análisis o evaluación.
rendición de cuentas o para la medición de la efi-
cacia de un programa deben considerar la posibi-
lidad de sesgo hacia subgrupos específicos o hacia Estándar 13.6
programas o instituciones que prestan servicios a Cuando sea posible, los reportes de las diferen-
esos grupos. Si se detecta sesgo (p. ej., si se de- cias entre grupos en el desempeño de las pruebas
muestra que los puntajes del índice están sujetos deben ir acompañados de la información con-
a un error sistemático relacionado con las caracte- textual pertinente para facilitar la interpretación
rísticas del examinando como la raza u origen ét- significativa de las diferencias. Cuando la infor-
nico), estos índices no se deben usar a menos que mación contextual apropiada no esté disponible,
se modifiquen de forma que se elimine el sesgo. El los usuarios deben ser cautos respecto de las in-
capítulo 3 incluye consideraciones adicionales re-
terpretaciones indebidas.
lacionadas con la imparcialidad y la accesibilidad
en pruebas y evaluaciones educativas. Comentario: Las diferencias observadas en los
Cuando los resultados de la prueba se usan puntajes promedio de pruebas entre grupos
para respaldar acciones relacionadas con la adop- (p. ej., clasificados por género, raza/origen étnico,
ción o cambios de programas o políticas, es posible discapacidad, competencia en el idioma, condi-
que los profesionales que hagan las interpretacio- ción socioeconómica o región geográfica) pue-
nes que conduzcan a tales acciones necesiten asis- den verse influidas por las diferencias en factores
tencia en la interpretación de los resultados para como, por ejemplo, oportunidad de aprendizaje,
este propósito. Los avances tecnológicos han per- experiencia en capacitación, esfuerzo, calidad del
mitido una creciente disponibilidad de los datos y instructor, y el nivel y tipo de apoyo parental. En
reportes para profesores, administradores y otros educación, las diferencias en el desempeño de
agentes que pueden no haber recibido capacita- grupos a lo largo del tiempo pueden verse influi-
ción en el uso e interpretación apropiados de la das por los cambios en la población que se somete
prueba o en el análisis de los datos de puntajes. a la prueba (incluyendo cambios en el tamaño de
Quienes proporcionan los datos o herramien- muestra) o cambios en sus experiencias. Se debe
tas tienen la responsabilidad de ofrecer soporte recomendar a los usuarios que tenga en cuenta la
y asistencia a los usuarios, y los usuarios tienen información contextual apropiada cuando inter-
la responsabilidad de buscar orientación sobre el preten estas diferencias entre grupos y cuando se
análisis e interpretación apropiados. Los respon- diseñen políticas o prácticas para solventar esas
sables de la publicación o presentación de repor- diferencias. Además, si las evaluaciones conllevan
tes de resultados de pruebas deben proporcionar comparaciones de puntajes de pruebas a nivel in-
y explicar cualquier información complementaria ternacional, se debe proporcionar evidencia de la
que minimice posibles interpretaciones indebidas comparabilidad de los puntajes.
de los datos.
A menudo, los resultados de las pruebas para Estándar 13.7
la evaluación de programas o el análisis de políti-
cas se examinan bastante después de que se hayan Cuando se seleccionan pruebas para usarlas en
realizado las pruebas. Cuando este sea el caso, el contextos de evaluación o rendición de cuen-
usuario deberá investigar y describir el contexto tas, se deben describir claramente los usos pre-
en el cual se llevaron a cabo las pruebas. Factores vistos de los resultados y las consecuencias que
237
se espera promover, junto con las precauciones imprevistas pueden incluir la enseñanza de ítems
contra usos inapropiados. de la prueba con antelación, la modificación de los
procedimientos de administración de la prueba, y
Comentario: En algunos contextos, como la eva-
la disuasión o exclusión de algunos examinandos
luación de un programa curricular específico, es
con respecto a la prueba. Estas prácticas pueden
posible que una prueba tenga un propósito limi-
llevar a la obtención de puntajes artificialmente
tado y no se destine a promover otros resultados
altos y que no reflejen el desempeño en el cons-
específicos distintos a informar la evaluación. En
tructo subyacente o el dominio de interés. Ade-
otros contextos, especialmente con sistemas de
más, estas prácticas podrían estar prohibidas por
rendición de cuentas basada en pruebas, el uso
ley. Los procedimientos de evaluación deben estar
de pruebas se suele justificar con el argumento de
diseñados para minimizar la probabilidad de tales
que mejorará la calidad de la educación al pro-
consecuencias, y los usuarios deben recibir orien-
porcionar información útil a los responsables de
tación y estímulo para abstenerse de prácticas ina-
tomar decisiones y crear incentivos para promo-
propiadas en la preparación para las pruebas.
ver un mejor desempeño por parte de educadores
Se pueden anticipar algunas consecuencias so-
y estudiantes. Este tipo de afirmaciones se debe-
bre la base de investigaciones anteriores y enten-
rán formular explícitamente cuando el sistema
der cómo responden las personas a los incentivos.
sea obligatorio o haya sido adoptado y, cuando
Por ejemplo, las investigaciones demuestran que
esté disponible, se deberá proporcionar evidencia
las pruebas de rendición de cuentas en educación
que respalde su validez. El diseño del programa
influyen en el plan de estudios y la instrucción
deberá incorporar la recopilación y el reporte de
al señalar lo que los estudiantes consideran im-
la evidencia del argumento de validez específico.
portante conocer y ser capaces de hacer. Esta in-
Un argumento determinado respecto de los be-
fluencia puede ser positiva si una prueba potencia
neficios del uso de la prueba, como la mejora del
la atención en resultados útiles de aprendizaje,
rendimiento de los estudiantes, podría estar res-
pero es negativa si restringe el plan de estudios en
paldado por razonamientos lógicos o teóricos, así
formas no previstas. Se deben estudiar y tener en
como por datos empíricos. Se deberá asignar el
cuenta los resultados de estas y otras consecuen-
peso debido a los hallazgos de la literatura cien-
cias negativas comunes, como el posible impacto
tífica que pueden ser incompatibles con el argu-
emocional en profesores y estudiantes (incluso
mento expuesto.
cuando los resultados de las pruebas se usan como
se tiene previsto) y el aumento de las tasas de
abandono. Se debe mantener la integridad de los
Estándar 13.8 resultados de las pruebas esforzándose en eliminar
las prácticas diseñadas para elevar los puntajes sin
Quienes encargan el uso de pruebas en contextos
mejorar el desempeño en el constructo o dominio
de políticas, evaluación o rendición de cuentas,
medido por la prueba. Además, la administración
y aquellos que usan pruebas en tales contextos,
de una medida de auditoría (es decir, otra medida
deben supervisar su impacto y deben identificar
del constructo sometido a prueba) podría detectar
y minimizar las consecuencias negativas.
una posible corrupción de los puntajes.
Comentario: El uso de pruebas en contextos de
políticas, evaluación y rendición de cuentas puede, Estándar 13.9
en algunos casos, acarrear consecuencias imprevis-
tas. Especialmente cuando hay una vinculación En contextos de evaluación o rendición de cuen-
con altos riesgos, quienes encargan las pruebas (así tas, los resultados de las pruebas se deben usar
como quienes usan los resultados) deben adoptar junto con información de otras fuentes cuando
medidas para identificar las consecuencias poten- el uso de la información adicional contribuya a
ciales imprevistas. Las consecuencias negativas la validez de la interpretación general.
238
239
Este glosario incluye definiciones de los términos prueba que ha sido traducido al idioma del grupo
tal como se emplean en el texto y los estándares. de destino y que tiene en cuenta los matices del
Muchos de estos términos presentan diversas defi- idioma y la cultura de ese grupo.
niciones en la literatura relacionada; asimismo, el
adecuación/adecuaciones de la prueba: Ajus-
uso técnico puede diferir del uso común.
tes que no alteran el constructo evaluado y que
accesibilidad: Grado en que los ítems o tareas de se aplican a la presentación, el entorno, el con-
una prueba permiten al máximo número posible tenido, el formato (incluyendo el formato de las
de examinandos demostrar su situación respecto respuestas) o las condiciones de administración de
del constructo de destino sin que lo impidan las la prueba para examinandos específicos, y que se
características del ítem irrelevantes para la medi- incorporan en las evaluaciones o se aplican des-
ción del constructo. Una prueba con una alta cla- pués de diseñar la evaluación. Las pruebas o eva-
sificación en este criterio se considera una prueba luaciones con este tipo de adecuaciones (así como
accesible. sus puntajes) se consideran pruebas o evaluacio-
nes adaptadas. Los puntajes adaptados deben ser
aceleración: Grado de dependencia de los pun-
suficientemente comparables a los puntajes no
tajes de los examinandos respecto de la velocidad
adaptados de manera que puedan agregarse.
a la que se ejecuta una tarea, así como de la exac-
titud de las respuestas. El término no se usa para algoritmos patentados: Procedimientos (a me-
describir pruebas de velocidad. nudo, código informático) usados por editores
comerciales o desarrolladores de pruebas que no
acreditación: Otorgar una credencial autorizada
se divulgan al público por motivos comerciales.
a una persona (por ejemplo, un certificado, una
licencia o diploma) que denota un nivel aceptable alineación: Grado en que el contenido o las de-
de desempeño en un determinado dominio de co- mandas cognitivas de las preguntas de la prueba
nocimiento o actividad. se corresponden con el contenido o las demandas
aculturación: Proceso relacionado con la adqui- cognitivas objetivo descritas en las especificacio-
sición de conocimientos y artefactos culturales, nes de la prueba.
evolutivo por naturaleza y dependiente del tiempo análisis de empleo: Investigación de los puestos
de exposición y la oportunidad de aprendizaje. o clases de trabajo para obtener información so-
adaptación/adaptación de prueba: 1. Cualquier bre los deberes y tareas, las responsabilidades, las
cambio que se realice en el contenido, el formato características requeridas (p. ej., conocimientos,
(incluyendo el formato de las respuestas) o las con- capacidades y competencias), las condiciones la-
diciones de administración con la finalidad de au- borales u otros aspectos del trabajo. Véase análisis
mentar la accesibilidad de la prueba para personas práctico.
que, de otro modo, se enfrentarían a obstáculos análisis de factores: Cualquiera de los métodos
irrelevantes de constructo en la prueba original. estadísticos para describir las interrelaciones de
Una adaptación puede cambiar o no el significado un conjunto de variables mediante la derivación
del constructo que se mide o alterar las interpre- estadística de nuevas variables, denominadas fac-
taciones del puntaje. Una adaptación que cambia tores, menos numerosas que el conjunto original
el significado del puntaje se denomina modifica- de variables.
ción; una adaptación que no cambia el significado
del puntaje se denomina adecuación (consulte las análisis laboral: Investigación de una deter-
definiciones en este glosario). 2. Cambio en una minada ocupación o profesión para obtener
241
información descriptiva sobre las actividades y ciencia cognitiva: Estudio interdisciplinario del
responsabilidades de la ocupación o profesión, aprendizaje y el procesamiento de la información.
y sobre los conocimientos, habilidades y capa-
ciencia del comportamiento: Disciplina cien-
cidades necesarias para desempeñar con éxito
tífica, como la sociología, la antropología o la
esa ocupación o profesión. Véase análisis de
psicología, que estudia las acciones y reacciones
empleo.
de seres humanos y animales a través de métodos
argumento de validez: Justificación explícita del observacionales y experimentales.
grado en que la evidencia acumulada y la teoría
coeficiente alfa: Coeficiente de confiabilidad
respaldan una interpretación propuesta de los
de coherencia interna basada en el número de
puntajes para el uso previsto.
partes en que se divide una prueba (p. ej., ítems,
batería: Conjunto de pruebas que normalmente subpruebas o calificadores), las interrelaciones
se administran como una unidad. Por lo general, de las partes y la varianza del puntaje total de la
los puntajes de las pruebas se escalan de manera prueba. También denominado Alfa de Cronbach
que se puedan comparar o usar fácilmente en y, para ítems dicotómicos, KR-20. Véase coefi-
combinación para la toma de decisiones. ciente de coherencia interna, coeficiente de
confiabilidad.
bilingüe/multilingüe: Tener un nivel de compe-
tencia en dos o más idiomas. coeficiente de coherencia interna: Índice de
calibración: 1. En vinculación de puntajes de confiabilidad de los puntajes de las pruebas de-
pruebas, el proceso de relacionar los puntajes de rivado de las interrelaciones estadísticas entre las
una prueba con los puntajes de otra prueba que respuestas a los ítems o los puntajes de diferentes
difieren en confiabilidad/precisión respecto de la partes de una prueba. Véase coeficiente alfa, coefi-
primera prueba, de manera que tengan el mismo ciente de confiabilidad dividido.
significado relativo para un grupo de examinan- coeficiente de confiabilidad dividido: Coefi-
dos. 2. En teoría de respuesta al ítem, el proceso ciente de coherencia interna que se obtiene del
de estimación de los parámetros de la función de uso de la mitad de los ítems de una prueba para
respuesta al ítem. 3. En calificación de las tareas generar un puntaje y de la otra mitad para generar
de respuestas construidas, los procedimientos usa- un segundo puntaje independiente. Véase coefi-
dos durante la capacitación y la calificación para ciente de coherencia interna, coeficiente alfa.
conseguir un nivel deseado de conformidad de la
persona que otorga el puntaje. coeficiente de confiabilidad test-retest: Coefi-
ciente de confiabilidad obtenido mediante la
capacidad de evaluación: Conocimientos sobre administración de la misma prueba por segunda
las evaluaciones que respaldan las interpretaciones vez al mismo grupo después de un intervalo de
válidas de los puntajes de prueba para los fines tiempo y correlacionando los dos conjuntos
previstos, por ejemplo, conocimientos sobre prác- de puntajes; por lo general, se usa como medida
ticas de desarrollo de una prueba, interpretaciones de estabilidad de los puntajes. Véase estabilidad.
de los puntajes de una prueba, riesgos para las in-
terpretaciones válidas de los puntajes, confiabili- coeficiente de confiabilidad: Indicador sin
dad y precisión de los puntajes, administración de unidades que refleja el grado en que los puntajes
la prueba, etc. están libres del error de medida aleatorio. Véase
teoría de generabilidad.
certificación: Proceso mediante el cual se reco-
noce (o certifica) que las personas han demos- coeficiente de generabilidad: Índice de confia-
trado un determinado nivel de conocimientos y bilidad/precisión basado en la teoría de generabili-
capacidades en un dominio específico. Véase li- dad (teoría G). Un coeficiente de generabilidad es
cencia, acreditación. la relación de la varianza del puntaje del universo
242
243
respecto de la calidad técnica para una finalidad dominio de contenido: Conjunto de comporta-
prevista. mientos, conocimientos, capacidades, competen-
cias, actitudes u otras características que medirá
desarrollo de la prueba: Proceso a través del
una prueba, descrito en las especificaciones de-
cual se planifica, construye, evalúa y modifica una
talladas de la prueba y que se suele organizar en
prueba, incluyendo la consideración del conte-
categorías clasificatorias de ítems.
nido, formato, administración, puntaje, propie-
dades de los ítems, escalamiento y calidad técnica dominio de criterios: Dominio de constructo de
para la finalidad prevista. una variable que se usa como criterio. Véase do-
minio de criterios.
descriptor de nivel de desempeño: Descripcio-
nes de lo que los examinandos saben y pueden editor de la prueba: Entidad, persona, organiza-
hacer en niveles específicos de desempeño. ción u organismo que produce o distribuye una
prueba.
diseño de la prueba: Proceso de desarrollo de
especificaciones detalladas sobre el objeto de me- efecto de contexto de ítem: Influencia de la
dición de una prueba y sobre el contenido, nivel posición del ítem, otros ítems administrados, los
cognitivo, formato y tipos de ítems que se van a límites de tiempo, las condiciones de administra-
utilizar. ción, etc., en la dificultad de un ítem y en otras
características estadísticas de un ítem.
diseño universal: Método de evaluación del de-
sarrollo que intenta maximizar la accesibilidad de equiparación: Proceso de relacionar los punta-
una prueba para todos los examinandos a los que jes de formularios alternativos de una prueba de
se dirige. manera que tengan básicamente el mismo signi-
ficado. Por lo general, los puntajes equiparados se
distrito escolar: Organismo educativo local ad- reportan sobre una escala de puntaje común.
ministrado por un consejo público de autoridades
educativas o de otro tipo que supervisa las escue- equivalencia de constructo: 1. Grado en que un
las públicas de educación primaria y secundaria constructo medido por una prueba es básicamente
en una subdivisión política estatal. el mismo que el constructo medido por otra
prueba. 2. Grado en el que un constructo medido
documentación: Conjunto de publicaciones por una prueba en un grupo cultural o lingüístico
(p. ej., manuales de la prueba, manuales com- es comparable al constructo medido por la misma
plementarios, reportes de investigación, guías de prueba en otro grupo cultural o lingüístico.
usuario) desarrolladas por el autor, desarrollador,
usuario o editor de la prueba como ayuda para error aleatorio: Error no sistemático; un com-
las interpretaciones de los puntajes para el uso ponente de los puntajes de pruebas que parece no
previsto. tener relación con otras variables.
documentos de la prueba: Documentos como error de medida: Diferencia entre un puntaje ob-
manuales de la prueba, manuales técnicos, guías servado y el puntaje verdadero correspondiente.
de usuario, conjuntos de muestras e instruccio- Véase error estándar de medida, error sistemático,
nes para los administradores y evaluadores de la error aleatorio, error verdadero.
prueba, que proporcionan información para eva- error estándar de medida condicional: Desvia-
luar la idoneidad y pertinencia técnica de una ción estándar de los errores de medida que afecta
prueba para la finalidad prevista. a los puntajes de los examinandos en un nivel es-
pecífico de puntaje de prueba.
dominio de constructo: Conjunto de atributos
interrelacionados (por ej., comportamiento, acti- error estándar de medida: Desviación estándar
tudes, valores) que se incluyen bajo una etiqueta de los puntajes observados de un individuo en
de constructo. administraciones repetidas de una prueba (o de
244
formularios paralelos de una prueba) bajo condi- estabilidad: Grado de invariabilidad a lo largo
ciones idénticas. Debido a que, en general, tales del tiempo de los puntajes de una prueba, eva-
datos no se pueden recopilar, el error estándar luado mediante la correlación de los puntajes de
de medida se suele estimar a partir de datos de un grupo de individuos con los puntajes de la
grupo. Véase error de medida. misma prueba o de una prueba equiparada reali-
zada por el mismo grupo en un momento poste-
error sistemático: Error que incrementa o re-
rior. Véase coeficiente de confiabilidad test-retest.
duce de manera sistemática los puntajes de to-
dos los examinandos o de algunos subconjuntos estándares alternos o alternativos: Estánda-
de examinandos, pero que no está relacionado res de contenido y desempeño en evaluaciones
con el constructo que la prueba intenta medir. educativas para estudiantes con discapacidades
Véase sesgo. cognitivas.
escala: 1. Sistema numérico, y sus unidades, estándares de desempeño: Descripciones de ni-
mediante el cual se reporta un valor en una de- veles de adquisición de conocimientos y capacida-
terminada dimensión de medida. 2. En prue- des incluidos en los estándares de contenido, tal
bas, conjunto de ítems o subpruebas usadas como se articulan a través de las etiquetas de nivel
para medir una característica específica (p. ej., de desempeño (p. ej., “básico,” “competente”,
una prueba de habilidad verbal o una escala de “avanzado”); enunciados de lo que los examinan-
extroversión-introversión). dos saben y pueden hacer en diferentes niveles
escalamiento vertical: En vinculación de prue- de desempeño; y puntajes de corte o rangos de
bas, proceso de relacionar puntajes de pruebas puntajes en la escala de una evaluación que di-
que miden el mismo constructo pero difieren en ferencia niveles de desempeño. Véase puntaje de
dificultad. En general, se usa con las pruebas de corte, nivel de desempeño, descriptor de nivel de
rendimiento y capacidad con contenido o dificul- desempeño.
tad que abarca una variedad de grados y niveles estándares de rendimiento: Véase estándares de
de edad. desempeño.
escalamiento: Proceso de creación de una escala estandarización: 1. En administración de prue-
o un puntaje de escala para mejorar la interpreta- bas, mantener un entorno de evaluación cohe-
ción de los puntajes de una prueba a través de la rente y llevar a cabo las pruebas de acuerdo con
colocación de los puntajes de diferentes pruebas o reglas y especificaciones detalladas, de manera
formularios en una escala común, o mediante la que las condiciones de evaluación sean las mis-
generación de puntajes de escala diseñados para mas para todos los examinandos en una o varias
respaldar las interpretaciones. Véase escala. ocasiones. 2. En desarrollo de pruebas, establecer
especificaciones de la prueba: Documentación una escala de presentación de reportes usando
de la finalidad y los usos previstos de una prueba, normas basadas en el desempeño en las pruebas
así como del contenido, formato, duración, ca- de una muestra representativa de individuos de
racterísticas psicométricas (de los ítems o de la la población sobre la que se prevé se aplicará la
prueba en general), modo de ejecución, admi- prueba.
nistración, puntaje y reportes de puntajes de una
estrategias de ejecución de una prueba: Estra-
prueba.
tegias que los examinandos pueden usar cuando
especificidad: En clasificación, diagnóstico y se- realizan una prueba con el fin de mejorar su des-
lección, proporción de casos que se evalúan como empeño (p. ej., la gestión del tiempo o la elimi-
no satisfactorios o que se prevé no satisfagan los nación de las opciones claramente erróneas en
criterios y los que, en realidad, no satisfacen los una pregunta de respuestas múltiples) antes de
criterios. responder a la pregunta.
245
estructura interna: En análisis de pruebas, la es- instrucción y que proporciona información para
tructura factorial de las respuestas a los ítems o adaptar la enseñanza y el aprendizaje en curso con
subescalas de una prueba. el objetivo de mejorar el rendimiento de los estu-
diantes en los resultados educativos previstos.
estudiante de lengua inglesa (ELL, por sus
siglas en inglés): Persona que aún no ha alcan- evaluación neuropsicológica: Tipo especia-
zado un nivel de competencia en inglés. Un ELL lizado de evaluación psicológica de procesos
puede ser una persona cuya lengua materna no normales o patológicos que afectan al sistema
es el inglés, alguien perteneciente a una minoría nervioso central y a las funciones o disfunciones
lingüística que empieza el aprendizaje del inglés, psicológicas y conductuales resultantes.
o una persona que ha desarrollado una compe-
evaluación psicológica: Examen del funciona-
tencia considerable en este idioma. Los términos
miento psicológico que comporta la recopilación,
relacionados incluyen estudiante de inglés (EL),
evaluación e integración de resultados de pruebas
competencia limitada en inglés (LEP), inglés
e información colateral, y la presentación de re-
como segunda lengua (ESL) y cultural y lingüísti-
portes sobre un individuo.
camente diverso.
evaluación sumativa: Evaluación de los cono-
estudio de políticas: Estudio que contribuye a
cimientos y capacidades de un examinando que,
la evaluación de los planes, principios o procedi-
por lo general, se realiza al finalizar un programa
mientos dictados para conseguir objetivos públi-
de aprendizaje, por ejemplo, al terminar una uni-
cos generales.
dad educativa.
evaluación basada en estándares: Evaluación de
evaluación vocacional: Tipo especializado de
la situación de un individuo con respecto a un
evaluación psicológica diseñada para generar hi-
contenido descrito sistemáticamente y a estánda-
pótesis e inferencias sobre los intereses, las ne-
res de desempeño.
cesidades laborales, el desarrollo profesional, la
evaluación cognitiva: Proceso de recolección madurez vocacional y la indecisión.
sistemática de puntajes de pruebas y datos rela-
evaluación: Método sistemático de obtención
cionados con la finalidad de formular un juicio
de información, usado para formular deduccio-
sobre la competencia de una persona para realizar
nes sobre las características de personas, objetos
diversas actividades mentales requeridas para el
o programas; proceso sistemático para medir o
procesamiento, adquisición, retención, concep-
evaluar las características o el desempeño de in-
tualización y organización de información sen-
dividuos, programas u otras entidades con la fi-
sorial, perceptual, verbal, espacial y psicomotora.
nalidad de hacer inferencias; en ocasiones se usa
evaluación de capacidad: Uso de pruebas para como sinónimo de prueba.
evaluar el desempeño actual de una persona en
evaluaciones alternativas/pruebas alternativas:
dominios definidos del funcionamiento cogni-
Evaluaciones o pruebas usadas para evaluar el des-
tivo, psicomotor o físico.
empeño de estudiantes en contextos educativos
evaluación del programa: Recolección y síntesis que no les permiten participar en evaluaciones es-
de evidencias sobre el uso, el funcionamiento y tandarizadas de rendición de cuentas, ni siquiera
los efectos de un programa; conjunto de proce- con adecuaciones. Por lo general, las evaluaciones
dimientos usados para formular juicios sobre el o pruebas alternativas miden el rendimiento res-
diseño, la implementación y los resultados de un pecto de estándares de contenido alternativos.
programa.
evaluaciones de desempeño: Evaluaciones en
evaluación formativa: Un proceso de evaluación las cuales el examinando demuestra realmente
usado por los profesores y estudiantes durante la las capacidades que la prueba pretende medir
246
mediante la ejecución de las tareas que requieren evidencia local: Evidencia (por lo general, rela-
esas capacidades. cionada con la confiabilidad/precisión o validez)
recogida en una prueba específica y un conjunto
evaluaciones de referencia: Evaluaciones admi-
específico de examinandos, en una sola institu-
nistradas en contextos educativos a horas espe-
ción o en una ubicación específica.
cificadas durante una secuencia curricular, a fin
de evaluar los conocimientos y habilidades de factor: Cualquier variable, real o hipotética, que
los estudiantes relacionados con un conjunto ex- sea un aspecto de un concepto o constructo.
plícito de objetivos de aprendizaje a largo plazo.
Véase evaluaciones o pruebas provisionales. falso negativo: Error de clasificación, diagnós-
tico o selección que conduce a determinar que
evaluaciones o pruebas provisionales: Evalua- un individuo no cumple el estándar basándose en
ciones administradas durante la instrucción para una evaluación para la inclusión en un grupo con-
evaluar los conocimientos y capacidades de los creto, cuando en realidad sí cumple ese estándar
estudiantes relacionados con un conjunto especí- (o lo cumpliría en ausencia del error de medida).
fico de objetivos académicos, con la finalidad de Véase sensibilidad, especificidad.
informar las decisiones del responsable de las po-
líticas o del educador en el nivel de aula, escuela o falso positivo: Error de clasificación, diagnóstico
distrito. Véase evaluaciones de referencia. o selección que conduce a determinar que un in-
dividuo cumple el estándar basándose en una eva-
evidencia de convergencia: Evidencia basada en
luación para la inclusión en un grupo concreto,
la relación entre los puntajes de la prueba y otras
cuando en realidad no cumple ese estándar (o no
medidas del mismo constructo o de un cons-
lo cumpliría en ausencia del error de medida).
tructo relacionado.
Véase sensibilidad, especificidad.
evidencia de validación predictiva: Eviden-
fijación de estándar: Proceso (a menudo basado
cia que indica la precisión con que los datos de
en juicios) de fijación de puntajes de corte usando
prueba recolectados en un determinado mo-
un procedimiento estructurado que intenta asig-
mento pueden predecir los puntajes de criterios
nar puntajes de pruebas a niveles discretos de
que se obtienen en un momento posterior.
desempeño que, por lo general, se especifican me-
evidencia de validación relacionada con el diante descriptores de nivel de desempeño.
contenido: Evidencia basada en el contenido de
la prueba y que respalda la interpretación prevista formato de respuesta: Mecanismo que usa un
de los puntajes de la prueba para un propósito examinando para responder a un ítem, por ejem-
determinado. Esta evidencia puede abordar ámbi- plo, selección en una lista de opciones (pregunta
tos como la fidelidad del contenido de la prueba de opciones múltiples) o la presentación de una
para actuar en el dominio en cuestión y el grado respuesta escrita (respuesta de rellenado o escrita
en el cual el contenido de una prueba muestra de a una pregunta de respuesta abierta o construida);
forma representativa un dominio, por ejemplo, respuesta oral o desempeño físico.
un plan de estudios o un trabajo. formato/modo de prueba: Forma de presenta-
evidencia discriminante: Evidencia que indica ción del contenido de la prueba al examinando:
si dos pruebas interpretadas como medidas de con papel y lápiz, por computadora, por Internet
diferentes constructos son suficientemente inde- u oralmente con un examinador.
pendientes (no correlacionadas) y que miden real-
formulario de la prueba: Conjunto de ítems o
mente dos constructos distintos.
ejercicios de una prueba que cumple los requisi-
evidencia empírica: Evidencia basada en datos, tos de las especificaciones de un programa de eva-
en contraposición a las evidencias basadas en la luación. Muchos programas de evaluación usan
lógico o la teoría. formularios alternativos, generados de acuerdo
247
con las mismas especificaciones, pero con parte misma situación respecto de la característica eva-
o la totalidad de los ítems adaptados de manera luada por una prueba, no tienen el mismo pun-
exclusiva para cada formulario. Véase formularios taje de prueba esperado.
alternativos.
funcionamiento diferencial de los ítems (DIF,
formularios alternativos: Dos o más versiones por sus siglas en inglés): Para un ítem especí-
de una prueba que se consideran intercambiables, fico de una prueba, un indicador estadístico del
en el sentido de que miden los mismos construc- grado en que diferentes grupos de examinandos
tos de la misma forma, tienen el mismo conte- que están en el mismo nivel de capacidad tienen
nido y las mismas especificaciones estadísticas, diferentes frecuencias de respuestas correctas o,
y se administran bajo las mismas condiciones, en algunos casos, diferentes índices de elección de
usando las mismas instrucciones. Véase formula- distintas opciones de ítems.
rios equivalentes, formularios paralelos.
generalización de validez: Aplicación de las evi-
formularios equiparados: Formularios alterna- dencias de validez obtenidas en una o más situa-
tivos de una prueba cuyas puntuaciones se han ciones a otras situaciones similares sobre la base
relacionado a través de un proceso estadístico, de métodos como el meta análisis.
conocido como equiparación, que permite escalar
los puntajes de formularios equiparados para que guía de usuario: Publicación preparada por los
se puedan usar indistintamente. desarrolladores o editores de la prueba para pro-
porcionar información sobre la finalidad, los usos
formularios equivalentes: Véase formularios al- apropiados, la correcta administración, los pro-
ternativos, formularios paralelos. cedimientos de puntaje, los datos normativos, la
formularios paralelos: En teoría clásica de los interpretación de resultados y los estudios de caso
tests, formularios de prueba estrictamente para- de una prueba. Véase manual de la prueba.
lelos que, en teoría, miden el mismo constructo y imparcialidad: Validez de las interpretaciones
tiene los mismos significados y las mismas desvia- del puntaje de una prueba para el uso previsto y
ciones estándar en la población de interés. Véase para individuos de todos los subgrupos pertinen-
formularios alternativos. tes. Una prueba equitativa minimiza la varianza
fraude negativo: Exagerar o falsificar las respues- irrelevante de constructo asociada con las carac-
tas a ítems de la prueba en un intento de aparen- terísticas individuales y los contextos de la prueba
tar deficiencias. que, de otro modo, comprometerían la validez de
los puntajes para algunos individuos.
fraude positivo: Exagerar o falsificar las res-
puestas a ítems de la prueba en un intento de indicación/indicación de ítem/indicación es-
presentarse a sí mismo de manera excesivamente crita: Pregunta, estímulo o instrucción que sus-
positiva. cita la respuesta de un examinando.
función de información de prueba: Función indicador: Marca adjuntada al puntaje de una
matemática que relaciona cada uno de los niveles prueba, a un ítem o a otra entidad para indicar una
de una capacidad o rasgo latente, tal como se de- condición especial. En general, un puntaje de prueba
fine en la teoría de respuesta al ítem (IRT), con el con indicador significa que el puntaje se obtuvo a
recíproco de la varianza de error de medida con- partir de una prueba modificada, con el consiguiente
dicional correspondiente. cambio en el constructo subyacente medido por la
prueba. Es posible que los puntajes con indicador no
funcionamiento diferencial de la prueba (DTF,
sean comparables a los puntajes sin indicador.
por sus siglas en inglés): Desempeño individual
en la prueba o nivel de dimensión que indica que índice de rendición de cuentas: Número o
individuos de diferentes grupos que tienen la etiqueta que refleja un conjunto de reglas para
248
la combinación de puntajes y otros datos con la se consideran como atributos psicológicos o ten-
finalidad de extraer conclusiones e informar el dencias interpersonales.
proceso de toma de decisiones en un sistema de
inventario: Cuestionario o lista de comprobación
rendición de cuentas.
que obtiene información sobre las opiniones, in-
reporte interpretativo preparado por com- tereses, actitudes, preferencias, características per-
putadora: Interpretación programada de los re- sonales, motivaciones o reacciones típicas de un
sultados de un examinando basada en los datos individuo ante situaciones y problemas.
empíricos y/o en el juicio de un experto, y que
ítem: Enunciado, pregunta, ejercicio o tarea de
utiliza varios formatos como narraciones, tablas
una prueba en el que el examinando debe selec-
y gráficos. En ocasiones se le denomina puntaje
cionar o construir una respuesta, o realizar una
automatizado o informe narrativo.
tarea. Véase indicación.
infrarrepresentación de constructo: Grado
ítems de anclaje: Ítems administrados con cada
en el cual una prueba no logra capturar aspec-
uno de dos o más formularios alternativos de una
tos importantes del dominio de constructo que
prueba con la finalidad de equiparar los puntajes
se pretende medir, lo que se traduce en punta-
obtenidos en estos formularios alternativos.
jes de prueba que no representan totalmente ese
constructo. ítems, tareas o ejercicios de respuesta cons-
truida: Ítems, tareas o ejercicios cuyas respuestas
interpretación de puntaje conforme a criterios:
o productos propios deben crear los examinandos,
Significado de un puntaje de prueba para un indi-
en lugar de elegir una respuesta de un conjunto
viduo (o de un puntaje promedio para un grupo
definido. Los ítems de respuestas cortas requieren
definido) que indica el nivel de desempeño de los
como respuesta unas pocas palabras o un número;
individuos o grupos en relación con un dominio
los ítems de respuestas extendidas requieren al
de criterios definido. Ejemplos de interpretacio-
menos unas pocas frases y pueden incluir diagra-
nes conforme a criterios incluyen comparaciones
mas, pruebas matemáticas, ensayos o soluciones
para puntajes de corte, interpretaciones basadas
de problemas como, por ejemplo, reparaciones de
en tablas de expectativas e interpretaciones de
red u otros productos de trabajo.
puntaje conforme a dominios. Compárese con
interpretación de puntaje conforme a normas. laboratorio cognitivo: Método de estudio de
los procesos cognitivos que los examinandos usan
interpretación de puntaje conforme a normas:
cuando llevan a cabo tareas como, por ejemplo,
Interpretación de puntaje basada en una compa-
resolver un problema matemático o interpretar
ración del desempeño de un examinando con la
un texto, y que por lo general comporta que el
distribución del desempeño en una población de
examinando piense en voz alta mientras responde
referencia definida. Compárese con interpreta-
la tarea o responda a preguntas de entrevista des-
ción de puntaje conforme a criterios.
pués de realizar la tarea.
intérprete: Alguien que facilita la comunicación
licencia: Concesión (por lo general, por parte de
intercultural mediante la conversión de conceptos
una agencia gubernamental) de autorización o
de un idioma a otro (incluyendo el lenguaje de
permiso legal para la práctica de una ocupación o
signos).
profesión. Véase certificación, acreditación.
intervalo de confianza: Intervalo en el cual es-
manual de la prueba: Publicación preparada por
tará incluido el parámetro de interés con una pro-
los desarrolladores o editores de la prueba para
babilidad especificada.
proporcionar información sobre la administra-
inventario de personalidad: Inventario que ción, el puntaje y la interpretación de la prueba,
mide una o más características que, por lo general, y para facilitar datos técnicos seleccionados sobre
249
250
un dominio concreto, por lo general, definido por de exposición o de experiencia con el idioma o
un rango de puntajes de una prueba. Por ejemplo, la cultura mayoritaria requeridos para entender la
etiquetas como “básico” a “avanzado” o “princi- prueba.
piante” a “experto” constituyen rangos generales
orientación: Actividades de instrucción planifica-
para la clasificación de la destreza. Véase niveles
das a corto plazo para los posibles examinandos, fa-
de rendimiento, puntaje de corte, descriptor de
cilitadas antes de la administración de la prueba con
nivel de desempeño, fijación de estándar.
el propósito principal de mejorar sus puntajes en las
nivel de participación: Grado en el que un exa- pruebas. Por lo general, las actividades que aproxi-
minando participa de forma apropiada en la eje- man la instrucción proporcionada por los planes de
cución de la prueba. estudio escolar o los programas de capacitación or-
dinarios no se suelen considerar orientación.
niveles de rendimiento/niveles de destreza:
Descripción de los niveles de competencia de parámetro de capacidad: En teoría de respuesta
los examinandos en un área específica de cono- al ítem (IRT, por sus siglas en inglés), valor teórico
cimientos o capacidad; por lo general, se define que indica el nivel de un examinando respecto de
en términos de categorías ordenadas en un con- la capacidad o rasgo medido por la prueba; aná-
tinuum, por ejemplo, de “básico” a “avanzado,” logo al concepto de puntaje verdadero en la teoría
o “principiante” a “experto”. Las categorías cons- clásica de los tests.
tituyen rangos generales para la clasificación del
percentil: Puntaje de una prueba por debajo del
desempeño. Véase puntaje de corte.
cual se produce un porcentaje determinado de
normas de usuario: Estadísticas descriptivas (in- puntajes para una población específica.
cluyendo los rangos de percentil) para un grupo
población de referencia: Población de exami-
de examinandos que no representa una población
nandos con la que se comparan los examinandos
de referencia bien definida, por ejemplo, todas las
individuales a través las normas de prueba. La po-
personas evaluadas durante un determinado pe-
blación de referencia se puede definir en términos
riodo de tiempo o un conjunto de examinandos
de edad, grado, estado clínico del examinando en
autoseleccionados. Véase normas locales, normas.
el momento de la prueba, o por otras característi-
normas locales: Normas por las cuales los pun- cas. Véase normas.
tajes de una prueba se remiten a una población
porfolio: En evaluación, una recopilación siste-
de referencia limitada y específica de interés
mática de productos educativos o de trabajo que
particular para el usuario de la prueba (p. ej., la
se han reunido o acumulado a lo largo del tiempo,
población de una localidad, organización o ins-
de acuerdo con un conjunto específico de princi-
titución). Las normas locales no pretenden ser
pios o reglas.
representativas de las poblaciones más allá del
contexto limitado. precisión de la clasificación: Grado de precisión
de la asignación de examinandos a categorías es-
normas: Estadísticas o datos tabulares que resu-
pecíficas; grado en que se evitan las clasificaciones
men la distribución o frecuencia de puntajes de
de falsos positivos y falsos negativos. Véase sensi-
prueba para uno o más grupos definidos (por
bilidad, especificidad.
ejemplo, examinandos de diversas edades o gra-
dos), diseñados por lo general para representar precisión de medida: Impacto de un error de
poblaciones más grandes, a las que se denomina medida en los resultados de la medida. Véase
poblaciones de referencia. Véase normas locales. error estándar de medida, error de medida,
confiabilidad/precisión.
oportunidad de aprendizaje: Grado de exposi-
ción de los examinandos a los constructos evalua- programa educativo individualizado (IEP, por
dos a través de los programas educativos y/o grado sus siglas en inglés): Plan documentado que
251
perfila los servicios de educación especial para es- procedimientos de la evaluación y las característi-
tudiantes con necesidades especiales y que incluye cas estadísticas de nuevos ítems o formularios de
las adaptaciones necesarias en el aula habitual o en la prueba. Por lo general, una prueba de campo es
las evaluaciones, y los programas o servicios espe- más extensa que una prueba piloto. Véase prueba
ciales adicionales. piloto.
protocolo de respuesta: Registro de las res- prueba de cribado: Prueba que se utiliza para es-
puestas dadas por un examinando a una prueba tablecer categorizaciones amplias de examinandos
específica. como primer paso en decisiones de selección o
procesos de diagnóstico.
proyección: Método de vinculación de punta-
jes en el cual los puntajes de una prueba se usan prueba de destreza basada en computadora:
para predecir los puntajes de otra prueba para un Prueba administrada mediante computadora
grupo de examinandos, con frecuencia, usando que indica si el examinando ha conseguido un
metodología de regresión. nivel determinado de competencia en un domi-
nio específico, en lugar del grado de rendimiento
prueba adaptable computarizada: Prueba adap-
del examinando en ese campo. Véase prueba de
table administrada mediante computadora. Véase
destreza.
prueba adaptable.
prueba de destreza: Prueba diseñada para indi-
prueba adaptable: Forma secuencial de pruebas
car si un examinando ha alcanzado un nivel pre-
individuales en la que se seleccionan ítems sucesivos
visto de competencia o destreza en un dominio.
de la prueba, o conjuntos de ítems, para su adminis-
Véase puntaje de corte, prueba de destreza basada
tración, basándose principalmente en sus propieda-
en computadora.
des y contenidos psicométricos, en relación con las
respuestas del examinando a ítems anteriores. Prueba de grupo: Prueba para grupos de exami-
prueba administrada por computadora: Prueba nandos; por lo general, en un contexto grupal,
administrada mediante computadora; los exami- con procedimientos de administración estandari-
nandos responden mediante el uso del teclado, el zados y supervisados por un monitor o adminis-
ratón u otros dispositivos de respuesta. trador de la prueba.
prueba basada en computadora: Véase prueba prueba de inteligencia: Prueba diseñada para
administrada por computadora. medir el nivel de funcionamiento cognitivo de un
individuo de acuerdo con una teoría de inteligen-
prueba de alto riesgo: Prueba usada para obte- cia reconocida. Véase evaluación cognitiva.
ner resultados que tienen consecuencias directas y
significativas para las personas, programas o insti- prueba de rendimiento: Prueba para medir el
tuciones que participan en la prueba. Compárese nivel de conocimientos o capacidad logrado por
con prueba de bajo riesgo. un examinando en un dominio de contenido so-
bre el cual ha recibido instrucción.
prueba de anclaje: Conjunto de ítems de anclaje
usado para la equiparación. prueba de tiempo: Prueba administrada a los
examinandos a los que se asigna un lapso de
prueba de bajo riesgo: Prueba usada para ob- tiempo prescrito para responder a la prueba.
tener resultados que solo tienen consecuencias
menores o indirectas para las personas, programas prueba de trabajo: Prueba de la capacidad de una
o instituciones que participan en la prueba. Com- persona para realizar las tareas que comprende un
párese con prueba de alto riesgo. trabajo. Véase medición de desempeño laboral.
prueba de campo: Administración de una prueba prueba piloto: Prueba administrada a una mues-
que se utiliza para comprobar la idoneidad de los tra de examinandos para probar algunos aspectos
252
o ítems de la prueba, por ejemplo, las instruccio- respuestas correctas, o de forma más general, la
nes, los límites de tiempo, los formatos de res- suma u otra combinación de puntajes de ítems.
puesta o las opciones de respuesta a ítems. Véase
puntaje compuesto: Puntaje que combina varios
prueba de campo.
puntajes de acuerdo con una fórmula definida.
prueba unidimensional: Prueba que solo mide
puntaje de corte: Punto definido en una escala
una dimensión o solo una variable latente.
de puntaje. Los puntajes que coinciden o son
prueba: Dispositivo de evaluación o proce- superiores a ese punto se reportan, interpretan o
dimiento en el cual se obtiene y puntúa una gestionan de forma diferente a los puntajes infe-
muestra sistemática del comportamiento de un riores a ese punto.
examinando en un dominio específico, a través de puntaje de escala: Puntaje obtenido mediante
un proceso estandarizado. la transformación de puntajes brutos. Los pun-
pruebas psicológicas: Uso de pruebas o inventa- tajes de escala se suelen usar para facilitar la
rios para evaluar las características particulares de interpretación.
una persona.
puntaje de ganancia: En pruebas, la diferencia
psicodiagnóstico: Formalización o clasificación entre dos puntajes obtenidos por un examinando
del estado de salud mental basada en evaluaciones en una misma prueba o en dos pruebas equipa-
psicológicas. radas realizadas en diferentes ocasiones, con fre-
cuencia, antes y después de un tratamiento.
puesto: En contextos de empleo, la unidad orga-
nizativa más pequeña, un conjunto de deberes y puntaje de universo: En la teoría de generabili-
responsabilidades asignados que una persona lleva dad, el valor esperado sobre todas las replicaciones
a cabo dentro de una organización. posibles de un procedimiento para el examinando.
Véase teoría de generabilidad.
puntaje agregado: Puntaje total formado por
la combinación de puntajes relacionados con la puntaje holístico: Método para obtener un
misma prueba o con diversos componentes de la puntaje en una prueba, o ítem de una prueba,
prueba. Los puntajes pueden ser brutos o estanda- basándose en un juicio del desempeño general y
rizados. Los componentes del puntaje agregado se usando criterios definidos. Compárese con pun-
pueden ponderar o no, en función de la interpre- taje analítico.
tación que se dé al puntaje agregado.
puntaje verdadero: En teoría clásica de los tests,
puntaje analítico: Método de puntuar respues- promedio de los puntajes que obtendría un in-
tas construidas (por ejemplo, ensayos) en el que dividuo en un número ilimitado de formularios
cada dimensión crítica de un desempeño especí- estrictamente paralelos de la misma prueba.
fico se evalúa y califica por separado, y los valores
resultantes se combinan para obtener un puntaje puntaje: Cualquier número específico resultado
general. En algunos casos, los puntajes de distin- de la evaluación de una persona, por ejemplo,
tas dimensiones se pueden usar para interpretar puntaje bruto, puntaje de escala, una estimación
el desempeño. Compárese con puntaje holístico. de una variable latente, un recuento de produc-
ción, un registro de ausencia, un grado escolar o
puntaje automático: Procedimiento por el cual una calificación.
los ítems de respuestas construidas se califican
puntajes/calificaciones ponderadas: Método
por computadora usando un método basado
de calificación de una prueba en el que se otorga
en reglas.
un diferente número de puntos a una respuesta
puntaje bruto: Puntaje de una prueba que se correcta (o diagnósticamente pertinente) en di-
calcula mediante el recuento del número de ferentes ítems. En algunos casos, la fórmula de
253
254
teoría de respuesta al ítem (IRT, por sus si- de los puntajes de una prueba para los usos
glas en inglés): Modelo matemático de la rela- previstos.
ción funcional entre el desempeño en un ítem de
validez ajustada o coeficiente de confiabili-
prueba, las características del ítem y la situación
dad: Coeficiente de validez o confiabilidad
del examinando respecto del constructo sometido
—con mayor frecuencia, una correlación pro-
a medición.
ducto-momento— que ha sido ajustado para
trabajo/clasificación del trabajo: Grupo de compensar los efectos de las diferencias en la
puestos de trabajo con suficiente parecido en variabilidad de puntajes, la variabilidad de crite-
deberes, responsabilidades, características reque- rios o la falta de confiabilidad de los puntajes de
ridas y otros aspectos relevantes, de manera que las pruebas o criterios. Véase restricción de rango
se pueden colocar bajo el mismo título de puesto o variabilidad.
laboral.
validez: Grado en que la evidencia acumulada y
uso operativo: Uso real de una prueba, después la teoría respaldan una interpretación específica
finalizado el desarrollo inicial de la prueba, para de los puntajes de una prueba para un uso de-
informar una interpretación, decisión o acción, terminado. Si se prevén varias interpretaciones
basándose total o parcialmente en los puntajes de del puntaje de una prueba para diferentes usos,
la prueba. serán necesarias evidencias de validez para cada
interpretación.
usuario de la prueba: Persona o entidad res-
ponsable de la elección y administración de una variable moderadora: Variable que afecta a la
prueba, de la interpretación de los puntajes pro- dirección o intensidad de la relación entre dos va-
ducidos en un contexto dado y de cualquier deci- riables diferentes a aquella.
sión o acción que se base, en parte, en los puntajes
varianza irrelevante de constructo: Varianza
de una prueba.
en puntajes de examinandos atribuible a factores
Validación cruzada: Procedimiento en el que un extrínsecos que distorsionan el significado de los
sistema de puntaje para la predicción del desem- puntajes y, por lo tanto, reducen la validez de la
peño, derivado de una muestra, se aplica a una interpretación propuesta.
segunda muestra para investigar la estabilidad de
vinculación/vinculación de puntajes: Proceso
la predicción de ese sistema.
de relacionar puntajes de pruebas. Véase formula-
validación: Proceso mediante el cual se inves- rios alternativos, equiparación, calibración, mo-
tiga la validez de una interpretación propuesta deración, proyección, escalamiento vertical.
255
Acreditación, 189, 195, 199, 203 Error de medida, 36, 38, 197
Adaptaciones, 63, 64 Error estándar de medida, 36, 42, 50
Adecuaciones, 64 Errores aleatorios, 39, 243
comparabilidad, 65 Errores sistemáticos, 39
definición, 213 Escalamiento vertical, 108, 113, 243, 245, 255
lingüísticas, 75 Especificaciones de la prueba, 85, 94
uso apropiado, 68 Estándares de contenido, 207
Administración de la prueba, 91, 126 Estándares de desempeño, 207
Algoritmos de puntaje, 74, 103 Estimaciones de confiabilidad, 38, 47
Alineación, 15 Estudios de políticas, 227, 234
Análisis de empleo, 97, 241 Evaluación
clínica, 3
Calificación de la prueba, 132 psicológica, 169
Capacidad de evaluar, 215 Evaluación de programas, 234
Capacitación de evaluadores, 94, 103, 104 Evaluación psicológica, 169
Clasificación tipos, 174
coherencia de decisiones, 43 Evaluación sumativa, 207, 211, 246
etiquetas de puntajes, 67 Evaluaciones alternativas, 213
Coeficiente de confiabilidad, 35, 42 Evaluaciones de desempeño, 87
Coherencia de decisiones, 43, 51 Evidencia de validación, 15, 73
Comparabilidad de puntajes, 56, 58, 64, 65, 66, 67, Extensión de la prueba, 86, 89, 97, 101
76, 98, 103, 106, 107, 108, 112, 115, 117, 120,
121 Formularios alternativos, 38
Competencia en el idioma inglés, 214, 215 Formularios paralelos, 110
Confiabilidad/precisión, 35 Funcionamiento diferencial de la prueba, 56
documentación, 52
Consecuencias imprevistas, 12, 20, 21, 23, 33, 187, Generabilidad, 36
238 coeficiente, 40
Consentimiento informado, 138, 139, 145, 150, 151, teoría, 36
181, 229, 243 Generalización de validez, 19, 248
Contenido de la prueba, 59
Contexto de la prueba, 60 Imparcialidad, 54, 70
diseño universal, 54
Derechos de autor, 165 Información colateral, 174
Derechos de los examinandos, 148 Infrarrepresentación de constructo, 12
Desarrollo de la prueba, 85 Interpretación de los puntajes, 172
Desempeño de grupos, 51, 112, 228, 237 Interpretaciones de puntajes, 108, 115
Documentación, 98, 137 Interpretaciones referenciadas a normas, 208
confiabilidad/precisión, 44 Irregularidades de la prueba, 153
Dominio de constructo de criterio, 192
Dominio de constructo de predictor, 182 Laboratorios cognitivos, 57, 71, 73, 94
Licenciamiento, 137, 152, 164
Editor de la prueba, 4, 244 Límites de tiempo, 76, 128
Efectos de contexto, 92, 119, 121
Efectos prácticos, 234, 235 Manuales de la prueba, 77, 78, 95, 137, 138, 144,
Engaños, 149 156, 244
Entorno de la prueba, 126, 130, 213 Manuales técnicos, 95, 137, 138, 144, 244
257
258