Normas de La Prueba

ESTÁNDARES para Pruebas Educativas y Psicológicas
American Educational Research Association

American Psychological Association
National Council on Measurement in Education
BK-AERA-STANDARDS-180078-Text.indd 1 04/04/18 5:53 PM

Este volumen es la traducción en Español de Standards for Educational and Psychological Testing, edición
de 2014. Esta traducción se debe citar como sigue: American Educational Research Association, American
Psychological Association, & National Council on Measurement in Education. (2018). Estándares para
pruebas educativas y psicológicas (M. Lieve, Trans.). Washington, DC: American Educational Research
Association. (Original work published 2014)
Copyright © 2018 de la American Educational Research Association, la American Psychological Association

y el National Council on Measurement in Education. Todos los derechos reservados. Ninguna parte de esta
publicación podrá ser reproducida o distribuida de ninguna forma ni por ningún medio, incluidos, a modo
de ejemplo, el proceso de escaneo y digitalización, ni podrá almacenarse en una base de datos o sistema de
recuperación, sin la autorización previa por escrito del editor.
Publicado por la
American Educational Research Association
1430 K St., NW, Suite 1200
Washington, DC 20005, EE. UU.
Impreso en los Estados Unidos de América
Preparado por el
Comité Conjunto sobre los Estándares para Pruebas Educativas y Psicológicas de la American Educational
Research Association, la American Psychological Association y el National Council on Measurement in
Education
ISBN 978-0-935302-74-5
Library of Congress Control Number: 2018937716
ii

TABLA DE CONTENIDO
PREFACIO�� ix
INTRODUCCIÓN�� 1
La finalidad de los Estándares��1
Descargo de responsabilidad legal��1
Pruebas y usos de las pruebas a los que se aplican estos Estándares��2
Participantes en el proceso de prueba��3
Alcance de la revisión��4
Organización del volumen��5
Categorías de estándares��6
Presentación de estándares individuales��6
Precauciones que deben considerarse al utilizar los Estándares��8
PARTE I
FUNDAMENTOS
1. Validez��11
Antecedentes��11
Fuentes de evidencia de validación��14
Integración de la evidencia de validación��23
Estándares de validez��25
Unidad 1. Establecimiento de usos e interpretaciones previstos��25
Unidad 2. Cuestiones respecto de las muestras y contextos utilizados en la validación��27
Unidad 3. Formas específicas de evidencia de validación��28
2. Confiabilidad/Precisión Y Errores De Medida��35
Implicaciones para la validez��37
Especificaciones para replicaciones del procedimiento de evaluación��37
Evaluación de la confiabilidad/precisión��39
Coeficientes de confiabilidad/generabilidad��40
Factores que afectan la confiabilidad/precisión��41
Errores estándares de medida��42
Coherencia de decisiones��43
Confiabilidad/precisión de medias de grupos��43
Documentación de la confiabilidad/precisión��44
Estándares de confiabilidad/precisión��46
Unidad 1. Especificaciones para replicaciones del procedimiento de evaluación��46
Unidad 2. Evaluación de la confiabilidad/ precisión��47
Unidad 3. Coeficientes de confiabilidad/generabilidad��48
Unidad 4. Factores que afectan la confiabilidad/precisión��49
Unidad 5. Errores estándares de medida��50
Unidad 6. Coherencia de decisiones��51
iii

TABLA DE CONTENIDO
Unidad 7. Confiabilidad/precisión de medias de grupos��51

Unidad 8. Documentación de la confiabilidad/precisión��52
3. Imparcialidad En Las Pruebas��53
Puntos de vista generales de la imparcialidad��55
Amenazas a las interpretaciones imparciales y válidas de los puntajes
de una prueba��59
Minimizar los componentes irrelevantes del constructo mediante el
diseño de la prueba y adaptaciones de la prueba��63
Estándares de imparcialidad��70
Unidad 1. Diseño, desarrollo, administración y procedimientos de calificación
de las pruebas que minimizan los obstáculos a interpretaciones válidas
de los puntajes para la variedad más amplia de individuos y
subgrupos relevantes��70
Unidad 2. Validez de las interpretaciones de los puntajes de la prueba
para los usos previstos para la población prevista de individuos examinados��73
Unidad 3. Adecuaciones para eliminar obstáculos irrelevantes del constructo
y respaldar interpretaciones válidas de puntajes para sus usos previstos��74
Unidad 4. Protecciones contra interpretaciones inapropiadas de los puntajes
para los usos previstos��78
PARTE II
OPERACIONES
4. Diseño y Desarrollo de Pruebas��85
Especificaciones de la prueba��86
Desarrollo y revisión de ítems��93
Reunión y evaluación de formularios de prueba��94
Desarrollo de procedimientos y materiales para administración y calificación��94
Revisiones de las pruebas��95
Estándares para el diseño y desarrollo de pruebas��96
Unidad 1. Estándares para especificaciones de la prueba��96
Unidad 2. Estándares para el desarrollo y la revisión de ítems��99
Unidad 3. Estándares para desarrollar procedimientos y materiales
de administración y calificación de pruebas��102
Unidad 4. Estándares para revisión de pruebas��105
5. Puntajes, Escalas, Normas, Vinculación de Puntajes
y Puntajes de Corte��107
Interpretaciones de puntajes��108
Normas��109
Vinculación de puntajes��110
Puntajes de corte��113
iv

TABLA DE CONTENIDO
Estándares para puntajes, escalas, normas, vinculación de puntajes y

puntajes de corte��115
Unidad 1. Interpretaciones de puntajes��115
Unidad 2. Normas��117
Unidad 3. Vinculación de puntajes��118
Unidad 4. Puntajes de corte��121
6. Administración, Calificación, Presentación de Reportes
E Interpretación de Pruebas��125
Estándares para la administración, calificación, presentación de reportes
e interpretación de pruebas��128
Unidad 1. Administración de la prueba��128
Unidad 2. Calificación de la prueba��132
Unidad 3. Presentación de informes e interpretación��133
7. Documentación de Respaldo de Las Pruebas��137
Estándares para la documentación de respaldo de las pruebas��139
Unidad 1. Contenido de documentos de la prueba: Uso apropiado��139
Unidad 2. Contenido de documentos de la prueba: Desarrollo de la prueba��140
Unidad 3. Contenido de documentos de la prueba: Administración y
calificación de la prueba��141
Unidad 4. Cumplimiento de los plazos de entrega de los documentos
de la prueba��144
8. Derechos y Responsabilidades de Los Examinandos��145
Estándares para los derechos y responsabilidades de los examinandos��148
Unidad 1. Derechos de los examinandos a disponer de información
antes de la prueba��148
Unidad 2. Derechos de los examinandos a obtener acceso a los resultados
de sus pruebas y a la protección frente a usos no autorizados
de estos resultados��150
Unidad 3. Derechos de los examinandos a reportes de puntajes
imparciales y precisos��151
Unidad 4. Responsabilidades de comportamiento de los examinandos a
lo largo de todo el proceso de administración de la prueba��152
9. Derechos y Responsabilidades de Los Usuarios de la Prueba��155
Estándares para los derechos y responsabilidades de los usuarios de la prueba��159
Unidad 1. Validez de las interpretaciones��159
Unidad 2. Diseminación de la información��163
Unidad 3. Seguridad de la prueba y protección de los derechos de autor��165

TABLA DE CONTENIDO
PARTE III
APLICACIONES DE LAS PRUEBAS
10. Pruebas y Evaluación Psicológicas��169
Selección y administración de pruebas��170
Interpretación de los puntajes de las pruebas��172
Información colateral usada en pruebas y evaluación psicológicas��174
Tipos de pruebas y evaluación psicológicas��174
Propósitos de las pruebas y evaluación psicológicas��178
Resumen��183
Estándares para las pruebas y la evaluación psicológicas��184
Unidad 1. Cualificaciones del usuario de la prueba��184
Unidad 2. Selección de pruebas��185
Unidad 3. Administración de pruebas��185
Unidad 4. Interpretación de pruebas��186
Unidad 5. Seguridad de pruebas��188
11. Pruebas y Acreditación En El Centro de Trabajo��189
Pruebas de empleo��190
Pruebas en la acreditación profesional y ocupacional��195
Estándares para pruebas y acreditación en el centro de trabajo��199
Unidad 1. Estándares aplicables con carácter general a las pruebas y la
acreditación en el centro de trabajo��199
Unidad 2. Estándares para las pruebas de empleo��200
Unidad 3. Estándares para la acreditación��203
12. Pruebas y Evaluación Educativas��205
Diseño y desarrollo de evaluaciones educativas��206
Uso e interpretación de evaluaciones educativas��211
Administración, calificación y presentación de reportes de
evaluaciones educativas��216
Estándares para pruebas y evaluación educativas��219
Unidad 1. Diseño y desarrollo de evaluaciones educativas��219
Unidad 2. Uso e interpretación de evaluaciones educativas��221
Unidad 3. Administración, calificación y presentación de reportes
de evaluaciones educativas��224
13. Uso de Pruebas Para la Evaluación de Programas,
Estudios de Políticas y Rendición de Cuentas��227
Evaluación de programas e iniciativas de políticas��228
Sistemas de rendición de cuentas basada en pruebas��230
vi

TABLA DE CONTENIDO
Problemas en la evaluación de programas y políticas y en la rendición

de cuentas��231
Consideraciones adicionales��232
Estándares para el uso de pruebas para la evaluación de programas, estudios de
políticas y rendición de cuentas��234
Unidad 1. Diseño y desarrollo de programas de pruebas e índices para la
evaluación de programas, estudios de políticas y sistemas de
rendición de cuentas��234
Unidad 2. Interpretaciones y usos de la información de pruebas usadas
en evaluación de programas, estudios de políticas y sistemas
de rendición de cuentas��236
Glosario�� 241
Índice�� 257
vii

PREFACIO
La presente edición de los Estándares para Prue- financieros y un fondo de desarrollo; y realizar
bas Educativas y Psicológicas está patrocinada por otras tareas relacionadas con la revisión y la publi-
la American Educational Research Association cación de los Estándares.
(AERA; Asociación Estadounidense de Inves-
tigación Educativa), la American Psychological Comité Directivo de los Estándares
Association (APA; Asociación Estadounidense Wayne J. Camara (Presidente), designado por la APA
de Psicología) y el National Council on Measu- David Frisbie (2008—presente), designado por el
rement in Education (NCME; Consejo Nacio- NCME
nal de Medición en Educación). Documentos Suzanne Lane, designada por la AERA
Barbara S. Plake (2005—2007), designada por el NCME
anteriores de las organizaciones patrocinadoras
también sirvieron de guía para el desarrollo y uso La presente edición de los Estándares fue desa-
de pruebas. El primero fue las Recomendaciones rrollada por el Comité Conjunto sobre los Es-
Técnicas para las Pruebas Psicológicas y las Téc- tándares para Pruebas Educativas y Psicológicas,
nicas de Diagnóstico, elaborado por un comité designado por el Comité de Directivo de los
de la APA y publicadas por la APA en 1954. El Estándares en 2008. Los miembros del Comité
segundo fue las Recomendaciones Técnicas para Conjunto son miembros de al menos una de las
Pruebas de Rendimiento, elaborado por un co- tres organizaciones patrocinadoras, AERA, APA
mité que representaba a la AERA y al National y NCME. El Comité Conjunto tuvo a su cargo
Council on Measurement Used in Education la revisión de los Estándares y la elaboración del
(NCMUE; Consejo Nacional sobre Medición documento final para su publicación. Su primera
Utilizada en Educación) y publicadas por la Na- reunión tuvo lugar en enero de 2009.
tional Education Association (Asociación Nacio-
nal de Educación) en 1955. Comité Conjunto sobre los Estándares para
El tercero, que reemplazó a los dos anteriores, Pruebas Educativas y Psicológicas
fue elaborado por un comité conjunto que repre- Barbara S. Plake (Copresidente)
sentaba a la AERA, la APA y el NCME y fue pu- Lauress L. Wise (Copresidente)
blicado por la APA en 1966. Se trató de la primera Linda L. Cook
edición de los Estándares para Pruebas Educati- Fritz Drasgow
vas y Psicológicas, también conocidos como los Brian T. Gong
Estándares. Las tres ediciones posteriores de los Laura S. Hamilton
Estándares fueron elaboradas por comités con- Jo-Ida Hansen
juntos que representaban a la AERA, la APA y el Joan L. Herman
Michael T. Kane
NCME, publicadas en 1974, 1985 y 1999.
Michael J. Kolen
El actual Comité Directivo de los Estándares Antonio E. Puente
fue formado por la AERA, la APA y el NCME, Paul R. Sackett
las tres organizaciones patrocinadoras, en 2005, Nancy T. Tippins
integrado por un representante de cada organi- Walter D. Way
zación. Las responsabilidades del comité inclu- Frank C. Worrell
yeron determinar si era necesaria una revisión
de los Estándares de 1999 y luego crear el cargo, Cada organización patrocinadora designó uno
presupuesto y cronograma de trabajo para un co- o dos intermediarios, algunos de los cuales
mité conjunto; designar copresidentes y miem- eran miembros del Comité Conjunto, para ac-
bros del comité conjunto; supervisar los asuntos tuar como canales de comunicación entre las
ix

PREFACIO
organizaciones patrocinadoras y el comité du- elaboración de las revisiones finales de la presente

rante el proceso de revisión. edición de los Estándares.
Los comentarios provinieron de las siguientes
Intermediarios para el Comité Conjunto organizaciones:
AERA: Joan L. Herman
APA: Michael J. Kolen y Frank C. Worrell Organizaciones patrocinadoras
NCME: Steve Ferrara American Educational Research Association
American Psychological Association
Marianne Ernesto (APA) se desempeñó como di- National Council on Measurement in Education
rectora del proyecto para el Comité Conjunto, y
Dianne L. Schneider (APA) actuó como la coordi- Asociaciones profesionales
nadora del proyecto. Gerald Sroufe (AERA) pro- American Academy of Clinical Neuropsychology
porcionó asistencia administrativa para el Comité (Academia Estadounidense de Neuropsicología
Directivo. El asesor legal de la APA se ocupó de Clínica)
la revisión legal externa de los Estándares. Daniel American Board of Internal Medicine (Consejo
R. Eignor y James C. Impara revisaron los Están- Estadounidense de Medicina Interna)
dares en cuanto a precisión técnica y coherencia American Counseling Association (Asociación
entre los capítulos. Estadounidense de Asesoramiento)
En 2008, cada una de las tres organizacio- American Institute of CPAs (Instituto Estadounidense
de Contadores Públicos Certificados), Equipo de
nes patrocinadoras emitió una convocatoria
Exámenes
para presentar comentarios sobre los Estándares Consejo para el Avance de la Psicología en el Interés
de 1999. En función de una revisión de los co- Público de la APA
mentarios recibidos, el Comité Directivo iden- Consejo de Asuntos Educativos de la APA
tificó cuatro áreas principales de contenido en Consejo de Asuntos Profesionales de la APA
las que debía concentrarse la revisión: avances Consejo de Asuntos Científicos de la APA
tecnológicos en materia de pruebas, aumento Consejo de Políticas y Planificación de la APA
del uso de pruebas para rendición de cuentas y Comité sobre Edad Avanzada de la APA
establecimiento de políticas educativas, acceso Comité sobre Niños, Jóvenes y Familias de la APA
para todas las poblaciones de individuos exa- Comité de Asuntos de las Minorías Étnicas de la APA
minados, y cuestiones asociadas con pruebas en Comité de Relaciones Internacionales en Psicología
de la APA
el centro de trabajo. Además, el comité prestó
Comité de Asuntos Legales de la APA
especial atención a asegurar una voz común y Comité sobre Pruebas y Evaluación Psicológicas de la APA
al uso coherente de lenguaje técnico entre los Comité sobre Estado Socioeconómico de la APA
capítulos. Sociedad para la Psicología de la Mujer de la APA
En enero de 2011, se puso a disposición una (División 35)
versión preliminar de los Estándares revisados División de Evaluación, Medición y Estadística de la
para revisión y comentarios del público. Las orga- APA (División 5)
nizaciones que presentaron comentarios sobre la División de Psicología Escolar de la APA (División 16)
versión preliminar y/o comentarios en respuesta Comité de Ética de la APA
a la convocatoria de 2008 se indican a conti- Sociedad para la Psicología Industrial y Organizativa
nuación. Muchas personas de cada organización de la APA (División 14)
Sociedad de Psicología Clínica de Niños y
aportaron comentarios, al igual que muchos
Adolescentes de la APA (División 53)
miembros particulares de AERA, APA y NCME. Sociedad de Psicología de Asesoramiento de la APA
El Comité Conjunto consideró cada comentario (División 17) Asian American Psychological
en su revisión de los Estándares. Estas revisiones Association (Asociación Asiáticoestadounidense
razonadas de diversos puntos de observación pro- de Psicología) Association of Test Publishers
fesionales ayudaron al Comité Conjunto en la (Asociación de Editores de Pruebas)

PREFACIO
District of Columbia Psychological Association Otras instituciones

(Asociación Psicológica del Distrito de Columbia)
Departamento de Educación de California Consejo
Massachusetts Neuropsychological Society (Sociedad
Asesor de Igualdad en el Empleo
Neuropsicológica de Massachusetts)
Fair Access Coalition on Testing (Coalición de
Massachusetts Psychological Association (Asociación
Acceso Justo sobre Pruebas)
Psicológica de Massachusetts)
Instituto de Evaluación e Ingeniería de Avanzada,
National Academy of Neuropsychology (Academia
México
Nacional de Neuropsicología)
Autoridad de Calificaciones y Planes de Estudio,
National Association of School Psychologists
Departamento de Educación del Reino Unido
(Asociación Nacional de Psicólogos Escolares)
Performance Testing Council (Consejo de Pruebas de
National Board of Medical Examiners (Consejo
Desempeño)
Nacional de Examinadores Médicos)
National Council of Teachers of Mathematics
(Consejo Nacional de Profesores de Matemáticas) Cuando el Comité Conjunto completó su revi-
Junta Directiva del NCME sión final de los Estándares, presentó la revisión
Comité sobre Cuestiones de Diversidad y Pruebas del a las tres organizaciones patrocinadores para su
NCME aprobación y aval. Cada organización tuvo su
Comité sobre Uso de Estándares y Pruebas del NCME propio órgano rector y mecanismo de aprobación,
así como una declaración sobre el significado de
Compañías que realizan pruebas su aprobación:
ACT
Alpine Testing Solutions AERA: La aprobación de los Estándares por
The College Board parte de la AERA significa que el Consejo
Educational Testing Service adopta el documento como política de la
Harcourt Assessment, Inc. AERA.
Hogan Assessment Systems
Pearson APA: La aprobación de los Estándares por
Prometric parte de la APA significa que el Consejo de
Vangent Human Capital Management Representantes adopta el documento como
Wonderlic, Inc. política de la APA.
Instituciones académicas y de investigación NCME: Los Estándares para Pruebas

Educativas y Psicológicas han sido avalados
Centro para la Evaluación Educativa, Universidad de por el NCME, y este aval conlleva un
Massachusetts imperativo ético para todos los miembros
Centro para la Equidad y la Excelencia en Educación del NCME de adherir a estos estándares en
de la Universidad George Washington la práctica de la medición.
Human Resources Research Organization (HumRRO;
Organización de Investigación en Recursos
Si bien los Estándares son prescriptivos, no con-
Humanos) Centro Nacional de Resultados
tienen mecanismos de aplicación. Los Estándares
Educativos,
Universidad de Minnesota se formularon con la intención de ser coherentes
con otros estándares, pautas y códigos de con-
Organizaciones de acreditación ducta publicados por las tres organizaciones
American Registry of Radiologic Technologists patrocinadoras.
(Registro Estadounidense de Tecnólogos en
Radiología) National Board for Certified
Counselors (Consejo Nacional de Asesores Comité Conjunto sobre los Estándares para
Certificados) National Board of Medical Pruebas Educativas y Psicológicas
Examiners (Consejo Nacional de Examinadores
Médicos)
xi

INTRODUCCIÓN
La evaluación y las pruebas educativas y psi- relevantes. Todos los desarrolladores, patrocina-
cológicas se encuentran entre los aportes más dores, editores y usuarios profesionales de pruebas
importantes que las ciencias cognitivas y del deben hacer esfuerzos razonables para cumplir y
comportamiento han hecho a nuestra sociedad, seguir los Estándares y deben alentar a los demás
al brindar fuentes fundamentales y significativas a hacerlo. Todos los estándares aplicables deben
de información sobre individuos y grupos. No to- ser cumplidos por todas las pruebas y en todos los
das las pruebas están bien desarrolladas, ni todas usos de las pruebas a menos que exista un motivo
las prácticas de desarrollo de pruebas son sensatas profesional sólido que demuestre por qué un es-
o beneficiosas, pero existe amplia evidencia que tándar no es relevante o técnicamente viable en
documenta la utilidad de las pruebas bien cons- un caso en particular.
truidas y bien interpretadas. Las pruebas bien Los Estándares no intentan proporcionar
construidas que son válidas para sus fines previs- respuestas psicométricas a preguntas de política
tos presentan el potencial de brindar beneficios pública respecto del uso de pruebas. En general,
sustanciales para los examinandos y los usuarios los Estándares proponen que, dentro de límites
de las pruebas. Su uso adecuado puede dar lugar viables, se ponga a disposición información téc-
a mejores decisiones sobre individuos y progra- nica de modo que los involucrados en las deci-
mas que las que se generarían sin su uso y tam- siones sobre políticas puedan estar plenamente
bién pueden proporcionar un camino hacia un informados.
acceso más amplio y equitativo a la educación y
el empleo. El uso inadecuado de las pruebas, por Descargo de responsabilidad legal
otra parte, puede dar lugar a un daño considera-
ble para los examinandos y otras partes afectadas Los Estándares no constituyen una declaración de
por las decisiones basadas en las pruebas. La in- requisitos legales, y el cumplimiento con los Es-
tención de los Estándares para Pruebas Educa- tándares no sustituye el asesoramiento legal. Nu-
tivas y Psicológicas es promover prácticas sólidas merosas leyes, regulaciones, normas y decisiones
de desarrollo de pruebas y brindar una base para judiciales federales, estatales y locales se relacio-
evaluar la calidad de esas prácticas. Los Estánda- nan con algunos aspectos del uso, la producción,
res están dirigidos a profesionales que especifican, el mantenimiento y el desarrollo de pruebas y
desarrollan o seleccionan pruebas y para quienes resultados de pruebas e imponen estándares que
interpretan los resultados de las pruebas o evalúan pueden ser diferentes para los diferentes tipos de
su calidad técnica. pruebas. La revisión de estas cuestiones legales ex-
cede el alcance de los Estándares, cuyo propósito
La finalidad de los Estándares distintivo es establecer los criterios para prácticas
sólidas de desarrollo de pruebas desde la perspec-
La finalidad de los Estándares es proporcionar cri- tiva de profesionales de las ciencias cognitiva y del
terios para el desarrollo y la evaluación de prue- comportamiento. En los casos en que al parecer
bas y prácticas de desarrollo de pruebas y brindar uno o más estándares abordan una cuestión res-
pautas para evaluar la validez de las interpretacio- pecto de la cual los requisitos legales establecidos
nes de los puntajes de las pruebas para los usos pueden ser especialmente relevantes, el están-
previstos de las pruebas. Si bien esas evaluaciones dar, comentario o material introductorio puede
deberían depender ampliamente del juicio profe- tomar nota de ese hecho. La falta de referencia
sional, los Estándares brindan un marco de refe- específica a requisitos legales, no obstante, no im-
rencia para garantizar que se aborden cuestiones plica la ausencia de un requisito legal relevante.

INTRODUCCIÓN
Al aplicar estándares a nivel internacional, las inventario se utilizan para medidas de actitudes,
diferencias legales pueden dar lugar a cuestiones interés y disposiciones, los Estándares utilizan el
adicionales o requerir un tratamiento diferente de único término prueba para referirse a todos esos
las cuestiones. dispositivos evaluativos.
En algunas áreas, como la recopilación, aná- En ocasiones se hace una distinción entre
lisis y uso de datos y resultados de pruebas para pruebas y evaluaciones. Evaluación es un término
diferentes subgrupos, la ley puede tanto reque- más amplio que prueba; comúnmente se refiere
rir que los participantes en el proceso de prueba a un proceso que integra la información de la
hagan determinadas acciones como prohibir prueba con información de otras fuentes (p. ej.,
que esos participantes hagan otras acciones. Asi- información de otras pruebas, inventarios y entre-
mismo, debido a que la ciencia de las pruebas es vistas; o de los antecedentes sociales, educativos,
una disciplina en evolución, es posible que las re- laborales, de salud o psicológicos de la persona).
visiones recientes de los Estándares no se reflejen La aplicabilidad de los Estándares a un dispositivo
en autoridades legales existentes, incluidas deci- o método de evaluación se determina por el con-
siones judiciales y pautas de organismos. En todas tenido y no se altera por el término aplicado a este
las situaciones, los participantes en el proceso de (p. ej., prueba, evaluación, escala, inventario). Los
prueba deberían obtener el consejo de un asesor Estándares no deben utilizarse como una lista de
respecto de los requisitos legales aplicables. comprobación, como se destaca en la sección
Además, si bien las organizaciones patrocina- “Precauciones que deben considerarse al utilizar
doras no pueden hacer cumplir los Estándares, las los Estándares” al final de este capítulo.
autoridades de regulación y los tribunales los han Las pruebas difieren en una serie de dimen-
reconocido en reiteradas oportunidades como el siones: el modo en que se presentan los materiales
establecimiento de estándares profesionales gene- de la prueba (p. ej., papel y lápiz, administración
ralmente aceptados que siguen los desarrolladores oral o por computadora); el grado con el que se
y usuarios de pruebas y otros procedimientos de estandarizan los materiales de estímulo; el tipo de
selección. El cumplimiento o incumplimiento de formato de respuesta (selección de una respuesta
los Estándares puede utilizarse como evidencia re- de un conjunto de alternativas, en oposición a la
levante de responsabilidad legal en procedimien- producción de una respuesta en forma libre); y
tos judiciales y regulatorios. Los Estándares, por el grado con el que se diseñan los materiales de
lo tanto, merecen la consideración atenta de todos la prueba para reflejar o simular un contexto en
los participantes en el proceso de prueba. particular. En todos los casos, no obstante, las
Ninguna parte de los Estándares tiene por pruebas estandarizan el proceso mediante el cual
objeto constituir asesoramiento legal. Además, se evalúan y califican las respuestas de los exami-
los editores niegan toda responsabilidad generada nandos a los materiales de la prueba. Como se
por la participación en el proceso de prueba. observó en versiones anteriores de los Estándares,
se necesitan los mismos tipos generales de infor-
Pruebas y usos de las pruebas a los que mación para juzgar la solidez de los resultados ob-
se aplican estos Estándares tenidos del uso de todas las variedades de pruebas.
La demarcación precisa entre dispositivos de
Una prueba es un dispositivo o procedimiento en medición utilizados en los campos de las pruebas
el cual se obtiene y posteriormente se evalúa y ca- educativas y psicológicas que se encuadran y no
lifica una muestra del comportamiento de un in- se encuadran dentro del alcance de los Estánda-
dividuo examinado en un dominio especificado, res es difícil de identificar. Si bien los Estánda-
a través de un proceso estandarizado. Si bien el res se aplican de manera más directa a medidas
término prueba en ocasiones se reserva a instru- estandarizadas generalmente reconocidas como
mentos en los que las respuestas se evalúan según “pruebas”, como medidas de habilidad, aptitud,
su corrección o calidad, y los términos escala e rendimiento, actitudes, intereses, personalidad,

INTRODUCCIÓN
funcionamiento cognitivo y salud mental, los Es- trabajo, empleados, clientes, pacientes, supervi-
tándares también pueden aplicarse con utilidad sores, ejecutivos y evaluadores, entre otros. Las
en diversos grados a una amplia variedad de téc- instituciones afectadas incluyen escuelas, universi-
nicas de evaluación menos formales. La aplicación dades, empresas, la industria, clínicas psicológicas
rigurosa de los Estándares a evaluaciones de em- y organismos gubernamentales. Los individuos y
pleo no estandarizadas (como algunas entrevistas las instituciones se benefician cuando las pruebas
de trabajo) o a la amplia variedad de muestras de los ayudan a alcanzar sus metas. La sociedad, a su
comportamiento no estructurado utilizadas en vez, se beneficia cuando las pruebas contribuyen
algunas formas de evaluación clínica y psicoló- al logro de metas individuales e institucionales.
gica escolar (p. ej., una entrevista de admisión) o Hay muchos participantes en el proceso de
a pruebas hechas por instructores que se utilizan prueba, que incluyen, entre otros, los siguien-
para evaluar el desempeño estudiantil en educa- tes: (a) los que preparan y desarrollan la prueba;
ción y capacitación, por lo general no es posible. (b) los que publican y comercializan la prueba;
Resulta útil distinguir entre dispositivos que rei- (c) los que administran y califican la prueba;
vindican los conceptos y técnicas del campo de (d) los que interpretan los resultados de la prueba
las pruebas educativas y psicológicas y los disposi- para los clientes; (e) los que utilizan los resultados
tivos que representan ayudas no estandarizadas o de la prueba para algún fin de toma de decisiones
menos estandarizadas a las decisiones evaluativas (incluidos los responsables de formular políticas
diarias. Si bien los principios y conceptos sub- y quienes utilizan datos para informar la política
yacentes a los Estándares pueden aplicarse con social); (f ) los que se someten a la prueba por elec-
éxito a las decisiones diarias —como cuando un ción, instrucción o necesidad; (g) los que patroci-
empresario entrevista a un solicitante de empleo, nan las pruebas, como juntas que representan a
un gerente evalúa el desempeño de subordinados, instituciones u organismos gubernamentales que
un profesor desarrolla una evaluación en el aula tienen contrato con una desarrollador de prue-
para monitorear el progreso de los estudiantes ha- bas para un instrumento o servicio específico; y
cia una meta educativa, o un entrenador evalúa (h) los que seleccionan o revisan las pruebas, eva-
a un futuro deportista—, sería excesivo esperar luando sus méritos comparativos o la aptitud para
que quienes toman esas decisiones sigan los es- los usos propuestos. En general, quienes partici-
tándares del campo de las pruebas educativas y pan en el proceso de prueba deben tener cono-
psicológicas. Por el contrario, un sistema de en- cimiento adecuado de las pruebas y evaluaciones
trevistas estructurado desarrollado por un psicó- para permitirles tomar buenas decisiones sobre
logo y acompañado por afirmaciones de que se qué pruebas usar y cómo interpretar los resulta-
ha determinado que el sistema es predictivo del dos de las pruebas.
desempeño laboral en diversos otros contextos se Los intereses de las diversas partes involu-
encuadra dentro del alcance de los Estándares. cradas en el proceso de prueba pueden ser con-
Adherir a los Estándares se vuelve más crítico a gruentes o no. Por ejemplo, cuando se toma una
medida que aumentan los riesgos para el exami- prueba para fines de asesoramiento o para una
nando y la necesidad de proteger al público. colocación laboral, los intereses del individuo y
de la institución suelen coincidir. Por el contra-
Participantes en el proceso de prueba rio, cuando una prueba se utiliza para hacer una
selección de entre muchos individuos para un
La evaluación y las pruebas educativas y psico- puesto altamente competitivo o para ingresar en
lógicas involucran y afectan significativamente un programa educativo o de capacitación, es posi-
a individuos, instituciones y a la sociedad en su ble que las preferencias de un solicitante no coin-
conjunto. Los individuos afectados incluyen es- cidan con las de un empleador o responsable de
tudiantes, padres, familias, profesores, adminis- admisiones. De manera similar, cuando las prue-
tradores educativos, solicitantes de puestos de bas son ordenadas por un tribunal, los intereses

INTRODUCCIÓN
del examinando pueden ser diferentes de los de la sus roles, así como un conocimiento de factores
parte que solicita la orden judicial. personales y contextuales que pueden influir en
Los individuos o instituciones pueden cumplir el proceso de desarrollo de la prueba. Por ejem-
varios roles en el proceso de prueba. Por ejemplo, plo, los desarrolladores de pruebas y los que se-
en clínicas el examinando suele ser el beneficiario leccionan pruebas e interpretan los resultados de
previsto de los resultados de la prueba. En algunas las pruebas necesitan un conocimiento adecuado
situaciones, el administrador de la prueba es un de los principios psicométricos como validez y
representante del desarrollador de la prueba, y en confiabilidad. También deben obtener cualquier
ocasiones el administrador de la prueba es tam- credencial de experiencia supervisada y de ejer-
bién el usuario de la prueba. Cuando una orga- cicio obligatoria por ley que corresponda, que se
nización prepara sus propias pruebas de empleo, requiera para cumplir de manera competente con
es tanto el desarrollador como el usuario. A ve- todos los aspectos del proceso de desarrollo de la
ces, una prueba es desarrollada por un autor de la prueba en el que participen. Todos los profesiona-
prueba, pero es luego publicada, comercializada y les en el proceso de desarrollo de la prueba deben
distribuida por un editor independiente, aunque seguir las pautas éticas de su profesión.
el editor puede desempeñar un rol activo en el
proceso de desarrollo de la prueba. Los roles, a su Alcance de la revisión
vez, también pueden subdividirse. Por ejemplo,
tanto una organización como un evaluador profe- Este volumen funciona como una revisión de
sional pueden desempeñar un rol en la provisión los Estándares para Pruebas Educativas y Psico-
de un centro de evaluaciones. Dada esta mezcla lógicas de 1999. El proceso de revisión comenzó
de roles, suele ser difícil asignar la responsabilidad con la designación de un Comité Directivo com-
precisa de abordar diversos estándares a partici- puesto por representantes de las tres organiza-
pantes específicos en el proceso de prueba. Los ciones patrocinadoras responsables de supervisar
usos de pruebas y prácticas de desarrollo de prue- la dirección general de la iniciativa: la American
bas se mejoran en la medida en que las personas Educational Research Association (AERA), la
involucradas tienen niveles adecuados de conoci- American Psychological Association (APA) y el
mientos en evaluación. National Council on Measurement in Educa-
Las pruebas son diseñadas, desarrolladas y uti- tion (NCME). Para brindar orientación para la
lizadas de diversas maneras. En algunos casos, son revisión, el Comité Directivo solicitó y resumió
desarrolladas y “publicadas” para usarse fuera de comentarios sobre los Estándares de 1999 de
la organización que las produce. En otros casos, al miembros de las organizaciones patrocinadores
igual que las evaluaciones educativas, son diseña- y en 2009 convocó al Comité Conjunto para la
das por el organismo educativo estatal y desarrolla- Revisión de los Estándares de 1999 para que efec-
das por contratistas para uso exclusivo y a menudo tuara la revisión propiamente dicha. El Comité
por única vez del estado y en realidad no se “pu- Conjunto también estuvo compuesto por miem-
blican”. A lo largo de los Estándares, utilizamos el bros de las tres organizaciones patrocinadoras y el
término general desarrollador de la prueba, en lu- Comité Directivo le encargó abordar cinco áreas
gar del término más específico editor de la prueba, principales: considerar las cuestiones de rendición
para hacer referencia a las personas involucradas en de cuentas para uso de pruebas en política educa-
el diseño y desarrollo de pruebas en toda la gama tiva; ampliar el concepto de accesibilidad de las
competa de escenarios de desarrollo de pruebas. pruebas para todos los individuos examinados;
Los Estándares parten de la premisa de que representar de manera más completa el rol de las
las pruebas y evaluaciones efectivas requieren que pruebas en el centro de trabajo; ampliar el rol de
todos los profesionales del proceso de desarrollo la tecnología en el desarrollo de pruebas; y dispo-
de la prueba tengan el conocimiento, las habili- ner una mejor estructura organizativa para comu-
dades y las capacidades necesarias para cumplir nicar los estándares.

INTRODUCCIÓN
Para responder a esta tarea, se tomaron varias cambio importante en la organización de este
medidas: volumen tiene que ver con la conceptualiza-
ción de la imparcialidad. La edición de 1999
• Los capítulos “Pruebas y evaluación educati-
tenía una parte dedicada a este tema, con ca-
vas” y “Pruebas en la evaluación de programas
pítulos separados titulados “Imparcialidad en
y política pública”, en la versión de 1999, se
las pruebas y uso de pruebas”, “Pruebas a per-
reescribieron para atender a las cuestiones aso-
sonas de características lingüísticas diversas” y
ciadas con los usos de pruebas para fines de
“Pruebas a personas con discapacidades”. En
rendición de cuentas en materia educativa.
la presente edición, los temas abordados en
• Se escribió un nuevo capítulo, “Imparcia- esos capítulos se combinan en un único ca-
lidad en las pruebas” para hacer hincapié pítulo integral, y el capítulo se encuentra en
en la accesibilidad y la imparcialidad como la Parte I. Este cambio se hizo para destacar
cuestiones fundamentales en las pruebas. A que la imparcialidad exige que todos los exa-
lo largo de todos los capítulos de los Están- minandos sean tratados con imparcialidad. La
dares se hilvanan cuestiones específicas sobre imparcialidad y la accesibilidad, la oportuni-
imparcialidad. dad no obstruida para que todos los indivi-
duos examinados demuestren su situación en
• El capítulo “Pruebas relacionadas con empleo el o los constructos que se miden, son relevan-
y acreditación” (ahora, “Pruebas y acredita- tes para hacer interpretaciones válidas de los
ción en el centro de trabajo”) se reorganizó puntajes para todos los individuos y subgru-
para identificar de manera más clara cuándo pos en la población prevista de examinandos.
un estándar es relevante para el empleo y/o Debido a que las cuestiones relacionadas con
acreditación. la imparcialidad en las pruebas no se restrin-
• En todo el volumen se consideró el impacto gen a individuos con características lingüísti-
de la tecnología. Uno de los principales pro- cas diversas o con discapacidades, el capítulo
blemas que se identificaron en relación con se amplió para recoger experiencias de prue-
la tecnología fue la tensión entre el uso de bas adecuadas para todos los individuos. Si
algoritmos patentados y la necesidad de que bien los ejemplos del capítulo suelen referirse
los usuarios de pruebas pueden evaluar apli- a individuos con características lingüísticas y
caciones complejas en áreas como calificación culturales diversas y a individuos con discapa-
automatizada de ensayos, administración y cidades, también incluyen ejemplos relevantes
calificación de tipos de ítems innovadores y al género y a adultos mayores, personas de
pruebas basadas en computadora. Estos pro- diversos orígenes étnicos y raciales, y niños
blemas se consideran en el capítulo “Diseño y pequeños, para ilustrar los posibles obstáculos
desarrollo de pruebas”. a una evaluación imparcial y equitativa para
todos los individuos examinados.
• Se contrató a un editor de contenidos para que
ayudara con la precisión y claridad técnicas de Organización del volumen
cada capítulo y con la coherencia de lenguaje
entre los capítulos. Como se observa a conti- La Parte I de los Estándares, “Fundamentos”, con-
nuación, los capítulos de la Parte I (“Funda- tiene estándares de validez (cap. 1); confiabilidad/
mentos”) y de la Parte II (“Operaciones”) aho- precisión y errores de medición (cap. 2); e impar-
ra tienen un “estándar global” y temas en los cialidad en las pruebas (cap. 3). La Parte II, “Ope-
que se organizan los estándares individuales. raciones”, aborda el diseño y desarrollo de pruebas
Además, se actualizó el glosario de los Están- (cap. 4); puntajes, escalas, normas, vinculación
dares para Pruebas Educativas y Psicológicas de puntajes y puntajes de corte (cap. 5); admi-
de 1999. Como se observó anteriormente, un nistración de pruebas, calificación, presentación

INTRODUCCIÓN
de reportes e interpretación (cap. 6); documen- A menos que se especifique lo contrario en un

tación de apoyo para las pruebas (cap. 7); los de- estándar o comentario, y con las advertencias que
rechos y responsabilidades de los examinandos se describen a continuación, los estándares deben
(cap. 8); y los derechos y responsabilidades de cumplirse antes del uso operativo de la prueba.
los usuarios de las pruebas (cap. 9). La Parte III, Cada estándar debe considerarse atentamente
“Aplicaciones de las pruebas” trata aplicaciones para determinar su aplicabilidad al contexto de
específicas en pruebas y evaluación psicológicas prueba en consideración. En un caso determi-
(cap. 10); pruebas y acreditación en el centro de nado, es posible que haya un motivo profesional
trabajo (cap. 11); pruebas y evaluación educativas sólido por el que sea inadecuado adherir al están-
(cap. 12); y usos de pruebas para evaluación de pro- dar. También es posible que haya ocasiones en las
gramas, estudios de políticas y rendición de cuentas que la viabilidad técnica influya a que un estándar
(cap. 13). Asimismo, se incluye un glosario, que pueda cumplirse o no antes del uso operativo de
ofrece definiciones de términos según se utilizan la prueba. Por ejemplo, algunos estándares pue-
específicamente en este volumen. den requerir análisis de datos que no están dis-
Cada capítulo comienza con un texto intro- ponibles en el momento del uso operativo inicial
ductorio que brinda los antecedentes para los es- de la prueba. En algunos casos, es posible que los
tándares que siguen. Si bien en ocasiones el texto análisis cuantitativos tradicionales no sean via-
introductorio es prescriptivo, no debe interpretarse bles debido a tamaños de muestra pequeños. Sin
como la imposición de estándares adicionales. embargo, puede haber otras metodologías que
podrían utilizarse para reunir información para
Categorías de estándares respaldar el estándar, como metodologías para
muestras pequeñas, estudios cualitativos, grupos
El texto de cada estándar y cualquier comentario focales e, incluso, análisis lógico. En esos casos,
que lo acompañe incluyen las condiciones en las los desarrolladores y usuarios de la prueba deben
que un estándar es relevante. Dependiendo del hacer un esfuerzo de buena fe para proporcionar
contexto y la finalidad del desarrollo o uso de la los tipos de datos requeridos en el estándar para
prueba, algunos estándares serán más destacados respaldar las interpretaciones válidas de los resul-
que otros. Además, algunos estándares tienen tados de la prueba para sus fines previstos. Si los
un alcance amplio, al establecer cuestiones o re- desarrolladores, usuarios y, cuando corresponda,
quisitos relevantes para casi todas las pruebas o patrocinadores de la prueba han considerado que
contextos de pruebas, y otros estándares tienen un estándar es inaplicable o técnicamente invia-
un alcance más acotado. Sin embargo, todos los ble, deben poder explicar, si se les solicita, el fun-
estándares son importantes en los contextos a los damento de su decisión. Sin embargo, no existe
que se aplican. Cualquier clasificación que parezca expectativa de que la documentación de todas
elevar la importancia general de algunos estánda- esas decisiones esté habitualmente disponible.
res por sobre otros podría invitar a desatender
determinados estándares que deben abordarse en Presentación de estándares
situaciones particulares. En lugar de diferenciar individuales
los estándares utilizando rótulos de prioridad,
como “primario”, “secundario” o “condicional” Los estándares individuales se presentan después
(como se utilizaron en los Estándares de 1985), de un texto introductorio que presenta algunos
esta edición destaca que a menos que un estándar conceptos claves para interpretar y aplicar los
se considere claramente irrelevante, inapropiado estándares. En muchos casos, los estándares pro-
o técnicamente inviable para un uso en particular, piamente dichos están acompañados de uno o
todos los estándares deben cumplirse, lo que hace más comentarios. Estos comentarios tienen por
que todos sean esencialmente “primarios” para ese objeto ampliar, aclarar o brindar ejemplos para
contexto. contribuir a la interpretación del significado de

INTRODUCCIÓN
los estándares. Los estándares a menudo le indi- del contexto. Por ejemplo, los subgrupos étnicos
can a un desarrollador o usuario que implemente referentes que se considerarán durante la fase de
determinadas acciones. Según el tipo de prueba, diseño de una prueba dependerían de la composi-
en ocasiones no está claro en el enunciado de un ción étnica esperada del grupo de prueba previsto.
estándar a quién está dirigido el estándar. Por Además, muchos más subgrupos podrían ser rele-
ejemplo, el Estándar 1.2 en el capítulo “Validez” vantes para un estándar relacionado con el diseño
indica: de preguntas imparciales de la prueba que para
un estándar que se relacione con adaptaciones del
Se debe presentar una razón fun-
formato de una prueba. Los usuarios de los Es-
damental para cada interpreta-
tándares deberán ejercer su juicio profesional al
ción prevista de los puntajes de la
decidir qué subgrupos en particular son relevantes
prueba para un uso determinado,
para la aplicación de un estándar específico.
junto con un resumen de la evi-
Al decidir qué subgrupos son relevantes para
dencia y la teoría que inciden en la
un estándar en particular, pueden considerarse,
interpretación prevista.
entre otros, los siguientes factores: evidencia creí-
La parte responsable de implementar este están- ble que sugiera que un grupo puede enfrentar
dar es la parte o persona que está articulando la obstáculos particulares irrelevantes del constructo
interpretación recomendada de los puntajes de la para evaluar el desempeño, leyes o regulaciones
prueba. Esta puede ser un usuario de la prueba, que designan a un grupo como relevante para
un desarrollador de la prueba o alguien que esté interpretaciones de puntajes, y grandes cantida-
planeando usar los puntajes de la prueba para un des de individuos en el grupo dentro de la po-
fin en particular, como tomar decisiones de clasi- blación general. Dependiendo del contexto, los
ficación u otorgamiento de licencias. A menudo subgrupos relevantes podrían incluir, por ejem-
no es posible especificar en el enunciado de un plo, hombres y mujeres, individuos de diferente
estándar quién es responsable de dichas acciones; nivel socioeconómico, individuos diferentes en
se tiene la intención de que la parte o persona que cuanto a raza y/u origen étnico, individuos con
realiza la acción especificada en el estándar sea la diferentes orientaciones sexuales, individuos con
parte responsable de adherir al estándar. características lingüísticas y culturales diversas (en
Algunos de los estándares individuales y el particular cuando las pruebas se realizan a nivel
texto introductorio se refieren a grupos y subgru- internacional), individuos con discapacidades, ni-
pos. El término grupo por lo general se utiliza ños pequeños o adultos mayores.
para identificar a la población completa de indivi- Se brindan numerosos ejemplos en los Están-
duos examinados, referida como el grupo previsto dares para aclarar puntos o proporcionar ilustra-
de individuos examinados, el grupo previsto de ciones de cómo aplicar un estándar en particular.
examinandos, la población prevista de individuos Muchos de los ejemplos se extraen de investiga-
examinados, o la población. Un subgrupo incluye ciones con estudiantes con discapacidades o per-
miembros de un grupo más amplio que son iden- sonas de grupos de lenguaje o culturales diversos;
tificables de alguna manera que sea relevante para una cantidad menor, de investigaciones con gru-
el estándar que se aplica. Cuando los datos o los pos identificables, como niños pequeños o adul-
análisis se indican para varios subgrupos, por lo tos. También se realizó un esfuerzo mayor para
general se los denomina subgrupos dentro del proporcionar ejemplos de contextos educativos,
grupo previsto de individuos examinados, grupos psicológicos e industriales.
de la población prevista de individuos examina- Los estándares en cada capítulo de las Partes
dos, o subgrupos relevantes. I y II (“Fundamentos” y “Operaciones”) son in-
Al aplicar los Estándares, es importante tener troducidos por un estándar global, diseñado para
presente que los subgrupos referentes previstos transmitir la intención central del capítulo. Es-
para los estándares individuales son específicos tos estándares globales están siempre numerados

INTRODUCCIÓN
con .0 tras el número de capítulo. Por ejemplo, de la prueba hayan satisfecho la intención del
el estándar global en el capítulo 1 está numerado estándar; (c) los dispositivos de medición al-
1.0. Los estándares globales resumen los princi- ternativos que estén inmediatamente dispo-
pios rectores aplicables a todas las pruebas y usos nibles; (d) evidencia de investigaciones y em-
de pruebas. Además, los temas y estándares en pírica respecto de la viabilidad de cumplir el
cada capítulo están ordenados para guardar cohe- estándar; y (e) leyes y regulaciones aplicables.
rencia con la secuencia del material en el texto
• Cuando las pruebas están sobre el tapete en
introductorio del capítulo. Debido a que algunos
procedimientos judiciales y otras situaciones
usuarios de los Estándares pueden consultar solo
que requieren el dictamen de peritos, es im-
los capítulos directamente relevantes para una
portante que el juicio profesional se base en
aplicación determinada, ciertos estándares se repi-
el corpus aceptado de conocimientos al deter-
ten en diferentes capítulos, en especial en la Parte
minar la relevancia de estándares particulares
III, “Aplicaciones de las pruebas”. Cuando ocurre
en una situación dada. La intención de los
esa repetición, la esencia del estándar es la misma.
Estándares es ofrecer orientación para dichos
Solo se cambia la redacción, el área de aplicación
juicios.
o el nivel de elaboración en el comentario.
• Las afirmaciones de los desarrolladores de
pruebas o usuarios de pruebas respecto de que
Precauciones que deben considerarse una prueba, manual o procedimiento satisface
al utilizar los Estándares o sigue los estándares en este volumen deben
hacerse con cuidado. Es apropiado que los de-
Además del descargo de responsabilidad legal es-
sarrolladores o usuarios indiquen que se hicie-
tablecido anteriormente, varias precauciones son
ron esfuerzos por adherir a los Estándares, y
importantes si se quieren evitar malas interpreta-
que proporcionen documentos que describan
ciones, aplicaciones incorrectas o usos indebidos
y respalden esos esfuerzos. No deben hacerse
de los Estándares:
afirmaciones generales sin evidencia que las
• Evaluar la aceptabilidad de una prueba o sustente.
aplicación de una prueba no depende de la
• Los estándares se relacionan con un campo
satisfacción literal de cada estándar en este
de rápida evolución. En consecuencia, existe
documento, y la aceptabilidad de una prueba
la necesidad continua de monitorear cam-
o aplicación de una prueba no puede determi-
bios en el campo y revisar este documento a
narse utilizando una lista de comprobación.
medida que se desarrollan conocimientos. El
Circunstancias específicas afectan la impor-
uso de versiones anteriores de los Estándares
tancia de los estándares individuales, y los
puede constituir un perjuicio para los usuarios
estándares individuales no deben considerarse
de pruebas y los examinandos.
en forma aislada. Por lo tanto, evaluar la acep-
tabilidad depende de lo siguiente: (a) el juicio • No es la intención de los Estándares reque-
profesional que se basa en un conocimiento rir el uso de métodos técnicos específicos. Por
de la ciencia del comportamiento, psicome- ejemplo, en los casos en que se mencionen re-
tría, y los estándares relevantes en el campo quisitos de presentación de reportes estadísti-
profesional al que se aplica la prueba; (b) el cos específicos, siempre debe entenderse la fra-
grado con el que el desarrollador y el usuario se “o un equivalente generalmente aceptado”.

I
PARTE I
Fundamentos

1. VALIDEZ
Antecedentes
La validez se refiere al grado en que la evidencia utiliza en los Estándares para referirse al concepto
y la teoría respaldan las interpretaciones de los o característica para cuya medición se diseña una
puntajes de una prueba para usos propuestos de prueba. Casi nunca, o nunca, existe un solo sig-
las pruebas. La validez es, por lo tanto, la con- nificado posible que puede atribuirse al puntaje
sideración más fundamental al desarrollar y eva- de una prueba o a un patrón de respuestas de la
luar pruebas. El proceso de validación involucra prueba. Por lo tanto, siempre corresponde a los
acumular evidencia pertinente para proporcionar desarrolladores y usuarios de la prueba especifi-
una base científica sólida para las interpretaciones car la interpretación del constructo que se hará en
de puntajes propuestas. Lo que se evalúa son las función del puntaje o patrón de respuestas.
interpretaciones de los puntajes de la prueba para Entre los ejemplos de constructos que se utili-
los usos propuestos, no la prueba propiamente zan actualmente en evaluación se incluyen rendi-
dicha. Cuando los puntajes de la prueba se inter- miento matemático, capacidad cognitiva general,
pretan en más de una manera (p. ej., tanto para actitudes de identidad racial, depresión y autoes-
describir el nivel actual del atributo que se mide tima. Para apoyar el desarrollo de la prueba, la in-
del examinando como para hacer una predicción terpretación del constructo propuesta se elabora
sobre un futuro resultado), cada interpretación describiendo su alcance y extensión y delineando
prevista debe validarse. Los enunciados sobre la los aspectos del constructo que se representa-
validez deben referirse a interpretaciones particu- rán. La descripción detallada proporciona un
lares para usos especificados. Es incorrecto usar la marco conceptual para la prueba, delineando el
frase no calificada “la validez de la prueba”. conocimiento, habilidades, capacidades, rasgos,
La evidencia de la validez de una interpreta- intereses, procesos, competencias o característi-
ción dada de puntajes de la prueba para un uso es- cas a evaluar. Idealmente, el marco indica cómo
pecificado es una condición necesaria para el uso el constructo según lo representado debe distin-
justificado de la prueba. Cuando existe evidencia guirse de otros constructos y cómo debe relacio-
suficiente de validez, la decisión en cuanto a ad- narse con otras variables.
ministrar efectivamente o no una prueba en parti- El marco conceptual se forma en parte por
cular suele tener en cuenta otras consideraciones. las maneras en que se utilizarán los puntajes de la
Estas incluyen consideraciones sobre costo-be- prueba. Por ejemplo, una prueba de rendimiento
neficio, enmarcadas en subdisciplinas diferentes matemático podría usarse para colocar a un estu-
como análisis de utilidad o como consideración diante en un programa de instrucción adecuado,
de consecuencias negativas del uso de la prueba, para respaldar un diploma de escuela secundaria o
y una ponderación de cualquier consecuencia ne- para informar una decisión sobre admisiones uni-
gativa frente a las consecuencias positivas del uso versitarias. Cada uno de estos usos implica una
de la prueba. interpretación un tanto diferente de los puntajes
La validación lógicamente comienza con un de la prueba de rendimiento matemático: que un
enunciado explícito de la interpretación pro- estudiante se beneficiará con una intervención
puesta de los puntajes de la prueba, junto con una de instrucción en particular, que un estudiante
razón fundamental para la relevancia de la inter- ha dominado un plan de estudios especificado,
pretación para el uso propuesto. La interpretación o que es probable que un estudiante tenga éxito
propuesta incluye especificar el constructo que la con el trabajo de nivel universitario. De manera
prueba intenta medir. El término constructo se similar, una prueba de responsabilidad podría
11

capítulo 1
utilizarse para asesoramiento psicológico, para in- bajos en la prueba. Ejemplos de proposiciones en
formar una decisión sobre empleo, o para el fin otros contextos de pruebas podrían incluir, por
científico básico de elaborar el constructo de res- ejemplo, la proposición de que los examinandos
ponsabilidad. Cada uno de estos usos potenciales con puntajes altos de ansiedad general experimen-
da forma al marco especificado y la interpretación tan ansiedad significativa en una serie de contex-
propuesta de los puntajes de la prueba y también tos, la proposición de que el puntaje de un niño
puede tener implicaciones para el desarrollo y en una escala de inteligencia se relaciona fuerte-
la evaluación de la prueba. La validación puede mente con el desempeño académico del niño, o la
verse como un proceso de construir y evaluar ar- proposición de que un cierto patrón de puntajes
gumentos a favor y en contra de la interpretación en una batería neuropsicológica indica afectación
prevista de los puntajes de la prueba y su relevan- que es característica de lesión cerebral. El proceso
cia para el uso propuesto. El marco conceptual de validación evoluciona a medida que se articu-
señala las clases de evidencia que podrían reunirse lan estas proposiciones y se reúne evidencia para
para evaluar la interpretación propuesta teniendo evaluar su solidez.
en cuenta los fines de la prueba. A medida que La identificación de las proposiciones im-
la validación continúa y surge nueva evidencia plícitas por una interpretación propuesta de la
respecto de las interpretaciones que pueden y no prueba puede facilitarse considerando hipótesis
pueden extraerse de los puntajes de la prueba, es rivales que pueden desafiar la interpretación pro-
posible que se necesiten revisiones en la prueba, puesta. También es útil considerar las perspecti-
en el marco conceptual que la forma e, incluso, en vas de diferentes partes interesadas, la experiencia
el constructo subyacente de la prueba. existente con pruebas y contextos similares, y las
La amplia variedad de pruebas y circunstan- consecuencias previstas del uso propuesto de la
cias hace que sea normal que algunos tipos de prueba. El hallazgo de consecuencias imprevistas
evidencia sean especialmente críticos en un caso del uso de la prueba también puede dar lugar a
determinado, mientras que otros tipos serán una consideración de hipótesis rivales. A menudo
menos útiles. Las decisiones sobre qué tipos de pueden considerarse hipótesis rivales plausibles
evidencia son importantes para el argumento de considerando si una prueba mide menos o más
validación en cada caso pueden aclararse desarro- que su constructo propuesto. Se hace referencia
llando un conjunto de proposiciones o afirma- a dichas consideraciones como infrarrepresenta-
ciones que respalden la interpretación propuesta ción de constructo (o deficiencia de constructo) y
para el fin particular de la prueba. Por ejemplo, varianza irrelevante de constructo (o contamina-
cuando se utiliza una prueba de rendimiento ción de constructo), respectivamente.
matemático para evaluar la preparación para un La infrarrepresentación de constructo se refiere
curso avanzado, la evidencia para las siguientes al grado en el cual una prueba no logra capturar
proposiciones podría ser relevante: (a) que de- aspectos importantes del constructo. Implica un
terminadas habilidades son prerrequisito para el significado acotado de los puntajes de la prueba
curso avanzado; (b) que el dominio de contenido porque la prueba no muestrea adecuadamente
de la prueba guarda coherencia con estas habili- algunos tipos de contenido, no involucra algu-
dades de prerrequisito; (c) que los puntajes de la nos procesos psicológicos o no obtiene algunas
prueba pueden generalizarse entre conjuntos de maneras de responder que abarca el constructo
ítems relevantes; (d) que los puntajes de la prueba previsto. Pensemos, por ejemplo, en una prueba
no están indebidamente influenciados por varia- que tiene por objeto ser una medida completa de
bles auxiliares, como la capacidad de escritura; ansiedad. Una prueba en particular podría infra-
(e) que el éxito en el curso avanzado puede eva- rrepresentar el constructo previsto porque mide
luarse válidamente, y (f ) que los examinandos con solo las reacciones psicológicas y no los compo-
puntajes altos en la prueba serán más exitosos en el nentes emocionales, cognitivos o situacionales.
curso avanzado que los examinandos con puntajes En otro ejemplo, una prueba de comprensión de
12

VALIDEZ
lectura que tiene por objeto medir la capacidad prueba, en el marco conceptual de la prueba, o en
de los niños para leer e interpretar historias con ambos. Las interpretaciones extraídas de la prueba
comprensión podría no contener una variedad su- revisada deberían volver a validarse.
ficiente de pasajes de lectura o podría ignorar un Cuando se han identificado proposiciones
tipo común de material de lectura. que respaldarían la interpretación propuesta de
La irrelevancia de constructo se refiere al grado los puntajes de la prueba, se puede continuar
en el cual los puntajes de la prueba se ven afecta- con la validación obteniendo evidencia empírica,
dos por procesos que son externos al fin previsto estudiando bibliografía relevante y/o realizando
de la prueba. Lo puntajes de la prueba pueden es- análisis lógicos para evaluar cada una de las pro-
tar sistemáticamente influenciados en alguna me- posiciones. La evidencia empírica puede incluir
dida por procesos que no son parte del constructo. tanto evidencia local, producida dentro de con-
En caso de una prueba de comprensión de lectura, textos donde se utilizará la prueba, como eviden-
estos podrían incluir material muy por encima o cia de aplicaciones de prueba similares en otros
por debajo del nivel que se pretende evaluar, una contextos. El uso de evidencia existente de prue-
reacción emocional al contenido de la prueba, fa- bas y contextos similares puede mejorar la calidad
miliaridad con el tema de los pasajes de lectura del argumento de validez, en especial cuando los
de la prueba, o la habilidad de escritura necesa- datos para la prueba y el contexto en cuestión son
ria para elaborar una respuesta. Dependiendo de limitados.
la definición detallada del constructo, el conoci- Debido a que una interpretación para un uso
miento de vocabulario o la velocidad de lectura dado suele depender de más de una proposición,
también podrían ser componentes irrelevantes. En la evidencia sólida en respaldo de una parte de
una prueba diseñada para medir la ansiedad, un la interpretación de ninguna manera reduce la
sesgo de respuesta para reportar un nivel menor de necesidad de evidencia que respalde otras partes
la propia ansiedad podría considerarse una fuente de la interpretación. Por ejemplo, cuando una
de varianza irrelevante de constructo. En el caso prueba de empleo se considera para selección, una
de una prueba matemática, esto podría incluir fuerte relación predictor-criterio en un contexto
una sobredependencia de las habilidades de com- de empleo habitualmente no es suficiente para
prensión de lectura que podría faltarles a los estu- justificar el uso de la prueba. También se debe-
diantes de lengua inglesa. En una prueba diseñada ría considerar lo apropiada y significativa que sea
para medir el conocimiento en ciencias, la inter- la medida del criterio, lo apropiados que sean los
nalización de los examinandos de estereotipos de materiales y procedimientos de la prueba para la
género sobre las mujeres en las ciencias podría ser toda la variedad de solicitantes y la coherencia del
una fuente de varianza irrelevante del constructo. respaldo para la interpretación propuesta entre los
Casi todas las pruebas dejan afuera elementos grupos. El juicio profesional orienta las decisiones
que algunos potenciales usuarios consideran que respecto de formas específicas de evidencia que
deberían medirse e incluyen algunos elementos pueden respaldar mejor la interpretación prevista
que algunos potenciales usuarios consideran in- para el uso especificado. Como en todas las tareas
apropiados. La validación involucra la atención científicas, la calidad de la evidencia es primor-
minuciosa a posibles distorsiones en el significado dial. Algunas evidencias sólidas respecto de una
que surgen de la representación inadecuada del proposición en particular son mejores que nume-
constructo y también a aspectos de la medición, rosas evidencias de calidad cuestionable. La deter-
como el formato de la prueba, las condiciones de minación de que la interpretación de una prueba
administración o el nivel de lenguaje, que pueden dada para un fin específico se justifica se basa en el
limitar o calificar significativamente la interpre- juicio profesional de que la preponderancia de la
tación de los puntajes de la prueba para diver- evidencia disponible respalda esa interpretación.
sos grupos de examinandos. Es decir, el proceso La calidad y cantidad de evidencia suficiente para
de validación puede conducir a revisiones en la alcanzar este juicio puede diferir para los usos
13

capítulo 1
de la prueba según los riesgos involucrados en la presentado a continuación en todos los contextos.
prueba. Es posible que una interpretación dada En lugar de ello, se necesita el respaldo de cada
no se justifique ya sea como resultado de eviden- proposición subyacente a una interpretación de la
cia insuficiente que la respalde o como resultado prueba propuesta para un uso especificado. Una
de evidencia creíble en contra de esta. proposición de que una prueba es predictiva de
La validación es responsabilidad conjunta un criterio dado puede respaldarse sin evidencia
del desarrollador de la prueba y del usuario de la de que la prueba toma muestrea un domino de
prueba. El desarrollador de la prueba es responsa- contenido en particular. Por el contrario, una pro-
ble de suministrar evidencia relevante y una razón posición de que una prueba cubre una muestra
fundamental que respalde cualquier interpreta- representativa de un plan de estudios en particu-
ción de puntajes de la prueba para usos especifica- lar puede ser respaldada sin evidencia de que la
dos previstos por el desarrollador. El usuario de la prueba predice un criterio dado. Sin embargo, un
prueba es en última instancia responsable de eva- conjunto más complejo de proposiciones, p. ej.,
luar la evidencia en el contexto en particular en el que una prueba abarque un dominio especificado
que se usará la prueba. Cuando el usuario de una y por lo tanto sea predictiva de un criterio que
prueba propone una interpretación o uso de pun- refleja un dominio relacionado, requerirá eviden-
tajes de la prueba que difiere de los respaldados cia que respalde ambas partes de este conjunto de
por el desarrollador de la prueba, la responsabi- proposiciones. También se espera que los desarro-
lidad de brindar evidencias de validez que respal- lladores de la prueba demuestren que los puntajes
den esa interpretación para el uso especificado es no están indebidamente influenciados por va-
del usuario. Debe observarse que pueden hacerse rianza irrelevante de constructo (véase el cap. 3
aportes importantes a la evidencia de validación a para un tratamiento detallado de cuestiones rela-
medida que otros investigadores reporten conclu- cionadas con varianza irrelevante de constructo).
siones de investigaciones que se relacionen con el En general, el respaldo adecuado de las interpreta-
significado de los puntajes en la prueba. ciones propuestas para usos específicos requerirá
múltiples fuentes de evidencia.
Fuentes de evidencia de validación La postura desarrollada anteriormente tam-
bién subraya el hecho de que, si una prueba dada
Las siguientes secciones describen diversas fuen- se interpreta de distintas maneras para distintos
tes de evidencia que podrían utilizarse en la usos, también es probable que difieran las pro-
evaluación de la validez de una interpretación posiciones que sustentan estas interpretaciones
propuesta de puntajes de la prueba para un uso para diferentes usos. Se necesita el respaldo de las
en particular. Estas fuentes de evidencia pueden proposiciones que sustentan cada interpretación
iluminar diferentes aspectos de la validez, pero no para un uso específico. La evidencia que respalda
representan tipos distintos de validez. La validez la interpretación de puntajes en una prueba de
es un concepto unitario. Es el grado en que toda rendimiento matemático para colocar estudiantes
la evidencia acumulada respalda la interpretación en cursos subsiguientes (es decir, evidencia de que
prevista de los puntajes de una prueba para el uso la interpretación de la prueba es válida para su fin
propuesto. Al igual que los Estándares de 1999, previsto) no permite inferir validez para otros fi-
esta edición hace referencia a los tipos de eviden- nes (p. ej., promoción o evaluación del profesor).
cia de validación, más que a tipos distintos de va-
lidez. Para destacar esta distinción, el tratamiento Evidencia basada en el contenido de la prueba
a continuación no sigue la nomenclatura histórica Se puede obtener evidencia de validación im-
(es decir, el uso de los términos validez de conte- portante de un análisis de la relación entre el
nido o validez predictiva). contenido de una prueba y el constructo que se
Como se destaca en el análisis de la sección intenta medir. El contenido de la prueba hace
anterior, no se requiere cada tipo de evidencia referencia a los temas, la redacción y el formato
14

VALIDEZ
de los ítems, tareas o preguntas de una prueba. contenido original para el nuevo fin propuesto.
La administración y el puntaje también pueden Por ejemplo, una prueba dada para fines de inves-
ser relevantes para la evidencia basada en el con- tigación para comparar el rendimiento estudiantil
tenido. Los desarrolladores de la prueba suelen en diferentes estados en un dominio dado puede
trabajar a partir de una especificación del domi- correctamente también cubrir material que reciba
nio de contenido. La especificación del contenido atención escasa o nula en el plan de estudios. Los
describe cuidadosamente el contenido en detalle, responsables de formular políticas pueden enton-
a menudo con una clasificación de áreas de con- ces evaluar el rendimiento estudiantil con respecto
tenido y tipos de ítems. La evidencia basada en tanto al contenido ignorado como al contenido
el contenido de la prueba puede incluir análisis abordado. Por otra parte, cuando se evalúa el do-
lógicos o empíricos de la adecuación con la que minio estudiantil de un plan de estudios dictado a
el contenido de la prueba representa el dominio los fines de informar decisiones sobre estudiantes
de contenido y de la relevancia del dominio de individuales, como promoción o graduación, el
contenido para la interpretación propuesta de marco que elabora un dominio de contenido es
los puntajes de la prueba. La evidencia basada en adecuadamente limitado a lo que los estudiantes
el contenido también puede provenir de juicios han tenido la oportunidad de aprender del plan
expertos de la relación entre partes de la prueba de estudios según fuera dictado.
y el constructo. Por ejemplo, en el desarrollo de La evidencia sobre el contenido puede usarse,
una prueba para el otorgamiento de una licencia, en parte, para abordar preguntas sobre diferencias
pueden especificarse los principales aspectos que en el significado o la interpretación de los punta-
son relevantes para la finalidad para la cual se re- jes de la prueba entre subgrupos relevantes de exa-
gula la ocupación, y se puede pedir a expertos en minandos. Resulta de especial interés la medida
esa ocupación que asignen ítems de prueba a las en que la infrarrepresentación de constructo o la
categorías definidas por esas facetas. Estos u otros irrelevancia de constructo pueden dar una ven-
expertos pueden luego juzgar la representatividad taja injusta o desventaja a uno o más subgrupos
del conjunto de ítems elegido. de examinandos. Por ejemplo, en una prueba de
Algunas pruebas se basan en observaciones empleo, el uso de vocabulario más complejo que
sistemáticas del comportamiento. Por ejemplo, el necesario para el puesto de trabajo puede ser
una lista de las tareas que constituyen un dominio una fuente de varianza irrelevante de constructo
de un puesto de trabajo puede desarrollarse a par- para los estudiantes de lengua inglesa u otros. La
tir de observaciones del comportamiento en un revisión atenta del constructo y del dominio de
puesto, junto con juicios de expertos en el tema. contenido de la prueba por parte de un panel di-
Los juicios expertos pueden utilizarse para evaluar verso de expertos puede señalar posibles fuentes
la importancia relativa, criticidad y/o frecuencia de dificultad (o facilidad) irrelevante que requie-
de las diversas tareas. Una prueba de muestra de ren mayor investigación.
trabajo puede entonces construirse a partir de un La evidencia de validación orientada al con-
muestreo aleatorio o estratificado de tareas califi- tenido se encuentra en el centro del proceso en
cadas altamente en estas características. La prueba el ámbito educativo conocido como alineación,
luego puede administrarse en condiciones estan- que involucra evaluar la correspondencia entre es-
darizadas en un contexto fuera del trabajo. tándares de aprendizaje para estudiantes y el con-
Lo apropiado de un dominio de contenido tenido de la prueba. Las cuestiones de muestreo
dado se relaciona con las inferencias específicas de contenido en el proceso de alineación incluyen
que se harán de los puntajes de la prueba. Por evaluar si el contenido de la prueba muestrea ade-
consiguiente, al considerar una prueba dispo- cuadamente el domino propuesto en los estánda-
nible para un fin distinto del fin para el que se res del plan de estudios, si las demandas cognitivas
desarrolló en primer término, es especialmente de los ítems de la prueba se corresponden con el
importante evaluar lo adecuado del dominio de nivel reflejado en los estándares de aprendizaje de
15

capítulo 1
los estudiantes (p. ej., estándares de contenido) participan examinandos de diferentes subgrupos

y si la prueba evita la inclusión de características pueden ayudar a determinar en qué medida las
irrelevantes para el estándar que es el objetivo pre- capacidades irrelevantes o auxiliares al constructo
visto de cada ítem de la prueba. pueden influir de manera diferencial en el desem-
peño de los examinandos en la prueba.
Evidencia basada en los procesos de respuesta Los estudios de procesos de respuesta no se
Algunas interpretaciones de constructos involu- limitan al examinando. Las evaluaciones suelen
cran suposiciones más o menos explícitas sobre depender de observadores o jueces para que re-
los procesos cognitivos empleados por los exa- gistren y/o evalúen los desempeños o productos
minandos. Análisis teóricos y empíricos de los de los examinandos. En esos casos, la evidencia de
procesos de respuesta de los examinandos pueden validación relevante incluye la medida en que los
proporcionar evidencia respecto de la adecuación procesos de observadores o jueces son coherentes
entre el constructo y la naturaleza detallada del con la interpretación prevista de puntajes. Por
desempeño o respuesta efectivamente empleada ejemplo, si se espera que los jueces apliquen crite-
por los examinandos. Por ejemplo, si una prueba rios particulares al calificar los desempeños de los
tiene por objeto evaluar el razonamiento matemá- examinandos, es importante determinar si están,
tico, es importante determinar si los examinandos de hecho, aplicando los criterios apropiados y no
están, en realidad, razonando sobre el material siendo influenciados por factores que son irrele-
dado en lugar de seguir un algoritmo estándar vantes para la interpretación prevista (p. ej., la
aplicable solo a los ítems específicos en la prueba. calidad de la caligrafía es irrelevante para juzgar
La evidencia basada en los procesos de res- el contenido de un ensayo escrito). Por lo tanto,
puesta por lo general proviene de análisis de res- la validación puede incluir estudios empíricos de
puestas individuales. Preguntar a los examinandos cómo los observadores o jueces registran y eva-
de diversos grupos que componen la población lúan datos junto con análisis de lo adecuado que
examinada prevista sobre sus estrategias de des- son estos procesos para la interpretación prevista
empeño o repuestas a ítems en particular puede o la definición del constructo.
arrojar evidencia que enriquezca la definición Si bien la evidencia sobre los procesos de
de un constructo. Mantener registros que moni- respuesta puede ser central en contextos en los
toreen el desarrollo de una respuesta a una tarea que las afirmaciones explícitas sobre procesos
de escritura, mediante borradores escritos sucesi- de respuesta son hechas por desarrolladores de
vos o revisiones monitoreadas electrónicamente, la prueba o en los que las inferencias sobre res-
por ejemplo, también proporciona evidencia del puestas son hechas por usuarios de la prueba, hay
proceso. La documentación de otros aspectos del muchos otros casos en los que las afirmaciones so-
desempeño, como los movimientos de los ojos o bre los procesos de respuesta no son parte del ar-
rapidez al responder, también puede ser relevante gumento de validez. En algunos casos, múltiples
para algunos constructos. Las inferencias sobre procesos de respuesta están disponibles para re-
procesos involucrados en el desempeño también solver los problemas de interés, y el constructo de
pueden desarrollarse analizando la relación entre interés solo tiene que ver con que el problema se
pates de la prueba y entre la prueba y otras varia- resuelva de manera correcta. Para dar un ejemplo
bles. Grandes diferencias individuales pueden ser simple, puede haber múltiples caminos posibles
reveladoras y pueden llevar a la reconsideración para obtener la solución correcta a un problema
de ciertos formatos de prueba. matemático.
La evidencia de los procesos de respuesta
puede contribuir a responder preguntas sobre Evidencia basada en la estructura interna
diferencias en el significado o interpretación de Los análisis de la estructura interna de una prueba
puntajes de pruebas entre subgrupos relevantes de pueden indicar el grado en que las relaciones en-
examinandos. Los estudios de proceso en los que tre ítems de la prueba y componentes de la prueba
16

VALIDEZ
se ajustan al constructo sobre el que se basan las Evidencia basada en relaciones con otras
interpretaciones propuestas de puntajes de la variables
prueba. El marco conceptual para una prueba En muchos casos, la interpretación prevista para
puede implicar una sola dimensión de comporta- un uso dado implica que el constructo debería
miento, o puede plantear varios componentes; se relacionarse con algunas otras variables y, como
espera que cada uno de ellos sea homogéneo, pero resultado, análisis de la relación de los puntajes
también son distintos unos de otros. Por ejemplo, de la prueba con variables externas a la prueba
una medida de malestar en una encuesta de salud proporcionan otra fuente importante de eviden-
podría evaluar tanto la salud física como emocio- cia de validación. Las variables externas pueden
nal. La medida en que las interrelaciones entre incluir medidas de algunos criterios que se espera
ítems confirman las presunciones del marco sería que la prueba prediga, así como relaciones con
relevante para la validez. otras pruebas propuestas para medir los mismos
Los tipos específicos de análisis y su interpre- constructos, y pruebas que miden constructos re-
tación dependen de cómo se utilizará la prueba. lacionados o diferentes. Las medidas distintas de
Por ejemplo, si una aplicación en particular los puntajes de la prueba, tal como criterios de
planteó una serie de componentes de la prueba desempeño, suelen utilizarse en contextos labo-
cada vez más difíciles, se proporcionaría eviden- rales. Las variables categóricas, incluidas variables
cia empírica de la medida en que los patrones de de membrecía de grupos, se vuelven relevantes
respuesta cumplieron con esta expectativa. Una cuando la teoría que sustenta un uso propuesto de
teoría que planteara la unidimensionalidad rela prueba sugiere que las diferencias del grupo de-
queriría evidencia de homogeneidad de ítems. En berían estar presentes o ausentes si una interpreta-
este caso, la cantidad de ítems y las interrelaciones ción propuesta de los puntajes de la prueba debe
entre ítems forman la base para una estimación sustentarse. La evidencia basada en las relaciones
de confiabilidad del puntaje, pero un índice de con otras variables proporciona evidencia sobre el
este tipo sería inadecuado para pruebas con una grado en que estas relaciones son coherentes con
estructura interna más compleja. el constructo que sustenta las interpretaciones
Algunos estudios de la estructura interna propuestas de los puntajes de la prueba.
de las pruebas se han diseñado para mostrar si
ítems en particular pueden funcionar de manera
diferente para subgrupos de examinados identi- Evidencia convergente y discriminante. Las re-
ficables (p. ej., subgrupos raciales/étnicos o de laciones entre los puntajes de la prueba y otras
género). Se produce un funcionamiento dife- medidas que tienen por objeto evaluar los mismos
rencial de los ítems cuando diferentes grupos de constructos o similares proporcionan evidencia
examinandos con capacidad general similar, o convergente, mientras que las relaciones entre los
nivel similar en un criterio adecuado, tienen, en puntajes de la prueba y medidas supuestamente
promedio, respuestas sistemáticamente diferentes de constructos diferentes proporcionan evidencia
a un ítem en particular. Esta cuestión se analiza discriminante. Por ejemplo, dentro de algunos
en el capítulo 3. Sin embargo, el funcionamiento marcos teóricos, podría esperarse que los punta-
diferencial de los ítems no siempre es una falla o jes en una prueba de selección múltiple de com-
debilidad. Subconjuntos de ítems que tienen una prensión de lectura se relacionen estrechamente
característica específica en común (p. ej., conte- (evidencia convergente) con otras medidas de
nido específico, representación de tarea) pueden comprensión de lectura basadas en otros méto-
funcionar de manera diferente para diferentes dos, como las respuestas a ensayos. Al contrario,
grupos de examinandos con puntajes similares. podría esperarse que los puntajes de la prueba se
Esto indica una clase de multidimensionalidad relacionen menos estrechamente (evidencia dis-
que puede esperarse o puede ajustarse al marco criminante) con medidas de otras habilidades,
de la prueba. como el razonamiento lógico. Las relaciones entre
17

capítulo 1
diferentes métodos de medición del constructo criterios que se obtienen en un momento poste-
pueden ser especialmente útiles para refinar y ela- rior. Un estudio concurrente obtiene puntajes de
borar el significado y la interpretación del puntaje. la prueba e información del criterio aproximada-
La evidencia de relaciones con otras variables mente al mismo tiempo. Cuando efectivamente
puede involucrar evidencia experimental como se contempla la predicción, como en la admisión
correlacional. Podrían diseñarse estudios, por académica o los contextos laborales, o en la plani-
ejemplo, para investigar si los puntajes en una ficación de programas de rehabilitación, los estu-
medida de ansiedad mejoran como resultado dios predictivos pueden conservar las diferencias
de algún tratamiento psicológico o si los pun- temporales y otras características de la situación
tajes en una prueba de rendimiento académico práctica. La evidencia concurrente, que evita
diferencian entre grupos con instrucción y sin cambios temporales, es particularmente útil para
instrucción. Si los aumentos del desempeño de- pruebas de psicodiagnóstico o en la investigación
bido a orientación a corto plazo se ven como una de medidas alternas de algún constructo especi-
amenaza para la validez, sería útil investigar si los ficado para el que ya existe un procedimiento de
grupos con orientación y sin orientación tienen medición aceptado. La elección de una estrategia
desempeños diferentes. de investigación predictiva o concurrente en un
dominio dado es también provechosamente in-
Relaciones prueba-criterio. La evidencia de la rela- formada por evidencia de investigaciones previas
ción de puntajes de la prueba con un criterio rele- respecto de la medida en que los estudios predic-
vante puede expresarse de distintas maneras, pero tivos y concurrentes en ese dominio arrojan los
la pregunta fundamental siempre es ¿con qué exac- mismos o diferentes resultados.
titud los puntajes de la prueba predicen el desem- Los puntajes de la prueba a veces se usan para
peño del criterio? El grado de exactitud y el rango asignar a individuos a diferentes tratamientos de
de puntajes dentro del que se necesita exactitud una manera que sea ventajosa para la institución
dependen del fin para el que se utilice la prueba. y/o para los individuos. Entre los ejemplos se in-
La variable del criterio es una medida de al- cluirían asignar a individuos a diferentes puestos
gún atributo o resultado que es operativamente en una organización, o determinar si colocar a un
distinto de la prueba. Por lo tanto, la prueba no estudiante dado en una clase de apoyo o una clase
es una medida de un criterio, sino una medida regular. En ese contexto, se necesita evidencia
planteada como un potencial predictor de ese cri- para juzgar la pertinencia de utilizar una prueba
terio de interés. Si una prueba predice un crite- cuando se clasifica o asigna a una persona a un
rio dado en un contexto dado, es una hipótesis puesto en vez de otro o a un tratamiento en vez de
comprobable. Los criterios que son de interés son otro. El respaldo de la validez del procedimiento
determinados por los usuarios de la prueba, por de clasificación se proporciona mostrando que la
ejemplo, administradores en un sistema escolar o prueba es útil para determinar qué personas pro-
gerentes de una empresa. La elección del criterio bablemente se beneficien de manera diferente con
y los procedimientos de medición utilizados para un tratamiento u otro. Es posible que las pruebas
obtener puntajes de criterios son de primordial sean sumamente predictivas del desempeño para
importancia. La credibilidad del estudio prueba- diferentes programas educativos o puestos sin
criterio depende de la relevancia, confiabilidad y proporcionar la información necesaria para hacer
validez de la interpretación basada en la medida un juicio comparativo de la eficacia de las asigna-
del criterio para una aplicación de prueba dada. ciones o tratamientos. En general, las normas de
Históricamente, se han distinguido dos dise- decisión para la selección o asignación también
ños, a menudo llamados predictivo y concurrente, están influenciadas por la cantidad de personas
para evaluar las relaciones prueba-criterio. Un es- que se aceptarán o las cantidades que pueden ad-
tudio predictivo indica la fortaleza de la relación mitirse en categorías de asignación alternativas
entre los puntajes de la prueba y los puntajes de (véase el cap. 11).
18

VALIDEZ
También se usa la evidencia sobre relacio- se tienen en cuenta estas y otras influencias, es po-
nes con otras variables para investigar preguntas sible que se determine que la variabilidad restante
de predicción diferencial entre subgrupos. Por en los coeficientes de validez es relativamente
ejemplo, una conclusión de que la relación de los pequeña. Por lo tanto, es posible que sean útiles
puntajes de la prueba con una variable de criterio los resúmenes estadísticos de estudios de valida-
relevante difiere entre subgrupo y otro puede im- ción anteriores en la estimación de las relacio-
plicar que el significado de los puntajes no es el nes prueba-criterio en una nueva situación. Esta
mismo para miembros de los diferentes grupos, práctica se denomina estudio de generalización de
tal vez debido a infrarrepresentación de cons- validez.
tructo o fuentes de varianza irrelevante de cons- En algunas circunstancias, existe un funda-
tructo. Sin embargo, la diferencia también puede mento sólido para utilizar la generalización de
implicar que el criterio tiene diferente significado validez. Este sería el caso cuando la base de datos
para diferentes grupos. Las diferencias en las rela- metaanalítica es amplia, cuando los datos meta
ciones prueba-criterio también pueden surgir de analíticos representan adecuadamente el tipo de
un error de medición, en especial cuando las me- situación a la que se desea generalizar y cuando la
dias de los grupos difieren, de modo que dichas corrección para artefactos estadísticos produce un
diferencias no necesariamente indican diferencias patrón claro y coherente de evidencia de valida-
en el significado de los puntajes. Véase el análisis ción. En esas circunstancias, el valor informativo
de imparcialidad en el capítulo 3 para una conside un estudio de validez local puede ser relativa-
deración más amplia de posibles cursos de acción mente limitado, si no efectivamente confuso, en
cuando los puntajes tienen diferentes significados especial si el tamaño de su muestra es pequeño.
para diferentes grupos. En otras circunstancias, el salto inferencial re-
querido para la generalización sería mucho más
Generalización de validez. Una cuestión impor- grande. La base de datos metaanalítica puede ser
tante en los contextos educativos y laborales es el pequeña, las conclusiones pueden ser menos co-
grado en que la evidencia de validación basada herentes o la nueva situación puede involucrar
en relaciones prueba-criterio puede generalizarse características marcadamente diferentes de las
a una nueva situación sin estudios adicionales representadas en la base de datos metaanalítica.
de validez en esa nueva situación. Cuando una En esas circunstancias, la evidencia de validación
prueba se usa para predecir los mismos criterios específica de la situación será relativamente más
o criterios similares (p. ej., desempeño de un informativa. Si bien la investigación sobre la ge-
determinado puesto) en momentos diferentes o neralización de validez muestra que los resultados
en lugares diferentes, suele determinarse que las de un solo estudio de validación local pueden ser
correlaciones prueba-criterio observadas varían bastante imprecisos, hay situaciones en las que un
sustancialmente. En el pasado, se ha considerado solo estudio, realizado cuidadosamente, con un
que esto implica que siempre se requieren estu- tamaño de muestra adecuado, proporciona sufi-
dios de validación locales. Más recientemente, se ciente evidencia para respaldar o rechazar el uso
han desarrollado varios enfoques sobre la genera- de la prueba en una nueva situación. Esto destaca
lización de evidencia de otros contextos, siendo la importancia de examinar atentamente el valor
el metaanálisis el más utilizado en la bibliografía informativo comparativo de los estudios acotados
publicada. En particular, los metaanálisis han frente a los metaanalíticos.
demostrado que, en algunos dominios, mucha Cuando se llevan a cabo estudios de la genera-
de esta variabilidad puede deberse a artefactos bilidad de evidencia de validación, los estudios an-
estadísticos como fluctuaciones en el muestreo teriores que se incluyen pueden variar de acuerdo
y variaciones entre estudios de validación en los con varios aspectos situacionales. Algunas de las
rangos de los puntajes de las pruebas y en la con- principales facetas son (a) diferencias en la manera
fiabilidad de las medidas de los criterios. Cuando en que se mide el constructo predictor, (b) el tipo
19

capítulo 1
de puesto de trabajo o plan de estudio involu- el desarrollador de la prueba. Por ejemplo, una
crado, (c) el tipo de medida de criterio utilizado, prueba de rendimiento estudiantil podría pro-
(d) el tipo de examinandos, y (e) el período en el porcionar datos para un sistema cuyo objeto sea
que se realizó el estudio. En cualquier estudio de identificar y mejorar las escuelas con bajo rendi-
generalización de validez, cualquier cantidad de miento. La afirmación de que los resultados de
estas facetas podría variar, y un objetivo principal las pruebas, utilizados de esta manera, darán por
del estudio es determinar empíricamente la me- resultado una mejora en el aprendizaje estudiantil
dida en que la variación en estas facetas afecta las puede depender de proposiciones sobre el sistema
correlaciones prueba-criterio obtenidas. o la intervención propiamente dicha, más allá de
La medida en que la evidencia de validación las proposiciones basadas en el significado de la
predictiva o concurrente puede generalizarse a prueba misma. Las consecuencias pueden señalar
nuevas situaciones es en gran medida una función la necesidad de evidencia sobre componentes del
de investigación acumulada. Si bien la evidencia sistema que irán más allá de la interpretación de
de generalización a menudo puede ayudar a sus- los puntajes de la prueba como una medida válida
tentar una afirmación de validez en una nueva del rendimiento estudiantil.
situación, el alcance de datos disponibles limita Aun así, otras consecuencias son imprevistas,
el grado en que puede sustentarse la afirmación. y a menudo negativas. Por ejemplo, las pruebas
La discusión anterior se concentra en el uso de educativas a nivel estatal o de distrito escolar so-
bases de datos acumulativas para estimar relacio- bre asignaturas seleccionadas pueden llevar a los
nes predictor-criterio. Las técnicas metaanalíticas profesores a concentrarse en esas asignaturas a
también pueden usarse para resumir otras formas expensas de otras. Para citar otro ejemplo, una
de datos relevantes a otras inferencias que se pue- prueba desarrollada para medir el conocimiento
den querer extraer de los puntajes de la prueba en necesario para un determinado puesto de trabajo
una aplicación en particular, como los efectos de puede dar lugar a tasas de aprobación más bajas
la orientación y los efectos de determinadas alte- para un grupo que para otro. Las consecuencias
raciones en las condiciones de la prueba para exa- imprevistas merecen un examen detenido. Si bien
minandos con discapacidades especificadas. Reunir no todas las consecuencias pueden preverse, en al-
evidencia sobre en qué medida las conclusiones de gunos casos los factores como experiencias previas
validez pueden generalizarse entre grupos de exami- en otros contextos ofrecen una base para prever
nandos es una parte importante del proceso de va- y abordar de manera proactiva las consecuencias
lidación. Cuando la evidencia sugiere que pueden imprevistas. Véase el capítulo 12 para consultar
hacerse inferencias a partir de puntajes de la prueba ejemplos adicionales de contextos educativos.
para algunos subgrupos, pero no para otros, inten- En algunos casos, las acciones para abordar una
tar opciones como las analizadas en el capítulo 3 consecuencia dan lugar a otras consecuencias. Un
puede reducir el riesgo de uso parcial de la prueba. ejemplo involucra la noción de “oportunidades
perdidas”, como en el caso de pasar a calificación
Evidencia de validación y consecuencias por computadora de los ensayos de estudiantes
de las pruebas para aumentar la coherencia en las calificaciones,
Algunas consecuencias del uso de pruebas surgen con lo cual se renuncia a los beneficios educativos
directamente de la interpretación de los puntajes de abordar el mismo problema capacitando a los
de la prueba para usos previstos por el desarrolla- profesores para calificar de manera más coherente.
dor de la prueba. El proceso de validación implica Estos tipos de consideración de consecuencias
reunir evidencia para evaluar la solidez de estas inde las pruebas se analizan más adelante.
terpretaciones propuestas para sus usos previstos.
Otras consecuencias también pueden ser parte Interpretación y usos de puntajes de la prueba
de una afirmación que se extiende más allá de la previstos por los desarrolladores de la prueba.
interpretación o el uso de puntajes previsto por Las pruebas por lo general se administran con la
20

VALIDEZ
expectativa de que se concentrará algún beneficio efectivamente beneficiarse más con el acceso al
a partir de la interpretación y el uso de los punta- jardín de infancia. En este caso, se necesita evi-
jes previstos por los desarrolladores de la prueba. dencia diferente para respaldar diferentes afirma-
Algunos de los muchos beneficios posibles que ciones que podrían hacerse sobre el mismo uso
podrían citarse son la selección de terapias efica- de la prueba de selección (por ejemplo, evidencia
ces, asignación de trabajadores en puestos ade- de que los estudiantes por debajo de un determi-
cuados, prevenir que individuos no calificados nado puntaje de corte se beneficiarían más con
ingresen en una profesión, o mejora de las prácti- otra asignación que con la asignación al jardín de
cas de instrucción en el aula. Una finalidad fun- infancia). El desarrollador de la prueba es respon-
damental de la validación es indicar si es probable sable de la validación de la interpretación de que
que estos beneficios específicos se concreten. Por los puntajes de la prueba determinan las habilida-
lo tanto, en el caso de una prueba utilizada en des de preparación indicadas. El distrito escolar es
decisiones sobre colocación, la validación sería responsable de la validación de la interpretación
informada por evidencia de que colocaciones al- adecuada de los puntajes de la prueba de prepa-
ternativas, de hecho, son beneficiosas de manera ración y de la evaluación de la política de usar
diferencial para las personas y la institución. En la prueba de preparación para las decisiones de
el caso de pruebas de empleo, si el editor de una colocación/admisión.
prueba asevera que el uso de la prueba dará por
resultado una reducción de los costos de capaci- Afirmaciones hechas sobre el uso de la prueba
tación de empleados, mejora de la eficiencia de la que no se basan directamente en interpretacio-
fuerza de trabajo o algún otro beneficio, entonces nes de los puntajes de la prueba. A veces se hacen
la validación sería informada por evidencia que afirmaciones sobre los beneficios de las pruebas
sustente esa proposición. que van más allá de las interpretaciones directas
Es importante destacar que la validez de las o usos de los puntajes de la prueba propiamente
interpretaciones de los puntajes de las pruebas de- dichos que son especificados por los desarrolla-
pende no solo de los usos de los puntajes de las dores de la prueba. Las pruebas educativas, por
pruebas sino específicamente de las afirmaciones ejemplo, pueden defenderse con el fundamento
que sustentan la teoría de acción para estos usos. de que su uso mejorará la motivación de los estu-
Por ejemplo, consideremos un distrito escolar que diantes para aprender o fomentará cambios en las
quiere determinar la preparación de los niños para prácticas de instrucción en el aula al responsabili-
el jardín de infancia, y entonces administra una zar a los educadores de resultados de aprendizaje
batería de pruebas y descarta a los estudiantes con valorados. Cuando esas afirmaciones son centra-
puntajes bajos. Si los puntajes más altos, efectiva- les para la razón fundamental adelantada para las
mente, predicen un desempeño más alto en tareas pruebas, el examen directo de las consecuencias
clave del jardín de infancia, la afirmación de que de la prueba necesariamente cobra aún más im-
el uso de los puntajes de la prueba para seleccio- portancia. Quienes hacen esas afirmaciones son
nar resultados en desempeño más alto en estas responsables de la evaluación de las afirmaciones.
tareas clave está respaldada y la interpretación de En algunos casos, esa información puede obte-
los puntajes de las pruebas como un predictor de nerse de datos existentes reunidos para fines dis-
preparación para el jardín de infancia sería válido. tintos de la validación de la prueba; en otros casos
Sin embargo, si se hiciera la afirmación de que el se necesitará nueva información para abordar el
uso de los puntajes de las pruebas para la selec- impacto del programa de pruebas.
ción daría por resultado el mayor beneficio para
los estudiantes, la interpretación de los puntajes Consecuencias que son imprevistas. La inter-
de las pruebas como indicadores de preparación pretación de los puntajes de la prueba para un
para el jardín de infancia no podría ser válida por- uso dado puede dar por resultado consecuen-
que los estudiantes con puntajes bajos podrían cias imprevistas. Una distinción clave es entre
21

capítulo 1
consecuencias que surgen de una fuente de error si las diferencias se debieran a la sensibilidad de la
en la interpretación prevista de los puntajes de la prueba ante alguna característica del examinando
prueba para un uso dado y las consecuencias que que no tenía por objeto ser parte del constructo
no resultan de un error en la interpretación de de la prueba, entonces la interpretación prevista
los puntajes de la prueba. A continuación, se dan de los puntajes de la prueba como predictores del
ejemplos de cada una. desempeño laboral en una manera comparable
Como se analiza con cierta extensión en el para todos los grupos de solicitantes se conside-
capítulo 3, un dominio en el que a veces se obser- raría inválida, incluso si los puntajes de la prueba
van consecuencias negativas imprevistas del uso se correlacionaran positivamente con alguna me-
de las pruebas involucra diferencias de puntajes dida de desempeño laboral. Si una prueba cubre
de la prueba para grupos definidos en términos de la mayoría del dominio de contenido relevante,
raza/origen étnico, género, edad y otras caracte- pero omite algunas áreas, la cobertura de conte-
rísticas. En esos casos, no obstante, es importante nido podría considerarse inadecuada para algunos
distinguir entre evidencia que es directamente fines. Sin embargo, si se determina que excluir
relevante para la validez y evidencia que puede algunos componentes que podrían evaluarse de
informar decisiones sobre política social, pero inmediato tiene un impacto notable en las tasas
queda fuera del terreno de la validez. Por ejem- de selección para grupos de interés (p. ej., se de-
plo, se han planteado inquietudes sobre el efecto termina que las diferencias entre subgrupos son
de las diferencias de grupos en los puntajes de las menores en componentes excluidos que en com-
pruebas en la selección y promoción laborales, la ponentes incluidos), la interpretación prevista de
colocación de niños en clases de educación espe- los puntajes de la prueba como predictores del
cial y el acotamiento del plan de estudios de la desempeño laboral en una manera comparable
escuela para excluir objetivos de aprendizaje que para todos los grupos de solicitantes se consi-
no se evalúan. Si bien la información sobre las deraría inválida. Por lo tanto, la evidencia sobre
consecuencias de las pruebas puede influir en las consecuencias es relevante para la validez cuando
decisiones sobre el uso de la prueba, esas conse- puede trazarse hacia una fuente de invalidez como
cuencias, de por sí, no le restan valor a la validez la infrarrepresentación de constructo o compo-
de las interpretaciones previstas de los puntajes de nentes irrelevantes de constructo. La evidencia
la prueba. En cambio, los juicios de validez o falta sobre consecuencias que no puede trazarse así no
de esta a la luz de las consecuencias de las pruebas es relevante para la validez de las interpretaciones
dependen de una investigación más minuciosa de previstas de los puntajes de la prueba.
las fuentes de esas consecuencias. En otro ejemplo, consideremos el caso en el
Por ejemplo, una conclusión de diferentes ta- que la investigación respalda el uso por parte de
sas de contratación para miembros de diferentes un empleador de una prueba en particular en el
grupos como una consecuencia de utilizar una dominio de la personalidad (es decir, la prueba
prueba de empleo. Si la diferencia se debe ex- demuestra que es predictiva de un aspecto del
clusivamente a una distribución desigual de las posterior desempeño laboral), pero se determina
habilidades que la prueba pretende medir, y si que algunos solicitantes se forman una opinión
esas habilidades son, de hecho, factores de con- negativa de la organización debido a la percepción
tribución importantes para el desempeño laboral, de que la prueba invade la privacidad personal.
entonces encontrar diferencias entre los grupos de Por lo tanto, hay una consecuencia negativa im-
por sí no implica ninguna falta de validez para la prevista del uso de la prueba, pero que no se debe
interpretación prevista. Sin embargo, si la prueba a un defecto en la interpretación prevista de los
midiera diferencias de habilidades no relacionadas puntajes de la prueba como predictor del desem-
con el desempeño laboral (p. ej., una prueba de peño posterior. Ante esta situación, algunos em-
lectura sofisticada para un puesto de trabajo que pleadores pueden concluir que esta consecuencia
requería solo alfabetización funcional mínima), o negativa es un motivo para discontinuar el uso de
22

VALIDEZ
la prueba; otros pueden concluir que los benefi- Integración de la evidencia de

cios obtenidos al seleccionar a solicitantes supe- validación
ran esta consecuencia negativa. Como muestra
este ejemplo, una consideración de consecuencias Un argumento de validez sólido integra diversos
puede influir en una decisión sobre el uso de la aspectos de la evidencia en una explicación cohe-
prueba, aunque la consecuencia sea indepen- rente del grado en que la evidencia existente y la
diente de la validez de la interpretación prevista teoría respaldan la interpretación prevista de los
de los puntajes de la prueba. El ejemplo también puntajes de la prueba para usos específicos. Abarca
muestra que diferentes responsables de tomar de- evidencia reunida a partir de nuevos estudios y
cisiones pueden hacer diferentes juicios de valor evidencia disponible de investigación anterior. El
sobre el impacto de las consecuencias en el uso argumento de validez puede indicar la necesidad
de la prueba. de refinar la definición del constructo, puede su-
El hecho de que la evidencia de validación res- gerir revisiones en la prueba u otros aspectos del
palde la interpretación prevista de los puntajes de proceso de desarrollo de la prueba, y puede indi-
la prueba para usar en la selección de solicitantes car áreas que necesitan mayor investigación.
no significa que entonces se requiera el uso de la Comúnmente se observa que el proceso de
prueba: Cuestiones distintas de la validez, inclu- validación nunca termina, dado que siempre
yendo restricciones legales, pueden tener un papel hay información adicional que puede reunirse
importante y, en algunos casos, determinante en para comprender más cabalmente una prueba y
las decisiones sobre el uso de la prueba. Las res- las inferencias que pueden extraerse de esta. En
tricciones legales también pueden limitar la dis- este sentido, una inferencia de validez es similar
creción de un empleador para descartar puntajes a cualquier inferencia científica. Sin embargo, la
de la prueba que ya se han administrado, cuando interpretación de una prueba para un uso dado se
esa decisión se basa en diferencias en los puntajes basa en evidencia para un conjunto de proposi-
para subgrupos de diferentes razas, orígenes étni- ciones que conforman el argumento de validez, y
cos o géneros. en algún momento la evidencia de validación per-
Téngase en cuenta que las consecuencias im- mite un juicio breve de la interpretación prevista
previstas también pueden ser positivas. Si se in- que está bien respaldada y puede defenderse. En
vierte el ejemplo anterior de examinandos que se algún momento, el esfuerzo de proporcionar sufi-
forman una impresión negativa de una organiza- ciente evidencia de validación para respaldar una
ción sobre la base del uso de una prueba en par- interpretación de una prueba dada para un uso
ticular, una prueba diferente puede ser percibida específico termina (al menos provisionalmente, a
favorablemente por los solicitantes, lo que lleva a la espera de que surja un fundamento sólido para
una impresión positiva de la organización. Un uso cuestionar ese juicio). Los requisitos legales pue-
determinado de una prueba puede dar por resul- den exigir que el estudio de validación se actualice
tado múltiples consecuencias, algunas positivas y a la luz de factores como cambios en la población
algunas negativas. de la prueba o métodos de prueba alternativos re-
En resumen, las decisiones sobre el uso de cientemente desarrollados.
la prueba son adecuadamente informadas por la La cantidad y el carácter de la evidencia re-
evidencia de validación sobre las interpretaciones querida para respaldar un juicio provisional de
previstas de los puntajes de la prueba para un uso validez suele variar entre áreas y también dentro
dado, por evidencia que evalúa afirmaciones adi- un área a medida que avanza la investigación
cionales sobre consecuencias del uso de la prueba sobre un tema. Por ejemplo, los estándares pre-
que no surgen directamente de interpretaciones dominantes de evidencia pueden variar con los
de los puntajes de la prueba y por juicios de valor riesgos involucrados en el uso o interpretación
sobre consecuencias positivas y negativas impre- de los puntajes de la prueba. Los riesgos más ele-
vistas del uso de la prueba. vados pueden conllevar estándares más elevados
23

capítulo 1
de evidencia. Para dar otro ejemplo, en áreas en se describen en capítulos siguientes de los Es-
que la recopilación de datos tiene un costo más tándares, e incluyen evidencia de la construcción
alto, podría ser necesario basar las interpretacio- cuidadosa de la prueba; confiabilidad adecuada
nes en menor cantidad de datos que en áreas en de los puntajes; administración y calificación
que la recopilación de datos tiene un costo menor. adecuadas de la prueba; precisión en el estable-
En última instancia, la validez de una inter- cimiento de escala de puntajes, equiparación, y
pretación prevista de los puntajes de la prueba se fijación de estándares; y atención cuidadosa a la
basa en toda la evidencia disponible relevante para imparcialidad para todos los examinandos, según
la calidad técnica de un sistema de prueba. Dife- corresponda a la interpretación de la prueba en
rentes componentes de la evidencia de validación cuestión.
24

VALIDEZ
Estándares de validez
Los estándares en este capítulo comienzan con validación. El desarrollador de la prueba debe es-
un estándar global (numerado 1.0), que se ha pecificar en lenguaje claro la población para la que
diseñado para transmitir la intención central o está prevista la prueba, el constructo que tiene pre-
enfoque principal del capítulo. El estándar global visto medir, los contextos en los que se emplearán
también puede verse como el principio rector del los puntajes de la prueba y los procesos mediante
capítulo, y es aplicable a todas las pruebas y usua- los que la prueba se administrará y calificará.
rios de pruebas. Todos los estándares posteriores
se han separado en tres unidades temáticas deno-
Estándar 1.2
minadas de la siguiente manera:
Se debe presentar una razón fundamental para
1. Establecimiento de usos e interpretaciones cada interpretación prevista de los puntajes de la
previstos prueba para un uso determinado, junto con un
2. Cuestiones respecto de las muestras y contex- resumen de la evidencia y la teoría que inciden
tos utilizados en la validación en la interpretación prevista.
3. Formas específicas de evidencia de validación
Comentario: La razón fundamental debe indicar
qué proposiciones son necesarias para investigar la
Estándar 1.0 interpretación prevista. El resumen debe combinar
Debe establecerse la articulación clara de cada análisis lógico con evidencia empírica para respal-
interpretación prevista de los puntajes de la dar la razón fundamental de la prueba. La evidencia
prueba para un uso especificado, y debe propor- puede proceder de estudios realizados a nivel local,
cionarse evidencia de validación apropiada que en el contexto en el que se usará la prueba; de es-
respalde cada interpretación prevista. tudios previos específicos; o de síntesis estadísticas
completas de estudios disponibles que reúnan cla-
ramente los criterios de calidad del estudio especifi-
Unidad 1. Establecimiento de usos e cado. Ningún tipo de evidencia es intrínsecamente
preferible a otros, sino que la calidad y relevancia
interpretaciones previstos de la evidencia para la interpretación prevista de los
puntajes de la prueba para un uso dado determi-
Estándar 1.1 nan el valor de una clase de evidencia en particular.
Una presentación de evidencia empírica en cual-
El desarrollador de la prueba debe establecer cla- quier momento debe dar la debida importancia a
ramente cómo se tiene previsto que se interpre- todas las conclusiones relevantes en la bibliografía
ten y en consecuencia se utilicen los puntajes de científica, incluidas las que no son coherentes con
la prueba. Las poblaciones para las que está pre- la interpretación o uso previstos. Los desarrollado-
vista la prueba deben definirse claramente, y el res de la prueba tienen la responsabilidad de respal-
constructo o los constructos que la prueba tiene dar sus propias recomendaciones, pero los usuarios
por objeto evaluar deben describirse claramente. de la prueba tienen la responsabilidad máxima de
Comentario: Los enunciados sobre validez deben evaluar la calidad de la evidencia de validación pro-
referirse a interpretaciones particulares y usos con- porcionada y su relevancia para la situación local.
secuentes. Es incorrecto usar la frase no calificada
“la validez de la prueba”. Ninguna prueba permite Estándar 1.3
interpretaciones que sean válidas para todos los
fines o en todas las situaciones. Cada interpre- Si la validez para alguna interpretación común o
tación recomendada para un uso dado requiere probable para un uso dado no se ha evaluado, o
25

capítulo 1
si dicha interpretación no es coherente con la evi- puntajes de la prueba para un determinado uso
dencia disponible, ese hecho debe aclararse y se dará un resultado específico, se debe presentar el
debe advertir enfáticamente a los posibles usua- fundamento para prever ese resultado, junto con
rios sobre hacer interpretaciones sin fundamento. la evidencia relevante.
Comentario: Si la experiencia pasada sugiere que Comentario: Si se asevera, por ejemplo, que in-
es probable que una prueba se use de manera interpretar y usar puntajes en una prueba dada para
adecuada para determinadas clases de decisiones la selección de empleados dará por resultado la
o determinadas clases de examinandos, se deben reducción de errores de los empleados o de costos
hacer advertencias específicas contra dichos usos. de capacitación, debe proporcionarse evidencia
Se requiere juicio profesional para evaluar la me- que respalde esa aseveración. Una afirmación dada
dida en que la evidencia de validación existente puede ser respaldada por un argumento lógico o
respalda un uso determinado de la prueba. teórico, así como también por datos empíricos.
Debe darse la debida importancia a las conclusio-
Estándar 1.4 nes en la bibliografía científica que pueden no ser
coherentes con la expectativa indicada.
Si el puntaje de una prueba se interpreta para
un uso determinado de una manera que no ha Estándar 1.6
sido validada, corresponde al usuario justificar
la nueva interpretación para ese uso, propor- Cuando el uso de una prueba se recomienda
cionando una razón fundamental y reuniendo aduciéndose que la prueba o el programa de
nueva evidencia, si fuera necesario. pruebas propiamente dicho dará por resultado
algún beneficio indirecto, además de la utilidad
Comentario: Se requiere juicio profesional para
de la información de la interpretación de los
evaluar la medida en que la evidencia de validación
puntajes de la prueba propiamente dichos, quien
existente se aplica en la nueva situación y al nuevo
hace la recomendación debe explicitar la razón
grupo de examinandos y para determinar qué
fundamental para prever el beneficio indirecto.
nueva evidencia puede ser necesaria. La cantidad y
Deben proporcionarse los argumentos lógicos o
las clases de nueva evidencia requeridas pueden es-
teóricos y la evidencia empírica para el beneficio
tar influenciadas por experiencia con usos o inter-
indirecto. Debe darse la debida importancia a
pretaciones de pruebas anteriores similares o por la
cualquier conclusión contradictoria en la biblio-
cantidad, calidad y relevancia de datos existentes.
grafía científica, incluyendo conclusiones que
Una prueba que ha sido alterada o adminis-
sugieran resultados indirectos importantes que
trada de maneras que cambian el constructo sub-
no sean los pronosticados.
yacente a la prueba para uso con subgrupos de la
población requiere evidencia de la validez de la Comentario: Por ejemplo, se han defendido de-
interpretación hecha sobre la base de la prueba terminados programas de pruebas educativas adu-
modificada (véase el cap. 3). Por ejemplo, si una ciéndose que tendrían una influencia conveniente
prueba se adapta para usarse con individuos con en las prácticas de instrucción en el aula o que
una discapacidad en particular de una manera aclararían la comprensión de los estudiantes de
que cambia el constructo subyacente, la prueba la clase o nivel de rendimiento que se espera que
modificada debe tener su propia evidencia de va- alcancen. En la medida en que dichas afirmacio-
lidación para la interpretación prevista. nes entren en la justificación para un programa de
pruebas, se vuelven parte del argumento para el
Estándar 1.5 uso de la prueba. Se debe examinar la evidencia
para dichas afirmaciones —junto con evidencia
Cuando se indica claramente o se deja implí- sobre la validez de la interpretación prevista de
cito que una interpretación recomendada de los los puntajes de la prueba sobre las consecuencias
26

VALIDEZ
negativas imprevistas del uso de la prueba— al razonablemente que afecten los resultados inclu-
tomar una decisión general sobre el uso de la yen autoselección, atrición, capacidad lingüística,
prueba. Debe darse la debida importancia a la evi- condición de discapacidad, y criterios de exclu-
dencia contra dichas predicciones, por ejemplo, sión, entre otros. Si los participantes en un es-
evidencia de que en algunas condiciones las prue- tudio de validez son pacientes, por ejemplo, los
bas educativas pueden tener un efecto negativo en diagnósticos de los pacientes son importantes, así
la instrucción en el aula. como otras características, como la gravedad de
las afecciones diagnosticadas. En pruebas utiliza-
Estándar 1.7 das en contextos laborales, la condición de empleo
(p. ej., solicitantes frente a actuales ocupantes de
Si se afirma que el desempeño en una prueba, puestos), el nivel general de experiencia y antece-
o una decisión tomada a partir de este, se ve dentes educativos, y la composición de género y
esencialmente afectado por la práctica y la orien- étnica de la muestra pueden ser información rele-
tación, entonces se debe documentar la propen- vante. En las pruebas utilizadas en acreditación, la
sión del desempeño en la prueba a cambiar con condición de quienes brindan información (p. ej.,
estas formas de instrucción. candidatos para una credencial frente a personas
ya acreditadas) es importante para interpretar los
Comentario: Los materiales para ayudar en la datos resultantes. En las pruebas utilizadas en
interpretación de los puntajes deben resumir contextos educativos, la información relevante
evidencia que indique el grado en que puede es- puede incluir antecedentes educativos, nivel de
perarse la mejora con la práctica u orientación. desarrollo, características de la comunidad, o po-
Además, los materiales escritos para los exami- líticas de admisión escolar, como así también la
nandos deben proporcionar orientación práctica composición de género y étnica de la muestra. En
sobre el valor de las actividades de preparación de ocasiones, las restricciones legales sobre privaci-
la prueba, incluida la orientación.
dad impiden obtener o divulgar esa información
de la población o limitan el nivel de particulari-
dad al que pueden divulgarse esos datos. Deben
Unidad 2. Cuestiones respecto de las considerarse las leyes específicas sobre privacidad,
muestras y contextos utilizados en la si las hubiera, que rigen el tipo de datos, a fin de
asegurar que cualquier descripción de una pobla-
validación
ción no tenga el potencial de identificar a un in-
dividuo de una manera que no sea coherente con
Estándar 1.8 dichos estándares. Deben describirse el alcance de
datos faltantes, si los hubiera, y los métodos para
La composición de cualquier muestra de exami-
tratar los datos faltantes (p. ej., uso de procedi-
nandos de la cual se obtiene evidencia de vali-
mientos de imputación de datos).
dación debe describirse con tanto detalle como
sea práctico y aceptable, incluidas características
sociodemográficas y de desarrollo relevantes. Estándar 1.9
Comentario: Las conclusiones estadísticas pue- Cuando una validación se basa en parte en las
den estar influenciadas por factores que afec- opiniones o decisiones de jueces, observadores
tan la muestra en la que se basan los resultados. o calificadores expertos, se deben describir com-
Cuando la muestra tiene por objeto representar pletamente los procedimientos para seleccionar
una población, esa población debe describirse, a dichos expertos y para obtener los juicios o
y debe prestarse atención a cualquier factor sis- calificaciones. Deben presentarse las califica-
temático que pueda limitar la representatividad ciones y la experiencia de los jueces. La descrip-
de la muestra. Los factores que podrían esperarse ción de procedimientos debe incluir cualquier
27

capítulo 1
capacitación e instrucciones proporcionadas, describirse con detalle suficiente para que los
debe indicar si los participantes llegaron a sus usuarios puedan juzgar la relevancia de las con-
decisiones de manera independiente y debe clusiones estadísticas para las condiciones locales.
reportar el nivel de acuerdo alcanzado. Si los Se debe prestar atención a cualquier caracterís-
participantes interactuaron entre sí o intercam- tica de una recopilación de datos de validación
biaron información, deben establecerse los pro- que probablemente difiera de las condiciones de
cedimientos mediante los cuales pueden haber prueba operativas típicas y que podría plausible-
ejercido influencia entre ellos. mente influir en el desempeño en la prueba.
Comentario: La recopilación sistemática de jui- Comentario: Esas condiciones podrían incluir
cios u opiniones puede darse en muchos mo- (a modo de ejemplo) las siguientes: motivación o
mentos en la construcción de la prueba (p. ej., preparación previa de los examinandos, el rango
obteniendo juicios expertos de lo adecuado del de los puntajes de la prueba sobre los exami-
contenido o representación adecuada del conte- nandos, el tiempo dado a los examinandos para
nido), en la formulación de reglas o estándares responder u otras condiciones administrativas,
para la interpretación de los puntajes (p. ej., en el modo de administración de la prueba (p. ej.,
el establecimiento de puntajes de corte), o en la prueba en línea sin supervisión frente a prueba
calificación de la prueba (p. ej., calificación de in situ), capacitación del examinador u otras
respuestas de un ensayo). Cada vez que se em- características del examinador, los intervalos de
pleen esos procedimientos, la calidad de los jui- tiempo que separan la recopilación de datos sobre
cios resultantes es importante para la validación. diferentes medidas o las condiciones que puedan
El nivel de acuerdo debe especificarse claramente haber cambiado desde que se obtuvo la evidencia
(p. ej., si el acuerdo de porcentaje se refiere al de validación.
acuerdo anterior o posterior a una discusión de
consenso, y si el criterio para el acuerdo es el
acuerdo exacto de calificaciones o el acuerdo den- Unidad 3. Formas específicas de
tro una cierta cantidad de puntos de la escala). La evidencia de validación
base para especificar ciertos tipos de individuos
(p. ej., profesores experimentados, titulares de
puestos experimentados, supervisores) como ex- (a) Evidencia orientada al contenido
pertos adecuados para la tarea de emitir un juicio Estándar 1.11
o calificación debe articularse. Es posible que sea
completamente adecuado que los expertos traba- Cuando la razón fundamental para la interpre-
jen juntos para alcanzar el consenso, pero no sería tación de los puntajes de la prueba para un uso
apropiado tratar sus respectivos juicios como es- dado se basa en parte en lo apropiado del conte-
tadísticamente independientes. Pueden utilizarse nido de la prueba, los procedimientos seguidos
diferentes jueces para diferentes fines (p. ej., un en la especificación y generación del contenido
grupo puede calificar ítems para sensibilidad cul- de la prueba deben describirse y justificarse con
tural mientras que otro puede calificar el nivel de referencia a la población que se prevé evaluar y al
lectura) o para diferentes partes de una prueba. constructo que la prueba tiene por objeto medir
o el dominio que tiene por objeto representar.
Si la definición del contenido muestreado incor-
Estándar 1.10 pora criterios como la importancia, frecuencia o
criticidad, estos criterios también deben expli-
Cuando la evidencia de validación incluye análi-
carse y justificarse con claridad.
sis estadísticos de los resultados de la prueba, ya
sean solos o junto con datos u otras variables, las Comentario: Por ejemplo, los desarrolladores de
condiciones en que se recopilaron los datos deben la prueba podrían proporcionar una estructura
28

VALIDEZ
lógica que mapee los ítems en la prueba al do- estadístico multivariado, como un análisis facto-
minio de contenido, ilustrando la relevancia de rial, que muestre que la variabilidad de los pun-
cada ítem y la adecuación con la que el conjunto tajes atribuible a una dimensión principal fue
de ítems representa el dominio de contenido. mucho mayor que la variabilidad de los puntajes
También podrían indicarse áreas del dominio de atribuible a cualquier otra dimensión identifi-
contenido que no están incluidas entre los ítems cada, o que muestre que un solo factor representa
de la prueba. El emparejamiento del contenido de adecuadamente la covarianza entre ítems de la
la prueba con el dominio objetivo en términos de prueba. Cuando una prueba proporciona más
complejidad cognitiva y la accesibilidad del con- de un puntaje, debe mostrarse que las interrela-
tenido de la prueba a todos los miembros de la ciones de esos puntajes son coherentes con el/los
población prevista también son consideraciones constructo(s) que se evalúan.
importantes.
Estándar 1.14
(b) Evidencia respecto de los procesos
Cuando se sugiere la interpretación de subpun-
cognitivos
tajes, diferencias de puntajes o perfiles, debe pro-
Estándar 1.12 porcionarse la razón fundamental y la evidencia
relevante que respalde dicha interpretación.
Si la razón fundamental para la interpretación Cuando se desarrollan puntajes compuestos, se
de los puntajes para un uso dado depende de deben dar la base y la razón fundamental para
premisas sobre los procesos psicológicos u ope- llegar a los valores compuestos.
raciones cognitivas de los examinandos, debe
proporcionarse la evidencia teórica o empírica Comentario: Cuando una prueba proporciona
que respalde esas premisas. Cuando enunciados más de un puntaje, debe demostrarse el carác-
sobre los procesos empleados por observadores ter distintivo y la confiabilidad de los puntajes
o calificadores sean parte del argumento de va- separados, y debe mostrarse que las interrelacio-
lidez, debe proporcionarse información similar. nes de esos puntajes son coherentes con el/los
constructo(s) que se evalúan. Asimismo, la evi-
Comentario: Si la especificación de la prueba de- dencia para la validez de interpretaciones de dos
linea los procesos a evaluar, entonces se necesita o más puntajes separados no necesariamente jus-
evidencia de que los ítems de la prueba, efectiva- tificaría una interpretación estadística o de con-
mente, utilizan los procesos previstos. tenido de la diferencia entre ellas. En cambio,
la razón fundamental y la evidencia de respaldo
(c) Evidencia respecto de la estructura deben concernir directamente al puntaje especí-
fico, la combinación de puntajes o el patrón de
interna
puntajes que se interpretarán para un uso dado.
Estándar 1.13 Cuando se combinan subpuntajes de una prueba
o puntajes de diferentes pruebas en un valor com-
Si la razón fundamental de la interpretación de puesto, debe especificarse la base para combinar
los puntajes de una prueba para un uso dado puntajes y cómo se combinan los puntajes (p. ej.,
depende de premisas sobre las relaciones entre ponderación diferencial frente a suma simple).
ítems de la prueba o entre partes de la prueba,
debe proporcionarse evidencia sobre la estruc-
tura interna de la prueba. Estándar 1.15
Comentario: Podría decirse, por ejemplo, que Cuando se sugiere la interpretación del desem-
una prueba es esencialmente unidimensional. Tal peño en ítems específicos, o pequeños subcon-
afirmación podría estar respaldada por análisis juntos de ítems, debe proporcionarse la razón
29

capítulo 1
fundamental que respalde dicha interpretación. evidencia de validación para la prueba en estudio.
Cuando la interpretación de respuestas a ítems Si dichas variables incluyen puntajes compuestos,
individuales es probable pero no recomendada se debe explicar la manera en que se construyeron
por el desarrollador, se debe advertir al usuario los valores compuestos (p. ej., transformación o
de no hacer dichas interpretaciones. estandarización de las variables, y ponderación de
las variables). Además de considerar las propieda-
Comentario: Se debe dar suficiente orientación
des de cada variable en forma aislada, es impor-
a los usuarios para permitirles juzgar el grado de
tante advertir sobre interpretaciones defectuosas
confianza justificado para cualquier interpretación
que surgen de fuentes espurias de dependencia
para un uso recomendado por el desarrollador de
entre medidas, incluidos errores correlacionados o
la prueba. Los manuales de pruebas y los reportes
varianza compartida debido a métodos comunes
de puntajes deben desalentar la sobreinterpreta-
de medición o elementos comunes.
ción de información que puede estar sujeta a error
considerable. Esto es especialmente importante
si se sugiere la interpretación del desempeño en (e) Evidencia respecto de las relaciones
ítems aislados, pequeños subconjuntos de ítems o con criterios
puntajes de subpruebas.
Estándar 1.17
(d) Evidencia respecto de las relaciones Cuando la validación se basa en evidencia de que
con constructos relacionados los puntajes de la prueba están relacionados con
conceptualmente una o más variables de criterios, debe reportarse
información sobre la pertinencia y la calidad téc-
Estándar 1.16 nica de los criterios.
Cuando la evidencia de validación incluye análi- Comentario: La descripción de cada variable de
sis empíricos de respuestas a ítems de la prueba criterio debe incluir evidencia respecto de su con-
junto con datos sobre otras variables, debe fiabilidad, la medida en que representa el cons-
proporcionarse la razón fundamental para se- tructo previsto (p. ej., desempeño de tareas en el
leccionar las variables adicionales. Cuando sea puesto de trabajo), y la medida en que es probable
apropiado y viable, debe presentarse o citarse la que esté influida por fuentes de varianza externas.
evidencia concerniente a constructos representa- Debe prestarse especial atención a las fuentes que
dos por otras variables, así como sus propieda- la investigación previa sugiera que pueden intro-
des técnicas. Debe prestarse atención a cualquier ducir varianza externa que podría sesgar el criterio
fuente probable de dependencia (o falta de inde- a favor o en contra de grupos identificables.
pendencia) entre variables distintas de las depen-
dencias entres los constructos que representan. Estándar 1.18
Comentario: Los patrones de asociación entre
Cuando se asevera que un determinado nivel de
puntajes en la prueba en estudio y otras variables
desempeño en la prueba predice el desempeño
deben ser coherentes con las expectativas teóricas.
adecuado o inadecuado del criterio, se debe pro-
Las variables adicionales podrían ser caracterís-
porcionar información sobre los niveles de des-
ticas demográficas, indicadores de condiciones
empeño del criterio asociados con niveles dados
de tratamiento o puntajes sobre otras medidas.
de puntajes de la prueba.
Podrían incluir medidas previstas del mismo
constructo o de constructos diferentes. La confia- Comentario: A los fines de vincular puntajes
bilidad de los puntajes de esas otras medidas y la específicos de la prueba con niveles específicos
validez de las interpretaciones previstas de punta- de desempeño de criterios, las ecuaciones de re-
jes de esas medidas son una parte importante de la gresión son más útiles que los coeficientes de
30

VALIDEZ
correlación, que por lo general son insuficientes los coeficientes de regresión u otros índices. Los
para describir completamente patrones de asocia- procedimientos de validación cruzada incluyen
ción entre pruebas y otras variables. Se necesitan estimaciones de validez de fórmulas en muestras
medias, desviaciones estándares y otros resúmenes posteriores y enfoques empíricos como derivar
estadísticos, así como información sobre la distri- ponderaciones en una parte de una muestra y
bución de desempeños de criterios condicionales aplicarlas a una submuestra independiente.
a un puntaje determinado de una prueba. En el
caso de variables categóricas más que continuas, Estándar 1.20
deben utilizarse las técnicas apropiadas para di-
chos datos (p. ej., el uso de regresión logística en Cuando las medidas del tamaño del efecto (p. ej.,
el caso de un criterio dicotómico). La evidencia correlaciones entre puntajes de la prueba y me-
sobre la asociación general entre variables debe didas de criterios, diferencias de puntajes medios
complementarse con información sobre la forma estandarizados de la prueba entre subgrupos) se
de esa asociación y sobre la variabilidad de esa usan para obtener inferencias que van más allá
asociación en diferentes rangos de puntajes de la de describir la muestra o las muestras sobre las
prueba. Obsérvese que las recopilaciones de datos que se han recopilado datos, deben reportarse
que emplean examinandos seleccionados por sus índices del grado de incertidumbre asociado con
puntajes extremos en una o más medidas (grupos estas medidas (p. ej., errores estándares, interva-
extremos) por lo general no pueden proporcionar los de confianza o pruebas de significación).
información adecuada sobre la asociación.
Comentario: Las medidas del tamaño del efecto
se emparejan de manera útil con índices que refle-
Estándar 1.19 jan su error de muestreo para hacer que sea posi-
ble la evaluación significativa. Hay varias medidas
Si se usan puntajes de la prueba junto con otras posibles del tamaño del efecto, cada una aplicable
variables para predecir algún resultado o criterio, a diferentes contextos. En la presentación de ín-
los análisis basados en modelos estadísticos de dices de incertidumbre, los errores estándares o
la relación predictor-criterio deben incluir esas intervalos de confianza proporcionan más infor-
variables relevantes adicionales junto con los mación y en consecuencia se prefieren en lugar de
puntajes de la prueba. las pruebas de significación o como complemento
de estas.
Comentario: En general, si varios predictores de
algún criterio están disponibles, la combinación
óptima de predictores no puede determinarse ex- Estándar 1.21
clusivamente a partir de exámenes por pares, de la
Cuando se realizan ajustes estadísticos, como
variable de criterio con cada predictor separado a
aquellos para restricción de rango o atenuación,
su vez, debido a la intercorrelación entre predic-
se deben reportar tanto los coeficientes ajustados
tores. Suele ser informativo estimar el incremento
como los no ajustados, así como el procedimiento
en la exactitud predictiva que puede esperarse
específico utilizado y todas las estadísticas utili-
cuando cada variable, incluyendo el puntaje de
zadas en el ajuste. Las estimaciones de la relación
la prueba, se introduce además de todas las de-
constructo-criterio que eliminan los efectos del
más variables disponibles. Como las pondera-
error de medición en la prueba deben reportarse
ciones derivadas empíricamente para combinar
claramente como estimaciones ajustadas.
predictores pueden aprovechar factores aleatorios
en una muestra dada, los análisis que involucran Comentario: La correlación entre dos variables,
múltiples predictores deben verificarse mediante como los puntajes de la prueba y las medidas de
validación cruzada o análisis equivalente siempre criterio, depende del rango de valores de cada va-
que sea viable, y debe reportarse la precisión de riable. Por ejemplo, los puntajes de la prueba y
31

capítulo 1
los valores de criterio de un subconjunto selec- constructos. Un estudio metaanalítico también

cionado de examinandos (p. ej., solicitantes para puede limitarse a múltiples estudios de una sola
un puesto de trabajo que han sido seleccionados prueba y un solo criterio. Para cada estudio in-
para contratación) por lo general tendrán un cluido en el análisis, la relación prueba-criterio
rango menor que los puntajes de todos los exa- se expresa en alguna métrica común, a menudo
minandos (p. ej., todo el grupo de solicitantes). como un tamaño del efecto. La fortaleza de la
Hay métodos estadísticos disponibles para ajustar relación prueba-criterio puede ser moderada por
la correlación para reflejar la población de inte- características de la situación en la que se obtu-
rés en lugar de la muestra disponible. Esos ajustes vieron las medias de la prueba y el criterio (p. ej.,
suelen ser apropiados, como cuando los resulta- tipos de puestos de trabajo, características de los
dos se comparan entre varias situaciones. La co- examinandos, intervalo de tiempo entre la reco-
rrelación entre dos variables también está afectada lección de medidas de la prueba y del criterio, año
por error de medición, y hay métodos disponibles o década en la que se recopilaron los datos). Si las
para ajustar la correlación para estimar la forta- relaciones prueba-criterio varían de acuerdo con
leza de la correlación neta de los efectos del error esas variables moderadoras, el metaanálisis debe
de medición en cualquiera de las variables o en reportar distribuciones efecto-tamaño estimadas
ambas. La presentación de reportes de una co- separadas condicionales a los niveles de esas varia-
rrelación ajustada debe estar acompañada por un bles moderadoras cuando la cantidad de estudios
enunciado del método y las estadísticas utilizados disponibles para análisis permita hacerlo. Esto
para hacer el ajuste. puede lograrse, por ejemplo, reportando distri-
buciones separadas para subconjuntos de estudios
o estimando las magnitudes de las influencias de
Estándar 1.22 características situacionales sobre los tamaños del
efecto.
Cuando se utiliza un metaanálisis como evi-
Este estándar aborda las responsabilidades del
dencia de la fortaleza de una relación prueba-
individuo que está recurriendo a evidencia meta-
criterio, las variables de prueba y criterio en la
analítica para respaldar una interpretación de los
situación local deben ser comparables con las
puntajes de la prueba para un uso dado. En al-
de los estudios resumidos. Si la investigación
gunos casos, ese individuo puede también ser la
relevante incluye evidencia creíble de que cual-
que realiza el metaanálisis; en otros casos, se basa
quier otra característica específica de la aplica-
en metaanálisis existentes. En el último caso, el
ción de la prueba puede influir en la fortaleza
individuo que recurre a evidencia metaanalítica
de la relación prueba-criterio, debe reportarse la
no tiene control sobre cómo se realizó o informó
correspondencia entre esas características en la
el metaanálisis, y debe evaluar la solidez del me-
situación local y en el metaanálisis. Deben ob-
taanálisis para el contexto en cuestión.
servarse explícitamente cualquier disparidad sig-
nificativa que pudiera limitar la aplicabilidad de
las conclusiones del metaanálisis a la situación Estándar 1.23
local.
Cualquier evidencia metaanalítica utilizada para
Comentario: El metaanálisis debe incorporar to- respaldar una interpretación prevista de los pun-
dos los estudios disponibles que reúnan explíci- tajes de la prueba debe describirse claramente,
tamente los criterios de inclusión indicados. La incluidas las elecciones metodológicas en la iden-
evidencia metaanalítica utilizada en la validación tificación y codificación de estudios, corrección
de la prueba suele basarse en una serie de prue- de artefactos y examen de potenciales variables
bas que miden los mismos constructos o cons- moderadoras. Deben presentarse las suposicio-
tructos muy similares y medidas de criterio que nes hechas en la corrección de artefactos como
del mismo modo miden los mismos o similares falta de confiabilidad del criterio y restricción
32

VALIDEZ
de rango, y deben aclararse las consecuencias de reunir suficientes casos para análisis estadísticos.
esas suposiciones. Se reconoce, no obstante, que es posible que esa
investigación no sea viable, porque las restriccio-
Comentario: La descripción debe incluir infor-
nes éticas y legales sobre asignaciones diferenciales
mación documentada sobre cada estudio utili-
pueden prohibir los grupos de control.
zado como dato de entrada en el metaanálisis,
permitiendo así la evaluación por una parte inde-
pendiente. Obsérvese también que el metaanálisis
involucra inevitablemente una serie de opciones (f) Evidencia basada en consecuencias
metodológicas. Las bases para estos juicios deben de las pruebas
articularse. En el caso de elecciones que involu- Estándar 1.25
cran algún grado de incertidumbre, como correc-
ciones de artefactos basadas en valores supuestos, Cuando surgen consecuencias imprevistas del
la incertidumbre debe reconocerse y debe exami- uso de la prueba, debe intentarse investigar si
narse y reportarse el grado en que las conclusiones dichas consecuencias surgen de la sensibilidad
sobre validez dependen de estas suposiciones. de la prueba a características distintas de las que
Como en el caso del Estándar 1.22, el indi- tiene previsto evaluar o de que la prueba no lo-
viduo que recurre a evidencia metaanalítica para gra representar completamente el constructo
respaldar la interpretación de puntajes de una previsto.
prueba para un uso dado puede ser o no también
Comentario: La validez de las interpretaciones de
el que realiza el metaanálisis. Como el Estándar
los puntajes de la prueba puede estar limitada por
1.22 aborda el reporte de evidencia metaanalítica,
componentes irrelevantes de constructo o infra-
el individuo que recurre a evidencia metaanalítica
rrepresentación de constructo. Cuando las conse-
existente debe evaluar la solidez del análisis me-
cuencias imprevistas parecen provenir, al menos
taanalítico para el contexto en cuestión.
en parte, del uso de una o más pruebas, es espe-
cialmente importante comprobar que estas conse-
Estándar 1.24 cuencias no surjan de componentes irrelevantes de
constructo o infrarrepresentación de constructo.
Si se recomienda una prueba para usar en la asig-
Por ejemplo, si bien las diferencias del grupo, de
nación de personas a tratamientos alternativos,
por sí, no cuestionan la validez de una interpreta-
y si los resultados de esos tratamientos pueden
ción propuesta, pueden aumentar la prominencia
compararse razonablemente sobre un criterio en
de hipótesis rivales plausibles que deben evaluarse
común, entonces, cuando sea viable, debe pro-
como parte del esfuerzo de validación. Encontrar
porcionarse evidencia de respaldo de los resulta-
consecuencias imprevistas también puede llevar a
dos diferenciales.
reconsiderar lo adecuado del constructo en cues-
Comentario: Si una prueba se utiliza para clasifi- tión. Asegurar que las consecuencias imprevistas
cación en programas ocupacionales, terapéuticos se evalúen es responsabilidad de quienes toman
o educativos alternativos, no es suficiente solo la decisión de usar o no una prueba en particular,
mostrar que la prueba predice resultados de tra- aunque las restricciones legales puedan limitar la
tamiento. El respaldo de la validez del procedi- discreción del usuario de la prueba para descartar
miento de clasificación se proporciona mostrando los resultados de una prueba administrada previa-
que la prueba es útil para determinar qué personas mente, cuando esa decisión se base en diferencias
probablemente se beneficien de manera diferen- en puntajes para subgrupos de diferentes razas,
cial con un tratamiento u otro. Es posible que orígenes étnicos o géneros. Estas cuestiones se
deban combinarse categorías de tratamiento para analizan en mayor detalle en el capítulo 3.
33

2. CONFIABILIDAD/PRECISIÓN
Y ERRORES DE MEDIDA
Antecedentes
Una prueba, definida en términos generales, es coeficientes de confiabilidad de la teoría clásica
un conjunto de tareas o estímulos diseñado para de los tests.
suscitar respuestas que proporcionen una muestra La confiabilidad/precisión de medida es siem-
del comportamiento o desempeño de un indivi- pre importante. Sin embargo, la necesidad de pre-
duo examinado en un dominio especificado. La cisión aumenta a medida que las consecuencias de
prueba está acompañada por un procedimiento las decisiones e interpretaciones crecen en impor-
de calificación que permite al evaluador evaluar tancia. Si el puntaje de una prueba conduce a una
las muestras de comportamiento o trabajo y gene- decisión que no se revierte fácilmente, como la
rar un puntaje. Al interpretar y utilizar puntajes denegación o admisión de un candidato a una es-
de prueba es importante tener alguna indicación cuela de formación, o un juicio clínico basado en
de su confiabilidad. el puntaje (p. ej., en un contexto legal) respecto
El término confiabilidad se ha utilizado de de que se ha sufrido una lesión cognitiva grave,
dos maneras en la bibliografía de medición. En se justifica un mayor grado de confiabilidad/pre-
primer lugar, el término se ha utilizado para ha- cisión. Si una decisión puede corroborarse y será
cer referencia a los coeficientes de confiabilidad corroborada por información de otras fuentes o si
de la teoría clásica de los tests, definidos como una decisión inicial errónea puede corregirse fá-
la correlación entre puntajes en dos formularios cilmente, los puntajes con confiabilidad/precisión
equivalentes de la prueba, suponiendo que com- más modesta pueden ser suficientes.
pletar un formulario no tiene efecto sobre el des- Las interpretaciones de los puntajes de una
empeño en el segundo formulario. En segundo prueba por lo general dependen de suposiciones
lugar, el término se ha utilizado en un sentido de que los individuos y grupos exhiben cierto
más general para hacer referencia a la coherencia grado de coherencia en sus puntajes entre admi-
de puntajes entre replicaciones de un procedi- nistraciones independientes del procedimiento
miento de evaluación, independientemente de de evaluación. Sin embargo, diferentes muestras
cómo se estime o reporte esta coherencia (p. ej., de desempeño de la misma persona rara vez son
en términos de errores estándares, coeficientes idénticas. Los desempeños, productos y respues-
de confiabilidad per se, coeficientes de genera- tas de un individuo a conjuntos de tareas o pre-
bilidad, relaciones error/tolerancia, funciones guntas de una prueba varían en calidad o carácter
de información de la teoría de respuesta al ítem de una muestra de tareas a otra y de una ocasión
(TRI), o diversos índices de coherencia de cla- a otra, incluso en condiciones estrictamente con-
sificación). Para mantener un vínculo con las troladas. Diferentes evaluadores pueden asignar
nociones tradicionales de confiabilidad y evitar diferentes puntajes a un desempeño específico.
al mismo tiempo la ambigüedad inherente en el Todas estas fuentes de variación se reflejan en los
uso de un único término conocido para hacer puntajes de los individuos examinados, que va-
referencia a una amplia variedad de conceptos riarán entre instancias de un procedimiento de
e índices, utilizamos el término confiabilidad/ medición.
precisión para indicar la noción más general de La confiabilidad/precisión de los puntajes
coherencia de los puntajes entre instancias del depende de cuánto varíen los puntajes entre re-
procedimiento de evaluación, y el término coefi- plicaciones del procedimiento de evaluación, y
ciente de confiabilidad para hacer referencia a los los análisis de confiabilidad/precisión dependen
35

capítulo 2
de las clases de variabilidad permitidas en el pro- repetidas veces y, por lo tanto, no es posible es-
cedimiento de evaluación (p. ej., entre tareas, timar el error estándar para el puntaje de cada
contextos, evaluadores) y la interpretación pro- persona mediante medición repetida. En cambio,
puesta de los puntajes de la prueba. Por ejem- utilizando suposiciones basadas en modelos, el
plo, si la interpretación de los puntajes supone error promedio de medida se estima respecto de
que el constructo que se evalúa no varía entre alguna población, y este promedio se denomina
ocasiones, la variabilidad entre ocasiones es una error estándar de medida (SEM, por sus siglas
posible fuente de error de medida. Si las tareas en inglés). El SEM es un indicador de una falta
de la prueba varían entre formularios alternati- de coherencia en los puntajes generados por el
vos de la prueba, y los desempeños observados procedimiento de evaluación para alguna pobla-
se tratan como una muestra de un dominio de ción. Un SEM relativamente grande indica con-
tareas similares, la variabilidad aleatoria en los fiabilidad/precisión relativamente baja. El error
puntajes de un formulario a otro se consideraría estándar de medida condicional para un nivel de
un error. Si se utilizan evaluadores para asignar puntaje es el error estándar de medida a ese nivel
puntajes a respuestas, la variabilidad en los pun- de puntaje.
tajes entre evaluadores cualificados es una fuente Decir que un puntaje incluye error implica
de error. Las variaciones en los puntajes de un que existe un valor hipotético sin error que ca-
examinando que no son coherentes con la defi- racteriza la variable que se evalúa. En la teoría
nición del constructo que se evalúa se atribuyen clásica de los tests, este valor sin error se deno-
a errores de medida. mina puntaje verdadero de la persona para el
Una manera muy básica de evaluar la cohe- procedimiento de la prueba. Se conceptualiza
rencia de puntajes involucra un análisis de la va- como el puntaje promedio hipotético en un
riación en los puntajes de cada examinando entre conjunto infinito de replicaciones del procedi-
replicaciones del procedimiento de evaluación. miento de evaluación. En términos estadísticos,
La prueba se administra y luego, tras un período el puntaje verdadero de una persona es un pará-
breve durante el cual no se prevería que cambie metro desconocido, o constante, y el puntaje ob-
la situación del individuo examinado respecto de servado para la persona es una variable aleatoria
la variable sometida a medición, la prueba (o un que fluctúa en torno al puntaje verdadero para
formulario distinto pero equivalente de la prueba) la persona.
se administra por segunda vez; se supone que la La teoría de generabilidad proporciona un
primera administración no tiene influencia sobre marco diferente para estimar la confiabilidad/pre-
la segunda administración. Dado que se supone cisión. Si bien la teoría clásica de los tests supone
que el atributo sometido a medición permanece una sola distribución para los errores en los pun-
igual para cada examinado durante las dos ad- tajes de un examinando, la teoría de generabili-
ministraciones y que las administraciones de la dad busca evaluar las contribuciones de diferentes
prueba son independientes una de otra, más va- fuentes de error (p. ej., ítems, ocasiones, evalua-
riación entre las dos administraciones indica más dores) al error general. El puntaje de universo
error en los puntajes de la prueba y, por lo tanto, para una persona se define como el valor esperado
menor confiabilidad/precisión. sobre un universo de todas las replicaciones po-
El impacto de dichos errores de medida sibles de un procedimiento de evaluación para el
puede resumirse de varias maneras, pero general- examinando. El puntaje de universo de la teoría
mente, en la medición educativa y psicológica, de generabilidad cumple un rol que es similar al
se conceptualiza en términos de la desviación es- rol de los puntajes verdaderos en la teoría clásica
tándar en los puntajes para una persona durante de los tests.
replicaciones del procedimiento de evaluación. La teoría de respuesta al ítem (TRI) aborda la
En la mayoría de los contextos de evaluación, no cuestión básica de la confiabilidad/precisión uti-
es posible replicar el procedimiento de evaluación lizando funciones de información, que indican la
36

CONFIABILIDAD/PRECISIÓN Y ERRORES DE MEDIDA
precisión con la que los desempeños en las tareas/ coherentes entre replicaciones del procedimiento
ítems observados pueden utilizarse para estimar el de evaluación y es baja si los puntajes no son co-
valor de un rasgo latente para cada examinando. herentes entre replicaciones. Por lo tanto, al eva-
Utilizando TRI, los índices análogos a los coefi- luar la confiabilidad/precisión, es importante ser
cientes de confiabilidad tradicionales pueden esti-claros respecto de qué constituye una replicación
marse a partir de las funciones de información del del procedimiento de evaluación.
ítem y distribuciones del rasgo latente en alguna Las replicaciones involucran administraciones
población. independientes del procedimiento de evaluación,
En la práctica, la confiabilidad/precisión de tal que no se esperaría que el atributo sometido
los puntajes suele evaluarse en términos de varios a medición cambie. Por ejemplo, al evaluar un
coeficientes, incluyendo coeficientes de confiabi- atributo que no se espera que cambie durante un
lidad, coeficientes de generabilidad, y funciones período de tiempo prolongado (p. ej., en la medi-
de información de TRI, dependiendo del enfo- ción de un rasgo), los puntajes generados en dos
que del análisis y del modelo de medición que se días consecutivos (utilizando diferentes formula-
utilice. Los coeficientes tienden a tener valores rios de prueba si corresponde) se considerarían
altos cuando la variabilidad asociada con el error replicaciones. Para una variable de estado (p. ej.,
es pequeña en comparación con la variación ob- estado de ánimo o hambre), donde los cambios
servada en los puntajes (o diferencias de puntajes)bastante rápidos son comunes, los puntajes gene-
a estimar. rados en dos días consecutivos no se considera-
rían replicaciones; los puntajes obtenidos en cada
Implicaciones para la validez ocasión se interpretarían en términos del valor de
la variable de estado en esa ocasión. En muchas
Si bien en este caso se analiza la confiabilidad/ pruebas de conocimiento o habilidad, la adminis-
precisión como una característica independiente tración de formularios alternativos de una prueba
de los puntajes de prueba, debe reconocerse que el con diferentes muestras de ítems se considerarían
nivel de confiabilidad/precisión de puntajes tiene replicaciones de la prueba; para instrumentos de
implicaciones para la validez. La confiabilidad/ sondeo y algunas medidas de personalidad, se es-
precisión de datos en última instancia incide en pera que las mismas preguntas se utilicen cada vez
la generabilidad o fiabilidad de los puntajes y/o que se administre la prueba, y cualquier cambio
la coherencia de clasificaciones de individuos de- sustancial en la redacción constituiría un formu-
rivadas de los puntajes. En la medida en que los lario de prueba diferente.
puntajes no sean coherentes entre replicaciones Las pruebas estandarizadas presentan los mis-
del procedimiento de evaluación (es decir, en la mos materiales de la prueba o materiales muy
medida en que reflejen errores de medida aleato- similares a todos los examinandos, mantienen
rios), su potencial de predicción exacta de crite- una rigurosa adhesión a procedimientos estipula-
rios, para diagnóstico beneficioso del individuo dos para la administración de pruebas y emplean
examinado, y para toma de decisiones inteligentes reglas de calificación prescriptas que pueden
es limitado. aplicarse con un alto grado de coherencia. Admi-
nistrar las mismas preguntas o preguntas puestas
Especificaciones para replicaciones del en una escala común a todos los examinandos en
procedimiento de evaluación las mismas condiciones promueve la imparciali-
dad y facilita las comparaciones de puntajes entre
Como se indicó anteriormente, la noción general individuos. Las condiciones de observación que
de confiabilidad/precisión se define en términos se fijan o estandarizan para el procedimiento de
de coherencia entre replicaciones del procedi- evaluación permanecen iguales entre replicacio-
miento de evaluación. La confiabilidad/precisión nes. Sin embargo, se permitirá variar algunos as-
es alta si los puntajes para cada persona son pectos de cualquier procedimiento de evaluación
37

capítulo 2
estandarizado. Por lo general se permite que el confiabilidad de coherencia interna (p. ej., coefi-
momento y el lugar de evaluación, así como las ciente dividido, KR-20, coeficiente alfa) utili-
personas que administran la prueba, varíen en zan la medida de concordancia observada entre
cierta medida. Es posible que se permita variar diferentes partes de una prueba para estimar la
las tareas en particular incluidas en la prueba confiabilidad asociada con variabilidad entre
(como muestras de un dominio de contenido co- formularios. Para el método dividido, se correla-
mún), y las personas que califican los resultados cionan los puntajes en dos mitades más o menos
pueden variar en algún conjunto de evaluadores paralelas de la prueba (p. ej. ítems con números
cualificados. impares e ítems con números pares), y el coefi-
Los formularios alternativos (o formularios ciente de confiabilidad de la mitad de la prueba
paralelos) de una prueba estandarizada se dise- que se obtiene se ajusta estadísticamente para
ñan para que tengan la misma distribución ge- estimar la confiabilidad de la prueba completa.
neral de contenido y formatos de ítems (según lo Sin embargo, cuando una prueba se diseña para
descripto, por ejemplo, en especificaciones de la reflejar la tasa de trabajo, es probable que las esti-
prueba detalladas), los mismos procedimientos maciones de confiabilidad de coherencia interna
administrativos y al menos aproximadamente las (en particular por el método par-impar) arrojen
mismas medias de puntaje y desviaciones están- estimaciones infladas de confiabilidad para prue-
dares en alguna población o poblaciones especifi- bas de aceleración alta.
cadas. Los formularios alternativos de una prueba En algunos casos, es posible que sea razonable
se consideran intercambiables, en el sentido de suponer que es probable que una posible fuente
que se elaboran según las mismas especificacio- de variabilidad sea insignificante o que el usuario
nes, y se interpretan como medidas del mismo podrá inferir confiabilidad adecuada de otros ti-
constructo. pos de evidencia. Por ejemplo, si los puntajes de
En la teoría clásica de los tests, se supone una prueba se utilizan principalmente para prede-
que las pruebas estrictamente paralelas miden el cir algunos puntajes de criterio y la prueba hace
mismo constructo y arrojan puntajes que tienen un trabajo aceptable en la predicción del criterio,
las mismas medias y desviaciones estándares en puede inferirse que los puntajes de la prueba son
las poblaciones de interés y tienen las mismas suficientemente confiables/precisos para su uso
correlaciones con todas las demás variables. Un previsto.
coeficiente de confiabilidad clásico se define en La definición de lo que constituye una prueba
términos de la correlación entre puntajes de for- o procedimiento de medición estandarizado se
mularios estrictamente paralelos de la prueba, ha ampliado significativamente en las últimas
pero se estima en términos de la correlación entre décadas. Se han desarrollado varias clases de eva-
formularios alternativos de la prueba que pueden luaciones de desempeño, simulaciones y evalua-
no ser tan estrictamente paralelos. ciones basadas en porfolios para brindar medidas
Pueden implementarse diferentes enfoques de constructos que de otro modo podrían ser
a la estimación de confiabilidad/precisión para difíciles de evaluar. Cada paso hacia una mayor
ajustarse a diferentes diseños de recopilación flexibilidad en los procedimientos de evaluación
de datos y diferentes interpretaciones y usos de amplía el alcance de las variaciones permitidas en
puntajes. En algunos casos, es posible que sea replicaciones del procedimiento de evaluación, y
viable estimar la variabilidad entre replicaciones por lo tanto tiende a aumentar el error de me-
directamente (p. ej., teniendo una serie de eva- dida. Sin embargo, algunos de estos sacrificios en
luadores cualificados que evalúen una muestra de la confiabilidad/precisión pueden reducir la irre-
desempeños en la prueba para cada examinando). levancia de constructo o infrarrepresentación de
En otros casos, es posible que sea necesario usar constructo y, por consiguiente, mejorar la validez
estimaciones menos directas del coeficiente de de las interpretaciones previstas de los puntajes.
confiabilidad. Por ejemplo, las estimaciones de Por ejemplo, las evaluaciones de desempeño que
38

dependen de calificaciones de respuestas extendi- aprendizaje o maduración que ha ocurrido entre las
das tienden a tener menor confiabilidad que las medidas iniciales y finales). En esos casos, los cam-
evaluaciones más estructuradas (p. ej., pruebas de bios en el desempeño constituirían el fenómeno de
opciones múltiples o de respuestas cortas), pero a interés y no se considerarían errores de medida.
veces pueden proporcionar medidas más directas El error de medida reduce la utilidad de los
del atributo de interés. puntajes de prueba. Limita la medida en que
Los errores de medida aleatorios se ven como los resultados de la prueba pueden generalizarse
fluctuaciones impredecibles en los puntajes. Se más allá de los detalles de una replicación dada
distinguen conceptualmente de los errores sis- del procedimiento de evaluación. Reduce la con-
temáticos, que también pueden afectar los des- fianza que puede depositarse en los resultados de
empeños de individuos o grupos, pero de una una sola medición y por lo tanto la confiabilidad/
manera coherente más que aleatoria. Por ejemplo, precisión de los puntajes. Dado que los errores de
una hoja de respuestas incorrecta contribuiría a medida aleatorios son impredecibles, no pueden
un error sistemático, como lo harían las diferen- eliminarse de los puntajes observados. Sin em-
cias en la dificultad de los formularios de prueba bargo, su magnitud agregada puede resumirse de
que no se hayan equiparado o vinculado adecua- varias maneras, como se analiza a continuación, y
damente; los individuos examinados que comple- pueden controlarse hasta cierto punto (p. ej., me-
ten un formulario pueden recibir puntajes más diante estandarización o promediando múltiples
altos en promedio que si hubieran completado puntajes).
el otro formulario. Esos errores sistemáticos por El error estándar de medida, como tal, pro-
lo general no se incluirían en el error estándar de porciona una indicación del nivel esperado de
medida, y no se considera que contribuyan a una error aleatorio entre puntos de puntaje y replica-
falta de confiabilidad/precisión. En cambio, los ciones para una población específica. En muchos
errores sistemáticos constituyen factores irrele- casos, es útil tener estimaciones de los errores es-
vantes de constructo que reducen la validez, pero tándares para cada individuo examinado (o para
no la confiabilidad/precisión. individuos examinados con puntajes en determi-
Las fuentes importantes de error aleatorio nados rangos de puntaje). Estos errores estándares
pueden agruparse en dos categorías amplias: las condicionales son difíciles de estimar en forma di-
que tienen su origen en los examinandos y las recta, pero pueden estimarse indirectamente. Por
externas a ellos. Las fluctuaciones en el nivel de ejemplo, las funciones de información de prueba
motivación, interés o atención de un individuo basadas en modelos de TRI pueden usarse para
examinado y la aplicación incoherente de habili- estimar errores estándares para diferentes valores
dades son claramente fuentes internas que pueden de un parámetro de capacidad latente y/o para di-
conducir a error aleatorio. Las variaciones en las ferentes puntajes observados. Al usar cualquiera
condiciones de evaluación (p. ej., momento del de estas estimaciones de errores estándares con-
día, nivel de distracciones) y las variaciones en la dicionales basadas en modelos, es importante que
calificación debido a subjetividad del evaluador las suposiciones del modelo sean coherentes con
son ejemplos de fuentes externas que pueden con- los datos.
ducir a error aleatorio. La importancia de cual-
quier fuente de variación en particular depende Evaluación de la confiabilidad/precisión
de las condiciones específicas en las que se tomen
las medidas, cómo se califican los desempeños y El enfoque ideal de la evaluación de confiabili-
las interpretaciones derivadas de los puntajes. dad/precisión requeriría muchas replicaciones
Algunos cambios en los puntajes de una oca- independientes del procedimiento de evaluación
sión a otra no se consideran error (aleatorio o sis- en una muestra grande de examinandos. El rango
temático), porque surgen, en parte, de cambios en de diferencias permitido en replicaciones del
el constructo sometido a medición (p. ej., debido a procedimiento de evaluación y la interpretación
39

capítulo 2
propuesta de los puntajes proporcionan un marco sesiones de evaluación independientes (coeficien-

para investigar la confiabilidad/precisión. tes de formularios alternativos); (b) coeficientes
En la mayoría de los programas de evaluación, obtenidos mediante la administración del mismo
se espera que los puntajes se generalicen entre formulario en ocasiones separadas (coeficientes
formularios alternativos de la prueba, ocasiones test-retest); y (c) coeficientes basados en las rela-
(dentro del mismo período), contextos de eva- ciones/interacciones entre puntajes derivados de
luación y evaluadores (si se requiere juicio en la ítems individuales o subconjuntos de los ítems
calificación). En la medida en que se prevea que dentro de una prueba, donde todos los datos se
el impacto de cualquiera de estas fuentes de varia- acumulan de una sola administración (coeficientes
bilidad sea sustancial, la variabilidad debería esti- de coherencia interna). Además, cuando la cali-
marse de alguna manera. No es necesario que las ficación de la prueba involucra un alto nivel de
diferentes fuentes de varianza se estimen por se- juicio, se obtienen comúnmente índices de cohe-
parado. La confiabilidad/precisión general, dada rencia entre evaluadores. En tratamientos forma-
la varianza de error debido al muestreo de formu- les de la teoría clásica de los tests, la confiabilidad
larios, ocasiones y evaluadores, puede estimarse a puede definirse como la relación de la varianza
través de un estudio test-retest que involucre di- de puntaje verdadero respecto de la varianza de
ferentes formularios administrados en diferentes puntaje observado, pero se estima en términos de
ocasiones y calificados por diferentes evaluadores. coeficientes de confiabilidad de las clases mencio-
La interpretación de los análisis confiabilidad/ nadas arriba.
precisión depende de la población que se evalúa. En la teoría de generabilidad, estos análisis
Por ejemplo, los coeficientes de confiabilidad o de confiabilidad diferentes se tratan como casos
generabilidad derivados de puntajes de una mues- especiales de un marco más general para estimar
tra representativa a nivel nacional pueden diferir la varianza de error en términos de los compo-
significativamente de los obtenidos de una mues- nentes de varianza asociados con diferentes fuen-
tra más homogénea tomada de un género, un tes de error. Un coeficiente de generabilidad se
grupo étnico o una comunidad. Por lo tanto, en la define como la relación de la varianza del puntaje
medida en que sea viable (es decir, si los tamaños de universo con respecto a la varianza del puntaje
de la muestra son lo suficientemente grandes), la observado. A diferencia de los enfoques tradicio-
confiabilidad/ precisión debe estimarse por sepa- nales al estudio de la confiabilidad, la teoría de
rado para todos los subgrupos relevantes (p. ej., generabilidad alienta al investigador a especificar
definidos en términos de raza/origen étnico, gé- y estimar componentes de varianza de puntaje
nero, competencia en un idioma) en la población. verdadero, varianza de puntaje de error y varianza
(Véase también el cap. 3, “Imparcialidad en las de puntaje observado, y a calcular coeficientes ba-
pruebas”). sados en estas estimaciones. La estimación suele
realizarse mediante la aplicación de técnicas de
Coeficientes de confiabilidad/ análisis de varianza. Las estimaciones numéricas
generabilidad separadas de los componentes de varianza (p. ej.,
componentes de varianza para ítems, ocasiones y
En la teoría clásica de los tests, la coherencia de los evaluadores, y para las interacciones entre estas
puntajes de una prueba se evalúa principalmente posibles fuentes de error) pueden utilizarse para
en términos de coeficientes de confiabilidad, defi- evaluar la contribución de cada fuente de error
nidos en términos de la correlación entre puntajes al error de medida general; las estimaciones del
derivados de replicaciones del procedimiento de componente de varianza pueden ser útiles en la
evaluación en una muestra de examinandos. Se identificación de una estrategia efectiva para con-
reconocen tres amplias categorías de coeficientes trolar la varianza de error general.
de confiabilidad: (a) coeficientes derivados de la Diferentes coeficientes de confiabilidad (y
administración de formularios alternativos en generabilidad) pueden parecer intercambiables,
40

pero los diferentes coeficientes transmiten in- información de TRI se basa en los resultados ob-
formación diferente. Un coeficiente puede abar- tenidos en una ocasión específica o en un con-
car una o más fuentes de error. Por ejemplo, un texto específico, y por lo tanto no proporciona
coeficiente puede reflejar error debido a incohe- una indicación de generabilidad entre ocasiones
rencias del evaluador, pero no reflejar la variación o contextos.
en los desempeños o productos de un individuo Los coeficientes (p. ej., coeficientes de con-
examinado. Un coeficiente puede reflejar solo la fiabilidad, generabilidad y basados en TRI) tie-
coherencia interna de repuestas al ítem dentro de nen dos ventajas principales sobre los errores
un instrumento y no reflejar el error de medida estándares. En primer lugar, como se indicó ante-
asociado con los cambios diarios en el desempeño riormente, pueden usarse para estimar errores es-
del individuo examinado. tándares (generales y/o condicionales) en casos en
No debe inferirse, sin embargo, que los coefi- que no sería posible hacerlo directamente. En se-
cientes de formularios alternativos o test-retest gundo lugar, los coeficientes (p. ej., coeficientes de
basados en administraciones de la prueba con va- confiabilidad y generabilidad), que se definen en
rios días o semanas de diferencia son siempre pre- términos de relaciones de varianzas para puntajes
feribles a los coeficientes de coherencia interna. en la misma escala, son invariantes en transforma-
En casos en que podemos suponer que no es pro- ciones lineales de la escala de puntajes y pueden
bable que los puntajes cambien, en función de ex- ser útiles para comparar diferentes procedimientos
periencia pasada y/o consideraciones teóricas, es de evaluación sobre la base de escalas diferentes.
posible que sea razonable suponer invariancia en- Sin embargo, esas comparaciones rara vez son di-
tre ocasiones (sin realizar un estudio test-retest). rectas, porque pueden depender de la variabilidad
Otra limitación de los coeficientes test-retest es de los grupos en que se basan los coeficientes, las
que, cuando se utiliza el mismo formulario de la técnicas usadas para obtener los coeficientes, las
prueba, la correlación entre los primeros y segun- fuentes de error reflejadas en los coeficientes, y
dos puntajes podría inflarse por el recuerdo del las extensiones y contenidos de los instrumentos
examinando de las respuestas iniciales. que se comparan.
La función de información de prueba, un re-
sultado importante de TRI, resume qué tan bien Factores que afectan la confiabilidad/
la prueba discrimina entre individuos en varios precisión
niveles de capacidad en el rasgo que se evalúa. En
la conceptualización de TRI para ítems califica- Varios factores pueden tener efectos significativos
dos de manera dicotómica, la curva característica en la confiabilidad/precisión, y en algunos casos,
de ítem o función de respuesta al ítem se utiliza esos factores pueden conducir a interpretacio-
como un modelo para representar la proporción nes erróneas de los resultados, si no se tienen en
creciente de respuestas correctas a un ítem en ni- cuenta.
veles crecientes de la capacidad o rasgo sometido En primer lugar, cualquier evaluación de con-
a medición. Dados los datos apropiados, pueden fiabilidad/precisión se aplica a un procedimiento
estimarse los parámetros de la curva característica de evaluación en particular y es probable que
para cada ítem en una prueba. La función de in- cambie si el procedimiento cambia de cualquier
formación de prueba puede entonces calcularse a manera sustancial. En general, si la evaluación es
partir de estimaciones de parámetros para el con- acortada (p. ej., reduciendo la cantidad de ítems
junto de ítems en la prueba y puede usarse para o tareas), es probable que la confiabilidad dismi-
derivar coeficientes con interpretaciones similares nuya; y si la evaluación se extiende con tareas o
a los coeficientes de confiabilidad. ítems comparables, es probable que la confiabili-
La función de información puede verse como dad aumente. De hecho, extender la evaluación, y
un enunciado matemático de la precisión de me- por consiguiente aumentar el tamaño de la mues-
dida en cada nivel del rasgo dado. La función de tra de tareas/ítems (o evaluadores u ocasiones) que
41

capítulo 2
se utilizan, es un método efectivo y comúnmente cambian en un contexto operativo, la confiabili-

utilizado para mejorar la confiabilidad/precisión. dad/precisión puede cambiar.
En segundo lugar, si la variabilidad asociada
con evaluadores se estima para un grupo selecto Errores estándares de medida
de evaluadores que han sido especialmente bien
capacitados (y tal vez participaron en el desarro- El error estándar de medida puede utilizarse para
llo de los procedimientos), pero los evaluadores generar intervalos de confianza en torno a punta-
no están tan bien capacitados en algunos contex- jes reportados. Por lo tanto, es generalmente más
tos operativos, el error asociado con la variabili- informativo que un coeficiente de confiabilidad
dad de evaluadores en estos contextos operativos o generabilidad, una vez que se ha adoptado un
puede ser mucho más alta que la indicada por los procedimiento de medición y la interpretación
coeficientes de confiabilidad entre los evaluado- de puntajes se ha vuelto el principal interés del
res reportados. De manera similar, si los evalua- usuario.
dores aún están perfeccionando su desempeño en Las estimaciones de los errores estándares en
los primeros días de una ventana de calificación diferentes niveles de puntaje (es decir, errores
extendida, el error asociado con la variabilidad estándares condicionales) por lo general son un
entre evaluadores puede ser mayor para indivi- complemento valioso para la estadística única
duos examinados que realizan la prueba antes para todos los niveles de puntaje combinados.
en la ventana que para los que la realizan más Los errores estándares de medida condicionales
adelante. pueden ser mucho más informativos que un solo
La confiabilidad/precisión también puede de- error estándar promedio para una población. Si
pender de la población para la que se utiliza el las decisiones se basan en puntajes de la prueba y
procedimiento. En particular, si la variabilidad esas decisiones se concentran en un área o algunas
en el constructo de interés en la población para áreas de la escala de puntajes, los errores condicio-
la que se generan los puntajes es sustancialmente nales en esas áreas son de especial interés.
diferente de lo que es en la población para la que Al igual que los coeficientes de confiabilidad
se evaluó la confiabilidad/precisión, la confiabi- y generalidad, los errores estándares pueden re-
lidad/precisión puede ser bastante diferente en flejar variación de muchas fuentes de error o de
las dos poblaciones. Cuando la variabilidad en el solo algunas. Un error estándar más completo (es
constructo sometido a medición es baja, los coefi- decir, uno que incluya las fuentes de error más re-
cientes de confiabilidad y generabilidad tienden levantes, dada la definición del procedimiento de
a ser pequeños, y cuando la variabilidad en el evaluación y la interpretación propuesta) tiende a
constructo sometido a medición es más alta, los ser más informativo que un error estándar menos
coeficientes tienden a ser más grandes. Los errores completo. Sin embargo, las restricciones prácticas
estándares de medida dependen menos de la va- suelen impedir estas clases de estudios que arroja-
riabilidad en la muestra de examinandos que los rían información sobre todas las posibles fuentes
coeficientes de confiabilidad y generabilidad. de error, y en esos casos, es más informativo eva-
Además, la confiabilidad/precisión puede luar las fuentes de error que probablemente ten-
variar de una población a otra, incluso si la va- gan el mayor impacto.
riabilidad en el constructo de interés en las dos Las interpretaciones de los puntajes de una
poblaciones es la misma. La confiabilidad puede prueba pueden clasificarse ampliamente como
variar de una población a otra porque fuentes de relativas o absolutas. Las interpretaciones rela-
error en particular (efectos del evaluador, familia- tivas transmiten la situación de un individuo o
ridad con formatos e instrucciones, etc.) tienen grupo dentro de una población de referencia. Las
más impacto en una población que en la otra. En interpretaciones absolutas relacionan el estado
general, si algunos aspectos de los procedimientos de un individuo o grupo respecto de estándares
de evaluación o de la población que se evalúa se de desempeño definidos. El error estándar no es
42

el mismo para los dos tipos de interpretaciones. Es más probable que los errores de medida para
Cualquier fuente de error que sea la misma para individuos examinados cuyos puntajes verdade-
todos los individuos no contribuye al error rela- ros se acercan al puntaje de corte conduzcan a
tivo, pero puede contribuir al error absoluto. errores de clasificación. La elección de las técni-
Los coeficientes de confiabilidad conformes a cas utilizadas para cuantificar la confiabilidad/
normas tradicionales se desarrollaron para evaluar precisión debería tener en cuenta estas circuns-
la precisión con la que los puntajes de la prueba tancias. Esto puede hacerse reportando el error
estiman la situación relativa de individuos exami- estándar condicional en la proximidad del pun-
nados en la misma escala, y evalúan la confiabi- taje de corte o los índices de coherencia/exacti-
lidad/precisión en términos de la relación de la tud de decisiones (p. ej., porcentaje de decisiones
varianza de puntaje verdadero respecto de la va- correctas, kappa de Cohen), que varían como
rianza de puntaje observado. A medida que se ha funciones tanto de la confiabilidad/precisión
expandido la variedad de usos de los puntajes de del puntaje como de la ubicación del puntaje
prueba y se han extendido los contextos de uso de corte.
(p. ej., categorización de diagnóstico, la evalua- La coherencia de decisiones se refiere a la
ción de programas educativos), el rango de ín- medida en que las clasificaciones observadas de
dices que se usan para evaluar la confiabilidad/ individuos examinados sería la misma entre re-
precisión también ha aumentado para incluir ín- plicaciones del procedimiento de evaluación. La
dices para diversas clases de puntajes de cambio y exactitud de decisiones se refiere a la medida en
puntajes de diferencia, índices de coherencia de que las clasificaciones observadas de individuos
decisiones, e índices apropiados para evaluar la examinados basadas en los resultados de una
precisión de las medias de grupos. sola replicación concordarían con su estado de
Algunos índices de precisión, especialmente clasificación verdadero. Hay métodos estadísti-
errores estándares y errores estándares condicio- cos disponibles para calcular índices tanto para
nales, también dependen de la escala en la que coherencia de decisiones como para exactitud de
se reportan. Un índice expresado en términos decisiones. Estos métodos evalúan la coherencia o
de puntajes brutos o de estimaciones de TRI del exactitud de clasificaciones más que la coherencia
nivel de rasgo puede transmitir una percepción en los puntajes per se. Obsérvese que el grado de
muy diferente del error si se vuelve a expresar en coherencia o concordancia en la clasificación del
términos de puntajes de escala. Por ejemplo, para individuo examinado es específico del puntaje de
la escala de puntajes brutos, el error estándar con- corte empleado y su ubicación dentro de la distri-
dicional puede parecer alto en un nivel de puntaje bución de puntajes.
y bajo en otro, pero cuando los errores estándares
condicionales se reexpresan en unidades de pun- Confiabilidad/precisión de medias
tajes de escala, pueden surgir tendencias bastante de grupos
diferentes en precisión comparativa.
Las estimaciones de puntajes medios (o prome-
Coherencia de decisiones dio) de grupos (o proporciones en ciertas ca-
tegorías) involucran fuentes de error que son
Cuando la finalidad de la medición es la clasifi- diferentes de las que operan a nivel individual.
cación, algunos errores de medida son más graves Dichas estimaciones suelen utilizarse como me-
que otros. Los examinandos que están muy por didas de efectividad de programas (y, en algunos
encima o muy por debajo del puntaje de corte sistemas de rendición de cuentas en materia edu-
establecido para aprobar/reprobar o para elegi- cativa, pueden usarse para evaluar la efectividad
bilidad para un programa especial pueden tener de escuelas y profesores).
error considerable en sus puntajes observados sin Al evaluar el desempeño grupal estimando
ningún efecto en sus decisiones de clasificación. el desempeño medio o mejora media en el
43

capítulo 2
desempeño para muestras del grupo, la variación documentar la precisión de medida. Esta obliga-
debida al muestreo de personas puede ser una ción se mantiene cuando una de las finalidades
fuente de error importante, en especial si los ta- principales de la medición es clasificar estudiantes
maños de la muestra son pequeños. En la medida usando estándares de desempeño desarrollados lo-
en que diferentes muestras del grupo de interés calmente, o clasificar a los individuos examinados
(p. ej., todos los estudiantes que usan determi- dentro de la población local. También se mantiene
nados materiales educativos) arrojen resultados cuando los usuarios deben basarse en evaluadores
diferentes, las conclusiones sobre el resultado locales que están capacitados para usar las rúbricas
esperado entre todos los estudiantes en el grupo de puntajes proporcionadas por el desarrollador
(incluyendo los que podrían unirse al grupo en de la prueba. En esos contextos, los factores lo-
el futuro) son inciertas. Para muestras grandes, cales pueden afectar sustancialmente la magnitud
la variabilidad debida al muestreo de personas en de la varianza de error y la varianza de puntajes
las estimaciones de las medias del grupo puede observados. Por lo tanto, la confiabilidad/preci-
ser bastante pequeña. Sin embargo, en casos en sión de puntajes puede diferir apreciablemente de
que las muestras de personas no son muy grandes la reportada por el desarrollador.
(p. ej., en la evaluación del rendimiento medio Las evaluaciones de confiabilidad/precisión
de estudiantes en una sola aula o la satisfacción reportadas deben identificar las posibles fuentes
expresada promedio de muestras de clientes en un de error para el programa de evaluación, dados
programa clínico), el error asociado con el mues- los usos propuestos de los puntajes. Estas posibles
treo de personas puede ser un componente im- fuentes de error pueden luego evaluarse en tér-
portante del error general. Puede ser una fuente minos de investigación reportada previamente,
de error significativa en inferencias sobre progra- nuevos estudios empíricos o análisis de los moti-
mas incluso si existe un alto grado de precisión en vos para suponer que es probable que una posible
los puntajes individuales de la prueba. fuente de error sea insignificante y, por lo tanto,
Los errores estándares para puntajes indivi- pueda ignorarse.
duales no son medidas apropiadas de la precisión El reporte de índices de confiabilidad/pre-
de los promedios del grupo. Una estadística más cisión solo —con escaso detalle respecto de los
apropiada es el error estándar para las estimacio- métodos usados para estimar los índices reporta-
nes de las medias del grupo. dos, la naturaleza del grupo del que se derivaron
los datos, y las condiciones en las que se obtu-
Documentación de la confiabilidad/ vieron los datos— constituye documentación
precisión inadecuada. Las declaraciones generales al efecto
de que una prueba sea “confiable” o de que sea
Por lo general, los desarrolladores y distribuido- “suficientemente confiable para permitir inter-
res de pruebas tienen la responsabilidad principal pretaciones de puntajes individuales” casi nunca,
de obtener y reportar evidencia de confiabilidad/ o nunca, son aceptables. Es el usuario quien debe
precisión (p. ej., errores estándares apropiados, asumir la responsabilidad de determinar si los
coeficientes de confiabilidad o generabilidad, o puntajes son suficientemente fiables para justi-
funciones de información de la prueba). El usua- ficar usos e interpretaciones previstos para usos
rio de la prueba debe tener dichos datos para particulares. No obstante, los constructores y edi-
hacer una elección informada entre enfoques de tores de pruebas están obligados a proporcionar
medición alternativos y por lo general podrá reali- datos suficientes para que los juicios informados
zar estudios de confiabilidad/precisión adecuados sean posibles.
antes del uso operativo de un instrumento. Si los puntajes deben usarse para clasificación,
En algunos casos, no obstante, los usuarios lo- son útiles los índices de coherencia de decisiones
cales de un procedimiento de prueba o evaluación además de las estimaciones de la confiabilidad/
deben aceptar al menos responsabilidad parcial de precisión de los puntajes. Si es probable que las
44

medias del grupo tengan un rol sustancial en el información relevante. Ningún método de inves-
uso de los puntajes, la confiabilidad/precisión de tigación es óptimo en todas las situaciones, ni el
estos puntajes medios debe reportarse. desarrollador de la prueba se limita a un único
Como se destaca en los comentarios anterio- enfoque para cualquier instrumento. La elección
res, no existe un único enfoque preferido para la de técnicas de estimación y el nivel mínimo acep-
cuantificación de la confiabilidad/precisión. Nin- table de cualquier índice continúan siendo un
gún índice solo transmite adecuadamente toda la asunto de juicio profesional.
45

capítulo 2
Estándares de confiabilidad/precisión
Los estándares en este capítulo comienzan con Unidad 1. Especificaciones para
un estándar global (numerado 2.0), que se ha
replicaciones del procedimiento de
diseñado para transmitir la intención central o
enfoque principal del capítulo. El estándar global evaluación
también puede verse como el principio rector del
capítulo, y es aplicable a todas las pruebas y usua- Estándar 2.1
se han separado en ocho unidades temáticas de- El rango de replicaciones sobre el que se eva-
nominadas de la siguiente manera: lúa la confiabilidad/precisión debe indicarse
claramente, junto con una justificación para la
1. Especificaciones para replicaciones del proce- elección de esta definición, dada la situación de
dimiento de evaluación evaluación.
2. Evaluación de la confiabilidad/precisión Comentario: Para cualquier programa de evalua-
3. Coeficientes de confiabilidad/generabilidad ción, es probable que algunos aspectos del proce-
4. Factores que afectan la confiabilidad/ dimiento de evaluación (p. ej., límites de tiempo
precisión y disponibilidad de recursos como libros, calcula-
5. Errores estándares de medida doras y computadoras) sean fijos, y se permitirá
6. Coherencia de decisiones que algunos aspectos varíen de una administra-
7. Confiabilidad/precisión de medias de grupos ción a otra (p. ej., tareas o estímulos específicos,
8. Documentación de la confiabilidad/precisión contextos de evaluación, evaluadores y, posible-
mente, ocasiones). Cualquier administración de
Estándar 2.0 la prueba que mantenga condiciones fijas e invo-
lucre muestras aceptables de las condiciones que
Se debe proporcionar evidencia apropiada de
se permita variar se consideraría una replicación
confiabilidad/precisión para la interpretación de
legítima del procedimiento de evaluación. Como
cada uso previsto de los puntajes.
primer paso en la evaluación de la confiabilidad/
Comentario: La forma de la evidencia (coeficiente precisión de los puntajes obtenidos con un pro-
de confiabilidad o generabilidad, función de in- cedimiento de evaluación, es importante identi-
formación, error estándar condicional, índice de ficar el rango de condiciones de varias clases que
coherencia de decisiones) para la confiabilidad/ se permitan variar, y sobre qué puntajes deben
precisión debe ser apropiada para los usos previs- generalizarse.
tos de los puntajes, la población involucrada y los
modelos psicométricos utilizados para derivar los Estándar 2.2
puntajes. Se requiere un grado de confiabilidad/
precisión más alto para usos de puntajes que tie- La evidencia proporcionada para la confiabili-
nen consecuencias más significativas para los exa- dad/precisión de los puntajes debe ser coherente
minandos. Al contrario, un grado más bajo puede con el dominio de replicaciones asociadas con
ser aceptable cuando una decisión basada en el los procedimientos de evaluación, y con las in-
puntaje de una prueba es reversible o depende de terpretaciones previstas para uso de los puntajes
la corroboración de otras fuentes de información. de la prueba.
46

Comentario: La evidencia de confiabilidad/ pre- usuarios datos de confiabilidad para todos los
cisión debe ser coherente con el diseño de los puntajes a interpretarse, y esos datos deben ser lo
procedimientos de evaluación y con las interpre- suficientemente detallados para permitir que los
taciones propuestas para uso de los puntajes de la usuarios juzguen si los puntajes son lo suficiente-
prueba. Por ejemplo, si la prueba puede tomarse mente precisos para las interpretaciones previstas
en cualquiera de una serie de ocasiones, y la inter- para su uso. Los puntajes compuestos formados a
pretación supone que los puntajes son invariantes partir de subpruebas seleccionadas dentro de una
en estas ocasiones, entonces cualquier variabilidad batería de pruebas suelen proponerse para fines
en los puntajes en esas ocasiones es una posible predictivos y de diagnóstico. Los usuarios nece-
fuente de error. Si se permite que las tareas o estí- sitan información sobre la confiabilidad de esos
mulos varíen entre formularios alternativos de la puntajes compuestos.
prueba, y los desempeños observados son tratados
como una muestra de un dominio de tareas simi-
lares, la variabilidad en los puntajes de un formu- Estándar 2.4
lario a otro se consideraría un error. Si se utilizan
evaluadores para asignar puntajes a respuestas, la Cuando la interpretación de puntajes de una
variabilidad en los puntajes entre evaluadores cua- prueba destaca diferencias entre dos puntajes
lificados es una fuente de error. Diferentes fuentes observados de un individuo o dos promedios de
de error pueden evaluarse en un solo coeficiente o un grupo, deben proporcionarse datos de confia-
error estándar, o pueden evaluarse por separado, bilidad/precisión, incluyendo errores estándares,
pero todas deben abordarse de alguna manera. para dichas diferencias.
Los reportes de confiabilidad/precisión deben es- Comentario: Las diferencias de puntajes obser-
pecificar las posibles fuentes de error incluidas en vados se utilizan para diversos fines. Los logros
los análisis. de rendimiento suelen ser de interés para grupos
y para individuos. En algunos casos, la confia-
Unidad 2. Evaluación de la bilidad/precisión de puntajes de cambio puede
ser mucho más baja que las confiabilidades de
confiabilidad/ precisión
los puntajes separados involucrados. Las diferen-
cias entre puntajes verbales y de desempeño en
Estándar 2.3 pruebas de inteligencia o capacidad académica
suelen emplearse en el diagnóstico de deterioro
Para cada puntaje total, subpuntaje o combina-
cognitivo y problemas de aprendizaje. Las infe-
ción de puntajes que deba interpretarse, deben
rencias psicodiagnósticas suelen hacerse a partir
reportarse estimaciones de índices relevantes de
de diferencias entre puntajes de subpruebas. Las
confiabilidad/ precisión.
baterías de aptitud y rendimiento, inventarios de
Comentario: No es suficiente reportar estimacio- interés y evaluaciones de personalidad se utili-
nes de confiabilidades y errores estándares de me- zan comúnmente para identificar y cuantificar
dida solo para puntajes totales cuando también las fortalezas y debilidades relativas, o el patrón
se interpretan subpuntajes. La coherencia entre de niveles de rasgos, de un examinando. Cuando
formularios y día a día de los puntajes totales en la interpretación de los puntajes de la prueba se
una prueba puede ser aceptablemente alta, aun- centra en los valores altos y bajos en el perfil de
que los subpuntajes pueden tener confiabilidad puntajes de la prueba del individuo examinado,
inaceptablemente baja, dependiendo de cómo la confiabilidad de las diferencias de puntajes es
se definan y utilicen. Se debe suministrar a los crítica.
47

capítulo 2
Estándar 2.5 la prueba deben indicar las fuentes de error que

se reflejan en los coeficientes de confiabilidad o
Los procedimientos de estimación de confiabi- generabilidad reportados, y las que son ignoradas
lidad deben ser coherentes con la estructura de por estos.
la prueba.
Comentario: Un solo puntaje total puede cal-
Estándar 2.7
cularse en pruebas que son multidimensionales.
El puntaje total de una prueba que es sustancial- Cuando el juicio subjetivo entre en la califica-
mente multidimensional debe tratarse como un ción de la prueba, debe proporcionarse evidencia
puntaje compuesto. Si una estimación de cohe- tanto de coherencia entre los evaluadores en la
rencia interna de la confiabilidad del puntaje total calificación como de coherencia dentro del indi-
se obtiene mediante el procedimiento dividido, viduo examinado en mediciones repetidas. Debe
las mitades deben ser comparables en contenido hacerse una distinción clara entre datos de con-
y características estadísticas. fiabilidad basados en (a) paneles independientes
En procedimientos de pruebas adaptables, de evaluadores que califican los mismos desem-
el conjunto de tareas incluidas en la prueba y el peños o productos, (b) un solo panel que cali-
secuenciamiento de tareas se hacen a medida del fica desempeños sucesivos o nuevos productos, y
examinando, utilizando algoritmos basados en (c) paneles independientes que califican desem-
modelos. En este contexto, la confiabilidad/pre- peños sucesivos o nuevos productos.
cisión puede estimarse utilizando simulaciones
basadas en el modelo. Para las pruebas adapta- Comentario: Las variaciones entre tareas en la
bles, los errores estándares condicionales basados calidad del desempeño de un individuo exami-
en modelos pueden ser particularmente útiles y nado y las incoherencias entre los evaluadores en
apropiados para evaluar la adecuación técnica del la calificación representan fuentes independientes
procedimiento. de error de medida. Los reportes de estudios de
confiabilidad/precisión deben aclarar cuáles de
esas fuentes se reflejan en los datos. Los estudios
Unidad 3. Coeficientes de de generabilidad y los análisis de componentes de
varianza pueden ser útiles para estimar las varian-
confiabilidad/generabilidad
zas de error que surgen de cada fuente de error.
Estos análisis pueden proporcionar estimaciones
Estándar 2.6 de varianza de error separadas para tareas, para
jueces, y para ocasiones dentro del período de
Un coeficiente de confiabilidad o generabilidad
tiempo de estabilidad de rasgos. Debe proporcio-
(o error estándar) que aborda un tipo de variabi-
narse información sobre las cualificaciones y ca-
lidad no debe interpretarse como intercambiable
pacitación de los jueces utilizados en los estudios
con índices que abordan otros tipos de variabi-
de confiabilidad. La concordancia entre los eva-
lidad, a menos que sus definiciones de error de
luadores o entre los observadores puede ser parti-
medida puedan considerarse equivalentes.
cularmente importante para calificaciones y datos
Comentario: Los coeficientes de coherencia in- observacionales que involucran discriminaciones
terna, formularios alternativos y test-retest no de- sutiles. Debe observarse, no obstante, que cuando
ben considerarse equivalentes, dado que cada uno los evaluadores evalúan positivamente caracterís-
incorpora una definición única de error de me- ticas correlacionadas, una evaluación favorable o
dida. Las varianzas de error derivadas mediante desfavorable de un rasgo puede influir en sus opi-
teoría de respuesta al ítem por lo general no son niones de otros rasgos. Además, la alta coherencia
equivalentes a las varianzas de error estimadas entre los evaluadores no implica alta coherencia
mediante otros enfoques. Los desarrolladores de del individuo examinado de una tarea a otra. Por
48

lo tanto, la concordancia entre los evaluadores no que no se cumplan (p. ej., que los ítems en la
garantiza alta confiabilidad de los puntajes del in- prueba existente y los ítems que se agregarán o
dividuo examinado. quitarán son todos muestreados de manera alea-
toria de un solo dominio). Los efectos del con-
texto son corrientes en las pruebas de desempeño
Unidad 4. Factores que afectan la máximo, y la versión corta de una prueba estan-
confiabilidad/precisión darizada a menudo comprende una muestra no
aleatoria de ítems de la versión completa. Como
Estándar 2.8 resultado, es posible que el valor predicho de la
confiabilidad/precisión no proporcione una esti-
Cuando las pruebas de respuesta construida se mación muy buena del valor real, y por lo tanto,
califican localmente, los datos de confiabilidad/ cuando sea viable, la confiabilidad/precisión de
precisión deben reunirse y reportarse para la ca- ambos formularios debería evaluarse directa e
lificación local cuando hay disponibles muestras independientemente.
de tamaño adecuado.
Comentario: Por ejemplo, muchos programas de Estándar 2.10
evaluación a nivel estatal dependen de califica-
ciones locales de ensayos, ejercicios de respuesta Cuando se permitan variaciones significativas en
construida, y tareas de desempeño. Los análisis de las pruebas o procedimientos de administración
confiabilidad/precisión pueden indicar que se ne- de pruebas, deben proporcionarse análisis de
cesita capacitación adicional de los calificadores y, confiabilidad/precisión separados para puntajes
por consiguiente, deben ser una parte integral de producidos en cada variación importante si hay
la supervisión del programa. Los datos de confia- disponibles tamaños de la muestra adecuados.
bilidad/precisión deben comunicarse solo cuando Comentario: Para hacer que una prueba sea ac-
son suficientes para arrojar resultados sólidos cesible para todos los individuos examinados,
desde el punto de vista estadístico y son coheren- los editores o usuarios de la prueba podrían au-
tes con las obligaciones de privacidad aplicables. torizar, o podría requerirse legalmente que se
autoricen, adecuaciones o modificaciones en los
Estándar 2.9 procedimientos que se especifican para la admi-
nistración de una prueba. Por ejemplo, pueden
Cuando una prueba está disponible en versio- usarse versiones en audio o en letra grande para
nes largas y cortas, la evidencia de confiabilidad/ los examinandos que tienen problemas de la vista.
precisión debe reportarse para puntajes en cada Cualquier alteración en los materiales o proce-
versión, preferentemente basada en adminis- dimientos de evaluación estándares puede tener
traciones independientes de cada versión con un impacto en la confiabilidad/precisión de los
muestras independientes de examinandos. puntajes resultantes y por lo tanto, en la medida
Comentario: La confiabilidad/precisión de pun- en que sea viable, la confiabilidad/precisión debe
tajes en cada versión se evalúa mejor a través de examinarse para todas las versiones de la prueba y
una administración independiente de cada una, procedimientos de evaluación.
utilizando los límites de tiempo designados.
Pueden utilizarse modelos psicométricos para Estándar 2.11
estimar la confiabilidad/precisión de una versión
más corta (o más larga) de una prueba existente, Los editores de la prueba deben proporcionar
basados en datos de una administración de la estimaciones de confiabilidad/precisión tan
prueba existente. Sin embargo, estos modelos pronto como sea viable para cada subgrupo rele-
por lo general hacen suposiciones que es posible vante para el que se recomienda la prueba.
49

capítulo 2
Comentario: Reportar estimaciones de confiabi- generabilidad y los errores estándares deben re-
lidad/precisión para subgrupos relevantes es útil portarse por separado para cada subgrupo.
en muchos contextos, pero es especialmente im-
portante si la interpretación de puntajes involucra
inferencias dentro del grupo (p. ej., en términos Unidad 5. Errores estándares de
de normas del subgrupo). Por ejemplo, los usua- medida
rios de la prueba que trabajan con un subgrupo
lingüístico y cultural específico o con individuos Estándar 2.13
que tienen una discapacidad en particular se be-
neficiarían con una estimación del error estándar El error estándar de medida, tanto general como
para el subgrupo. Del mismo modo, la evidencia condicional (si se reporta), debe proporcionarse
de que los niños de preescolar tienden a responder en unidades de cada puntaje reportado.
a estímulos de la prueba de una manera menos Comentario: El error estándar de medida (gene-
coherente que los niños mayores sería útil para ral o condicional) que se reporta debe ser cohe-
los usuarios de la prueba que interpretan puntajes rente con las escalas que se utilizan en el reporte
entre grupos etarios. de puntajes. Los errores estándares en unidades
Al considerar la confiabilidad/precisión de
de puntajes de escala para las escalas utilizadas
puntajes de la prueba para subgrupos relevan-
para reportar puntajes y/o para tomar decisiones
tes, es útil evaluar y reportar el error estándar de
son particularmente útiles para el usuario de la
medida, así como cualquier coeficiente que se
prueba típico. Los datos sobre desempeño del in-
estime. Los coeficientes de confiabilidad y gene-
dividuo examinado deben ser coherentes con las
rabilidad pueden diferir sustancialmente cuando
suposiciones incorporadas en cualquier modelo
los subgrupos tienen varianzas diferentes en el
estadístico utilizado para generar puntajes de
constructo que se evalúa. Las diferencias en la
escala y estimar los errores estándares para esos
variabilidad dentro del grupo tienden a tener
puntajes.
menos impacto en el error estándar de medida.
Estándar 2.14
Estándar 2.12
Cuando sea posible y corresponda, los errores es-
Si una prueba se propone para utilizarse en va- tándares de medida condicionales deben reportarse
rios grados o en un rango de edades, y si se pro- en varios niveles de puntajes a menos que exista
porcionan normas separadas para cada grado o evidencia de que el error estándar es constante en-
rango de edades, deben proporcionarse los da- tre los niveles de puntajes. Cuando se especifican
tos de confiabilidad/precisión para cada edad o puntajes de corte para selección o clasificación, los
subgrupo de nivel de grado, no solo para todos errores estándares de medida deben reportarse en
los grados o edades combinados. la proximidad de cada puntaje de corte.
Comentario: Un coeficiente de confiabilidad o Comentario: La estimación de errores estándares
generabilidad basado en una muestra de indivi- condicionales por lo general es viable con los ta-
duos examinados que abarca varios grados o un maños de la muestra que se usan para análisis de
rango amplio de edades en que los puntajes pro- confiabilidad/precisión. Si se supone que el error
medio aumentan en forma constante por lo gene- estándar es constante en un amplio rango de ni-
ral dará una impresión de confiabilidad/precisión veles de puntaje, debe presentarse la justificación
falsamente inflada. Cuando una prueba tiene por para esta suposición. El modelo en el que se basa
objeto discriminar dentro de poblaciones de eda- el cálculo de los errores estándares condicionales
des o grados, los coeficientes de confiabilidad o debe especificarse.
50

Estándar 2.15 Unidad 7. Confiabilidad/precisión de

Cuando existe evidencia creíble para esperar que medias de grupos
los errores estándares de medida condicionales
o funciones de información de prueba difieran Estándar 2.17
sustancialmente para varios subgrupos, debe
realizarse una investigación del alcance y el im- Cuando los puntajes promedio de la prueba
pacto de esas diferencias y reportarse tan pronto para grupos son el centro de la interpretación
como sea viable. propuesta de los resultados de la prueba, los
grupos evaluados por lo general deben conside-
Comentario: Si se encuentran diferencias, deben rarse como una muestra de una población más
indicarse claramente en la documentación corres- grande, incluso si se evalúan todos los indivi-
pondiente. Además, si efectivamente existen dife- duos examinados disponibles en el momento de
rencias sustanciales, el contenido de la prueba y la medición. En esos casos, debe reportarse el
los modelos de calificación deben examinarse para error estándar de la media de los grupos, porque
ver si hay alternativas legalmente aceptables que refleja variabilidad debida al muestreo de indivi-
no den por resultado dichas diferencias. duos examinados, así como variabilidad debida a
error de medida individual.
Unidad 6. Coherencia de decisiones Comentario: Los niveles generales de desempeño
en varios grupos tienden a ser el centro en la eva-
Estándar 2.16 luación de programas y sistemas de rendición de
cuentas, y los grupos que son de interés incluyen a
Cuando una prueba o combinación de medi- todos los estudiantes/clientes que podrían partici-
das se utiliza para tomar decisiones de clasifi- par en el programa en algún período. Por lo tanto,
cación, deben proporcionarse estimaciones del los estudiantes en una clase o escuela en particular
porcentaje de examinandos que se clasificarían en el momento actual, los clientes actuales de un
de la misma manera en dos replicaciones del organismo de servicios sociales, y grupos análogos
procedimiento. expuestos a un programa de interés por lo general
Comentario: Cuando un puntaje de prueba o constituyen una muestra en un sentido longitu-
puntaje compuesto se utiliza para tomar decisio- dinal. Presuntamente, grupos comparables de la
nes de clasificación (p. ej., aprobar/reprobar, nive- misma población se repetirán en años futuros, da-
les de rendimiento), el error estándar de medida das condiciones estáticas. Los factores que condu-
en o cerca de los puntajes de corte tiene impor- cen a incertidumbre en las conclusiones sobre la
tantes implicaciones para la fiabilidad de esas de- efectividad del programa surgen del muestreo de
cisiones. Sin embargo, el error estándar no puede personas así como del error de medida individual.
traducirse en el porcentaje esperado de decisiones
coherentes o exactas sin suposiciones sólidas sobre Estándar 2.18
las distribuciones de errores de medida y punta-
jes verdaderos. Si bien la coherencia de decisio- Cuando la finalidad de la evaluación es medir
nes suele estimarse a partir de la administración el desempeño de grupos en lugar del de indi-
de un solo formulario, puede y debería estimarse viduos, pueden asignarse aleatoriamente sub-
directamente a través del uso de un enfoque de conjuntos de ítems a diferentes submuestras de
test-retest, si es coherente con los requisitos de individuos examinados. Los datos se agregan
seguridad de la prueba, y si se cumple la suposi- entre submuestras y subconjuntos de ítems para
ción de ausencia de cambio en el constructo y hay obtener una medida del desempeño del grupo.
muestras adecuadas disponibles. Cuando se usan estos procedimientos para la
51

capítulo 2
evaluación de programas o descripciones de po- Dado que hay muchas maneras de estimar la
blaciones, los análisis de confiabilidad/precisión confiabilidad/precisión, y cada una está influen-
deben tener en cuenta el esquema de muestreo. ciada por diferentes fuentes de error de medida,
es inaceptable decir simplemente: “La confia-
Comentario: Este tipo de programa de medición
bilidad/precisión de puntajes en la prueba X es
recibe el nombre de muestreo de matriz. Se ha
0,90”. Un enunciado mejor sería: “El coeficiente
diseñado para reducir el tiempo requerido de cada
de confiabilidad de 0,90 reportado para puntajes
individuo examinado y aun así aumentar la canti-
en la prueba X se obtuvo correlacionando punta-
dad total de ítems sobre los que pueden obtenerse
jes de los formularios A y B administrados en días
datos. Este enfoque de evaluación proporciona el
consecutivos. Los datos se basaron en una mues-
mismo tipo de información sobre desempeños de
tra de 400 estudiantes de 10.° grado de cinco
grupos que se obtendría si todos los individuos
escuelas suburbanas de clase media en el estado
examinados hubieran realizado todos los ítems.
de Nueva York. El desglose demográfico de este
Las estadísticas de confiabilidad/precisión deben
grupo fue el siguiente:...”. En algunos casos, por
reflejar el plan de muestreo utilizado con respecto
ejemplo, cuando se involucran tamaños pequeños
a los individuos examinados e ítems.
de la muestra o datos especialmente confidencia-
les, las restricciones legales aplicables que rigen la
Unidad 8. Documentación de la privacidad pueden limitar el nivel de información
confiabilidad/precisión que debería divulgarse.
Estándar 2.19 Estándar 2.20

Cada método de cuantificación de la confiabili- Si los coeficientes de confiabilidad se ajustan
dad/precisión de puntajes debe describirse clara- para restricción de rango o variabilidad, deben
mente y expresarse en términos de estadísticas informarse el procedimiento de ajuste y los
apropiadas para el método. Deben reportarse coeficientes tanto ajustados como no ajustados.
los procedimientos de muestreo utilizados para Deben presentarse las desviaciones estándares
seleccionar examinandos para análisis de confia- del grupo efectivamente evaluado y de la po-
bilidad/precisión y las estadísticas descriptivas blación de destino, así como la justificación del
sobre estas muestras, con sujeción a las obliga- ajuste.
ciones de privacidad cuando corresponda.
Comentario: La aplicación de una corrección para
Comentario: La información sobre el método de restricción en la variabilidad supone que la mues-
recopilación de datos, tamaños de las muestras, tra disponible no es representativa (en términos de
medias, desviaciones estándares y característi- variabilidad) de la población de examinandos a la
cas demográficas de los grupos evaluados ayuda que podría esperarse que los usuarios generalicen.
a los usuarios a juzgar en qué medida los datos La justificación para la corrección debe considerar
reportados se aplican a sus propias poblaciones lo apropiado de esa generalización. Las fórmulas
de individuos examinados. Si se utiliza el enfoque de ajuste que suponen constancia en el error es-
de test-retest o de formularios alternativos, debe tándar entre niveles de puntajes no deben usarse a
indicarse el intervalo entre administraciones. menos que la constancia pueda defenderse.
52

3. IMPARCIALIDAD EN LAS PRUEBAS
Antecedentes
Este capítulo aborda la importancia de la impar- de examinandos, como individuos con discapaci-
cialidad como cuestión fundamental en la protec- dades e individuos con características lingüísticas
ción de los examinandos y usuarios de pruebas en y culturales diversas, se presentaron en capítulos
todos los aspectos de evaluación. El término im- separados. En la versión actual de los Estándares,
parcialidad no tiene un solo significado técnico y estas cuestiones se presentan en un solo capítulo
se utiliza de muchas maneras diferentes en el de- para hacer hincapié en que la imparcialidad para
bate público. Es posible que individuos avalen la todos los individuos en la población prevista de
imparcialidad en las pruebas como una meta social examinandos es un interés primordial y funda-
deseable, y aun así lleguen a conclusiones bastante mental, y que se aplican principios comunes en
diferentes sobre la imparcialidad de un programa la respuesta a características de los examinandos
de evaluación determinado. Una consideración que podrían interferir con la validez de la inter-
completa del tema exploraría las múltiples fun- pretación de los puntajes de la prueba. Esto no
ciones de las pruebas en relación con sus nume- quiere decir que la respuesta a características de
rosas metas, incluyendo la meta amplia de lograr los examinandos sea la misma para individuos de
igualdad de oportunidades en nuestra sociedad. subgrupos diversos como los definidos por raza,
Consideraría las propiedades técnicas de las prue- origen étnico, género, cultura, idioma, edad, dis-
bas, las maneras en que se reportan y utilizan los capacidad o nivel socioeconómico, sino que esas
resultados de las pruebas, los factores que afectan respuestas deberían ser sensibles a características
la validez de las interpretaciones de puntajes y las individuales que de otro modo comprometerían
consecuencias del uso de las pruebas. Un análisis la validez. No obstante, como se analizó en la in-
completo de imparcialidad en las pruebas también troducción, es importante tener presente, al usar
examinaría las regulaciones, leyes y la jurispruden- los Estándares, que la aplicabilidad depende del
cia que rigen el uso de pruebas y las reparaciones contexto. Por ejemplo, posibles amenazas a la
para prácticas de evaluación perjudiciales. Los Es- validez de la prueba para individuos examinados
tándares no pueden esperar tratar adecuadamente con competencia limitada en inglés son diferentes
todas estas amplias cuestiones, algunas de las cua- de las correspondientes a individuos examinados
les han suscitado fuerte desacuerdo entre especia- con discapacidades. Además, las amenazas a la va-
listas en evaluación y otras partes interesadas en lidez pueden diferir incluso para individuos den-
la evaluación. Nuestro enfoque debe limitarse en tro del mismo subgrupo. Por ejemplo, individuos
este caso a delinear los aspectos de las pruebas, la con discapacidades específicas diversas constitu-
evaluación y el uso de pruebas que se relacionan yen el subgrupo de “individuos con discapacida-
con la imparcialidad según se describe en este ca- des” e individuos examinados clasificados como
pítulo, que son la responsabilidad de quienes de- con “competencia limitada en inglés” represen-
sarrollan, usan e interpretan los resultados de las tan un rango de niveles de competencia en un
pruebas, y sobre los cuales existe acuerdo profesio- idioma, nivel educativo y características culturales
nal y técnico general. y experiencias previas. Además, la equivalencia
La imparcialidad es una cuestión de validez del constructo que se evalúa es un tema central
fundamental y requiere atención en todas las eta- en la imparcialidad, tanto si el contexto es, por
pas del desarrollo y uso de las pruebas. En versiones ejemplo, individuos con discapacidades especiales
anteriores de los Estándares, la imparcialidad y la diversas, individuos con competencia limitada en
evaluación de individuos de subgrupos específicos inglés o individuos de diversos países y culturas.
53

capítulo 3
Al igual que en versiones anteriores de los Los ítems y tareas de la prueba pueden entonces
Estándares, el capítulo actual aborda el sesgo de diseñarse y desarrollarse intencionalmente desde
medición como una amenaza central a la impar- el comienzo para reflejar el constructo previsto,
cialidad en las pruebas. Sin embargo, también minimizar las características irrelevantes del cons-
incorpora dos conceptos importantes que han tructo que de otro modo podrían impedir el des-
surgido en la bibliografía, en especial en la biblio- empeño de los grupos previstos de individuos
grafía relacionada con educación, para minimizar examinados, y para maximizar, en la medida po-
el sesgo y por consiguiente aumentar la impar- sible, el acceso para tantos individuos examinados
cialidad. El primer concepto es la accesibilidad, como sea posible en la población prevista, inde-
la noción de que todos los examinandos deben pendientemente de la raza, origen étnico, edad,
tener la oportunidad sin obstáculos de demostrar género, nivel socioeconómico, discapacidad o ca-
su situación respecto de los constructos someti- racterísticas de idioma o culturales.
dos a medición. Por ejemplo, es posible que los Aun así, para algunos individuos en algunos
individuos con competencia limitada en inglés no contextos de prueba y para algunos fines —como
se diagnostiquen adecuadamente en el constructo se describe más adelante— es posible que exista la
de destino de un examen clínico si la evaluación necesidad de adaptaciones adicionales de la prueba
requiere un nivel de competencia en inglés que para responder a características individuales que
no poseen. De manera similar, la letra estándar y de otro modo limitarían el acceso al constructo tal
algunos formatos electrónicos pueden constituir como se mide. Algunos ejemplos son la creación
desventajas para los individuos examinados con de una versión de la prueba en sistema braille, per-
problemas de la vista y algunos adultos mayores mitir tiempo adicional de evaluación, y proporcio-
que necesitan aumento para leer, y la desventaja se nar traducciones o simplificación del lenguaje de
considera injusta si la agudeza visual es relevante la prueba. Cualquier adaptación de la prueba debe
para el constructo sometido a medición. Estos considerarse atentamente, ya que algunas adapta-
ejemplos muestran cómo el acceso al constructo ciones pueden alterar el constructo previsto de la
que mide la prueba puede verse impedido por ca- prueba. Responder a características individuales
racterísticas y/o habilidades que no se relacionan que de otro modo impedirían el acceso y mejorar
con el constructo previsto y que, por ende, pue- la validez de las interpretaciones de los puntajes de
den limitar la validez de las interpretaciones de los la prueba para los usos previstos son dos considera-
puntajes para los usos previstos para determinados ciones para respaldar la imparcialidad.
individuos y/o subgrupos en la población prevista En resumen, este capítulo interpreta la impar-
de examinandos. La accesibilidad es un requisito cialidad como la capacidad de respuesta a carac-
legal en algunos contextos de evaluación. terísticas individuales y contextos de evaluación
El segundo nuevo concepto contenido en este de modo que los puntajes de la prueba arrojen
capítulo es el de diseño universal. El diseño uni- interpretaciones válidas para los usos previstos.
versal es un enfoque hacia el diseño de pruebas que La definición de imparcialidad de los Estánda-
busca maximizar la accesibilidad para todos los res es a menudo más amplia de lo que se requiere
examinandos previstos. El diseño universal, según legalmente. Una prueba que es imparcial dentro
se describe con mayor profundidad más adelante del significado de los Estándares refleja los mis-
en este capítulo, requiere que los desarrolladores mos constructos para todos los examinandos, y los
de la prueba sean claros sobre los constructos so- puntajes de esta tienen el mismo significado para
metidos a medición, incluyendo el objetivo de la todos los individuos en la población prevista; una
evaluación, el fin para el que se usarán los pun- prueba imparcial no favorece ni desfavorece a algu-
tajes, las inferencias que se harán a partir de los nos individuos debido a características irrelevantes
puntajes, y las características de los individuos para el constructo previsto. En la medida posible,
examinados y los subgrupos de la población pre- deben considerarse las características de todos los
vista de la prueba que podrían influir en el acceso. individuos en la población prevista de la prueba,
54

IMPARCIALIDAD EN LAS PRUEBAS
incluyendo las asociadas con raza, origen étnico, gé- examinandos demuestren su situación respecto
nero, edad, nivel socioeconómico, o características del o de los constructos que la prueba tiene por
lingüísticas o culturales, a lo largo de todas las eta- objeto medir. Tradicionalmente, la estandariza-
pas de desarrollo, administración, calificación, in- ción cuidadosa de las pruebas, las condiciones de
terpretación y uso, de modo que puedan reducirse administración y los procedimientos de califica-
los obstáculos a la evaluación imparcial. Al mismo ción han ayudado a asegurar que los examinandos
tiempo, los puntajes de la prueba deben arrojar in- tengan contextos comparables en los que demos-
terpretaciones válidas para los usos previstos, y es trar sus capacidades o atributos sometidos a medi-
posible que diferentes contextos y usos de la prueba ción. Por ejemplo, se implementan instrucciones
requieran diferentes enfoques hacia la imparciali- uniformes, límites de tiempo especificados, arre-
dad. Por ejemplo, en las pruebas utilizadas para fi- glos especificados en las salas, uso de monitores,
nes de selección, las adaptaciones a procedimientos y uso de procedimientos de seguridad coherentes
estandarizados que aumentan la accesibilidad para de modo que las diferencias en las condiciones de
algunos individuos, pero cambian el constructo so- administración no influyan involuntariamente en
metido a medición podrían reducir la validez de las el desempeño de algunos examinandos respecto
inferencias de los puntajes para los fines previstos y de otros. De manera similar, las cuestiones sobre
favorecer injustamente a quienes reúnen los requi- imparcialidad en el trato pueden requerir, para
sitos para adaptación en relación con los que no lo algunas pruebas, que todos los examinandos ten-
hacen. Por el contrario, para fines de diagnóstico gan administradores de pruebas cualificados con
en medicina y educación, adaptar una prueba para quienes puedan comunicarse y sentirse cómodos
aumentar la accesibilidad para algunos individuos en la medida posible. En los casos que involucren
podría aumentar la exactitud del diagnóstico. tecnología, es importante que los individuos exa-
Estas cuestiones se analizan en las secciones a minados hayan tenido exposición previa similar a
continuación y se representan en los estándares la tecnología y que los equipos proporcionados a
que siguen a la introducción del capítulo. todos los examinandos tengan una velocidad de
procesamiento similar y proporcionen claridad y
Puntos de vista generales de la tamaño similares para las imágenes y otros me-
imparcialidad dios. Los procedimientos para la administración
estandarizada de una prueba deben ser documen-
El primer punto de vista de la imparcialidad en las tados con detenimiento por el desarrollador de
pruebas que se describe en este capítulo establece la prueba y el administrador de la prueba debe
el principio de trato justo y equitativo para todos seguirlos cuidadosamente.
los examinandos durante el proceso de evalua- Si bien la estandarización ha sido un principio
ción. El segundo, tercer y cuarto punto de vista fundamental para asegurar que todos los indivi-
presentados aquí hacen hincapié en cuestiones duos examinados tengan la misma oportunidad
de imparcialidad en la calidad de la medición: de demostrar su situación respecto del constructo
imparcialidad como falta o ausencia de sesgo de que la prueba tiene por objeto medir, a veces se
medición, imparcialidad como acceso a los cons- necesita flexibilidad para proporcionar oportu-
tructos medidos, e imparcialidad como validez de nidades esencialmente equivalentes para algunos
las interpretaciones de los puntajes individuales examinandos. En esos casos, es posible que as-
de la prueba para el uso o los usos previstos. pectos de un proceso de evaluación estandarizado
que no plantean un desafío en particular para la
Imparcialidad en el trato durante el proceso de mayoría de los examinandos eviten que grupos o
evaluación individuos específicos demuestren con exactitud
Independientemente de la finalidad de la prueba, su situación con respecto al constructo de inte-
la meta de la imparcialidad es maximizar, en la rés. Por ejemplo, pueden surgir desafíos debido
medida posible, la oportunidad para que los a la discapacidad, origen cultural, característica
55

capítulo 3
lingüística, raza, origen étnico, nivel socioeconó- puntajes de la prueba y otras variables para dife-
mico de un individuo examinado, limitaciones rentes grupos, lo que trae consigo preocupaciones
que pueden venir con la edad, o alguna combi- sobre sesgo en las inferencias extraídas del uso de
nación de estos u otros factores. En algunos ca- los puntajes de la prueba. La predicción diferen-
sos, puede alcanzarse mayor comparabilidad de cial se examina utilizando análisis de regresión.
puntajes si los procedimientos estandarizados se Un enfoque examina las diferencias de pendiente
cambian para abordar las necesidades de grupos e intersección entre dos grupos de destino (p. ej.,
o individuos específicos sin ningún efecto adverso individuos examinados afroamericanos e indivi-
en la validez o confiabilidad de los resultados ob- duos examinados caucásicos), mientras que otro
tenidos. Por ejemplo, pueden proporcionarse un examina desviaciones sistemáticas de una línea
formulario de prueba en sistema braille, una hoja de regresión común para cualquier número de
de respuestas en letra grande o un lector de pan- grupos de interés. Ambos enfoques proporcionan
talla para permitir que quienes tienen problemas información valiosa al examinar predicción dife-
de la vista obtengan acceso más equitativo al con- rencial. Los coeficientes de correlación proporcio-
tenido de la prueba. Las consideraciones legales nan evidencia inadecuada a favor o en contra de
también pueden influir en cómo abordar necesi- una hipótesis de predicción diferencial si se de-
dades individualizadas. termina que los grupos tienen medias y varianzas
desiguales en la prueba y en el criterio.
Imparcialidad como falta de sesgo de medición Cuando evidencia creíble indica posible sesgo
Las características de la prueba propiamente dicha en la medición (es decir, falta de significado co-
que no se relacionen con el constructo sometido a herente del constructo entre grupos, DIF, DTF)
medición, o la manera en que se utiliza la prueba, o sesgo en relaciones predictivas, estas posibles
pueden en ocasiones dar por resultado diferentes fuentes de sesgo deben investigarse de manera
significados para los puntajes obtenidos por los independiente porque la presencia o ausencia de
miembros de subgrupos identificables. Por ejem- una forma de dicho sesgo puede no tener relación
plo, se dice que ocurre funcionamiento diferencial con otras formas de sesgo. Por ejemplo, es posi-
de los ítems (DIF, por sus siglas en inglés) cuando ble que una prueba predictora no muestre niveles
examinandos con iguales capacidades difieren en significativos de DIF, pero muestre diferencias de
sus probabilidades de responder a un ítem de la grupos en líneas de regresión en la predicción de
prueba correctamente como una función de per- un criterio. Si bien es importante advertir sobre la
tenencia a un grupo. El DIF puede evaluarse de posibilidad de sesgo de medición para los subgru-
diversas maneras. La detección de DIF no siem- pos que se han definido como relevantes en la po-
pre indica sesgo en un ítem; es necesario que haya blación prevista de la prueba, es posible que no
una explicación adecuada sustancial para que el sea viable investigar completamente todas las po-
DIF justifique la conclusión de que el ítem está sibilidades, en especial en el contexto laboral. Por
sesgado. El funcionamiento diferencial de la ejemplo, el número de miembros del subgrupo
prueba (DTF, por sus siglas en inglés) se refiere a en la prueba de campo o población de normali-
diferencias en el funcionamiento de las pruebas (o zación puede limitar la posibilidad de análisis em-
conjuntos de ítems) para diferentes grupos espe- píricos estándares. En estos casos, la investigación
cialmente definidos. Cuando ocurre DTF, los in- previa, una justificación basada en el constructo
dividuos de diferentes grupos que tienen la misma y/o datos de pruebas similares pueden abordar las
situación respecto de la característica evaluada por inquietudes relacionadas con posible sesgo en la
la prueba no tienen el mismo puntaje de la prueba medición. Además, y especialmente cuando existe
esperado. evidencia creíble de posible sesgo, deben conside-
El término sesgo predictivo puede usarse rarse metodologías para muestras pequeñas. Por
cuando se encuentra evidencia de que existen ejemplo, se puede examinar el posible sesgo para
diferencias en los patrones de asociaciones entre subgrupos relevantes mediante ensayos a pequeña
56

escala que utilizan laboratorios cognitivos y/o en- para responder a las tareas de la prueba o a los
trevistas o grupos focales para solicitar evidencia ítems de la prueba. Para algunos examinandos,
sobre la validez de interpretaciones hechas a partir los factores relacionados con características in-
de puntajes de la prueba. dividuales como edad, raza, origen étnico, nivel
Una cuestión relacionada es la medida en que socioeconómico, antecedentes culturales, disca-
el constructo que se evalúa tiene un significado pacidad o competencia en lengua inglesa pueden
equivalente entre los individuos y grupos dentro restringir la accesibilidad y por consiguiente in-
de la población prevista de examinandos. Esto es terferir con la medición de los constructos de in-
especialmente importante cuando la evaluación se terés. Por ejemplo, es posible que un examinando
realiza a nivel internacional y de diferentes cul- con problemas de la vista no pueda acceder al
turas. La evaluación del constructo subyacente y texto impreso de una prueba de personalidad.
propiedades de la prueba dentro de un país o cul- Si el texto se proporcionara en letra grande, las
tura no puede generalizarse a nivel internacional preguntas de la prueba podrían ser más accesibles
o de otras culturas. Esto puede llevar a interpreta- para el examinando y sería más probable que lle-
ciones inválidas de los puntajes de la prueba. En varan a una medición válida de las características
esos contextos se debe prestar mucha atención al de personalidad del examinando. Es importante
sesgo en las interpretaciones de los puntajes. ser consciente de las características de la prueba
que pueden hacer involuntariamente que las pre-
Imparcialidad en el acceso a los constructos guntas de la prueba sean menos accesibles para
tal como se miden algunos subgrupos de la población prevista de la
La meta de que todos los examinandos previs- prueba. Por ejemplo, una pregunta de una prueba
tos tengan una oportunidad plena de demostrar que emplee frases idiomáticas no relacionadas al
su situación respecto del constructo sometido a constructo sometido a medición podría tener el
medición ha generado inquietudes sobre la acce- efecto de hacer que la prueba sea menos accesi-
sibilidad en las pruebas. Las situaciones de eva- ble para examinandos que no son hablantes na-
luación accesibles son aquellas que permiten que tivos de inglés. La accesibilidad de una prueba
todos los examinandos en la población prevista, también podría verse reducida por preguntas que
en la medida en que sea viable, muestren su es- utilizan vocabulario regional no relacionado con
tado respecto de los constructos de destino sin ser el constructo de destino o que utilizan contextos
indebidamente favorecidos o desfavorecidos por de estímulo que son menos conocidos para los in-
características individuales (p. ej., características dividuos de algunos subgrupos culturales que de
relacionadas con la edad, discapacidad, raza/ori- otros.
gen étnico, género o idioma) que son irrelevantes Como se analiza más adelante en este capí-
para el constructo que la prueba tiene por objeto tulo, algunas características de los examinandos
medir. La accesibilidad es en realidad una cues- que impiden el acceso se relacionan con el cons-
tión de sesgo de la prueba porque los obstáculos tructo sometido a medición, por ejemplo, dislexia
a la accesibilidad pueden dar lugar a diferentes en el contexto de pruebas de lectura. En estos ca-
interpretaciones de los puntajes de la prueba para sos, proporcionar a los individuos acceso al cons-
los individuos de diferentes grupos. La accesibi- tructo y obtener alguna medida de este puede
lidad tiene también importantes ramificaciones requerir alguna adaptación del constructo tam-
éticas y legales. bién. En situaciones como esta, es posible que no
La accesibilidad puede entenderse mejor se pueda desarrollar una medición que sea compa-
comparando el conocimiento, las habilidades y rable entre versiones adaptadas y no adaptadas de
las capacidades que reflejan los constructos que la prueba; sin embargo, la medida obtenida por
la prueba tiene por objeto medir con el conoci- la prueba adaptada muy probablemente propor-
miento, las habilidades y las capacidades que no cione una evaluación más exacta de las habilida-
son el objeto de la prueba pero que se requieren des y/o capacidades del individuo (aunque tal vez
57

capítulo 3
no de todo el constructo previsto) que la obtenida diferencias culturales y lingüísticas respecto de la

sin usar la adaptación. mayoría de los examinandos se exponen al riesgo
Proporcionar acceso al constructo de una de interpretaciones de puntajes inexactas debido
prueba se vuelve particularmente difícil para los a múltiples factores asociados con la suposición
individuos con más de una característica que po- de que, en ausencia de cuestiones de competencia
dría interferir con el desempeño en la prueba; por en un idioma, estas personas tienen trayectorias
ejemplo, adultos mayores que no tienen un buen de desarrollo comparables con los individuos que
nivel de inglés o estudiantes de inglés con disca- han crecido en un entorno mediado por un solo
pacidades cognitivas moderadas. idioma y cultura. Por ejemplo, consideremos dos
niños de sexto grado que ingresaron en la escuela
Imparcialidad como validez de las con competencia limitada en inglés. El primer
interpretaciones de los puntajes individuales de niño ingresó en la escuela en jardín de infancia y
la prueba para los usos previstos ha recibido instrucción en cursos académicos en
Es importante tener presente que la imparciali- inglés; el segundo también ingresó en la escuela
dad se relaciona con la validez de las interpreta- en jardín de infancia, pero recibió instrucción
ciones de los puntajes individuales para los usos en su lengua nativa. Los dos tendrán un patrón
previstos. Al intentar asegurar la imparcialidad, de desarrollo diferente. En el primer caso, el de-
a menudo generalizamos entre grupos de exa- sarrollo interrumpido en lengua nativa tiene un
minandos como individuos con discapacidades, efecto atenuante en el aprendizaje y el desempeño
adultos mayores, individuos que están apren- académico, pero es posible que la competencia en
diendo inglés y los de diferentes grupos raciales inglés del individuo no sea un obstáculo significa-
o étnicos o diferentes características culturales y/o tivo para la prueba. Por el contrario, el individuo
socioeconómicas; sin embargo, esto se hace por examinado que ha recibido instrucción en su len-
cuestiones prácticas y no tiene por objeto dejar gua nativa hasta sexto grado ha tenido la oportu-
implícito que estos grupos son homogéneos o nidad de un desarrollo cognitivo, académico y de
que, en consecuencia, todos los miembros de un la lengua completamente apropiado para la edad;
grupo deben tratarse de manera similar cuando pero, si se lo evalúa en inglés, el individuo exami-
se hacen interpretaciones de los puntajes de la nado necesitará que la prueba se administre de tal
prueba para individuos (a menos que exista evi- manera que minimice el obstáculo de la lengua
dencia de validación para respaldar esas generali- si la competencia en inglés no es parte del cons-
zaciones). Es especialmente importante, cuando tructo sometido a medición.
se hacen inferencias sobre las habilidades o ca- Como muestran los ejemplos anteriores, la
pacidades de un individuo examinado, tener en adaptación a las características individuales y el
cuenta las características individuales del exami- reconocimiento de la heterogeneidad dentro de
nando y cómo estas características pueden inte- subgrupos pueden ser importantes para la validez
ractuar con las características contextuales de la de las interpretaciones individuales de los resul-
situación de evaluación. tados de la prueba en situaciones donde la inten-
La compleja interacción de competencia en ción es comprender y responder al desempeño
un idioma y contexto brinda un ejemplo de los individual. Se puede justificar que los profesio-
desafíos para una interpretación válida de los nales se aparten de los procedimientos estanda-
puntajes de la prueba para algunos fines de eva- rizados para obtener una medida más exacta del
luación. La competencia en inglés no solo afecta constructo previsto y proporcionar decisiones
la interpretación de los puntajes de la prueba de individuales más apropiadas. Sin embargo, para
un estudiante de lengua inglesa en pruebas ad- otros contextos y usos, las desviaciones de los pro-
ministradas en inglés, sino, lo que es más impor- cedimientos estandarizados pueden ser inapro-
tante, también afecta el progreso de desarrollo piadas porque cambian el constructo sometido
y académico del individuo. Los individuos con a medición, comprometen la comparabilidad de
58

puntajes o uso de normas y/o favorecen injusta- fuentes de sesgo en el contenido y los formatos de
mente a algunos individuos. la prueba, el potencial de algún sesgo de puntaje
Al cerrar esta sección sobre los significados de no puede descartarse por completo. Por lo tanto,
la imparcialidad, obsérvese que la perspectiva de se justifican los esfuerzos continuos en el diseño
medición de los Estándares excluye explícitamente y desarrollo de pruebas para eliminar posibles
un punto de vista común de la imparcialidad en el fuentes de sesgo sin comprometer la validez, y
debate público: la imparcialidad como la igualdad que sean compatibles con los estándares legales y
de resultados de evaluación para subgrupos de regulatorios.
examinandos relevantes. Desde luego, la mayo-
ría de los profesionales dedicados a la evaluación Amenazas a las interpretaciones
coinciden en que las diferencias de grupos en los imparciales y válidas de los
resultados de evaluación deberían dar lugar a ma- puntajes de una prueba
yor escrutinio sobre posibles fuentes de sesgo en
las pruebas. El examen de diferencias de grupos Una amenaza principal a la interpretación impar-
también puede ser importante en la generación cial y válida de los puntajes de una prueba proviene
de nuevas hipótesis sobre sesgo, trato imparcial, y de aspectos de la prueba o del proceso de evalua-
la accesibilidad del constructo tal como se mide; y ción que pueden producir varianza irrelevante de
de hecho, es posible que existan requisitos legales constructo en los puntajes que sistemáticamente
para investigar ciertas diferencias en los resultados reduce o aumenta los puntajes para grupos iden-
de evaluación entre subgrupos. Sin embargo, las tificables de examinados y da por resultado inter-
diferencias de grupos en los resultados en sí mis- pretaciones inapropiadas de los puntajes para los
mas no indican que una aplicación de evaluación usos previstos. Dichos componentes irrelevantes
esté sesgada o sea imparcial. del constructo de los puntajes pueden ser intro-
En muchos casos, no está claro si las diferen- ducidos por muestreo inapropiado del contenido
cias se deben a diferencias reales entre grupos en de la prueba, aspectos del contexto de la prueba
el constructo sometido a medición o a alguna como falta de claridad en las instrucciones de la
fuente de sesgo (p. ej., varianza irrelevante de prueba, complejidades de los ítems que no se re-
constructo o infrarrepresentación de constructo). lacionan con el constructo sometido a medición,
En la mayoría de los casos, puede ser alguna com- y/o expectativas de respuestas a la prueba o cri-
binación de diferencias reales y sesgo. Una bús- terios de calificación que pueden favorecer a un
queda seria de posibles fuentes de sesgo que no grupo por sobre otro. Además, la oportunidad de
arroje resultados proporciona la confirmación de aprendizaje (es decir, la medida en que un indivi-
que el potencial de sesgo es limitado, pero incluso duo examinado ha estado expuesto a instrucción
un programa de investigación muy extensivo no o experiencias que han sido supuestas por el desa-
puede descartar la posibilidad. Siempre es posi- rrollador y/o usuario de la prueba) puede influir
ble que algo se pase por alto, y por consiguiente, en las interpretaciones imparciales y válidas de los
la prudencia sugeriría que se intente minimizar puntajes de una prueba para sus usos previstos.
las diferencias. Por ejemplo, algunos subgrupos
raciales y étnicos tienen puntajes medios más ba- Contenido de la prueba
jos en algunas pruebas estandarizadas que otros Una posible fuente de varianza irrelevante de
subgrupos. Algunos de los factores que contribu- constructo en los puntajes de la prueba surge
yen a estas diferencias se entienden (p. ej., grandes de contenido inapropiado de la prueba, es decir,
diferencias en el ingreso familiar y otros recursos, contenido de la prueba que confunde la medición
diferencias en la calidad escolar y la oportunidad del constructo de destino y favorece en forma di-
de aprendizaje de los estudiantes en cuanto al ferencial a individuos de algunos subgrupos por
material que se evaluará), pero incluso cuando se sobre otros. Una prueba que tiene por objeto me-
han hecho esfuerzos serios para eliminar posibles dir lectura crítica, por ejemplo, no debe incluir
59

capítulo 3
palabras y expresiones especialmente asociadas desde el punto de vista emocional para algunos
con ocupaciones, disciplinas o características cul- examinandos.
turales, nivel socioeconómico, grupos raciales/
étnicos o ubicaciones geográficas en particular, Contexto de la prueba
de modo que se maximice la medición del cons- El término contexto de la prueba, tal como se usa
tructo (la capacidad para leer críticamente) y se en el presente, se refiere a múltiples aspectos de la
minimice la confusión de esta medición con co- prueba y del entorno de evaluación que pueden
nocimientos y experiencias previos que probable- afectar el desempeño de un individuo examinado
mente favorezcan o desfavorezcan a examinandos y en consecuencia dar lugar a varianza irrelevante
de subgrupos en particular. de constructo en los puntajes de la prueba. Dado
El compromiso y el valor motivacional di- que la investigación de factores contextuales
ferenciales también pueden ser factores en la (p. ej., amenaza de estereotipo) es continua, los de-
exacerbación de los componentes del contenido sarrolladores de la prueba y usuarios de la prueba
irrelevantes del constructo. El material que pro- deben prestar atención a la bibliografía empírica
bablemente sea interesante de manera diferencial que surja sobre estos temas de modo que puedan
debe equilibrarse para atraer en general a todo usar esta información cuando la preponderancia
el alcance de la población de destino de la eva- de evidencia indique que es apropiado hacerlo.
luación (excepto cuando el nivel de interés sea La varianza irrelevante de constructo puede sur-
parte del constructo sometido a medición). En gir de una falta de claridad en las instrucciones
las pruebas, ese equilibrio se extiende a la re- de la prueba, de complejidad no relacionada o de
presentación de individuos de una variedad de exigencias de lenguaje en las tareas de la prueba,
subgrupos dentro del contenido de la prueba y/o de otras características de ítems de la prueba
propiamente dicho. Por ejemplo, problemas aplique no se relacionan con el constructo pero que
cados pueden presentar a niños y familias de di- pueden llevar a algunos individuos a responder
ferentes grupos raciales/étnicos, socioeconómicos de ciertas maneras. Por ejemplo, los individuos
y de idioma. Además, el contenido de la prueba examinados de diversos orígenes raciales/étnicos,
o situaciones que sean ofensivos o perturbadores lingüísticos o culturales o que difieren por género
desde el punto de vista emocional para algunos pueden ser mal evaluados por un inventario de
examinandos y que puedan impedir su capacidad interés vocacional cuyas preguntas se refieren de
para comprometerse con la prueba no deben apa- manera desproporcionada a competencias, activi-
recer en la prueba a menos que el uso del conte- dades e intereses que están típicamente asociadas
nido ofensivo o perturbador sea necesario para con subgrupos en particular.
medir el constructo previsto. Ejemplos de este Cuando los ámbitos de prueba tienen un
tipo de contenido son las descripciones gráficas contexto interpersonal, la interacción del exami-
de esclavitud o del Holocausto, cuando dichas nador con el examinando puede ser una fuente
descripciones son específicamente requeridas por de varianza irrelevante de constructo o sesgo. Los
el constructo. usuarios de pruebas deben estar alertas ante la po-
Dependiendo del contexto y de la finalidad sibilidad de que dichas interacciones puedan en
de las pruebas, es tanto común como aconsejable ocasiones afectar la imparcialidad de la prueba.
que los desarrolladores de la prueba contraten a Los profesionales que administran la prueba de-
un panel independiente y diverso de expertos para ben ser conscientes de la posibilidad de interac-
que revisen el contenido de la prueba en cuanto ciones complejas con los examinandos y otras
a representaciones del lenguaje, ilustraciones, grá- variables situacionales. Los factores que pueden
ficos y otras que podrían ser diferencialmente co- afectar el desempeño del examinando incluyen
nocidas o interpretadas de manera diferente por la raza, origen étnico, género y características lin-
miembros de diferentes grupos y en cuanto a ma- güísticas y culturales tanto del examinador como
teriales que podrían ser ofensivos o perturbadores del examinando, la experiencia del examinador
60

con la educación formal, el estilo de evaluación que consideren que espera el administrador de la
del examinador, el nivel de aculturación del exa- prueba, en lugar de las respuestas que mejor los
minado y del examinador, el idioma principal del describen.
examinando, el idioma utilizado para la adminis- Los componentes irrelevantes del constructo
tración de la prueba (si no es el idioma principal en los puntajes de las pruebas también pueden
del examinando), y el uso de un intérprete bilin- asociarse con formatos de respuesta a la prueba
güe o bicultural. que plantean dificultades particulares o que son
La evaluación de individuos que son bilingües valorados de manera diferencial por individuos
o multilingües plantea desafíos especiales. Es po- en particular. Por ejemplo, el desempeño en
sible que una persona que sabe dos o más idiomas la prueba puede depender de alguna capacidad
no salga bien en la prueba en uno o más de los (p. ej., competencia en lengua inglesa o coor-
idiomas. Por ejemplo, es posible que los niños dinación de motricidad fina) que es irrelevante
de hogares cuyas familias hablan español puedan para los constructos de destino, pero que no obs-
comprender el español pero se expresen mejor en tante implica impedimentos a las respuestas de
inglés o viceversa. Además, algunas personas que la prueba para algunos examinandos que no tie-
son bilingües utilizan su lengua nativa en la ma- nen la capacidad. De manera similar, diferentes
yoría de las situaciones sociales y utilizan el inglés valores asociados con la naturaleza y el grado de
principalmente para actividades académicas y re- producción verbal pueden influir en las respues-
lacionadas con el trabajo; el uso de una o ambas tas del examinando. Algunos individuos pueden
lenguas depende de la naturaleza de la situación. juzgar la verbosidad o el discurso rápido como
Los hablantes de inglés no nativos que dan la im- algo grosero, mientras que otros pueden conside-
presión de tener buen nivel en inglés conversacio- rar esos patrones del habla como indicaciones de
nal pueden ser más lentos o no completamente alta capacidad mental o cordialidad. Un indivi-
competentes para realizar pruebas que requieren duo del primer tipo que es evaluado con valores
habilidades de comprensión y lectoescritura en apropiados para el segundo puede considerarse
inglés. Por lo tanto, en algunos contextos, un taciturno, introvertido o de baja capacidad men-
entendimiento del tipo y grado de bilingüismo tal. Otro ejemplo es la persona con problemas de
o multilingüismo de un individuo es importante memoria o de lenguaje o depresión; la capacidad
para evaluar al individuo de manera apropiada. de esa persona para comunicarse o mostrar interés
Obsérvese que esta cuestión puede no aplicarse en comunicarse verbalmente puede estar restrin-
cuando el constructo de interés se define como gida, lo cual puede dar lugar a interpretaciones de
una clase particular de competencia en lenguaje los resultados de la evaluación que sean inválidos
(p. ej., lenguaje académico del tipo que se encuen- y posiblemente perjudiciales para la persona que
tra en libros, lenguaje y vocabulario específico de se evalúa.
las pruebas de centro de trabajo y empleo). En el desarrollo y uso de rúbricas de punta-
jes, es especialmente importante que el crédito se
Respuesta a la prueba otorgue por características de respuesta centrales
En algunos casos, la varianza irrelevante de cons- para el constructo sometido a medición y no por
tructo puede surgir porque los ítems de la prueba características de respuesta que sean irrelevan-
suscitan variedades de respuestas distintas de las tes o tangenciales al constructo. Las rúbricas de
previstas o porque los ítems pueden resolverse de puntajes pueden favorecer involuntariamente a
maneras que no fueron previstas. En la medida en algunos individuos por sobre otros. Por ejemplo,
que dichas respuestas sean más típicas de algunos una rúbrica de puntajes para un ítem de respuesta
subgrupos de que otros, pueden surgir interpreta- construida podría reservar el nivel de puntaje
ciones de puntajes sesgadas. Por ejemplo, algunos más alto para los examinandos que proporcio-
clientes que responden a una prueba neuropsico- nan más información o elaboración que la que
lógica pueden intentar proporcionar las respuestas efectivamente se solicitó. En esta situación, los
61

capítulo 3
examinandos que simplemente siguen instruccio- puede verse comprometida. No tener en cuenta la
nes, o los examinandos que valoran la concisión oportunidad previa de aprendizaje podría dar lu-
en las respuestas, obtendrán menores puntajes; gar a un diagnóstico equivocado, colocación ina-
por consiguiente, las características de los indi- propiada y/o asignación inapropiada de servicios,
viduos se convierten en componentes irrelevan- lo que podría tener consecuencias significativas
tes del constructo de los puntajes de la prueba. para un individuo.
De manera similar, la calificación de repuestas Más allá de su impacto en la validez de las in-
abiertas puede introducir varianza irrelevante terpretaciones de puntajes de la prueba para usos
de constructo para algunos examinandos si los previstos, la oportunidad de aprendizaje tiene im-
evaluadores y/o rutinas de puntaje automático portantes ramificaciones legales y en materia de
no son sensibles a toda la diversidad de modos políticas en educación. La oportunidad de apren-
en que los individuos expresan sus ideas. Con el dizaje es una cuestión de imparcialidad cuando
advenimiento del puntaje automático para tareas una autoridad proporciona acceso diferencial a
de desempeño complejas, por ejemplo, es impor- la oportunidad de aprendizaje para algunos in-
tante examinar la validez de los resultados del dividuos y responsabiliza de su desempeño en la
puntaje automático para subgrupos relevantes en prueba a los individuos a quienes no se les pro-
la población de examinandos. porcionó esa oportunidad. Este problema puede
afectar a las pruebas de competencia de alto riesgo
Oportunidad de aprendizaje en educación, por ejemplo, cuando las autorida-
Por último, la oportunidad de aprendizaje —el des educativas requieren un cierto nivel de desem-
grado en que los individuos han estado expuestos peño en la prueba para la graduación de la escuela
a instrucción o conocimientos que les ofrezcan la secundaria. En este caso, existe una cuestión de
oportunidad de aprender el contenido y las habi- imparcialidad en cuanto a que los estudiantes
lidades objeto de la prueba— tiene varias implica- no sean responsabilizados de sus resultados en la
ciones para la interpretación imparcial y válida de prueba, o enfrenten consecuencias negativas per-
los puntajes de la prueba para sus usos previstos. manentes graves por ellos, cuando sus experien-
La oportunidad previa de aprendizaje de los indi- cias escolares no les hayan dado la oportunidad
viduos puede ser un importante factor contextual de aprender la asignatura cubierta por la prueba.
a considerar al interpretar y hacer inferencias de En esos casos, los puntajes bajos de los estudiantes
los puntajes de la prueba. Por ejemplo, es posible pueden reflejar exactamente qué saben y pueden
que un inmigrante reciente que ha tenido escasa hacer, de modo que, técnicamente, la interpreta-
exposición previa a la escuela no haya tenido la ción de los resultados de la prueba para el fin de
oportunidad de aprender conceptos que un in- medir cuánto han aprendido los estudiantes no
ventario de personalidad o medida de capacidad puede estar sesgada. Sin embargo, puede conside-
suponen como conocimientos comunes, incluso rarse injusto penalizar severamente a los estudian-
si la medida es administrada en la lengua nativa tes por circunstancias ajenas a su control, es decir,
del examinando. De manera similar, como otro por no aprender contenido que sus escuelas no
ejemplo, ha habido considerable debate público han enseñado. Se encuentra generalmente acep-
sobre las posibles desigualdades en los recursos tado que antes de que puedan imponerse conse-
escolares disponibles para estudiantes de grupos cuencias de alto riesgo por reprobar un examen
tradicionalmente desfavorecidos, por ejemplo, en contextos educativos, debe haber evidencia de
minorías raciales, étnicas, de lenguas y culturales que los estudiantes han recibido un plan de estu-
y estudiantes rurales. Dichas desigualdades afec- dios e instrucción que incorporan los constructos
tan la calidad de educación recibida. En la me- abordados por la prueba.
dida en que exista desigualdad, la validez de las Varias cuestiones importantes surgen cuando
inferencias sobre la capacidad de los estudiantes la oportunidad de aprendizaje se considera como
extraídas de puntajes de pruebas de rendimiento un componente de imparcialidad. En primer
62

lugar, es difícil definir la oportunidad de apren- dentro de la propia prueba. Algunos de estos
dizaje en la práctica educativa, particularmente principios básicos se incluyen en el proceso de
a nivel de individuo. La oportunidad es general- diseño de pruebas denominado diseño universal.
mente un asunto de grado y es difícil de cuanti- Al utilizar el diseño universal, los desarrolladores
ficar; además, la medición de algunos resultados de la prueba comienzan el proceso de desarrollo
de aprendizaje importantes puede requerir que de la prueba con vistas a maximizar la impar-
los estudiantes trabajen con materiales que han cialidad. El diseño universal destaca la necesidad
visto antes. En segundo lugar, incluso si es posi- de desarrollar pruebas que sean tan utilizables
ble documentar los temas incluidos en el plan de como sea posible para todos los examinandos en
estudios para un grupo de estudiantes, la cober- la población prevista de la prueba, independien-
tura de contenido específico para cualquier es- temente de características tales como género,
tudiante puede ser imposible de determinar. En edad, características lingüísticas, cultura, nivel
tercer lugar, otorgar un diploma a un individuo socioeconómico o discapacidad.
examinado con bajo puntaje basándose en que Los principios del diseño universal incluyen
el estudiante no ha tenido suficiente oportuni- definir constructos de manera precisa, de modo
dad de aprender el material evaluado significa que lo que se mida pueda diferenciarse clara-
certificar a alguien que no alcanzado el grado mente de las características del examinando que
de competencia que el diploma tiene por objeto sean irrelevantes para el constructo pero que po-
representar. drían de otro modo interferir con la capacidad
Debe observarse que las inquietudes sobre la de responder de algunos examinandos. El diseño
oportunidad de aprendizaje no necesariamente universal evita, cuando es posible, característi-
se aplican a situaciones en las que la misma au- cas y formatos de los ítems, o características de
toridad no es responsable tanto de impartir ins- la prueba (por ejemplo, aceleración de la prueba
trucción como de evaluar y/o interpretar los inapropiada), que puedan sesgar los puntajes para
resultados. Por ejemplo, en las decisiones sobre individuos o subgrupos debido a características
admisión universitaria, la oportunidad de apren- irrelevantes del constructo que sean específicas de
dizaje puede escapar al control de los usuarios de estos examinandos.
la prueba y puede no influir en la validez de las Los procesos del diseño universal se esfuerzan
interpretaciones de la prueba para su uso previsto por minimizar las dificultades de acceso teniendo
(p. ej., decisiones de selección y/o admisiones). El en cuenta características de la prueba que pueden
capítulo 12, “Pruebas y evaluación educativas”, impedir el acceso al constructo para determina-
proporciona una perspectiva adicional sobre la dos examinandos, como la elección de conte-
oportunidad de aprendizaje. nido, las tareas de la prueba, los procedimientos
de respuesta y los procedimientos de evaluación.
Minimizar los componentes irrelevantes Por ejemplo, el contenido de pruebas puede ha-
del constructo mediante el diseño de la cerse más accesible proporcionando tamaños
prueba y adaptaciones de la prueba de fuente seleccionadas por los usuarios en una
prueba basada en tecnología, evitando contextos
Las pruebas estandarizadas deben diseñarse para de ítems que probablemente no serían conocidos
facilitar la accesibilidad y minimizar los obstá- para los individuos debido a su contexto cultural,
culos irrelevantes del constructo para todos los proporcionando tiempo de administración exten-
examinandos en la población de destino, siem- dido cuando la velocidad no es relevante para el
pre que sea posible. Antes de considerar la nece- constructo sometido a medición, o minimizando
sidad de cualquier adaptación de evaluación para la carga lingüística de los ítems de la prueba pre-
los examinandos que puedan tener necesidades vistos para medir constructos distintos de com-
especiales, el desarrollador de la evaluación petencias en el idioma en que se administra la
primero debe intentar mejorar la accesibilidad prueba.
63

capítulo 3
Si bien los principios del diseño universal indicar cambios que afectan el constructo medido
para evaluación proporcionan una guía útil para por la prueba. Con una modificación, los cam-
desarrollar evaluaciones que reducen la varianza bios afectan el constructo sometido a medición y
irrelevante de constructo, los investigadores aún en consecuencia llevan a puntajes que difieren en
están reuniendo evidencia empírica para respaldar significado de los de la prueba original.1
algunos de estos principios. Es importante obser- Es importante tener presente que la atención
var que no todas las pruebas pueden hacerse ac- al diseño y la provisión de pruebas alteradas no
cesibles para todos mediante atención a cambios siempre garantiza que los resultados de la prueba
de diseño como los mencionados arriba. Incluso serán imparciales y válidos para todos los indivi-
cuando las pruebas se desarrollan para maximizar duos examinados. Quienes administran pruebas
la imparcialidad a través del uso de diseño univer- e interpretan los puntajes de la prueba necesitan
sal y otras prácticas para aumentar el acceso, aún desarrollar una comprensión cabal de la utilidad
existirán situaciones en las que la prueba no es y las limitaciones de los procedimientos de diseño
apropiada para todos los examinandos en la po- de pruebas para accesibilidad y cualquier alteración
blación prevista. Por lo tanto, es posible que se que se ofrezca.
necesiten algunas adaptaciones de la prueba para
los individuos cuyas características de otro modo Variedad de adaptaciones de prueba
impedirían su acceso al examen. En lugar de una simple dicotomía, las posibles
Las adaptaciones son cambios al diseño o ad- adaptaciones de prueba reflejan una amplia varie-
ministración originales de la prueba para aumen- dad de cambios en las pruebas. En un extremo
tar el acceso a la prueba para dichos individuos. de la variedad se encuentran las adecuaciones de
Por ejemplo, una persona que es ciega puede leer la prueba. Tal como el término se utiliza en los
solo en formato braille, y es posible que un indi- Estándares, las adecuaciones consisten en cam-
viduo con hemiplejia no pueda sostener un lápiz bios relativamente menores en la presentación
y por lo tanto tenga dificultad para completar y/o el formato de la prueba, la administración
un examen escrito estándar. Los estudiantes con de la prueba, o los procedimientos de respuesta
competencia limitada en inglés pueden ser com- que mantienen el constructo original y dan por
petentes en física, pero es posible que no puedan resultado puntajes comparables a los de la prueba
demostrar su conocimiento si la prueba de física original. Por ejemplo, el aumento del tamaño
se administra en inglés. Dependiendo de las cir- del texto podría ser una adecuación para un exa-
cunstancias de evaluación y los fines de la prueba, minando con un problema de la vista que de
así como de las características individuales, esas otro modo tendría dificultad para descifrar las
adaptaciones podrían incluir cambiar el conte- instrucciones o ítems de la prueba. Los glosa-
nido o presentación de los ítems de la prueba, rios de lengua inglesa nativa son un ejemplo de
cambiar las condiciones de administración y/o una adecuación que podría proporcionarse para
cambiar los procesos de respuesta. El término
adaptación se utiliza para hacer referencia a cual-
quiera de estos cambios. Es importante, no obs- 1
La Ley sobre Estadounidenses con Discapacidades
tante, diferenciar entre cambios que dan lugar a (ADA, por sus siglas en inglés) utiliza los términos adecuación
y modificación de manera diferente que los Estándares. El Tí-
puntajes comparables y cambios que pueden no tulo I de la ADA utiliza el término adecuación razonable para
producir puntajes que sean comparables a los de referirse a cambios que permiten que individuos cualificados
la prueba original. Si bien los términos pueden con discapacidades obtengan empleo para realizar sus trabajos.
tener significados diferentes en virtud de las leyes Los Títulos II y III utilizan el término modificación razonable
aplicables, tal como se utiliza en los Estándares el gran en parte de la misma manera. En virtud de la ADA, una
adecuación o modificación a una prueba que fundamental-
término adecuación se utiliza para indicar cam- mente altera el constructo sometido a medición no se llamaría
bios con los que se conserva la comparabilidad de de manera diferente; sino que probablemente se consideraría
puntajes, y el término modificación se utiliza para no “razonable”.
64

examinandos con competencia limitada en inglés estudiante no tiene que decodificar el texto im-
en una prueba de seguridad en construcción para preso; pero sin la adaptación, es posible que el es-
ayudarles a comprender lo que se pregunta. Los tudiante no pueda demostrar ninguna situación
glosarios contendrían palabras que, si bien no se con respecto al constructo de comprensión de
relacionan directamente al constructo sometido lectura. Por otra parte, si la finalidad de la prueba
a medición, ayudarían a examinandos con com- de lectura es evaluar la comprensión sin importar
petencia limitada en inglés a comprender el con- la capacidad de decodificación, podría juzgarse
texto de la pregunta o tarea planteada. que la adaptación respalda interpretaciones más
En el otro extremo de la variedad se en- válidas de la comprensión de lectura de algunos
cuentran las adaptaciones que transforman el estudiantes y la esencia de las partes relevantes
constructo sometido a medición, incluyendo el del constructo podría juzgarse intacta. El desafío
contenido de la prueba y/o las condiciones de para quienes reportan, interpretan y/o utilizan
evaluación, para obtener una medida razonable puntajes de pruebas de pruebas adaptadas es re-
de un constructo algo diferente pero apropiado conocer qué adaptaciones proporcionan puntajes
para los examinandos designados. Por ejemplo, que son comparables con los puntajes de la eva-
en evaluación educativa, se diseñan diferentes luación original sin adaptar y qué adaptaciones
pruebas que abordan los estándares de rendi- no. Este desafío se vuelve aún más difícil cuando
miento alternativos para estudiantes con disca- la evidencia para respaldar la comparabilidad de
pacidades cognitivas graves correspondientes a puntajes no está disponible.
los mismos temas en los que se evalúa a los es-
tudiantes sin discapacidades. Claramente, los Adecuaciones de la prueba: medidas
puntajes de estas pruebas diferentes no pueden comparables que mantienen el constructo
considerarse comparables a los que surgen de la previsto
evaluación general, pero en cambio representan La comparabilidad de puntajes permite a los
puntajes de una nueva prueba que requiere los usuarios de las pruebas hacer inferencias com-
mismos procesos rigurosos de desarrollo y valida- parables basadas en los puntajes para todos los
ción que se llevarían a cabo para cualquier nueva examinandos. La comparabilidad también es
evaluación. (En el capítulo 12 se incluye un de- la característica definitoria para que una adap-
bate ampliado del uso de dichas evaluaciones tación de prueba se considere una adecuación.
alternativas; las evaluaciones alternativas no se Los puntajes de la versión adaptada de la prueba
seguirán tratando en el presente capítulo). Otras deben arrojar inferencias comparables a los de la
adaptaciones cambian el constructo previsto para versión estándar; hacer que esto ocurra es una
hacer que sea accesible para los estudiantes de- proposición que plantea desafíos. Por un lado,
signados mientras conservan tanto como sea po- los procedimientos comunes, uniformes son un
sible del constructo original. Por ejemplo, una apoyo básico para la validez y comparabilidad
adaptación de una prueba de lectura podría pro- de puntajes. Por otra parte, las adecuaciones por
porcionar a un estudiante disléxico un lector de su propia naturaleza significan que algo en las
pantalla que lea en voz alta los pasajes y las pre- circunstancias de evaluación ha sido cambiado
guntas de la prueba que miden la comprensión porque adherir a los procedimientos estanda-
de lectura. Si el constructo está intencionalmente rizados originales interferiría con la medición
definido como que requiere tanto la capacidad válida de los constructos previstos para algunos
de decodificar como la capacidad de compren- individuos.
der lenguaje escrito, la adaptación requeriría La comparabilidad de inferencias hechas a
una interpretación diferente de los puntajes de partir de puntajes de prueba adaptados se basa
la prueba como una medida de la comprensión en gran parte en que los puntajes representen
de lectura. Claramente, esta adaptación cambia o no los mismos constructos que los de la
el constructo sometido a medición, porque el prueba original. Esta determinación requiere
65

capítulo 3
una definición muy clara de los constructos siguiendo procedimientos idénticos y luego se
previstos. Por ejemplo, cuando hablantes no equiparan estadísticamente, esos procedimien-
nativos del idioma de la prueba completan una tos por lo general no son posibles para versio-
encuesta de sus conocimientos sobre salud y nu- nes adaptadas y no adaptadas de las pruebas. En
trición, uno puede no saber si el puntaje de la cambio, la evidencia relevante puede adoptar
prueba es, total o parcialmente, una medida de diversas formas, desde estudios experimentales
la capacidad para leer en el idioma de la prueba para determinar la equivalencia de constructo
más que una medida del constructo previsto. Si hasta estudios cualitativos, más pequeños, y/o el
la prueba no tiene por objeto también ser una uso de juicio profesional y revisión de expertos.
medida de la capacidad para leer en inglés, los Cualquiera sea el caso, los desarrolladores y/o
puntajes de la prueba no representan los mismos usuarios de la prueba deben buscar evidencia de
constructos para los individuos examinados que la comparabilidad de las evaluaciones adaptada
pueden tener habilidades de lectura deficientes, y original.
como examinandos con competencia limitada Se ha implementado una variedad de estrate-
en inglés, que para los que son completamente gias para adecuar las pruebas y procedimientos de
competentes para leer en inglés. Una adaptación evaluación para responder a las necesidades de los
que mejora la accesibilidad de la prueba para examinandos con discapacidades y aquellos con
hablantes no nativos de inglés proporcionando características lingüísticas y culturales diversas.
apoyos lingüísticos directos o indirectos puede Similares enfoques pueden adaptarse para otros
arrojar un puntaje no contaminado por la capa- subgrupos. Las estrategias específicas dependen
cidad de comprender inglés. de la finalidad de la prueba y de los constructos
Al mismo tiempo, la infrarrepresentación de que la prueba tiene por objeto medir. Algunas
constructo es una amenaza primaria a la validez estrategias requieren cambiar los procedimientos
de las adecuaciones de la prueba. Por ejemplo, el de administración de la prueba (p. ej., instruc-
tiempo extra es una adecuación común, pero si ciones, formato de respuesta), mientras que otras
la velocidad es parte del constructo previsto, no alteran el medio, el momento, los contextos o el
es apropiado permitir tiempo extra en la admi- formato de evaluación. Dependiendo del con-
nistración de la prueba. Los puntajes obtenidos texto lingüístico o de la naturaleza y grado de la
en la prueba con tiempo de administración exten- discapacidad, uno o más cambios en la evalua-
dido pueden infrarrepresentar el constructo me- ción pueden ser apropiados para un individuo en
dido por la prueba estrictamente cronometrada particular.
porque la velocidad no será parte del constructo Independientemente de las características del
medido por la prueba de tiempo extendido. De individuo que hacen que las adecuaciones sean
manera similar, traducir una prueba de compren- necesarias, es importante que las adecuaciones
sión de lectura utilizada para la selección para un de la prueba aborden las cuestiones de acceso
programa de capacitación de una organización es específicas que de otro modo sesgarían los resul-
inapropiado si la comprensión de lectura en inglés tados de la prueba de un individuo. Por ejemplo,
es importante para la participación exitosa en el las adecuaciones provistas a examinandos con
programa. competencia limitada en inglés deben diseñarse
Las afirmaciones de que las versiones adapta- para abordar necesidades de apoyo lingüístico
das de una prueba arrojan interpretaciones com- apropiado; las proporcionadas a examinandos
parables a las basadas en puntajes de la prueba con problemas de la vista deben abordar la inca-
original y de que el constructo sometido a me- pacidad de ver el material de la prueba. Las ade-
dición no se ha cambiado deben evaluarse y sus- cuaciones deben ser efectivas en la eliminación
tentarse con evidencia. Si bien la comparabilidad de los obstáculos irrelevantes del constructo al
de puntajes es más fácil de establecer cuando desempeño en la prueba de un individuo sin pro-
diferentes formularios de prueba se construyen porcionar una ventaja injusta sobre individuos
66

que no reciben la adecuación. Verdaderamente, siempre que sea posible, de modo que se man-
alcanzar ambos objetivos puede ser un desafío. tenga la comparabilidad de puntajes. Los proce-
Las adaptaciones que involucran traduccio- dimientos estandarizados para las adecuaciones de
nes de la prueba merecen consideración especial. las pruebas deben incluir reglas para determinar
Simplemente traducir una prueba de un idioma quién es elegible para una adecuación, y precisa-
a otro no asegura que la traducción produzca mente cómo debe administrarse la adecuación.
una versión de la prueba que sea comparable en Los usuarios de la prueba deben supervisar la ad-
contenido y nivel de dificultad con la versión ori- hesión a las reglas de elegibilidad y administra-
ginal de la prueba, o que la prueba traducida pro- ción apropiada de la prueba adaptada.
duzca puntajes que sean igualmente confiables/
precisos y válidos que los de la prueba original. Modificaciones de la prueba: medidas no
Además, no se puede suponer que la aculturación comparables que cambian el constructo
relevante, las experiencias clínicas o educativas previsto
sean similares para los examinandos que realizan Es posible que haya ocasiones en que se requiera
la versión traducida y para el grupo de destino flexibilidad adicional para obtener incluso una
utilizado para desarrollar la versión original. Asi- medida parcial del constructo; es decir, es posi-
mismo, no se puede suponer que la traducción ble que sea necesario considerar una modificación
a la lengua nativa sea siempre una adecuación a una prueba que dará por resultado cambios en
preferida. La investigación en evaluaciones edu- el constructo previsto para proporcionar incluso
cativas, por ejemplo, muestra que las pruebas con acceso limitado al constructo sometido a medi-
contenido traducido no son efectivas a menos que ción. Por ejemplo, un individuo con discalculia
a los examinandos se los haya instruido utilizando puede tener capacidad limitada para hacer cál-
el idioma de la prueba traducida. Cuando las culos sin una calculadora; sin embargo, si se le
pruebas se traducen de un idioma a un segundo proporciona una calculadora, es posible que el
idioma, debe reunirse y reportarse evidencia de individuo pueda hacer los cálculos requeridos en
la validez, confiabilidad/precisión y comparabili- la evaluación. Si el constructo que se evalúa invo-
dad de puntajes en las diferentes versiones de las lucra una habilidad matemática más amplia, el in-
pruebas. dividuo puede tener acceso limitado al constructo
Cuando la adecuación de la prueba emplea que se mide sin el uso de una calculadora; con
el uso de un intérprete, es aconsejable, cuando la modificación, no obstante, el individuo puede
sea viable, obtener a alguien que tenga una com- demostrar habilidades de resolución de problemas
prensión básica del proceso de evaluación psico- matemáticos, incluso si no puede demostrar ha-
lógica y educativa, tenga buen nivel en el idioma bilidades de cálculo. Puesto que las evaluaciones
de la prueba y la lengua nativa del examinando modificadas miden un constructo diferente del
y esté familiarizado con el contexto cultural del medido por la evaluación estandarizada, es im-
examinando. El intérprete idealmente debe com- portante interpretar los puntajes de la evaluación
prender la importancia de seguir procedimientos como puntajes resultantes de una nueva prueba
estandarizados, la importancia de transmitir exac- y reunir toda evidencia que sea necesaria para
tamente al examinador las respuestas reales del evaluar la validez de las interpretaciones para los
examinando, y el rol y las responsabilidades del usos previstos de los puntajes. Para interpreta-
intérprete en la evaluación. El intérprete debe ser ciones de puntajes basadas en normas, cualquier
cuidadoso de no proporcionar asistencia alguna modificación que cambie el constructo invalidará
al candidato que pudiera comprometer la validez las normas para las interpretaciones de puntajes.
de la interpretación para los usos previstos de los Del mismo modo, si se cambia el constructo, las
resultados de la evaluación. interpretaciones de puntajes basadas en criterios
Por último, es importante estandarizar pro- de la evaluación modificada (por ejemplo, to-
cedimientos para implementar adecuaciones, mar decisiones de clasificación como “aprobado/
67

capítulo 3
reprobado” o asignar categorías de dominio como situaciones de evaluación en las que las adecua-
“básico,” “competente” o “avanzado” utilizando ciones tal como las definen los Estándares no son
puntajes de corte determinados sobre la evalua- necesarias o en que las modificaciones tal como
ción original) no serán válidas. las definen los Estándares no son apropiadas. En
primer lugar, el motivo para la posible alteración,
Reporte de puntajes de pruebas adaptadas y como habilidades en lengua inglesa o una disca-
modificadas pacidad, puede de hecho ser directamente rele-
vante para el constructo principal. En las pruebas
Por lo general, los administradores de pruebas y
de empleo, sería inapropiado hacer cambios en la
los profesionales de evaluación documentan pasos
prueba si la prueba se ha diseñado para evaluar
utilizados al hacer adecuaciones o modificaciones
habilidades esenciales requeridas para el puesto
de las pruebas en el reporte de la prueba; los mé-
y los cambios en la prueba alterarían fundamen-
dicos también pueden incluir una discusión de
talmente el constructo sometido a medición. Por
la validez de las interpretaciones de los puntajes
ejemplo, a pesar del aumento de la automatiza-
resultantes para los usos previstos. Esta práctica
ción y el uso de dispositivos de grabación, algunos
de reportar la naturaleza de las adecuaciones y
puestos de escribientes judiciales requieren indi-
modificaciones es coherente con los requisitos
viduos que puedan trabajar rápidamente y con
implícitos para comunicar información en cuanto
precisión. La velocidad es un aspecto importante
a la naturaleza del proceso de evaluación si estos
del constructo y no puede adaptarse. En otro
cambios pueden afectar la confiabilidad/precisión
ejemplo, una muestra de trabajo para un puesto
de los puntajes de la prueba o la validez de inter-
de servicio al cliente que requiere comunicación
pretaciones derivadas de los puntajes de la prueba.
fluida en inglés no sería traducida a otro idioma.
La indicación de reportes de puntajes de la
En segundo lugar, una adaptación para una
prueba puede ser una cuestión controvertida y
discapacidad en particular es inapropiada cuando
sujeta a requisitos legales. Cuando existe eviden-
la finalidad de una prueba es diagnosticar la pre-
cia clara de que los puntajes de pruebas o admi-
sencia o el grado de esa discapacidad. Por ejem-
nistraciones de pruebas regulares y alteradas no
plo, dar tiempo extra en una prueba de tiempo
son comparables, debe considerarse informar a los
para determinar el nivel de distracción y las di-
usuarios de los puntajes, posiblemente indicando
ficultades en la velocidad de procesamiento aso-
los resultados de la prueba para señalar su natu-
ciadas con trastorno por déficit de atención haría
raleza especial, en la medida permitida por ley.
imposible determinar el grado en que realmente
Cuando existe evidencia creíble de que los punta-
existen las dificultades de atención y de velocidad
jes de pruebas regulares y alteradas son compara-
de procesamiento.
bles, la indicación por lo general no es apropiada.
En tercer lugar, es importante destacar que
Existe escaso acuerdo en el campo en cuanto a
no todos los individuos dentro de una clase ge-
cómo proceder cuando no existe evidencia creíble
neral de individuos examinados, como los de
sobre comparabilidad. En la medida posible, los
características lingüísticas y culturales diversas
desarrolladores y/o usuarios de la prueba deben
o con discapacidades, pueden requerir disposi-
reunir evidencia para examinar la comparabilidad
ciones especiales cuando realizan pruebas. Las
de pruebas o procedimientos de administración
habilidades de idioma, el conocimiento cultural
regulares y alterados para los fines previstos de la
o discapacidades específicas que poseen estos in-
prueba.
dividuos, por ejemplo, podrían no influir en su
desempeño en un tipo particular de prueba. Por
Uso apropiado de adecuaciones o consiguiente, para estos individuos, no se necesi-
modificaciones tan cambios.
Dependiendo del constructo sometido a medi- La efectividad de una adecuación dada tam-
ción y de la finalidad de la prueba, existen algunas bién desempeña un papel en determinaciones de
68

uso apropiado. Si una determinada adecuación o En resumen, la imparcialidad es una cuestión

modificación no aumenta el acceso al constructo fundamental para la interpretación válida de los
tal como se mide, no tiene mucho sentido utili- puntajes de la prueba, y por lo tanto debe ser la
zarla. La evidencia de efectividad puede reunirse a meta para todas las aplicaciones de evaluación.
través de estudios cuantitativos o cualitativos. El La imparcialidad es responsabilidad de todas las
juicio profesional necesariamente desempeña un partes involucradas en el desarrollo, la administra-
papel sustancial en las decisiones sobre cambios ción y la interpretación de puntajes de la prueba
en la prueba o situación de evaluación. para los fines previstos de la prueba.
69

capítulo 3
Estándares de imparcialidad
Los estándares en este capítulo comienzan con comparabilidad de la interpretación de puntajes
un estándar global (numerado 3.0), que se ha de la prueba para usos previstos.
enfoque principal del capítulo. El estándar global
también puede verse como el principio rector del Unidad 1. Diseño, desarrollo,
capítulo, y es aplicable a todas las pruebas y usua- administración y procedimientos
rios de pruebas. Todos los estándares posteriores de calificación de las pruebas que
se han separado en cuatro unidades temáticas de-
nominadas de la siguiente manera: minimizan los obstáculos a
interpretaciones válidas de los
1. Diseño, desarrollo, administración y procedi- puntajes para la variedad más amplia
mientos de calificación de las pruebas que mini-
mizan los obstáculos a interpretaciones válidas de individuos y subgrupos relevantes
de los puntajes para la variedad más amplia
posible de individuos y subgrupos relevantes Estándar 3.1
2. Validez de las interpretaciones de los puntajes
de las pruebas para los usos previstos para la Los responsables del desarrollo, la revisión y la
población prevista de individuos examinados administración de la prueba deben diseñar todos
3. Adecuaciones para eliminar obstáculos los pasos del proceso de evaluación para promo-
irrelevantes del constructo y respaldar inter- ver interpretaciones válidas de los puntajes para
pretaciones válidas de puntajes para sus usos los usos previstos de los puntajes para la variedad
previstos más amplia posible de individuos y subgrupos
4. Protecciones contra las interpretaciones relevantes en la población prevista.
inapropiadas de los puntajes para los usos
previstos Comentario: Los desarrolladores de la prueba de-
ben delinear claramente tanto los constructos que
ha de medir la prueba como las características de
Estándar 3.0
los individuos y subgrupos en la población prevista
Todos los pasos en el proceso de evaluación, de examinandos. Las tareas e ítems de la prueba
incluyendo diseño, validación, desarrollo, ad- deben diseñarse para maximizar el acceso y estar
ministración y procedimientos de calificación libres de obstáculos irrelevantes del constructo
de la prueba, deben diseñarse de tal manera que siempre que sea posible para todos los individuos
minimicen la varianza irrelevante de constructo y subgrupos relevantes en la población prevista de
y promuevan las interpretaciones válidas de los examinandos. Una manera de lograr estas metas
puntajes para los usos previstos para todos los es crear la prueba utilizando principios de diseño
individuos examinados en la población prevista. universal, que tienen en cuenta las características
de todos los individuos para los que está prevista
Comentario: La idea central de la imparcialidad la prueba e incluyen elementos tales como definir
en las pruebas es identificar y eliminar obstáculos precisamente los constructos y evitar, cuando es
irrelevantes del constructo al desempeño máximo posible, características y formatos de ítems y prue-
para cualquier individuo examinado. Eliminar bas (por ejemplo, aceleración de la prueba) que
estos obstáculos permite la interpretación com- pueden comprometer las interpretaciones válidas
parable y válida de los puntajes de la prueba de los puntajes para individuos o subgrupos re-
para todos los individuos examinados. La impar- levantes. Otro principio del diseño universal es
cialidad es por lo tanto central para la validez y proporcionar procedimientos e instrucciones de
70

evaluación simples, claros e intuitivos. En última similar, las exigencias físicas y verbales de los re-
instancia, la meta es diseñar un proceso de eva- quisitos de respuesta deben ser coherentes con el
luación que, en la medida de lo posible, eliminará constructo previsto.
los potenciales obstáculos a la medición del cons-
tructo previsto para todos los individuos, inclu-
yendo los individuos que requieren adecuaciones. Estándar 3.3
Los desarrolladores de la prueba deben ser cono-
Los responsables del desarrollo de la prueba de-
cedores de las diferencias del grupo que pueden
ben incluir subgrupos relevantes en estudios de
interferir con la precesión de puntajes y la validez
validez, confiabilidad/precisión y otros estudios
de inferencias de puntajes de la prueba y deben
preliminares utilizados cuando se construye la
poder tomar medidas para reducir el sesgo.
prueba.
Comentario: Los desarrolladores de la prueba de-
Estándar 3.2 ben incluir a individuos de subgrupos relevantes
de la población prevista de la prueba en muestras
Los desarrolladores de la prueba son responsa-
de pruebas piloto o de campo utilizadas para eva-
bles de desarrollar pruebas que midan el cons-
luar lo adecuado de un ítem y una prueba para las
tructo previsto y de minimizar el potencial de
interpretaciones del constructo. Los análisis que
que las pruebas se vean afectadas por caracterís-
se llevan a cabo utilizando datos de pruebas pi-
ticas irrelevantes del constructo, como caracte-
loto y de campo deben procurar detectar aspectos
rísticas lingüísticas, comunicativas, cognitivas,
del diseño, contenido y formato de la prueba que
culturales, físicas y otras.
podrían distorsionar las interpretaciones de los
Comentario: Las características lingüísticas, co- puntajes de la prueba para los usos previstos de
municativas, cognitivas, culturales, físicas y/u los puntajes de la prueba para grupos e individuos
otras innecesarias en el estímulo del ítem de la en particular. Dichos análisis podrían emplear
prueba y/o los requisitos de respuesta pueden una variedad de metodologías, incluyendo las
impedir a algunos individuos la demostración de apropiadas para tamaños de la muestra pequeños,
su situación respecto de los constructos previs- como el juicio de expertos, grupos focales y labo-
tos. Los desarrolladores de pruebas deben utilizar ratorios cognitivos. Las fuentes de evidencia tanto
lenguaje en las pruebas que sea coherente con los cualitativas como cuantitativas son importantes
fines de las pruebas y que sea familiar para la va- al evaluar si los ítems son sólidos y apropiados
riedad más amplia posible de examinandos. Evitar desde el punto de vista psicométrico para todos
el uso de lenguaje que tenga diferentes significa- los subgrupos relevantes.
dos o diferentes connotaciones para subgrupos Si los tamaños de la muestra lo permiten, a
relevantes de examinandos ayudará a garantizar menudo es valioso llevar adelante análisis sepa-
que los examinandos que tienen las habilidades rados para subgrupos relevantes de la población.
que se evalúan puedan comprender qué se les está Cuando no es posible incluir cantidades suficien-
pidiendo y respondan adecuadamente. El nivel de tes en las muestras de las pruebas piloto y/o de
competencia en idioma, la respuesta física u otras campo a fin de hacer análisis separados, los resul-
exigencias requeridas por la prueba deben man- tados de la prueba operativa pueden acumularse
tenerse al mínimo requerido para satisfacer los y utilizarse para llevar a cabo análisis cuando los
requisitos de trabajo y acreditación y/o para re- tamaños de la muestra se vuelven lo suficiente-
presentar los constructos de destino. En situacio- mente grandes para respaldar los análisis.
nes laborales, la modalidad en la que se evalúa la Si los resultados de las pruebas piloto o de
competencia en idioma debe ser comparable con campo indican que los ítems o pruebas fun-
la requerida en el puesto, por ejemplo, oral y/o cionan de manera diferencial para individuos
escrita, comprensión y/o producción. De manera de, por ejemplo grupos etarios, culturales, de
71

capítulo 3
discapacidad, género, lingüísticos y/o raciales/ deben tener acceso a tecnología de modo que los
étnicos relevantes en la población de exami- aspectos de la tecnología propiamente dichos no
nandos, los desarrolladores de la prueba deben influyan en los puntajes. Los individuos exami-
investigar aspectos del diseño, contenido y for- nados que trabajan en equipos más viejos y más
mato de la prueba (incluyendo formatos de res- lentos pueden verse injustamente desfavorecidos
puesta) que podrían contribuir al desempeño en relación con los que trabajan en equipos más
diferencial de miembros de estos grupos y, si se nuevos. Si las computadoras u otros dispositivos
justifica, eliminar estos aspectos de prácticas de difieren en velocidad de procesamiento o movi-
desarrollo de pruebas futuras. miento de una pantalla a la otra, en la fidelidad
Las revisiones de expertos y de sensibilidad de los objetos visuales, o en otras maneras im-
pueden servir para proteger contra lenguaje e portantes, es posible que factores irrelevantes del
imágenes irrelevantes del constructo, incluyendo constructo puedan influir en el desempeño en la
los que pueden ofender a algunos individuos prueba.
o subgrupos, y contra contexto irrelevante del Cuestiones relacionadas con la seguridad
constructo que puede ser más conocido para al- de la prueba y la fidelidad de la administración
gunos que para otros. Los editores de la prueba también pueden amenazar la comparabilidad del
suelen realizar revisiones de sensibilidad de todo trato de individuos y la validez e imparcialidad de
el material de la prueba para detectar y eliminar las interpretaciones de puntajes de la prueba. Por
material sensible de las pruebas (p. ej., texto, grá- ejemplo, la distribución no autorizada de ítems a
ficos y otras representaciones visuales dentro de algunos individuos examinados, pero no a otros,
la prueba que podrían percibirse como ofensivas o administraciones de pruebas sin supervisión en
para algunos grupos y posiblemente afectar los las que la estandarización no puede garantizarse,
puntajes de individuos de estos grupos). Esas re- podrían proporcionar una ventaja a algunos exa-
visiones deben llevarse a cabo antes de que una minandos por sobre otros. En estas situaciones,
prueba se vuelva operativa. los resultados de la prueba deben interpretarse
con cautela.
Estándar 3.4
Estándar 3.5
Los examinandos deben recibir un trato compa-
rable durante la administración y el proceso de Los desarrolladores de la prueba deben especi-
calificación de la prueba. ficar y documentar disposiciones que se hayan
hecho para la administración de la prueba y los
Comentario: Los responsables de evaluar deben
procedimientos de calificación para eliminar
adherir a administración, calificación y protoco-
obstáculos irrelevantes del constructo para to-
los de seguridad de la prueba estandarizados de
dos los subgrupos relevantes en la población de
modo que los puntajes de la prueba reflejen los
examinandos.
constructos que se evalúan y no estén indebida-
mente influidos por idiosincrasias en el proceso Comentario: Los desarrolladores de la prueba de-
de evaluación. Los responsables de la administra- ben especificar cómo se minimizaron los obstá-
ción de la prueba deben mitigar la posibilidad de culos irrelevantes del constructo en el proceso de
predisposiciones personales que podrían afectar la desarrollo de la prueba para individuos de todos
administración de la prueba o la interpretación de los subgrupos relevantes en la población prevista
puntajes. de la prueba. Los desarrolladores y/o usuarios de
Las pruebas computarizadas y otras formas de la prueba también deben documentar cualquier
evaluación basadas en tecnología suman cuestio- estudio llevado a cabo para examinar la confiabili-
nes extras para la estandarización en la adminis- dad/precisión de los puntajes y la validez de las in-
tración y calificación. Los individuos examinados terpretaciones de los evaluadores para subgrupos
72

relevantes de la población prevista de examinan- consideradas pueden incluir análisis de conte-

dos para los usos previstos de los puntajes de la nido de la prueba, estructura interna de respues-
prueba. Los procedimientos especiales de admi- tas de la prueba, la relación de los puntajes de
nistración, calificación y presentación de reportes la prueba con otras variables, o los procesos de
de la prueba deben documentarse y ponerse a dis- respuesta empleados por cada individuo exami-
posición de los usuarios de la prueba. nado. Cuando los tamaños de la muestra sean
suficientes, también deben realizarse estudios de
precisión y exactitud de puntajes para subgrupos
Unidad 2. Validez de las relevantes. Cuando los tamaños de la muestra
sean pequeños, a veces pueden acumularse datos
interpretaciones de los puntajes de la
con las administraciones operativas de la prueba
prueba para los usos previstos para de modo que puedan realizarse análisis cuantita-
la población prevista de individuos tivos adecuados por subgrupo después de que la
prueba haya estado en uso durante un período
examinados
de tiempo. Los estudios cualitativos también son
relevantes para los argumentos de validez de res-
Estándar 3.6 paldo (p. ej., revisiones de expertos, grupos foca-
les, laboratorios cognitivos). Los desarrolladores
Cuando evidencia creíble indique que los pun-
de la prueba deben considerar detenidamente
tajes de la prueba pueden diferir en significado
las conclusiones de los análisis cuantitativos y/o
para subgrupos relevantes de la población pre-
cualitativos al documentar las interpretaciones
vista de individuos examinados, los desarrolla-
para los usos previstos de los puntajes, así como
dores y/o usuarios de la prueba son responsables
también en las revisiones de pruebas posteriores.
de examinar la evidencia de validación de las
Los análisis, cuando sea posible, pueden ne-
interpretaciones de los puntajes para los usos
cesitar tener en cuenta el nivel de heterogeneidad
previstos para individuos de esos subgrupos. Las
dentro de subgrupos relevantes, por ejemplo,
leyes aplicables pueden definir lo que constituye
individuos con diferentes discapacidades, o in-
una diferencia significativa en los puntajes de los
dividuos examinados de minorías lingüísticas
subgrupos y qué acciones se llevan a cabo en res-
en diferentes niveles de competencia en inglés.
puesta a dichas diferencias.
Las diferencias dentro de estos subgrupos pueden
Comentario: Las diferencias medias de los influir en lo adecuado que resulte el contenido de
subgrupos no indican de por sí falta de impar- la prueba, la estructura interna de las repuestas a
cialidad, pero esas diferencias deberían dar lugar la prueba, la relación de los puntajes de la prueba
a estudios de seguimiento, cuando sean viables, con otras variables, o los procesos de respuesta
para identificar las posibles causas de esas dife- empleados por cada individuo examinado.
rencias. Dependiendo de que las diferencias de
subgrupos se descubran durante la fase de de- Estándar 3.7
sarrollo o de uso, ya sea el desarrollador de la
prueba o el usuario de la prueba es responsable Cuando la evidencia de validación relacionada
de iniciar las averiguaciones de seguimiento y, con criterios se utiliza como base para predic-
según corresponda, los estudios relevantes. La ciones de desempeño futuro basadas en puntajes
averiguación debe investigar infrarrepresenta- de la prueba y los tamaños de la muestra son
ción de constructo y fuentes de varianza irre- suficientes, los desarrolladores y/o usuarios de
levante de constructo como posibles causas de la prueba son responsables de evaluar la posibi-
diferencias de los subgrupos, investigadas según lidad de predicción diferencial para subgrupos
sea viable, mediante estudios cuantitativos y/o relevantes para los que existe evidencia previa o
cualitativos. Las clases de evidencia de validación teoría que sugiera predicción diferencial.
73

capítulo 3
Comentario: Cuando los tamaños de la muestra puntajes del constructo para individuos de algu-
son suficientes, la predicción diferencial suele exa- nos subgrupos.
minarse utilizando análisis de regresión. Un enfo- Para la calificación realizada por seres huma-
que al análisis de regresión examina las diferencias nos, los procedimientos de calificación deben
de pendiente e intersección entre dos grupos de diseñarse con la intención de que los puntajes
destino (p. ej., muestras de negros y blancos), reflejen la situación del individuo examinado en
mientras que otro examina las desviaciones sis- relación con los constructos evaluados y no estén
temáticas de una línea de regresión común para influenciados por las percepciones y predisposi-
los grupos de interés. Ambos enfoques pueden ciones personales de los evaluadores. Es esencial
tener en cuenta la posibilidad de sesgo predictivo que se realice y supervise la capacitación y cali-
y/o diferencias en heterogeneidad entre grupos y bración adecuadas de los evaluadores en todo el
proporcionar información valiosa para el examen proceso de calificación para respaldar la cohe-
de predicciones diferenciales. Por el contrario, los rencia de calificaciones de los evaluadores para
coeficientes de correlación proporcionan eviden- individuos de subgrupos relevantes. Cuando los
cia inadecuada a favor o en contra de una hipó- tamaños de la muestra lo permitan, la precisión
tesis de predicción diferencial si se determina que y exactitud de puntajes para subgrupos relevantes
los grupos tienen medias y varianzas desiguales en también debería calcularse.
la prueba y en el criterio. Es particularmente im- Se pueden usar algoritmos de puntaje au-
portante en el contexto de evaluación para fines tomático para calificar respuestas construidas
de alto riesgo que los desarrolladores y/o usuarios complejas, como ensayos, ya sea como único
de la prueba examinen la predicción diferencial y determinador del puntaje o en conjunto con un
eviten el uso de coeficientes de correlación en si- puntaje proporcionado por un evaluador hu-
tuaciones en las que los grupos o tratos den lugar mano. Los algoritmos de calificación deben revi-
a medias o varianzas desiguales en la prueba y el sarse para detectar posibles fuentes de sesgo. La
criterio. precisión de puntajes y validez de interpretaciones
de puntajes resultantes de puntajes automáticos
deben evaluarse para todos los subgrupos relevan-
Estándar 3.8 tes de la población prevista.
Cuando las pruebas requieran la calificación de
respuestas construidas, los desarrolladores y/o Unidad 3. Adecuaciones para
usuarios de la prueba deben reunir y reportar
eliminar obstáculos irrelevantes
evidencia de la validez de las interpretaciones de
puntajes para subgrupos relevantes en la pobla- del constructo y respaldar
ción prevista de examinandos para los usos pre- interpretaciones válidas de puntajes
vistos de los puntajes de la prueba.
para sus usos previstos
Comentario: Las diferencias de los subgrupos en
las respuestas de los individuos examinados y/o Estándar 3.9
las expectativas y percepciones de los evaluadores
pueden introducir varianza irrelevante de cons- Los desarrolladores de la prueba y/o los usuarios
tructo en los puntajes de pruebas de respuestas de la prueba son responsables de desarrollar y
construidas. Estas, a su vez, podrían afectar seria- proporcionar adecuaciones de la prueba, cuando
mente la confiabilidad/precisión, validez y com- corresponda y sea viable, para eliminar obstácu-
parabilidad de las interpretaciones de los puntajes los irrelevantes del constructo que de otro modo
para los usos previstos para algunos individuos. interferirían con la capacidad de los individuos
Diferentes métodos de calificación podrían in- examinados de demostrar su situación respecto
fluir de manera diferencial en la representación de de los constructos de destino.
74

Comentario: Las adecuaciones de la prueba están Estándar 3.10

diseñadas para eliminar obstáculos irrelevantes
del constructo relacionados con características in- Cuando se permitan adecuaciones de la prueba,
dividuales que de otro modo interferirían con la los desarrolladores de la prueba y/o usuarios de
medición del constructo de destino y por lo tanto la prueba son responsables de documentar dis-
desfavorecerían injustamente a individuos con posiciones estándares para usar la adecuación y
estas características. Estas adecuaciones incluyen para supervisar la implementación apropiada de
cambios en el contexto de administración, pre- la adecuación.
sentación, interfaz/compromiso, y requisitos de
respuesta, y pueden incluir la incorporación de Comentario: Las adecuaciones de la prueba de-
individuos al proceso de administración (p. ej., ben utilizarse solo cuando el examinando tenga
lectores, copistas). una necesidad documentada de la adecuación,
Una adecuación apropiada es aquella que por ejemplo, un Plan Educativo Individualizado
responde a características individuales específi- (IEP, por sus siglas en inglés) o documentación
cas, pero lo hace de una manera que no cambia de un médico, psicólogo, u otro profesional cua-
el constructo que está midiendo la prueba ni el lificado. La documentación debe prepararse con
significado de los puntajes. Los desarrolladores antelación a la experiencia de realización de la
de la prueba y/o los usuarios de la prueba deben prueba y debe ser revisada por uno o más exper-
documentar el fundamento para la conclusión de tos cualificados para tomar una decisión sobre la
que la adecuación no cambia el constructo que relevancia de la documentación con respecto a la
está midiendo la prueba. Las adecuaciones deben adecuación solicitada.
abordar necesidades específicas de cada exami- Los desarrolladores y/o usuarios de la prueba
nando (p. ej., cognitivas, lingüísticas, sensoria- deben proporcionar a los individuos que requie-
les, físicas) y pueden ser requeridas por ley. Por ren adecuaciones en una situación de evaluación
ejemplo, es posible que las personas que no son información sobre la disponibilidad de adecua-
completamente competentes en inglés necesiten ciones y los procedimientos para solicitarlas antes
adecuaciones lingüísticas que aborden su condi- de la administración de la prueba. En contextos
ción en cuanto a la lengua, mientras que indivi- en que las adecuaciones se proporcionen ha-
duos con problemas de la vista pueden necesitar el bitualmente para individuos con necesidades
aumento del tamaño del texto. En muchos casos, documentadas (p. ej., contextos educativos),
cuando se utiliza una prueba para evaluar el pro- la documentación debe describir adecuaciones
greso académico de un individuo, la adecuación aceptables e incluir protocolos y/o procedimien-
que mejor eliminará la irrelevancia de constructo tos estandarizados para identificar a los indivi-
corresponderá a la adecuación utilizada para la duos examinados elegibles, identificar y asignar
instrucción. adecuaciones apropiadas para estos individuos, y
Las modificaciones de la prueba que cambian administrar adecuaciones, calificar y presentar re-
el constructo que la prueba está midiendo pue- portes de conformidad con reglas estandarizadas.
den ser necesarias para que algunos individuos Los administradores y usuarios de la prueba
examinados demuestren su situación respecto deben también proporcionar a quienes cumplen
de algún aspecto del constructo previsto. Si una un rol en la determinación y administración de
evaluación se modifica para mejorar el acceso al adecuaciones suficiente información y conoci-
constructo previsto para individuos designados, mientos para usar apropiadamente las adecua-
la evaluación modificada debería tratarse como ciones que puedan aplicarse a la evaluación. Las
una evaluación recientemente desarrollada que instrucciones para administrar cualquier cambio
necesita adherir a los estándares de la prueba en la prueba o procedimientos de evaluación de-
para validez, confiabilidad/precisión, imparcia- ben documentarse claramente y, cuando sea ne-
lidad, etc. cesario, los administradores de la prueba deben
75

capítulo 3
capacitarse para seguir estos procedimientos. El de estudios cualitativos de muestras pequeñas o

administrador de la prueba debe administrar las juicios profesionales que examinen la compara-
adecuaciones de una manera estandarizada según bilidad de las pruebas originales y alteradas y/o
lo documentado por el desarrollador de la prueba. que investiguen explicaciones alternativas para el
Los procedimientos de administración deben in- desempeño en las pruebas cambiadas.
cluir procedimientos para registrar qué adecua- Debe proporcionarse evidencia para las alte-
ciones se utilizaron para individuos específicos raciones recomendadas. Si el desarrollador de la
y, cuando corresponda, para registrar cualquier prueba recomienda diferentes límites de tiempo,
desviación de procedimientos estandarizados para por ejemplo, para individuos con discapacidades
administrar las adecuaciones. o para aquellos con características lingüísticas y
El administrador de la prueba o el represen- culturales diversas, deben utilizarse pruebas piloto
tante correspondiente del usuario de la prueba o de campo, cuando sea posible, para establecer
debe documentar cualquier uso de adecuacio- estos límites de tiempo en particular más que sim-
nes. Para evaluaciones educativas a gran escala, plemente permitir a los examinandos un múlti-
los usuarios de la prueba deben supervisar el uso plo del tiempo estándar sin examinar la utilidad
apropiado de adecuaciones. de la implementación arbitraria de múltiplos del
tiempo estándar. Cuando sea posible, deben in-
vestigarse la fatiga y otras cuestiones relaciona-
Estándar 3.11 das con el tiempo como factores potencialmente
importantes cuando se extienden los límites de
Cuando una prueba se cambia para eliminar
tiempo.
obstáculos a la accesibilidad del constructo so-
Cuando las pruebas se simplifican desde el
metido a medición, los desarrolladores y/o usua-
punto de vista lingüístico para eliminar la va-
rios de la prueba son responsables de obtener y
rianza irrelevante de constructo, los desarrollado-
documentar evidencia de la validez de las inter-
res y/o usuarios de la prueba son responsables de
pretaciones de los puntajes para los usos previs-
documentar evidencia de la comparabilidad de
tos de la prueba cambiada, cuando los tamaños
puntajes de las pruebas lingüísticamente simplifi-
de la muestra lo permitan.
cadas con la prueba original, cuando los tamaños
Comentario: Es aconsejable, cuando sea viable de la muestra lo permitan.
y corresponda, hacer una prueba piloto y/o de
campo de cualquier alteración en la prueba con
individuos que representen a cada subgrupo re- Estándar 3.12
levante para el que está prevista la alteración.
Cuando una prueba se traduce y adapta de un
Los estudios de validez por lo general deben in-
idioma a otro, los desarrolladores de la prueba
vestigar tanto la eficacia de la alteración para los
y/o usuarios de la prueba son responsables de
subgrupos previstos como la comparabilidad de
describir los métodos utilizados al establecer la
las inferencias de puntaje de las pruebas alteradas
adecuación de la adaptación y documentar la
y originales.
evidencia empírica y lógica para la validez de
En algunas circunstancias, es posible que los
las interpretaciones de los puntajes de la prueba
desarrolladores no puedan obtener suficientes
para el uso previsto.
muestras de individuos, por ejemplo, aquellos con
la misma discapacidad o niveles similares de una Comentario: El término adaptación se utiliza
discapacidad, para realizar análisis empíricos es- aquí para describir cambios hechos a pruebas
tándares de confiabilidad/precisión y validez. En traducidas de un idioma a otro para reducir la
estas situaciones, deben buscarse maneras alterna- varianza irrelevante de constructo que puede
tivas para evaluar la validez de la prueba cambiada surgir debido a características individuales o de
para subgrupos relevantes, por ejemplo, a través subgrupos. En este caso, el proceso de traducción/
76

adaptación involucra no solo traducir el idioma requiere una consideración atenta del contexto y
de la prueba de modo que sea adecuado para el la finalidad de la evaluación. Excepto en casos en
subgrupo que realiza la prueba, sino también los que la finalidad de la evaluación sea determi-
abordar cualquier característica del subgrupo nar el nivel de competencia de los examinandos
lingüística o cultural irrelevante del constructo en un idioma en particular, los examinandos de-
que pueda interferir con la medición de los cons- ben evaluarse en el idioma en el que tienen mayor
tructos previstos. Cuando versiones en múltiples competencia. En algunos casos, el idioma en el
idiomas de una prueba tienen por objeto propor- que los examinandos tienen mayor competencia
cionar puntajes comparables, los desarrolladores en general puede no ser el idioma en el que reci-
de la prueba deben describir en detalle los méto- bieron instrucción o capacitación en relación con
dos utilizados para la traducción y la adaptación los constructos evaluados, y en estos casos es posi-
de la prueba y deben reportar evidencia de la va- ble que se sea apropiado administrar la prueba en
lidez de los puntajes de la prueba pertinente a los el idioma de instrucción.
grupos lingüísticos y culturales para los que está Debe emplearse el juicio profesional para de-
prevista la prueba y pertinente a los usos previstos terminar los procedimientos más apropiados para
de los puntajes. La evidencia de validación puede establecer las competencias en idioma relativas.
incluir estudios empíricos y/o juicio profesional Esos procedimientos pueden variar desde autoi-
que documente que las versiones en diferentes dentificación por parte de los individuos exami-
idiomas miden constructos comparables o simi- nados hasta pruebas formales de competencia en
lares y que las interpretaciones de los puntajes de idioma. La sensibilidad a características lingüísti-
las dos versiones tienen validez comparable para cas y culturales puede requerir el uso exclusivo de
sus usos previstos. Por ejemplo, si una prueba se un idioma en la evaluación o el uso de múltiples
traduce y adapta al español para usarse con po- idiomas para minimizar la introducción de com-
blaciones centroamericanas, cubanas, mexicanas, ponentes irrelevantes del constructo en el proceso
portorriqueñas, sudamericanas y españolas, la va- de medición.
lidez de las interpretaciones de los puntajes de la La determinación del idioma en el que el
prueba para usos específicos debe evaluarse con examinando tiene mayor competencia para la ad-
miembros de cada uno de estos grupos por sepa- ministración de la prueba no garantiza automáti-
rado, cuando sea viable. Cuando los tamaños de camente la validez de las inferencias de puntajes
la muestra lo permitan, debe proporcionarse evi- para el uso previsto. Por ejemplo, los individuos
dencia de la exactitud y precisión de los puntajes pueden tener mayor competencia en un idioma
para cada grupo, y las propiedades de la prueba que en otro, pero no ser necesariamente com-
para cada grupo deben incluirse en los manuales petentes desde el punto de vista del desarrollo
de la prueba. en cualquiera de los dos; las desconexiones en-
tre el idioma de adquisición del constructo y el
de la evaluación también pueden comprometer
Estándar 3.13 la interpretación apropiada de los puntajes del
examinando.
Una prueba debe administrarse en el idioma que
sea más relevante y apropiado para la finalidad
de la prueba. Estándar 3.14
Comentario: Los usuarios de la prueba deben Cuando la prueba requiere el uso de un intér-
tener en cuenta las características lingüísticas y prete, el intérprete debe seguir procedimientos
culturales y las competencias en idioma relativas estandarizados y, en la medida en que sea via-
de los individuos examinados que son bilingües ble, tener un nivel suficientemente bueno en
o utilizan varios idiomas. Identificar el o los idio- el idioma y contenido de la prueba y la lengua
mas más apropiados para la evaluación también nativa y la cultura del individuo examinado
77

capítulo 3
para traducir la prueba y los materiales de eva- deben seleccionarse los intérpretes y su rol en la
luación relacionados y explicar las respuestas de administración.
la prueba del individuo examinado, según sea
necesario.
Unidad 4. Protecciones contra
Comentario: Si bien los individuos con com- interpretaciones inapropiadas de los
petencia limitada en el idioma de la prueba (in- puntajes para los usos previstos
cluyendo individuos sordos y con dificultades
auditivas cuya lengua nativa puede ser la lengua
de señas) idealmente deben ser evaluados por Estándar 3.15
examinadores bilingües/biculturales profesional- Los desarrolladores y editores de la prueba que
mente capacitados, el uso de un intérprete puede afirman que una prueba puede ser usada con in-
ser necesario en algunas situaciones. Si se requiere dividuos examinados de subgrupos específicos
un intérprete, el usuario de la prueba es respon- son responsables de proporcionar la información
sable de seleccionar un intérprete con cualifica- necesaria para respaldar interpretaciones apro-
ciones, experiencia y preparación razonables para piadas de puntajes de la prueba para sus usos
ayudar apropiadamente en la administración de
previstos para individuos de estos subgrupos.
la prueba. Al igual que con otros aspectos de la
evaluación estandarizada, los procedimientos para Comentario: Los desarrolladores de la prueba
administrar una prueba cuando se utiliza un in- deben incluir en los manuales de la prueba e ins-
térprete deben estandarizarse y documentarse. Es trucciones para la interpretación de puntajes de-
necesario que el intérprete comprenda la impor- claraciones explícitas sobre la aplicabilidad de la
tancia de seguir procedimientos estandarizados prueba para subgrupos relevantes. Los desarrolla-
para esta prueba, la importancia de transmitir dores de la prueba deben proporcionar evidencia
exactamente al examinador las respuestas reales de de la aplicabilidad de la prueba para subgrupos
un individuo examinado, y el rol y las responsa- relevantes y hacer advertencias explícitas contra
bilidades del intérprete en la evaluación. Cuando usos indebidos previsibles (basadas en experiencia
la traducción de términos técnicos sea importante previa u otras fuentes relevantes como bibliografía
para evaluar con exactitud el constructo, el intér- de investigación) de los resultados de la prueba.
prete debe estar familiarizado con el significado
de estos términos y los vocabularios correspon-
dientes en los idiomas respectivos. Estándar 3.16
A menos que la prueba se haya estandarizado
Cuando investigación creíble indique que los
y normalizado con el uso de intérpretes, su uso
puntajes de la prueba para algunos subgrupos
puede necesitar ser visto como una alteración que
relevantes se ven diferencialmente afectados
podría cambiar la medición del constructo pre-
por características irrelevantes del constructo
visto, en particular debido a la introducción de
de la prueba o de los individuos examinados,
un tercero durante la evaluación, así como la mo-
cuando sea legalmente aceptable, los usuarios
dificación del protocolo estandarizado. Las dife-
de la prueba deben utilizar la prueba solo para
rencias en el significado, familiaridad, frecuencia,
esos subgrupos para los que existe evidencia sufi-
connotaciones y asociaciones de las palabras ha-
ciente de validez para respaldar las interpretacio-
cen que sea difícil comparar directamente punta-
nes de los puntajes para los usos previstos.
jes de cualquier traducción no estandarizada con
las normas de la lengua inglesa. Comentario: Una prueba no puede medir los
Cuando es probable que la prueba requiera el mismos constructos para individuos de diferen-
uso de intérpretes, el desarrollador de la prueba tes subgrupos relevantes porque diferentes carac-
debe proporcionar orientación clara sobre cómo terísticas del contenido o formato de la prueba
78

influyen en los puntajes de los examinandos de un en cuanto a raza/origen étnico, individuos con
subgrupo a otro. Cualquiera de esas diferencias diferentes orientaciones sexuales, individuos con
puede favorecer o desfavorecer involuntariamente características lingüísticas y culturales diversas,
a individuos de estos subgrupos. La decisión en individuos con discapacidades, niños pequeños
cuanto usar una prueba con cualquier subgrupo o adultos mayores— los usuarios de la prueba
relevante dado involucra necesariamente un aná- son responsables de proporcionar evidencia de
lisis detenido de la evidencia de validación para el comparabilidad y de incluir declaraciones de
subgrupo, como se requiere en el Estándar 1.4. advertencia cuando la investigación creíble o la
La decisión también requiere consideración de teoría indique que es posible que los puntajes
los requisitos legales aplicables y el ejercicio de de la prueba no tengan significado comparable
juicio profesional profundo respecto de la signi- entre estos subgrupos.
ficación de cualquier componente irrelevante del
constructo. En los casos en que existe evidencia Comentario: Reportar puntajes para subgrupos
creíble de validez diferencial, los desarrolladores relevantes se justifica solo si los puntajes tienen
deben proporcionar orientación clara al usuario significado comparable entre estos grupos y existe
de la prueba sobre cuándo y si las interpretacio- un tamaño de la muestra suficiente por grupo
nes válidas de los puntajes para sus usos previstos para proteger la identidad individual y justificar
pueden o no pueden extraerse para individuos de la agregación. Este estándar tiene por objeto ser
estos subgrupos. aplicable a contextos en los que los puntajes se
Es posible que existan ocasiones en que los presenten implícita o explícitamente como com-
individuos examinados soliciten o exijan que parables en significado entre subgrupos. Se debe
se tome una versión de la prueba distinta de la tener la precaución de que los términos utilizados
considerada más apropiada por el desarrollador o para describir subgrupos reportados se definan
usuario. Por ejemplo, un individuo con una dis- claramente, de conformidad con el uso común, y
capacidad puede rechazar un formato alterado y sean comprendidos claramente por quienes inter-
solicitar el formulario estándar. Acceder a tales so- pretan los puntajes de la prueba.
licitudes, después de informar completamente al La terminología para describir subgrupos es-
individuo examinado sobre las características de la pecíficos para los que pueden y no pueden ex-
prueba, las adecuaciones que están disponibles, y traerse inferencias válidas de puntajes de la prueba
cómo se utilizarán los puntajes de la prueba, no es debe ser lo más precisa posible, y las categorías
una violación de este estándar y en algunos casos deben ser coherentes con los usos previstos de los
puede ser requerido por ley. resultados. Por ejemplo, los términos latino o his-
En algunos casos, como cuando una prueba pano pueden ser ambiguos si no se definen espe-
distribuirá beneficios o cargas (como reunir re- cíficamente, en el sentido de que pueden denotar
quisitos para una clase para estudiantes sobresa- individuos de origen cubano, mexicano, porto-
lientes o la denegación de una promoción en un rriqueño, sudamericano o centroamericano o de
empleo), la ley puede limitar la medida en que otra cultura hispana, independientemente de la
un usuario de la prueba puede evaluar a algunos raza/origen étnico, y pueden combinar a quienes
grupos conforme a la prueba y a otros grupos con- son inmigrantes recientes con quienes son nati-
forme a una prueba diferente. vos nacidos en EE. UU., quienes pueden no ser
competentes en inglés, y quienes son de un nivel
Estándar 3.17 socioeconómico diverso. De manera similar, el
término “individuos con discapacidades” abarca
Cuando se informen públicamente puntajes una amplia variedad de afecciones y características
agregados para subgrupos relevantes —por ejem- de antecedentes específicas. Incluso las referencias
plo, hombres y mujeres, individuos de diferente a categorías específicas de individuos con discapa-
nivel socioeconómico, individuos que difieren cidades, como problemas auditivos, deben estar
79

capítulo 3
acompañadas de una explicación del significado como variación cultural) por lo general deberán
del término y una indicación de la variabilidad de evaluarse. Los usuarios de la prueba son respon-
individuos dentro del grupo. sables de interpretar puntajes individuales a la luz
de explicaciones alternativas y/o variables indivi-
duales relevantes observadas en el manual de la
Estándar 3.18 prueba.
En la evaluación de individuos para fines de diag-
nóstico y/o colocación en un programa especial, Estándar 3.19
los usuarios de la prueba no deben usar puntajes
de la prueba como los únicos indicadores para En contextos en los que la misma autoridad es
caracterizar el funcionamiento, la competencia, responsable tanto de la provisión del plan de es-
las actitudes y/o las predisposiciones de un in- tudios como de las decisiones de alto riesgo ba-
dividuo. En cambio, deben utilizarse múltiples sadas en la evaluación del dominio del plan de
fuentes de información, deben considerarse ex- estudios por parte de los individuos examinados,
plicaciones alternativas para el desempeño en la estos últimos no deberían sufrir consecuencias
prueba, y el juicio profesional de alguien familia- negativas permanentes si la evidencia indica que
rizado con la prueba debe aplicarse a la decisión. no han tenido la oportunidad de aprender el
contenido de la prueba.
Comentario: Muchos manuales de prueba se-
ñalan variables que deberían considerarse en Comentario: En contextos educativos, la oportu-
la interpretación de los puntajes de la prueba, nidad de los estudiantes de aprender el contenido
como antecedentes clínicamente relevantes, me- y las habilidades evaluadas por una prueba de ren-
dicamentos, registro escolar, estado vocacional dimiento puede afectar seriamente su desempeño
y motivación del examinando. Las influencias en la prueba y la validez de las interpretaciones
asociadas con variables tales como edad, cultura, de los puntajes de la prueba para el uso previsto
discapacidad, género y características lingüísticas para las decisiones individuales de alto riesgo. Si
o raciales/étnicas también pueden ser relevantes. no hay una correspondencia apropiada entre el
La oportunidad de aprendizaje es otra varia- contenido del plan de estudios y la instrucción y
ble que puede ser necesario tener en cuenta en el de los constructos evaluados para algunos estu-
los contextos educativos y/o clínicos. Por ejem- diantes, no se puede esperar que esos estudiantes
plo, si inmigrantes recientes que se evalúan en un salgan bien en la prueba y pueden ser desfavore-
inventario de personalidad o una medida de capa- cidos injustamente por decisiones individuales de
cidad tienen escasa exposición previa a la escuela, alto riesgo, como la denegación de la graduación
es posible que no hayan tenido la oportunidad de la escuela secundaria, que se toman sobre la
de aprender conceptos que la prueba supone son base de los resultados de la prueba. Cuando una
conocimientos comunes o experiencias comunes, autoridad, como un estado o distrito, es respon-
incluso si la prueba es administrada en la lengua sable de indicar y/o impartir el plan de estudios y
nativa. No tener en cuenta la oportunidad pre- la instrucción, no debe penalizar a los individuos
via de aprendizaje puede conducir a diagnósticos por el desempeño en la prueba en cuanto al con-
equivocados, colocaciones y/o servicios inapro- tenido que la autoridad no proporcionó.
piados y consecuencias negativas imprevistas. Obsérvese que este estándar no es aplicable en
Las inferencias sobre la competencia general situaciones en las que diferentes autoridades son
en idioma de los examinandos deben basarse en responsables del plan de estudios, la evaluación
pruebas que midan una serie de características del y/o la interpretación y el uso de resultados. Por
idioma, no una sola habilidad lingüística. Una va- ejemplo, la oportunidad de aprendizaje puede es-
riedad más completa de capacidades comunicati- capar al conocimiento o control de los usuarios
vas (p. ej., conocimiento de palabras, sintaxis, así de la prueba, y es posible que no influya en la
80

validez de las interpretaciones de la prueba como que influye en la elección entre una prueba u
las predicciones de desempeño futuro. otra. Sin embargo, otros factores, como costo,
tiempo de evaluación, seguridad de la prueba y
cuestiones logísticas (p. ej., la necesidad de cri-
Estándar 3.20 bar cantidades muy grandes de individuos exa-
minados en muy poco tiempo), también deben
Cuando un constructo puede medirse de diferen-
ser parte de los juicios profesionales sobre la se-
tes maneras que son iguales en su grado de repre-
lección y uso de la prueba. Si los puntajes de dos
sentación del constructo y validez (incluyendo la
pruebas conducen a interpretaciones igualmente
ausencia de varianza irrelevante de constructo),
válidas e imponen costos y otras cargas simila-
los usuarios de la prueba deben considerar, en-
res, las consideraciones legales pueden requerir
tre otros factores, evidencia de diferencias de los
seleccionar la prueba que minimice las diferen-
subgrupos en los puntajes medios o en porcen-
cias de subgrupos. Debe establecerse la articula-
tajes de individuos examinados cuyos puntajes
ción clara de cada interpretación prevista de los
excedan los puntajes de corte, en la decisión de
puntajes de la prueba para un uso especificado,
qué puntajes de prueba y/o de corte usar.
y debe proporcionarse evidencia de validación
Comentario: La evidencia de desempeño dife- apropiada que respalde cada interpretación
rencial de los subgrupos es un factor importante prevista.
81

II
PARTE II
Operaciones

4. D
ISEÑO Y DESARROLLO DE
PRUEBAS
Antecedentes
El desarrollo de la prueba es el proceso de pro- de la alineación de las preguntas de la prueba con
ducir una medida de algún aspecto del conoci- estas categorías. Cuando se prevean interpretacio-
miento, las habilidades, capacidades, intereses, nes normativas, los procedimientos de desarrollo
actitudes u otras características de un individuo deben incluir una definición precisa de la pobla-
mediante el desarrollo de preguntas o tareas y la ción de referencia y planes para reunir datos nor-
combinación de estas para formar una prueba, mativos apropiados. Muchas pruebas, como las
según un plan especificado. Los pasos y conside- pruebas de empleo o de selección universitaria,
raciones para este proceso se articulan en el plan dependen de evidencia de validación predictiva.
de diseño de la prueba. El diseño de la prueba Las especificaciones para dichas pruebas deben
comienza con la consideración de interpretacio- incluir descripciones de los resultados que la
nes esperadas para usos previstos de los puntajes prueba se ha diseñado para predecir y planes para
que generará la prueba. El contenido y formato de reunir evidencia de la efectividad de los puntajes
la prueba luego se especifican para proporcionar de la prueba en la predicción de estos resultados.
evidencia para respaldar las interpretaciones para Las cuestiones que inciden en la validez, con-
los usos previstos. El diseño de la prueba también fiabilidad e imparcialidad se entrelazan dentro de
incluye especificación de la administración de la las etapas de desarrollo de la prueba. Cada uno de
prueba y procedimientos de calificación, y cómo estos temas se aborda integralmente en otros ca-
deben reportarse los puntajes. Las preguntas o pítulos de los Estándares: validez en el capítulo 1,
tareas (en adelante denominados ítems) se desa- confiabilidad en el capítulo 2 e imparcialidad en
rrollan siguiendo las especificaciones de la prueba el capítulo 3. En el capítulo 6 se brinda material
y se seleccionan utilizando criterios apropiados a adicional sobre la administración y calificación de
los usos previstos de la prueba. Los procedimien- las pruebas, y sobre la presentación de reportes e
tos para calificar ítems individuales y la prueba en interpretación de puntajes y resultados. El capí-
conjunto también se desarrollan, revisan y corri- tulo 5 analiza escalas de puntajes y el capítulo 7
gen según sea necesario. El diseño de la prueba cubre requisitos de documentación.
es comúnmente iterativo, con ajustes y revisiones Además, los desarrolladores de la prueba de-
que se realizan en respuesta a datos de ensayos y ben respetar los derechos de los participantes en
uso operativo. el proceso de desarrollo, incluyendo los partici-
Los procedimientos de diseño y desarrollo de- pantes de la prueba previa. En particular, los de-
ben respaldar la validez de las interpretaciones de sarrolladores de la prueba deben tomar medidas
los puntajes de la prueba para sus usos previstos. para garantizar la notificación y el consentimiento
Por ejemplo, las evaluaciones educativas actuales adecuados de los participantes y para proteger la
suelen utilizarse para indicar la competencia de información personal de identificación de los par-
los estudiantes con respecto a estándares para el ticipantes de conformidad con los requisitos lega-
conocimiento y la habilidad que un estudiante les y profesionales aplicables. Los derechos de los
debería mostrar; por lo tanto, la relación entre examinandos se tratan en el capítulo 8.
el contenido de la prueba y los estándares de Este capítulo describe cuatro fases del proceso
contenido establecidos es clave. En este caso, las de desarrollo de la prueba que abarcan desde la
especificaciones de contenido deben describir cla- declaración original de la(s) finalidad(es) hasta
ramente el contenido y/o las categorías cognitivas el producto final: (a) desarrollo y evaluación de
que se cubrirán para que pueda reunirse evidencia las especificaciones de la prueba; (b) desarrollo,
85

capítulo 4
ensayo y evaluación de los ítems; (c) reunión y Declaración de finalidad y usos previstos
evaluación de nuevos formularios de la prueba; y El proceso de desarrollar pruebas educativas y
(d) desarrollo de procedimientos y materiales para psicológicas debe comenzar con una declaración
administración y calificación. Lo que sigue es una de la(s) finalidad(es) de la prueba, los usuarios
descripción de los procedimientos de desarrollo y usos previstos, el constructo o dominio de
típicos de la prueba, aunque puede haber motivos contenido sometido a medición, y la población
sólidos por los que algunos pasos cubiertos en la prevista de individuos examinados. Las pruebas
descripción se sigan en algunos contextos y no en del mismo constructo o dominio pueden dife-
otros. rir de maneras importantes porque factores tales
como finalidad, usos previstos y población de
Especificaciones de la prueba individuos examinados pueden variar. Además,
las pruebas previstas para diversas poblaciones
Consideraciones generales de individuos examinados deben ser desarrolla-
En casi todos los casos, el desarrollo de la prueba das para minimizar los factores irrelevantes del
está guiado por un conjunto de especificaciones constructo que puedan deprimir o inflar injus-
de la prueba. La naturaleza de estas especifica- tamente el desempeño de algunos individuos
ciones y el modo en que se crean pueden variar examinados. En muchos casos, es posible que
ampliamente como una función de la naturaleza deban especificarse adecuaciones y/o versiones
de la prueba y sus usos previstos. El término espe- alternativas de las pruebas para eliminar obstácu-
cificaciones de la prueba a veces se limita a la des- los irrelevantes al desempeño para subgrupos en
cripción del contenido y formato de la prueba. En particular en la población prevista de individuos
los Estándares, las especificaciones de la prueba se examinados.
definen en líneas más generales para incluir tam- La especificación de los usos previstos in-
bién documentación de la finalidad y los usos pre- cluirá una indicación de que las interpretaciones
vistos de la prueba, así como decisiones detalladas de los puntajes de la prueba son principalmente
sobre contenido, formato, extensión de la prueba, conformes a normas o conformes a criterios.
características psicométricas de los ítems y de la Cuando los puntajes son conformes a normas,
prueba, modo de ejecución, administración, cali- las interpretaciones de puntajes relativas son de
ficación, y reporte de puntajes. principal interés. Un puntaje para un individuo
La responsabilidad del desarrollo de especifi- o para un grupo definible se clasifica dentro de
caciones de la prueba también varía ampliamente una distribución de puntajes o se compara con
entre los programas de evaluación. En la mayoría el desempeño promedio de examinandos en una
de las pruebas comerciales, las especificaciones de población de referencia (p. ej., basada en edad,
la prueba son creadas por el desarrollador de la grado, categoría de diagnóstico o clasificación del
prueba. En otros contextos, como las pruebas uti- trabajo). Cuando las interpretaciones son confor-
lizadas en rendición de cuentas en materia educa- mes a criterios, las interpretaciones de puntajes
tiva, muchos aspectos de las especificaciones de la absolutas son de principal interés. El significado
prueba se establecen a través del proceso de polí- de dichos puntajes no depende de la informa-
tica pública. Como se analizó en la introducción, ción de clasificación. En cambio, el puntaje de
el término genérico desarrollador de la prueba se la prueba transmite directamente un nivel de
utiliza en este capítulo con preferencia respecto competencia en algún dominio de criterios de-
de otros términos, como editor de la prueba, finido. Tanto las interpretaciones relativas como
para cubrir tanto a los responsables del desarrollo absolutas suelen utilizarse con una prueba dada,
como a los responsables de la implementación de pero el desarrollador de la prueba determina qué
las especificaciones de la prueba en una amplia enfoque es el más relevante para los usos específi-
variedad de procesos de desarrollo de la prueba. cos de la prueba.
86

DISEÑO Y DESARROLLO DE PRUEBAS
Especificaciones de contenido una medida de habilidad lingüística, la comple-

El primer paso en el desarrollo de especificacio- jidad de las preguntas puede conducir a varianza
nes de la prueba es extender la declaración de irrelevante de constructo en los puntajes de la
finalidad(es), y el constructo o dominio de conte- prueba. Esto sería injusto para los examinandos
nido que se considera, en un marco para la prueba con habilidades lingüísticas limitadas, lo que re-
que describa el grado del dominio, o el alcance del duce la validez de los puntajes de la prueba como
constructo sometido a medición. Las especifica- una medida del contenido previsto. Las especifi-
ciones de contenido a veces denominadas marcos caciones de formato deben incluir una justifica-
de contenido, delinean los aspectos (p. ej., con- ción respecto de cómo el formato elegido respalda
tenido, habilidades, procesos y características de la validez, confiabilidad e imparcialidad de los
diagnóstico) del constructo o dominio sometido usos previstos de los puntajes resultantes.
a medición. Las especificaciones deben abordar La naturaleza de los formatos de los ítems y
preguntas sobre qué debe incluirse, como “¿Las respuestas que pueden especificarse depende de
matemáticas de octavo grado incluyen álgebra?”, las finalidades de la prueba, el dominio definido
“¿La capacidad verbal incluye comprensión de de la prueba y la plataforma de evaluación. Los
textos y vocabulario?”, “¿La autoestima incluye formatos de respuesta seleccionada, como ítems
tanto sentimientos como actos?”. La delineación de verdadero-falso o de opciones múltiples, son
de las especificaciones de contenido puede orien- adecuados para muchas finalidades de evaluación.
tarse por la teoría o por un análisis del dominio Las pruebas basadas en computadora permiten
de contenido (p. ej., un análisis de los requisitos diferentes maneras de indicar respuestas, como
del puesto en el caso de muchas pruebas de acre- arrastrar y soltar. Otras finalidades pueden cum-
ditación y empleo). Las especificaciones de con- plirse de manera más efectiva mediante un for-
tenido sirven como una guía para la evaluación mato de respuesta corta. Los ítems de respuesta
de pruebas posteriores. El capítulo sobre validez corta requieren una respuesta de no más de algu-
proporciona un análisis más profundo de las re- nas palabras. Los formatos de respuesta extendida
laciones entre el constructo o dominio de conte- requieren que el examinando escriba una res-
nido, el marco de la prueba, y la(s) finalidad(es) puesta más extensa de una o más oraciones o pá-
de la prueba. rrafos. Las evaluaciones de desempeño a menudo
buscan emular el contexto o las condiciones en las
que efectivamente se aplican el conocimiento o
Especificaciones de formato las habilidades previstas. Un tipo de evaluación de
Una vez que se han tomado decisiones sobre qué desempeño, por ejemplo, es la muestra estandari-
debe medir la prueba y qué significado tienen zada de empleo o trabajo en la que una tarea se
por objeto transmitir sus puntajes, el próximo presenta al examinando en un formato estandari-
paso es crear especificaciones de formato. Las zado en condiciones estandarizadas. Las muestras
especificaciones de formato delinean el formato de empleo o trabajo podrían incluir la evaluación
de ítems (es decir, tareas o preguntas); el formato de la capacidad de un profesional médico para
de respuesta o condiciones para responder; y el hacer un diagnóstico exacto y recomendar trata-
tipo de procedimientos de calificación. Si bien las miento para una afección definida, la capacidad
decisiones de formato a menudo están impulsadas de un gerente para articular metas para una or-
por consideraciones de conveniencia, como la fa- ganización, o la competencia de un estudiante en
cilidad de respuesta o el costo de calificación, las la realización de un experimento de laboratorio
consideraciones de validez no deben pasarse por de ciencias.
alto. Por ejemplo, si las preguntas de la prueba
requieren que los examinandos posean una habi- Accesibilidad de los formatos de ítems. Como se
lidad lingüística significativa para interpretarlas describe en el capítulo 3, diseñar pruebas para que
pero la prueba no tiene la intención de constituir sean accesibles y válidas para todos los individuos
87

capítulo 4
examinados previstos, en la máxima medida posi- Las evaluaciones de desempeño requieren que los
ble, es fundamental. Los formatos que pueden no examinandos lleven a cabo un proceso tal como
ser conocidos para algunos grupos de examinandos tocar un instrumento musical o afinar el motor
o que presentan exigencias inapropiadas deben evi- de un auto o crear un producto como un ensayo
tarse. Los principios del diseño universal describen escrito. Una evaluación de un psicólogo clínico en
el uso de formatos de prueba que permiten tomar capacitación puede requerir que el examinando
pruebas sin adaptación a la variedad más amplia entreviste a un cliente, elija pruebas apropiadas,
posible de individuos, pero no necesariamente eli- llegue a un diagnóstico y planifique la terapia.
minan la necesidad de adaptaciones. Las especifi- Debido a que las evaluaciones de desempeño
caciones de formato deben incluir la consideración habitualmente consisten en una pequeña cantidad
de formatos alternativos que también podrían ser de tareas, establecer el grado en que los resultados
necesarios para eliminar obstáculos irrelevantes al pueden generalizarse a un dominio más amplio
desempeño, como letra grande o formato braille descripto en las especificaciones de la prueba es es-
para individuos examinados que tienen problemas pecialmente importante. Las especificaciones de la
de la vista o, cuando corresponda al constructo so- prueba deben indicar dimensiones críticas a medir
metido a medición, diccionarios bilingües para exa- (p. ej., habilidades y conocimiento, procesos cog-
minandos que son más competentes en un idioma nitivos, contexto para realizar las tareas) de modo
que no es el idioma de la prueba. La cantidad y ti- que las tareas seleccionadas para la evaluación re-
pos de adaptaciones a especificarse dependen tanto presenten sistemáticamente las dimensiones críti-
de la naturaleza del constructo que se evalúa como cas, lo que conduce a una cobertura integral del
de la población de destino de examinandos. dominio, así como cobertura coherente entre los
formularios de prueba. La especificación del do-
Formatos de ítems complejos. Algunos progra- minio a cubrir es también importante para aclarar
mas de evaluación emplean formatos de ítems fuentes posiblemente irrelevantes de variación en
más complejos. Los ejemplos incluyen evalua- el desempeño. Además, tanto la evidencia teó-
ciones de desempeño, simulaciones y porfolios. rica como la empírica son importantes para do-
Las especificaciones para formatos de ítems más cumentan la medida en que las evaluaciones de
complejos deben describir el dominio del que se desempeño —tareas como así también criterios de
toman muestras de ítems o tareas, componentes calificación— reflejan los procesos o habilidades
del dominio que se evaluará mediante las tareas que son especificados por la definición del do-
o ítems, y características críticas de los ítems que minio. Cuando las tareas se diseñan para suscitar
deberían replicarse en la creación de ítems para procesos cognitivos complejos, los análisis detalla-
formularios alternativos. Consideraciones espe- dos de las tareas y criterios de calificación y análisis
ciales para formatos de ítems complejos se des- tanto teóricos como empíricos de los desempeños
criben en el siguiente análisis de evaluaciones de de los examinandos en las tareas proporcionan la
desempeño, simulaciones y porfolios. evidencia de validación necesaria.
Evaluaciones de desempeño. Las evaluaciones de Simulaciones. Las evaluaciones de simulación

desempeño requieren que los individuos exami- son similares a las evaluaciones de desempeño en
nados demuestren la capacidad de desempeñar cuanto a que requieren que el individuo exami-
tareas que a menudo son complejas en su natura- nado se involucre en un conjunto complejo de
leza y por lo general requieren que los examinan- comportamientos durante un período especifi-
dos demuestren sus capacidades o habilidades en cado. Las simulaciones a veces reemplazan a las
contextos que se asemejan mucho a situaciones de evaluaciones de desempeño, cuando el desempeño
la vida real. Una distinción entre evaluaciones de real de la tarea podría ser costoso o peligroso. Las
desempeño y otras formas de pruebas es el tipo especificaciones para tareas de simulación deben
de respuesta que se requiere de los examinandos. describir el dominio de actividades a ser cubierto
88

por las tareas, dimensiones críticas de desempeño selección de su trabajo y productos que demues-
a reflejarse en cada tarea, y consideraciones de for- tren sus competencias para fines de promoción.
mato específicas como la cantidad o duración de De manera análoga, en aplicaciones educativas,
las tareas y aspectos esenciales de cómo interactúa los estudiantes pueden participar en la selección
el usuario con las tareas. Las especificaciones de- de parte de su trabajo y los productos a incluir en
ben ser suficientes para permitir que los expertos sus porfolios.
juzguen la comparabilidad de diferentes conjun- Las especificaciones en cuanto a cómo se ca-
tos de tareas de simulación incluidas en formula- lifican los porfolios y quién los califica variarán
rios alternativos. como una función del uso de los puntajes del
porfolio. La evaluación centralizada de porfolios
Porfolios. Los porfolios son recopilaciones sis- es común cuando estos se utilizan en decisiones
temáticas de productos educativos o de trabajo, de alto riesgo. Cuanto más estandarizados sean
por lo general reunidos a lo largo del tiempo. El los contenidos y procedimientos para recopilar
diseño de una evaluación de porfolio, al igual y calificar el material, más comparables serán los
que el de otros procedimientos de evaluación, puntajes de los porfolios resultantes. Indepen-
debe surgir de la finalidad de la evaluación. Las dientemente de los métodos usados, todas las eva-
finalidades típicas incluyen juzgar la mejora en el luaciones de desempeño, simulaciones y porfolios
desempeño laboral o educativo y la evaluación de se evalúan según los mismos estándares de calidad
la elegibilidad para un empleo, promoción o gra- técnica que de otras formas de pruebas.
duación. Las especificaciones del porfolio indican
la naturaleza del trabajo que ha de incluirse en el Extensión de la prueba
porfolio. El porfolio puede incluir entradas tales Los desarrolladores de la prueba con frecuencia
como productos representativos, el mejor trabajo siguen proyectos básicos de prueba que especifican
del examinando, o indicadores de progreso. Por la cantidad de ítems para cada área de contenido
ejemplo, en un contexto laboral que involucra que se incluirá en cada formulario de prueba. Las
decisiones de promoción, se puede instruir a los especificaciones para la extensión de la prueba de-
empleados para que incluyan sus mejores produc- ben equilibrar los requisitos de tiempo de evalua-
tos o trabajo. Alternativamente, si la finalidad es ción con la precisión de los puntajes resultantes;
juzgar el crecimiento educativo de los estudiantes, las pruebas más largas generalmente conducen a
se puede pedir a los estudiantes que proporcionen puntajes más precisos. Los desarrolladores de la
evidencia de mejora con respecto a competencias prueba con frecuencia siguen proyectos básicos
o habilidades en particular. También se puede de prueba que proporcionan orientación sobre la
pedir a los estudiantes que proporcionen justifi- cantidad o porcentaje de ítems para cada área de
caciones para sus elecciones o una nota de presen- contenido y que también pueden incluir la especi-
tación que refleje el trabajo presentado y lo que el ficación de la distribución de ítems por requisitos
estudiante ha aprendido de ello. Otros métodos cognitivos o por formato de ítem. Las especifica-
pueden requerir el uso de videos, exhibiciones o ciones de extensión y del proyecto básico de la
demostraciones. prueba suelen actualizarse en función de datos
Las especificaciones para el porfolio indican de ensayos sobre requisitos de tiempo, cobertura
quién es responsable de seleccionar sus conteni- de contenido y precisión de puntajes. Cuando
dos. Por ejemplo, las especificaciones deben in- las pruebas se administran en forma adaptable,
dicar si el examinando, el examinador o ambas la extensión de la prueba (la cantidad de ítems
partes que trabajan juntas deben involucrarse en administrados a cada individuo examinado) es
la selección de los contenidos del porfolio. Las determinada por reglas de espera, que pueden
responsabilidades particulares de cada parte se basarse en una cantidad fija de preguntas de la
delinean en las especificaciones. En contextos la- prueba o pueden basarse en un nivel deseado de
borales, los empleados pueden involucrarse en la precisión de puntajes.
89

capítulo 4
Especificaciones psicométricas puntaje: analítico y holístico. Ambos procedimien-

Las precisiones psicométricas indican propiedades tos requieren criterios de desempeño explícitos que
estadísticas deseadas de los ítems (p. ej., dificul- reflejen el marco de la prueba. Sin embargo, los en-
tad, discriminación y correlaciones entre ítems) así foques conducen a algunas diferencias en las espe-
como las propiedades estadísticas deseadas de toda cificaciones de calificación. En el procedimiento de
la prueba, incluyendo la naturaleza de la escala de puntaje analítico, cada dimensión crítica de los cri-
presentación de reportes, dificultad y precisión de terios de desempeño se juzga de manera indepen-
la prueba, y la distribución de ítems entre catego- diente, y se obtienen puntajes separados para cada
rías de contenido y cognitivas. Cuando los índices una de estas dimensiones además de un puntaje
psicométricos de los ítems se estiman utilizando general. En el procedimiento de puntaje holístico,
teoría de respuesta al ítem (TRI), también se eva- implícitamente pueden considerarse los mismos
lúa el ajuste del modelo a los datos. Esto se logra criterios de desempeño, pero solo se proporciona
evaluando el grado en que se satisfacen las suposi- un puntaje general. Debido a que el procedimiento
ciones subyacentes al modelo de respuesta al ítem analítico puede proporcionar información sobre
(p. ej., unidimensionalidad e independencia local). una serie de dimensiones críticas, potencialmente
proporciona información valiosa para fines de
diagnóstico y se presta a evaluar fortalezas y debili-
Especificaciones de calificación dades de los examinandos. Sin embargo, se reque-
Las especificaciones de la prueba describirán rirá validación para interpretaciones diagnósticas
cómo deben calificarse los ítems individuales de para usos particulares de los puntajes separados.
la prueba y cómo deben combinarse los punta- Por el contrario, el procedimiento holístico puede
jes de los ítems para arrojar uno o más puntajes ser preferible cuando se desea un juicio general y
generales de la prueba. Todos los tipos de ítems cuando las habilidades evaluadas son complejas y
requieren alguna indicación de cómo calificar las están altamente interrelacionadas. Independiente-
respuestas. Para ítems de respuesta seleccionada, mente del tipo de procedimiento de calificación,
una de las opciones de respuesta se considera la diseñar los ítems y desarrollar rúbricas y procedi-
respuesta correcta en algunos programas de eva- mientos de puntajes es un proceso integrado.
luación. En otros programas de evaluación, cada Cuando los procedimientos de calificación
opción de respuesta puede arrojar un puntaje de requieren juicio humano, las especificaciones de
ítem diferente. Para ítems de respuesta corta, una calificación deben describir cualificaciones esen-
lista de respuestas aceptables puede ser suficiente, ciales de los evaluadores, cómo deben capacitarse
aunque a veces se requieren instrucciones de ca- y supervisarse los evaluadores, como deben iden-
lificación más generales. Los ítems de respuesta tificarse y resolverse las discrepancias de califica-
extendida requieren reglas más detalladas para ción, y cómo debe verificarse la ausencia de sesgo
calificación, en ocasiones denominadas rúbricas en el juicio del evaluador. En algunos casos, se uti-
de puntajes. Las rúbricas de puntajes especifican lizan algoritmos por computadora para calificar
los criterios para evaluar el desempeño y pueden repuestas complejas de individuos examinados,
variar en el grado de juicio que conllevan, la canti- como los ensayos. En esos casos, las especificacio-
dad de niveles de puntaje empleados y los modos nes de calificación deben indicar cómo son gene-
en que se describen los criterios para cada nivel de rados los puntajes por estos algoritmos y cómo
puntaje. Es práctica común que los desarrollado- han de verificarse y validarse.
res de la prueba proporcionen a los evaluadores Las especificaciones de calificación también
ejemplos de desempeños en cada uno de los nive- incluirán si los puntajes de la prueba son sumas
les de puntaje para ayudar a aclarar los criterios. simples de puntajes de ítems, involucran ponde-
Para ítems de respuesta extendida, incluyendo ración diferencial de ítems o secciones, o se ba-
tareas de desempeño, simulaciones y porfolios, se san en un modelo de medición más complejo. Si
utilizan dos tipos principales de procedimientos de se utiliza un modelo de TRI, las especificaciones
90

deben indicar el formulario del modelo, cómo a medición. En esos casos, los ítems se seleccionan
han de estimarse los parámetros del modelo y principalmente sobre la base de su relación empí-
cómo ha de evaluarse el ajuste del modelo. rica con un criterio externo, sus relaciones entre
sí, o el grado en que discriminan entre grupos de
Especificaciones de la administración individuos. Por ejemplo, ítems para una prueba
de la prueba para personal de ventas podrían seleccionarse
Las especificaciones de administración de la sobre la base de las correlaciones de puntajes de
prueba describen cómo tiene que administrarse ítems con medidas de productividad del personal
la prueba. Los procedimientos de administra- de ventas actual. De manera similar, un inventa-
ción incluyen el modo de ejecución de la prueba rio para ayudar a identificar diferentes patrones
(p. ej., papel y lápiz o basada en computadora), de psicopatología podría desarrollarse utilizando
límites de tiempo, procedimientos de adecuación, pacientes de diferentes subgrupos de diagnóstico.
instrucciones y materiales provistos a los exami- Cuando el desarrollo de la prueba se basa en un
nadores e individuos examinados y procedimien- enfoque basado en datos, es probable que algunos
tos para supervisar la ejecución de la prueba y ítems se seleccionen sobre la base de ocurrencias
garantizar la seguridad de la prueba. Para pruebas al azar en los datos. Los estudios de validación
administradas por computadora, las especifica- cruzada se realizan habitualmente para determi-
ciones de administración también incluirán una nar la tendencia a seleccionar ítems al azar, lo cual
descripción de cualquier requisito de hardware o involucra administrar la prueba a una muestra
software, incluyendo consideraciones de conecti- comparable que no estuvo involucrada en el es-
vidad para pruebas basadas en Internet. fuerzo de desarrollo de la prueba original.
En otras aplicaciones de evaluación, no obs-
Perfeccionamiento de las especificaciones tante, las especificaciones de la prueba se fijan
de la prueba con antelación y orientan el desarrollo de ítems
A menudo existe una sutil interacción entre el y procedimientos de calificación. Las relaciones
proceso de conceptualizar un constructo o domi- empíricas pueden entonces utilizarse para infor-
nio de contenido y el desarrollo de una prueba mar decisiones sobre conservar, rechazar o mo-
de ese constructo o dominio. Las especificaciones dificar ítems. Las interpretaciones de puntajes de
para la prueba proporcionan una descripción de las pruebas desarrolladas mediante este proceso
cómo se representará el constructo o dominio y tienen la ventaja de un fundamento teórico y uno
es posible que deban perfeccionarse a medida que empírico para las dimensiones subyacentes repre-
avanza el desarrollo. Los procedimientos utiliza- sentadas por la prueba.
dos para desarrollar ítems y rúbricas de puntajes y
para examinar las características de los ítems y la Consideraciones para pruebas adaptables
prueba a menudo pueden contribuir a aclarar las En las pruebas adaptables, los ítems o conjuntos
especificaciones. La medida en que el constructo de ítems de la prueba se seleccionan a medida
se define completamente a priori depende de la que se administra la prueba sobre la base de las
aplicación de la evaluación. En muchas aplicacio- respuestas del examinando a ítems anteriores. La
nes de evaluación, las especificaciones de la prueba especificación de los algoritmos de selección de
bien definidas y detalladas orientan el desarrollo ítems puede involucrar la consideración de cober-
de ítems y sus rúbricas de puntajes y procedi- tura de contenido como así también el aumento de
mientos asociados. En algunas áreas de medición la precisión de la estimación de puntajes. Cuando
psicológica, el desarrollo de la prueba puede ser varios ítems están relacionados a un solo pasaje
menos dependiente de un marco definido a priori o tarea, se necesitan algoritmos más complejos
y puede depender más de un enfoque basado en para seleccionar el siguiente pasaje o tarea. En al-
datos que da por resultado una definición deri- gunos casos, se desarrolla una cantidad mayor de
vada en forma empírica del constructo sometido ítems para cada pasaje o tarea y el algoritmo de
91

capítulo 4
selección elige ítems específicos para administrar ítems desarrollados para usar en pruebas adap-
basados en consideraciones de contenido y preci- tables deben examinarse para detectar posibles
sión. Las especificaciones también deben indicar efectos de contexto para evaluar cuánto podrían
si se debe administrar una cantidad fija de ítems o cambiar los parámetros de los ítems cuando
si la prueba debe continuar hasta que se cumplan los ítems se administran en órdenes diferentes.
los criterios de precisión o cobertura de contenido. Además, si los ítems se asocian con un pasaje o
El uso de pruebas adaptables y de modelos de estímulo común, el desarrollo debe estar infor-
pruebas basadas en computadora también invo- mado por una comprensión de cómo funcionará
lucra consideraciones especiales relacionadas con la selección de ítems. Por ejemplo, el enfoque
desarrollo de ítems. Cuando un conjunto de ítems para desarrollar ítems asociados con un pasaje
operativos se desarrolla para una prueba adaptable puede diferir dependiendo de que el algoritmo
computarizada, las especificaciones se refieren tanto de selección de ítems seleccione todos los ítems
al conjunto de ítems como a las reglas o procedi- disponibles relacionados con el pasaje o pueda
mientos por los cuales se selecciona un conjunto de elegir subconjuntos de los ítems disponibles re-
ítems individualizado para cada examinando. Al- lacionados con el pasaje. Debido a los problemas
gunas de las características atractivas de las pruebas que surgen cuando los ítems o tareas están ani-
adaptables computarizadas, como crear a medida dados dentro de pasajes o estímulos en común, a
el nivel de dificultad de los ítems de acuerdo con menudo se consideran variaciones de las pruebas
la capacidad del examinando, colocan restricciones adaptables. Por ejemplo, la evaluación de múlti-
adicionales sobre el diseño de dichas pruebas. En la ples etapas comienza con una serie de ítems de
mayoría de los casos, se necesitan grandes cantida- direccionamiento. Una vez que estos se dan y se
des de ítems para construir una prueba adaptable califican, la computadora hace una ramificación
computarizada para garantizar que el conjunto de a grupos de ítems que están explícitamente desti-
ítems administrado a cada examinando cumpla nados a niveles de dificultad apropiados, basados
todos los requisitos de las especificaciones de la en la evaluación del desempeño observado de los
prueba. Además, a menudo se desarrollan pruebas individuos examinados en los ítems de direccio-
en el contexto de sistemas o programas de mayor namiento. En general, los requisitos especiales de
tamaño. Se pueden crear múltiples conjuntos de las pruebas adaptables exigen algún cambio en el
ítems, por ejemplo, para usar con diferentes gru- modo en que se desarrollan y prueban los ítems.
pos de examinandos o en diferentes fechas de eva- Si bien los principios de calidad fundamentales
luación. Las preocupaciones sobre la seguridad de del desarrollo de ítems no son diferentes, debe
la prueba se intensifican cuando la disponibilidad prestarse mayor atención a las interacciones entre
limitada de equipos hace que sea imposible eva- contenido, formato y dificultad de los ítems para
luar a todos los examinandos al mismo tiempo. lograr conjuntos de ítems que sean más adecuados
Una serie de cuestiones, incluyendo la seguridad a este enfoque de evaluación.
de la prueba, la complejidad de los requisitos de
cobertura de contenido, niveles de precisión de Sistemas que respaldan el desarrollo de ítems
puntajes requeridos, y si podría permitirse que los y pruebas
examinandos vuelvan a dar la prueba utilizando el La mayor dependencia de la tecnología y la ne-
mismo conjunto, deben considerarse al especificar cesidad de velocidad y eficiencia en el proceso de
el tamaño de los conjuntos de ítems asociados con desarrollo de pruebas requieren la consideración
cada formulario de la prueba adaptable. de los sistemas que respaldan el desarrollo de
El desarrollo de ítems para pruebas adapta- ítems y pruebas. Dichos sistemas pueden mejorar
bles por lo general requiere que se desarrolle una la buena práctica de desarrollo de ítems y pruebas
mayor proporción de ítems a niveles altos o ba- facilitando la creación y revisión de ítems/tareas,
jos de dificultad en relación con la población de proporcionando un banco de ítems y herramien-
la prueba de destino. Los datos de ensayos para tas automatizadas para asistir con el desarrollo de
92

formularios de prueba, e integrando información descripciones de tareas. Los revisores deben ser
estadística de ítems/tareas con texto y gráficos conocedores del contenido de la prueba y de los
de ítems/tareas. Estos sistemas pueden desarro- grupos de individuos examinados cubiertos por
llarse para cumplir con estándares y marcos de esta revisión.
interoperabilidad y accesibilidad que faciliten a A menudo, nuevos ítems de prueba se admi-
los usuarios de la prueba la transición de sus pro- nistran a un grupo de examinandos que son lo
gramas de evaluación de un desarrollador de la más representativos posible de la población de
prueba a otro. Si bien los aspectos específicos de destino para la prueba, y cuando es posible, que
las bases de datos de ítems y sistemas de respaldo representan adecuadamente a individuos de los
están fuera del alcance de los Estándares, el au- subgrupos previstos. Los ensayos de ítems ayudan
mento de disponibilidad de esos sistemas obliga a determinar algunas de las propiedades psico-
a los responsables de desarrollar esas pruebas a métricas de los ítems de prueba, como dificul-
considerar la aplicación de tecnología al diseño tad de un ítem y capacidad para distinguir entre
y desarrollo de pruebas. Los desarrolladores de examinandos de diferente situación respecto del
pruebas deben evaluar los costos y beneficios de constructo que se evalúa. Los programas de eva-
diferentes aplicaciones, considerando cuestiones luación continuos suelen hacer una prueba previa
tales como velocidad de desarrollo, transportabili- de los ítems insertándolos en pruebas operativas
dad entre plataformas de evaluación, y seguridad. existentes (los ítems de ensayo no contribuyen a
los puntajes que reciben los examinandos). Los
Desarrollo y revisión de ítems análisis de las respuestas a estos ítems de ensayo
proporcionan datos útiles para evaluar la calidad
El desarrollador de la prueba por lo general reúne y pertinencia antes del uso operativo.
un conjunto de ítems que consiste en más pre- Los análisis estadísticos de los datos de los
guntas o tareas que las necesarias para llenar el ensayos de ítems incluyen estudios de funciona-
formulario o los formularios de la prueba que miento diferencial de los ítems (véase el cap. 3,
se elaborarán. Esto permite al desarrollador de “Imparcialidad en las pruebas”). Se dice que existe
la prueba seleccionar un conjunto de ítems para funcionamiento diferencial de los ítems cuando
uno o más formularios de la prueba que cumplen examinandos de diferentes grupos (p. ej., grupos
las especificaciones de la prueba. La calidad de definidos por género, raza/origen étnico o edad)
los ítems suele determinarse a través de procedi- que tienen capacidad aproximadamente igual
mientos de revisión de ítems y ensayos de ítems, respecto del constructo de destino o dominio de
a menudo denominados evaluación previa. Los contenido difieren en sus respuestas a un ítem.
ítems se revisan en cuanto a calidad de conte- En teoría, la meta máxima de dichos estudios es
nido, claridad y aspectos de contenido irrelevan- identificar aspectos irrelevantes del constructo
tes del constructo que influyen en las respuestas del contenido del ítem, formato de ítems, o cri-
de los examinandos. En la mayoría de los casos, terios de calificación que pueden afectar en forma
la práctica acertada dicta que los ítems se revisen diferencial los puntajes de la prueba de uno o
en cuanto a sensibilidad y potencial de resultar más grupos de examinandos. Cuando se detecta
ofensivos que podrían introducir varianza irre- funcionamiento diferencial de los ítems, los de-
levante de constructo para individuos o grupos sarrolladores de la prueba intentan identificar ex-
de examinandos. Por lo general se intenta evitar plicaciones plausibles de las diferencias, y pueden
palabras y temas que puedan ofender o de otro luego reemplazar o revisar ítems para promover
modo molestar a examinandos, si material menos interpretaciones sólidas de puntajes para todos
ofensivo es igualmente útil (véase el cap. 3). Para los individuos examinados. Cuando los ítems
preguntas de respuestas construidas y tareas de se abandonan debido a un índice de funciona-
desempeño, el desarrollo incluye rúbricas de pun- miento diferencial de los ítems, el desarrollador
tajes específicas de ítems así como indicaciones o de la prueba debe tener cuidado de que ningún
93

capítulo 4
reemplazo o revisión comprometa la cobertura en el mismo formulario de prueba o conjunto de

del contenido de la prueba especificado. ítems. Cuando se preparan múltiples formularios
Los desarrolladores de la prueba a veces utili- de una prueba, las especificaciones de la prueba
zan enfoques que involucran entrevistas estructu- rigen cada uno de los formularios.
radas o protocolos de pensamiento en voz alta con En ocasiones se prueban nuevos formularios
examinandos seleccionados. Dichos enfoques, en de prueba o se hacen pruebas de campo de es-
ocasiones denominados laboratorios cognitivos, tos antes del uso operativo. La finalidad de una
se utilizan para identificar obstáculos irrelevantes prueba de campo es determinar si los ítems fun-
a responder correctamente que podrían limitar la cionan según lo previsto en el contexto del nuevo
accesibilidad del contenido de la prueba. Los labo- formulario de prueba y evaluar las propiedades
ratorios cognitivos también se utilizan para pro- estadísticas, como la precisión o confiabilidad de
porcionar evidencia de que los procesos cognitivos puntajes, del nuevo formulario. Cuando se llevan
que siguen quienes se someten a la evaluación son a cabo pruebas de campo, todos los grupos de in-
coherentes con el constructo sometido a medición. dividuos examinados relevantes deben incluirse
Hay pasos adicionales en la evaluación de rú- de modo que los resultados y conclusiones se ge-
bricas de puntajes para ítems de respuesta exten- neralicen al uso operativo previsto de los nuevos
dida o tareas de desempeño. Los desarrolladores de formularios de prueba y respalden más análisis de
la prueba deben identificar respuestas que ilustren la imparcialidad de los nuevos formularios.
cada nivel de calificación, para usar en la capacita-
ción y verificación de evaluadores. Los desarrolla- Desarrollo de procedimientos y mate-
dores también identifican respuestas en los límites riales para administración y calificación
entre niveles de puntajes adyacentes para utilizar en
discusiones más detalladas durante la capacitación Muchas personas interesadas (p. ej., profesiona-
de evaluadores. Los análisis estadísticos de cohe- les, profesores) pueden estar involucrados en el
rencia y exactitud de puntajes (concordancia con desarrollo de ítems y rúbricas de puntajes y/o en
puntajes asignados por expertos) deben incluirse en la evaluación de los desempeños posteriores. Si se
el análisis de los datos de ensayos. utiliza un enfoque participativo, el conocimiento
de los participantes sobre el dominio que se eva-
Reunión y evaluación de formularios lúa y su capacidad para aplicar las rúbricas de
de prueba puntajes revisten una importancia fundamental.
Igualmente importante para las personas involu-
El próximo paso en el desarrollo de la prueba es cradas en el desarrollo de pruebas y la evaluación
reunir ítems en uno o más formularios de prueba de desempeños es su conocimiento de la natura-
o identificar uno o más conjuntos de ítems para leza de la población que se evalúa. Las caracte-
una prueba adaptable o de múltiples etapas. El rísticas relevantes de la población que se evalúa
desarrollador de la prueba es responsable de do- pueden incluir el rango típico de niveles de ha-
cumentar que los ítems seleccionados para la bilidad esperados, familiaridad con los modos de
prueba cumplen los requisitos de las especifica- respuesta requeridos de ellos, maneras típicas en
ciones de la prueba. En particular, el conjunto que se muestran el conocimiento y las habilida-
de ítems seleccionados para un nuevo formulario des, y el idioma principal utilizado.
de prueba o conjunto de ítems para una prueba El desarrollo de la prueba incluye la creación
adaptable debe cumplir tanto las especificaciones de una serie de documentos para respaldar la ad-
de contenido como las psicométricas. Además, ministración de la prueba según lo descripto en las
habitualmente se realizan revisiones editoriales y especificaciones de la prueba. Las instrucciones a
de contenido para reemplazar ítems que son delos usuarios de la prueba se desarrollan y prueban
masiado similares a otros ítems o que pueden pro- como parte de los procedimientos de pruebas pi-
porcionar pistas para las respuestas de otros ítems loto o de campo. Las instrucciones y la capacitación
94

para administradores de pruebas también deben que reutilizan ítems de prueba o formularios de
desarrollarse y probarse. Una consideración clave prueba, los procedimientos de seguridad deben
en el desarrollo de procedimientos y materiales incluir evaluación de cambios en las estadísticas
de administración de pruebas es que la adminis- de ítems para evaluar la posibilidad de una viola-
tración de la prueba debe ser imparcial para todos ción de seguridad. Los desarrolladores o usuarios
los individuos examinados. Esto significa que las de la prueba podrían considerar la supervisión de
instrucciones para dar la prueba deben ser claras y sitios web respecto de la posible divulgación del
que las condiciones de administración de la prueba contenido de la prueba.
deben ser estandarizadas para todos los individuos
examinados. También significa que deben conside- Revisiones de las pruebas
rarse con antelación las adecuaciones de la prueba
correspondientes para individuos examinados que Las pruebas y sus documentos de respaldo (p. ej.,
las necesiten, como se analiza en el capítulo 3. manuales de la prueba, manuales técnicos, guías
Para pruebas administradas por computadora, de usuario) deben revisarse periódicamente para
los procedimientos de administración deben ser determinar si se necesitan revisiones. Las revi-
coherentes con los requisitos de hardware y soft- siones o modificaciones son necesarias cuando
ware incluidos en las especificaciones de la prueba. nuevos datos de investigación, cambios significa-
Los requisitos de hardware pueden cubrir veloci- tivos en el dominio o nuevas condiciones del uso
dad y memoria del procesador; teclado, mouse u y la interpretación de la prueba sugieren que la
otros dispositivos de entrada de datos; tamaño del prueba ha dejado de ser óptima o completamente
monitor y resolución de pantalla; y conectividad apropiada para algunos de sus usos previstos. Por
a servidores locales o a Internet. Los requisitos de ejemplo, las pruebas se revisan si el contenido o
software cubren sistemas operativos, navegadores el lenguaje de la prueba se ha desactualizado y,
u otras herramientas comunes y disposiciones para por lo tanto, puede afectar posteriormente la va-
bloquear acceso a otro software o interferencia de lidez de las interpretaciones de los puntajes de la
este. Los individuos examinados que dan pruebas prueba. Sin embargo, las normas desactualizadas
administradas por computadora deben ser infor- pueden no tener las mismas implicaciones para
mados acerca de cómo responder a las preguntas, las revisiones que una prueba desactualizada. Por
cómo desplazarse por la prueba, si pueden saltar ejemplo, es posible que sea necesario actualizar
ítems, si pueden volver a ver ítems respondidos las normas para una prueba de rendimiento des-
previamente más adelante en el período de evalua- pués de un período de aumento o descenso del
ción, si pueden suspender la sesión de evaluación rendimiento en la población de normalización, o
para un tiempo más tarde, y otras exigencias que cuando hay cambios en la población que se so-
pueden ocurrir durante la evaluación. mete a la prueba, pero el contenido de la prueba
También deben implementarse procedi- propiamente dicho puede continuar siendo tan
mientos de seguridad de la prueba junto con la relevante como lo era cuando se desarrolló la
administración y la calificación de las pruebas. prueba. El momento en que se necesite la revisión
Dichos procedimientos a menudo incluyen el variará como una función del contenido y los usos
seguimiento y almacenamiento de materiales; ci- previstos de la prueba. Por ejemplo, las pruebas
frado de transmisión electrónica del contenido y de dominio de planes de estudios educativos o de
los puntajes del examen; acuerdos de confidencia- capacitación deben revisarse cada vez que se ac-
lidad para examinandos, evaluadores y adminis- tualice el plan de estudios correspondiente. Las
tradores; y procedimientos para supervisar a los pruebas que evalúan constructos psicológicos de-
individuos examinados durante la sesión de eva- ben revisarse cuando la investigación sugiere una
luación. Además, para programas de evaluación conceptualización revisada del constructo.
95

capítulo 4
Estándares para el diseño y desarrollo de pruebas

Los estándares en este capítulo comienzan con individuos. Las especificaciones de la prueba ini-
un estándar global (numerado 4.0), que se ha ciales pueden modificase a medida que se reúne
diseñado para transmitir la intención central o evidencia durante el desarrollo y la implementa-
enfoque principal del capítulo. El estándar global ción de la prueba.
también puede verse como el principio rector del
capítulo, y es aplicable a todas las pruebas y usua-
rios de pruebas. Todos los estándares posteriores Unidad 1. Estándares para
se han separado en cuatro unidades temáticas de- especificaciones de la prueba
nominadas de la siguiente manera:
1. Estándares para especificaciones de la prueba Estándar 4.1

2. Estándares para desarrollo y revisión de ítems Las especificaciones de la prueba deben des-
3. Estándares para desarrollar procedimientos y cribir la(s) finalidad(es) de la prueba, la defi-
materiales de administración y calificación de nición del constructo o el dominio medido, la
pruebas población prevista de individuos examinados
4. Estándares para revisión de pruebas y las interpretaciones para los usos previstos.
Las especificaciones deben incluir una justifica-
ción que respalde las interpretaciones y usos de
Estándar 4.0
los resultados de la prueba para el o los fines
Las pruebas y programas de evaluación deben previstos.
diseñarse y desarrollarse de una manera que
Comentario: La adecuación y utilidad de las in-
respalde la validez de las interpretaciones de los
terpretaciones de la prueba dependen del rigor
puntajes de la prueba para sus usos previstos.
con el que se hayan definido y explicado la(s)
Los desarrolladores y editores de pruebas deben
finalidad(es) de la prueba y el dominio represen-
documentar las medidas tomadas durante el pro-
tado por la prueba. La definición del dominio de-
ceso y desarrollo de la prueba para proporcionar
bería ser lo suficientemente detallada y delimitada
evidencia de imparcialidad, confiabilidad y va-
para mostrar con claridad qué dimensiones de
lidez para los usos previstos para individuos en
conocimiento, habilidades, procesos cognitivos,
la población prevista de individuos examinados.
actitudes, valores, emociones o comportamien-
Comentario: A continuación, se describen están- tos se incluyen y qué dimensiones se excluyen.
dares específicos para diseñar y desarrollar prue- Una descripción clara mejorará los juicios exac-
bas de una manera que respalde los usos previstos. tos de revisores y otras personas acerca del grado
Las especificaciones iniciales para una prueba, que de congruencia entre el dominio definido y los
tienen por objeto guiar el proceso de desarrollo, ítems de la prueba. La especificación clara de la
pueden modificarse o ampliarse a medida que población prevista de individuos examinados y
avanza el desarrollo y se dispone de nueva infor- sus características puede ayudar a proteger contra
mación. Tanto la documentación inicial como la características irrelevantes del constructo del con-
final de las especificaciones y los procedimientos tenido y el formato de los ítems. Las especificacio-
de desarrollo de la prueba proporcionan una base nes deben incluir planes para recopilar evidencia
sobre la cual los expertos externos y los usuarios de la validez de las interpretaciones previstas de
de la prueba pueden juzgar el grado en que se han los puntajes de la prueba para sus usos previstos.
respaldado o es probable que se respalden los usos Los desarrolladores de la prueba también deben
previstos, lo cual conduce a interpretaciones váli- identificar posibles limitaciones sobre el uso de la
das de los resultados de la prueba para todos los prueba o posibles usos inapropiados.
96

Estándar 4.2 el contenido y los procedimientos de adminis-

Además de describir los usos previstos de la tración de la prueba deben elegirse para que las
prueba, las especificaciones de la prueba deben inferencias previstas de los puntajes de la prueba
definir el contenido de la prueba, la extensión sean igualmente válidas para todos los examinan-
propuesta de la prueba, los formatos de los dos. Algunos detalles de las especificaciones de
ítems, las propiedades psicométricas deseadas de la prueba pueden ser revisados sobre la base de
los ítems de la prueba y la prueba, y el orden de pruebas piloto o de campo iniciales. Por ejemplo,
los ítems y secciones. Las especificaciones de la las especificaciones de la extensión de la prueba
prueba también deben establecer la cantidad de o combinación de tipos de ítems podrían modi-
tiempo permitido para la evaluación; instruccio- ficarse en función de datos iniciales para lograr la
nes para los examinandos; procedimientos que precisión de medida deseada.
se usarán para la administración de la prueba,
Estándar 4.3
incluyendo variaciones aceptables; cualquier
material que se usará; y procedimientos de ca- Los desarrolladores de la prueba deben docu-
lificación y presentación de reportes. Las especi- mentar la justificación y la evidencia de respaldo
ficaciones para pruebas basadas en computadora para la administración, calificación y reglas de
deben incluir una descripción de cualquier re- presentación de reportes utilizadas en pruebas
quisito de hardware y software. adaptables por computadora, adaptables de
múltiples etapas u otras ejecutadas utilizando
Comentario: El juicio profesional desempeña un algoritmos de computación para seleccionar
rol importante en el desarrollo de las especifica- ítems. Esta documentación debe incluir proce-
ciones de la prueba. Los procedimientos específi- dimientos utilizados en la selección de ítems o
cos utilizados para desarrollar las especificaciones conjuntos de ítems para administración, en la
dependen de la(s) finalidad(es) de la prueba. Por determinación de las condiciones de punto de
ejemplo, al desarrollar pruebas para obtención partida y finalización para la prueba, en la cali-
de licencias y certificación, los análisis prácticos ficación de la prueba y en el control de la expo-
o análisis de empleo por lo general proporcio- sición de ítems.
nan la base para definir las especificaciones de la
prueba; los análisis de empleo solos por lo general Comentario: Si una prueba adaptable compu-
cumplen esta función para las pruebas de empleo. tarizada tiene por objeto medir una cantidad
Para las pruebas de rendimiento que se toman al de subcategorías de contenido diferentes, los
final de un curso, las especificaciones de la prueba procedimientos de selección de ítems deben
deben basarse en un esquema del contenido y las asegurar que las subcategorías estén representa-
metas del curso. Para las pruebas de colocación, das adecuadamente por los ítems presentados al
los desarrolladores examinarán los conocimientos examinando. Las justificaciones comunes para
y las habilidades de nivel de ingreso requeridos las pruebas adaptables computarizadas son que
para diferentes cursos. En el desarrollo de pruebas aumenta la precisión de los puntajes, en parti-
psicológicas, las descripciones y los criterios de cular para individuos examinados de alta y baja
diagnóstico de déficits del comportamiento, men- calificación, o que se logra precisión compara-
tales y emocionales y psicopatología informan las ble mientras se reduce el tiempo de evaluación.
especificaciones de la prueba. Obsérvese que estas pruebas están sujetas a los
Los tipos de ítems, los formatos de respuesta, mismos requisitos para la documentación de la
los procedimientos de calificación, y los procedi- validez de las interpretaciones de los puntajes
mientos de administración de la prueba deben para su uso previstos que otros tipos de pruebas.
seleccionarse sobre la base de la(s) finalidad(es) Las especificaciones de la prueba deben incluir
de la prueba, el dominio sometido a medición, y planes para recopilar evidencia requerida para di-
los examinandos previstos. En la medida posible, cha documentación.
97

capítulo 4
Estándar 4.4 debe identificarse la variación aceptable en las

condiciones para la administración. Deben do-
Si los desarrolladores de la prueba preparan di- cumentarse una justificación para permitir las
ferentes versiones de una prueba con algún cam- diferentes condiciones y cualquier requisito para
bio en las especificaciones de la prueba, deben permitir las diferentes condiciones.
documentar el contenido y las especificaciones
psicométricas de cada versión. La documenta- Comentario: La variación en las condiciones
ción debe describir el impacto de las diferencias de administración puede reflejar restricciones
entre versiones sobre la validez de las interpreta- de administración en diferentes ubicaciones o,
ciones de los puntajes para los usos previstos y más comúnmente, puede estar diseñada como
sobre la precisión y comparabilidad de puntajes. adecuaciones de la evaluación para individuos
examinados o grupos de individuos examinados
Comentario: Los desarrolladores de la prueba específicos. Un ejemplo de una variación común
pueden tener diversos motivos para crear dife- es el uso de administración por computadora de
rentes versiones de una prueba, como permitir un formulario de prueba en algunas ubicaciones
diferentes cantidades de tiempo para la adminis- y administración con papel y lápiz del mismo
tración de la prueba reduciendo o aumentando la formulario en otras ubicaciones. Otro ejemplo
cantidad de ítems en la prueba original, o permi- es la administración en grupos pequeños o in-
tir la administración a diferentes poblaciones tra- dividual para examinandos cuyo desempeño en
duciendo las preguntas de la prueba a diferentes la prueba podría estar limitado por distracciones
idiomas. Los desarrolladores de la prueba deben en contextos de grupos grandes. Las adecuacio-
documentar el grado en que las especificaciones nes de la prueba, como se analiza en el capítulo
difieren de las de la prueba original, proporcio- 3 (“Imparcialidad en las pruebas”), son cambios
nar una justificación para las diferentes versiones hechos en una prueba para aumentar la impar-
y describir las implicaciones de dichas diferencias cialidad para individuos que de otro modo serían
para interpretar los puntajes derivados de las di- desfavorecidos por características irrelevantes del
ferentes versiones. Los desarrolladores y usuarios constructo de los ítems de la prueba. Los desa-
de la prueba deben supervisar y documentar cual- rrolladores de la prueba deben especificar pro-
quier diferencia psicométrica entre versiones de cedimientos para supervisar variaciones y para
la prueba sobre la base de evidencia recopilada reunir evidencia para mostrar que el constructo
durante el desarrollo y la implementación. La de destino está o no está alterado por variaciones
evidencia de diferencias puede involucrar juicios aceptables. Estos procedimientos deben docu-
cuando la cantidad de individuos examinados mentarse sobre la base de datos recopilados du-
que reciben una versión en particular es pequeña rante la implementación.
(p. ej., una versión en braille). Obsérvese que es-
tos requisitos son además de los requisitos nor-
males para demostrar la equivalencia de puntajes Estándar 4.6
de diferentes formularios de la misma prueba.
Cuando se utilizan diferentes idiomas en diferen- Cuando corresponda para documentar la va-
tes versiones de la prueba, los procedimientos uti- lidez de las interpretaciones de los puntajes de
lizados para desarrollar y verificar las traducciones la prueba para los usos previstos, expertos re-
a cada idioma deben documentarse. levantes externos al programa de evaluación
deben revisar las especificaciones de la prueba
Estándar 4.5 para evaluar su adecuación para los fines previs-
tos de los puntajes de la prueba e imparcialidad
Si el desarrollador de la prueba indica que se para los examinandos previstos. La finalidad
permite que varíen las condiciones de admi- de la revisión, el proceso por el cual se realiza
nistración de un examinando o grupo a otro, la revisión y los resultados de la revisión deben
98

documentarse. Las cualificaciones, experiencias Estándar 4.8

relevantes y características demográficas de los
jueces expertos también deben documentarse. El proceso de revisión de la prueba debe incluir
análisis empíricos y/o el uso de jueces expertos
Comentario: Pueden considerarse varios factores para revisar ítems y criterios de calificación.
al decidir si es necesaria la revisión externa de es- Cuando se utilizan jueces expertos, sus cualifi-
pecificaciones de la prueba, incluyendo el alcance caciones, experiencias relevantes y características
del uso previsto, si las interpretaciones de los pun- demográficas deben documentarse, junto con las
tajes pueden tener consecuencias importantes, y instrucciones y la capacitación en el proceso de
la disponibilidad de expertos externos. La revisión revisión de ítems que los jueces reciben.
de expertos de las especificaciones de la prueba
puede servir a muchos fines útiles, como ayudar a
Comentario: Cuando el tamaño de la muestra
garantizar la calidad y representatividad del con-
lo permita, se necesitan análisis empíricos para
tenido. El uso de expertos externos al proceso de
verificar las propiedades psicométricas de los
desarrollo de la prueba respalda la objetividad en
ítems de la prueba y también para verificar si los
los juicios de la calidad de las especificaciones de
ítems de la prueba funcionan en forma similar
la prueba. La revisión de las especificaciones an-
para grupos diferentes. Se puede pedir que jue-
tes de comenzar el desarrollo de los ítems puede
ces expertos verifiquen la calificación de ítems
evitar problemas significativos durante las revisio-
e identifiquen material que probablemente sea
nes posteriores de ítems de la prueba. Los jueces
inapropiado, confuso u ofensivo para grupos
expertos pueden incluir individuos que repre-
en la población de examinandos. Por ejemplo,
senten poblaciones definidas de interés para las
se puede pedir a los jueces que identifiquen
especificaciones de la prueba. Por ejemplo, si la
si la falta de exposición a contextos de proble-
prueba debe administrarse a diferentes grupos lin-
mas en problemas de planteo de matemáticas
güísticos y culturales, la revisión de expertos habi-
puede constituir una preocupación para algunos
tualmente incluye a miembros de estos grupos y
grupos de estudiantes. Varios grupos de exami-
expertos en la evaluación de cuestiones específicas
nandos pueden ser definidos por características
a estos grupos.
tales como edad, origen étnico, cultura, género,
discapacidad o región demográfica. Cuando sea
Unidad 2. Estándares para el viable, la evidencia tanto empírica como basada
desarrollo y la revisión de ítems en juicios de la medida en que los ítems de la
prueba funcionan de manera similar para dife-
Estándar 4.7 rentes grupos debe utilizarse en el cribado de los
ítems. (Véase el cap. 3 para consultar ejemplos de
Los procedimientos utilizados para desarrollar,
tipos apropiados de evidencia).
revisar y probar ítems y para seleccionar ítems
En ocasiones se realizan estudios de la ali-
del conjunto de ítems deben documentarse.
neación de los formularios de la prueba con las
Comentario: Las cualificaciones de individuos especificaciones de contenido para respaldar in-
que desarrollan y revisan ítems y los procesos terpretaciones de que los puntajes de la prueba
utilizados para capacitarlos y guiarlos en estas indican dominio del contenido de la prueba de
actividades son aspectos importantes de la do- destino. Expertos independientes de los desarro-
cumentación del desarrollo de la prueba. Por lo lladores de la prueba juzgan el grado en que el
general, varios grupos de individuos participan en contenido de los ítems se corresponde con las
el proceso de desarrollo de la prueba, incluyendo categorías de contenido en las especificaciones
redactores de ítems y personas que participan de la prueba y si los formularios de prueba pro-
en revisiones de los ítems y del contenido de la porcionan cobertura equilibrada del contenido de
prueba en cuanto a sensibilidad o para otros fines. destino.
99

capítulo 4
Estándar 4.9 para estimar las propiedades de los ítems debe

describirse y debe ser de un tamaño y diversidad
Cuando se realizan ensayos de ítems o formu- adecuados para el procedimiento. El proceso por
larios de prueba, deben documentarse los pro- el cual se criban los ítems y los datos utilizados
cedimientos utilizados para seleccionar la(s) para cribado, como dificultad del ítem, discri-
muestra(s) de examinandos, así como las ca- minación de ítems, o funcionamiento diferencial
racterísticas resultantes de la(s) muestra(s). Las de los ítems (DIF) para grupos importantes de
muestras deben ser tan representativas como sea individuos examinados también deben docu-
posible de las poblaciones para las que está pre- mentarse. Cuando se utilizan métodos basados
vista la prueba. en modelos (p. ej., TRI) para estimar los pará-
Comentario: Deben documentarse cuando co- metros de los ítems en el desarrollo de pruebas,
rresponda las condiciones que pueden afectar el modelo de respuesta al ítem, los procedimien-
diferencialmente el desempeño en los ítems de tos de estimación y la evidencia de ajuste del mo-
la prueba según las muestras de los ensayos en delo deben documentarse.
comparación con las poblaciones previstas. Por
ejemplo, los examinandos pueden estar menos Comentario: Si bien el tamaño general de la
motivados cuando saben que sus puntajes no ten- muestra es relevante, también debe haber una
drán un impacto en ellos. Cuando sea posible, cantidad adecuada de casos en regiones críticas
deben examinarse y documentarse las caracterís- para la determinación de las propiedades psico-
ticas de los ítems y las pruebas para subgrupos métricas de los ítems. Si la prueba debe lograr
relevantes en la población prevista de individuos la mayor precisión en una parte en particular de
examinados. la escala de puntajes y esta consideración afecta la
En la medida en que sea viable, los ensayos de selección de ítems, la manera en que las estadísti-
ítems y formularios de prueba deben incluir gru- cas de ítems se utilizan para la selección de ítems
pos de individuos examinados relevantes. Cuando debe documentarse cuidadosamente. Cuando
el tamaño de la muestra lo permita, los desarrolla- se utiliza TRI como base para el desarrollo de la
dores de la prueba deben determinar si los pun- prueba, es importante documentar la adecuación
tajes de los ítems tienen diferentes relaciones con del ajuste del modelo a los datos. Esto se logra
el constructo sometido a medición para diferentes proporcionando información sobre la medida en
grupos (funcionamiento diferencial de los ítems). que se satisfacen las suposiciones de TRI (p. ej.,
Cuando se diseñan adecuaciones de la prueba unidimensionalidad, independencia del ítem lo-
para grupos de individuos examinados específi- cal o, para ciertos modelos, igualdad de paráme-
cos, también debe recopilarse información sobre tros de pendiente).
el desempeño en el ítem en condiciones adapta- Se deben describir las estadísticas utilizadas
das. Para grupos relativamente pequeños, la in- para indicar ítems que funcionan de manera di-
formación cualitativa puede ser útil. Por ejemplo, ferente para diferentes grupos, incluyendo especi-
las entrevistas con examinandos podrían utilizarse ficación de los grupos a analizar, los criterios para
para evaluar la efectividad de las adecuaciones en la indicación, y los procedimientos para revisar y
la eliminación de la varianza irrelevante. tomar decisiones definitivas sobre los ítems in-
dicados. Los tamaños de la muestra para grupos
Estándar 4.10 de interés deben ser adecuados para detectar DIF
significativo.
Cuando un desarrollador de pruebas evalúa las Los desarrolladores de la prueba deben conside-
propiedades psicométricas de los ítems, el mo- rar cómo cualquier diferencia entre las condiciones
delo utilizado para ese fin (p. ej., teoría clásica de de administración de la prueba de campo y el for-
los tests, teoría de respuesta al ítem u otro mo- mulario final podría afectar el desempeño del ítem.
delo) debe documentarse. La muestra utilizada Las condiciones que pueden afectar las estadísticas
100

de los ítems incluyen motivación de los examinan- Comentario: Los desarrolladores de la prueba de-
dos, posición de los ítems, límites de tiempo, ex- ben proporcionar evidencia del grado en que los
tensión de la prueba, modo de evaluación (p. ej., ítems de la prueba y los criterios de calificación
papel y lápiz frente a administración por compu- arrojan resultados que representan el dominio defi-
tadora) y uso de calculadoras u otras herramientas. nido. Esto ofrece una base para ayudar a determinar
si el desempeño en la prueba puede generalizarse
al dominio que se evalúa. Esto es especialmente
Estándar 4.11 importante para las pruebas que contienen una
Los desarrolladores de la prueba deben realizar pequeña cantidad de ítems, como las evaluaciones
estudios de validación cruzada cuando los ítems de desempeño. Dicha evidencia puede ser propor-
o pruebas se seleccionan principalmente sobre cionada por jueces expertos. En algunas situacio-
la base de relaciones empíricas más que sobre la nes, se lleva a cabo un estudio independiente de la
base de consideraciones de contenido o teóricas. alineación de las preguntas de la prueba a las espe-
Debe documentarse el grado a en que los dife- cificaciones de contenido para validar el procesa-
rentes estudios muestran resultados coherentes. miento interno del desarrollador para garantizar la
cobertura de contenido apropiada.
Comentario: Cuando se utilizan enfoques ba-
sados en datos para el desarrollo de la prueba,
los ítems se seleccionan principalmente sobre la Estándar 4.13
base de sus relaciones empíricas con un criterio
Cuando evidencia creíble indica que la varianza
externo, sus relaciones entre sí, o su poder para
irrelevante podría afectar los puntajes de la
discriminar entre grupos de individuos. En estas
prueba, en la medida en que sea viable, el desa-
circunstancias, es probable que algunos ítems se
rrollador de la prueba debe investigar las fuen-
seleccionen sobre la base de ocurrencias al azar
tes de varianza irrelevante. Cuando sea posible,
en los datos usados. Administrar la prueba a una
dichas fuentes de varianza irrelevante deben ser
muestra comparable de examinandos o el uso de
eliminadas o reducidas por el desarrollador de
una muestra de validación separada proporciona
la prueba.
verificación independiente de las relaciones utili-
zadas en la selección de ítems. Comentario: Se pueden utilizar diversos métodos
Las técnicas de optimización estadística como para verificar la influencia de factores irrelevantes,
la regresión escalonada se utilizan a veces para incluyendo análisis de correlaciones con medidas
desarrollar compuestos de pruebas o para selec- de otros constructos relevantes e irrelevantes y,
cionar pruebas para otro uso en una batería de en algunos casos, análisis cognitivos más profun-
pruebas. Al igual que con la selección empírica dos (p. ej., uso de sondeos de seguimiento para
de ítems, puede ocurrir capitalización del azar. La identificar motivos relevantes e irrelevantes de
validación cruzada de una muestra independiente respuestas correctas e incorrectas) de la situación
o el uso de una fórmula que prediga la reducción del individuo examinado respecto del constructo
de correlaciones en una muestra independiente de destino. Un entendimiento más profundo de
pueden proporcionar un índice menos sesgado las fuentes de varianza irrelevantes también puede
del poder predictivo de las pruebas o compuesto. conducir al perfeccionamiento de la descripción
del constructo sometido a examen.
Estándar 4.12
Estándar 4.14
Los desarrolladores de la prueba deben docu-
mentar el grado en que el dominio de contenido Para una prueba que tiene un límite de tiempo,
de una prueba representa el dominio definido en la investigación del desarrollo de la prueba debe
las especificaciones de la prueba. examinar el grado en que los puntajes incluyen
101

capítulo 4
un componente de velocidad y debe evaluar la prueba. Es posible que se necesiten adecuaciones

adecuación de ese componente, dado el dominio de la prueba para permitir la medición exacta de
que la prueba está diseñada para medir. constructos previstos para grupos específicos de
examinandos, como individuos con discapacidades
Comentario: Como mínimo, los desarrolladores
e individuos cuya lengua nativa no sea el inglés.
de la prueba deben examinar la proporción de
(Véase el cap. 3, “Imparcialidad en las pruebas”).
individuos examinados que completan toda la
prueba, así como la proporción que no responde
(omite) preguntas individuales de la prueba. Estándar 4.16
Cuando la velocidad es una parte significativa del
constructo de destino, la distribución de la can- Las instrucciones presentadas a los examinandos
tidad de ítems respondidos debe analizarse para deben contener suficiente detalle para que los
verificar la variabilidad apropiada en la cantidad examinandos puedan responder a una tarea de la
de ítems en los que se hizo un intento así como la manera prevista por el desarrollador de la prueba.
cantidad de respuestas correctas. Cuando la velo- Cuando corresponda, deben proporcionarse los
cidad no es una parte significativa del constructo materiales de la muestra, preguntas prácticas o de
de destino, deben determinarse los límites de la muestra, criterios para calificación y un ítem
tiempo de modo que los individuos examinados representativo identificado con cada formato de
tengan tiempo adecuado para demostrar el cono- ítem o área importante en la clasificación o do-
cimiento y la habilidad de destino. minio de la prueba a los examinandos antes de
la administración de la prueba, o deben incluirse
en el material de evaluación como parte de las
Unidad 3. Estándares para instrucciones de administración estándar.
desarrollar procedimientos Comentario: Por ejemplo, en un inventario de
y materiales de administración y personalidad la intención puede ser que los exa-
minandos den la primera respuesta que se les ocu-
calificación de pruebas
rra. Una expectativa de este tipo debe dejarse en
claro en las instrucciones del inventario. En otro
Estándar 4.15 ejemplo, en las instrucciones para inventarios
de intereses u ocupacionales, es posible que sea
Las instrucciones para la administración de la
importante especificar si los examinandos deben
prueba deben presentarse con suficiente cla-
marcar las actividades que preferirían en condi-
ridad para que sea posible que otros repliquen
ciones ideales o si deben considerar tanto su opor-
las condiciones de administración en las que se
tunidad como su capacidad en forma realista.
obtuvieron los datos sobre confiabilidad, validez
Las instrucciones y cualquier material prác-
y (cuando corresponda) normas. Las variaciones
tico deben estar disponibles en formatos a los que
admisibles en los procedimientos de administra-
todos los examinandos puedan acceder. Por ejem-
ción deben describirse claramente. El proceso
plo, si se proporciona una versión en braille de
para revisar solicitudes de variaciones adiciona-
la prueba, las instrucciones y cualquier material
les en la evaluación también debe documentarse.
práctico deben también proporcionarse en una
Comentario: Debido a que todas las personas forma a la que puedan acceder los estudiantes que
que administran pruebas, incluyendo aquellas en realizan la versión en braille.
escuelas, la industria y clínicas, necesitan seguir El alcance y la naturaleza de los materiales
procedimientos de administración de pruebas con prácticos y las instrucciones dependen de los
atención, es esencial que los administradores de la niveles esperados de conocimiento entre los exa-
prueba reciban instrucciones detalladas sobre di- minandos. Por ejemplo, al usar un formato de
rectrices y procedimientos de administración de la prueba novedoso, es posible que sea importante
102

proporcionar al examinando una oportunidad la exactitud de la calificación. Las instrucciones

práctica como parte de la administración de para usar escalas de calificación o para derivar
la prueba. En algunas situaciones de prueba, es puntajes obtenidos por codificación, escala-
posible que sea importante que las instrucciones miento o clasificando respuestas construidas de-
aborden asuntos tales como límites de tiempo y ben ser claras. Esto es especialmente crítico para
los efectos que hacer conjeturas tiene en los pun- ítems de respuesta extendida como las tareas de
tajes de la prueba. Si se permite la ampliación o desempeño, porfolios y ensayos.
elaboración de las instrucciones de la prueba, las
Comentario: Al calificar respuestas más com-
condiciones en las que esto puede hacerse deben
plejas, los desarrolladores de la prueba deben
indicarse claramente en el formulario de reglas
proporcionar rúbricas detalladas y capacitación
generales y dando ejemplos representativos. Si no
en su uso. Proporcionar múltiples ejemplos de
se permitirá ampliación o elaboración, esto debe
respuestas en cada nivel de puntajes para usarse
indicarse explícitamente. Los desarrolladores de la
en la capacitación de evaluadores y supervisar la
prueba deben incluir orientación para tratar con
coherencia de calificaciones es también práctica
preguntas típicas de los examinandos. Se debe
común, aunque estos suelen agregarse a las espe-
instruir a los administradores de la prueba sobre
cificaciones de calificación durante el desarrollo y
cómo ocuparse de las preguntas que pueden sur-
los ensayos de ítems. Para supervisar la efectividad
gir durante el período de evaluación.
de la calificación, deben especificarse criterios de
coherencia para la cualificación de evaluadores,
Estándar 4.17 según corresponda, junto con procedimientos,
tales como calificación doble de algunas o todas
Si una prueba o parte de una prueba está pre- las respuestas. Según corresponda, los desarrolla-
vista para uso de investigación únicamente y no dores de la prueba deben especificar los criterios
se distribuye para uso operativo, deben mos- de selección para evaluadores y procedimientos
trarse de manera prominente declaraciones a ese para capacitación, cualificación y supervisión de
efecto en todos los materiales de administración evaluadores. Si se utilizan diferentes grupos de
e interpretación de la prueba relevantes que se evaluadores con diferentes administraciones, de-
proporcionan al usuario de la prueba. ben especificarse e implementarse procedimientos
Comentario: Este estándar se refiere a pruebas para verificar la comparabilidad de puntajes gene-
que están previstas para uso en investigación úni- rados por los diferentes grupos.
camente. No se refiere a las funciones de desarro-
llo estándar de pruebas que ocurren antes del uso Estándar 4.19
operativo de una prueba (p. ej., ensayos de ítems o
formularios). Es posible que existan requisitos le- Cuando deban usarse algoritmos automatiza-
gales para informar a los participantes sobre cómo dos para calificar respuestas complejas de los
el desarrollador de la prueba utilizará los datos individuos examinados, deben documentarse las
generados de la prueba, incluyendo información características de las respuestas en cada nivel de
personal de identificación, cómo se protegerá esa puntaje junto con los fundamentos teóricos y
información y con quién podría compartirse. empíricos para el uso de los algoritmos.
Comentario: Los algoritmos de puntaje automá-
Estándar 4.18 tico deben estar respaldados por una articulación
de los fundamentos teóricos y metodológicos para
Los procedimientos para calificación y, si co- su uso que sean suficientemente detallados para
rresponde, los criterios de calificación, deben establecer una justificación para vincular los pun-
ser presentados por el desarrollador de la prueba tajes de la prueba resultantes con el constructo
con suficiente detalle y claridad para maximizar de interés subyacente. Además, el algoritmo de
103

capítulo 4
puntaje automático debe tener un respaldo de in- que podrían surgir durante la calificación. Los
vestigación empírica, como tasas de concordancia materiales de capacitación deben abordar cual-
con evaluadores humanos, antes del uso opera- quier idea equivocada común sobre las rúbri-
tivo, así como evidencia de que los algoritmos de cas utilizadas para describir niveles de puntajes.
puntaje no introducen sesgo sistemático contra Cuando se califica texto escrito, es común incluir
algunos subgrupos. un conjunto de respuestas precalificadas para usar
Debido a lo que los algoritmos de puntaje au- en la capacitación y para juzgar la exactitud de
tomático a menudo se consideran patentados, sus la calificación. La base para determinar la cohe-
desarrolladores rara vez están dispuestos a revelar rencia de calificación (p. ej., porcentaje de con-
las reglas de calificación y ponderación en docu- cordancia exacta, porcentaje dentro de un punto
mentación pública. Además, en algunos casos, la de puntaje, o algún otro índice de concordancia)
divulgación completa de detalles del algoritmo debe indicarse. La información sobre la coheren-
de puntaje podría dar por resultado estrategias cia de calificación es fundamental para estimar la
de orientación que aumentarían los puntajes sin precisión de los puntajes resultantes.
ningún cambio real en el o los constructos que se
evalúan. En esos casos, los desarrolladores deben Estándar 4.21
describir las características generales de los algo-
ritmos de puntaje. También pueden hacer que Cuando los usuarios de la prueba son responsa-
los algoritmos sean revisados por expertos inde- bles de calificar y la calificación requiere el juicio
pendientes, en condiciones de confidencialidad, del evaluador, el usuario de la prueba es respon-
y reunir juicios independientes de la medida sable de proporcionar capacitación e instrucción
en que los puntajes resultantes implementarán adecuadas a los evaluadores y de examinar la
exactamente las rúbricas de puntajes previstas y concordancia y exactitud de los evaluadores. El
estarán libres de sesgo para las subpoblaciones desarrollador de la prueba debe documentar el
previstas de individuos examinados. nivel esperado de concordancia y exactitud del
evaluador y debe proporcionar tanta orientación
técnica como sea posible para ayudar a los usua-
Estándar 4.20 rios de la prueba a cumplir con este estándar.
El proceso para seleccionar, capacitar, cualificar Comentario: Una práctica común de los desa-
y supervisar a evaluadores debe ser especificado rrolladores de pruebas es proporcionar materia-
por el desarrollador de la prueba. Los materiales les de capacitación (p. ej., rúbricas de puntajes,
de capacitación, como las rúbricas de puntajes ejemplos de respuestas de examinandos en cada
y ejemplos de respuestas de examinandos que nivel de puntaje) y procedimientos cuando la ca-
ejemplifican los niveles en la escala de puntajes lificación es realizada por usuarios de la prueba y
de rúbrica, y los procedimientos para la capaci- requiere el juicio del evaluador. La capacitación
tación de evaluadores deben dar por resultado proporcionada para respaldar la calificación local
un grado de exactitud y concordancia entre eva- debe incluir estándares para verificar la exactitud
luadores que permita que los puntajes se inter- de los evaluadores durante la capacitación y la
preten según lo previsto originalmente por el calificación operativa. La capacitación también
desarrollador de la prueba. Las especificaciones debe cubrir cualquier consideración especial para
también deben describir procesos para evaluar grupos de examinandos que podrían interactuar
la coherencia de evaluadores y la posible desde manera diferente con la tarea que se calificará.
viación con el tiempo en la calificación de los
evaluadores. Estándar 4.22
Comentario: En la medida posible, los procesos y Los desarrolladores de la prueba deben especifi-
materiales de calificación deben prever problemas car los procedimientos utilizados para interpretar
104

puntajes de la prueba y, cuando corresponda, las Comentario: Los cambios en la población de exa-
muestras normativas o de estandarización o el minandos, junto con otros cambios, por ejemplo,
criterio utilizado. en instrucciones, capacitación o requisitos de em-
pleo, pueden afectar las ponderaciones de ítems
Comentario: Las especificaciones de la prueba
derivadas originales, lo cual necesita estudios pos-
pueden indicar que los puntajes previstos deben
teriores. En muchos casos, las áreas de contenido
interpretarse como indicación de un nivel abso-
se ponderan especificando una cantidad diferente
luto del constructo sometido a medición o como
de ítems de áreas diferentes. La justificación para
indicación de la situación respecto del constructo
ponderar las diferentes áreas de contenido debe
en relación con otros individuos examinados, o
también documentarse y revisarse en forma
ambas. En las interpretaciones de puntaje abso-
periódica.
lutas, se supone que el puntaje o promedio refleja
directamente un nivel de competencia o destreza
en algún dominio de criterios definido. En las
interpretaciones de puntaje relativas el estado de Unidad 4. Estándares para revisión
un individuo (o grupo) se determina comparando de pruebas
el puntaje (o puntaje medio) con el desempeño
de otros en una o más poblaciones definidas. Las Estándar 4.24
pruebas diseñadas para facilitar un tipo de inter-
pretación pueden funcionar de manera menos Las especificaciones de la prueba deben modifi-
efectiva para el otro tipo de interpretación. Dado carse o revisarse cuando nuevos datos de inves-
el diseño de la prueba adecuado y los datos de tigación, cambios significativos en el dominio
respaldo adecuados, no obstante, los puntajes que representado o condiciones recientemente reco-
surgen de programas de evaluación conformes a mendadas del uso de la prueba pueden reducir
normas pueden proporcionar interpretaciones de la validez de las interpretaciones de los puntajes
puntajes absolutas razonables, y los puntajes que de la prueba. Si bien no es necesario que una
surgen de programas conformes a criterios pue- prueba que mantiene su utilidad sea retirada o
den proporcionar interpretaciones de puntajes revisada simplemente debido al paso del tiempo,
relativas razonables. los desarrolladores de la prueba y los editores de
la prueba son responsables de supervisar condi-
ciones cambiantes y de modificar, revisar o reti-
Estándar 4.23 rar la prueba según lo indicado.
Cuando el puntaje de una prueba se deriva de la Comentario: Los desarrolladores de la prueba de-
ponderación diferencial de ítems o subpuntajes, ben considerar una serie de factores que pueden
el desarrollador de la prueba debe documentar justificar la revisión de una prueba, incluyendo
la justificación y el proceso utilizados para desa- contenido y lenguaje de la prueba desactuali-
rrollar, revisar y asignar ponderaciones de ítems. zados, nueva evidencia de relaciones entre los
Cuando se obtienen ponderaciones de ítems so- constructos medidos y predichos, o cambios en
bre la base de datos empíricos, la muestra utili- los marcos de prueba para reflejar cambios en el
zada para obtener las ponderaciones de los ítems plan de estudios, la instrucción o los requisitos
debe ser representativa de la población para la de empleo. Si se utiliza una versión más antigua
que está prevista la prueba y suficientemente de una prueba cuando se ha publicado o puesto
grande para proporcionar estimaciones exactas a disposición una versión más nueva, los usuarios
de ponderaciones óptimas. Cuando se obtienen de la prueba son responsables de proporcionar
ponderaciones de ítems sobre la base de juicio de evidencia de que la versión más antigua es tan
expertos, las cualificaciones de los jueces deben apropiada como la nueva para ese uso en particu-
documentarse. lar de la prueba.
105

capítulo 4
Estándar 4.25 los puntajes de la prueba serían afectadas por las

revisiones, es apropiado indicar la prueba como
Cuando las pruebas se revisan, se debe informar “revisada”. Cuando las pruebas se revisan, deben
a los usuarios de los cambios en las especificacio- documentarse la naturaleza de las revisiones y
nes, de cualquier ajuste hecho a la escala de pun- sus implicaciones para las interpretaciones de los
tajes y del grado de comparabilidad de puntajes puntajes de la prueba. Ejemplos de cambios que
de las pruebas originales y revisadas. Las pruebas requieren consideración incluyen agregar nuevas
deben indicarse como “revisadas” solo cuando áreas de contenido, mejorar las descripciones de
las especificaciones de la prueba hayan sido ac- contenido, redistribuir el énfasis entre diferentes
tualizadas de maneras significativas. áreas de contenido, e incluso solo cambiar espe-
Comentario: Es responsabilidad del desarrollador cificaciones del formato de los ítems. Obsérvese
de la prueba determinar si las revisiones a una que crear un nuevo formulario de prueba usando
prueba influirían en las interpretaciones de los las mismas especificaciones no se considera una
puntajes de la prueba. Si las interpretaciones de revisión dentro del contexto de este estándar.
106

5. P
UNTAJES, ESCALAS, NORMAS,
VINCULACIÓN DE PUNTAJES Y
PUNTAJES DE CORTE
Antecedentes
Los puntajes de la prueba se reportan en escalas en la validación de puntajes de la prueba para los
diseñadas para ayudar con la interpretación de los fines previstos.
puntajes. Por lo general, la calificación comienza Las decisiones sobre cuántos puntos de pun-
con respuestas a ítems de la prueba por separado. taje de escala usar suele basarse en cuestiones de
Estos puntajes de los ítems se combinan, a veces confiabilidad de los puntajes de la prueba. Si se
mediante la suma, para obtener un puntaje bruto utilizan muy pocos puntos de puntaje de escala,
cuando se usa la teoría clásica de los tests o para entonces la confiabilidad de los puntajes de escala
producir un puntaje de TRI cuando se utilizan se reduce a medida que se descarta información.
la teoría de respuesta al ítem (TRI) u otras téc- Si se utilizan demasiados puntos de puntajes de
nicas basadas en modelos. Los puntajes brutos escala, los usuarios de la prueba podrían intentar
y los puntajes de TRI a menudo son difíciles de interpretar diferencias de puntajes de escala que
interpretar en ausencia de mayor información. son pequeñas en relación con la cantidad de error
La interpretación puede facilitarse mediante la de medida en los puntajes.
conversión de los puntajes brutos o puntajes de Además de facilitar interpretaciones de punta-
TRI a puntajes de escala. Ejemplos incluyen va- jes en un solo formulario de prueba, los puntajes
rios puntajes de escala utilizados en las pruebas de de escala a menudo se crean para mejorar la com-
admisiones universitarias y los usados para repor- parabilidad entre formularios alternativos2 de la
tar resultados para pruebas de inteligencia o in- misma prueba, usando métodos de equiparación.
ventarios de interés vocacional y de personalidad. Vinculación de puntajes es un término general
El proceso de desarrollar una escala de puntajes para métodos utilizados para desarrollar escalas
se denomina escalamiento de una prueba. Los con propiedades de escala similares. La vincula-
puntajes de escala pueden contribuir a la inter- ción de puntajes incluye la equiparación y otros
pretación indicando cómo es un puntaje dado en métodos para transformar puntajes para mejorar
comparación con los de otros examinandos, me- su comparabilidad en pruebas diseñadas para
jorando la comparabilidad de puntajes obtenidos medir diferentes constructos (p. ej., subpruebas
a través de diferentes formularios de una prueba y relacionadas en una batería). Los métodos de vin-
ayudando a evitar confusión con otros puntajes. culación también se usan para relacionar puntajes
Otra manera de ayudar en la interpretación de de escala en diferentes medidas de constructos
puntajes es establecer puntajes de corte que dis-
tingan diferentes rangos de puntajes. En algunos 2
El término formulario alternativo se utiliza en este capí-
casos, un solo puntaje de corte define el límite tulo para indicar formularios de prueba que se han elaborado
entre aprobar y reprobar. En otros casos, una se- según las mismas especificaciones de contenido y estadísticas y
rie de puntajes de corte define distintos niveles desarrollado para medir el mismo constructo. Este término no
de competencia. Los puntajes de escala, niveles debe confundirse con el término evaluación alternativa como
de competencia y puntajes de corte pueden ser se utiliza en el capítulo 3, para indicar una prueba que se ha
modificado o cambiado para aumentar el acceso al constructo
centrales para el uso y la interpretación de pun- para subgrupos de la población. La evaluación alternativa
tajes de la prueba. Por ese motivo, la posibilidad puede o no medir el mismo constructo que la evaluación no
de defenderlos es una consideración importante alterada.
107

capítulo 5
similares (p. ej., pruebas de un constructo en par- se denominan en forma conjunta como interpre-
ticular de diferentes desarrolladores de pruebas) taciones conformes a criterios. Los puntajes de
y para relacionar puntajes de escala en pruebas escala que respaldan esas interpretaciones pue-
que miden constructos similares dados en modos den indicar la proporción probable de respuestas
diferentes de administración (p. ej., administra- correctas que se obtendrían en algún dominio
ciones por computadora y con papel y lápiz). Los más grande de ítems similares, o la probabilidad
métodos de escalamiento vertical se utilizan a ve- de que un individuo examinado responda tipos
ces para colocar puntajes de diferentes niveles de particulares de ítems correctamente. Otras inter-
una prueba de rendimiento en una sola escala con pretaciones conformes a criterios pueden indicar
el fin de facilitar inferencias sobre crecimiento o la probabilidad de que haya presente alguna psi-
desarrollo. El grado de comparabilidad de pun- copatología. Además, otras interpretaciones con-
tajes que se deriva de la aplicación de un proce- formes a criterios pueden indicar la probabilidad
dimiento de vinculación varía a lo largo de un de que el nivel de conocimiento o habilidad eva-
continuum. La equiparación tiene por objeto luado de un individuo examinado sea adecuado
permitir que puntajes en formularios alternativos para desempeñarse con éxito en algún otro con-
de una prueba se utilicen de manera intercambia- texto. Los puntajes de escala para respaldar esas
ble, mientras que la comparabilidad de puntajes interpretaciones de puntaje conformes a criterios
asociada con otros tipos de vinculación puede ser suelen desarrollarse sobre la base de análisis es-
más restringida. tadísticos de las relaciones de los puntajes de la
prueba con otras variables.
Interpretaciones de puntajes Algunos puntajes de escala se desarrollan prin-
cipalmente para respaldar interpretaciones con-
Los puntajes brutos o puntajes de escala de un formes a normas; otros respaldan interpretaciones
individuo a menudo se comparan con la distri- conformes a criterios. En la práctica, no obstante,
bución de puntajes para uno o más grupos de no siempre hay una distinción marcada. Tanto las
comparación para derivar inferencias útiles sobre escalas conformes a criterios como las conformes
el desempeño relativo de la persona. Se dice que a normas pueden desarrollarse y utilizarse con los
las interpretaciones de los puntajes de la prueba mismos puntajes de la prueba si se usan métodos
basadas en esas comparaciones son conformes a apropiados para validar cada tipo de interpreta-
normas. Las normas de rango de percentil, por ción. Sin embargo, una escala de puntajes con-
ejemplo, indican la situación de un individuo o forme a normas originalmente desarrollada, por
grupo dentro de una población definida de in- ejemplo, para indicar desempeño en relación con
dividuos o grupos. Un ejemplo podrían ser los alguna población de referencia específica podría,
puntajes de percentil utilizados en las pruebas de con el tiempo, también llegar a respaldar interpre-
reclutamiento militar, que comparan el puntaje taciones conformes a criterios. Esto podría ocu-
de cada postulante con puntajes para la población rrir puesto que la investigación y la experiencia
de jóvenes estadounidenses de 18 a 23 años. Los aportan mayor comprensión de las capacidades
percentiles, promedios u otras estadísticas para implícitas por los diferentes niveles de puntajes de
dichos grupos de referencia se llaman normas. Al escala. Al contrario, los resultados de una evalua-
mostrar cómo es el puntaje de la prueba de un in- ción educativa podrían reportarse en una escala
dividuo examinado determinado en comparación compuesta por varios niveles de competencia or-
con los de otros, las normas ayudan en la clasifi- denados, definidos por descripciones de las clases
cación o descripción de individuos examinados. de tareas que pueden realizar los estudiantes en
Otras interpretaciones de puntajes de la cada nivel. Esa sería una escala conforme a crite-
prueba no hacen referencia directa al desempeño rios, pero una vez que se reporta la distribución
de otros individuos examinados. Estas interpreta- de puntajes en niveles, supongamos, para todos
ciones pueden adoptar diversas formas; la mayoría los estudiantes de octavo grado en un estado
108

PUNTAJES, ESCALAS, NORMAS, VINCULACIÓN DE PUNTAJES Y PUNTAJES DE CORTE
determinado, los puntajes de cada estudiante Debe reconocerse, no obstante, que la probabi-
también transmitirán información sobre su situa- lidad de clasificación errónea por lo general será
ción en relación con la población evaluada. relativamente alta para personas con puntajes cer-
Las interpretaciones basadas en puntajes de canos a los puntajes de corte.
corte pueden del mismo modo ser conformes a
criterios o conformes a normas. Si descripciones Normas
cualitativamente diferentes se asocian a rangos de
puntajes sucesivos, se admite una interpretación La validez de interpretaciones conformes a nor-
conforme a criterios. Por ejemplo, las descripcio- mas depende en parte de la adecuación del grupo
nes de niveles de competencia en algunas rúbri- de referencia con el cual se comparan los punta-
cas de puntajes de tareas de evaluaciones pueden jes de la prueba. Las normas basadas en pacientes
mejorar la interpretación de puntajes resumiendo hospitalizados, por ejemplo, podrían ser inapro-
las capacidades que deben demostrarse para me- piadas para algunas interpretaciones de puntajes
recer un puntaje dado. En otros casos, las inter- de pacientes no hospitalizados. Por lo tanto, es
pretaciones conformes a criterios pueden basarse importante que las poblaciones de referencia se
en relaciones determinadas empíricamente entre definan cuidadosamente y se describan con clari-
los puntajes de la prueba y otras variables. Pero dad. La validez de esas interpretaciones también
cuando las pruebas se utilizan para selección, es depende de la exactitud con la que las normas
posible que sea apropiado clasificar a los indivi- resumen el desempeño de la población de refe-
duos examinados de acuerdo con su desempeño rencia. La población puede ser suficientemente
en la prueba y establecer un puntaje de corte para pequeña para que básicamente toda la población
seleccionar una cantidad o proporción preespeci- pueda evaluarse (p. ej., todos los examinandos en
ficada de individuos examinados de un extremo un nivel de grado dado en un distrito dado eva-
de la distribución, siempre que el uso de la se- luados en la misma ocasión). A menudo, no obs-
lección esté suficientemente respaldado por evi- tante, solo se evalúa una muestra de individuos
dencia de confiabilidad y validez relevante para examinados de la población de referencia. Es por
respaldar la clasificación. En esos casos, la inter- lo tanto importante que las normas se basen en
pretación de los puntajes de corte es conforme una muestra representativa, técnicamente sólida
a normas; las etiquetas “rechazar” o “reprobar” de examinandos de tamaño suficiente. Es poco
frente a “aceptar” o “aprobar” son determinadas probable que los pacientes en algunos hospitales
principalmente por la situación del individuo en una región geográfica pequeña sean represen-
examinado en relación con otros evaluados en el tativos de todos los pacientes en Estados Unidos,
proceso de selección actual. por ejemplo. Además, la utilidad de las normas
Las interpretaciones conformes a criterios ba- basadas en una muestra determinada puede re-
sadas en puntajes de corte a veces son criticadas ducirse con el tiempo. Por lo tanto, para prue-
con el argumento de que pocas veces existe una bas que han estado en uso durante varios años,
distinción marcada entre aquellos apenas por en- por lo general se requiere una revisión periódica
cima y aquellos apenas por debajo de un puntaje para asegurar la utilidad continua de sus normas.
de corte. Una prueba neuropsicológica puede ser Es posible que se requiera renormalización para
útil en el diagnóstico de algún deterioro en parti- mantener la validez de interpretaciones de punta-
cular, por ejemplo, pero es probable que la proba- jes de la prueba conformes a normas.
bilidad de que el deterioro esté presente aumente Más de una población de referencia puede ser
en forma continua como una función del puntaje apropiada para la misma prueba. Por ejemplo, el
de la prueba en lugar de cambiar notoriamente en desempeño en una prueba de rendimiento podría
un puntaje en particular. Los puntajes de corte interpretarse por referencia a normas locales so-
pueden ayudar a formular reglas para arribar a de- bre la base de muestreo de un distrito escolar en
cisiones sobre la base del desempeño en la prueba. particular para uso en la toma de decisiones sobre
109

capítulo 5
instrucción locales, o a normas para un estado o medidos en forma reiterada, tal vez para medir
tipo de comunidad para usar en la interpretación cambios en los niveles de disfunción psicológica,
de resultados de evaluación a nivel estatal, o a nor- actitudes o rendimiento educativo. En estos casos,
mas nacionales para usarse al hacer comparacio- reutilizar los mismos ítems de la prueba puede
nes con grupos nacionales. Para otras pruebas, las dar lugar a estimaciones de cambio sesgadas. La
normas podrían basarse en clasificaciones ocupa- equiparación de puntajes permite el uso de for-
cionales o educativas. Las estadísticas descriptivas mularios alternativos, con lo cual se evitan estas
para todos los individuos examinados que resul- preocupaciones.
tan ser evaluados durante un período de tiempo Si bien los formularios alternativos se elaboran
determinado (a veces denominadas normas de según las mismas especificaciones de contenido y
usuario o normas de programa) pueden ser úti- estadísticas, ocurrirán diferencias en la dificul-
les para algunos fines, como describir tendencias tad de la prueba, lo que generará la necesidad de
conforme avanza el tiempo. Pero debe haber un equiparación. Un enfoque hacia la equiparación
motivo sólido para considerar a ese grupo de implica administrar los formularios a equiparar
examinandos como una base apropiada para di- a la misma muestra de individuos examinados o
chas inferencias. Cuando existe una justificación a muestras equivalentes. Otro enfoque involucra
adecuada para usar a dicho grupo, las estadísti- administrar un conjunto común de ítems, de-
cas descriptivas deben caracterizarse claramente nominados ítems de anclaje, a las muestras que
como basadas en una muestra de personas habi- toman cada formulario. Cada enfoque tiene for-
tualmente evaluadas como parte de un programa talezas exclusivas, pero también involucra suposi-
continuo. ciones que podrían influir en los resultados de la
equiparación, y por lo tanto estas suposiciones de-
Vinculación de puntajes ben verificarse. Elegir entre enfoques de equipara-
ción puede incluir las siguientes consideraciones:
Vinculación de puntajes es un término general
que se refiere a relacionar puntajes de diferentes • Administrar formularios a la misma muestra
pruebas o formularios de prueba. Cuando dife- permite una estimación de la correlación entre
rentes formularios de una prueba se construyen los puntajes de los dos formularios, así como
según las mismas especificaciones de contenido y proporcionar datos necesarios para ajustar por
estadísticas, y se administran en las mismas con- diferencias en la dificultad. Sin embargo, po-
diciones, se denominan formularios alternativos dría haber efectos de orden relacionados con
o a veces formularios paralelos o equivalentes. la práctica o fatiga que pueden afectar la dis-
El proceso de colocar puntajes brutos de dichos tribución de puntajes para el formulario ad-
formularios alternativos en una escala común se ministrado en segundo lugar.
denomina equiparación. La equiparación involu-
• Administrar formularios alternativos a mues-
cra pequeños ajustes estadísticos para representar
tras equivalentes, por lo general mediante
diferencias menores en la dificultad de los formu-
asignación aleatoria, evita cualquier efecto de
larios alternativos. Después de la equiparación,
orden pero no proporciona una estimación di-
los formularios alternativos de la misma prueba
recta de la correlación entre los puntajes; otros
arrojan puntajes de escala que pueden usarse en
métodos son necesarios para demostrar que los
forma intercambiable aunque se basen en dife-
dos formularios miden el mismo constructo.
rentes conjuntos de ítems. En muchos programas
de evaluación que administran pruebas múltiples • Incorporar un conjunto de ítems de anclaje
veces, pueden plantearse preocupaciones sobre la en cada uno de los formularios que se equi-
seguridad de la prueba si el mismo formulario se paran proporciona una base para ajustar por
usa en forma reiterada. En otros programas de diferencias en las muestras de individuos exa-
evaluación, los mismos examinandos pueden ser minados que completan cada formulario. Los
110

ítems de anclaje deben cubrir el mismo con- entre subgrupos relevantes debe documentarse.
tenido y rango de dificultad que cada uno de Cuando sea posible, las definiciones de poblacio-
los formularios completos que se equiparan nes importantes de individuos examinados deben
de modo que las diferencias en los ítems de incluir grupos para los que la imparcialidad puede
anclaje reflejarán de manera exacta diferencias ser una cuestión particular, como individuos exa-
en los formularios completos. Además, la po- minados con discapacidades o de características
sición de los ítems de anclaje y otros factores lingüísticas y culturales diversas. Cuando los ta-
de contexto deben ser los mismos en ambos maños de la muestra lo permitan, es importante
formularios. Es importante verificar que los examinar la estabilidad de las conversiones de
ítems de anclaje funcionen de manera similar equiparación entre estas poblaciones.
en los formularios que se equiparan. Los ítems El mayor uso de pruebas ejecutadas por com-
de anclaje a menudo se retiran del anclaje si su putadora plantea consideraciones especiales para
dificultad relativa es sustancialmente diferente la equiparación y la vinculación porque se hacen
en los formularios que se equiparan. posibles modelos más flexibles para ejecutar prue-
• A veces se utiliza una prueba de anclaje bas. Estos incluyen pruebas adaptables así como
externa en la que los ítems de anclaje se enfoques en los que se seleccionan ítems exclu-
administran en una sección separada y no sivos o múltiples conjuntos intactos de ítems de
contribuyen al puntaje total de la prueba. un conjunto más grande de ítems disponibles.
Este enfoque elimina algunos factores de Hace mucho tiempo que se reconoce que poco
contexto dado que la presentación de los se aprende de las respuestas de los individuos
ítems de anclaje es idéntica para cada muestra examinados a ítems que son demasiado fáciles o
de individuos examinados. Nuevamente, no demasiado difíciles para ellos. En consecuencia,
obstante, la prueba de anclaje debe reflejar el algunos procedimientos de evaluación utilizan
contenido y la dificultad de los formularios solo un subconjunto de los ítems disponibles con
operativos que se equiparan. Los diseños de cada individuo examinado. Una prueba adaptable
pruebas de anclaje tanto incorporadas como consiste en un conjunto de ítems junto con re-
externas involucran fuertes suposiciones glas para seleccionar un subconjunto de los ítems
estadísticas respecto de la equivalencia del que se administrarán a cada individuo examinado
anclaje y los formularios que se equiparan. y un procedimiento para colocar los puntajes de
Estas suposiciones son particularmente diferentes individuos examinados en una escala
críticas cuando las muestras de individuos común. La selección de ítems sucesivos se basa en
examinados que completan los diferentes parte en las respuestas de los individuos exami-
formularios varían considerablemente en el nados a ítems anteriores. Pueden diseñarse reglas
constructo que se mide. de selección de ítems y de conjuntos de ítems
de modo que cada individuo examinado reciba
Cuando se afirma que los puntajes en los un conjunto representativo de ítems de dificul-
formularios de prueba están equiparados, es im- tad apropiada. Con algunas pruebas adaptables,
portante documentar cómo los formularios se puede resultar que dos individuos examinados
elaboran según las mismas especificaciones de casi nunca, o nunca, reciban el mismo conjunto
contenido y estadísticas y demostrar que los pun- de ítems. Además, es posible dar a dos individuos
tajes en los formularios alternativos son medidas examinados que hacen la misma prueba adaptable
del mismo constructo y tienen confiabilidad si- conjuntos de ítems que difieren marcadamente en
milar. La equiparación debe proporcionar conver- cuanto a dificultad. No obstante, los puntajes de
siones de puntaje exactas para cualquier conjunto la prueba adaptable pueden reportare en una es-
de personas tomado de la población de indivi- cala común y funcionar de manera muy similar a
duos examinados para la que se diseña la prueba; puntajes de un solo formulario alternativo de una
por lo tanto, la estabilidad de las conversiones prueba que no es adaptable.
111

capítulo 5
A menudo, la adaptación de la prueba se hace escalas verticales suele requerir vinculación de

ítem por ítem. En otras situaciones, como en eva- pruebas que se construyen deliberadamente
luaciones de múltiples etapas, el proceso de examen para diferir en dificultad.
puede dividirse desde elegir entre conjuntos de
• La revisión de la prueba a menudo genera la
ítems que son en líneas generales representativos del
necesidad de vincular puntajes obtenidos uti-
contenido y la dificultad hasta elegir entre conjun-
lizando especificaciones de la prueba más nue-
tos de ítems que son destinados explícitamente para
vas y más viejas.
un nivel mayor o menor del constructo sometido a
medición, sobre la base de una evaluación provisio- • Estudios comparativos internacionales pue-
nal del desempeño del individuo examinado. den requerir vinculación de puntajes en las
En muchas situaciones, los conjuntos de ítems pruebas dadas en diferentes idiomas.
para pruebas adaptables se actualizan reempla-
• Los puntajes pueden vincularse en pruebas
zando algunos de los ítems en el conjunto con
que miden diferentes constructos, tal vez
nuevos ítems. En otros casos, se reemplazan los
comparando una aptitud con una forma de
conjuntos de ítems enteros. En cualquier caso,
comportamiento, o vinculando medidas de
se utilizan procedimientos estadísticos para vin-
rendimiento en varias áreas de contenido o
cular estimaciones de parámetros de ítems para
entre diferentes editores de la prueba.
los nuevos ítems con la escala de TRI existente
de modo que los puntajes de conjuntos alterna- • En ocasiones se hacen vinculaciones para com-
tivos puedan usarse en forma intercambiable, de parar el desempeño de grupos (p. ej., distritos
manera muy similar en que los puntajes en for- escolares, estados) en diferentes medidas de
mularios alternativos se utilizan cuando los pun- constructos similares, como cuando se vinculan
tajes en los formularios alternativos se equiparan. puntajes en una prueba de rendimiento estatal
Para respaldar la comparabilidad de puntajes en con puntajes en una evaluación internacional.
pruebas adaptables entre conjuntos, es necesario
• Los resultados de los estudios de vinculación
construir los conjuntos según las mismas especi-
a veces se alinean o presentan en una tabla de
ficaciones explícitas de contenido y estadísticas y
concordancia para ayudar a los usuarios a esti-
administrarlos en las mismas condiciones. Gene-
mar el desempeño en una prueba a partir del
ralmente, un diseño de ítems comunes se utiliza
desempeño en otra.
en la vinculación de estimaciones de parámetros
para los nuevos ítems a la escala de TRI utilizada • En situaciones en las que se utilizan tipos de
para pruebas adaptables. En esos casos, deben ítems complejos, la vinculación de puntajes a
hacerse verificaciones de estabilidad sobre las ca- veces se realiza a través de juicios sobre la com-
racterísticas estadísticas de los ítems comunes, y parabilidad del contenido del ítem de una prue-
la cantidad de ítems comunes debe ser suficiente ba a otra. Por ejemplo, indicaciones de redac-
para arrojar resultados estables. Debe verificarse ción elaboradas para ser similares, en las que las
la adecuación de las suposiciones necesarias para respuestas se califiquen utilizando una rúbrica
vincular puntajes entre conjuntos. común, podrían suponerse equivalente en tér-
Existen muchos otros ejemplos de vinculación minos de dificultad. Cuando sea posible, estas
que pueden no resultar en puntajes intercambia- vinculaciones deben verificarse empíricamente.
bles, incluyendo los siguientes:
• En algunas situaciones, se utilizan métodos
• Para la evaluación del crecimiento de los indi- basados en juicios para vincular puntajes entre
viduos examinados con el tiempo, es posible pruebas. En estas situaciones, los procesos
que sea aconsejable desarrollar escalas vertica- de juicio y su confiabilidad deben estar bien
les que abarquen un amplio rango de niveles documentados y la justificación para su uso
de desarrollo o educativos. El desarrollo de debe ser clara.
112

Los procesos utilizados para facilitar compa- Estos ejemplos difieren en aspectos importan-
raciones pueden describirse con términos tales tes, pero todos involucran delinear categorías de
como vinculación, calibración, concordancia, individuos examinados sobre la base de puntajes
escalamiento vertical, proyección o moderación. de la prueba. Estos puntajes de corte proporcio-
Estos procesos pueden ser técnicamente sólidos nan la base para usar e interpretar resultados de la
y pueden satisfacer completamente las metas de prueba. Por lo tanto, en algunas situaciones, la va-
compatibilidad deseadas para una finalidad o para lidez de las interpretaciones de los puntajes de la
un subgrupo relevante de individuos examinados, prueba puede depender de los puntajes de corte.
pero no puede suponerse que sean estables con No puede haber un solo método para determinar
el tiempo o invariantes entre múltiples subgru- puntajes de corte para todas las pruebas o para
pos de la población de individuos examinados, y todos los fines, ni un único conjunto de proce-
tampoco hay ninguna garantía de que los punta- dimientos para establecer su posibilidad de de-
jes obtenidos utilizando diferentes pruebas sean fenderlos. Además, aunque los puntajes de corte
igualmente precisos. Por lo tanto, su uso para son útiles para informar la selección, colocación, y
otros fines o con otras poblaciones que no sean la otras clasificaciones, debe reconocerse que dichas
población originalmente prevista puede requerir decisiones categóricas rara vez se toman sobre la
respaldo adicional. Por ejemplo, una conversión base del desempeño en la prueba únicamente. Las
de puntajes que fue exacta para un grupo de ha- situaciones a continuación solo ejemplos.
blantes nativos podría sistemáticamente sobrepre- El primer ejemplo, de un empleador que
decir o infrapredecir los puntajes de un grupo de entrevista a todos lo que obtienen puntajes por
hablantes no nativos. encima de un nivel determinado en una prueba
de empleo, es el más directo. Suponiendo que se
Puntajes de corte haya proporcionado evidencia de validación para
los puntajes de la prueba de empleo para su uso
Un paso crítico en el desarrollo y uso de algunas previsto, por lo general se esperaría que el desem-
pruebas es establecer uno o más puntajes de corte peño laboral promedio aumente en forma cons-
dividiendo el rango de puntajes para separar la dis- tante, aunque lenta, con cada incremento en el
tribución de puntajes en categorías. Estas catego- puntaje de la prueba, al menos para algún rango
rías pueden utilizarse solo para fines descriptivos de puntajes cercanos al puntaje de corte. En ese
o pueden usarse para distinguir entre individuos caso, la designación del valor particular para el
examinados para los que se consideran aconseja- puntaje de corte puede determinarse principal-
bles diferentes programas o para los que se justifi- mente por la cantidad de personas a ser entrevis-
can diferentes predicciones. Un empleador puede tadas o que continuarán siendo cribadas.
determinar un puntaje de corte para seleccionar En el segundo ejemplo, un departamento de
posibles empleados o para promover a los emplea- educación estatal establece estándares de conte-
dos actuales; pueden establecerse niveles de com- nido para lo que los estudiantes de cuarto grado
petencia de “básico”, “competente” y “avanzado” deben aprender en matemáticas e implementa
utilizando métodos de fijación de estándares para una prueba para evaluar el rendimiento de los es-
fijar puntajes de corte en una prueba estatal de tudiantes en estos estándares. Utilizando un pro-
rendimiento matemático en cuarto grado; es po- ceso de fijación de estándares basado en juicios,
sible que los educadores quieran usar puntajes de estructurado, comités de expertos en la materia
la prueba para identificar a estudiantes que están desarrollan o elaboran descriptores de nivel de
preparados para continuar con la universidad y desempeño (a veces denominados descriptores de
tomar cursos que dan créditos; o en la obtención nivel de rendimiento) que indican qué deberían
de una licencia profesional, un estado puede espe- saber y poder hacer en matemáticas de cuarto
cificar un puntaje de aprobación mínimo en una grado los estudiantes en los niveles de rendi-
prueba para la obtención de la licencia. miento “básico”, “competente” y “avanzado”.
113

capítulo 5
Además, comités examinan ítems de la prueba y de exponer al público a posible daño emitiendo
desempeño estudiantil para recomendar puntajes una licencia a un individuo incompetente (falso
de corte que se usarán para asignar a estudiantes positivo) debe ponderarse frente a alguna proba-
a cada nivel de rendimiento sobre la base de su bilidad correspondiente de denegar una licencia,
desempeño en la prueba. La decisión final sobre y así inhabilitar, a un individuo examinado cua-
los puntajes de corte es una decisión de políticas lificado (falso negativo). Cambiar el puntaje de
que por lo general toma un organismo de políti- corte para reducir cualquiera de las dos probabili-
cas como un consejo de educación para el estado. dades aumentará la otra, aunque ambas clases de
En el tercer ejemplo, educadores desean utili- errores pueden minimizarse mediante un diseño
zar puntajes de la prueba para identificar a estu- de la prueba sólido que prevea el rol del puntaje
diantes que están preparados para continuar con de corte en el uso y la interpretación de la prueba.
la universidad y tomar cursos que otorgan crédi- Determinar puntajes de corte en esas situacio-
tos. Los puntajes de corte podrían identificarse nes no puede ser un asunto meramente técnico,
inicialmente sobre la base de juicios sobre requisi- aunque estudios empíricos y modelos estadísticos
tos para tomar cursos que otorgan créditos en una pueden ser de gran valor para informar el proceso.
serie de universidades. Alternativamente, podrían Los puntajes de corte incorporan juicios de
reunirse juicios sobre estudiantes individuales y valor, así como consideraciones técnicas y em-
luego utilizarse para buscar un nivel de puntaje píricas. Cuando los resultados del proceso de
que diferencie de manera más efectiva a quienes fijación de estándares tienen consecuencias alta-
se considera preparados de los que se considera mente significativas, los involucrados en el pro-
no están preparados. En esos casos, los jueces de- ceso de fijación de estándares deben preocuparse
ben estar familiarizados tanto con los requisitos de que el proceso por el cual se determinan los
del curso universitario como con los propios es- puntajes de corte se documente claramente y que
tudiantes. Cuando sea posible, podría hacerse un sea defendible. Cuando la fijación de estándares
seguimiento de los juicios iniciales con datos lon- involucra a jueces o expertos en la materia, sus
gitudinales que indiquen si anteriores individuos cualificaciones y el proceso por el cual fueron se-
examinados tomaron o no cursos de apoyo. leccionados son parte de esa documentación. Se
En el último ejemplo, el de un examen para la debe tener cuidado de garantizar que estas per-
obtención de una licencia profesional, el puntaje sonas comprendan lo que deben hacer y que sus
de corte representa un juicio informado de que juicios sean tan razonados y objetivos como sea
quienes obtienen puntajes por debajo de él están posible. El proceso debe ser tal que participantes
en riesgo de cometer graves errores porque care- bien cualificados puedan aplicar su conocimiento
cen del conocimiento o las habilidades evaluadas. y experiencia para arribar a juicios significativos y
Ninguna prueba es perfecta, por supuesto, e inde- relevantes que reflejen exactamente sus entendi-
pendientemente de los puntajes de corte elegidos, mientos e intenciones. Debe emplearse un grupo
es probable que algunos individuos examinados de participantes suficientemente grande y repre-
con habilidades insuficientes aprueben, y algunos sentativo para proporcionar una seguridad razo-
con habilidades suficientes reprueben. Las pro- nable de que las calificaciones de expertos entre
babilidades relativas de esos errores de falso po- jueces sean suficientemente confiables y que los
sitivo y falso negativo variarán dependiendo del resultados de los juicios no varíen en gran medida
puntaje de corte elegido. Una probabilidad dada si el proceso se replicara.
114

Estándares para puntajes, escalas, normas,

vinculación de puntajes y puntajes de corte
Los estándares en este capítulo comienzan con Unidad 1. Interpretaciones de

un estándar global (numerado 5.0), que se ha
puntajes
enfoque principal del capítulo. El estándar global
también puede verse como el principio rector del Estándar 5.1
capítulo, y es aplicable a todas las pruebas y usua-
Se deben proporcionar a los usuarios de la
prueba explicaciones claras de las características,
se han separado en cuatro unidades temáticas de-
el significado y la interpretación prevista de los
nominadas de la siguiente manera:
puntajes de escala, así como de sus limitaciones.
1. Interpretaciones de puntajes Comentario: Los ejemplos de interpretaciones
2. Normas apropiadas e inapropiadas pueden ser útiles, en
3. Vinculación de puntajes especial para tipos de escalas o interpretaciones
4. Puntajes de corte que no son conocidas para la mayoría de los
usuarios. Este estándar corresponde a escalas de
puntajes previstas para interpretaciones confor-
Estándar 5.0
mes a criterios y conformes a normas. Todos los
Los puntajes de la prueba deben derivarse de una puntajes (puntajes brutos y puntajes de escala)
manera que respalde las interpretaciones de los pueden estar sujetos a interpretación errónea. Si
puntajes de la prueba para los usos propuestos la naturaleza o los usos previstos de una escala son
de las pruebas. Los desarrolladores y usuarios de novedosos, es especialmente importante que sus
la prueba deben documentar evidencia de im- usos, interpretaciones y limitaciones se describan
parcialidad, confiabilidad y validez de los punta- claramente.
jes de la prueba para su uso propuesto.
Comentario: A continuación, se describen diver- Estándar 5.2
sos usos e interpretaciones de los puntajes de la
Los procedimientos para construir escalas uti-
prueba y escalas de puntajes. Estos incluyen están-
lizadas para reportar puntajes y la justificación
dares para interpretaciones conformes a normas y
para estos procedimientos deben describirse
conformes a criterios, interpretaciones de punta-
claramente.
jes de corte, posibilidad de intercambiar puntajes
en formularios alternativos tras la equiparación, Comentario: Cuando las escalas, normas u otros
y comparabilidad de puntajes tras el uso de otros sistemas interpretativos sean proporcionados por
procedimientos para vinculación de puntajes. La el desarrollador de la prueba, la documentación
documentación que respalda esas interpretaciones técnica debe describir su justificación y permitir
proporciona una base para que expertos externos que los usuarios juzguen la calidad y precisión
y usuarios de la prueba juzguen en qué grado es de los puntajes de escala resultantes. Por ejem-
probable que las interpretaciones sean respaldadas plo, el desarrollador de la prueba debe describir
y pueden conducir a interpretaciones válidas de cualquier información normativa, de contenido
puntajes para todos los individuos en la población o de precisión de puntajes que esté incorporada
prevista de individuos examinados. en la escala y proporcionar una justificación para
115

capítulo 5
la cantidad de puntos de puntaje que se utilizan. apoyo a cualquier interpretación de este tipo reco-
Este estándar corresponde a escalas de puntajes mendada por el desarrollador de la prueba.
previstas para interpretaciones conformes a crite-
rios y conformes a normas. Estándar 5.5
Estándar 5.3 Cuando los puntajes brutos o puntajes de escala

se diseñan para interpretación conforme a cri-
Si existe un motivo sólido para creer que son terios, incluyendo la clasificación de individuos
probables las interpretaciones erróneas específi- examinados en categorías separadas, la justifica-
cas de una escala de puntajes, se debe advertir ción para las interpretaciones de puntajes reco-
explícitamente a los usuarios de la prueba. mendadas debe explicarse claramente.
Comentario: Los editores y usuarios de la prueba Comentario: Las interpretaciones conformes a
pueden reducir las interpretaciones erróneas de criterios son descripciones o inferencias basadas
puntajes de escala si describen explícitamente en puntajes que no adoptan la forma de compa-
tanto los usos apropiados como los posibles usos raciones del desempeño en la prueba de un indi-
indebidos. Por ejemplo, un punto de escala de viduo examinado con el desempeño en la prueba
puntajes originalmente definido como la media de otros individuos examinados. Los ejemplos in-
de alguna población de referencia debe dejar de cluyen declaraciones de que probablemente haya
interpretarse como representación del desempeño alguna psicopatología presente, de que un poten-
promedio si la escala se mantiene constante con el cial empleado posee habilidades específicas reque-
tiempo y la población de individuos examinados ridas en un puesto dado, o de que un niño con un
cambia. De manera similar, se necesita precaución puntaje superior a determinado punto de puntaje
si los significados de los puntajes pueden variar puede aplicar con éxito un conjunto determinado
para algunos examinandos, como el significado de de habilidades. Esas interpretaciones pueden re-
los puntajes de rendimiento para estudiantes que ferirse a los niveles absolutos de puntajes de la
no han tenido la oportunidad adecuada de apren- prueba o a patrones de puntajes para un solo in-
der el material cubierto por la prueba. dividuo examinado. Cada vez que el desarrollador
de la prueba recomienda dichas interpretaciones,
Estándar 5.4 deben presentarse claramente la justificación y
el fundamento empírico. Deben hacerse esfuer-
Cuando está previsto que los puntajes brutos zos serios cada vez que sea posible para obtener
sean directamente interpretables, sus significa- evidencia independiente respecto de la solidez de
dos, interpretaciones previstas y limitaciones de- tales interpretaciones de puntajes.
ben describirse y justificarse de la misma manera
en que se hace para puntajes de escala. Estándar 5.6
Comentario: En algunos casos, los ítems en una
Los programas de evaluación que intentan man-
prueba son una muestra representativa de un do-
tener una escala común conforme avanza el
minio bien definido de ítems con respecto tanto
tiempo deben realizar verificaciones periódicas
al contenido como a la dificultad de los ítems.
de la estabilidad de la escala en la que se repor-
La proporción respondida correctamente en la
tan los puntajes.
prueba puede entonces interpretarse como una
estimación de la proporción de ítems en el do- Comentario: La frecuencia de dichas verificacio-
minio que podría responderse correctamente. En nes depende de varias características del programa
otros casos, diferentes interpretaciones pueden de evaluación. En algunos programas de evalua-
atribuirse a puntajes por encima o por debajo de ción, los ítems se introducen y retiran de conjun-
un puntaje de corte en particular. Se debe ofrecer tos de ítems en forma continua. En otros casos, los
116

ítems en formularios de prueba sucesivos pueden Unidad 2. Normas

superponerse muy poco, o nada en absoluto. En
cualquier caso, si se utiliza una escala fija para la pre-
Estándar 5.8
sentación de reportes, es importante asegurar que
el significado de los puntajes de escala no cambie Las normas, si se utilizan, deben referirse a po-
con el transcurso del tiempo. Cuando las escalas se blaciones descriptas claramente. Estas pobla-
basan en la aplicación posterior de estimaciones de ciones deben incluir individuos o grupos con
parámetros de ítems precalibrados utilizando teoría los que los usuarios de la prueba desearán co-
de respuesta al ítem, deben realizarse como rutina múnmente comparar a sus propios individuos
análisis de la estabilidad de los parámetros de ítems. examinados.
Comentario: Es responsabilidad de los desarrolla-
Estándar 5.7 dores de la prueba describir normas claramente y
responsabilidad de los usuarios de la prueba utili-
Cuando se cambian pruebas o procedimientos zar las normas de manera apropiada. Los usuarios
de evaluación estandarizados para subgrupos re- deben conocer la aplicabilidad de una prueba a
levantes de examinandos, el individuo o grupo diferentes grupos. Normas diferenciadas o infor-
que hace el cambio debe proporcionar evidencia mación resumida sobre diferencias entre grupos
de la comparabilidad de puntajes en las versiones de género, raciales/étnicos, de idioma, discapaci-
cambiadas con puntajes obtenidos en las versio- dad, grado o edad, por ejemplo, pueden ser útiles
nes originales de las pruebas. Si falta evidencia, se en algunos casos. Los usos aceptables de dichas
debe proporcionar documentación que advierta normas diferenciadas e información relacionada
a los usuarios que los puntajes de la prueba o del pueden estar limitados por ley. Los usuarios tam-
procedimiento de evaluación cambiado pueden bién deben ser alertados sobre situaciones en las
no ser comparables con los de la versión original. que las normas sean menos apropiadas para algu-
Comentario: A veces se hace necesario cambiar nos grupos o individuos que para otros. En un in-
versiones originales de una prueba o procedi- ventario de interés ocupacional, por ejemplo, las
miento de evaluación cuando la prueba se da a normas para personas que realmente se dedican a
subgrupos relevantes de la población de evalua- una ocupación pueden ser inapropiadas para in-
ción, por ejemplo, individuos con discapacida- terpretar los puntajes de personas que no dedican
des o individuos con características lingüísticas y a ella.
culturales diversas. Una prueba puede traducirse
a braille de modo que sea accesible a individuos Estándar 5.9
que son ciegos, o el procedimiento de evaluación
Los reportes de estudios de normalización deben
puede cambiarse para incluir tiempo extra para
incluir especificación precisa de la población que
determinados grupos de individuos examinados.
se muestreó, los procedimientos de muestreo y
Estos cambios pueden o no tener un efecto en los
las tasas de participación, cualquier ponderación
constructos subyacentes medidos por la prueba
de la muestra, las fechas de evaluación, y esta-
y, en consecuencia, en las conversiones de pun-
dísticas descriptivas. La documentación técnica
tajes utilizadas con la prueba. Si los puntajes en la
debe indicar la precisión de las normas propia-
prueba cambiada se compararán con puntajes en
mente dichas.
la prueba original, el desarrollador de la prueba
debe proporcionar evidencia empírica de la com- Comentario: La información proporcionada debe
parabilidad de puntajes en la prueba cambiada y ser suficiente para permitir a los usuarios juzgar
original cada vez que los tamaños de la muestra la adecuación de las normas para interpretar los
sean suficientemente grandes para proporcionar puntajes de individuos examinados locales. La in-
este tipo de evidencia. formación debe presentarse de modo que cumpla
117

capítulo 5
con los requisitos legales y estándares profesiona- Unidad 3. Vinculación de puntajes

les aplicables relacionados con la privacidad y la
seguridad de los datos.
Estándar 5.12
Estándar 5.10 Deben proporcionarse una justificación clara y

evidencia de respaldo para cualquier afirmación
Cuando las normas se utilizan para caracterizar de que los puntajes de escala obtenidos en for-
a grupos de individuos examinados, las estadísti- mularios alternativos de una prueba pueden uti-
cas utilizadas para resumir el desempeño de cada lizarse en forma intercambiable.
grupo y las normas a las que se refieren dichas
estadísticas deben definirse claramente y deben Comentario: Para que los puntajes en formularios
respaldar el uso o interpretación previstos. alternativos se utilicen en forma intercambiable,
los formularios alternativos deben elaborarse se-
Comentario: No es posible determinar el rango de gún especificaciones detalladas de contenido y
percentil del puntaje de prueba promedio de una estadísticas en común. Deben reunirse datos ade-
escuela si todo lo que se conoce es el rango de per- cuados y debe aplicarse metodología estadística
centil de cada uno de los estudiantes de esa escuela. apropiada para realizar equiparación de puntajes
Es posible que en ocasiones sea útil desarrollar nor- en formularios alternativos de la prueba. La cali-
mas especiales para medias de grupos, pero cuando dad de la equiparación debe evaluarse para deter-
los tamaños de los grupos difieren sustancialmente minar si los puntajes de escala resultantes en los
o cuando algunos grupos son más heterogéneos que formularios alternativos pueden usarse en forma
otros, la construcción e interpretación de las nor- intercambiable.
mas de grupo es problemática. Un procedimiento
común y aceptable es reportar el rango de percentil
del miembro mediano del grupo, por ejemplo, el Estándar 5.13
rango de percentil mediano de los alumnos evalua-
dos en una escuela determinada. Cuando las afirmaciones de equivalencia de
puntajes de un formulario a otro se basan en
Estándar 5.11 procedimientos de equiparación, debe propor-
cionarse información técnica detallada sobre el
Si el editor de una prueba proporciona normas método por el cual se establecieron las funciones
para usar en la interpretación de puntajes de la de equiparación y sobre la exactitud de las fun-
prueba, siempre que la prueba se mantenga en ciones de equiparación.
formato impreso, es responsabilidad del editor
Comentario: Se debe proporcionar evidencia
de la prueba renormalizar la prueba con sufi-
para demostrar que los puntajes equiparados en
ciente frecuencia para permitir la continuidad
formularios alternativos miden esencialmente
de las interpretaciones de puntajes exactas y
el mismo constructo con niveles muy similares
apropiadas.
de confiabilidad y errores estándares de medida
Comentario: Los editores de la prueba deben ase- condicionales y que los resultados son apropiados
gurarse de que haya normas actualizadas inmedia- para subgrupos relevantes. La información técnica
tamente disponibles o de proporcionar evidencia debe incluir el diseño del estudio de equiparación,
de que las normas anteriores aún son apropiadas. los métodos estadísticos utilizados, el tamaño y
Sin embargo, continúa siendo responsabilidad del las características relevantes de las muestras de
usuario de la prueba evitar el uso inapropiado de individuos examinados utilizadas en los estudios
normas que estén desactualizadas y esforzarse por de equiparación, y las características de cualquier
garantizar interpretaciones de puntajes exactas y prueba de anclaje o ítem de anclaje. En las prue-
apropiadas. bas para las que se realiza equiparación antes del
118

uso operativo (es decir, preequiparación), debe Estándar 5.15

proporcionarse documentación del proceso de
calibración de los ítems y la adecuación de las En estudios de equiparación que emplean un di-
funciones de equiparación debe evaluarse tras la seño de prueba de anclaje, deben presentarse las
administración operativa. Cuando formularios características de la prueba de anclaje y su simili-
equivalentes de pruebas basadas en computadora tud con los formularios que se equiparan, inclu-
se construyan dinámicamente, deben documen- yendo tanto especificaciones de contenido como
tarse los algoritmos utilizados y las características relaciones determinadas en forma empírica entre
técnicas de los formularios alternativos deben los puntajes de la prueba. Si los ítems de anclaje
evaluarse en función de simulación y/o análisis se utilizan en el estudio de equiparación, deben
de datos de administración. Se deben estimar y presentarse la representatividad y las característi-
reportar siempre que sea posible los errores es- cas psicométricas de los ítems de anclaje.
tándares de las funciones de equiparación. Si los Comentario: Los puntajes en las pruebas o for-
tamaños de la muestra lo permiten, es posible mularios de prueba pueden equipararse mediante
que resulte informativo evaluar si las funciones ítems en común incorporados dentro de cada uno
de equiparación desarrolladas para subgrupos re- de ellos, o una prueba en común administrada
levantes de individuos examinados son similares. junto con cada uno de ellos. Estos ítems o prue-
Es posible que sea informativo utilizar dos o más bas en común se denominan ítems de vinculación,
formularios de anclaje y realizar la equiparación ítems en común, ítems de anclaje o pruebas de an-
utilizando cada uno de los anclajes. Para ser más claje. Los procedimientos estadísticos aplicados a
útil, el error de equiparación debe presentarse ítems de anclaje hacen suposiciones que sustituyen
en unidades de la escala de puntajes reportada. la equivalencia alcanzada con un diseño de grupos
Para los programas de evaluación con puntajes de equivalentes. Los desempeños en estos ítems son
corte, el error de equiparación cercano al puntaje la única evidencia empírica utilizada para ajustar
de corte es de primordial importancia. por diferencias en capacidad entre grupos antes de
hacer ajustes por dificultad de la prueba. Con tales
enfoques, la calidad de la equiparación resultante
Estándar 5.14
depende mucho de la cantidad de ítems de anclaje
En estudios de equiparación que se basan en la utilizados y de cuán bien los ítems de anclaje re-
equivalencia estadística de grupos de individuos flejen proporcionalmente el contenido y las carac-
examinados que reciben diferentes formularios, terísticas estadísticas de la prueba. El contenido
los métodos para establecer dicha equivalencia de los ítems de anclaje debe ser exactamente el
deben describirse en detalle. mismo en cada formulario de prueba que se equi-
parará. Los ítems de anclaje deben estar en posi-
Comentario: Determinados diseños de equi- ciones similares para ayudar a reducir el error en la
paración dependen de la equivalencia aleatoria equiparación debido a efectos de contexto de los
de grupos que reciben diferentes formularios. ítems. Además, deben hacerse verificaciones para
A menudo, una manera de asegurar dicha equi- asegurar que, después de controlar las diferencias
valencia es mezclar sistemáticamente diferentes de grupos de individuos examinados, los ítems de
formularios de prueba y luego distribuirlos en anclaje tengan características estadísticas similares
forma aleatoria de modo que cantidades de indi- en cada formulario de prueba.
viduos examinados aproximadamente iguales re-
ciban cada formulario. Debido a que los diseños
de administración que tienen por objeto arrojar Estándar 5.16
grupos equivalentes no siempre se siguen en la
práctica, la equivalencia de grupos debe evaluarse Cuando los puntajes de la prueba se basan en pro-
estadísticamente. cedimientos psicométricos basados en modelos,
119

capítulo 5
como los utilizados en pruebas adaptables com- formularios de prueba diseñados para adminis-
putarizadas o de múltiples etapas, se debe pro- tración individual frente a grupal, pruebas que se
porcionar documentación para indicar que los escalan verticalmente, pruebas adaptables compu-
puntajes tienen significado comparable en con- tarizadas, pruebas que son sustancialmente revisa-
juntos alternativos de ítems de prueba. das, pruebas dadas en diferentes idiomas, pruebas
administradas con varias adecuaciones, pruebas
Comentario: Cuando se utilizan procedimientos
que miden diferentes constructos y pruebas de
psicométricos basados en modelos, se debe pro-
diferentes editores.
porcionar documentación técnica que respalde
la comparabilidad de puntajes en conjuntos de
ítems alternativos. Dicha documentación debe Estándar 5.18
incluir las suposiciones y procedimientos que
se utilizaron para establecer la comparabilidad, Cuando se utilizan procedimientos de vincula-
incluyendo descripciones claras de algoritmos ción para relacionar puntajes en pruebas o for-
basados en modelos, software utilizado, procedi- mularios de prueba que no son muy paralelos,
mientos de control de calidad que se siguieron, la construcción, la interpretación prevista y las
y análisis técnicos realizados que justifiquen el limitaciones de esas vinculaciones deben descri-
uso de modelos psicométricos para los puntajes birse claramente.
de prueba en particular que tienen por objeto ser Comentario: Se han realizado varias vinculaciones
comparables. relacionando puntajes en pruebas desarrolladas en
diferentes niveles de dificultad, relacionando for-
Estándar 5.17 mularios anteriores con formularios revisados de
pruebas publicadas, creando concordancias entre
Cuando se vinculan puntajes en pruebas que no diferentes pruebas de constructos similares o dife-
pueden equipararse, debe proporcionarse evi- rentes o para otros fines. Esas vinculaciones sue-
dencia directa de la comparabilidad de puntajes, len ser útiles, pero también pueden estar sujetas a
y la población de individuos examinados para la interpretación errónea. Las limitaciones de dichas
que se aplica la comparabilidad de puntajes debe vinculaciones deben describirse claramente. Se
especificarse claramente. La justificación especí- debe proporcionar información técnica detallada
fica y la evidencia requerida dependerán en parte sobre la metodología de vinculación y la calidad
de los usos previstos para los cuales se afirma la de la vinculación. Se debe incluir información
comparabilidad de puntajes. técnica sobre la vinculación, según corresponda,
Comentario: Se debe proporcionar respaldo para la confiabilidad de los conjuntos de puntajes
cualquier aseveración respecto de que puntajes que se vinculan, la correlación entre los punta-
vinculados obtenidos con uso de pruebas elabora- jes de la prueba, una evaluación de la similitud
das según diferentes especificaciones de contenido del contenido, las condiciones de medición para
y estadísticas, pruebas que utilizan diferentes ma- cada prueba, el diseño de recopilación de datos,
teriales de prueba o pruebas que se administran los métodos estadísticos utilizados, los errores es-
en diferentes condiciones de administración de tándares de la función de vinculación, evaluacio-
la prueba son comparables para la finalidad pre- nes de estabilidad de muestreo, y evaluaciones de
vista. Para estas vinculaciones, debe especificarse comparabilidad de puntajes.
claramente la población de individuos examina-
dos para la que se establece la comparabilidad de Estándar 5.19
puntajes. Este estándar se aplica, por ejemplo, a
pruebas que difieren en extensión, pruebas admi- Cuando las pruebas se crean tomando un sub-
nistradas en diferentes formatos (p. ej., pruebas conjunto de los ítems en una prueba existente
con papel y lápiz y basadas en computadora), o reorganizando ítems, se debe proporcionar
120

evidencia de que no hay distorsiones de punta- Comentario: A veces ocurren cambios impor-
jes de escala, puntajes de corte o normas para tantes en las especificaciones de pruebas que se
las diferentes versiones o para vinculaciones de utilizan por períodos de tiempo sustanciales. A
puntajes entre ellas. menudo, esos cambios aprovechan las mejoras
en los tipos de ítems o cambios en el contenido
Comentario: Algunas pruebas y baterías de prue-
que se haya demostrado mejoran la validez y por
bas se publican tanto en versión completa como
lo tanto son muy recomendables. Es importante
en formato de sondeo o versión corta. En otros
reconocer, sin embargo, que dichos cambios da-
casos, pueden crearse múltiples versiones de un
rán por resultado puntajes que no pueden hacerse
solo formulario de prueba reorganizando sus
estrictamente intercambiables con puntajes en un
ítems. No debe suponerse que los datos de des-
formulario anterior de la prueba, incluso cuando
empeño derivados de la administración de ítems
se utilizan procedimientos de vinculación estadís-
como parte de la versión inicial pueden usarse
tica. Para evaluar la comparabilidad de puntajes,
para calcular puntajes de escala, calcular punta-
es aconsejable evaluar la relación entre puntajes
jes vinculados, construir tablas de conversión,
en las versiones anteriores y nuevas.
aproximar normas o aproximar puntajes de corte
para pruebas intactas alternativas. Se requiere pre-
caución en casos en los que son probables efectos Unidad 4. Puntajes de corte
de contexto, incluyendo pruebas aceleradas, prue-
bas largas en las que la fatiga puede ser un factor,
Estándar 5.21
pruebas adaptables, y pruebas desarrolladas a par-
tir de conjuntos de ítems calibrados. Las opciones Cuando las interpretaciones de puntajes pro-
para reunir evidencia relacionada con efectos de puestas involucran uno o más puntajes de corte,
contexto podrían incluir exámenes de ajuste de deben documentarse claramente la justificación
datos de modelo, recalibraciones operativas de es- y los procedimientos utilizados para establecer
timaciones de parámetros de ítems inicialmente puntajes de corte.
derivadas utilizando datos de pruebas previas, y
comparaciones de desempeño sobre formularios Comentario: Los puntajes de corte pueden esta-
de pruebas originales y revisados según lo admi- blecerse para seleccionar una cantidad especifi-
nistrado a grupos equivalentes en forma aleatoria. cada de individuos examinados (p. ej., identificar
una cantidad fija de solicitantes de empleo para
mayor cribado), en cuyo caso es posible que se
Estándar 5.20 necesite un poco más de documentación respecto
de la pregunta específica de cómo se establecen
Si las especificaciones de la prueba se cambian de los puntajes de corte, aunque se debe prestar aten-
una versión de una prueba a una versión poste- ción a la justificación para usar la prueba en la
rior, dichos cambios deben identificarse, y se debe selección y la precisión de comparaciones entre
dar una indicación de que los puntajes converti- individuos examinados. En otros casos, no obs-
dos para las dos versiones pueden no ser estric- tante, los puntajes de corte pueden usarse para
tamente equivalentes, incluso cuando se hayan clasificar individuos examinados en distintas ca-
usado procedimientos estadísticos para vincular tegorías (p. ej., categorías de diagnóstico, niveles
puntajes de las versiones diferentes. Cuando ocu- de competencia, o aprobar y reprobar) para las
rren cambios importantes en las especificaciones que no hay cuotas preestablecidas. En estos casos,
de la prueba, los puntajes deben reportarse en el método de fijación de estándares debe docu-
una nueva escala, o debe proporcionarse una de- mentarse con mayor detalle. Idealmente, el rol de
claración clara para alertar a los usuarios de que los puntajes de corte en el uso y la interpretación
los puntajes no son directamente comparables de pruebas se tiene en cuenta durante el diseño
con los de versiones anteriores de la prueba. de la prueba. La precisión adecuada en regiones
121

capítulo 5
de escalas de puntajes donde se establecen punta- utilizados para obtener dichos juicios deben dar
jes de corte es un prerrequisito para la clasificación por resultado estándares de competencia razona-
confiable de individuos examinados en categorías. bles y defendibles que reflejen con exactitud los
Si la fijación de estándares emplea datos sobre dis- valores e intenciones de los participantes en la fi-
tribuciones de puntajes para grupos de criterios o jación de estándares. Llegar a esos juicios puede
sobre la relación de los puntajes de la prueba con ser más directo cuando se pide a los participantes
una o más variables de criterios, esos datos deben que consideren clases de desempeño con las que
resumirse en la documentación técnica. Si se si- están familiarizados y para las se han formado
gue un proceso de fijación de estándares basado conceptos claros de adecuación y calidad. Cuando
en juicios, el método empleado debe describirse las repuestas suscitadas por una prueba no mues-
claramente, y debe presentarse la naturaleza pre- trean ni simulan de cerca el uso de conocimientos
cisa y la confiabilidad de los juicios requeridos, o habilidades evaluados en el dominio de criterios
sean juicios de personas, de desempeños en ítems real, es probable que los participantes no aborden
o en la prueba, o de desempeños en otros criterios la tarea con ese entendimiento claro de adecua-
predichos por los puntajes de la prueba. La do- ción y calidad. Se debe tener especial cuidado de
cumentación también debe incluir la selección y asegurar que los participantes tengan un funda-
cualificaciones de participantes de paneles de fija- mento sólido para elaborar los juicios solicitados.
ción de estándares, la capacitación proporcionada, El conocimiento exhaustivo de las descripciones
cualquier comentario a los participantes respecto de los diferentes niveles de competencia, la prác-
de las implicaciones de sus juicios provisionales, y tica en el juzgamiento de la dificultad de las tareas
cualquier oportunidad para que los participantes con comentarios sobre exactitud, la experien-
deliberen entre ellos. Cuando corresponda, debe cia de efectivamente tomar un formulario de la
reportarse la variabilidad entre participantes. prueba, comentarios sobre las tasas de aprobación
Cuando sea viable, se debe proporcionar una esti- que conllevan los estándares de competencia pro-
mación de la cantidad de variación en los puntajes visionales, y otras formas de información pueden
de corte que podría esperarse si el procedimiento ser beneficiosos para ayudar a los participantes a
de fijación de estándares se replicara con un llegar a decisiones sólidas y ejemplares.
panel de fijación de estándares comparable.
Estándar 5.23
Estándar 5.22
Cuando sea viable y apropiado, los puntajes
Cuando los puntajes de corte que definen apro- de corte que definan categorías con interpreta-
bado/reprobado o niveles de competencia se ba- ciones sustantivas distintas deben informarse
sen en juicios directos sobre la adecuación de los mediante datos empíricos sólidos respecto de
desempeños en el ítem o la prueba, el proceso la relación del desempeño en la prueba con los
basado en juicios debe diseñarse de modo que criterios relevantes.
los participantes que proporcionan los juicios
Comentario: En contextos laborales donde se
puedan aplicar su conocimiento y experiencia de
haya establecido que los puntajes de prueba se
una manera razonable.
relacionan con el desempeño laboral, es posible
Comentario: Los puntajes de corte a veces se que la relación precisa de la prueba y el criterio
basan en juicios sobre la adecuación de los des- tenga escasa incidencia en la elección de un pun-
empeños en los ítems o la prueba (p. ej., respues- taje de corte, si la elección se basa en la necesidad
tas de ensayos a una indicación de redacción) o de una cantidad predeterminada de candidatos.
expectativas de competencia (p. ej., el puntaje Sin embargo, en contextos en que se aplican in-
de escala que caracterizaría a un individuo exa- terpretaciones distintas a diferentes categorías de
minado que está al límite). Los procedimientos puntajes, la relación empírica de la prueba con el
122

criterio supone mayor importancia. Por ejemplo, a menudo no están disponibles. No obstante,
si un puntaje de corte debe fijarse en una prueba cuando corresponda y sea viable, el desarrollador
de matemáticas de la escuela secundaria que inde la prueba debe investigar y reportar la relación
dica la preparación para instrucción en mate- entre los puntajes de la prueba y el desempeño en
máticas de nivel universitario, es posible que sea contextos prácticos relevantes. Se requiere juicio
aconsejable reunir datos empíricos que establez- profesional para determinar un enfoque apro-
can una relación entre los puntajes de la prueba piado de fijación de estándares (o combinación de
y las calificaciones obtenidas en cursos universi- enfoques) en cualquier situación dada. En gene-
tarios relevantes. Los puntajes de corte utilizados ral, se esperaría encontrar una marcada diferencia
en la interpretación de pruebas de diagnóstico en niveles de la variable de criterios entre aquellos
pueden establecerse sobre la base de distribucio- apenas por debajo y aquellos apenas por encima
nes de puntajes determinadas en forma empírica del puntaje de corte, pero debe proporcionarse
para grupos de criterios. Con muchas pruebas de evidencia, cuando sea viable, de la relación entre
rendimiento o competencia, como las utilizadas el desempeño en la prueba y en el criterio en un
en acreditación, grupos de criterios adecuados intervalo de puntajes que incluya o aborde el pun-
(p. ej., profesionales exitosos frente a no exitosos) taje de corte.
123

6. A
DMINISTRACIÓN, CALIFICACIÓN,
PRESENTACIÓN DE REPORTES E
INTERPRETACIÓN DE PRUEBAS
Antecedentes
La utilidad e interpretabilidad de los puntajes de constructo (véase el capítulo 3, “Imparciali-
requieren que la prueba se administre y califique dad en las pruebas”). En situaciones de pruebas
de acuerdo con las instrucciones del desarrolla- clínicas o neuropsicológicas, puede ser necesaria
dor de la prueba. Cuando las instrucciones, las flexibilidad en la administración, en función de
condiciones de la prueba y la calificación siguen la capacidad del individuo para entender y res-
los mismos procedimientos detallados para todos ponder a los ítems de la prueba o a las tareas, y/o
los examinandos, se considera que la prueba ha al constructo cuya medición se requiere. Algunas
sido estandarizada. Sin esta estandarización, se situaciones y/o el constructo (p. ej., las pruebas
reduciría la precisión y comparabilidad de las inde deterioro de la memoria de un examinando
terpretaciones de los puntajes. En pruebas diseña- con demencia que se encuentra hospitalizado)
das para evaluar los conocimientos, habilidades, pueden requerir que la evaluación se abrevie o
capacidades u otras características personales, la altere. Los programas de pruebas a gran escala
estandarización permite garantizar que todos los suelen establecer procedimientos específicos para
examinandos tengan las mismas oportunidades la consideración y autorización de adecuaciones y
de demostrar sus competencias. Mantener la se- otras variaciones respecto de los procedimientos
guridad de la prueba también ayuda a garantizar estandarizados. Por lo general, estas adecuaciones
que nadie tenga una ventaja indebida. La impor- están relativamente estandarizadas; en ocasiones,
tancia de la adherencia a la estandarización apro- se pueden indicar algunas alternativas distintas a
piada de los procedimientos de administración las adecuaciones previstas y especificadas por el
aumenta con los riesgos de la prueba. desarrollador de la prueba. Se debe tener especial
Sin embargo, a veces se producen situaciones cuidado para evitar el tratamiento sesgado y la
en las que pueden ser recomendables o legalmente discriminación. Aunque las variaciones se pueden
obligatorias variaciones respecto de los procedi- realizar con la intención de mantener la compara-
mientos estandarizados. Por ejemplo, es posible bilidad de los puntajes, con frecuencia no es posi-
que individuos con discapacidades y personas ble determinar el grado en que esto es posible. Se
de diferentes contextos lingüísticos, edades o fa- podría poner en riesgo la comparabilidad de los
miliaridad con las pruebas necesiten modos no puntajes y, por consiguiente, la prueba no mediría
estándar de administración, o una orientación el mismo constructo para todos los examinandos.
más completa para el proceso de la prueba, de Las pruebas y las evaluaciones difieren en el
manera que todos los examinandos puedan tener grado de estandarización. En muchos casos, di-
una oportunidad expedita para demostrar su si- ferentes examinandos no reciben el mismo for-
tuación respecto del constructo que se mide. Es mulario de prueba, pero reciben formularios
posible que diferentes modos de presentación de equivalentes que producen puntajes comparables,
la prueba, de sus instrucciones o de las respuestas, o formularios alternativos donde los puntajes se
resulten idóneos para determinados individuos, adaptan para hacerlos comparables. Algunas eva-
por ejemplo, personas con algún tipo de disca- luaciones permiten a los examinandos elegir las
pacidad o personas con destrezas limitadas en el tareas que deben realizar o las partes de sus traba-
idioma de la prueba, a fin de proporcionar un jos que van a ser evaluadas. En estas situaciones se
acceso adecuado y reducir la varianza irrelevante puede mantener la estandarización especificando
125

capítulo 6
las condiciones de la elección y el criterio para la uso de computadoras necesiten capacitación para
evaluación de los productos. Cuando una evalua- reducir la varianza irrelevante de constructo. In-
ción permite un determinado tipo de colabora- cluso aquellos examinandos familiarizados con
ción entre los examinandos o entre el examinando computadoras podrían requerir una breve expli-
y el administrador de la prueba, se deben especi- cación y práctica para gestionar detalles específi-
ficar los límites de esa colaboración. En algunas cos de la prueba, por ejemplo, la interfaz de la
evaluaciones cabe esperar que los administradores prueba. Se producen problemas especiales en la
de la prueba adapten las instrucciones para ase- gestión del entorno de la prueba para reducir la
gurarse de que todos los examinandos entienden varianza irrelevante de constructo, por ejemplo,
lo que se espera de ellos. En todos estos casos, el evitar reflejos de luz en los monitores que interfie-
objetivo sigue siendo el mismo: proporcionar una ran con la legibilidad de la pantalla, o mantener
medición precisa, imparcial y comparable para un entorno tranquilo cuando los examinandos
todos. El grado de estandarización viene dictado empiezan o terminan la prueba en momentos
por ese objetivo y por el uso previsto de los pun- diferentes con respecto a sus vecinos. Quienes
tajes de la prueba. administren pruebas basadas en computadora de-
Las instrucciones estandarizadas ayudan a ga- ben recibir capacitación para resolver los proble-
rantizar que todos los examinandos tengan una mas de hardware, software o administración de la
compresión común de la mecánica de la evalua- prueba. Las pruebas administradas por computa-
ción. Por lo general, las instrucciones informan a dora en aplicaciones basadas en Web pueden re-
los examinandos sobre cómo presentar sus respues- querir apoyos adicionales para mantener entornos
tas, qué clase de ayuda pueden razonablemente estandarizados.
obtener si no comprenden la pregunta o tarea, Los procedimientos de calificación estandari-
cómo pueden corregir las respuestas accidentales zados ayudan a garantizar una calificación y pre-
y la naturaleza de las restricciones temporales si las sentación de reportes coherentes, fundamentales
hubiera. En ocasiones, se proporciona orientación en cualquier circunstancia. Cuando la calificación
general sobre la omisión de respuestas de ítems. se realiza por máquina, se debe establecer y su-
Muchas pruebas, incluyendo las pruebas adminis- pervisar la precisión de la máquina, incluyendo
tradas por computadora, requieren equipos o soft- cualquier programa o algoritmo de calificación.
ware especiales. En tales casos, suelen presentarse Cuando la calificación de respuestas complejas
ejercicios de práctica e instrucción, de manera la realizan evaluadores humanos o motores au-
que los examinandos entiendan el modo de fun- tomáticos de calificación, se requiere una cuida-
cionamiento del equipo o software. El principio dosa capacitación. Normalmente, la capacitación
de estandarización incluye la orientación de los requiere que evaluadores humanos expertos pro-
examinandos en los materiales y adecuaciones con porcionen una muestra de respuestas que abarque
los que podrían no estar familiarizados. Algunos el rango de posibles clasificaciones o puntajes.
equipos se pueden facilitar en la ubicación de la Dentro de los rangos de puntajes, los instructores
prueba, por ejemplo, herramientas comerciales o también deben proporcionar muestras que ejem-
sistemas de software. A menudo resulta apropiado plifiquen la variedad de respuestas que se tradu-
que los examinandos tengan la oportunidad de cirán en clasificaciones o niveles de puntaje. La
practicar con el equipo, a menos que el constructo supervisión periódica ayuda a garantizar que to-
en evaluación sea la capacidad de usar el equipo. dos los desempeños de las pruebas se califiquen de
En ocasiones, las pruebas se administran a acuerdo con los mismos criterios estandarizados
través de medios tecnológicos, ingresando las res- y que los evaluadores no aplique los criterios de
puestas mediante el teclado, ratón, entrada de voz manera diferente a medida que avanzan por las
u otros dispositivos. Cada vez más examinandos respuestas entregadas.
están acostumbrados al uso de computadoras. En sí mismos, los puntajes no se interpretan
Es posible que aquellos no familiarizados con el fácilmente sin información adicional como, por
126

ADMINISTRACIÓN, CALIFICACIÓN, PRESENTACIÓN DE REPORTES E INTERPRETACIÓN DE PRUEBAS
ejemplo, normas o estándares, indicaciones de incluyendo, entre otros, otros resultados de la

error de medida y descripciones del contenido de prueba, entrevistas, registros existentes y observa-
la prueba. Así como una temperatura de 10 gra- ciones conductuales.
dos Celsius en enero es cálida en Minnesota y fría En algunas evaluaciones a gran escala, el ob-
en Florida, un puntaje de prueba de 50 no resulta jetivo principal de la evaluación no es el exami-
relevante sin contexto. Se debe facilitar material in- nando individual sino una unidad mayor, por
terpretativo que sea fácilmente comprensible para ejemplo, un distrito escolar o una planta in-
quienes reciben el reporte. A menudo, el usuario dustrial. A menudo, se proporciona diferentes
de la prueba proporciona una interpretación de los conjuntos de ítems a diferentes examinandos,
resultados para el examinando, sugiriendo las limi- siguiendo un plan de muestreo de matriz cuida-
taciones de los resultados y la relación con otros da- dosamente equilibrado, con el fin de ampliar la
tos de cualquier puntaje reportado. Los puntajes de gama de información que se puede obtener en un
algunas pruebas no están diseñados para ser presen- periodo de tiempo razonable. Los resultados ad-
tados a los examinandos; solo se prevé la comunica- quieren significado cuando se lleva a cabo la agre-
ción de interpretaciones amplias o de clasificaciones gación de muchos individuos que responden a
dicotómicas, del tipo “aprobado/reprobado”. diferentes muestras de ítems. Es posible que tales
En ocasiones, las interpretaciones de los re- evaluaciones no aporten suficiente información
sultados de una prueba se preparan mediante que respalde puntuaciones mínimamente válidas
sistemas computarizados. Generalmente, tales o confiables para los individuos, ya que cada indi-
interpretaciones se basan en una combinación viduo puede realizar solo una parte de la prueba,
de datos empíricos, juicio experto y experiencia, mientras que en la agregación, los resultados de
y requieren validación. En algunas aplicaciones la evaluación podrían ser válidos y de una con-
profesionales de pruebas individualizadas, las fiabilidad aceptable para interpretaciones sobre el
interpretaciones preparadas por computadora se desempeño de la unidad de mayor tamaño.
comunican mediante un profesional, quien puede En el capítulo 4, “Diseño y desarrollo de prue-
modificar la interpretación inicial para adaptarla bas”, se tratan algunos temas adicionales sobre ad-
a circunstancias especiales. Se debe tener especial ministración y calificación.
cuidado para que las interpretaciones de la prueba Los usuarios de la prueba, y aquellos que re-
suministradas por métodos no algorítmicos guar- ciben los materiales y puntajes de las pruebas e
den la coherencia apropiada. Los reportes gene- información complementaria (como pueden ser
rados automáticamente no son un sustituto del los datos de identificación personal de los exami-
juicio clínico de un evaluador profesional que nandos), son responsables de mantener correc-
haya trabajado directamente con el examinando, tamente la seguridad y confidencialidad de esta
o de la integración de información adicional, información.
127

capítulo 6
Estándares para la administración, calificación,

presentación de reportes e interpretación de pruebas
Los estándares de este capítulo empiezan con un desarrollador de la prueba, así como las instruc-
estándar general (con el número 6.0), diseñado ciones del usuario de la prueba.
para comunicar el propósito central o el enfoque
Comentario: Los responsables de los programas de
principal del capítulo. El estándar general tam-
pruebas deben proporcionar la capacitación, do-
bién se puede ver como el principio rector del ca-
cumentación y supervisión apropiadas, de manera
pítulo y se aplica a todas las pruebas y a todos los
que los individuos que administren o califiquen las
usuarios de la prueba. Todos los estándares poste-
pruebas sean competentes en los procedimientos
riores se han dividido en tres unidades temáticas,
apropiados de administración o calificación de las
etiquetadas de la siguiente manera:
pruebas y entiendan la importancia de adherirse
a las instrucciones facilitadas por el desarrollador.
1. Administración de la prueba
Los programas de pruebas a gran escala deben es-
2. Calificación de la prueba
pecificar los procedimientos estandarizados admi-
3. Presentación de informes e interpretación
tidos para la determinación de las adecuaciones u
otras variaciones aceptables en la administración.
Estándar 6.0 La capacitación deberá habilitar a los administra-
Para respaldar las interpretaciones útiles de los dores para realizar los ajustes apropiados si se re-
resultados de calificación, los instrumentos de quiere una adecuación o modificación que no esté
evaluación deben haber establecido los proce- incluida en los procedimientos estandarizados.
dimientos para la administración, calificación, Se deben observar estrictamente las especifi-
presentación de informes e interpretación de caciones relacionadas con las instrucciones para
las pruebas. Los responsables de administrar, los examinandos, los límites de tiempo, la forma
calificar, presentar informes e interpretar deben de presentación o respuesta de ítems, y los ma-
tener la capacitación y el apoyo suficientes para teriales o equipos de la prueba. En general, se
seguir los procedimientos establecidos. Se debe deben seguir los mismos procedimientos que se
supervisar la adherencia a los procedimientos utilizaron para la obtención de los datos para el
establecidos y cualquier error material deberá escalamiento y normalización de los puntajes de
documentarse y, si es posible, corregirse. la prueba. Algunos programas no se escalan ni
establecen normas, por ejemplo, las evaluaciones
Comentario: A fin de respaldar la validez de las de porfolio y la mayoría de las evaluaciones aca-
interpretaciones de los puntajes, la administra- démicas para estudiantes con discapacidades cog-
ción debe seguir todos y cada uno de los procedi- nitivas severas. No obstante, habitualmente estos
mientos establecidos, y será necesario supervisar programas tienen procedimientos estandarizados
la conformidad con tales procedimientos. específicos para la administración y calificación
cuando establecen estándares de rendimiento.
Un examinando con una discapacidad puede ne-
Unidad 1. Administración de la cesitar variaciones que proporcionen acceso sin
prueba cambiar el constructo que se mide. Otras circuns-
tancias especiales pueden requerir flexibilidad en
Estándar 6.1 la administración, por ejemplo, apoyo lingüístico
para facilitar el acceso bajo determinadas condi-
Los administradores deben seguir cuidadosa- ciones, o evaluaciones clínicas o neuropsicológi-
mente los procedimientos estandarizados de ad- cas, además de procedimientos relacionados con
ministración y calificación especificados por el las adecuaciones. Los juicios sobre la idoneidad
128

de los ajustes deben estar matizados por la con- Características como los límites de tiempo, la
sideración de que las desviaciones respecto de los elección de tipos de ítems y formatos de respuesta,
procedimientos estándar pueden poner en peligro las interfaces complejas y las instrucciones que po-
la validez o complicar la comparabilidad de las in- tencialmente introducen varianza irrelevante de
terpretaciones de los puntajes. Estos juicios se de- constructo, se deben analizar en términos de pro-
ben llevar a cabo por profesionales cualificados y pósito de la prueba y los constructos sometidos a
ser coherentes con las directrices proporcionadas medición. Si es factible, se deben llevar a cabo in-
por el usuario o desarrollador de la prueba. vestigaciones empíricas y de usabilidad apropiadas
Las políticas relacionadas con las contraprue- para documentar (y de ser posible, minimizar) el
bas deben ser establecidas por el usuario o desa- impacto de las fuentes o condiciones que contri-
rrollador de la prueba. El usuario o administrador buyen a la variabilidad irrelevante de constructo.
de la prueba debe seguir la política establecida. El
usuario de la prueba debe comunicar claramente Estándar 6.2
estas políticas de contrapruebas, como parte de
las condiciones para la administración estanda- Cuando se han establecido procedimientos for-
rizada de una prueba. Las contrapruebas tienen males para la solicitud y obtención de adecuacio-
como finalidad reducir las probabilidades de que nes, se debe informar a los examinandos sobre
se clasifique erróneamente a una persona por no estos procedimientos con antelación a la prueba.
cumplir un determinado estándar. Por ejemplo,
algunos programas de pruebas especifican que Comentario: Cuando los programas de pruebas
una persona debe repetir la prueba; otros ofrecen han establecido procedimientos y criterios para
varias oportunidades de hacer una prueba, por identificar y facilitar adecuaciones para los exami-
ejemplo, después de aprobar una prueba necesaria nandos, los procedimientos y criterios se deben
para la graduación secundaria o para la obtención seguir y documentar cuidadosamente. De forma
de autorizaciones. óptima, estos procedimientos incluyen la conside-
Los desarrolladores de la prueba deben espe- ración de los casos donde, además de las adecuacio-
cificar las condiciones estandarizadas de admi- nes previstas y especificadas por el desarrollador de
nistración que respalden los usos previstos de las la prueba, puede resultar apropiada una alternativa.
Los examinandos deben recibir información sobre
interpretaciones de puntajes. Los usuarios de la
cualquier adecuación que puedan tener a dispo-
prueba deben tener presentes las implicaciones de
sición, y sobre los procesos y requisitos (si existe
condiciones de administración con menor con-
alguno) para obtener las adecuaciones necesarias.
trol. Los usuarios de la prueba tienen la respon-
De forma similar, en contextos educativos, el per-
sabilidad de ofrecer apoyo técnico o de otro tipo
sonal de la escuela y los padres o tutores legales de-
para garantizar que las administraciones cumplan
ben recibir información de los requisitos (si existe
estas condiciones en el mayor grado posible. Sin
alguno) para obtener las adecuaciones necesarias
embargo, la tecnología e Internet han hecho po-
para los estudiantes que realizan la prueba.
sible administrar pruebas en muchos contextos,
incluyendo contextos donde las condiciones de
administración no se controlan o supervisan de Estándar 6.3
manera estricta. Quienes permiten deficiencias de
Los cambios o alteraciones en los procedimientos
estandarización son responsables de proporcionar
estandarizados de administración o calificación
la evidencia de que esas deficiencias no han afec-
de pruebas se deben documentar y presentar al
tado al desempeño del examinando o a la calidad
usuario de la prueba.
o comparabilidad de los puntajes obtenidos. La
documentación completa incluirá los informes Comentario: La información sobre la naturaleza
sobre el grado de incumplimiento de las condi- de los cambios en los procedimientos estanda-
ciones estandarizadas de administración. rizados de administración o calificación se debe
129

capítulo 6
mantener en archivos de datos seguros, de mano se supervisan (p. ej., en condiciones tempora-

nera que puedan ser tenidos en cuenta por los les o en Internet) deben cumplir estas condiciones
estudios de investigación o las revisiones de casos estandarizadas de administración; de otro modo,
que se basen en los registros de la prueba. Esto los reportes sobre calificaciones deben indicar que
incluye no solo las adecuaciones o modificacio- no se garantizaron las condiciones estandarizadas.
nes para examinandos específicos, sino también
las alteraciones en el entorno de la prueba que Estándar 6.4
puedan afectar a todos los examinandos de la se-
sión. Es posible que un investigador quiera usar El entorno de la prueba debe disponer de un
únicamente los registros basados en la adminis- grado razonable de comodidad, con mínimas
tración estandarizada. En otros casos, los estudios distracciones para evitar la varianza irrelevante
de investigación podrían ser dependientes de esta de constructo.
información para la formación de grupos de exa-
Comentario: Los desarrolladores de la prueba
minandos. Los usuarios o promotores de la prueba
deben proporcionar información relacionada con
deben establecer políticas que especifiquen quién
las condiciones y el entorno previstos de admi-
protege los archivos de datos, quién puede tener
acceso a esos archivos y, si es necesario, cómo nistración. El ruido, las interrupciones en el área
mantener la confidencialidad de los entrevistados, de la prueba, temperaturas extremas, iluminación
por ejemplo, mediante la supresión de cualquier insuficiente, un espacio de trabajo inadecuado,
dato de identificación. Si se proporciona o no la materiales ilegibles y computadoras averiadas son
información sobre desviaciones respecto de los algunas de las condiciones que se deben evitar en
procedimientos estándar a usuarios de los datos situaciones de evaluación, a menos que la medida
de la prueba depende de consideraciones como, del constructo requiera de tales condiciones. La
por ejemplo, si los usuarios son funcionarios de ubicación donde se realiza la prueba debe ser fá-
admisiones o usuarios de reportes psicológicos cilmente accesible. Las administraciones basadas
individualizados en centros clínicos. Si se llevan en tecnología deben evitar distracciones como,
a cabo tales reportes, puede resultar apropiado in- por ejemplo, fallos de equipos o de la conexión a
Internet, o grandes variaciones en el tiempo que
cluir documentación clara sobre cualquier desvia-
se dedica a presentar los ítems o en el modo de
ción respecto de los procedimientos estándar de
respuesta de la prueba. Las sesiones de las prue-
administración, las deliberaciones sobre los efec-
bas se deben supervisar donde resulte apropiado
tos de estas variaciones administrativas en los re-
para solventar rápidamente las necesidades de
sultados, y tal vez determinadas precauciones. Por
los examinandos y mantener correctamente los
ejemplo, es posible que los usuarios de la prueba
procedimientos administrativos. En general, las
necesitan disponer de información sobre la com-
condiciones de las pruebas deben ser equivalen-
parabilidad de los puntajes cuando se establecen
tes a las que prevalecían cuando se obtuvieron las
modificaciones (véase el capítulo 3, “Imparciali-
normas u otros datos interpretativos.
dad en las pruebas” y el capítulo 9, “Derechos y
responsabilidades de los usuarios de la prueba”).
Si una desviación o cambio en un procedimiento Estándar 6.5
estandarizado de administración de pruebas se
Se debe facilitar a los examinandos las instruc-
considera lo suficientemente importante como
ciones y la práctica apropiadas, y cualquier otro
para afectar negativamente a la validez de la in-
apoyo necesario para reducir la varianza irrele-
terpretación de los puntajes, se deben tomar las
vante de constructo.
medidas correspondientes (por ejemplo, la anu-
lación de los puntajes) o facilitar oportunidades Comentario: Las instrucciones a los examinan-
para una nueva administración bajo las circuns- dos deben indicar con claridad cómo formular
tancias apropiadas. Los entornos de pruebas que las respuestas, excepto cuando esto obstaculice
130

la medida del constructo previsto (p. ej., cuando obtenidos por medios engañosos o fraudulentos.
se evalúa la actitud espontánea de un individuo Tales medidas pueden incluir, cuando sea facti-
a la situación de la prueba). También se deben ble y apropiado, la estipulación de requisitos de
proporcionar instrucciones sobre el uso de cual- identificación, el diseño de gráficos de asientos,
quier equipo o software con el que los examinan- la asignación de asientos a los examinandos, la
dos no estuvieran familiarizados, a menos que la necesidad de espacio apropiado entre asientos y
adaptación a tales herramientas sea parte de la la supervisión continua del proceso de la prueba.
evaluación. Es posible que algunos examinandos Los desarrolladores deben diseñar los materiales
no estén familiarizados con las funciones o inter- y procedimientos de la prueba para minimizar
faces de las pruebas administradas por compu- la posibilidad de trampas. Un cambio local en
tadora y que necesiten cierto aprendizaje sobre la fecha u hora de la prueba puede ofrecer una
el inicio de sesión, la navegación o el acceso a oportunidad de engaño. Se debe capacitar a los
herramientas. Cuando se utilizan equipos, se instructores sobre las precauciones apropiadas
deben proporcionar oportunidades de práctica, para evitar y detectar oportunidades de engaño,
a menos que la evaluación sea el propio uso del por ejemplo, las oportunidades que ofrece la tec-
equipo. Es posible que algunos examinandos ne- nología para que un examinando se comunique
cesiten practicar las respuestas con los medios con un cómplice fuera del área de prueba, o sobre
específicos que demanda la prueba, por ejemplo, tecnología que permite a un examinando copiar
rellenar recuadros de respuestas múltiples o inte- información de la prueba para su divulgación
ractuar con una simulación multimedia. Donde posterior. Los administradores deben seguir las
sea posible, se debe supervisar la práctica de las políticas establecidas para tratar con cualquier
respuestas para confirmar que el examinando res- caso de irregularidades en las pruebas. En gene-
ponde de forma aceptable. Si un examinando no ral, se deben tomar medidas para minimizar la
puede usar el equipo o formular las respuestas, posibilidad de vulnerabilidades en la seguridad
puede ser conveniente considerar modos alterna- de las pruebas y para detectar cualquier punto
tivos de prueba. Además, se debe informar con vulnerable. En las evaluaciones de productos de
claridad a los examinandos sobre la forma en que trabajo (p. ej., porfolios) se deben tomar medi-
su velocidad de trabajo puede afectar a los pun- das para garantizar que el producto represente el
tajes y sobre cómo se tratarán algunas respuestas propio trabajo del examinando y que la cantidad
en el puntaje (por ejemplo, no responder, hacer y la clase de asistencia proporcionada es coherente
suposiciones o responder de forma incorrecta), con la finalidad de la evaluación. Puede ser útil
a menos que tales instrucciones perjudiquen al documentación complementaria, como la fecha
constructo en evaluación. en que se realizó el trabajo. Los programas de
pruebas pueden usar tecnologías durante la ca-
lificación para detectar posibles irregularidades
Estándar 6.6 (p. ej., análisis computarizado de patrones de
borraduras, patrones de respuestas similares para
Se deben tomar las medidas razonables para ga-
varios examinandos, plagio de fuentes online o
rantizar la integridad de los puntajes de las prue-
cambios inusuales en los parámetros de ítems).
bas, eliminando las oportunidades para que los
Los usuarios de tales tecnologías son responsables
examinandos logren puntajes mediante medios
de su precisión y aplicación apropiada. Es posible
engañosos o fraudulentos.
que los desarrolladores y usuarios de las pruebas
Comentario: En los programas de pruebas donde tengan que supervisar la divulgación de los ítems
se considera que los resultados pueden tener im- de la prueba en Internet o desde otras fuentes.
portantes consecuencias, se debe mantener la Los programas de pruebas con consecuencias de
integridad de los puntajes a través de medidas ac- alto riesgo deben tener políticas y procedimien-
tivas que eviten, detecten y corrijan los puntajes tos definidos para detectar y procesar potenciales
131

capítulo 6
irregularidades (incluyendo un proceso mediante resultar apropiado contratar a un tercero inde-

el cual una persona acusada de irregularidades pendiente, a través de un procedimiento seguro
pueda optar por o presentar una apelación) y para estrechamente supervisado, para llevar a cabo una
anular la validez de los puntajes y proporcionar revisión de los materiales relevantes en lugar de
oportunidades de repetición de pruebas. poner las pruebas, manuales o las respuestas de los
examinandos en el registro público. Quienes ten-
gan información confidencial relacionada con las
Estándar 6.7 pruebas, como la información de registro, la pro-
gramación y los pagos, tienen una responsabili-
Los usuarios de la prueba tienen la responsabili-
dad similar de proteger esa información. Quienes
dad de proteger la seguridad de los materiales de
dispongan de los materiales bajo su control deben
la prueba en todo momento.
usar y divulgar esa información únicamente de
Comentario: Quienes tiene los materiales de la acuerdo con las leyes de privacidad vigentes.
prueba bajo su control deben, con la considera-
ción debida a los requisitos éticos y legales, tomar
todas las medidas necesarias para asegurarse de Unidad 2. Calificación de la prueba
que únicamente las personas con necesidades y
cualificaciones legítimas para el acceso a estos ma-
teriales puedan obtener dicho acceso antes de la Estándar 6.8
administración de la prueba, y también después, si Los responsables de la calificación de las prue-
se prevé reutilizar alguna parte de la prueba en un bas deben establecer protocolos de calificación.
momento posterior. Las preocupaciones relativas La calificación de pruebas que involucra juicio
al acceso inapropiado a los materiales de la prueba
humano debe incluir rúbricas, procedimientos y
incluyen la divulgación inadecuada del conte-
criterios de calificación. Cuando la calificación
nido, la adulteración de las respuestas y resultados
de respuestas complejas se lleva a cabo por com-
de la prueba, y la protección de los derechos de
putadora, se debe documentar la precisión de los
privacidad de los examinandos. Los usuarios de
algoritmos y procesos.
la prueba deben compaginar la seguridad de la
prueba con los derechos de todos los examinan- Comentario: Se debe establecer un protocolo de
dos y usuarios de la prueba. Cuando documentos calificación, el cual puede ser tan sencillo como
sensibles de la prueba se encuentren en procesos una clave de respuestas para preguntas de opciones
de litigio en los tribunales o formen parte de pro- múltiples. Para respuestas construidas, se puede
blemas administrativos, es importante identificar suministrar a los evaluadores (humanos o pro-
desde el principio los temas de privacidad y segu- gramas computarizados) respuestas alternativas
ridad y las protecciones necesarias. Las partes se aceptables, listados de rúbricas de calificación, así
deben asegurar que la divulgación o exposición como criterios generales. Una práctica común de
de tales documentos (incluyendo secciones espe- los desarrolladores de pruebas es proporcionar ma-
cíficas de esos documentos que pueden requerir teriales de capacitación sobre calificación y ejem-
redacción) a terceros, expertos y a los propios tri- plos de respuestas de examinandos de cada nivel
bunales/organismos es coherente con condiciones de puntaje. Los materiales de calificación se deben
(reflejadas a menudo en órdenes de protección) revisar periódicamente cuando se usen las pruebas
que no den como resultado la divulgación in- o ítems a lo largo de un periodo de tiempo.
apropiada y no pongan en riesgo la divulgación
justificada más allá del contexto específico en el Estándar 6.9
cual se ha producido el problema. Bajo ciertas
circunstancias, cuando los documentos sensibles Los responsables de la calificación de pruebas
de la prueba se encuentren cuestionados, puede deben establecer y documentar los procesos y
132

criterios de control de calidad. Se debe propor- esto puede conllevar la recalificación de respuestas
cionar una capacitación adecuada. La calidad de previamente puntuadas, así como la corrección de
la calificación se debe supervisar y documentar. la fuente del error. Se deben examinar los errores
Cualquier fuente sistemática de errores de califi- administrativos o mecánicos. Los errores de cali-
cación se debe documentar y corregir. ficación se deben minimizar y, cuando se encuen-
tren, se deben tomar medidas rápidamente para
Comentario: Se deben establecer criterios para minimizar su recurrencia.
una calidad de calificación aceptable. Se deben Habitualmente, los responsables de la califi
establecer procedimientos para calibrar a los eva- cación documentarán los procedimientos seguidos
luadores (humanos o máquinas) antes de la califi- para la calificación, los procedimientos seguidos
cación operativa, y para supervisar su coherencia para el control de calidad de esa calificación,
en la calificación según los estándares estableci- los resultados del control de calidad y cualquier
dos durante la calificación operativa. Cuando la circunstancia inusual. En función del usuario de
calificación se divide entre varios calificadores, la prueba, se puede facilitar esa documentación
los procedimientos para supervisar la precisión y periódicamente o por peticiones razonables. Las
confiabilidad de los evaluadores pueden ser útiles aplicaciones de calificación computarizadas de
como procedimiento de control de calidad. Con texto, voz u otras respuestas construidas deben
frecuencia, la coherencia en la aplicación de los proporcionar documentación similar de la preci-
criterios de calificación se comprueba mediante la sión y confiabilidad, incluyendo comparaciones
recalificación independiente de respuestas aleato- con la calificación humana.
riamente seleccionadas. Las comprobaciones pe- Cuando la calificación se hace localmente y
riódicas de las propiedades estadísticas (p. ej. las requiere del juicio de un evaluador, el usuario de
medias, las desviaciones estándar, el porcentaje la prueba es responsable de facilitar capacitación e
de concordancia con puntajes cuya precisión se instrucción adecuadas a los evaluadores y de exa-
ha determinado anteriormente) de los puntajes minar la concordancia y precisión de los evalua-
asignados por evaluadores individuales durante dores. Cuando se posible, se debe documentar el
una sesión de calificación pueden proporcio- nivel previsto de concordancia y precisión de un
nar información a los evaluadores y ayudarles a evaluador.
mantener los estándares de calificación. Además,
el análisis podría controlar los posibles efectos
sobre la precisión de la calificación de variables Unidad 3. Presentación de informes
como el evaluador, la tarea, el tiempo o el día de
e interpretación
calificación, el instructor de calificación, el em-
parejamiento de evaluadores, etc., para informar
las acciones correctivas o preventivas apropiadas. Estándar 6.10
Cuando se usan los mismos ítems en varias admi-
Cuando se divulgue la información de puntajes de
nistraciones, los programas deben tener estableci-
la prueba, los responsables de los programas de cali-
dos procedimientos para supervisar la coherencia
ficación deben ofrecer interpretaciones apropiadas
de la calificación entre las administraciones (p. ej.,
a la audiencia. Las interpretaciones deben descri-
comparabilidad interanual). Una manera de revi-
bir, en lenguaje sencillo, el ámbito de la prueba, lo
sar la coherencia a lo largo del tiempo es recalificar
que representan los puntajes, la precisión/confiabi-
algunas respuestas de administraciones anteriores.
lidad de los puntajes y su uso previsto.
Una calificación imprecisa o incoherente puede
requerir reentrenamiento, recalificación, la revo- Comentario: Los usuarios de la prueba deben
cación de algunos evaluadores o el reexamen de consultar el material interpretativo preparado por
las rúbricas o programas de calificación. Se deben el desarrollador de la prueba y deben revisar o
corregir los errores de calificación sistemáticos y complementar el material según sea necesario para
133

capítulo 6
presentar los resultados individuales de manera pre- funcionan con calificaciones computarizadas o
cisa y clara a la audiencia objetivo, que puede incluir mediante materiales preparados manualmente.
clientes, representantes legales, medios de comuni- Es posible que las interpretaciones generadas
cación, fuentes de referencia, examinandos, padres automáticamente no tomen en consideración
o profesores. Los reportes y comentarios deben el contexto de circunstancias de los individuos.
estar diseñados para respaldar las interpretaciones Las interpretaciones generadas automática-
válidas y el uso, y para minimizar las consecuen- mente se deben usar con cuidado en contextos
cias negativas potenciales. La precisión del puntaje de diagnóstico, ya que es posible que no tomen
podría representarse mediante márgenes de error o en cuenta otra información relevante sobre el
rangos probables de puntajes que muestren el error examinando individual que proporcione con-
estándar de medida. Los reportes deben incluir las texto a los resultados, por ejemplo, la edad, el
deliberaciones sobre las variaciones administrativas género, el nivel educativo, el empleo anterior,
u observaciones de conducta en contextos clínicos la situación psicológica, el estado de salud, los
que puedan afectar a los resultados e interpreta- antecedentes psicológicos y la sintomatología.
ciones. Los usuarios de la prueba deben evitar las De forma similar, los desarrolladores y usuarios
interpretaciones erróneas o el uso indebido de la de las pruebas con interpretaciones generadas
información de calificación. Aunque los usuarios automáticamente del desempeño académico y
de la prueba son los principales responsables de de prescripciones complementarias de segui-
evitar las interpretaciones erróneas o el uso inde- miento instruccional deben reportar las bases y
bido, los materiales interpretativos preparados por limitaciones de las interpretaciones. Las inter-
el desarrollador o editor de la prueba pueden resol- pretaciones de las pruebas no deben implicar la
ver los usos indebidos o errores de interpretación existencia de evidencia empírica de una relación
comunes. Para conseguir esto, los desarrolladores entre los resultados de pruebas específicas, in-
de reportes y materiales interpretativos pueden tervenciones prescritas y conclusiones deseadas,
llevar a cabo investigaciones para verificar que los a menos que la evidencia empírica esté disponi-
reportes y materiales pueden interpretarse como se ble para poblaciones similares a las representati-
pretende (p. ej., grupos temáticos con usuarios fi- vas del examinando.
nales representativos de los reportes). El desarrolla-
dor debe informar a los usuarios de la prueba sobre
los cambios en la prueba a lo largo del tiempo que Estándar 6.12
puedan afectar a la interpretación del puntaje, por
Cuando se obtiene información de nivel de
ejemplo, los cambios en las normas, los modelos
grupo mediante la agregación de los resultados
de contenido de la prueba o los significados de los
de pruebas parciales realizadas por individuos,
puntajes de escala.
se debe reportar la evidencia de validación y con-
fiabilidad/precisión del nivel de agregación en el
Estándar 6.11 cual se presentan los resultados. No se deben re-
portar los puntajes por individuos sin la eviden-
Cuando se reportan interpretaciones de proto- cia apropiada que respalde las interpretaciones
colos de respuestas de pruebas o de desempeño para los usos previstos.
en pruebas generados automáticamente, las
Comentario: Con frecuencia, las interpretaciones
fuentes, justificaciones y bases empíricas de es-
a gran escala logran eficiencia mediante un “mues-
tas interpretaciones deben estar disponibles y se
treo de matriz” del contenido del dominio, para el
deben describir sus limitaciones.
cual se hacen diferentes preguntas a diferentes exa-
Comentario: En ocasiones, las interpretaciones minandos. De este modo, la evaluación requiere
de resultados de pruebas se generan automática- menos tiempo para cada examinando, en tanto que
mente, ya sea por programas computarizados que la agregación de resultados individuales confiere
134

cobertura de dominio que puede resultar ade- Los usuarios de las pruebas deben desarrollar una
cuada para interpretaciones relevantes en un nivel política de gestión de errores materiales en los
de grupo o programa, por ejemplo, para escuelas puntajes de pruebas y deben documentar las ac-
o niveles de grado en una localidad o en áreas te- ciones realizadas en el caso de errores materiales
máticas específicas. No obstante, debido a que se reales o supuestos.
solo administra una prueba incompleta al indivi-
duo, los puntajes individuales tendrían un signifi-
cado limitado, si lo tienen. Estándar 6.14
Las organizaciones que mantienen información
Estándar 6.13 de puntajes con identificación personal deben
desarrollar un conjunto claro de directrices so-
Cuando se encuentra un error material en los bre la duración de la conservación de los regis-
puntajes de las pruebas u otra información im- tros de los individuos y sobre la disponibilidad
portante publicada por una organización de y uso a lo largo del tiempo de tales datos para
evaluación u otra institución, se debe distribuir investigación u otros fines. La política debe estar
esta información y un reporte de calificación co- documentada y disponible para el examinando.
rregida tan pronto como sea posible a todos los Los usuarios de la prueba deben mantener una
destinatarios conocidos quienes, de lo contrario, seguridad de datos apropiada, que debe incluir
podrían usar los puntajes erróneos como base protecciones administrativas, técnicas y físicas.
para la toma de decisiones. El reporte corregido
Comentario: En algunos casos, los puntajes de las
se debe etiquetar como tal. Se deben documentar
pruebas quedan obsoletos a lo largo del tiempo y ya
las acciones realizadas para corregir los reportes.
no reflejan el estado actual del examinando. En ge-
Los motivos del reporte de calificación corregida
neral, los puntajes desactualizados no se deben usar
deben presentarse claramente a los destinatarios
ni estar disponibles, excepto para fines de investiga-
del reporte.
ción. En otros casos, los puntajes obtenidos en años
Comentario: Un error material es un error que anteriores pueden ser útiles, como en las evaluacio-
puede cambiar la interpretación del puntaje de la nes longitudinales o en el seguimiento del deterioro
prueba y suponer una diferencia importante. Un de una función o cognición. El factor clave es el uso
ejemplo es un puntaje de prueba erróneo (p. ej., válido de la información. Las organizaciones e in-
calculado de manera incorrecta u obtenido de dividuos que mantienen información de puntajes
forma fraudulenta) que afectaría a una decisión con identificación personal deben tener en cuenta
importante sobre el examinando, por ejemplo, y cumplir los requisitos legales y profesionales. Es
la decisión de otorgar una acreditación o la con- posible que se solicite a las organizaciones e indi-
cesión de un título de secundaria. Se excluirían viduos que mantienen puntajes de pruebas sobre
los errores tipográficos. La pertinencia temporal individuos que proporcionen los datos a investiga-
es crucial en las decisiones que se toman poco dores u otros usuarios terceros. Cuando la divulga-
después de recibir los puntajes de las pruebas. ción de los datos se considera apropiada y no esté
Cuando los resultados de las pruebas se han usado prohibida por estatutos o normativas, el usuario de
para informar decisiones de alto riesgo, es posible la prueba debe proteger la confidencialidad de los
que los usuarios de la prueba tengan que llevar examinandos a través de políticas adecuadas, por
a cabo acciones correctivas para rectificar las cir- ejemplo, suprimiendo cualquier dato de identi-
cunstancias afectadas por los puntajes erróneos, ficación o mediante acuerdos de no revelación y
además de publicar los reportes corregidos. En de- confidencialidad de los datos. Las organizaciones
terminados trabajos u otros contextos, es posible e individuos que mantienen o usan información
que no sea factible o no se puedan llevar a cabo confidencial sobre los examinandos o sus puntajes
acciones correctivas y de presentación de reportes. deben tener e implementar una política apropiada
135

capítulo 6
para mantener la seguridad e integridad de los da- autorizadas se debe hacer de manera que se pro-
tos, incluyendo la protección de modificaciones teja la naturaleza confidencial de los puntajes y
accidentales o deliberadas, así como la prevención la información complementaria pertinente.
ante pérdidas o destrucción no autorizada. En al-
Comentario: Siempre hace falta poner mucha
gunos casos, es posible que las organizaciones de-
atención cuando se comunican los puntajes de
ban obtener el consentimiento de los examinandos
examinandos identificados, independientemente
para usar o revelar los registros. Se deben establecer
del medio de comunicación. Puede ser necesaria
protocolos apropiados y una seguridad adecuada
una atención similar para proteger la confiden-
cuando los datos confidenciales de una prueba for-
cialidad de la información complementaria, por
man parte de un registro de mayor tamaño (p. ej.,
ejemplo, información de identificación personal
registros médicos electrónicos) o cuando se combi-
sobre el estado de discapacidad de estudiantes o
nan en un almacén de datos. Si los registros se van a
puntajes de pruebas clínicas que comparten los
comunicar para evaluaciones clínicas o forenses, se
médicos. Se deben tomar las precauciones apro-
debe tener cuidado en comunicarlos a las personas
piadas con respecto a la información confidencial
debidamente autorizadas, con las autorizaciones de
en las comunicaciones presenciales, así como por
publicación firmadas por el examinando o la auto-
teléfono, fax y otras formas de comunicación es-
ridad legal pertinente.
crita. De forma similar, la transmisión de datos
de las pruebas a través de medios electrónicos y
Estándar 6.15 la transmisión y almacenamiento en redes com-
putarizadas (incluyendo la transmisión y alma-
Cuando se retienen datos individuales de las
cenamiento inalámbricos o el procesamiento en
pruebas, se debe conservar de alguna forma
Internet) requieren precauciones para mantener
tanto el protocolo de la prueba como cualquier
la confidencialidad y seguridad apropiadas. Tam-
reporte escrito.
bién se debe mantener la integridad de los datos
Comentario: Es posible que el protocolo sea ne- impidiendo la modificación inapropiada de los
cesario para responder una potencial recusación resultados durante tales transmisiones. Los usua-
de un examinando o para facilitar la interpreta- rios de las pruebas son responsables de conocer
ción en un momento posterior. Normalmente, el y adherirse a las obligaciones legales vigentes en
protocolo debería adjuntar los materiales y pun- materia de gestión, transmisión, uso y prácticas
tajes de la prueba. La retención de más registros de retención de datos, incluyendo la recopilación,
detallados de respuestas dependería de las cir- manipulación, almacenamiento y disposición.
cunstancias y debe estar incluida en una política Los usuarios de las pruebas deben establecer y se-
de retención. El mantenimiento de los registros guir las políticas de seguridad apropiadas relacio-
debe estar sujeto a los requisitos legales y profe- nadas con los datos confidenciales de las pruebas
sionales. La política de publicación de cualquier y otra información de evaluación. La publicación
información de la prueba para fines diferentes a la de datos brutos, pruebas o protocolos clínicos a
investigación se trata en el capítulo 9, “Derechos terceros deben seguir las leyes, normativas y di-
y responsabilidades de los usuarios de la prueba”. rectrices proporcionadas por las organizaciones
profesionales y deben tener en cuenta el impacto
Estándar 6.16 de la disponibilidad de las pruebas en dominios
públicos (p. ej., en procesos judiciales) y las posi-
La transmisión de puntajes de pruebas con iden- bilidades de infracción de los derechos de propie-
tificación personal a individuos o instituciones dad intelectual.
136

7. D
OCUMENTACIÓN DE RESPALDO
DE LAS PRUEBAS
Antecedentes
Este capítulo incluye los estándares generales para Independientemente de quién desarrolle la
la preparación y publicación de la documentación prueba (p. ej. el editor de la prueba, un consejo
de las pruebas por parte de desarrolladores, edi- de certificación o licenciamiento, un empleador o
tores y otros proveedores de pruebas. Otros capí- una institución educativa) o del número de usua-
tulos contienen los estándares específicos que se rios, el proceso de desarrollo debe incluir una do-
usan en la preparación de los materiales a incluir cumentación exhaustiva, oportuna y útil. Aunque
en la documentación de una prueba. Además, es es importante una documentación correcta de la
posible que los usuarios de la prueba tengan sus evidencia que respalda la interpretación de los
propios requisitos de documentación. Los de- puntajes para los usos propuestos de una prueba,
rechos y responsabilidades de los usuarios de la las deficiencias en documentar formalmente con
prueba se tratan en el capítulo 9. antelación tales evidencias no se traducen auto-
Los documentos de respaldo de las pruebas máticamente en la carencia de validez del uso o
son el medio principal que los desarrolladores, la interpretación correspondientes de la prueba.
editores y otros proveedores de pruebas utilizan Por ejemplo, considere una prueba de selección
para comunicarse con los usuarios de la prueba. de empleo no publicada, desarrollada por un
Estos documentos se evalúan basándose en su in- psicólogo únicamente para uso interno dentro
tegridad, precisión, actualidad y claridad, y deben de una organización donde existe una necesidad
estar disponibles para los individuos cualificados inmediata de cubrir las vacantes. Es posible que
cuando proceda. Habitualmente, la documen- la prueba se ponga en uso operativo después de
tación de una prueba específica la naturaleza de que se haya recolectado la evidencia de validación
la prueba; los usos para los que se ha desarro- necesaria, pero antes de completar la documenta-
llado; los procesos incluidos en el desarrollo de ción formal de la evidencia. De forma similar, es
la prueba; información técnica relacionada con el posible que una prueba usada para la certificación
puntaje, la interpretación y con las evidencias de deba revisarse con frecuencia, en cuyo caso se de-
validez, imparcialidad y confiabilidad/precisión; ben generar periódicamente reportes técnicos que
información sobre el escalamiento, la normaliza- describan el desarrollo de la prueba, así como la
ción y el establecimiento de estándares si resulta información relativa a los ítems, el examen y el
apropiado para el instrumento; y las directrices desempeño de los candidatos, pero no necesaria-
para la administración, presentación de reportes mente antes de cada examen.
e interpretación de la prueba. El objetivo de la La documentación de la prueba es eficaz si co-
documentación es proporcionar a los usuarios de munica información a los grupos de usuarios en
la prueba la información necesaria para evaluar un modo que resulte apropiado para la audiencia
la naturaleza y calidad de la prueba, los punta- específica. Para adaptarse al nivel de capacitación
jes resultantes y las interpretaciones basadas en de quienes usan las pruebas, se pueden redactar
los puntajes de la prueba. La información puede documentos separados o secciones de documen-
reportarse en documentos como los manuales de tos para categorías identificables de usuarios
la prueba, manuales técnicos, guías de usuario, como médicos, consultores, administradores,
reportes de investigación, conjuntos de muestras, investigadores, educadores y, en ocasiones, exa-
kits de examen, instrucciones para los administra- minandos. Por ejemplo, el usuario de una prueba
dores y evaluadores de la prueba, o materiales de que administre las pruebas e interprete los resul-
vista previa para los examinandos. tados necesita directrices para hacer estas tareas.
137

capítulo 7
Los responsables de seleccionar las pruebas ne- Los documentos de la prueba deben incluir
cesitan tener la capacidad de juzgar la idoneidad suficiente información para permitir que los
técnica de las pruebas y, por lo tanto, requieren usuarios y revisores de la prueba determinen la
una combinación de manuales técnicos, guías pertinencia de la prueba para los usos previstos.
de usuario, manuales de la prueba, complemen- Se deben citar otros materiales que proporcionen
tos de la prueba, kits de examen y conjuntos de más detalles sobre la investigación por parte del
muestras. Normalmente, estos documentos de editor o de investigadores independientes (p. ej.
respaldo se suministran a los usuarios potenciales las muestras en que se basa la investigación y
o a revisores de la prueba, con suficiente infor- los datos sumariales) y el usuario o revisor de la
mación para permitirles evaluar la pertinencia e prueba debe poder conseguirlos fácilmente. Este
idoneidad técnica de una prueba. Los tipos de material complementario se puede suministrar en
información presentados en estos documentos cualquier tipo de modalidad de publicación o in-
incluyen, por lo general, una descripción de la édita, ya sea en formato papel o electrónico.
población de examinandos objetivo, el propósito Además de la documentación técnica, en al-
declarado de la prueba, las especificaciones de la gunos contextos se requieren materiales descrip-
prueba, los formatos de ítems, los procedimientos tivos para informar a los examinandos y a otras
de administración y calificación, los protocolos partes interesadas de la naturaleza y contenido de
de seguridad de la prueba, los puntajes de corte la prueba. La cantidad y el tipo de información
u otros estándares, y una descripción del proceso suministrada dependerán de la prueba y las aplica-
de desarrollo de la prueba. Habitualmente, tam- ciones específicas. Por ejemplo, en situaciones que
bién se suministran resúmenes de datos técnicos requieren consentimiento informado, la informa-
como, por ejemplo, índices psicométricos de los ción debe ser suficiente para que los examinandos
ítems, evidencias de validez y confiabilidad/preci- (o sus representantes) puedan tener un criterio só-
sión, datos normativos, y puntajes de corte o re- lido sobre la prueba. Esta información debe for-
glas para la combinación de puntajes, incluyendo mularse en lenguaje no técnico y debe contener
las reglas para las interpretaciones generadas por información que sea coherente con el uso de los
computadora. puntajes de la prueba, y debe ser suficiente para
Una característica esencial de la documenta- ayudar a que el usuario tome una decisión infor-
ción para cualquier prueba son las deliberaciones mada. Los materiales pueden incluir una descrip-
de los usos comunes apropiados o inapropiados ción general y la justificación de la prueba, los
de los puntajes y un resumen de la evidencia que usuarios previstos de los resultados de la prueba,
respalda las conclusiones. La inclusión de ejem- ítems de muestra o pruebas con muestras com-
plos de interpretaciones de puntajes coherentes pletas, e información sobre las condiciones de ad-
con las aplicaciones previstas por los desarrollado- ministración, confidencialidad y retención de los
res de la prueba resulta útil para que los usuarios resultados. Sin embargo, para algunas aplicacio-
puedan extraer inferencias precisas sobre la base nes, el nombre y la finalidad verdaderos se ocultan
de los puntajes. Cuando sea posible, los ejemplos o encubren deliberadamente para evitar la simula-
de usos inapropiados de la prueba o de interpreta- ción o el sesgo de las respuestas. En estos casos, los
ciones inadecuadas de los puntajes resultarán úti- examinandos podrían sentirse motivados a revelar
les como salvaguarda ante usos indebidos de las más o menos de una característica que se pretende
pruebas o de sus puntajes. Cuando sea factible, se evaluar. El ocultamiento o encubrimiento de la
deben describir las consecuencias negativas comu- verdadera naturaleza o finalidad de una prueba
nes, no intencionadas, del uso de las pruebas (in- son aceptables siempre y cuando las acciones que
cluyendo las oportunidades perdidas) y se deben comportan sean coherentes con los principios le-
ofrecer sugerencias para evitar tales consecuencias. gales y los estándares éticos.
138

DOCUMENTACIÓN DE RESPALDO DE LAS PRUEBAS
Estándares para la documentación de respaldo de las pruebas

Los estándares de este capítulo empiezan con un Los documentos de la prueba deben estar com-
estándar general (con el número 7.0), diseñado pletos, ser precisos y estar claramente redactados,
para comunicar el propósito central o el enfoque de manera que la audiencia prevista pueda enten-
principal del capítulo. El estándar general tam- der fácilmente el contenido. La documentación de
bién se puede ver como el principio rector del la prueba se debe suministrar en un formato que
capítulo y se aplica a todas las pruebas y a todos sea accesible para la población a la que se dirige.
los usuarios de la prueba. Todos los estándares En las pruebas usadas para fines de rendición de
posteriores se han divididos en cuatro unidades cuentas educativa, la documentación debe estar
temáticas, etiquetadas de la siguiente manera: disponible públicamente en un formato y lenguaje
accesible a los usuarios potenciales, incluyendo el
1. Contenido de documentos de la prueba: Uso personal de la escuela, los padres, los estudiantes
apropiado de todos los subgrupos relevantes de examinandos
2. Contenido de documentos de la prueba: previstos y los miembros de la comunidad (p. ej.,
Desarrollo de la prueba a través de Internet). La documentación de la
3. Contenido de documentos de la prueba: prueba en contextos educativos también podría
Administración y calificación de la prueba incluir orientación sobre la forma en que los usua-
4. Cumplimiento de los plazos de entrega de los rios pueden usar los materiales y resultados de la
documentos de la prueba prueba para mejorar su instrucción.
Los documentos de la prueba deben propor-
cionar los detalles suficientes para permitir que
Estándar 7.0 los revisores e investigadores evalúen los análisis
La información relacionada con las pruebas se relevantes publicados en el manual o en el reporte
debe documentar claramente, de manera que técnico de la prueba. Por ejemplo, reportar matri-
quienes usen las pruebas puedan tomar decisiones ces de correlación en el documento de la prueba
informadas respecto de qué prueba usar para un puede permitir que el usuario de la prueba juz-
propósito concreto, cómo administrar la prueba gue los datos en los que se basan las decisiones
seleccionada y cómo interpretar los puntajes. y conclusiones. De forma similar, la descripción
detallada de la muestra y la naturaleza del aná-
Comentario: Los desarrolladores y editores de la lisis de factores que se llevó a cabo podría per-
prueba deben proporcionar información general mitir al usuario de la prueba replicar los estudios
que ayude a los usuarios de la prueba y a los in- reportados.
vestigadores a determinar la pertinencia de un uso La documentación de la prueba también
previsto de la prueba en un contexto específico. ayudará a quienes se vean afectados por las in-
Cuando los desarrolladores y editores tienen co- terpretaciones de los puntajes para decidir su
nocimiento de un uso específico que no se puede participación en el programa de pruebas o cómo
justificar, deben indicar este hecho con claridad. participar si la participación no es opcional.
También se debe proporcionar información gene-
ral para los examinandos y representantes legales
que deben dar su consentimiento antes de la ad- Unidad 1. Contenido de documentos
ministración de la prueba (véase el estándar 8.4 de la prueba: Uso apropiado
relativo al consentimiento informado). También
es posible que los administradores, e incluso el Estándar 7.1
público general, necesiten información general
sobre la prueba y sus resultados, de forma que Se debe documentar la justificación de una
puedan interpretar correctamente los mismos. prueba, los usos recomendados de una prueba,
139

capítulo 7
el respaldo de dichos usos y la información que Estándar 7.3

apoya la interpretación de los puntajes. Cuando
se puede anticipar razonablemente el uso inade- Cuando la información está disponible y se com-
cuado de una prueba, se deben especificar las parte de manera apropiada, los documentos de
precauciones contra tales usos. la prueba deben mencionar un conjunto repre-
sentativo de los estudios concernientes a los usos
Comentario: Los editores de la prueba deben ha- específicos y generales de la prueba.
cer todo lo necesario para prevenir a los usuarios
de la prueba contra los usos inadecuados. Sin em- Comentario: Si un estudio citado por el editor de
bargo, los editores no pueden anticipar todos los la prueba no ha sido publicado, el editor debe po-
usos inadecuados. Si los editores tienen conoci- ner a disposición resúmenes a petición del usuario
miento del uso inadecuado persistente por parte de la prueba y de los investigadores.
de un usuario de la prueba, es posible que resulten
apropiadas acciones educativas adicionales, inclu-
yendo facilitar información sobre los perjuicios Unidad 2. Contenido de documentos
potenciales para el individuo, la organización o de la prueba: Desarrollo de la prueba
la sociedad.
Estándar 7.4
Estándar 7.2
La documentación de la prueba debe resumir
Se debe documentar la población a la que se los procedimientos de desarrollo de la prueba,
destina una prueba y las especificaciones de la incluyendo descripciones y los resultados de los
prueba. Si se proporcionan datos normativos, se análisis estadísticos que se usaron en el desarro-
deben explicar los procedimientos para recopilar llo de la prueba, evidencia de la confiabilidad/
los datos, se debe describir la población de nor- precisión de los puntajes y la validez de sus in-
malización en términos de variables demográfi- terpretaciones recomendadas, y los métodos
cas relevantes y se debe informar sobre los años para establecer los puntajes de corte para el
en que se recopilaron los datos. desempeño.
Comentario: En los documentos de una prueba, Comentario: Cuando corresponda, los documen-
se deben definir claramente las limitaciones cono- tos de la prueba deben incluir descripciones de los
cidas de la prueba para determinadas poblaciones. procedimientos usados para desarrollar los ítems
Por ejemplo, es posible que una prueba utilizada y crear los conjuntos de ítems, para crear las prue-
para evaluar los progresos no sea apropiada para bas o los formularios de las pruebas, para esta-
la selección de empleados en el comercio o la blecer escalas para los puntajes reportados y para
industria. determinar los estándares y reglas para los pun-
El usuario puede usar otro tipo de documen- tajes de corte o la combinación de puntajes. Los
tación para identificar la información normativa documentos de la prueba también deben propor-
apropiada que se debe usar para una interpretación cionar información que permita al usuario evaluar
apropiada de los puntajes. Por ejemplo, el mo- el sesgo o la imparcialidad para todos los grupos
mento del año en que se recopilaron los datos nor- relevantes de examinandos previstos cuando sea
mativos puede ser relevante en algunos contextos relevante y factible llevar a cabo tales estudios.
educativos. En contextos organizativos, la infor- Además, se deben proporcionar otros datos esta-
mación sobre el contexto en que se reunieron los dísticos cuando sea apropiado, por ejemplo, in-
datos normativos (p. ej., en estudios concurrentes formación de nivel de ítem, información sobre los
o predictivos; para fines de desarrollo o selección) efectos de varios puntajes de corte (p. ej., número
también puede repercutir en lo que respecta a las de candidatos que aprueban puntajes de corte
normas apropiadas para el uso operativo. potenciales, nivel de impacto adverso en puntajes
140

de corte potenciales), información sobre puntajes resultados y, por lo tanto, se debe documentar.
brutos y puntajes repetidos, datos normativos, los También se debe documentar cualquier cambio
errores estándar de medida y una descripción de en las condiciones estandarizas de las pruebas,
los procedimientos usados para equiparar diversos por ejemplo, las adecuaciones y modificaciones
formularios (véase los capítulos 3 y 4 para obtener hechas en las pruebas o en la administración de
más información sobre evaluación de la imparcia- la prueba. Cuando se facilite la documentación
lidad y sobre los procedimientos y estadísticas de requerida por este estándar, los desarrolladores y
uso común en el desarrollo de pruebas). usuarios deben prestar atención al cumplimiento
de los requisitos legales vigentes y de los estánda-
res profesionales relacionados con la privacidad y
Estándar 7.5 seguridad de los datos.
Los documentos de la prueba deben registrar
las características relevantes de los individuos o Estándar 7.6
grupos de individuos que participan en los tra-
Cuando una prueba está disponible en más de
bajos de recolección de datos asociados con el
un idioma, la documentación de la prueba debe
desarrollo o la validación de la prueba (p. ej., in-
proporcionar información sobre los procedi-
formación demográfica, situación laboral, nivel
mientos que se emplearon para traducir y adap-
de grado), la naturaleza de los datos aportados
tar la prueba. Cuando sea factible, también se
(p. ej., datos de pronóstico, datos de criterio),
deberá suministrar información relacionada con
la naturaleza de los juicios hechos por expertos
la evidencia de confiabilidad/precisión y validez.
en la materia (p. ej., vinculaciones de validación
de contenido), las instrucciones que se propor- Comentario: Además de proporcionar informa-
cionaron a los participantes en los trabajos de ción sobre los procedimientos de traducción y
recolección de datos para tareas específicas, y las adaptación, los documentos de la prueba deben
condiciones bajo las cuales se recolectaron los incluir aspectos demográficos de los traductores
datos del estudio de validez. y muestras de examinandos usadas en el proceso
de adaptación, así como información sobre los
Comentario: Los desarrolladores de la prueba
problemas de interpretación de puntajes en cada
deben describir las características relevantes de
uno de los idiomas a los que la prueba se haya
quienes participan en las diferentes fases del pro-
traducido y adaptado. Cuando sea factible, se de-
ceso de desarrollo de la prueba y qué tareas realizó
berá proporcionar la evidencia de confiabilidad/
cada persona o grupo. Por ejemplo, se debe docu-
precisión, validez y comparabilidad de los punta-
mentar quiénes son los participantes que deter-
jes traducidos y adaptados (véase el estándar 3.14,
minaron los puntajes de corte y sus experiencias
en el capítulo 3, para más información sobre las
pertinentes. En función del uso de los resultados
traducciones).
de la prueba, las características relevantes de los
participantes pueden incluir la raza/origen ét-
nico, género, edad, situación laboral, educación, Unidad 3. Contenido de documentos
situación de discapacidad e idioma principal. Las
descripciones de las tareas y las instrucciones es- de la prueba: Administración y
pecíficas proporcionadas a los participantes pue- calificación de la prueba
den ser útiles para que los futuros usuarios de
la prueba seleccionen, y posteriormente usen, la Estándar 7.7
prueba de manera apropiada. Las condiciones
de las pruebas (por ejemplo, la extensión de la Los documentos de la prueba deben especificar
monitorización en el estudio de validez) pueden las cualificaciones de usuario que se requieren
tener implicaciones para la generalización de los para administrar y calificar una prueba, así como
141

capítulo 7
las cualificaciones de usuario necesarias para in- sobre la forma de obtener una prueba calificada.
terpretar con precisión los puntajes. Finalmente, la documentación de administración
de una prueba debe incluir instrucciones para
Comentario: Las declaraciones de las cualificacio-
tratar con las irregularidades en la administra-
nes de usuario deben especificar la capacitación,
ción de la prueba y orientación sobre la forma de
la certificación, las competencias y la experiencia
documentarlas.
necesarias para permitir el acceso a una prueba o a
Si una prueba está diseñada de manera que
los puntajes obtenidos con la misma. Cuando las
se puede usar más de un método para la admi-
cualificaciones se expresan en términos de cono-
nistración o para el registro de las respuestas (por
cimientos, competencias, capacidades y otras ca-
ejemplo, dar las respuestas en un cuadernillo, en
racterísticas requeridas para administrar, calificar
una hoja separada o mediante computadora), el
e interpretar una prueba, la documentación de la
manual debe documentar claramente el grado
prueba debe definir claramente los requisitos, de
en que los puntajes que proceden de la aplica-
manera que el usuario pueda evaluar adecuada-
ción de estos métodos son intercambiables. Si
mente la competencia de los administradores.
los puntajes no son intercambiables, se debe re-
portar este hecho y se proporcionará orientación
Estándar 7.8 sobre la comparabilidad de los puntajes obteni-
dos bajo las diversas condiciones o métodos de
La documentación de la prueba debe incluir ins-
administración.
trucciones detalladas sobre la administración y
calificación de una prueba.
Comentario: Independientemente de que vaya Estándar 7.9
a ser administrada en formato de papel y lápiz,
Si la seguridad de la prueba es crítica para la in-
formato computarizado u oralmente, o de que la
terpretación de los puntajes, la documentación
prueba se base en el desempeño, la documenta-
debe explicar los pasos necesarios para proteger
ción de la prueba debe incluir las instrucciones
los materiales de la prueba y para evitar el inter-
de administración. Cuando proceda, estas ins-
cambio inapropiado de información durante la
trucciones deberán incluir todos los factores re-
sesión de administración.
lacionados con la administración de la prueba,
incluyendo las cualificaciones, competencias y Comentario: Cuando la interpretación correcta
capacitación de los administradores de la prueba; de los puntajes asume que el examinando no se
los equipos necesarios; los protocolos para los ad- ha visto expuesto al contenido de la prueba ni
ministradores; las instrucciones de cronometraje ha recibido asistencia ilícita, las instrucciones
y los procedimientos para la implementación de deben incluir procedimientos para garantizar la
las adecuaciones de la prueba. Cuando estén dis- seguridad del proceso de evaluación y de todos
ponibles, la documentación de la prueba incluirá los materiales de la prueba en todo momento.
estimaciones del tiempo requerido para adminis- Los procedimientos de seguridad pueden in-
trar la prueba a poblaciones clínicas, poblaciones cluir orientación para el almacenamiento y la
con discapacidades u otras poblaciones especiales distribución de los materiales de la prueba, así
con las que se prevé usar la prueba, basándose en como instrucciones para mantener un proceso
los datos obtenidos de estos grupos durante la de evaluación seguro (por ejemplo, la identifica-
normalización de la prueba. Además, los usuarios ción de los examinandos y la colocación de estos
de la prueba necesitan instrucciones sobre cómo para evitar el intercambio de información). Los
calificar una prueba y qué puntajes de corte usar usuarios de la prueba deben ser conscientes de
(o si se deben usar puntajes de corte) en la inter- que las leyes, normativas y políticas federales y
pretación de puntajes. Si el usuario de la prueba estatales pueden afectar a los procedimientos de
no califica la prueba, se deben dar instrucciones seguridad.
142

En muchas situaciones, también se debe man- prueba y representar a miembros de los subgru-
tener la seguridad de los puntajes de las pruebas. pos para los que la prueba resulte pertinente. Para
Por ejemplo, en las pruebas de ascenso de algunos ilustrar la diversidad de los posibles examinandos,
contextos laborales, solo el candidato y el perso- los estudios de caso pueden citar ejemplos donde
nal de contratación tienen autorización para ver participen mujeres y hombres de edades diversas,
los puntajes, y el supervisor actual del candidato individuos que difieren en su orientación sexual,
tiene expresamente prohibido hacerlo. La docu- personas que representen varios grupos raciales o
mentación puede incluir información sobre el étnicos, e individuos con discapacidades. Los de-
almacenamiento de los puntajes y sobre las perso- sarrolladores de la prueba pueden tal vez informar
nas autorizadas para verlos. a los usuarios de que la inclusión de tales ejem-
plos tiene como fin ilustrar la diversidad de los
Estándar 7.10 examinandos potenciales y no promover la inter-
pretación de los puntajes de manera que pueda
Las pruebas diseñadas para ser calificadas e entrar en conflicto con requisitos legales como la
interpretadas por examinandos deben incluir normalización del origen étnico o el género en
instrucciones de calificación y materiales inter- contextos de empleo.
pretativos escritos en un idioma que los exami-
nandos comprendan y que les ayuden a entender
los puntajes de las pruebas. Estándar 7.12
Comentario: Si una prueba está diseñada para ser Cuando los puntajes de las pruebas se usan para
calificada por examinandos o para que sus pun- hacer predicciones sobre el comportamiento fu-
tajes sean interpretados por los mismos, el editor turo, se debe proporcionar al usuario de la prueba
y desarrollador de la prueba deberá desarrollar la evidencia que respalda esas predicciones.
procedimientos que faciliten la calificación e in-
Comentario: Se debe informar al usuario de la
terpretación precisas. El material interpretativo
prueba sobre cualquier puntaje de corte o regla
puede incluir información como, por ejemplo,
para la combinación de puntajes brutos o repor-
el constructo que se ha medido, los resultados
tados que sean necesarios para entender las inter-
del examinando y el grupo de comparación. El
pretaciones de los puntajes. Se debe proporcionar
idioma apropiado para los procedimientos de
una descripción de los grupos de jueces que esta-
calificación y los materiales interpretativos es el
blecen los puntajes de corte y de los métodos usa-
que satisfaga las necesidades específicas del exami-
dos para obtener los puntajes de corte. Cuando
nando. Por lo tanto, es posible que los puntajes y
se requiere la retención de los puntajes de corte o
materiales interpretativos tengan que proporcio-
de las reglas para combinar puntajes por motivos
narse en el idioma nativo del examinando para
de seguridad o propiedad, los propietarios de la
que puedan ser comprendidos.
propiedad intelectual serán responsables de do-
cumentar la evidencia que respalda la validez de
Estándar 7.11 las interpretaciones para los usos previstos. Estas
evidencias se facilitarán, por ejemplo, mediante
Los materiales interpretativos para las pruebas
el reporte de los hallazgos de una revisión inde-
que incluyen estudios de caso deben proporcio-
pendiente de los algoritmos por profesionales
nar ejemplos que ilustren la diversidad de los
cualificados. Cuando se proporcionen interpreta-
posibles examinandos.
ciones de los puntajes, incluyendo interpretacio-
Comentario: Cuando los estudios de caso pue- nes generadas por computadora, se facilitará un
dan ayudar al usuario en la interpretación de los resumen de la evidencia que respalda las interpre-
puntajes y perfiles de la prueba, se deben incluir taciones, así como las reglas y directrices usadas
los estudios de caso en la documentación de la en la formulación de las interpretaciones.
143

capítulo 7
Unidad 4. Cumplimiento de los Estándar 7.14

plazos de entrega de los documentos Cuando se hagan cambios importantes en una
de la prueba prueba, la documentación de la prueba se debe
enmendar, complementar o revisar para mante-
Estándar 7.13 ner actualizada la información para los usuarios
y para proporcionar información o precauciones
Los documentos de respaldo (p. ej., manuales de adicionales útiles.
la prueba, manuales técnicos, guías de usuario y
Comentario: Los documentos de respaldo deben
material complementario) deben estar disponi-
indicar claramente la fecha de su publicación, así
bles para las personas apropiadas en el momento
como el nombre o versión de la prueba para la
adecuado.
que son relevantes. Cuando se realizan cambios
Comentario: Los documentos de respaldo deben importantes en los ítems o la calificación, la docu-
suministrarse de forma oportuna. Algunos docu- mentación de la prueba debe incluir información
mentos (p. ej., instrucciones de administración, sobre el grado en que los antiguos y nuevos pun-
guías de usuario, pruebas o ítems de ejemplo) deben tajes pueden ser intercambiables.
estar disponibles antes de la primera administración En ocasiones es necesario cambiar una
de la prueba. Otros documentos (p. ej., manuales prueba o los procedimientos de una prueba para
técnicos que contienen información basada en da- eliminar la varianza irrelevante de constructo
tos de la primera administración) no se pueden su- que pueda presentarse debido a características
ministrar antes de esa administración; no obstante, de un individuo que no están relacionadas con
estos documentos deberán crearse rápidamente. el constructo que se mide (p. ej., en pruebas
El desarrollador o editor de la prueba deberá con individuos con discapacidades). Cuando se
ponderar cuidadosamente qué información se altera una prueba o los procedimientos de una
debe incluir en las primeras ediciones del ma- prueba, la documentación deberá incluir las de-
nual de la prueba, el manual técnico o la guía de liberaciones sobre el modo en que la alteración
usuario, y qué información puede suministrarse puede afectar a la validez y comparabilidad de
de forma complementaria. Para pruebas inéditas los puntajes de la prueba, y se deben proporcio-
de bajo volumen, la documentación puede ser re- nar evidencias para demostrar el efecto de la al-
lativamente breve. Cuando el desarrollador y el teración en los puntajes obtenidos de la prueba
usuario son el mismo, la documentación y los re- o procedimientos alterados, si el tamaño de la
súmenes seguirán siendo necesarios. muestra lo permite.
144

8. D
ERECHOS Y RESPONSABILIDADES
DE LOS EXAMINANDOS
Antecedentes
Este capítulo examina los problemas de impar- básica sobre la prueba y la forma en que se utili-
cialidad desde el punto de vista del examinando zarán los resultados. En la mayoría de las situa-
individual. La mayoría de los aspectos de impar- ciones, el tratamiento imparcial y equitativo de
cialidad afectan a la validez de las interpretaciones los examinandos comporta proporcionar con
de los puntajes para los usos previstos. Los están- antelación información sobre la naturaleza gene-
dares de este capítulo abordan los derechos y res- ral de la prueba, el uso previsto de los puntajes
ponsabilidades de los examinandos con respecto a y la confidencialidad de los resultados. Cuando
la seguridad de la prueba, su acceso a los resulta- no sea apropiada la divulgación completa de esta
dos de la prueba y sus derechos cuando se recla- información (como en el caso de algunas pruebas
man irregularidades en el proceso de evaluación. psicológicas o de empleo), la información que se
En el capítulo 3 (“Imparcialidad en las pruebas”) facilite debe ser uniforme para todos los exami-
se tratan otros temas sobre la imparcialidad. En el nandos. Los examinandos, o sus representantes
capítulo 6 (“Administración, calificación, presen- legales cuando sea apropiado, necesitan suficiente
tación de reportes e interpretación de pruebas”) se información sobre la prueba y el uso previsto de
incluyen consideraciones generales relacionadas los resultados para tomar una decisión informada
con los reportes de los resultados de las pruebas. sobre su participación.
En el capítulo 10 (“Pruebas y evaluación psicoló- En algunos casos, las leyes o estándares de
gicas”) se analizan los problemas relacionados con práctica profesional (por ejemplo, las que rigen
los derechos y responsabilidad de los examinan- la investigación sobre sujetos humanos) exigen
dos en contextos clínicos o individuales. un consentimiento informado formal para reali-
Los estándares de este capítulo se dirigen a los zar las pruebas. En otros casos, (p. ej., las prue-
proveedores de pruebas, no a los examinandos. bas de empleo), el consentimiento informado
Es responsabilidad compartida del desarrolla- está implícito en otras acciones (p. ej., el envío
dor, administrador, monitor (si existe) y usuario de una solicitud de empleo) y no se requiere de
de la prueba proporcionar a los examinandos la un consentimiento formal. Cuanto mayores son
información sobre sus derechos y sus propias res- las consecuencias para el examinando, mayor es
ponsabilidades. La responsabilidad de informar al la importancia de garantizar que el examinando
examinando se deberá distribuir de acuerdo con cuenta con toda la información sobre la prueba
las circunstancias específicas. y que su participación se realiza voluntariamente,
Los examinandos tienen el derecho de ser excepto cuando la ley permite las pruebas sin
evaluados con pruebas que cumplan los actuales consentimiento (p. ej., cuando la participación en
estándares profesionales, incluyendo los están- una prueba es una exigencia legal o ha sido orde-
dares de calidad técnica, tratamiento coherente, nada por mandato judicial). Si una prueba es op-
imparcialidad, condiciones de administración y cional, el examinando tiene el derecho de saber las
presentación de reportes de resultados. Los capí- consecuencias de realizar o no realizar la prueba.
tulos de la Parte I, “Fundamentos” y de la Parte En la mayoría de los casos, el examinando tiene
II, “Operaciones”, tratan de forma específica el el derecho de hacer preguntas o formular dudas y
diseño imparcial y apropiado, el desarrollo, la ad- debe recibir una respuesta oportuna a las consul-
ministración, la calificación y la presentación de tas legítimas.
reportes de las pruebas. Además, los examinan- Habitualmente, cuando sea coherente con
dos tienen el derecho de disponer de información los propósitos y la naturaleza de la evaluación, la
145

capítulo 8
información general proporcionará el contenido prueba. La solicitud de adecuaciones o modifi-

y los propósitos de la prueba. En algunos progra- caciones son responsabilidad del examinando,
mas, en interés de la imparcialidad, se les facilitan o en el caso de menores de edad, del tutor del
a todos los examinandos materiales útiles, como examinando. En situaciones de pruebas de grupo,
guías de estudio, preguntas de ejemplo o pruebas los examinandos no deben interferir con el des-
completas de ejemplo, cuando tal información empeño de otros examinandos. En algunos pro-
no comprometa la validez de las interpretaciones gramas de pruebas, también se espera que los
de los resultados de futuras administraciones de examinandos informen a las personas apropiadas,
pruebas. Los materiales de práctica deben tener y de manera oportuna, si encuentran motivos
la misma apariencia y formato que la prueba real. para creer que sus resultados no reflejarán sus ca-
Por ejemplo, una prueba de práctica para una eva- pacidades verdaderas.
luación basada en la Web debe estar disponible La validez de las interpretaciones de los pun-
a través de una computadora. Los programas de tajes se basa en el supuesto de que un exami-
selección de personal pueden proporcionar, de nando ha obtenido honestamente un puntaje o
forma legítima, más capacitación a determina- decisión categórica específicos, como “aprobado”
dos tipos de examinandos (p. ej., candidatos in- o “reprobado.” La mayoría de los comportamien-
ternos) que a otros (p. ej., candidatos externos). tos fraudulentos o engañosos pueden reducir la
Por ejemplo, en el contexto de un programa de validez de las interpretaciones de los puntajes y
desarrollo de personal, una organización puede causar perjuicios a otros examinandos, sobre todo
capacitar a los empleados actuales en competen- en situaciones competitivas donde se comparan
cias que se miden en las pruebas de empleo y no los puntajes de los examinandos. Hay muchas
ofrecer esa capacitación a los candidatos externos. formas de comportamiento que afectan a los
También se puede facilitar asesoría sobre las estra- puntajes de una prueba, por ejemplo, el uso de
tegias de los examinandos, incluyendo la gestión ayudas prohibidas o la suplantación de exami-
del tiempo y la conveniencia de omitir una res- nandos. De forma similar, hay muchas formas de
puesta en un ítem (cuando se admite la omisión comportamiento que comprometen la seguridad
de respuestas). También se proporciona al exami- de los materiales de la prueba, incluyendo comu-
nando información sobre las diversas políticas de nicar de antemano el contenido específico de la
evaluación, por ejemplo, sobre la disponibilidad prueba a otros examinandos. El examinando está
de las adecuaciones y la determinación de la ido- obligado a respetar los derechos de autor de los
neidad de las adecuaciones para determinados materiales de la prueba y no puede reproducir los
individuos. Además, las comunicaciones a los materiales sin autorización ni divulgar de ninguna
examinandos deben incluir las políticas de con- forma material de naturaleza similar a la prueba.
traprueba cuando se producen graves alteraciones Los examinandos, así como los administradores
en la administración de la prueba, cuando los de la prueba, tienen la responsabilidad de prote-
examinandos creen que el desempeño actual no ger la seguridad de la prueba negándose a divulgar
refleja apropiadamente sus capacidades reales, o cualquier detalle del contenido de una prueba, a
cuando el examinando mejora sus conocimientos, menos que la prueba concreta se haya diseñado
competencias, capacidades u otras características para estar disponible con antelación. No cumplir
subyacentes, con estas responsabilidades puede poner en riesgo
Como participantes de una evaluación, los la validez de las interpretaciones de los puntajes
examinandos tienen responsabilidades además tanto para el examinando como para los demás.
de derechos. Sus responsabilidades incluyen es- Los grupos externos que desarrollan ítems para la
tar preparados para realizar la prueba, seguir las preparación de pruebas deben basar esos ítems en
instrucciones del administrador de la prueba, rela información divulgada públicamente y no en
flejarse a sí mismos con honestidad en la prueba información que los examinandos hayan compar-
y proteger la seguridad de los materiales de la tido de manera inapropiada.
146

DERECHOS Y RESPONSABILIDADES DE LOS EXAMINANDOS
A veces, los programas de pruebas usan pun- los detalles de los procedimientos para la detección
tajes especiales, indicadores estadísticos y otros de problemas se mantienen confidenciales para
datos indirectos sobre irregularidades en las prue- evitar comprometer su uso. Sin embargo, se debe
bas para examinar si los puntajes de una prueba informar a los examinandos de que, en circunstan-
se han obtenido limpiamente. Patrones inusuales cias especiales (como anomalías en las respuestas
de respuestas, grandes cambios en los puntajes de o en los puntajes de una prueba), sus respuestas
prueba y contraprueba, la velocidad de las respues- pueden someterse a un escrutinio especial. Se debe
tas e indicadores similares pueden acarrear un es- informar a los examinandos de que, si se detectan
crutinio detallado de determinados protocolos de evidencias de irregularidad o fraude, sus puntajes
evaluación y puntajes de pruebas. Por lo general, podrían anularse o tomarse otras medidas.
147

capítulo 8
Estándares para los derechos y responsabilidades

de los examinandos
Los estándares de este capítulo empiezan con un apropiadamente para realizar la prueba y que los
estándar general (con el número 8.0), diseñado resultados reflejen con exactitud su situación en
para comunicar el propósito central o el enfoque el constructo que se evalúa. Los estándares tam-
principal del capítulo. El estándar general tam- bién incluyen el acceso de los examinandos a los
bién se puede ver como el principio rector del ca- resultados de sus pruebas; la protección de los re-
pítulo y se aplica a todas las pruebas y a todos los sultados frente al acceso, uso o divulgación no au-
usuarios de la prueba. Todos los estándares poste- torizados por parte de terceros, y los derechos de
riores se han dividido en cuatro unidades temáti- los examinandos a reportes de puntajes precisos e
cas, etiquetadas de la siguiente manera: imparciales. Además, los estándares de este capí-
tulo abordan la responsabilidad de los examinan-
1. Derechos de los examinandos a disponer de dos de reflejarse a sí mismos con precisión y de
información antes de la prueba forma imparcial durante el proceso de la prueba,
2. Derechos de los examinandos a obtener y de respetar la confidencialidad de los derechos
acceso a los resultados de sus pruebas y a la de autor de los materiales de la prueba.
protección frente a usos no autorizados de
estos resultados Unidad 1. Derechos de los
3. Derechos de los examinandos a reportes de
puntajes imparciales y precisos examinandos a disponer de
4. Responsabilidades de comportamiento de los información antes de la prueba
examinandos a lo largo de todo el proceso de
administración de la prueba Estándar 8.1
La información sobre el contenido y el propósito
Estándar 8.0
de la prueba que esté disponible para cualquier
Los examinandos tienen el derecho de disponer examinando antes de la prueba debe estar dispo-
de información adecuada que les ayude a pre- nible para todos los examinandos. La informa-
pararse apropiadamente para una prueba, de ción compartida debe estar disponible de forma
manera que los resultados reflejen con exacti- gratuita y en formatos accesibles.
tud su situación en el constructo que se evalúa
Comentario: El objetivo de este estándar es el
y lleven a interpretaciones precisas e imparciales.
tratamiento equitativo de todos los examinandos
También tienen el derecho a la protección de los
con respecto al acceso a información básica so-
resultados con identificación personal frente al
bre un evento de prueba, por ejemplo, cuándo y
acceso, uso o divulgación no autorizados. Ade-
dónde se llevará a cabo, qué materiales se deben
más, los examinandos tienen la responsabilidad
llevar, cuál es el propósito de la prueba y cómo se
de reflejarse a sí mismos con precisión en el pro-
utilizarán los resultados. Cuando corresponda, es-
ceso de la prueba y de respetar los derechos de
tas ofertas se harán a todos los examinandos y, en
autor de los materiales de la prueba.
la medida de lo posible, deben estar en formatos
Comentario: A continuación, se describen los accesibles a todos los examinandos. La accesibi-
estándares específicos para los derechos y res- lidad de los formatos también se aplica a la in-
ponsabilidades de los examinandos. Estos inclu- formación que se podría proporcionar en un sitio
yen estándares para los tipos de información que web público. Por ejemplo, en función del formato
se debe proporcionar a los examinandos antes de la información, se pueden hacer conversiones
de la prueba, de modo que puedan prepararse para que las personas con discapacidades visuales
148

puedan acceder al material gráfico o textual. Es En la mayoría de las situaciones de pruebas,

posible que el suministro de estos materiales en se deberá informar a los examinandos sobre el uso
formatos accesible sea un imperativo legal en el previsto de los puntajes y el grado de confidencia-
caso de examinandos con discapacidades. lidad de estos , y se les debe comunicar si tendrán
Cabe señalar que, aunque la información acceso a esos resultados y en qué momento. Las
general sobre el contenido y el propósito de la excepciones se producen cuando el conocimiento
prueba debe estar disponible para todos los exa- de los propósitos o de los usos previstos de los
minandos, algunas organizaciones pueden com- puntajes viola la integridad de su interpretación,
plementar esta información con capacitación u por ejemplo, cuando la prueba se dirige a detec-
orientación adicional. Por ejemplo, algunos em- tar simulaciones. Si un registro de la sesión de la
pleadores pueden impartir competencias básicas a prueba se guarda en formato escrito, audio, vídeo
los trabajadores para ayudarles a cualificarse para o cualquier otro, o si se guardan los registros aso-
puestos de mayor nivel. De forma similar, un pro- ciados con el evento de la prueba (por ejemplo,
fesor de escuela puede decidir entrenar a los es- la información de calificación), los examinandos
tudiantes en un tema que se examinará, mientras tienen derecho a saber qué información de la
que otros profesores se centran en otros temas. prueba se divulgará y para qué finalidad se utili-
zarán los resultados. En algunos casos, se aplican
los estándares legales a la información sobre el uso
Estándar 8.2 y la confidencialidad de (y el acceso de los exa-
minandos a) los puntajes de la prueba. También
Se debe proporcionar con antelación a los exa-
se debe informar sobre las políticas relacionadas
minandos tanta información sobre la prueba,
con las contrapruebas. Se debe advertir a los exa-
el proceso de evaluación, el uso previsto de la
minandos contra el comportamiento inadecuado
prueba, los criterios de calificación, la política
y hacerles saber las consecuencias de las conduc-
de evaluación, la disponibilidad de adecuaciones
tas indebidas (por ejemplo, la copia engañosa),
y la protección de la confidencialidad como sea
que pueden tener como resultado la prohibición
compatible con la obtención de respuestas váli-
de completar la prueba o de recibir los puntajes
das y la formulación de interpretaciones apro-
de la prueba, o que podrían acarrear otras san-
piadas de los puntajes de la prueba.
ciones. Se debe informar a los examinandos, al
Comentario: Cuando proceda, se debe informar menos de forma general, si habrá un escrutinio
a los examinados con antelación sobre el conte- especial de los protocolos de la prueba o de los pa-
nido de la prueba, incluyendo el área temática, los trones de puntaje para detectar vulnerabilidades
temas incluidos y los formatos de ítems. Se debe de seguridad, engaños u otros comportamientos
proporcionar orientación general sobre las estra- inapropiados.
tegias de ejecución de una prueba. Por ejemplo,
normalmente se debe informar a los examinandos
sobre la conveniencia de omitir respuestas y ad- Estándar 8.3
vertirles de los límites de tiempo impuestos, de
Cuando se ofrece al examinando la opción de
manera que puedan gestionar el tiempo de forma
elegir el formato de la prueba, se debe propor-
adecuada. Para administraciones por computa-
cionar información sobre las características de
dora, se debe mostrar a los examinandos ejemplos
cada formato.
de la interfaz que se tiene previsto usar durante la
prueba y se les debe dar la oportunidad de practi- Comentario: En ocasiones, los examinandos pue-
car con esas herramientas y dominar su uso antes den elegir entre la administración de una prueba
de que empiece la prueba. Además, se les debe in- con papel y lápiz y la administración computa-
formar sobre las posibilidades de revisar los ítems rizada. Algunas pruebas se facilitan en diferen-
que se han respondido u omitido anteriormente. tes idiomas. A veces, se ofrece una evaluación
149

capítulo 8
alternativa. Los examinandos deben conocer las con discapacidades o de diferentes procedencias
características de cada alternativa que esté dispo- lingüísticas).
nible, de manera que puedan tomar una decisión
informada.
Unidad 2. Derechos de los
Estándar 8.4 examinandos a obtener acceso a los
resultados de sus pruebas y a la
Se debe obtener el consentimiento informado de
los examinandos, o de sus representantes legales protección frente a usos no
si procede, antes de comenzar la prueba, excepto autorizados de estos resultados
(a) cuando la evaluación sin consentimiento sea
obligatoria por ley o normativa gubernamental, Estándar 8.5
(b) cuando la evaluación se lleve a cabo como
parte ordinaria de las actividades escolares, o Se deben considerar cuidadosamente las polí-
(c) cuando el consentimiento sea claramente im- ticas de publicación de puntajes de las pruebas
plícito, por ejemplo, en contextos de empleo. Es que contienen datos de identificación y comu-
posible que la ley y los estándares profesionales nicarse claramente a quienes tengan acceso a los
vigentes requieran el consentimiento informado. puntajes. Las políticas deben garantizar que los
resultados de las pruebas que contengan nom-
Comentario: El consentimiento informado con-
bres de examinandos individuales u otros datos
lleva que los examinandos o sus representantes
de identificación personal solo se divulguen a
tengan conocimiento, en un idioma que pue-
quienes tengan un interés profesional legítimo
dan comprender, de las razones de la evaluación,
en los examinandos y disponga de autorización
los tipos de pruebas que se van a usar, los usos
para acceder a dicha información bajo las leyes
previstos de los resultados de los examinandos u
de privacidad vigentes, a quienes se encuentren
otra información, y de las diversas consecuencias
amparados por documentos de consentimiento
materiales del uso previsto. En general, se reco-
informado de los examinandos o a quienes
mienda que se solicite directamente a las personas
cuente con los permisos legales para obtener ac-
que den su consentimiento formal en lugar de so-
ceso a los resultados.
licitarles únicamente que indiquen si deniegan su
consentimiento. Comentario: Se debe mantener la confidencia-
No se requiere de consentimiento cuando la lidad de los resultados de las pruebas de indivi-
prueba es una obligación legal, como en el caso duos identificados por el nombre o por algún
de una evaluación psicológica por mandato judi- otro dato que permita identificar fácilmente
cial, aunque pueden existir requisitos legales para a una persona, o identificarla rápidamente
suministrar información sobre los resultados de la cuando esa información se combina con otra
sesión de la prueba a los examinandos. Por lo ge- información. En algunos casos, la información
neral, tampoco se requiere el consentimiento en se puede suministrar con carácter confidencial
contextos educativos para las pruebas administra- a otros profesionales con un interés legítimo en
das a todos los alumnos. Cuando se requiere una el caso específico, de modo coherente con las
evaluación por motivos de empleo, acreditación consideraciones legales y éticas, incluyendo, si
o admisiones educativas, los solicitantes otorgan corresponde, las leyes de privacidad. La infor-
implícitamente su consentimiento al enviar su mación podría facilitarse a investigadores si se
solicitud. Cuando sea factible, la persona que ex- cumplen todas las siguientes condiciones: (a) se
plique las razones de una prueba debe tener expe- mantiene la confidencialidad de todos los exa-
riencia en la comunicación con los individuos de minandos, (b) el uso previsto es compatible con
la población objetivo de la prueba (p. ej., personas la práctica de investigación aceptada, (c) el uso
150

se lleva a cabo de conformidad con los actuales Unidad 3. Derechos de los

requisitos legales e institucionales para los de-
examinandos a reportes de puntajes
rechos del sujeto y con las leyes de privacidad
vigentes, y (d) el uso es coherente con los do- imparciales y precisos
cumentos archivados de consentimiento infor-
mado del examinando o con las condiciones de Estándar 8.7
consentimiento implícito que sean apropiadas
en algunos contextos. Cuando los puntajes de examinandos indivi-
duales se asignan en categorías para la presen-
tación de reportes, las etiquetas asignadas a las
Estándar 8.6 categorías se deben elegir de forma que reflejen
las inferencias previstas y se deben describir con
Los datos de la prueba que se mantienen o exactitud.
transmiten en archivos de datos, incluyendo
toda la información de identificación personal Comentario: Cuando se asocian etiquetas con
(no solo los resultados), deben protegerse ade- los resultados de la prueba, se debe prestar aten-
cuadamente contra el acceso, uso o divulgación ción para evitar etiquetas que puedan tener de-
indebidos. Esto incluye protecciones físicas, téc- rivaciones innecesariamente estigmatizantes. Por
nicas y administrativas según sea apropiado para ejemplo, etiquetas descriptivas como “básico”,
el conjunto específico de datos y sus riesgos, de “competente” y “avanzado” llevarían interpreta-
conformidad con los requisitos legales vigentes. ciones menos estigmatizantes que términos como
El uso de transmisión por telefax, redes com- “deficiente” o “insatisfactorio”. Además, se debe
putarizadas, bancos de datos u otros sistemas proporcionar información relacionada con la pre-
de procesamiento o transmisión electrónica de cisión de las clasificaciones de los puntajes (p. ej.,
datos se deberá restringir a situaciones donde la la precisión de la decisión y la coherencia de la
confidencialidad se pueda garantizar razonable- decisión).
mente. Los usuarios deben desarrollar o seguir
políticas, coherentes con los requisitos legales, Estándar 8.8
que especifiquen si los examinandos pueden
revisar y corregir la información personal y los Cuando los puntajes de la prueba se usen para
métodos para hacerlo. tomar decisiones sobre un examinando o para
hacer recomendaciones a un examinando o a un
Comentario: El riesgo se reduce evitando los nú-
tercero, el examinando debe disponer de acceso
meros o códigos de identificación que están aso-
oportuno a una copia de cualquier reporte de
ciados con los individuos y que se usan para otros
puntajes e interpretación de la prueba, a menos
fines (p. ej., números de la Seguridad Social o
que se haya renunciado explícitamente a ese de-
identificadores de empleados). Se deben adoptar
recho en el documento de consentimiento infor-
todas las disposiciones razonables (como el cifrado
mado del examinando o implícitamente a través
de los datos) para mantener la confidencialidad de
del procedimiento de solicitud en evaluaciones
la información si se usa la comunicación por tele-
educativas, de acreditación o empleo, o esté pro-
fax o computadora para transmitir las respuestas
hibido por ley o mandato judicial.
de la prueba a otro centro para la calificación o si
los puntajes se transmiten de forma similar. En Comentario: En algunos casos, es posible que un
algunos casos, las leyes vigentes de seguridad de examinando disponga de la información adecuada
datos pueden exigir que se tomen medidas espe- cuando el reporte de la prueba se envía a un ter-
cíficas para proteger los datos. En la mayoría de cero pertinente (p. ej., el psicólogo o psiquiatra de
los casos, el propietario de los datos desarrollará un tratamiento), quien puede interpretar los re-
estas políticas. sultados del examinando. Cuando se proporciona
151

capítulo 8
al examinando una copia del reporte de la prueba puede constituir una infracción a los derechos
y hay un motivo aparente para creer que los pun- de autor. En pruebas de certificación o licencia-
tajes pueden tener una interpretación incorrecta, miento, tales acciones pueden poner en peligro
el examinador o un tercero informado debe estar la salud y la seguridad públicas. En general, la
disponible para interpretarlos, incluso si el re- validez de las interpretaciones de los puntajes se
porte está redactado con claridad, ya que el exa- verá cuestionada por la divulgación inapropiada
minando podría malinterpretar o tener preguntas de la prueba.
que el reporte no responda de manera específica.
En situaciones de pruebas de empleo, cuando los
resultados se usan exclusivamente para decisiones Estándar 8.10
de selección, las renuncias al acceso suelen ser una En programas de pruebas educativas y de acredi-
condición de las solicitudes de empleo, aunque tación, cuando se espera que un reporte de pun-
el acceso a la información de la prueba pueda, taje individual se retrase de forma considerable
con frecuencia, exigirse apropiadamente en otras más allá de un breve periodo de investigación
circunstancias. debido a posibles irregularidades (por ejemplo,
una posible conducta indebida), se debe notifi-
Unidad 4. Responsabilidades de car al examinando y dar el motivo de la investi-
gación. Se deben tomar las medidas razonables
comportamiento de los examinandos para facilitar la revisión y para proteger el interés
a lo largo de todo el proceso de del examinando. Una vez finalizada la investiga-
administración de la prueba ción, se deberá notificar al examinando sobre la
resolución.
Estándar 8.9
Estándar 8.11
Los examinandos deben entender que la suplan-
tación de examinandos para realizar la prueba, la En programas de pruebas educativas y de acre-
divulgación del material de la prueba o la parti- ditación, cuando se considere necesario cancelar
cipación en cualquier forma de engaño son ac- o retener el puntaje de un examinando debido
ciones inaceptables y que tales comportamientos a posibles irregularidades en la prueba, inclu-
pueden acarrear sanciones. yendo una posible conducta indebida, se deberá
explicar el tipo de evidencia y los procedimientos
Comentario: Aunque los Estándares no puedan
generales que se usarán para investigar la irregu-
regular el comportamiento de los examinandos,
laridad a todos los examinandos cuyos puntajes
los examinandos deben ser conscientes de sus
se vean directamente afectados por la decisión.
responsabilidades personales y legales. Disponer
Se proporcionará a los examinandos una oportu-
la suplantación del examinando por otra persona
nidad razonable para que aporten evidencias de
constituye un fraude. En las pruebas diseñadas
que el puntaje no se debería cancelar o retener.
para medir el pensamiento independiente de un
Las evidencias tomadas en consideración para
examinando, proporcionar respuestas que usen
decidir la acción final deberán estar disponibles
el trabajo de otras personas sin atribución o que
para el examinando, a petición.
hayan sido preparadas por alguien distinto al exa-
minando constituye plagio. La divulgación de Comentario: Cualquier forma de engaño o com-
material confidencial de la prueba con la finali- portamiento que reduzca la validez e imparcia-
dad de dar a otros examinandos un conocimiento lidad de las interpretaciones de los resultados
previo interfiere con la validez de las interpreta- de la prueba se deberá investigar con rapidez,
ciones de los puntajes, y la circulación de ítems adoptando las medidas apropiadas. El puntaje de
de la prueba en formato impreso o electrónico una prueba se puede cancelar o retener debido a
152

una posible conducta indebida del examinando Comentario: Cuando se cuestiona o invalida el
o por anomalías que involucren a otras personas, puntaje de un examinando, o cuando un exami-
como el robo o contratiempos administrativos. nando busca una revisión o reconsideración de su
Debe estar disponible un recurso de apelación puntaje o de algún otro aspecto del proceso de
y se debe comunicárselo a los candidatos cuyos prueba, calificación o presentación de reportes,
puntajes se podrían enmendar o retener. Algunas el examinando tiene derecho a un proceso metó-
organizaciones de evaluación ofrecen la opción dico para un debate o revisión eficaz de la toma
de una contraprueba rápida y gratuita o el arbi- de decisiones del administrador o usuario de la
traje de disputas. La información proporcionada prueba. En función de la magnitud de las con-
a los examinandos deberá ser lo suficientemente secuencias asociadas con la prueba, este proceso
específica para entender la evidencia que se usa puede incluir desde una revisión interna de todos
para respaldar la alegación de irregularidades los datos pertinentes por un administrador hasta
en la prueba, pero no tan específica como para una conversación informal con un examinando
divulgar los secretos comerciales o facilitar el o una extensa audiencia administrativa. Cuanto
engaño. mayores sean las consecuencias, mayor será el
grado de protecciones procesales que deberán es-
tar disponibles. Los examinandos también debe-
Estándar 8.12
rán conocer los procedimientos para el recurso,
En programas de pruebas educativas y de acre- las posibles tasas asociadas con los procedimien-
ditación, un examinando tiene derecho a un tratos de recurso, el tiempo previsto de resolución
tamiento imparcial y a un proceso de resolución y cualquier otro asunto importante relacionado,
razonable, apropiado a las circunstancias espe- incluyendo las consecuencias para el examinando.
cíficas, con respecto a los cargos asociados con Algunos programas de pruebas pueden recomen-
las irregularidades de la prueba o a las cuestio- dar que el examinando esté representado por un
nes planteadas por el examinando relacionadas abogado, aunque posiblemente con gastos a cargo
con la precisión de la calificación o de la clave del examinando. En función de las circunstancias
de calificación. Los examinandos tienen derecho y el contexto, los principios de los procedimien-
a recibir información sobre cualquier medio de tos reglamentarios podrían ser pertinentes para el
recurso disponible. proceso aplicado a los examinandos.
153

9. D
ERECHOS Y RESPONSABILIDADES
DE LOS USUARIOS DE LA PRUEBA
Antecedentes
Los capítulos anteriores han examinado prin- y tutores, educadores, empleados, responsables de
cipalmente las responsabilidades de quienes las políticas, tribunales o el público general.
desarrollan, promueven, evalúan o encargan la La validez y confiabilidad son consideraciones
administración de pruebas y las responsabilidades críticas en la selección y uso de las pruebas, y los
de los examinandos. El presente capítulo se cen- usuarios de la prueba deben considerar la eviden-
tra en las responsabilidades de quienes se pueden cia de (a) la validez de la interpretación para los
considerar los usuarios de la prueba. Los usuarios usos previstos de los puntajes; (b) la confiabili-
de la prueba son profesionales que seleccionan los dad/precisión de los puntajes; (c) la aplicabilidad
instrumentos específicos o supervisan la adminis- de los datos normativos disponibles en el manual
tración de la prueba (bajo su propia autoridad o a de la prueba, y (d) las consecuencias potenciales
instancias de otros), así como los demás profesio- positivas y negativas del uso. También se debe
nales que participan activamente en la interpre- tener en cuenta la literatura de investigación
tación y uso de los resultados de la prueba. Esto acumulada y, si procede, las características demo-
incluye psicólogos, educadores, empleadores, gráficas (p. ej. raza/origen étnico, género, edad,
desarrolladores de pruebas, editores de pruebas ingresos, antecedentes socioeconómicos, cultura-
y otros profesionales. Dada la dependencia de les y lingüísticos, educación y otras variables so-
los resultados de las pruebas en muchos contex- cioeconómicas) del grupo para el cual se elaboró
tos, habitualmente se ha ejercido presión sobre originalmente la prueba y para el cual están dis-
los usuarios de la prueba para que expliquen las ponibles los datos normativos. Los usuarios de la
decisiones basadas en la prueba y las prácticas de prueba también pueden consultar a los profesio-
evaluación; en muchos casos, los usuarios de la nales de medición. El nombre de la prueba por
prueba tienen la obligación legal de documentar sí solo nunca proporciona información adecuada
la validez y la imparcialidad de esas decisiones y para decidir su selección.
prácticas. Los estándares de este capítulo propor- En algunos casos, la selección de pruebas e
cionan orientación con respecto a los procedi- inventarios se individualiza para un cliente espe-
mientos de administración de la prueba y la toma cífico. En otros contextos, todos los participantes
de decisiones donde las pruebas juegan un papel. realizan una batería predeterminada de pruebas.
Por lo tanto, el presente capítulo incluye están- En ambos casos, los usuarios de la prueba debe-
dares de naturaleza general que se aplican en casi rán conocer bien los procedimientos administra-
todos los contextos de pruebas. tivos apropiados y serán responsables de entender
Estos Estándares asumen que un propósito la evidencia de validación y confiabilidad, y de
legítimo educativo, psicológico, de acreditación articular esa evidencia si se presentara la necesi-
o de empleo justifica el tiempo y el gasto de la dad. Los usuarios de la prueba que supervisan la
administración de la prueba. En la mayoría de los evaluación y las pruebas son responsables de ga-
contextos, el usuario comunica este propósito a rantizar que los administradores que administren
quienes tienen un legítimo interés en el proceso y califiquen la prueba hayan recibido la capaci-
de medida y posteriormente trasmite las conse- tación y entrenamiento adecuados para llevar a
cuencias del desempeño del examinando a quienes cabo estas tareas. Se requiere que el usuario de la
están facultados para recibir la información. En prueba que interpreta los puntajes e integra las in-
función del contexto de la medición, este grupo ferencias obtenidas de los puntajes y otros datos
puede incluir a examinandos individuales, padres relevantes tenga un alto nivel de competencia.
155

capítulo 9
Idealmente, los puntajes de la prueba se in- estandarizados y se debe proporcionar suficiente

terpretan a la luz de los datos disponibles, las supervisión para garantizar la integridad de los re-
propiedades psicométricas de los puntajes, los in- sultados. Cuando se requieran procedimientos no
dicadores de esfuerzo y los efectos de las variables estándar, estos se deben describir y justificar. Los
moderadoras y las características demográficas so- usuarios de la prueba también son responsables
bre los resultados de la prueba. Debido a que los de facilitar condiciones de evaluación apropia-
ítems o tareas de una prueba que fue diseñada para das. Por ejemplo, es posible que el usuario de la
un grupo específico puede introducir varianza prueba tenga que determinar si un examinando es
irrelevante de constructo cuando se usa con otros capaz de leer en el nivel requerido y si un exami-
grupos, es importante seleccionar una prueba con nando con discapacidad visual, auditiva o neuro-
grupos de referencia demográficamente apropia- lógica dispone de las adaptaciones adecuadas. El
dos para la generabilidad de la inferencia que trata capítulo 3 (“Imparcialidad en las pruebas”) trata
de formular el usuario de la prueba. Cuando una en detalle las consideraciones y estándares de ac-
prueba desarrollada y normalizada para un grupo ceso igualitario.
se aplica a otros grupos, las interpretaciones de los Cuando se exige la administración de pruebas
puntajes deberán calificarse y presentarse como o el uso de datos de pruebas para una población
hipótesis y no como conclusiones. Además, se específica por parte de autoridades gubernamen-
deberá evaluar la idoneidad de los análisis estatales, instituciones educativas, consejos de licen-
dísticos realizados en un solo grupo cuando se cias o empleadores, el desarrollador y usuario de
generalizan a otras poblaciones de examinandos. un instrumento puede ser básicamente el mismo.
El usuario de la prueba debe basarse en cualquier A menudo, en tales contextos, no existe una clara
evidencia de investigación existente de la prueba separación en términos de responsabilidades
para extraer inferencias apropiadas y debe conocer profesionales entre quienes desarrollan el instru-
los requisitos que restringen determinadas prác- mento y quienes los administran e interpretan los
ticas (p. ej. normalización por raza o género en resultados. Por otra parte, los instrumentos pro-
algunos contextos). ducidos por editores independientes presentan un
Por otra parte, cuando proceda, una interpre- cuadro diferente. Habitualmente, los utilizarán
tación de los puntajes de los examinandos debe te- diferentes usuarios de la prueba con una variedad
ner en cuenta no solo la relación probada entre los de poblaciones y para diversos propósitos.
puntajes y los criterios, sino también la idoneidad El desarrollador escrupuloso de una prueba
de estos últimos. Los criterios deben someterse a estandarizada intentará controlar quién tiene ac-
un examen similar al examen de los predictores si ceso a la prueba y educar a los usuarios poten-
se desea entender el grado de congruencia de los ciales. Asimismo, la mayoría de los editores y
constructos subyacentes con las inferencias bajo promotores de pruebas trabajan para evitar el uso
consideración. Es importante que se reconozcan indebido de medidas estandarizadas y la interpre-
los datos que no respaldan la inferencia y se con- tación errónea de puntajes individuales y medias
cilien o anoten como límites a la confianza que se de grupo. Los manuales de la prueba suelen ilus-
puede tener en las inferencias. En general, la edu- trar las interpretaciones y aplicaciones viables y no
cación y la experiencia necesarias para interpre- viables. Algunos identifican prácticas específicas
tar pruebas de grupo son menos estrictas que las que no resultan apropiadas y que se deben des-
cualificaciones necesarias para interpretar pruebas aconsejar. Sin embargo, a pesar de los esfuerzos de
administradas individualmente. los desarrolladores de pruebas, es probable que el
Los usuarios de la prueba deben seguir los uso apropiado de una prueba y la interpretación
procedimientos estandarizados de adminis- correcta de los puntajes sigan siendo primordial-
tración indicados por los desarrolladores de la mente responsabilidad del usuario de la prueba.
prueba. La administración computarizada de Los examinandos, padres y tutores, legis-
pruebas también debe seguir los procedimientos ladores, responsables de políticas, medios de
156

DERECHOS Y RESPONSABILIDADES DE LOS USUARIOS DE LA PRUEBA
comunicación, tribunales y el público en general cualificados para integrar esta diversa informa-
suelen preferir interpretaciones inequívocas de ción de manera eficaz.
los datos de una prueba. En particular, tienden No es apropiado que estos estándares dicten
a atribuir los resultados positivos o negativos niveles mínimos de correlación de criterios de
(incluyendo las diferencias de grupos) a un solo pruebas, precisión de clasificación o confiabili-
factor o a las condiciones que prevalecen en una dad/precisión para un propósito determinado.
institución social —en la mayoría de los casos, el Tales niveles dependen de factores como la natu-
hogar o la escuela. Frecuentemente, estos consu- raleza del constructo medido, la edad de los in-
midores de datos de pruebas presionan por ob- dividuos sometidos a la prueba y si las decisiones
tener justificaciones basadas en los puntajes para se deben tomar inmediatamente en base a la me-
decisiones que solo se basan parcialmente en los jor evidencia disponible, aunque sea escasa, o si
puntajes de las pruebas. Un usuario de la prueba se pueden retrasar hasta que esté disponible una
sensato ayudará a todas las partes interesadas a evidencia mejor. Sin embargo, resulta apropiado
comprender que las decisiones correctas relacio- que los usuarios se cercioren de las alternativas
nadas con el uso de una prueba y la interpretación existentes, la calidad y las consecuencias de estas
de los puntajes incluyen un elemento de juicio alternativas, y de si un retraso en la toma de de-
profesional. No siempre resulta evidente para los cisiones resultaría beneficioso. Como suele pasar
consumidores que la elección de diversos proce- en el desarrollo de pruebas, los equilibrios costo-
dimientos de recolección de información implica beneficio resultan necesarios en el uso de pruebas.
una experiencia que no se puede cuantificar o ver- No obstante, en algunos contextos, los requisitos
balizar con facilidad. El usuario puede ayudar a legales pueden establecer límites al grado de tales
que los consumidores reconozcan el hecho de que equilibrios. Como pasa con los estándares para las
la ponderación de datos cuantitativos, la informa- diversas fases del desarrollo de pruebas, cuando
ción educativa u ocupacional, las observaciones los estándares pertinentes no se cumplen en el uso
conductuales, los reportes anecdóticos y otros de la prueba, los motivos deben ser convincentes.
datos relevantes no siempre se pueden especifi- Cuanto mayor sea el impacto potencial sobre los
car con precisión. No obstante, los usuarios de la examinandos, para bien o para mal, mayor será la
prueba deben proporcionar reportes e interpreta- necesidad de identificar y satisfacer los estándares
ciones de los datos de la prueba que sean claros y pertinentes.
comprensibles. En la selección de una prueba y la interpre-
Debido a que frecuentemente los resultados tación del puntaje, se espera que el usuario de la
de una prueba se reportan de forma numérica, prueba tenga un conocimiento claro del propósito
suelen tener una apariencia de precisión, y a veces de la prueba y de sus consecuencias probables. El
se tolera que los datos de la prueba anulen otras usuario informado tendrá ideas definidas sobre
fuentes de evidencia sobre los examinandos. Hay cómo conseguir estos propósitos y cómo evitar la
circunstancias en las que una selección basada parcialidad y las consecuencias no deseables. Al
exclusivamente en los puntajes de una prueba suscribir estos Estándares, los editores de la prueba
puede resultar apropiada (p. ej., en el cribado y los organismos que encargan el uso de la prueba
laboral previo). Sin embargo, en contextos edu- aceptan proporcionar información sobre los pun-
cativos, psicológicos, forenses y algunos de em- tos fuertes y débiles de sus instrumentos. Aceptan
pleo, se recomienda a los usuarios de la prueba (y la responsabilidad de advertir de posibles interpre-
podría ser legalmente obligatorio) que consideren taciones incorrectas por intérpretes no sofisticados
otras fuentes relevantes de información sobre los de puntajes individuales o datos agregados. Sin
examinandos y no solo los puntajes. En estas si- embargo, la responsabilidad última del uso y la
tuaciones, los psicólogos, educadores u otros pro- interpretación correctos recae principalmente en
fesionales familiarizados con el contexto local y el usuario de la prueba. Al asumir esta responsa-
con los examinandos locales suelen estar mejor bilidad, el usuario deberá adquirir conocimientos
157

capítulo 9
sobre los usos apropiados de la prueba y las pobla- gran escala. Si se usa el mismo material de pruebas
ciones para las cuales resulta idónea. El usuario de en años sucesivos, los usuarios deberán supervi-
la prueba deberá estar preparado para desarrollar sar activamente el programa para determinar si la
un análisis lógico que respalde las diversas face- reutilización ha puesto en riesgo la integridad de
tas de la evaluación y las inferencias extraídas de los resultados.
los resultados de la evaluación. Los usuarios de la Algunos de los estándares siguientes reiteran
prueba en todos los contextos (p. ej. clínico, de ideas incluidas en otros capítulos, sobre todo el
orientación, de acreditación, educativos, empleo, capítulo 3 (“Imparcialidad en las pruebas”), el
forense, psicológico) también deberán convertirse capítulo 6 (“Administración, calificación, presen-
en expertos en comunicar las implicaciones de los tación de reportes e interpretación de pruebas”),
resultados de la prueba a quienes estén facultados el capítulo 8 (“Derechos y responsabilidades de
para recibir esta información. los examinandos”), el capítulo 10 (“Pruebas y
En algunos casos, es posible que los usuarios evaluación psicológicas”), el capítulo 11 (“Prue-
tengan la obligación de recopilar evidencias adi- bas y acreditación en el centro de trabajo”) y el
cionales sobre la calidad técnica de la prueba. capítulo 12 (“Pruebas y evaluación educativas”).
Por ejemplo, si las evaluaciones de desempeño se La repetición es intencional. Permite la enumera-
califican localmente, se podría requerir evidencia ción en un capítulo de las principales obligaciones
del grado de concordancia entre evaluadores. Los que debe asumir el administrador y usuario de la
usuarios también deben estar atentos a las proba- prueba, aunque estas responsabilidades pueden
bles consecuencias locales del uso de la prueba, hacer referencia a temas que se tratan con mayor
sobre todo en el caso de programas de pruebas a detalle en otros capítulos.
158

Estándares para los derechos y responsabilidades

de los usuarios de la prueba
Los estándares de este capítulo empiezan con un y de considerar las medidas apropiadas si se dan
estándar general (con el número 9.0), diseñado consecuencias negativas. Además, aunque a me-
para comunicar el propósito central o el enfoque nudo se exige que los usuarios de la prueba com-
principal del capítulo. El estándar general tam- partan los resultados con los examinandos y otros
bién se puede ver como el principio rector del ca- grupos de usuarios de la prueba, deben recordar
pítulo y se aplica a todas las pruebas y a todos los que se debe proteger el contenido de la prueba
usuarios de la prueba. Todos los estándares poste- para mantener la integridad de los puntajes, y que
riores se han dividido en tres unidades temáticas, los examinandos tienen expectativas razonables
etiquetadas de la siguiente manera: de privacidad, las cuales podrían estar especifica-
das en determinadas leyes y normativas estatales
1. Validez de las interpretaciones y federales.
2. Diseminación de la información
3. Seguridad de la prueba y protección de los
derechos de autor
Unidad 1. Validez de las
interpretaciones

Los usuarios de la prueba son responsables de La responsabilidad por el uso de la prueba se
conocer la evidencia de validación que respalda debe asumir por, o delegar a, aquellas personas
las interpretaciones previstas de los puntajes que tengan la capacitación, las acreditaciones
de las pruebas que usan, desde la selección de profesionales o la experiencia necesarias para
la prueba hasta el uso de puntajes, así como las gestionar esta responsabilidad. Se deben satis-
consecuencias comunes positivas o negativas del facer todas las cualificaciones especiales para la
uso de la prueba. Los usuarios de la prueba tam- administración o interpretación especificadas en
bién tienen la responsabilidad legal y ética de el manual de la prueba.
proteger la seguridad del contenido de la prueba
Comentario: Los usuarios de la prueba solo de-
y la privacidad de los examinandos, y deben pro-
ben interpretar los puntajes de los examinandos
porcionar información pertinente y oportuna a
cuyas necesidades o características especiales es-
los examinandos y a otros usuarios de la prueba
tán dentro del ámbito de las cualificaciones de
con quienes comparten los puntajes.
los usuarios de la prueba. Este estándar tiene una
Comentario: Los usuarios de la prueba son pro- importancia especial en áreas como las pruebas
fesionales que pueden dividirse en varias catego- clínicas, forenses y de personalidad, las pruebas
rías, incluyendo quienes administran las pruebas de educación especial, las pruebas de personas
y quienes interpretan y usan los resultados de las con discapacidades o con exposición limitada a
pruebas. Los usuarios de la prueba que interpre- la cultura dominante, las pruebas de estudian-
tan y usan los resultados son responsables de cer- tes de inglés y en otras situaciones donde el im-
ciorarse de que existe una evidencia de validación pacto potencial es muy significativo. Cuando
apropiada que respalde las interpretaciones y usos la situación o el grupo de examinandos quedan
de los resultados de la prueba. En algunos casos, fuera de la experiencia del usuario, se debe ob-
los usuarios de la prueba también son legalmente tener asistencia. Un número de organizacio-
responsables de cerciorarse del efecto de sus prác- nes profesionales cuentan con códigos de ética
ticas de evaluación sobre los subgrupos relevantes que especifican las cualificaciones necesarias de
159

capítulo 9
quienes administran pruebas e interpretan pun- Estándar 9.3

tajes dentro del ámbito de práctica de esas or-
ganizaciones. En última instancia, el profesional El usuario de la prueba debe tener una justifi-
es el responsable de garantizar que se cumplen cación clara para los usos previstos de un pro-
los requisitos de capacitación clínica, los códigos cedimiento de prueba o evaluación en términos
éticos y los estándares legales para la administra- de validez de las interpretaciones basadas en los
ción e interpretación de pruebas. puntajes y la contribución que hagan los punta-
jes al proceso de evaluación y toma de decisiones.
Comentario: El usuario de la prueba debe ser
Estándar 9.2
claro en lo que respecta a los motivos por los que
Antes de la adopción y uso de una prueba administra una prueba. En otras palabras, la jus-
publicada, el usuario de la prueba deberá es- tificación de la función de cada instrumento en la
tudiar y evaluar los materiales suministrados selección, diagnóstico, clasificación y toma de de-
por el desarrollador de la prueba. Son de es- cisiones debe presentarse antes, y no después, de
pecial importancia los materiales que resumen la administración de la prueba. En algunos casos,
los propósitos de la prueba, especifican los los argumentos de referencia proporcionan la jus-
procedimientos de la administración, definen tificación de la elección de las pruebas, inventa-
las poblaciones objetivo de examinandos y rios y procedimientos de diagnóstico que se van a
examinan las interpretaciones de los puntajes utilizar, y la justificación también puede estar res-
con datos de validez y confiabilidad/precisión paldada por materiales impresos preparados por
disponibles. el editor de la prueba. Asimismo, la justificación
puede provenir de otras fuentes, por ejemplo, la
Comentario: Una premisa para el uso correcto de literatura empírica.
la prueba es el conocimiento de los materiales que
complementan el instrumento. Como mínimo,
esto incluye los materiales suministrados por el Estándar 9.4
desarrollador de la prueba. Idealmente, el usuario
Cuando una prueba se va a utilizar para un pro-
debe estar familiarizado con los estudios pertinen-
pósito que tiene poca o ninguna evidencia de
tes recogidos en la literatura profesional y debe
validación disponible, el usuario es responsable
tener la capacidad de discriminar entre pruebas
de documentar la justificación de la selección de
apropiadas e inapropiadas para el uso previsto con
la prueba y de obtener la evidencia de confiabi-
la población objetivo. El nivel de confiabilidad/
lidad/precisión de los puntajes de la prueba y la
precisión del puntaje y los tipos de evidencia de
validez de las interpretaciones que respaldan el
validación requeridos para las interpretaciones
uso de los puntajes para ese propósito.
de puntaje idóneas depende de la función de la
prueba en el proceso de evaluación y el impacto Comentario: La persona que use los puntajes de
potencial del proceso en las personas participan- la prueba para propósitos que no han sido espe-
tes. El usuario de la prueba debe conocer las res- cíficamente recomendados por el desarrollador de
tricciones legales que pueden limitar el uso de la la prueba es responsable de recopilar la evidencia
prueba. En ocasiones, el juicio profesional puede de validación necesaria. En ocasiones, el respaldo
llevar al uso de instrumentos con escasa evidencia de tales usos puede encontrarse en la literatura
de validación de las interpretaciones de los pun- profesional. Si no es suficiente una evidencia an-
tajes para el uso elegido. En estas situaciones, el terior, se deberán recopilar datos adicionales a lo
usuario no debería suponer que los puntajes, de- largo del tiempo a medida que se use la prueba.
cisiones o inferencias se basan en una evidencia Las disposiciones de este estándar no se deben
bien documentada con respecto a la confiabilidad considerar como una prohibición de la genera-
o validez. ción de hipótesis sobre los datos de la prueba. No
160

obstante, estas hipótesis se deben etiquetar clara- solventar cualquier consecuencia negativa que se
mente como provisionales. Las partes interesa- pueda producir.
das deben tener conocimiento de las limitaciones
potenciales de los puntajes de la prueba en tales Estándar 9.7
situaciones.
Los usuarios de la prueba deben verificar perió-
Estándar 9.5 dicamente que sus interpretaciones de los datos
de la prueba siguen siendo apropiadas frente a
Los usuarios de la prueba deben estar atentos a cualquier cambio relevante en la población de
la posibilidad de errores de puntaje y deben to- examinandos, los métodos de administración o
mar las medidas apropiadas cuando se sospeche los propósitos de la evaluación.
la existencia de errores.
Comentario: A lo largo del tiempo, un cambio
Comentario: Los costos de los errores de puntaje gradual de las características de una población de
son altos, sobre todo en los programas de pruebas examinandos puede afectar de forma significativa
de alto riesgo. En algunos casos, el examinando a la precisión de las inferencias extraídas de medias
puede solicitar una nueva calificación. Si este grupales. Las modificaciones en la administración
derecho del examinando se reconoce en mate- de la prueba en respuesta a circunstancias imprevis-
riales publicados, debe respetarse. Sin embargo, tas también pueden afectar a las interpretaciones.
los usuarios de la prueba no deben depender de
que los examinandos sean quienes los alerten de Estándar 9.8
la posibilidad de errores de puntaje. Cuando sea
factible, la supervisión de la precisión de los pun- Cuando los resultados de una prueba se comu-
tajes deberá ser una responsabilidad de rutina de nican al público o a los responsables de políti-
los administradores de un programa de pruebas y cas, los responsables de la comunicación deben
se debe llevar a cabo una recalificación cuando se proporcionar y explicar cualquier información
sospeche la existencia de errores. complementaria que pueda minimizar posibles
interpretaciones erróneas de los datos.
Estándar 9.6 Comentario: Los usuarios de la prueba tienen la
responsabilidad de reportar los resultados de ma-
Los usuarios de la prueba deben estar atentos
nera que faciliten las interpretaciones previstas
a potenciales interpretaciones erróneas de los
para los usos propuestos de los puntajes, y esta
puntajes de la prueba; deberán adoptar medi-
responsabilidad se extiende más allá del exami-
das para minimizar o evitar las interpretaciones
nando individual y llega a los grupos o individuos
erróneas previsibles y los usos inapropiados de
a quienes se proporciona los puntajes. Los usua-
los puntajes.
rios de la prueba en situaciones de evaluaciones
Comentario: Audiencias no capacitadas pueden grupales son responsables de garantizar que los
adoptar interpretaciones simplistas de los resulta- individuos que usan los resultados de la prueba
dos de una prueba o pueden atribuir los puntajes estén capacitados para interpretar correctamente
altos, bajos o promedios a factores causales únicos. los puntajes. Presentaciones preliminares antes de
A veces, los usuarios de la prueba pueden antici- la publicación de los resultados pueden dar a pe-
par tales interpretaciones erróneas y deben inten- riodistas, responsables de políticas o miembros el
tar evitarlas. Por supuesto, no es posible anticipar público la oportunidad de asimilar los datos fun-
todas las interpretaciones no deseadas y pueden damentales. A menudo, la interpretación errónea
producirse consecuencias negativas imprevistas. puede ser el resultado de una presentación inade-
Lo que se requiere es un esfuerzo razonable para cuada de la información relevante para la inter-
propiciar interpretaciones y usos válidos y para pretación de los puntajes.
161

capítulo 9

Cuando el usuario de una prueba considera una Cuando las circunstancias requieren que una
alteración en el formato, el modo de adminis- prueba se administre en el mismo idioma para
tración, las instrucciones o el idioma utilizado todos los examinandos de una población lingüís-
para administrar una prueba, el usuario debe ticamente diversa, el usuario de la prueba debe
disponer de una justificación sólida y de eviden- investigar la validez de las interpretaciones de los
cia empírica, cuando sea posible, para concluir puntajes de los examinandos con competencia
que la confiabilidad/precisión de los puntajes y limitada en el idioma de la prueba.
la validez de las interpretaciones basadas en los
Comentario: la prueba podría medir errónea-
puntajes no se verán afectados.
mente el rendimiento, las competencias y las ca-
Comentario: En algunos casos, puede preverse ra- racterísticas de los examinandos que no tienen el
zonablemente, sin evidencia, que cambios meno- idioma de la prueba como lengua principal, in-
res en el formato o el modo de administración van cluso si la administración de una prueba alterna-
a tener poco o ningún efecto en los puntajes de las tiva es legalmente aceptable. La práctica correcta
pruebas, las decisiones de clasificación o la idonei- requiere una evaluación continua de los datos para
dad de las normas. Sin embargo, en otros casos, proporcionar evidencia que respalde el uso de la
los cambios en el formato o en los procedimien- prueba con todos los grupos lingüísticos o eviden-
tos administrativos pueden tener efectos conside- cia para cuestionar el uso de la prueba cuando la
rables en la validez de las interpretaciones de los competencia en el idioma no es relevante.
puntajes, esto es, que modifiquen o cambien el
constructo bajo evaluación. Si se generaliza una
determinada modificación, se deberá recopilar Estándar 9.12
la evidencia de validación; si resulta apropiado, Cuando uno de los propósitos principales de la
también deberán desarrollarse las normas bajo las prueba es describir el estado de una población
condiciones modificadas. local, regional o específica de examinandos, de-
ben seguirse de forma estricta los criterios de in-
Estándar 9.10 clusión o exclusión de los individuos.
Los usuarios de la prueba no deben depender Comentario: Pueden darse resultados sesgados
exclusivamente de interpretaciones genera- por la exclusión de subgrupos específicos de exa-
das por computadora de los resultados de la minandos. Por lo tanto, las decisiones de exclu-
prueba. sión o inclusión de examinandos deben basarse
en la representación apropiada de la población.
Comentario: El usuario de servicios de cali-
ficación y presentación de reportes generados
automáticamente tiene la obligación de fami- Estándar 9.13
liarizarse con los principios que sirven de base
En contextos educativos, clínicos o de orienta-
a esas interpretaciones. Todos los usuarios que
ción, el puntaje de un examinando no se debe
formulan inferencias y toman decisiones sobre
interpretar de forma aislada; se debe considerar
la base de esos reportes deben tener la capacidad
otro tipo de información pertinente que pueda
de evaluar una interpretación de puntaje gene-
llevar a explicaciones alternativas del desempeño
rada por computadora a la luz de otra eviden-
del examinando en la prueba.
cia pertinente de un examinando. Los reportes
narrativos automatizados no sustituyen al juicio Comentario: No es factible ni necesario realizar
profesional sólido y pueden ser equívocos si se una revisión intensiva de los puntajes de cada
usan de forma aislada. uno de los examinandos. En algunos contextos, la
162

información colateral puede ser escasa o no existir a los examinandos sobre la disponibilidad de las
en absoluto. Sin embargo, en contextos de orien- adecuaciones. La responsabilidad de solicitar las
tación, clínicos o educativos, a veces se encuentra adecuaciones y de proporcionar documentación
disponible abundante información pertinente. que respalde sus solicitudes puede recaer entonces
Las explicaciones alternativas evidentes de pun- en los examinandos o en sus tutores. Los usuarios
tajes bajos pueden incluir una baja motivación, de la prueba deberán tener la capacidad de espe-
fluidez limitada en el idioma de la prueba, opor- cificar la información o evidencia (p. ej., manual
tunidad limitada de aprendizaje, escasa familiari- de la prueba, estudio de investigación) usada para
dad con conceptos culturales en los que se basan optar por una adecuación apropiada.
los ítems y discapacidad perceptual o motora. El
usuario de la prueba corrobora los resultados de
la evaluación con información adicional de una Unidad 2. Diseminación de la
variedad de fuentes, por ejemplo, entrevistas y re-
información
sultados de otras pruebas (p. ej., para examinar
el concepto de confiabilidad del desempeño a lo
largo del tiempo o de varias pruebas). Cuando Estándar 9.15
una inferencia se basa en un solo estudio o en
Se debe informar a quienes tienen un interés
estudios con muestras no representativas de los
legítimo en una evaluación sobre los propósitos
examinandos, el usuario de la prueba deberá te-
de esta, cómo se administrarán las pruebas, los
ner mayor cautela con respecto a la inferencia
factores considerados en la calificación de las res-
formulada. En contextos clínicos o de orienta-
puestas de los examinandos, cómo se usarán los
ción, el usuario de la prueba no debe pasar por
puntajes, durante cuánto tiempo de retendrán
alto el grado de funcionamiento del examinando
los registros y a quién y bajo qué condiciones se
en la vida diaria. Si las pruebas se administran
divulgarán.
mediante computadoras y otros dispositivos elec-
trónicos o a través de Internet, los usuarios de la Comentario: Los individuos con un interés le-
prueba seguirán teniendo la responsabilidad de gítimo en los resultados de la evaluación inclu-
proporcionar respaldo a la interpretación de los yen, entre otros, a los examinandos, los padres
puntajes, incluyendo consideraciones de explica- o tutores, los educadores y los magistrados. Este
ciones alternativas cuando sea apropiado. estándar tiene un mayor grado de relevancia y
aplicación para la evaluación educativa y clínica
que para la evaluación laboral. En la mayoría de
Estándar 9.14 los usos de las pruebas para la selección de soli-
citantes de empleo y programas educativos, para
Los usuarios de la prueba deben informar a los
la concesión de licencias profesionales y de acre-
individuos que puede necesitar adecuaciones en
ditaciones, o para medir el rendimiento, los pro-
la administración (p. ej. adultos mayores, exami-
pósitos de la evaluación y los usos previstos de los
nandos con discapacidades o estudiantes de in-
puntajes resultan evidentes para los examinandos.
glés) sobre la disponibilidad de las adecuaciones
Sin embargo, se recomienda comunicar esta infor-
y, cuando se requieran, deben asegurarse de que
mación al menos brevemente en estos contextos.
estas adecuaciones estén disponibles de forma
No obstante, en algunas situaciones, es posible
apropiada.
que la justificación de la evaluación solo quede
Comentario: Las adecuaciones apropiadas depen- clara para relativamente pocos examinandos. En
den de la naturaleza de la prueba y las necesidades tales contextos, puede ser necesario un análisis
de los examinandos, y deben estar en consonan- más detallado y explícito. La retención de regis-
cia con la documentación proporcionada con la tros, los requisitos de seguridad y la privacidad de
prueba. Los usuarios de la prueba deben informar los registros suelen regirse por requisitos legales
163

capítulo 9
o prácticas institucionales, incluso en situaciones Comentario: Es posible que los monitores de los
donde la divulgación de registros sería claramente programas de pruebas de admisión o licencia-
beneficiosa para los examinandos. Antes de la eva- miento reporten irregularidades en el proceso de
luación, cuando proceda, el usuario de la prueba administración de la prueba que se traduzcan en
deberá comunicar al examinando quien va a te- cuestionamientos por parte de los examinandos
ner acceso a los resultados y al reporte escrito, de (p. ej., alarma de incendios en un edificio o fallo
qué manera se compartirán los resultados con el temporal del acceso a Internet). Cuando los pun-
examinando y si los resultados se van a compartir tajes de las pruebas sean manifiestamente inco-
con un tercero o el público, y en qué condiciones herentes con la información de otros candidatos,
(p. ej. en procesos judiciales). los usuarios de la prueba (p. ej., funcionarios de
admisión a la universidad) podrían plantear otros
cuestionamientos. Los examinandos deberán ser
Estándar 9.16 informados de sus derechos en tales situaciones,
A menos que las circunstancias demanden clara- si los hubiere.
mente que los resultados de la prueba se reten-
gan, el usuario de la prueba tiene la obligación Estándar 9.18
de proporcionar un reporte oportuno de los re-
Los usuarios de la prueba deben explicar a los
sultados al examinando y a otros facultados para
examinandos las oportunidades, si las hubiere,
recibir esta información.
para repetir un examen; los usuarios también de-
Comentario: Con frecuencia, la naturaleza de los ben indicar si se reportará algún puntaje previo
reportes de puntajes viene dictada por conside- o posterior a las personas facultadas para recibir
raciones prácticas. En algunos casos (p. ej., con los reportes de puntajes.
algunas certificaciones o pruebas de empleo),
Comentario: Algunos programas de pruebas per-
solo puede ser factible un breve reporte escrito.
miten a los examinandos repetir un examen varias
En otros casos, podría ser deseable facilitar tanto
veces, cancelar los puntajes u ocultar los puntajes
un reporte oral como un reporte escrito. La inter-
pretación debe variar de acuerdo con el nivel de a destinatarios potenciales. Se debe informar a los
sofisticación del destinatario. Cuando el exami- examinandos y a otros destinatarios de puntajes
nando es un niño, son los padres o tutores quienes de tales privilegios, si los hubiese, y de las condi-
suelen recibir una explicación de los resultados. ciones bajo las que se aplican.
Cuando las pruebas se administran para selección
o promoción de personal, o en otras circunstan- Estándar 9.19
cias específicas, no siempre se suministra un co-
mentario en forma de reporte o interpretación del Los usuarios de la prueba tienen la obligación de
puntaje. En algunos casos, las leyes de privacidad proteger la privacidad de los examinandos y las
estatales o federales pueden regir el alcance y los instituciones que participan en un programa de
destinatarios de la información divulgada. pruebas, a menos que se acuerde la divulgación
de información privada o esté autorizada por la
ley de manera específica.
Estándar 9.17
Comentario: La protección de la privacidad de los
Si un examinando o usuario de la prueba tiene examinandos individuales es un principio bien es-
dudas sobre la integridad de los puntajes de los tablecido en la medición psicológica y educativa.
examinandos, el usuario de la prueba debe infor- El almacenamiento y la transmisión de este tipo
mar al examinando de sus derechos pertinentes, de información deben cumplir los estándares le-
incluyendo la posibilidad de apelación y repre- gales y profesionales vigentes, y se debe extremar
sentación letrada. la precaución para proteger la confidencialidad
164

de los puntajes y la información complementaria comunidades a las que sirven y facilitar la crea-
(p. ej., la condición de discapacidad). En algunos ción de políticas comunes relacionadas con la
casos, los usuarios de la prueba y los organismos publicación de los resultados. Por ejemplo, en
de evaluación pueden adoptar restricciones más muchos estados, la publicación de datos de prue-
estrictas de las que dicta la ley con respecto a la co- bas educativas a gran escala suele ser una exigencia
municación y uso compartido de los resultados de legal. Sin embargo, incluso cuando no se requiere
las pruebas. Es posible que se apliquen las leyes de la publicación de datos, pero se realiza de forma
privacidad a determinados tipos de información y, rutinaria, los usuarios de la prueba deben tener
a veces, los códigos de ética adoptados por organi- políticas claras que rijan los procedimientos de
zaciones profesionales pueden contener estándares publicación. Diferentes políticas sin las justifica-
similares o más estrictos. En algunos programas ciones apropiadas pueden confundir al público y
de pruebas las condiciones para la divulgación causar controversias innecesarias.
se indican al examinando antes de la evaluación,
y hacer la prueba puede constituir la aceptación Unidad 3. Seguridad de la prueba y
de la divulgación de los puntajes correspondien-
protección de los derechos de autor
tes, de la manera en que se especifique. En otros
programas, el examinando (o sus padres o tutores)
deberán aceptar formalmente cualquier divulga- Estándar 9.21
ción de información de la prueba a individuos u
Los usuarios de la prueba tienen la responsabili-
organismos que no se hayan especificado en la lite-
dad de proteger la seguridad de las pruebas, in-
ratura publicada del administrador. Es posible que
cluyendo la de ediciones anteriores.
las leyes de privacidad vigentes, si las hubiere, rijan
y permitan (como en el caso de los distritos escola- Comentario: Cuando las pruebas se usan para
res para fines de rendición de cuentas) o prohíban fines de selección, acreditación, rendición de
(como en contextos clínicos) la divulgación de la cuentas en el ámbito educativo, o para diag-
información de la prueba. Se debe señalar que, con nóstico, tratamiento y monitorización clínicos,
frecuencia, la ley garantiza el derecho del público resulta esencial la protección rigurosa de la se-
y los medios a examinar los resultados agregados guridad de la prueba por motivos relacionados
de las pruebas del sistema público de educación. con la validez de las inferencias extraídas, la
Esto suele incluir los puntajes de las pruebas desa- protección de los derechos de propiedad intelec-
gregados por subgrupos demográficos cuando los tual y los costos asociados con el desarrollo de
números son suficientes para generar resultados pruebas. Los desarrolladores y editores de prue-
estadísticamente válidos y para evitar la identifica- bas, y los individuos titulares de los derechos de
ción de los examinandos individuales. autor de las pruebas, proporcionarán directrices
específicas sobre la seguridad de la prueba y la
eliminación de los materiales de la prueba. El
Estándar 9.20 usuario de la prueba tiene la responsabilidad
de garantizar la seguridad de los materiales de
En situaciones donde los resultados de la prueba
la prueba de acuerdo con las directrices profe-
se comparten con el público, los usuarios de la
sionales establecidas para la prueba, así como
prueba deben formular y compartir la política
con los estándares legales vigentes. La reventa de
establecida relacionada con la publicación de los
materiales protegidos por derechos de autor en
resultados (p. ej., pertinencia temporal, nivel
foros abiertos es una violación de este estándar,
de detalle) y aplicar esa política a lo largo del
y las grabaciones de audio y vídeo para fines de
tiempo de forma sistemática.
entrenamiento se deben gestionar de manera que
Comentario: Los desarrolladores y usuarios de no se divulguen al público. Estas prohibiciones
la prueba deben considerar las prácticas de las también se aplican a las ediciones anteriores de
165

capítulo 9
la prueba; los usuarios de la prueba deberán ayu- como hojas de respuestas y formularios de perfi-
dar a garantizar que los materiales se eliminen de les, plantillas de calificación, tablas de conversión
forma segura cuando ya no estén en uso (p. ej., de puntajes brutos a puntajes reportados y tablas
en el momento de su retirada o después de la de normas. El almacenamiento y transmisión de
compra de una nueva edición). En tales situacio- la información de la prueba debe cumplir los es-
nes, la coherencia y la claridad de la definición tándares legales y profesionales vigentes.
de prácticas aceptables y no aceptables resultan
esenciales. Cuando las pruebas se vean involucra- Estándar 9.23
das en litigios, se debe restringir la inspección de
los instrumentos (en la medida en que lo permita Los usuarios de la prueba deben recordar a todos
la ley) a quienes tengan la obligación de salva- los examinandos, incluyendo a aquellos que rea-
guardar la seguridad de la prueba por imperativo lizan pruebas administradas electrónicamente, y
legal o ética profesional. a otras personas que puedan tener acceso a los
materiales de la prueba, que las políticas y nor-
Estándar 9.22 mativas sobre derechos de autor pueden prohibir
la divulgación de los ítems de la prueba sin auto-
Los usuarios de la prueba tienen la responsa- rización específica.
bilidad de respetar los derechos de autor de la
Comentario: En algunos casos, la información
prueba, incluyendo los derechos de autor de
sobre los derechos de autor y las prohibiciones
pruebas que se administren mediante dispositi-
sobre la divulgación de los ítems de la prueba se
vos electrónicos.
proporcionan en formato escrito o verbal como
Comentario: Por ley y ética, los usuarios de la parte del procedimiento previo al inicio de una
prueba no pueden reproducir o crear versiones prueba o como parte de los procedimientos de
electrónicas de materiales protegidos por de- administración. No obstante, incluso en los casos
rechos de autor para usos rutinarios sin el con- en que esta información no es parte formal de la
sentimiento del titular de los derechos de autor. administración de la prueba, si los materiales es-
Estos materiales (tanto en formato papel como tán protegidos por derechos de autor, los usuarios
electrónico) incluyen ítems de la prueba, proto- de la prueba deberán informar a los examinandos
colos de la prueba, formularios complementarios de sus responsabilidades en esta área.
166

III
PARTE III
Aplicaciones de las pruebas

10. P
RUEBAS Y EVALUACIÓN
PSICOLÓGICAS
Antecedentes
Este capítulo aborda temas importantes para pruebas; el capítulo 8, que se centra en los dere-
los profesionales que usan pruebas psicológicas chos de los examinandos; y el capítulo 9, que se
para la evaluación de individuos. Los temas que centra en los derechos y responsabilidades de los
se tratan en este capítulo incluyen la selección y usuarios de la prueba. En los capítulos 1, 2, 4, 5,
administración de pruebas, la interpretación de 6 y 7, los lectores encontrarán detalles adicionales
puntajes de pruebas, el uso de información co- importantes sobre la validez; la confiabilidad y la
lateral en la evaluación psicológica, los tipos de precisión; el desarrollo de pruebas; el escalamiento
pruebas y los propósitos de la evaluación psico- y la equiparación; la administración, calificación,
lógica. En este capítulo, se revisan pruebas psi- presentación de reportes e interpretación; y sobre
cológicas de tipo cognitivo y neuropsicológico, la documentación de respaldo.
de conducta problemática, de familias y parejas, El uso de pruebas psicológicas proporciona
de comportamientos sociales y de adaptación, de un método para la recolección de información
personalidad y vocacionales. Además, el capítulo dentro de un marco más amplio de evaluación
incluye una descripción general de cinco usos co- psicológica de un individuo. Por lo general, las
munes de pruebas psicológicas: diagnóstico; eva- evaluaciones psicológicas implican una interac-
luación psicológica; evaluación neuropsicológica; ción entre un profesional capacitado y con ex-
planificación de intervención y evaluación de re- periencia en evaluaciones, el examinando y un
sultados; decisiones judiciales y gubernamentales; cliente que puede ser el propio examinando o
y conciencia personal, identidad social, y salud, un tercero. El examinando puede ser un niño,
desarrollo y acción psicológicos. Los estándares un adolescente o un adulto. Habitualmente, el
de este capítulo se aplican a contextos donde se cliente es la persona u organismo que organiza la
llevan a cabo evaluaciones en profundidad de per- evaluación. Los clientes pueden ser pacientes, per-
sonas, ya sea de forma individual o grupal. Las sonas bajo orientación, padres, niños, empleados,
pruebas psicológicas se usan también en otros empleadores, abogados, estudiantes, organismos
contextos, sobre todo en contextos educativos y del gobierno u otras partes responsables. Los con-
de empleo. Las pruebas diseñadas para medir ca- textos donde se usan pruebas o inventarios psico-
racterísticas específicas de candidatos relacionadas lógicos incluyen, entre otros, jardines de infancia,
con el trabajo para fines de selección se tratan en escuelas infantiles, primarias y secundarias, facul-
el texto y los estándares del capítulo 11; las prue- tades y universidades, contextos de preselección
bas usadas en contextos educativos se abordan en de empleo, hospitales, prisiones, clínicas de salud
profundidad en el capítulo 12. y de salud mental, y otros centros profesionales.
Es crucial que los profesionales que usen Las tareas que comportan una evaluación psi-
pruebas para realizar evaluaciones de individuos cológica (recopilación, evaluación, integración y
tengan conocimiento de los factores educativos, reporte de información saliente significativa para
lingüísticos, nacionales y culturales, así como ca- los aspectos del funcionamiento del examinando
pacidades físicas que influyen en (a) el desarrollo sometido a examen) incluyen un conjunto de ac-
de un examinando, (b) los métodos para obtener tividades profesionales complejas y sofisticadas.
y transmitir información, y (c) la planificación Una evaluación psicológica se lleva a cabo para
e implementación de las intervenciones. Por lo responder preguntas específicas sobre el funcio-
tanto, se recomienda a los lectores a revisar el namiento psicológico o el comportamiento de
capítulo 3, que trata de la imparcialidad en las un examinando durante un intervalo de tiempo
169

capítulo 10
concreto o para predecir un aspecto del funciona- Selección y administración de pruebas

miento psicológico o el comportamiento en el fu-
turo. Debido a que típicamente los puntajes de las La selección y administración de pruebas e inven-
pruebas se interpretan en el contexto de otra in- tarios psicológicos suele ser individualizada para
formación sobre el examinando, la evaluación psi- cada participante. Sin embargo, en algunos con-
cológica de un individuo también incluye, por lo textos se pueden realizar pruebas predeterminadas
general, entrevistas al examinando, la observación para todos los participantes, y las interpretaciones
de su comportamiento en el contexto apropiado, de los resultados se podrían proporcionar en un
la revisión de sus registros educativos, sanitarios, escenario de grupo.
psicológicos y otros que resulten pertinentes, y El proceso de evaluación empieza clarifi-
la integración de estos hallazgos con otro tipo de cando, en la medida de lo posible, los motivos por
información que terceros podrían proporcionar. los cuales se evalúa al examinando. Estos motivos
Los resultados de las pruebas e inventarios usados y otros intereses pertinentes guían la selección de
en las evaluaciones psicológicas pueden ser útiles las pruebas, inventarios y procedimientos de diag-
para que los profesionales entiendan más cabal- nóstico que se van a usar, así como la identificación
mente a los examinandos y formulen hipótesis, de otras fuentes de información necesarias para la
inferencias y decisiones más informadas sobre los evaluación del examinando. Las conclusiones pre-
aspectos del funcionamiento psicológico de los liminares pueden llevar a la selección de pruebas
examinandos o las intervenciones apropiadas. adicionales. El profesional tiene la responsabili-
La interpretación de los puntajes de las pruebas dad de familiarizarse con la evidencia de valida-
e inventarios puede ser una parte valiosa del pro- ción de los usos previstos de los puntajes de las
ceso de evaluación y, si se utiliza adecuadamente, pruebas e inventarios seleccionados, incluyendo
puede aportar información útil a los examinandos las pruebas online o administradas por computa-
y a otros usuarios de la interpretación. Por ejem- dora. Durante la selección de la prueba, también
plo, los resultados de las pruebas e inventarios se debe considerar la evidencia de confiabilidad/
se pueden usar para evaluar el funcionamiento precisión de los puntajes y la disponibilidad de los
psicológico de un individuo; asignar una clasifi- datos normativos aplicables en la literatura de in-
cación de diagnóstico; detectar y caracterizar de- vestigación acumulada de la prueba. En el caso de
terioros neuropsicológicos, retrasos de desarrollo pruebas que hayan sido revisadas, generalmente
y discapacidades de aprendizaje; para determinar se deben seleccionar las ediciones que tienen el
la validez de un síntoma; evaluar los puntos fuer- respaldo actual del editor. En ocasiones, resulta
tes cognitivos o de personalidad, o los problemas apropiado el uso de una edición anterior de un
de salud mental o de comportamiento emocional; instrumento (p. ej., cuando se lleva a cabo una
para evaluar intereses y valores; determinar esta- investigación longitudinal o cuando una edición
dios de desarrollo o valorar los resultados de un previa contiene subpruebas pertinentes no inclui-
tratamiento. Los resultados de las pruebas tam- das en una edición posterior). Además, los pro-
bién pueden proporcionar información que se use fesionales tienen la responsabilidad de vigilar la
para la toma de decisiones que tienen un impacto dependencia respecto de puntajes de pruebas que
significativo y duradero en las vidas de las perso- sean obsoletas; en tales casos, resultarán adecua-
nas (p. ej., decisiones educativas o vocacionales, das las contrapruebas. En usos internacionales, es
diagnóstico, planes de tratamiento, incluyendo especialmente importante verificar que el cons-
planes de intervenciones psicofarmacológicas, tructo que se evalúa tiene un significado equiva-
evaluaciones de intervenciones y resultados, deci- lente en los distintos contextos culturales y por
siones de libertad condicional, compromiso civil, encima de las fronteras nacionales.
custodia infantil, competencia para ser juzgado, Las consideraciones de validez y confiabili-
litigios por daños personales y decisiones de pena dad/ precisión son esenciales, pero las caracterís-
de muerte). ticas demográficas de los grupos para los cuales la
170

PRUEBAS Y EVALUACIÓN PSICOLÓGICAS
prueba se diseñó originalmente y que tienen dis- comenzar el proceso de evaluación, el usuario de
ponibles datos normativos iniciales y posteriores la prueba o la parte responsable (p. ej., el padre, o
son también consideraciones importantes para la tutor legal) deberá saber quién va a tener acceso a
selección de pruebas. Seleccionar una prueba con los resultados de la prueba y al reporte escrito, de
grupos normativos apropiados demográfica y clí- qué manera se compartirán los resultados con el
nicamente, pertinentes para el examinando y para examinando, y si las decisiones que se basan en los
el propósito de la evaluación, es importante para resultados se van a compartir con el examinando,
la generabilidad de las inferencias que los pro- un tercero o el público y cuándo (p. ej. en proce-
fesionales tratan de formular. Es posible que no sos judiciales).
sea apropiado aplicar a otros grupos una prueba Los administradores de pruebas deben ser
construida para un grupo concreto. Si la prueba conscientes de las limitaciones personales que
se usa, las interpretaciones de los puntajes se de- afectan a su capacidad de administrar y calificar
berán clasificar y presentar como hipótesis y no una prueba de manera precisa e imparcial. Es-
como conclusiones. tas limitaciones pueden incluir factores físicos,
Las pruebas y los inventarios que cumplen los perceptuales y cognitivos. Algunas pruebas pre-
exigentes estándares técnicos de calidad son una sentan exigencias considerables a los administra-
condición necesaria, pero no suficiente, para una dores (p. ej., registrar las respuestas rápidamente,
administración y calificación de pruebas responsa- manipulación de equipos o ejecución de ítems
ble, y para la interpretación y uso de los puntajes. complejos durante la administración). Los admi-
Un profesional que lleva a cabo una evaluación nistradores de pruebas que no pueden cumplir de
psicológica debe disponer de una capacitación y forma cómoda estas exigencias no deben adminis-
entrenamiento completos y apropiados, adquirir trar tales pruebas. Para las pruebas que requieren
las acreditaciones adecuadas, adherirse a las direc- instrucciones orales antes o durante su adminis-
trices éticas profesionales y tener un alto grado de tración, los administradores deberán asegurarse
juicio profesional y de conocimientos científicos. de que no existen barreras a una clara compren-
Los profesionales que supervisan las pruebas sión por parte de los examinandos.
y la evaluación deben ser expertos en los procedi- Cuando se usan baterías de pruebas, el profe-
mientos correctos de administración de pruebas. sional debe determinar el orden apropiado de las
Son los responsables de garantizar que todas las pruebas que se administran. Por ejemplo, cuando
personas que administran y califican las pruebas se administren pruebas cognitivas o neuropsico-
hayan recibido la capacitación y entrenamiento lógicas, algunos profesionales administran pri-
adecuados para llevar a cabo las tareas asignadas. mero las pruebas que evalúan dominios básicos
Los administradores de pruebas deben adminis- (p. ej., la atención) y termina con pruebas que
trar las pruebas tal como se indica en los manuales evalúan dominios más complejos (p. ej., funcio-
de las pruebas y deben adherirse a los estándares nes ejecutivas). Los profesionales también tienen
éticos y profesionales. Por lo general, la educación la responsabilidad de establecer las condiciones
y la experiencia necesarias para administrar prue- de la evaluación que sean apropiadas para las ne-
bas de grupo o para monitorizar pruebas adminis- cesidades y capacidades de los examinandos. Por
tradas por computadora son menos extensas que ejemplo, es posible que el examinador tenga que
las cualificaciones necesarias para administrar e determinar si un examinando es capaz de leer en
interpretar puntajes de pruebas administradas in- el nivel requerido y si las discapacidades visuales,
dividualmente, que requieren interacciones entre auditivas, psicomotoras o clínicas o los déficits
el examinando y el administrador de la prueba. neurológicos cuentan con las adecuaciones co-
En muchas situaciones donde se requieren ob- rrectas. El capítulo 3 trata en detalle las conside-
servaciones de conducta complejas, es posible raciones y estándares relacionados con el acceso.
que no sea apropiado el uso de no profesionales La administración estandarizada no es nece-
para administrar o calificar las pruebas. Antes de saria para todas las pruebas, pero es importante
171

capítulo 10
para la interpretación de los puntajes en muchas de evaluación. Cuando son evidentes unos bajos
pruebas y propósitos. En esas situaciones, se de- niveles de esfuerzo y motivación durante la admi-
ben seguir los procedimientos de administración nistración de la prueba, seguir con la evaluación
estandarizada de pruebas. Cuando se requieran podría traducirse en interpretaciones incorrectas
o admitan procedimientos de administración no de los puntajes.
estándar, estos se deben describir y justificar. Si Los profesionales tienen la responsabilidad de
la prueba no estaba monitorizada o si se admi- proteger la confidencialidad y seguridad de los
nistró bajo procedimientos no estandarizados, resultados y materiales de las pruebas. El almace-
se debe informar al intérprete de los resultados. namiento y la transmisión de este tipo de infor-
En algunos casos, la administración de la prueba mación deberán cumplir los estándares legales y
puede proporcionar la oportunidad para que exa- profesionales.
minadores especializados observen atentamente el
desempeño de los examinandos bajo condiciones Interpretación de los puntajes
estandarizadas. Por ejemplo, las observaciones de las pruebas
de los administradores de la prueba les pueden
permitir el registro de los comportamientos que Idealmente, los puntajes usados en la evaluación
se evalúan, entender la manera en que los exa- psicológica se interpretan a la luz de un número
minandos llegan a las respuestas, identificar los de factores, incluyendo los datos normativos dis-
puntos fuertes y débiles de los examinandos, y ponibles apropiados para las características del
hacer modificaciones en el proceso de evaluación. examinando, las propiedades psicométricas de la
Si las pruebas se administran por computadora u prueba, los indicadores de esfuerzo, las circunstan-
otros dispositivos técnicos, el profesional tiene la cias del examinando en el momento de ejecutar la
responsabilidad de determinar si el propósito de prueba, la estabilidad temporal de los constructos
la evaluación y las capacidades del examinando que se miden, y los efectos de las variables mo-
requieren la presencia de un monitor o personal deradoras y las características demográficas en los
de respaldo (p. ej., para ayudar con el uso de las resultados de la prueba. Es poco frecuente que el
computadoras o el software). Asimismo, algunas profesional tenga los recursos disponibles para
pruebas administradas por computadora pueden realizar personalmente la investigación o para re-
requerir que se dé al examinando la oportunidad copilar las normas representativas que, en algunos
de recibir instrucciones y practicar antes de la tipos de evaluación, serían necesarias para hacer
administración de la prueba. Los capítulos 4 y 6 inferencias sobre el funcionamiento pasado, pre-
proporcionan detalles adicionales sobre las prue- sente y futuro de cada examinando. Por lo tanto,
bas administradas por medios tecnológicos. es posible que el profesional tenga que basarse
Esfuerzos inapropiados por parte de la persona en la investigación y el corpus de conocimientos
que está en evaluación podrían afectar los resulta- científicos disponibles para la prueba que respalda
dos de la evaluación psicológica e introducir erro- las inferencias apropiadas. La presentación de la
res en la medida del constructo en cuestión. Por evidencia de validación y confiabilidad/precisión
lo tanto, en algunos casos, se deberá explicar al no suele ser necesaria en el informe escrito que
examinando la importancia de emplear los esfuer- resume las conclusiones de la evaluación, pero el
zos apropiados cuando se lleva a cabo una prueba. profesional debe hacer todos los esfuerzos necesa-
En muchas pruebas, la medida del esfuerzo se rios para conocer (y estar preparado para articu-
puede deducir de pruebas independientes o de lar) tal evidencia si fuese necesario.
respuestas incorporadas en un procedimiento Cuando se deducen características y se hacen
de evaluación estándar (p. ej., número elevado de inferencias sobre los comportamientos pasados,
errores, respuestas no coherentes y respuestas in- presentes y futuros de un examinando a partir de
usuales correspondientes a patrones de síntomas) los puntajes de una prueba, el profesional debe
y el esfuerzo se puede medir a lo largo del proceso considerar otros datos disponibles que respalden
172

o cuestionen las inferencias. Por ejemplo, el pro- inexactas o equívocas. En situaciones donde se
fesional deberá revisar el historial y la información anticipa el sesgo de las respuestas o la simulación,
de comportamientos pasados del examinando, así los profesionales pueden seleccionar una prueba
como la literatura pertinente, para familiarizarse que tenga escalas (p. ej., porcentaje de “sí”, por-
con la evidencia de respaldo. En ocasiones, el pro- centaje de “no”; “simulación positiva” “simu-
fesional también deberá corroborar los resultados lación negativa”) que aclaren los riesgos para la
de una sesión de evaluación con los resultados de validez. De este modo, los profesionales podrían
otras pruebas y sesiones de evaluación para exa- evaluar el grado de tolerancia de los examinandos
minar la confiabilidad/precisión y la validez de a las demandas percibidas del administrador de la
las inferencias formuladas sobre el desempeño de prueba o los intentos de presentarse a sí mismos
un examinando a lo largo del tiempo o de varias como discapacitados (con “simulación negativa”)
pruebas. La triangulación de varias fuentes de o funcionales (“simulación positiva”).
información, incluyendo comportamientos esti- Con frecuencia, para algunos fines (incluida
lísticos y de ejecución que se deducen de la ob- la orientación profesional y la evaluación neu-
servación durante la administración de la prueba, ropsicológica), se usan baterías de pruebas. Por
puede reforzar la confianza en la inferencia. Es ejemplo, las baterías de orientación profesional
importante que se reconozcan los datos que no podrían incluir pruebas de capacidades, valores,
respaldan las inferencias y bien conciliarse con intereses y personalidad. Las baterías neuropsico-
otra información o anotarse como limitación de lógicas podrían incluir medidas de orientación,
la confianza puesta en la inferencia. Cuando hay atención, habilidades comunicativas, función
una sólida evidencia para la confiabilidad/preci- ejecutiva, fluidez, habilidades motoras visuales y
sión y la validez de los puntajes para los usos pre- visuales-espaciales, resolución de problemas, or-
vistos, y una sólida evidencia de la idoneidad de la ganización, memoria, inteligencia, rendimiento
prueba para el examinando que se evalúa, aumen- académico y/o personalidad, junto con baterías de
tará la competencia del profesional para extraer esfuerzo. Con frecuencia, cuando las baterías de
inferencias apropiadas. Cuando una inferencia se pruebas psicológicas incorporan varios métodos y
basa en un solo estudio o se basa en varios estudios puntajes, los patrones de resultados de las pruebas
cuyas muestras tienen una generabilidad limitada se interpretan como el reflejo de un constructo o
respecto del examinando, el profesional deberá ser incluso de una interacción entre constructos que
más cauteloso con la inferencia y deberá anotar subyace en el desempeño de las pruebas. Basán-
en el reporte las limitaciones relacionadas con las dose en los patrones de los puntajes de las prue-
conclusiones extraídas de la inferencia. bas, se podrían postular las interacciones entre los
La definición clara de la forma en que se van a constructos que subyacen en las configuraciones
utilizar pruebas psicológicas concretas minimizará de resultados de la prueba Cuando sea posible, se
los riesgos para la interpretabilidad de los pun- debe identificar la literatura que reporta evidencia
tajes obtenidos. Estos riesgos se producen como de confiabilidad/precisión y validez de las confi-
resultados de la varianza irrelevante de constructo guraciones de los puntajes que respaldan las inter-
(es decir, aspectos de la prueba y del proceso de pretaciones propuestas. Sin embargo, se entiende
evaluación que no son pertinentes para el propó- que existe poca o ninguna literatura que describa
sito de los puntajes de la prueba) y la subrepre- la validez de las interpretaciones de los puntajes
sentación del constructo (es decir, la incapacidad de baterías de pruebas flexibles o altamente per-
de la prueba de representar importantes aspectos sonalizadas. El profesional debe reconocer que
para el propósito de la evaluación). El sesgo de las es habitual que se produzca variabilidad de los
respuestas y la simulación son ejemplos de com- puntajes en distintas pruebas de una batería en
ponentes irrelevantes de constructo que pueden la población general y, si están disponibles, debe
desviar considerablemente los puntajes obtenidos, usar datos de valoración de referencia para deter-
traduciéndose posiblemente en interpretaciones minar si la variabilidad observada es excepcional.
173

capítulo 10
Si la literatura es incompleta, es posible que las Tipos de pruebas y evaluación

inferencias resultantes se presenten con la clasifi- psicológicas
cación de hipótesis para una futura verificación y
no como enunciados probabilísticos relativos a la Para los fines de este capítulo, los tipos de prue-
probabilidad de un comportamiento que impli- bas psicológicas se han dividido en seis categorías:
que alguna evidencia de validación conocida. pruebas cognitivas y neuropsicológicas, pruebas
de comportamiento problemático, pruebas para
Información colateral usada en pruebas familias y parejas, pruebas de comportamientos
y evaluación psicológicas sociales y de adaptación, pruebas de personalidad
y pruebas vocacionales.
Los puntajes de las pruebas que se usan como
parte de evaluaciones psicológicas se interpre- Pruebas y evaluación cognitivas y
tan mejor en el contexto del historial personal neuropsicológicas
y otros rasgos y características personales perti- Por lo general, las pruebas se usan para evaluar varios
nentes del examinando. A menudo, la calidad tipos de funcionamiento cognitivo y neuropsicoló-
de las interpretaciones formuladas a partir de gico, incluyendo la inteligencia, dominios de capa-
pruebas y evaluaciones psicológicas se mejora cidades generales y dominios más específicos (p. ej.,
con la obtención de información colateral plau- razonamiento abstracto y pensamiento categórico,
sible procedente de terceras fuentes importantes, rendimiento académico, atención, capacidades
por ejemplo, profesores, profesionales sanitarios, cognitivas, función ejecutiva, lenguaje, aprendizaje
registros escolares, judiciales, militares, profesio- y memoria, funciones motoras, sensomotoras y
nales y otros. La calidad de la información cola- preferencias laterales, y percepción y organización/
teral se mejora con el uso de varios métodos de integración perceptual). Se puede producir una su-
adquisición. Además de los puntajes de pruebas perposición en los constructos evaluados por prue-
objetivos, se pueden usar otros métodos para mi- bas de diferentes funciones o dominios. Al igual
nimizar la necesidad de que el evaluador dependa que otros tipos de pruebas, las pruebas cognitivas y
del juicio individual, por ejemplo, observaciones neuropsicológicas requieren un nivel mínimamente
conductuales estructuradas, listas de comproba- suficiente de capacidad del examinando para man-
ción, calificaciones y entrevistas. Por ejemplo, tener la atención, así como un esfuerzo apropiado.
una evaluación de metas profesionales se puede Por ejemplo, cuando se administran pruebas cog-
mejorar mediante la obtención de un historial nitivas o neuropsicológicas, algunos profesionales
de empleo, así como mediante la administración administran primero las pruebas que evalúan do-
de pruebas para evaluar las aptitudes y el rendi- minios básicos (p. ej., la atención) y termina con la
miento académico, los intereses vocacionales, los administración de pruebas que evalúan dominios
valores de trabajo, la personalidad y el tempera- más complejos (p. ej., la función ejecutiva).
mento. La disponibilidad de información sobre
las diversas características y atributos, cuando se Razonamiento abstracto y pensamiento categó-
adquiere de distintas fuentes y a través de varios rico. Las pruebas de razonamiento y pensamiento
métodos, permite a los profesionales evaluar con miden una amplia gama de habilidades y capacida-
mayor precisión el funcionamiento psicosocial des, incluyendo la capacidad de los examinandos
de un individuo y facilita una toma de decisiones para inferir relaciones, formar nuevos conceptos o
más eficaz. Cuando se usan datos colaterales, el estrategias, responder a circunstancias ambienta-
profesional debe adoptar las medidas necesarias les cambiantes, así como la capacidad de entender
para verificar la precisión y la confiabilidad, so- un problema o concepto, desarrollar una estrate-
bre todo cuando los datos proceden de terceros gia para resolver ese problema y, de ser necesario,
que pueden tener un interés adquirido en los re- alterar tales conceptos o estrategias a medida que
sultados de la evaluación. las situaciones cambian.
174

Rendimiento académico. Las pruebas de rendi- de habilidades y capacidades. Los resultados de las
miento académico miden los conocimientos y la pruebas se usan para formular inferencias sobre
competencia que ha adquirido una persona en el nivel general de funcionamiento intelectual de
situaciones formales e informales de aprendizaje. una persona y sobre los puntos fuertes y débiles de
Los dos principales tipos de pruebas de rendi- varias capacidades cognitivas, y para diagnosticar
miento académico son las baterías generales de trastornos cognitivos.
rendimiento y las pruebas diagnósticas de rendi-
miento. Las baterías generales de rendimiento es- Función ejecutiva. Este tipo de funciones inter-
tán diseñadas para evaluar el nivel de aprendizaje vienen en los desempeños organizados (p. ej.,
de una persona en varias áreas (p. ej., lectura, ma- flexibilidad cognitiva, control inhibitorio, mul-
temáticas y ortografía). Por el contrario, las prue- titarea) que se necesitan para la consecución in-
bas diagnósticas de rendimiento se centran, por dependiente, deliberada y efectiva de objetivos
lo general, en un área temática (p. ej., la lectura) en diversas situaciones sociales, el procesamiento
y evalúan una competencia académica con mayor cognitivo y la resolución de problemas. Algunas
detalle. Los resultados de las pruebas se usan para pruebas remarcan (a) los planes razonados de
determinar los puntos fuertes de los examinandos acción que anticipan las consecuencias de solu-
y también para identificar fuentes de dificultades ciones alternativas, (b) el desempeño motor en
o deficiencias académicas. El capítulo 12 propor- situaciones de resolución de problemas que re-
ciona detalles adicionales sobre pruebas de rendi- quieren intenciones orientadas a los objetivos, y/o
miento académico en contextos educativos. (c) la regulación del desempeño para conseguir un
resultado deseado.
Atención. La atención se refiere a un dominio que
abarca los constructos de estimulación, creación Lenguaje. Por lo general, las deficiencias de
de conjuntos, despliegue estratégico de atención, lenguaje se identifican con evaluaciones que se
atención continua, atención dividida, atención centran en la fonología, morfología, sintaxis,
concentrada, atención selectiva y vigilante. Las semántica, supralingüística y pragmática. Se
pruebas pueden medir (a) los niveles de alerta, pueden evaluar varias funciones, incluyendo las
orientación y localización; (b) la capacidad de capacidades y habilidades de lectura, auditivas,
centrar, desplazar y mantener la atención y de y de lenguaje oral y escrito. Las evaluaciones de
seguir uno o más estímulos bajo diversas con- trastornos de lenguaje se centran en el habla fun-
diciones; (c) la amplitud de la atención; y (d) el cional y la compresión verbal medidas a través de
funcionamiento del almacenamiento de atención los modos orales, escritos o gestuales; el acceso y la
a corto plazo. Los puntajes de cada uno de los elaboración léxicos; la repetición de lenguaje oral
aspectos de la atención que se haya examinado se y la fluidez verbal asociativa. Si se evalúa a una
deben reportar individualmente, de manera que persona multilingüe por un posible trastorno de
sea posible clarificar la naturaleza de un trastorno lenguaje, se debe abordar el grado en que el tras-
de atención. torno se debe más directamente a problemas de
desarrollo del lenguaje (p. ej., retrasos fonológi-
Capacidad cognitiva. Entre las pruebas más ex- cos, morfológicos, sintácticos, semánticos o prag-
tensamente administradas están las medidas dise- máticos; discapacidades intelectuales; deterioros
ñadas para cuantificar las capacidades cognitivas. periféricos, sensoriales o neurológicos centrales;
La interpretación de resultados de una prueba de condiciones psicológicas o trastornos sensoriales)
capacidad cognitiva se rige por los constructos que a una falta de destreza en un determinado
teóricos usados para desarrollar la prueba. Algunas idioma.
evaluaciones de la capacidad cognitiva se basan en
resultados de baterías de pruebas multidimensio- Aprendizaje y memoria. Este tipo de funciones
nales diseñadas para acceder a una amplia gama incluye la adquisición, retención y recuperación
175

capítulo 10
de información más allá de los requisitos de pro- Pruebas y evaluación de comportamientos

cesamiento y almacenamiento a corto plazo de la problemáticos
información. Estas pruebas pueden medir la ad- Los comportamientos problemáticos incluyen
quisición de nueva información a través de varios dificultades de ajuste que interfieren con el fun-
canales sensoriales y mediante formatos de prue- cionamiento eficaz de una persona en situaciones
bas heterogéneos (p. ej., listas de palabras, texto de la vida cotidiana. Las pruebas se usan para
en prosa, figuras geométricas, tableros de figuras, evaluar el comportamiento y autopercepción del
dígitos y melodías musicales). Es posible que las individuo para diagnósticos diferenciales y la cla-
pruebas de memoria también requieran retención sificación educativa de una variedad de trastornos
y recuperación de información antigua (p. ej., emocionales y de conducta, y para ayudar en el
datos personales, así como datos y habilidades desarrollo de planes de tratamiento. En algunos
de aprendizaje común). Además, las pruebas de casos (p. ej., evaluaciones para la pena de muerte),
reconocimiento de información almacenada se el análisis retrospectivo y distintas fuentes de in-
pueden usar en la comprensión de déficits de formación ayudan a obtener la evaluación más
memoria. completa posible. A menudo, la observación de
una persona en su entorno resulta valiosa para
Funciones motoras, funciones sensomotoras y entender cabalmente las demandas específicas del
preferencias laterales. Con frecuencia, las funcio- entorno, no solo para ofrecer una evaluación más
nes motoras (p. ej., dar golpes con el dedo) y las exhaustiva, sino también para proporcionar reco-
funciones sensoriales (p. ej., estimulación táctil) mendaciones más útiles.
se miden como parte de una extensa evaluación
neuropsicológica. Las pruebas motoras evalúan
Pruebas y evaluación para familias y parejas
varios aspectos del movimiento como, por ejem-
plo, la velocidad, destreza, coordinación e inten- Las pruebas familiares abordan los problemas de
cionalidad. Las pruebas sensoriales evalúan la la dinámica, cohesión y relaciones interpersonales
función de las áreas de visión, audición, tacto y, a entre los miembros de una familia, incluyendo
veces, olfato. Las pruebas también se llevan a cabo parejas, padres, hijos y otros miembros de una
para examinar la integración de las funciones per- familia extendida. Las pruebas desarrolladas para
ceptuales y motoras. evaluar familias y parejas se caracterizan por medir
los patrones de interacción de familias parciales o
Percepción y organización/integración percep- completas. En ambos casos se requiere el enfoque
tual. Este tipo de funcionamiento involucra el simultáneo en dos o más miembros de la familia
razonamiento y juicio en la medida en que se re- en lo que respecta a sus transacciones. Las pruebas
lacionan con el procesamiento y elaboración de con parejas pueden abordar factores como proble-
complejas combinaciones y entradas sensoriales. mas de intimidad, compatibilidad, intereses com-
Las pruebas de percepción pueden hacer hinca- partidos, confianza y creencias espirituales.
pié en el procesamiento perceptual inmediato,
pero también requieren conceptualizaciones que Pruebas y evaluación de comportamientos
implican algunos procesos de razonamiento y sociales y de adaptación
juicio. Algunas pruebas tienen componentes Las medidas de comportamientos sociales y de
motores que van desde movimientos simples adaptación evalúan la motivación y capacidad
hasta la elaboración de construcciones comple- para cuidar de uno mismo y en relación con
jas. Estas pruebas evalúan actividades que inclu- otros. Los comportamientos sociales y de adapta-
yen desde la velocidad perceptual y el tiempo ción se basan en un repertorio de conocimientos,
de reacción de elección hasta el procesamiento habilidades y capacidades que permiten a las per-
de información compleja y el razonamiento sonas satisfacer las demandas y expectativas coti-
visual-espacial. dianas del entorno, por ejemplo, comer, vestirse,
176

trabajar, participar en actividades de ocio, usar rasgos o características relacionadas normales o

el transporte, interactuar con compañeros, co- anormales. Las pruebas dirigidas a medir caracte-
municarse con otros, hacer compras, gestionar el rísticas normales de la personalidad se construyen
dinero, mantener un horario, vivir de forma in- para generar puntajes que reflejen el grado en que
dependiente, ser socialmente receptivo y llevar a una persona manifiesta dimensiones de persona-
cabo conductas saludables. lidad empíricamente identificadas e hipotesiza-
das como presentes en el comportamiento de la
Pruebas y evaluación de personalidad mayoría de los individuos. La configuración de
La evaluación de personalidad requiere una sín- puntajes de una persona en estas dimensiones se
tesis de los aspectos del funcionamiento de un usa, por tanto, para inferir su comportamiento
individuo que contribuyen a la formulación y ex- actual y su posible comportamiento ante nuevas
presión de pensamientos, actitudes, emociones y situaciones. Los puntajes de las pruebas fuera del
comportamientos. Algunos de estos aspectos son rango previsto se podrían considerar expresiones
estables a lo largo del tiempo; otros cambian con acentuadas de rasgos normales o indicar psicopa-
la edad o son específicas de una situación. En la tologías. Estos puntajes también podrían reflejar
evaluación de un individuo, los funcionamientos el funcionamiento normal de una persona dentro
cognitivos y emocionales se podrían considerar de una cultura diferente de la población en la que
por separado, pero sus influencias están inte- se basa la norma.
rrelacionadas. Por ejemplo, una persona cuyas Otras pruebas de personalidad están diseña-
percepciones tiene una alta precisión o que es das específicamente para medir los constructos
relativamente estable en el ámbito emocional, po- que subyacen a funcionamientos anormales y
dría controlar la suspicacia mejor que una persona psicopatologías. Los desarrolladores de algunas
cuyas percepciones son imprecisas o distorsiona- de estas pruebas usan individuos diagnosticados
das o que es emocionalmente inestable. previamente para construir sus escalas y basan sus
Los puntajes o descriptores de personalidad interpretaciones en la asociación entre los punta-
obtenidos de una prueba de personalidad se po- jes de la escala de la prueba, dentro de un rango
drían considerar un reflejo de los constructos determinado, y las correlaciones de conducta de
teóricos subyacentes, o de las escalas o factores personas que puntuaron dentro de ese rango, en
derivados empíricamente que guiaron la cons- comparación con muestras clínicas. Si las inter-
trucción de la prueba. Los formatos de estímulo- pretaciones formuladas a partir de los puntajes
respuesta de las pruebas de personalidad varían van más allá de la teoría que guiaba la construc-
ampliamente. Algunos incluyen una serie de pre- ción de la prueba, se deberá recopilar y analizar la
guntas (p. ej., inventarios de autoevaluación) que evidencia de validación de las interpretaciones a
el examinando debe responder mediante la elec- partir de los datos pertinentes adicionales.
ción de distintas opciones bien definidas; otros
comportan enfrentar una situación novedosa Pruebas y evaluación vocacionales
donde la respuesta de los examinandos no está Por lo general, las pruebas vocacionales incluyen
completamente estructurada (p. ej., responder a la medición de intereses, necesidades y valores del
estímulos visuales, contar historias, debatir sobre trabajo, así como la consideración y evaluación
imágenes o responder a estímulos proyectivos). de elementos relacionados con el desarrollo, la
Los resultados pueden incluir temas, patrones o madurez y la indecisión profesionales. El rendi-
indicadores diagnósticos, así como puntajes. Las miento académico y las capacidades cognitivas,
respuestas se califican y combinan en dimensiones que se trataron anteriormente en la sección de
derivadas lógica o estadísticamente, establecidas capacidad cognitiva, son también componentes
por investigaciones previas. importantes en las pruebas y evaluaciones voca-
Las pruebas de personalidad pueden estar cionales. Los resultados de estas pruebas se suelen
diseñadas para evaluar actitudes, sentimientos, usar para mejorar el desarrollo y el conocimiento
177

capítulo 10
personal, para la orientación profesional, el aseso- profesional. Habitualmente, los inventarios que
ramiento en reasignación y la toma de decisiones miden el desarrollo y la madurez profesional re-
en el ámbito vocacional. Con frecuencia, estas caban autodescripciones en respuesta a los ítems
intervenciones tienen lugar en el contexto de reque preguntan sobre el conocimiento del indivi-
habilitación educativa y vocacional. No obstante, duo del mundo laboral; autovaloraciones de sus
las pruebas vocacionales también se pueden usar capacidades en la toma de decisiones; las actitudes
en el centro de trabajo como parte de programas hacia las profesiones y la elección de profesiones;
corporativos de desarrollo profesional. y el grado actual de compromiso de los individuos
en la planificación profesional. Por lo general, las
Inventarios de intereses. La medición de intereses medidas de la indecisión profesional se constru-
está diseñada para identificar las preferencias de yen y estandarizan para evaluar el nivel de indeci-
una persona con respecto a diversas actividades. sión profesional de un examinando y las razones
Los inventarios de autoevaluación de intereses o antecedentes de esa indecisión. Los resultados
son muy utilizados para evaluar las preferencias de estas pruebas se utilizan, con frecuencia, como
personales, incluyendo el agrado o aversión por guía para el diseño y el suministro de servicios
diversos trabajos y actividades de ocio, áreas esco- profesionales a individuos y grupos, y para eva-
lares, ocupaciones o tipos de personas. Los pun- luar la eficacia de las intervenciones profesionales.
tajes resultantes pueden proporcionar una mayor
comprensión de los tipos y patrones de intereses Propósitos de las pruebas
en planes de estudio (p. ej., especialidades uni- y evaluación psicológicas
versitarias), diversos campos de trabajo (p. ej.,
ocupaciones específicas), o en áreas más básicas y Para fines de este capítulo, el uso de las pruebas
generales de interés relacionadas con actividades psicológicas se ha dividido en cinco categorías:
concretas (p. ej., ventas, prácticas de oficina o ac- pruebas de diagnóstico; pruebas de evaluaciones
tividades mecánicas). neuropsicológicas; pruebas de planificación de
intervenciones y evaluación de resultados; prue-
Inventarios de valores del trabajo. La medición bas para decisiones judiciales y gubernamentales;
de valores del trabajo identifica las preferencias y pruebas de conciencia personal, identidad so-
de una persona por los diversos reforzamientos cial, y salud, desarrollo y acción psicológicos. Sin
que se pueden obtener de las actividades de tra- embargo, no siempre estas categorías son mutua-
bajo. A veces estos valores se identifican como mente exclusivas.
necesidades que esas personas tratan de satisfacer.
Los valores o necesidades del trabajo se pueden Pruebas de diagnóstico
categorizar como intrínsecas e importantes por El diagnóstico se refiere a un proceso que incluye
el placer obtenido de la actividad (p. ej., ser in- la recopilación e integración de los resultados de
dependiente, usar las habilidades personales) o las pruebas con información previa y actual sobre
extrínsecas e importantes por las compensaciones una persona, junto con las condiciones contex-
que aportan (p. ej., pago, ascensos). En general, tuales pertinentes, para identificar característi-
el formato de las pruebas de valores del trabajo cas de funcionamiento psicológico saludable, así
incluye una autoclasificación de la importancia como trastornos psicológicos. Los trastornos se
del valor asociado con las cualidades descritas por pueden manifestar por sí mismos en la informa-
los ítems. ción obtenida durante la evaluación de los atri-
butos cognitivos, emocionales, de adaptación, de
Medidas de desarrollo, madurez e indecisión conducta, de personalidad, neuropsicológicos,
profesionales. Áreas adicionales de la evaluación físicos o sociales.
vocacional incluyen medidas del desarrollo y la Las pruebas psicológicas resultan útiles para
madurez profesional, y medidas de la indecisión los profesionales involucrados en el diagnóstico
178

de la salud psicológica de un individuo. La eva- diferir considerablemente de otra prueba que usa
luación se puede llevar a cabo para confirmar un título similar o de una subescala que usa el
un diagnóstico hipotesizado o para descartar mismo término. Por ejemplo, algunos sistemas
diagnósticos alternativos. El diagnóstico se com- diagnósticos pueden definir la depresión por
plica por la prevalencia de la comorbilidad en- sintomatología conductual (p. ej., retardo psico-
tre categorías de diagnósticos. Por ejemplo, un motor, perturbaciones en el apetito o el sueño),
individuo diagnosticado con demencia podría por sintomatología afectiva (p. ej., sentimientos
ser diagnosticado simultáneamente como depre- disfóricos, monotonía emocional) o por sintoma-
sivo. O un niño diagnosticado con discapacidad tología cognitiva (p. ej., pensamientos de deses-
de aprendizaje también podría ser diagnosticado peración, morbilidad). Además, los síntomas de
con el trastorno por déficit de atención e hipe- las categorías diagnósticas raramente son mutua-
ractividad. El objetivo del diagnóstico es propor- mente exclusivas. Por lo tanto, se puede prever que
cionar una breve descripción de la disfunción varias categorías diagnósticas puedan compartir
psicológica del examinando y ayudar a que cada un síntoma dado. Se podrían obtener inferencias
examinando reciba las intervenciones apropiadas formuladas con más información y precisión re-
para la disfunción psicológica o conductual que lacionadas con un diagnóstico de los puntajes de
el cliente, o un tercero, considera que afecta al las pruebas si se diese una ponderación apropiada
funcionamiento previsto del cliente y/o a su ca- a los síntomas incluidos en la categoría diagnós-
lidad de vida. Cuando la intención de la evalua- tica y a la idoneidad de cada prueba para evaluar
ción es el diagnóstico diferencial, el profesional los síntomas. Por lo tanto, el primer paso en la
debe usar pruebas donde exista evidencia de que evaluación de la idoneidad de una prueba para la
los puntajes discriminan entre dos o más grupos obtención de puntajes o información indicativa
de diagnóstico. Las diferencias de medias entre de un síndrome específico de diagnóstico es com-
grupos no proporcionan suficiente evidencia para parar el constructo que la prueba tiene previsto
la precisión del diagnóstico diferencial; los desa- medir con la sintomatología descrita en los crite-
rrolladores de pruebas también deben suministrar rios de diagnóstico.
información adicional como los tamaños de los Se pueden usar distintos métodos para evaluar
efectos o datos que indiquen el grado de superpo- categorías diagnósticas específicas. Algunos mé-
sición entre grupos de criterios. En el desarrollo todos se basan fundamentalmente en entrevistas
de planes de tratamiento, los profesionales suelen estructuradas que usan un formato de “sí” / “no”
usar descripciones de diagnóstico no categóricas o “verdadero” / “falso”, donde el profesional se
del funcionamiento del cliente, junto con dimen- interesa en la presencia o ausencia de la sintoma-
siones pertinentes al tratamiento (p. ej., capacidad tología específica del diagnóstico. Otros métodos
funcional, grado de ansiedad, grado de descon- suelen basarse sobre todo en pruebas de perso-
fianza, receptividad a interpretaciones, grado de nalidad o de funcionamiento cognitivo y usan
conocimiento de los comportamientos y nivel de configuraciones de los puntajes obtenidos. Estas
funcionamiento intelectual). configuraciones de puntajes indican el grado de
Los criterios de diagnóstico pueden variar de similitud de las respuestas de los examinandos
un sistema de nomenclatura a otro. Anotar el sis- con respecto a las respuestas de individuos que
tema de nomenclatura en uso es un paso inicial pertenecen a un grupo de diagnóstico específico,
importante porque distintos sistemas diagnósti- de acuerdo con investigaciones previas.
cos pueden usar el mismo término para describir Los diagnósticos hechos con la ayuda de pun-
distintos síntomas. Incluso dentro de un sistema tajes de pruebas se suelen basar en relaciones em-
diagnóstico, los síntomas descritos por el mismo píricamente demostradas entre el puntaje de la
término pueden diferir entre distintas ediciones prueba y la categoría diagnóstica. Actualmente,
del manual. De forma similar, una prueba que están actualmente estudios de validez que de-
usa un término de diagnóstico en el título puede muestran las relaciones entre los puntajes de las
179

capítulo 10
pruebas y algunas categorías diagnósticas, aun- neuroquímicos que puedan surgir durante el
que no todas. Muchos otros estudios acreditan la desarrollo o de psicopatologías, lesiones corpo-
evidencia de validación para las relaciones entre rales o cerebrales, o enfermedad. Por lo general,
los puntajes de las pruebas y varios subconjun- los propósitos de las pruebas neuropsicológicas
tos de síntomas que contribuyen a una categoría incluyen, entre otros, los siguientes: diagnóstico
diagnóstica. Aunque a menudo no resulta factible diferencial asociado con las fuentes de disfun-
para los profesionales individuales llevar a cabo ción cognitiva, perceptual y de personalidad;
personalmente una investigación entre los pun- diagnóstico diferencial entre dos o más presun-
tajes obtenidos y las categorías diagnósticas es tas etiologías de disfunción cerebral; evaluación
importante familiarizarse con la literatura inves- de funcionamiento deficiente secundario a un
tigativa que examina estas relaciones. evento cortical o subcortical; establecimiento de
A menudo, el profesional puede mejorar las medidas de referencia neuropsicológicas para el
interpretaciones del diagnóstico que se derivan control de enfermedades cerebrales progresivas o
de los puntajes de las pruebas mediante la inte- los efectos de la recuperación; identificación de
gración de esos resultados con inferencias for- patrones de funciones y disfunciones corticales
muladas a partir de otras fuentes de información superiores para la formulación de estrategias de
sobre el funcionamiento del examinando, por recuperación y para el diseño de procedimientos
ejemplo, información del historial de autoeva- correctivos; y caracterización de las funciones de
luaciones proporcionada por personas allegadas la conducta cerebral para ayudar en acciones judi-
u observaciones sistemáticas en el entorno na- ciales civiles o penales.
tural o en el contexto de evaluación. En el pro-
ceso para llegar a un diagnóstico, un profesional Pruebas de planificación de intervenciones y
también debe buscar información que no corro- evaluación de resultados
bore el diagnóstico y, en algunos casos, deter- Con frecuencia, los profesionales se basan en los
minar límites apropiados al grado de confianza resultados de las pruebas para la asistencia en la
que se da al diagnóstico. Cuando sea pertinente planificación, ejecución y evaluación de interven-
para una decisión de remisión, el profesional ciones. Por lo tanto, es importante su nivel de co-
debe reconocer los diagnósticos alternativos que nocimiento respecto de la información de validez
pueden requerir consideración. Se debe prestar que respalda o no las relaciones entre los resultados
especial atención a todos los datos disponibles de las pruebas, las intervenciones prescritas y los
pertinentes antes de concluir que un exami- resultados deseados. Las intervenciones se pueden
nando encaja en una categoría diagnóstica. La usar para prevenir la aparición de uno o más sín-
competencia cultural resulta esencial para evi- tomas, para remediar las deficiencias y para aten-
tar los diagnósticos erróneos o patologizar en der las necesidades psicológicas, físicas y sociales
exceso un comportamiento, afecto o cognición básicas de una persona con el fin de mejorar su
culturalmente apropiada. Las pruebas también calidad de vida. Por lo general, la planificación de
se usan para evaluar la idoneidad de continuar una intervención se produce después de una eva-
el diagnóstico inicial, especialmente después de luación de la naturaleza, evolución y severidad de
un plan de tratamiento o si el funcionamiento un trastorno y de una revisión de las condiciones
psicológico del cliente ha cambiado a lo largo personales y contextuales que pueden afectar a su
del tiempo. resolución. Podrían darse evaluaciones posterio-
res que requieran de la administración repetida de
Pruebas de evaluaciones neuropsicológicas la misma prueba en un esfuerzo de diagnosticar la
Las pruebas neuropsicológicas analizan el ac- naturaleza y severidad del trastorno, para revisar
tual estado psicológico y conductual de un los efectos de las intervenciones, para revisar las
examinando, incluyendo manifestaciones de intervenciones según sea necesario y para cumplir
los cambios neurológicos, neuropatológicos o los estándares éticos y legales.
180

Pruebas para decisiones judiciales y discapacidades, o un proceso o decisión adminis-

gubernamentales trativa (p. ej., revocación de licencia, libertad con-
dicional, compensación para un trabajador). El
Es posible que los clientes busquen voluntaria- profesional tiene la responsabilidad de explicar los
mente evaluación psicológica para asistencia en puntajes de la prueba y las interpretaciones que se
cuestiones relacionadas con un tribunal u otro derivan de los mismos en términos de los criterios
organismo gubernamental. Por otra parte, a ve- legales en los que se basará el jurado, el juez o el
ces los tribunales u otros organismos guberna- órgano administrativo para tomar la decisión de
mentales requieren que una persona se someta de la cuestión legal. En casos que involucren cuestio-
forma no voluntaria a una evaluación psicológica nes legales, es importante evaluar la orientación
que puede incluir una amplia variedad de prue- de la realización de la prueba de los examinan-
bas. El objetivo de estas evaluaciones psicológi- dos, incluyendo el sesgo de las respuestas, para
cas es proporcionar información importante a asegurarse de que los procedimientos legales no
un tercero (p. ej., el abogado del examinando, el se hayan visto afectados por las respuestas dadas.
abogado contrario, el juez o un órgano adminis- Por ejemplo, las personas que quieren obtener la
trativo) sobre el funcionamiento psicológico del máxima compensación económica por una le-
examinando relacionado con los asuntos legales sión personal podrían tener la motivación para
en cuestión. En general, se debe obtener el con- exagerar los síntomas cognitivos y emocionales,
sentimiento informado; para niños e individuos mientras que las personas que intentan evitar la
mentalmente incompetentes (p. ej., personas con pérdida de una licencia profesional pueden tratar
demencia) se debe obtener el consentimiento inde presentarse a sí mismos en la mejor posición
formado de los tutores legales. Al iniciar la evalua- posible, minimizando los síntomas o deficiencias.
ción para decisiones judiciales y gubernamentales, Al formar una opinión de evaluación, es necesa-
el profesional debe explicar los propósitos previs- rio interpretar los puntajes de la prueba con el
tos de la evaluación e identificar a quienes po- conocimiento informado relacionado con la evi-
siblemente tengan acceso a los resultados y al dencia de validación y confiabilidad disponible.
reporte de la prueba. A menudo, el profesional y A la hora de elaborar tales opiniones, también es
el examinando no tienen pleno conocimiento de necesario integrar los puntajes de un examinando
las cuestiones o parámetros legales que afectan a con todas las otras fuentes de información que se
la evaluación, y si el examinando decide no con- refieren al estado actual del examinando, inclu-
tinuar después de ser informado de la naturaleza yendo fuentes psicológicas, sanitarias, educativas,
y el propósito del examen, el profesional (cuando ocupacionales, legales, socioculturales y otros re-
proceda) puede tratar de administrar la evalua- gistros colaterales pertinentes.
ción, posponerla, aconsejar al examinando que se Algunas pruebas tienen como objetivo propor-
ponga en contacto con su abogado, o notificar de cionar información sobre el funcionamiento de
la falta de disposición del examinando al indivi- un cliente que ayude a aclarar una cuestión legal
duo u organismo que solicita la evaluación. determinada (p. ej., funcionamiento parental en
La evaluación por motivos legales puede tener un caso de custodia de menores o la capacidad de
lugar como parte de un proceso civil (p. ej., com- un acusado para entender los cargos en audiencias
promiso involuntario, capacidad testamentaria, sobre la competencia para ser juzgado). Los ma-
competencia para ser juzgado, conceder la custo- nuales de algunas pruebas también ofrecen datos
dia de un menor, lesiones personales, demandas demográficos y actuariales de grupos normativos
legales), un proceso penal (p. ej., competencia para que son representativos de personas involucradas
ser juzgado, declaración de no culpabilidad por en el sistema legal. No obstante, muchas pruebas
motivos de enajenación, circunstancias atenuan- miden constructos que son, en general, pertinen-
tes al pronunciar la sentencia), la determinación tes para las cuestiones legales, aun cuando pue-
de adecuaciones razonables para empleados con den no estar disponibles normas específicas para
181

capítulo 10
el contexto judicial o gubernamental. Se espera En ocasiones, las pruebas psicológicas se usan

que los profesionales hagan todo lo posible para para evaluar la capacidad de un individuo de en-
tener en cuenta la evidencia de validación y con- tender y adaptarse a afecciones de salud. En estos
fiabilidad/precisión que respalda o no sus inter- casos, las observaciones y listas de comproba-
pretaciones y para poner límites apropiados a las ción, así como las pruebas, se usan para medir la
opiniones elaboradas. Se espera que los usuarios comprensión que un individuo con una afección
de la prueba que ejercen en contextos judiciales y (p. ej., diabetes) tiene sobre el proceso de su en-
gubernamentales tengan en cuenta los conflictos fermedad y sobre las técnicas de conducta y cog-
de interés que puede suponer un sesgo en la inter- nitivas aplicables para el mejoramiento o control
pretación de los resultados. de los síntomas del estado patológico.
La protección de la confidencialidad de los re- Los resultados de inventarios de intereses y
sultados de la prueba de un examinando y de los pruebas de capacidad pueden resultar útiles para
propios instrumentos de la prueba plantea retos las personas que deben tomar decisiones educa-
específicos a los profesionales que trabajan con tivas o profesionales. Las pruebas cognitivas y
abogados, jueces, jurados y otros responsables le- neuropsicológicas apropiadas que han sido nor-
gales. El examinando tiene derecho a esperar que malizadas o estandarizadas para niños pueden fa-
los resultados de una prueba solo se comuniquen cilitar la supervisión del desarrollo y crecimiento
a las personas legalmente autorizadas para recibir- durante los años formativos, cuando las interven-
los y que no se reporte ninguna otra información ciones relevantes pueden ser más eficaces para el
de la sesión de pruebas que no sea pertinente para reconocimiento y la prevención de posibles difi-
la evaluación. El profesional deberá ser informado cultades incapacitantes de aprendizaje. Los pun-
de las posibles amenazas a la confidencialidad y tajes de las pruebas para jóvenes adultos o niños
seguridad de la prueba (p. ej., la divulgación a en este tipo de medidas podrían cambiar en los
otro profesional cualificado de preguntas de la años siguientes; por lo tanto, los usuarios de las
prueba, respuestas del examinando o puntajes pruebas deben ser precavidos respecto del ex-
brutos o estandarizados de las pruebas) y deberá ceso de confianza en resultados que pueden estar
buscar, si es necesario, recursos legales y profesio- obsoletos.
nales apropiados. Los resultados de las pruebas se pueden usar
de diversas maneras para la autoexploración, el
Pruebas de conciencia personal, identidad crecimiento y la toma de decisiones. Primero, los
social, y salud, desarrollo y acción resultados pueden proporcionar a los individuos
psicológicos nueva información que les permita compararse
Con frecuencia, las pruebas e inventarios se usan con otros o evaluarse centrando su atención en
para proporcionar información que ayuda a las autodescripciones o autocaracterizaciones. Los
personas a entenderse a sí mismas, identificar sus resultados de las pruebas también podrían servir
propios puntos fuertes y débiles, y aclarar cues- para estimular las deliberaciones entre el exami-
tiones importantes para su propio desarrollo. nando y el profesional, facilitar el análisis por
Por ejemplo, los resultados de los inventarios de parte del examinando, proporcionar instruccio-
personalidad pueden ser útiles para que los exa- nes para futuras consideraciones de tratamiento,
minandos tengan una mejor comprensión de sí ayudar a que las personas identifiquen sus pun-
mismos y de sus interacciones con los demás. Las tos fuertes y débiles, y ofrecer al profesional un
medidas de identidad étnica y aculturación (dos marco general de organización e integración de la
componentes de la identidad social) que evalúan información sobre un individuo. Las pruebas para
los aspectos cognitivos, afectivos y de conducta el crecimiento personal pueden llevarse a cabo en
de los modos en que las personas se identifican programas de capacitación y desarrollo, dentro de
con sus trasfondos culturales, también pueden ser un plan de estudios educativo, durante la psicote-
informativas. rapia, en programas de rehabilitación como parte
182

de un proceso educativo o de desarrollo profesio- psicológicas dentro de los límites definidos por los
nal, o en otras situaciones. principios educativos, de experiencia y éticos del
profesional. Los capítulos y estándares anteriores
Resumen pertinentes para las pruebas y la evaluación psico-
lógicas describen aspectos generales sobre la cali-
El uso responsable de las pruebas en la práctica dad (cap. 1 y 2), imparcialidad (cap. 3), diseño y
psicológica requiere que el profesional se compro- desarrollo (cap. 4) y administración (cap. 6) de las
meta a desarrollar y mantener los conocimientos pruebas. El capítulo 11 examina el uso de pruebas
y la competencia necesarios para seleccionar, ad- para el centro de trabajo, incluyendo la acredita-
ministrar e interpretar las pruebas e inventarios ción, y la importancia de la recopilación de datos
como elementos cruciales del proceso de pruebas que proporcionen evidencia de la precisión de una
y evaluación psicológicas (véase el cap. 9). Los prueba para la predicción de desempeño en el tra-
estándares de este capítulo ofrecen un marco de bajo; el capítulo 12 examina las aplicaciones educa-
orientación para los profesionales para la consecu- tivas; y el capítulo 13 examina el uso de las pruebas
ción de relevancia y eficacia en el uso de pruebas en evaluación de programas y políticas públicas.
183

capítulo 10
Estándares para las pruebas y la evaluación psicológicas

Los estándares de este capítulo se han separado y capacidades que la educación, capacitación y
en cinco unidades temáticas denominadas de la experiencia supervisadas ha conferido al profesio-
siguiente manera: nal, así como en el contexto donde se lleva a cabo
la evaluación.
1. Cualificaciones del usuario de la prueba
2. Selección de pruebas Estándar 10.2
3. Administración de pruebas
4. Interpretación de pruebas Quienes seleccionan pruebas y formulan infe-
5. Seguridad de pruebas rencias a partir de los puntajes de las pruebas
deben estar familiarizados con la evidencia per-
tinente de validación y confiabilidad/precisión
Unidad 1. Cualificaciones del para los usos previstos de los puntajes y evalua-
usuario de la prueba ciones, y deben estar preparados para articular
un análisis lógico que respalde todos los aspectos
de la evaluación y las inferencias hechas a partir
Estándar 10.1
de esa evaluación.
Quienes usan pruebas psicológicas deben res- Comentario: En general, no es necesaria la pre-
tringir sus actividades relacionadas con las prue- sentación y el análisis de la evidencia de valida-
bas y la evaluación a sus áreas de competencia, ción y confiabilidad/precisión en un reporte que
según se hayan demostrado mediante creden- se proporcione al examinando o a un tercero, ya
ciales apropiadas de educación, capacitación y que es demasiado engorroso y de poco interés
experiencia. para la mayoría de los lectores. No obstante, en
Comentario: El uso y la interpretación responsa- situaciones en que la selección de pruebas puede
bles de los puntajes de pruebas requieren los ni- ser problemática (p. ej., subpruebas orales con
veles apropiados de experiencia, un sólido juicio examinandos sordos), se recomienda una breve
profesional y el conocimiento de los principios descripción de la justificación del uso o no uso de
empíricos y teóricos de las pruebas. En muchas medidas específicas.
evaluaciones, la competencia también requiere Cuando las inferencias potenciales derivadas
de suficiente familiaridad con la población de la de los puntajes de pruebas psicológicas no tienen
que forma parte el examinando para facilitar la el respaldo de los datos actuales, pero presentan
selección de pruebas, la administración y la inter- posibilidades de validez futura, el desarrollador y
pretación de los puntajes. Por ejemplo, cuando se el usuario de la prueba podrían describirlas como
administran pruebas de personalidad y neuropsi- hipótesis para una validez posterior en la interpre-
cológicas como parte de la evaluación psicológica tación de los puntajes. Se deberá advertir a quie-
de un individuo, los puntajes de las pruebas se nes reciban las interpretaciones de tales resultados
deben entender en el contexto del estado físico y de que esas inferencias todavía no tienen una evi-
psicológico, el desarrollo cultural y lingüístico, y dencia de validación demostrada adecuadamente
los antecedentes educativos, sanitarios, ocupacio- y que no deben servir de base a decisiones diag-
nales y de género del individuo. La calificación nósticas o formulación de pronósticos.
también deberá tener en cuenta otras evidencias
pertinentes para las pruebas utilizadas. La inter- Estándar 10.3
pretación de los puntajes de las pruebas requiere
que el juicio profesionalmente responsable se Los profesionales deben verificar que las perso-
ejerza dentro de los límites de los conocimientos nas bajo su supervisión tengan los conocimientos
184

y capacidades apropiadas para administrar y ca- Estándar 10.6

lificar las pruebas.
Cuando se necesita un diagnóstico diferencial, el
Comentario: Las personas que administran profesional debe elegir, si es posible, una prueba
pruebas, pero no participan en su selección o o pruebas para las que exista una evidencia plau-
interpretación deben estar supervisadas por un sible de que sus puntajes distingan entre dos o
profesional. Deben tener conocimientos de (y más grupos de diagnósticos de interés, y no que
experiencia con) los problemas existentes de los solamente puedan distinguir los casos anormales
examinandos (p. ej. lesiones cerebrales) y los con- en una población general.
textos de las pruebas (p. ej., clínicos, forenses).
Comentario: Para los profesionales será especial-
mente útil que la evidencia de validación se en-
Unidad 2. Selección de pruebas cuentre en una forma que les permita determinar
el nivel de confianza que se puede otorgar a las in-
Estándar 10.4 terpretaciones para un individuo. Las diferencias
entre medias de grupo y su importancia estadís-
Las pruebas que se combinan para formar una tica proporcionan información inadecuada res-
batería de pruebas deben ser apropiadas para los pecto de la validez para propósitos de diagnóstico
propósitos de la evaluación. individual. La información adicional que se po-
Comentario: Por ejemplo, en una evaluación dría considerar incluye los tamaños de los efectos
psicológica para obtener evidencia de una lesión o una tabla que muestre el grado de superposición
en un área cerebral, es necesario seleccionar una de las distribuciones de predictores entre distintos
combinación de pruebas con sensibilidad y espe- grupos de criterios.
cificidad diagnósticas conocidas respecto de las
discapacidades que se deriven del trauma en re-
giones concretas del cerebro. Unidad 3. Administración de pruebas

Las pruebas seleccionadas para el uso en evalua- Antes de las pruebas, los profesionales y admi-
ciones psicológicas deben ser idóneas para las ca- nistradores deben proporcionar al examinando
racterísticas y los antecedentes del examinando. (o a otros terceros si corresponde) información
introductoria que sea fácilmente comprensible.
Comentario: Por lo general, cuando las pruebas
sean parte de una evaluación psicológica, el pro- Comentario: El objetivo de la administración
fesional deberá tener en cuenta las características óptima de pruebas es reducir el error en la me-
del examinando individual, incluyendo la edad y dida del constructo. Por ejemplo, el examinando
el nivel de desarrollo, raza/origen étnico, género y debe entender los parámetros relacionados con la
características físicas y/o lingüísticas que puedan prueba, como los límites de tiempo, las observa-
afectar a la capacidad del examinando de cumplir ciones o la carencia de estas, y las oportunidades
los requisitos de la prueba. El profesional tam- de hacer pausas. Además, el examinando debe
bién deberá tener en cuenta la disponibilidad de tener conocimiento de los límites de la confiden-
normas y la evidencia de validación para una po- cialidad, quién tendrá acceso a los resultados de la
blación representativa del examinando. Si no hay prueba, si los resultados o decisiones que se basan
estudios normativos o de validez disponibles para en los puntajes se compartirán con el examinando
una población pertinente, las interpretaciones de y cuándo se compartirían, si el examinando ten-
una prueba se deben clasificar y presentar como drá la oportunidad de repetir la prueba y bajo qué
hipótesis y no como conclusiones. circunstancias se produciría esta repetición.
185

capítulo 10
Estándar 10.8 tiene la responsabilidad de determinar si la admi-

nistración basada en tecnología se debe monitori-
Los profesionales y administradores de las prue- zar, o si se necesita personal de soporte técnico para
bas deben seguir las instrucciones de adminis- ayudar con el uso de los equipos y el software de la
tración, incluyendo la calibración de equipos prueba. Si la prueba no se monitorizó o si no había
técnicos y la verificación de la exactitud y repli- personal de soporte disponible, se debe informar al
cabilidad de los puntajes, y deben facilitar opcio- intérprete de los puntajes de la prueba.
nes para la evaluación que faciliten el desempeño
de los examinandos.
Comentario: Debido a que los datos normativos Unidad 4. Interpretación de pruebas
con respecto a los cuales se evaluará el desempeño
de un examinando se recopilaron bajo procedi- Estándar 10.10
mientos informados estándar, el profesional deberá
conocer y tener en cuenta el efecto que cualquier Quienes seleccionan pruebas o interpretan sus
procedimiento no estándar podría tener en el pun- resultados no deben permitir que individuos o
taje obtenido de un examinando y en la interpre- grupos con intereses adquiridos en los resultados
tación de ese puntaje. Cuando se usan pruebas que de una evaluación tengan una influencia inapro-
emplean un formato de respuestas no estructurado piada en la interpretación de estos resultados.
(por ejemplo, algunas pruebas proyectivas), el pro- Comentario: Los grupos o individuos con un in-
fesional debe seguir las instrucciones de adminis- terés adquirido en la relevancia o el significado de
tración y aplicar criterios de calificación objetivos las conclusiones de evaluaciones psicológicas pue-
cuando sea apropiado y estén disponibles. den incluir, entre otros, a empleadores, profesio-
En algunos casos, las pruebas se pueden lle- nales de la salud, representantes legales, personal
var a cabo en contextos realistas para determinar de escuelas, terceros pagadores y miembros de la
cómo responde el examinando en estos contextos. familia. En algunos casos, pueden existir requisitos
Por ejemplo, una evaluación de trastorno de aten- legales que limiten la capacidad de un profesional
ción se podría realizar en un entorno ruidoso o para impedir que interpretaciones inapropiadas de
perturbador, en lugar de hacerlo en un entorno las evaluaciones afecten a las decisiones, pero los
que proteja al examinando contra los riesgos ex- profesionales tienen la obligación de documentar
ternos para la eficiencia del desempeño. cualquier discrepancia en tales circunstancias.

Cuando se decide sobre el uso de administración Cuando sea apropiado o lo exija la ley, los profe-
de pruebas basada en tecnología, los profesio- sionales deben compartir los puntajes e interpre-
nales deben tener en cuenta el propósito de la taciones de las pruebas con el examinando. Esta
evaluación, el constructo que se mide y las capa- información se debe expresar en un lenguaje que
cidades del examinando. el examinando (o, si corresponde, el represen-
tante legal del examinando) pueda comprender.
Comentario: El control de calidad debe ser parte
integral de la administración de pruebas compu- Comentario: Los puntajes e interpretaciones de las
tarizadas o basadas en tecnología. Algunas pruebas pruebas se deben expresar en términos que puedan
basadas en tecnología pueden requerir que los exa- ser entendidos fácilmente por el examinando u
minandos tengan la oportunidad de recibir ins- otros facultados para acceder a los resultados. En
trucción y practicar antes de la administración, a la mayoría de los casos, un reporte debe generarse
menos que el propósito de la prueba sea evaluar la y estar disponible para la fuente de referencia. Ese
capacidad del uso de tales equipos. El profesional reporte deberá adherirse a los estándares requeridos
186

por la profesión y/o la fuente de referencia, y la in- evaluaciones. Además, a menudo se usan pruebas
formación se deberá documentar de manera que de esfuerzo o simulación para determinar la posi-
sea comprensible para la fuente de referencia. En bilidad de fraude o simulación.
algunas situaciones clínicas, podría ser perjudicial
compartir observaciones con el examinando. Se Estándar 10.13
debe prestar atención para minimizar las conse-
cuencias imprevistas de las observaciones de una Cuando la validez de un diagnóstico se valora
prueba. Cualquier divulgación de los resultados de mediante la evaluación del nivel de concordan-
una prueba a un individuo o cualquier decisión de cia entre interpretaciones de los puntajes de una
no divulgar tales resultados deberá ser coherente prueba y el diagnóstico, los términos o catego-
con los estándares legales vigentes, por ejemplo, rías diagnósticas empleadas se deben definir o
con las leyes de privacidad. identificar cuidadosamente.
Comentario: Dos sistemas de diagnóstico que se
usan de forma habitual son los relacionados con la
Estándar 10.12
psiquiatría (es decir, basados en el Manual diag-
En la evaluación psicológica, la interpretación de nóstico y estadístico de los trastornos mentales) y
puntajes de pruebas o de patrones de resultados con la salud (es decir, basados en la Clasificación
de una batería de pruebas debe considerar otros internacional de enfermedades). Se debe anotar el
factores que pueden influir en una determinada sistema usado para diagnosticar al examinando, se-
conclusión de la evaluación. Si procede, se debe gún sea pertinente. Algunos síndromes (p. ej., de-
incluir en el reporte una descripción de tales fac- terioro cognitivo leve, discapacidad del aprendizaje
tores y un análisis de las hipótesis o explicacio- social) no aparecen en ninguno de los sistemas;
nes alternativas que pueden haber contribuido a para estos, se debe usar una descripción de las de-
los patrones de resultados. ficiencias, con el diagnóstico más cercano posible.
Comentario: Existen muchos factores que pue-
den influir en los resultados de pruebas indi- Estándar 10.14
viduales o en las conclusiones generales de una
Cuando los profesionales presenten recomenda-
evaluación psicológica (por ejemplo, la cultura, el
ciones o decisiones en términos de base actuarial,
género, la raza u origen étnico, el nivel educativo,
debe estar disponible la evidencia de validación
el ser diestro o zurdo, el estado mental actual, el
relacionada con los criterios.
estado de salud, las preferencias lingüísticas y la
situación de la prueba). Cuando se preparan las Comentario: Las interpretaciones de las prue-
interpretaciones de los puntajes de una prueba y bas no deben implicar la existencia de evidencia
los reportes extraídos de una evaluación, los pro- empírica de una relación entre los resultados de
fesionales deben considerar el grado en que esos pruebas específicas, intervenciones prescritas y
factores pueden introducir varianza irrelevante de conclusiones deseadas, a menos que tal evidencia
constructo en los resultados de la prueba. Cuando esté disponible para poblaciones similares a las re-
sea posible o apropiado, también se debe informar presentativas del examinando.
la interpretación de los resultados de una prueba
en el proceso de evaluación a través de un análisis Estándar 10.15
de las características estilísticas y cualitativas del
comportamiento en la realización de la prueba, La interpretación de los resultados de una
que se puedan obtener de las observaciones, en- prueba o de una batería de pruebas para fines
trevistas e información histórica. La inclusión diagnósticos se debe basar en varias fuentes de
de información cualitativa puede ser útil para la pruebas e información colateral, y en el conoci-
comprensión de las conclusiones de las pruebas y miento de los principios normativos, empíricos
187

capítulo 10
y teóricos, así como en las limitaciones, de tales Unidad 5. Seguridad de pruebas

pruebas y datos.
Comentario: Un patrón determinado de desem- Estándar 10.18
peños en pruebas representa una vista transversal
del individuo que se evalúa en un contexto especí- Los profesionales y otros que tengan acceso a los
fico. En tales contextos, las interpretaciones de las materiales y resultados de las pruebas deben man-
conclusiones derivadas de una compleja batería de tener la confidencialidad de los resultados y ma-
pruebas requieren una educación apropiada en (ex- teriales de la evaluación de manera coherente con
periencia supervisada con y conocimiento de) las los requisitos científicos, profesionales, legales y
limitaciones procedimentales, teóricas y empíricas éticos. Las pruebas (incluyendo versiones obsole-
de las pruebas y del procedimiento de evaluación. tas) no deben estar disponibles para el público ni
revenderse a usuarios de la prueba no cualificados.
Estándar 10.16 Comentario: Los profesionales deben tener am-

plios conocimientos sobre, y guardar conformidad
Si un editor sugiere que las pruebas se van a uti- con, el mantenimiento de registros y las directri-
lizar en combinación, el profesional debe revisar ces de confidencialidad exigidos por la ley federal
los procedimientos recomendados y la evidencia vigente y en las jurisdicciones donde ejerzan, así
para la combinación de pruebas, y determinar como de las directrices de las organizaciones pro-
si la justificación proporcionada por el editor es fesionales a las que pertenezcan. Es posible que el
apropiada para la combinación específica de las editor y el usuario de la prueba, el examinando y
pruebas y los usos previstos. terceras partes (p. ej., escuela, juzgado, emplea-
dor) tengan diferentes niveles de comprensión o
Comentario: Por ejemplo, si medidas de inteli-
reconocimiento de la necesidad de confidenciali-
gencia se presentan con medidas de memoria, o
dad de los materiales de las pruebas. En la medida
si medidas de intereses y estilos de personalidad
de lo posible, el profesional que usa una prueba es
se presentan juntas, deberán estar disponibles los
responsable de gestionar la confidencialidad de la
datos de respaldo de validación y confiabilidad/
información de la prueba entre todas las partes.
precisión para esas combinaciones de puntajes e
Es importante que el profesional tenga presente
interpretaciones.
las posibles amenazas a la confidencialidad y los
recursos legales y profesionales disponibles. Asi-
Estándar 10.17 mismo, los profesionales tienen la responsabilidad
de mantener la seguridad de los materiales de la
Quienes usan interpretaciones generadas por
evaluación y respetar los derechos de autor de to-
computadora de los datos de una prueba deben
das las pruebas. La distribución, presentación o
verificar que la calidad de la evidencia de valida-
reventa de materiales de una prueba (incluyendo
ción es suficiente para las interpretaciones.
ediciones obsoletas) a destinatarios no autoriza-
Comentario: Los esfuerzos para reducir un con- dos infringe los derechos de autor de los mate-
junto complejo de datos en las interpretaciones riales y pone en riesgo la seguridad de la prueba.
generadas por computadora de un determinado Cuando sea necesario revelar el contenido de una
constructo podrían traducirse en análisis equí- prueba en el proceso de explicación de los resulta-
vocos o simplificados en exceso de los significados o en un proceso judicial, se debe llevar a cabo
dos de los puntajes, que a su vez pueden llevar a en un entorno controlado. Siempre que sea posi-
decisiones diagnósticas y pronósticos fallidos. Se ble, no se deben distribuir copias del contenido
deberá revisar la relevancia e idoneidad de las nor- o se deben distribuir de manera que se proteja la
mas en las que se basan las interpretaciones. seguridad de la prueba en la medida de lo posible.
188

11. P
RUEBAS Y ACREDITACIÓN
EN EL CENTRO DE TRABAJO
Antecedentes
Las organizaciones usan las pruebas de empleo a las decisiones de personal y la acreditación. La
para muchos fines, incluyendo la selección, asig- evaluación como herramienta para el crecimiento
nación y promoción de empleados. En general, la personal puede ser parte de programas de capaci-
selección se refiere a las decisiones sobre las per- tación y desarrollo, en los que los instrumentos
sonas que entran a trabajar en la organización; que miden características personales, intereses, va-
la asignación se refiere a las decisiones sobre la lores, preferencias y estilos de trabajo se usan con
asignación de personas a puestos dentro de la or- el objetivo de proporcionar autoconocimiento a
ganización; y la promoción se refiere a las decisio- los empleados. Las pruebas también pueden tener
nes sobre el desarrollo profesional de las personas lugar en el contexto de evaluación de programas,
dentro de la organización. Los que estos tres fines como en el caso de estudios experimentales so-
tienen en común es que se centran en la predic- bre la eficacia de un programa de capacitación,
ción de futuras conductas en el trabajo, con el ob- donde las pruebas se administran como pre y post
jetivo de influir en los resultados organizacionales medidas. Algunas evaluaciones realizadas en con-
como, por ejemplo, la eficiencia, el crecimiento, textos de empleo (como las entrevistas de trabajo
la productividad y la motivación y la satisfacción no estructuradas para las que no se hacen alega-
de los empleados. ciones de validez predictiva) son, por naturaleza,
Las pruebas que se usan en procesos de obten- no estandarizadas y, por lo general, no resulta
ción de licencias y certificación, que denominare- factible aplicar los estándares a tales evaluaciones.
mos aquí acreditación de forma general, se centran Sin embargo, el tema central de este capítulo es
en las capacidades o competencias actuales de la el uso específico de pruebas para las decisiones
persona postulante en un dominio específico. En de personal y la acreditación. En otros capítulos
muchas ocupaciones, los profesionales individua- se examinan muchos otros temas pertinentes al
les deben obtener una licencia de los organismos uso de las pruebas en contextos organizaciona-
gubernamentales. En otras ocupaciones, son las les: cuestiones técnicas en los capítulos 1, 2, 4 y
sociedades profesionales, los empleadores u otras 5; documentación en el capítulo 7; y evaluación
organizaciones quienes asumen la responsabilidad individualizada psicológica y de personalidad de
de la acreditación. Aunque la obtención de licen- candidatos de empleo en el capítulo 10.
cias suele implicar la entrega de una credencial para Como se describe en el capítulo 3, el ideal
entrar en una profesión, los programas de acredi- de imparcialidad en las pruebas se consigue si un
tación pueden existir en varios niveles, de princi- determinado puntaje de prueba tiene el mismo
piante a experto en un campo determinado. Por lo significado para todos los individuos y no se ve
general, la certificación se busca voluntariamente, influido de manera sustancial por barreras irre-
aunque las ocupaciones difieren en el grado en que levantes de constructo en el desempeño de los
la obtención de una certificación influye en la inser- individuos. Por ejemplo, una persona con disca-
ción o el avance laboral. El proceso de acreditación pacidad visual puede tener dificultades para leer
puede incluir evaluación y otros requisitos, como las preguntas en un inventario de personalidad u
educación y experiencias supervisadas. Los Están- otras evaluaciones vocacionales que se presentan
dares se aplican al uso de pruebas como un com- con una letra pequeña. Las personas jóvenes que
ponente de un proceso más amplio de acreditación. acaban de incorporarse al personal podrían ser
Asimismo, en los centros de trabajo, las prue- menos sofisticadas en estrategias de realización
bas se utilizan para muchos otros fines distintos de pruebas que los postulantes de trabajo más
189

capítulo 11
experimentados y, por lo tanto, sus puntajes se especializadas, ya que el trabajo no requiere estas
verían afectados. Una persona no familiarizada especializaciones o porque la organización tiene
con la tecnología puede tener dificultades con la previsto ofrecer capacitación una vez contratadas.
interfaz de usuario en una evaluación con simu- En otros casos, se buscan trabajadores cualificados
laciones computarizadas. En cada uno de estos o con experiencia, con la expectativa de que pue-
casos, el desempeño se ve obstaculizado por una dan desempeñar de inmediato un trabajo especia-
fuente de varianza que no está relacionada con el lizado. Por lo tanto, un trabajo específico puede
constructo de interés. Una práctica de pruebas co- requerir sistemas de selección muy diferentes, en
rrecta supone una supervisión cuidadosa de todos función de la contratación o promoción de indi-
los aspectos del proceso de evaluación y tomar viduos cualificados o no cualificados.
las medidas apropiadas cuando se requieren para
evitar ventajas o desventajas indebidas de algunos Corto plazo vs. largo plazo. En algunos casos, el
candidatos, causadas por factores no relacionados objetivo del sistema de selección es predecir el
con el constructo que se evalúa. desempeño inmediatamente o poco después de la
contratación. En otros casos, el interés es el des-
Pruebas de empleo empeño a largo plazo, como en el caso de pre-
dicciones que se refieren a la posibilidad de que
La influencia del contexto en el uso de la prueba los candidatos lleven a cabo satisfactoriamente
Las pruebas de empleo comportan el uso de la in- una tarea asignada en el extranjero y a lo largo
formación de la prueba como ayuda en la toma de varios años. Las cuestiones sobre el cambio de
de decisiones sobre el personal. Tanto el contenido tareas y requisitos del trabajo también pueden lle-
como el contexto de las pruebas de empleo pueden var a centrarse en los conocimientos, capacidades,
variar en gran medida. El contenido puede abar- habilidades y otras características que se prevén
car varios dominios de conocimientos, capacida- necesarias para el desempeño del trabajo objetivo
des, habilidades, rasgos, actitudes, valores y otras en el futuro, incluso si no son parte de la configu-
características individuales. Algunas características ración actual del trabajo.
contextuales representan elecciones hechas por la
organización empleadora; otras representan restric- Cribado de inclusión vs. cribado de exclusión. En
ciones que deben tenerse en cuenta por esa misma algunos casos, el objetivo del sistema de selección
organización. Las decisiones sobre el diseño, la es cribar a los individuos que pueden ofrecer un
evaluación y la implementación del sistema de alto desempeño en un conjunto de criterios de
evaluación son específicas al contexto donde se va conducta o de resultados de interés para la orga-
a usar el sistema. Entre las características contex- nización. En otros, el objetivo es hacer una criba
tuales importantes se incluye las siguientes: de exclusión de las personas que probablemente
tendrían un desempeño deficiente. Por ejemplo,
Conjunto de candidatos internos vs. externos. es posible que una organización quiera descartar
En algunos casos, como en contextos de promo- a una pequeña proporción de individuos que pre-
ción, los candidatos que se someten a la prueba sentan un alto riesgo de comportamiento patoló-
son ya empleados de la organización. En otros, gico, anormal, contraproducente o criminal. La
se buscan solicitudes de individuos que no perte- misma organización puede requerir un cribado de
nezcan a la organización. También se puede dar el inclusión de personas con una alta probabilidad
caso de que se busque una combinación de candi- de desempeño óptimo.
datos internos y externos.
Toma de decisiones mecánica vs. crítica. En al-
Candidatos cualificados vs. no cualificados. gunos casos, la información de la prueba se usa de
En algunos casos, se buscan personas con poca manera automatizada y mecánica. Este es el caso
cualificación en conocimientos o capacidades cuando los puntajes de una batería de pruebas se
190

PRUEBAS Y ACREDITACIÓN EN EL CENTRO DE TRABAJO
combinan mediante fórmulas y los candidatos se Tamaño de muestra pequeño vs. grande. El ta-
seleccionan en un estricto orden descendente de maño de una muestra afecta al grado de uso de
clasificación, o cuando únicamente los candidatos distintas líneas de evidencia para el examen de la
con puntajes de corte específicos resultan elegi- validez e imparcialidad de las interpretaciones de
bles para continuar con las fases posteriores de un los puntajes para los usos previstos de las pruebas.
sistema de selección. En otros casos, la informa- Por ejemplo, para tamaños de muestra peque-
ción de una prueba se integra críticamente con la ños, no resulta técnicamente factible basarse en
información de otras pruebas y con información el contexto local para establecer relaciones empí-
externa a las pruebas para formar una evaluación ricas entre la prueba y los puntajes de criterios.
general del candidato. En pruebas de empleo, los tamaños de muestra
suelen ser pequeños; el ejemplo extremo es un
Uso continuo vs. uso puntual de una prueba. En trabajo con un solo titular. En ocasiones, están
algunos casos, una prueba se puede usar en una or- disponibles tamaños de muestra grandes cuando
ganización a lo largo de un periodo extenso, permi- hay varios titulares para el trabajo, cuando varios
tiendo la acumulación de datos y experiencias en el trabajos comparten requisitos similares y se pue-
uso de la prueba en ese contexto. En otros casos, la den agrupar, o cuando organizaciones con traba-
preocupación sobre la seguridad de la prueba hace jos similares colaboran para desarrollar un sistema
que el uso repetido no sea factible y se requiere una de selección.
nueva prueba en cada administración. Por ejem-
plo, una prueba de trabajo para socorristas donde Un nuevo trabajo. Un caso especial del problema
se requiera el rescate de un maniquí desde el fondo de un tamaño de muestra pequeño se produce
de una piscina no se ve afectada si los candidatos cuando se crea un nuevo trabajo y no hay titula-
tienen un conocimiento detallado de la prueba con res para el mismo. A medida que surgen nuevos
antelación. Por el contrario, una prueba escrita de trabajos, los empleadores necesitan procedimien-
conocimientos para agentes de policía puede verse tos de selección para cubrir los nuevos puestos.
seriamente afectada si algunos candidatos tienen Se puede usar el juicio profesional para identificar
acceso por adelantado a la prueba. La cuestión pruebas de empleo apropiadas y proporcionar una
clave es si el conocimiento previo del contenido de justificación para el programa de selección, in-
una prueba afecta de forma indebida el desempeño cluso si la variedad de métodos para documentar
de los candidatos y, en consecuencia, cambia el la validez presenta limitaciones. Aunque es raro
constructo medido por la prueba y la validez de las que la evidencia de validación basada en estudios
inferencias basadas en los puntajes. orientados a criterios se pueda recabar antes de la
creación de un nuevo trabajo, es posible usar mé-
Conjunto fijo vs. flujo continuo de candidatos. todos para generalizar la evidencia de validación
En algunos casos, se puede reunir un conjunto en situaciones con tamaños de muestra pequeños
de candidatos antes del comienzo del proceso de (véase el análisis en la página 192 sobre contextos
selección, como sucede cuando la política de una con muestras pequeñas), así como estudios orien-
organización es considerar a todos los candidatos tados a criterios que trabajan con expertos en la
que se presenten antes de una fecha específica. En materia responsables de diseñar el trabajo.
otros casos, hay un flujo continuo de postulantes
sobre los que se debe tomar decisiones de empleo Tamaño del conjunto de candidatos relativo al
de forma continuada. En el caso de un conjunto número de vacantes de trabajo. El tamaño del
fijo, es posible una clasificación de los candidatos; conjunto de candidatos puede limitar el tipo de
en el caso de un flujo continuo, es posible que sistema de evaluación viable. En el caso de tra-
la decisión sobre cada candidato deba tomarse bajos atractivos, puede existir un alto número de
independientemente de la información de otros candidatos y se podrían usar pequeñas pruebas
candidatos. de cribado para reducir el conjunto a un tamaño
191

capítulo 11
práctico para la administración de pruebas más evaluación de la evidencia pertinente para sostener
caras y prolongadas. Grandes conjuntos de can- o cuestionar esta inferencia. Como se explicó ante-
didatos también pueden comportar problemas de riormente en el capítulo 1 (en la sección “Eviden-
seguridad de la prueba, limitando a la organiza- cia basada en relaciones con otras variables”), se
ción a métodos de evaluación que permitan una puede usar una variedad de estrategias de validez
administración simultánea a todos los candidatos. para respaldar la inferencia.
Por lo tanto, establecer esta inferencia predic-
Por lo tanto, el uso de la prueba por parte de los tiva requiere prestar atención a dos dominios: el
empleadores está condicionado por las caracterís- dominio de la prueba (el predictor) y el dominio
ticas contextuales. El conocimiento de estas carac- del comportamiento o resultado de trabajo de in-
terísticas juega un papel importante en el juicio terés (el criterio). Evaluar el uso de una prueba
profesional que influirá en los tipos de sistemas para una decisión de empleo se puede considerar
de evaluación desarrollados y en las estrategias como una evaluación de la hipótesis de la vincula-
usadas para evaluar críticamente la validez de las ción entre estos dominios. Operativamente, exis-
interpretaciones de los puntajes para los usos preten muchas formas de relacionar estos dominios,
vistos de la prueba. como ilustra el siguiente diagrama.
El proceso de validación en las pruebas de Medida de Medida de
1
empleo predictor criterio
Con frecuencia, el proceso de validación empieza

con un análisis del trabajo en el que se recopila in-
formación sobre las funciones y las tareas, las res- 2 5 4
ponsabilidades, las características del trabajador y
otros datos pertinentes. Esta información propor-
ciona una base empírica para la articulación de Dominio de Dominio de
constructo 3 constructo
lo que se entiende como desempeño profesional de predictor de criterio
del trabajo en consideración, para el desarrollo de
medidas del desempeño y para las características Vinculaciones alternativas entre las
hipotesizadas de los individuos que pueden ser medidas de predictor y de criterio
predictivas del desempeño.
En la mayoría de las aplicaciones de evaluación El diagrama diferencia entre un dominio de
en contextos de empleo, la inferencia fundamental constructo de predictor y una medida de predic-
a extraer de los puntajes de las pruebas se relaciona tor, y entre un dominio de constructo de criterio y
con la predicción: el usuario de la prueba quiere una medida de criterio. Un dominio de constructo
formular una inferencia a partir de los resultados de predictor se define al especificar el conjunto
de la prueba para determinados comportamientos de comportamientos, capacidades, habilidades,
o resultados laborales futuros. Incluso cuando la rasgos, actitudes y valores que se incluirán bajo
estrategia de validez utilizada no implica relacio- etiquetas de constructo especificas (p. ej., razo-
nes empíricas con parámetros predictores, como namiento verbal, velocidad al teclear, diligencia).
en el caso de la evidencia de validación basada en De forma similar, un dominio de constructo de
el contenido de una prueba, existe un criterio im- criterio especifica un conjunto de comportamien-
plícito. Por tanto, aunque se podrían usar distintas tos o resultados de trabajo que se incluirán bajo
estrategias para recopilar la evidencia, la inferencia etiquetas de constructo específicas (p. ej., desem-
que se respalda es que los puntajes de la prueba peño de tareas básicas, trabajo en equipo, concu-
se puedan usar para predecir comportamientos rrencia, volumen de ventas, desempeño general
de trabajo posteriores. El proceso de validación de trabajo). Las medidas de predictor y de criterio
en contextos de empleo conlleva la recopilación y pretenden evaluar la situación de un individuo
192

respecto de las características evaluadas en esos constructo de criterio. Como ilustra el diagrama,
dominios. existen diversas estrategias para establecer esta
El diagrama enumera inferencias sobre un nú- vinculación esencial. Una estrategia es directa, a
mero de vinculaciones que suelen ser de interés. través de la vinculación 5; una segunda implica el
La primera vinculación (con la etiqueta 1 en el emparejamiento de las vinculaciones 1 y 4; y una
diagrama) se da entre los puntajes de una medida tercera comporta el emparejamiento de las vincu-
de predictor y los puntajes de una medida de crite- laciones 2 y 3.
rio. Esta inferencia se prueba a través de exámenes Cuando la prueba está diseñada como un
empíricos de las relaciones entre las dos medidas. ejemplo del dominio de constructo de criterio, la
Las vinculaciones segunda y cuarta (con las eti- evidencia de validación se puede establecer direc-
quetas 2 y 4) son conceptualmente similares: Am- tamente a través de la vinculación 5. Otra estrate-
bas examinan la relación de una medida operativa gia para la relación entre una medida de predictor
con el dominio de constructo de interés. Entre las y el dominio de constructo de criterio se centra en
formas de evidencia que se pueden examinar en la las vinculaciones 1 y 4: emparejar una vinculación
evaluación de estas vinculaciones están el análisis empírica entre el predictor y las medidas de cri-
lógico, el juicio experto y la convergencia con (o terio con la evidencia de idoneidad con la que la
la divergencia de) medidas conceptualmente si- medida de criterio representa el dominio de cons-
milares o diferentes. La vinculación 3 implica la tructo de criterio. La vinculación empírica entre
relación entre el dominio de constructo de pre- la medida de predictor y la medida de criterio es
dictor y el dominio de constructo de criterio. La parte de lo que los Estándares denominan eviden-
vinculación inferida se establece sobre la base de cia de validación basada en relaciones con otras
un análisis teórico y lógico. Habitualmente, se variables. La vinculación empírica de la prueba
basa en una evaluación sistemática del contenido y la medida de criterio debe complementarse con
del trabajo y el juicio experto sobre las caracterís- la evidencia de relevancia de la medida de criterio
ticas individuales relacionadas con un desempeño para el dominio de constructo de criterio, a fin de
de trabajo óptimo. La vinculación 5 examina una completar la vinculación entre la prueba y el do-
relación directa de la medida de predictor con el minio de constructo de criterio. La evidencia de
dominio de constructo de criterio. relevancia de la medida de criterio para el domi-
Algunas medidas de predictor están diseña- nio de constructo de criterio se basa normalmente
das explícitamente como ejemplos de dominios en el análisis del trabajo, aunque en algunos casos
de constructo de criterio de interés; por lo tanto, la vinculación entre el dominio y la medida es tan
el isomorfismo entre la medida y el dominio de directa que la relevancia es aparente sin el aná-
constructo constituye una evidencia directa de la lisis del trabajo (p. ej., cuando el constructo de
vinculación 5. Establecer la vinculación 5 de este criterio de interés es el absentismo o la rotación).
modo es el signo característico de enfoques que Observe que esta estrategia no se basa necesaria-
dependen en gran medida de lo que los Están- mente en un dominio de constructo de predic-
dares denominan evidencia de validación basada tor bien desarrollado. Las medidas de predictor
en el contenido de la prueba. Las pruebas donde como, por ejemplo, medidas de biodatos afina-
los candidatos a puestos de socorristas realizan dos empíricamente, se construyen sobre la base
operaciones de rescate, o en las que candidatos a de vinculaciones empíricas entre las respuestas a
puestos de procesadores de datos escriben y editan los ítems de la prueba y la medida de criterio de
textos, ofrecen ejemplos de contenido de pruebas interés. Tales medidas pueden, en algunos casos,
que forman la base de validez. desarrollarse sin una concepción plenamente esta-
Un requisito previo al uso de una medida de blecida del dominio de constructo de predictor; la
predictor en la selección de personal es que se base para su uso es la vinculación empírica directa
establezcan las inferencias relativas a la vincula- entre las respuestas de la prueba y una medida de
ción entre la medida de predictor y el dominio de criterio pertinente. A menos que los tamaños de
193

capítulo 11
muestra sean muy grandes, la capitalización alea- generalización de la evidencia de validación de la

toria puede ser un problema, en cuyo caso se de- interpretación de la inferencia predictiva a partir
ben tomar las medidas apropiadas (p. ej., validez de otros contextos. La evidencia de validación se
cruzada). puede transportar directamente desde otro con-
Asimismo, otra estrategia para vincular los texto cuando exista evidencia sólida (p. ej., un
puntajes de predictor y el dominio de constructo cuidadoso análisis del trabajo) que indique que
de predictor se centra en emparejar la evidencia el trabajo local es altamente comparable con el
de idoneidad con la que la medida de predictor trabajo para el cual se están importando los da-
representa al dominio de constructo de predictor tos de validez. Estos métodos se pueden basar en
(vinculación 2) con la evidencia de vinculación la evidencia de las vinculaciones 1 y 4 que ya ha
entre el dominio de constructo de predictor y el sido establecida en otros estudios, como en el caso
dominio de constructo de criterio (vinculación del estudio de transportabilidad descrito anterior-
3). Como se observó anteriormente, no existe una mente. También se podría establecer la evidencia
sola ruta directa para establecer estas vinculacio- de la vinculación 1 usando técnicas como el me-
nes. Estas implican líneas de evidencia integradas taanálisis para combinar los resultados de varios
bajo la “validez de constructo” en conceptualiza- estudios, y un cuidadoso análisis del trabajo po-
ciones anteriores del proceso de validez. Es posi- dría establecer la evidencia de la vinculación 4,
ble que una combinación de líneas de evidencia mostrando que el trabajo focal es similar a otros
(p. ej., juicio experto de las características predic- trabajos incluidos en el metaanálisis. En el caso
tivas del éxito en el trabajo, inferencias extraídas extremo, se podría desarrollar un sistema de selec-
de un análisis de incidentes críticos de desem- ción para un trabajo de nueva creación que, en la
peño eficaz o ineficaz, y métodos de entrevista y actualidad, no tenga interesados. Aquí, la genera-
observación) puedan respaldar inferencias sobre lización de la evidencia de otros contextos puede
constructos de predictor vinculados con el do- resultar especialmente útil.
minio de constructo de criterio. Las medidas de En muchas aplicaciones de evaluación, existe
estos constructos de predictor pueden entonces un considerable y creciente corpus de investiga-
seleccionarse o desarrollarse, y se puede establecer ción que trata sobre algunas de las inferencias
una vinculación entre la medida de predictor y examinadas anteriormente, si no de todas. Una
el dominio de constructo de predictor, con varias integración meta-analítica de esta investigación
líneas de evidencia para la vinculación 2, como se puede formar parte integral de la estrategia para
mencionó anteriormente. vincular la información de la prueba con el do-
Las diversas estrategias para vincular puntajes minio de constructo de interés. El valor de la re-
de predictor con el dominio de constructo de cri- copilación de datos de validez locales varía con
terio pueden diferir en su aplicabilidad potencial la magnitud, relevancia y coherencia de las con-
a un contexto de pruebas de empleo determinado. clusiones de investigaciones que usan medidas de
Aunque la disponibilidad de algunas líneas de evi- predictor similares y dominios de constructo de
dencia pueda ser limitada, estas limitaciones no criterio similares para trabajos similares. En algu-
reducen la importancia de establecer un argu- nos casos, un registro de investigación acumulada,
mento de validez para la inferencia predictiva. pequeña y no sistemática puede llevar a una estra-
Por ejemplo, los métodos para establecer vin- tegia de validez que se base en gran medida en los
culaciones son más limitados en contextos donde datos locales; en otros, una base de investigación
solo están disponibles pequeñas muestras. En extensa y sistemática puede hacer innecesaria la
estas situaciones, la recopilación de evidencia lo- inversión en recursos para la recopilación de datos
cal de relaciones predictor-criterio no es factible locales adicionales.
y pueden resultar más útiles los métodos para Por lo tanto, se pueden utilizar diversas fuen-
generalizar la evidencia a partir de otros con- tes de datos y diversas líneas de evidencia para eva-
textos. Existen una variedad de métodos para la luar la vinculación entre una medida de predictor
194

y el dominio de constructo de criterio de interés. relacionado con las alternativas disponibles, in-
No hay un solo método de investigación de prefe- fluye en las decisiones sobre el uso de la prueba.
rencia para el establecimiento de esta vinculación. A menudo, las decisiones sobre el uso de la
Más bien, el usuario de la prueba debe conside- prueba se ven influidas por consideraciones adi-
rar las características específicas de la situación de cionales, incluyendo la utilidad (es decir, la rela-
evaluación y aplicar el juicio profesional para de- ción costo-beneficio) y el retorno de inversión,
sarrollar una estrategia para probar la hipótesis de los juicios de valor sobre la importancia relativa
una vinculación entre la medida de predictor y el de seleccionar un dominio de criterio en vez de
dominio de criterio. otros, las preocupaciones sobre las reacciones de
los postulantes ante el contenido y los procesos
Bases para evaluar el uso de la prueba de de la prueba, la disponibilidad e idoneidad de
empleo métodos de selección alternativos, y los requisi-
Aunque el objetivo principal de las pruebas de tos legales o reglamentarios que rigen el uso, la
trabajo es la predicción precisa de los compor- imparcialidad y los objetivos de la política de la
tamientos o resultados de trabajo posteriores, prueba, por ejemplo, la diversidad del personal.
es importante reconocer que hay límites en el Sin duda, los valores organizacionales juegan un
grado de predicción de tales criterios. No se papel en las decisiones sobre el uso de la prueba;
puede alcanzar una predicción perfecta. En pri- así, incluso organizaciones con evidencia compa-
mer lugar, el comportamiento en el contexto de rable que respalda una inferencia prevista extraída
trabajo se ve influido por una amplia variedad de los puntajes de una prueba pueden alcanzar
de factores organizacionales y extraorganiza- diferentes conclusiones sobre si se debe usar o no
cionales, incluyendo el entrenamiento del su- una prueba específica.
pervisor y los colegas, la capacitación formal e
informal, el diseño del trabajo, las estructuras y Pruebas en la acreditación profesional y
sistemas de la organización, y las responsabili- ocupacional
dades familiares, entre otros. En segundo lugar,
el comportamiento en el contexto de trabajo Las pruebas son ampliamente utilizadas en la
también se ve influido por una amplia variedad acreditación de personas para muchas activida-
de características individuales, incluyendo los des y profesiones. Los gobiernos federales, es-
conocimientos, capacidades, habilidades, perso- tatales y locales imponen requisitos legales para
nalidad y actitudes de trabajo, entre otros. Por lo garantizar que quienes obtienen una licencia
tanto, cualquier característica única solo será un tiene los conocimientos y capacidades suficien-
predictor imperfecto, e incluso complejos siste- tes para realizar actividades profesionales impor-
mas de selección solo se centran en el conjunto tantes con seguridad y eficacia. La certificación
de constructos considerados más críticos para juega un papel similar en muchas actividades no
el trabajo, y no en todas las características que reguladas por los gobiernos y, con frecuencia, es
pueden influir en el comportamiento de trabajo. un precursor necesario para la promoción. Asi-
En tercer lugar, siempre se producirán errores de mismo, la certificación se ha usado también en
medida, incluso en pruebas y medidas de criterio gran medida para indicar que una persona tiene
bien desarrolladas. unas habilidades específicas (p. ej., manejo de
Por lo tanto, los sistemas de evaluación no se equipos especializados de reparación automo-
pueden juzgar con respecto a un estándar de pre- triz), las cuales pueden ocupar solo una parte de
dicción perfecta. En su lugar, se deben juzgar en sus tareas profesionales. En general, la obtención
términos comparativos con métodos de selección de licencias y la certificación se denominarán
alternativos disponibles. El juicio profesional, in- aquí acreditación.
formado por el conocimiento de la literatura de in- Las pruebas usadas en la acreditación tie-
vestigación sobre el grado de precisión predictiva nen como objetivo proporcionar al público,
195

capítulo 11
incluyendo empleados y organismos guberna- o los estudios o encuestas de prácticas de los

mentales, un mecanismo confiable para identifi- profesionales en ejercicio. A menudo, paneles de
car profesionales que hayan cumplido estándares expertos en el área trabajan en colaboración con
específicos. Los estándares pueden ser estrictos, expertos en medición para definir las especifica-
pero no tan exigentes como para limitar indebi- ciones de la prueba, incluyendo los conocimien-
damente el derecho de individuos cualificados a tos y habilidades necesarios para un desempeño
ofrecer sus servicios al público. La acreditación seguro y eficaz, y la forma apropiada de evaluar-
también sirve para proteger al público mediante los. Los Estándares se aplican a todos los formatos
la exclusión de personas que se considera no cua- de pruebas, incluyendo las pruebas tradicionales
lificadas para realizar las tareas de una profesión u de selección múltiple y de selección de respuestas,
actividad. Las cualificaciones para la acreditación, porfolios, tareas de juicio situacional o exámenes
por lo general, incluyen requisitos educativos, un orales. En la evaluación de estos componentes de
determinado grado de experiencia supervisada y práctica también se utilizan tareas de desempeño
otros criterios específicos, así como la obtención más elaboradas, a veces mediante simulaciones
de un puntaje aprobatorio en uno o más exáme- por computadora como, por ejemplo, en diagnós-
nes. Las pruebas se usan en la acreditación de un tico de pacientes o planificación del tratamiento.
amplio espectro de profesiones y actividades, in- También es posible que se usen tareas de desem-
cluyendo la medicina, la profesión jurídica, la en- peño práctico (p. ej., el manejo de una grúa o una
señanza, la arquitectura, la profesión inmobiliaria curación dental), con la observación y evaluación
y la cosmetología. En algunas de estas actividades, de uno o más examinadores.
como la ciencia actuarial, la neuropsicología clí- Las pruebas de acreditación pueden abarcar
nica o las especialidades médicas, las pruebas se un número de áreas de conocimiento o capacidad
usan también para certificar los niveles avanzados relacionadas, pero diferentes. El diseño del pro-
de especialización. En algunas profesiones o ac- grama de pruebas incluye decidir qué áreas se van
tividades también es necesaria la renovación de a incluir, si se usará una prueba o una serie de
licencias o la recertificación periódica. pruebas, y cómo se combinarán los puntajes de
Las pruebas usadas en la acreditación están di- las pruebas para llegar a una decisión global. En
señadas para determinar si el candidato domina algunos casos, se permite que los puntajes altos de
los conocimientos y habilidades esenciales. El en- una prueba desplacen (es decir, compensen) los
foque se pone en los estándares de competencia puntajes bajos, de manera que resulta apropiada
necesarios para un desempeño eficaz (p. ej., en la una combinación aditiva. En otros casos, se usa
obtención de licencias esto se refiere a un desem- un modelo de decisión conjuntiva que requiere
peño práctico seguro y efectivo). Normalmente, un desempeño aceptable en cada una de las prue-
el diseño de la prueba empieza con una definición bas de una serie de exámenes. Se debe considerar
adecuada de la actividad o especialidad, de ma- cuidadosamente el tipo de modelo de decisiones
nera que se pueda identificar claramente que las aprobado-reprobado para un programa de acre-
personas se dedican a esa actividad. A continua- ditación, y se debe articular la base conceptual o
ción, se describen la naturaleza y los requisitos de empírica de ese modelo de decisiones.
la actividad, en su forma actual. Para identificar La validez de las pruebas de acreditación de-
los conocimientos y habilidades necesarias para pende principalmente de la evidencia relacionada
un ejercicio competente, es importante llevar a con el contenido, a menudo en la forma de juicios
cabo un análisis del trabajo real y documentar las sobre la idoneidad de la prueba para representar
tareas y responsabilidades esenciales de la activi- el dominio de contenido asociado con la activi-
dad o profesión de interés. Se puede usar una am- dad o especialidad que se considera. Tal eviden-
plia variedad de métodos empíricos, incluyendo cia se puede complementar con otras formas de
la técnica de incidentes críticos, el análisis del tra- evidencia externas a la prueba. Por ejemplo, se
bajo, la evaluación de necesidades de capacitación podría proporcionar información sobre el proceso
196

mediante el cual se desarrollaron las especificacio- del trabajo y su relación, es imposible establecer
nes del contenido y la especialización de las per- un estándar correcto. En segundo lugar, sin infor-
sonas que han emitido juicios sobre el dominio de mación detallada sobre el formato de la prueba y
contenido. La evidencia relacionada con los crite- la dificultad de los ítems, estos puntajes de corte
rios es de aplicabilidad limitada porque los exá- arbitrarios carecen de significado.
menes de acreditación no tienen como objetivo Los puntajes de las pruebas de acreditación
predecir el desempeño individual en un trabajo deben ser precisos en las inmediaciones del pun-
específico, sino más bien proporcionar evidencia taje de corte. Es posible que no necesiten ser tan
de que los candidatos han adquirido los conoci- precisos para los examinandos que aprueban o
mientos, habilidades y juicios necesarios para un reprueban con claridad. Las pruebas de destreza
desempeño eficaz, a menudo en una amplia varie- basadas en computadora pueden incluir una dis-
dad de trabajos o contextos (usamos el término posición para finalizar la prueba cuando resulta
juicio para referirnos a la aplicación de conoci- evidente que se puede tomar una decisión sobre
mientos o capacidades en situaciones específicas). el desempeño de los candidatos, lo que se traduce
Además, normalmente las medidas de desempeño en una prueba más corta para los candidatos cuyo
en ejercicio no están disponibles para quienes no rendimiento claramente supera o está por debajo
obtienen una acreditación. del desempeño mínimo requerido para un pun-
La definición del nivel mínimo de conoci- taje de aprobación. Debido a que las pruebas de
mientos y capacidades que requiere la obtención destreza pueden no estar diseñadas para propor-
de licencias o la certificación es una de las tareas cionar resultados exactos para el rango completo
más importantes y difíciles para los responsables de puntajes, muchas de estas pruebas reportan
de la acreditación. La validez de la interpretación los resultados simplemente como “aprobado” o
de los puntajes de las pruebas depende de que el “reprobado”. Cuando los candidatos reciben co-
estándar para aprobar haga una distinción apro- mentarios sobre su desempeño, se requiere pre-
piada entre el desempeño correcto e incorrecto. cisión para todo el rango de puntajes. Los errores
A menudo, se usan paneles de expertos para es- estándar de medida condicional, examinados en
pecificar el nivel de desempeño que se establece el capítulo 2, proporcionan información sobre la
como requisito. Los estándares deben ser lo bas- precisión de puntajes específicos.
tante altos como para garantizar que el público, Los candidatos que reprueben pueden en-
los empleadores y los organismos gubernamenta- contrar útil la información sobre las áreas en las
les obtengan un servicio adecuado, pero no tan tuvieron un desempeño especialmente deficiente.
altos que se conviertan en limitaciones injus- Esta es la razón por la que a veces se suminis-
tificadas. La verificación de la idoneidad de los tran subpuntajes. A menudo, los subpuntajes se
puntajes de corte o de los puntajes de una prueba basan en un número relativamente pequeño de
para la obtención de licencias o la certificación es ítems y pueden ser mucho más confiables que
un elemento crucial en el proceso de validez. El el puntaje total. Además, las diferencias entre
capítulo 5 ofrece un análisis general sobre la fi- los subpuntajes pueden reflejar simplemente un
jación de puntajes de corte (véase los Estándares error de medida. Por estas razones, la decisión de
5.21—5.23 para ver temas específicos sobre los proporcionar subpuntajes a los candidatos debe
puntajes de corte). considerarse cuidadosamente, y se debe facilitar la
En ocasiones, los órganos legislativos intentan información para una interpretación apropiada.
legislar sobre un puntaje de corte, por ejemplo, En el capítulo 2 y el estándar 2.3 se trata la im-
un 70% de ítems de prueba respondidos correc- portancia de la confiabilidad de los subpuntajes.
tamente. Los puntajes de cortes que se establecen Debido a que la acreditación suele acarrear
de este modo tan arbitrario pueden ser perjudi- riesgos altos y es un proceso continuo, con prue-
ciales por dos razones. En primer lugar, sin infor- bas aplicadas mediante un programa regular, nor-
mación detallada sobre la prueba, los requisitos malmente no es deseable usar el mismo formulario
197

capítulo 11
de prueba repetidamente. Por lo tanto, general- puntaje de aprobación como indicador de compe-
mente se necesitan nuevos formularios o versio- tencias de nivel básico. Ajustar periódicamente los
nes de una prueba de forma periódica. Desde una puntajes de corte también implica que los están-
perspectiva técnica, todos los formularios de una dares tendrán un nivel más alto en unos años que
prueba se deben preparar con las mismas especi- en otros, una práctica que es difícil de justificar
ficaciones, evaluar el mismo contenido y usar la en términos de calidad del desempeño. A veces,
misma ponderación de componentes o temas. la escala de puntajes se ajusta de manera que un
Los formularios de pruebas alternativos deben número determinado o una proporción de can-
tener la misma escala de puntajes, de manera que didatos alcancen el puntaje de aprobación. Este
estos puedan retener su significado. Se pueden método, aunque menos obvio para los candidatos
usar varios métodos de vinculación o equipara- que cambiar el puntaje de corte, también es téc-
ción de formularios alternativos para garantizar nicamente inapropiado ya que cambia el signifi-
que el estándar para la aprobación representa el cado de los puntajes de un año a otro. Aprobar
mismo nivel de desempeño en todos los formu- un examen de acreditación debe significar que el
larios. Observe que la divulgación de formularios candidato cumple con los estándares de conoci-
de pruebas anteriores puede poner en riesgo el mientos y capacidades establecidos por el órgano
grado de comparabilidad de distintos formularios de acreditación para garantizar un ejercicio eficaz.
de pruebas. Los problemas de engaño y seguridad de la
La práctica de profesiones y actividades suele prueba son de especial importancia en la realiza-
cambiar a lo largo del tiempo. Las restricciones ción de pruebas de acreditación. Los problemas de
legales cambiantes, el progreso en áreas científicas seguridad se tratan en los capítulos 6 y 9. Los pro-
y el refinamiento de las técnicas pueden implicar blemas de engaño por parte de los examinandos
la necesidad de cambios en el contenido de la se examinan en el capítulo 8 (véase los Estándares
prueba. Cada profesión o actividad debe reevaluar 8.9-8.12, que tratan sobre las irregularidades en
periódicamente los conocimientos y habilidades las pruebas).
medidos en los exámenes que se utilizaron para La imparcialidad y el acceso, temas del capí-
cumplir los requisitos de la acreditación. Cuando tulo 3, son importantes para las pruebas de obten-
el cambio es sustancial, será necesario revisar la ción de licencias y certificación. La evaluación de
definición de la profesión y el contenido de la una adecuación o modificación de una prueba de
prueba para reflejar las circunstancias cambiantes. acreditación deberá tener en cuenta las funciones
Estos cambios en la prueba podrían alterar el sig- críticas que se realizan en el trabajo de interés de
nificado de la escala de puntajes. Cuando se ha- la prueba. En el caso de las pruebas de acredita-
cen revisiones importantes en la prueba o cuando ción, la criticalidad de las funciones del trabajo se
cambia la escala de puntajes, se debe volver a esta- basa en el interés público, así como en la propia
blecer el puntaje de corte. naturaleza del trabajo. Cuando una condición li-
Algunos grupos de acreditación consideran mita la capacidad de un individuo para realizar
necesario, como asunto práctico, ajustar periódi- una función crítica de un trabajo, es posible que
camente el puntaje de aprobación u otros criterios no resulte apropiado adecuar o modificar el exa-
para regular el número de candidatos acreditados men de obtención de licencia o certificación (es
que acceden a la profesión. Este procedimiento decir, algunos cambios pueden alterar sustancial-
es cuestionable y presenta graves problemas para mente factores que el examen tiene previsto medir
la calidad técnica de los puntajes de las pruebas, para la protección de la seguridad, el bienestar y
y amenaza la validez de la interpretación de un la salud pública).
198

Estándares para pruebas y acreditación en el

centro de trabajo
Los estándares de este capítulo se han separado Estándar 11.2
en tres unidades temáticas denominadas de la si-
guiente manera: La evidencia de validación basada en el conte-
nido de la prueba requiere una definición ex-
1. Estándares aplicables con carácter general a haustiva y explícita del dominio de contenido de
las pruebas y la acreditación en el centro de interés.
trabajo Comentario: En general, el dominio de conte-
2. Estándares para las pruebas de empleo nido de un trabajo para una prueba de empleo se
3. Estándares para la acreditación debe describir en términos de las tareas que se rea-
lizan y los conocimientos, capacidades, habilida-
Unidad 1. Estándares aplicables con des y otras características que el trabajo requiere.
Se deben definir claramente de manera que se
carácter general a las pruebas y la puedan asociar con el contenido de la prueba. Los
acreditación en el centro de trabajo conocimientos, habilidades, capacidades y otras
características incluidas en el dominio de conte-
Estándar 11.1 nido deben ser aquellos que los postulantes cuali-
ficados ya tengan cuando se les considera para el
Antes del desarrollo e implementación de una trabajo en cuestión. Además, no se debe esperar
prueba de empleo o acreditación, se debe ha- que la importancia de estas características para el
cer una clara formulación de las interpreta- trabajo en consideración cambie sustancialmente
ciones previstas de los puntajes para los usos a lo largo del tiempo.
especificados. Las tareas de validez posterior se Para pruebas de acreditación, el dominio de
deben diseñar para determinar en qué medida contenido objetivo consiste, por lo general, en co-
se ha logrado esto para todos los subgrupos nocimientos, habilidades y juicios necesarios para
pertinentes. un desempeño eficaz. El dominio de contenido
objetivo se debe definir claramente de manera que
Comentario: Los objetivos de las pruebas de em-
se pueda asociar con el contenido de la prueba.
pleo y acreditación pueden variar considerable-
mente. Algunas pruebas de empleo se usan para
descartar a las personas menos capacitadas para el Estándar 11.3
trabajo en cuestión, en tanto que otras están dise-
Cuando el contenido de la prueba es una fuente
ñadas para identificar a las personas más idóneas
primaria de evidencia de validación que res-
para ese trabajo. Las pruebas de empleo también
palda la interpretación del uso de una prueba
varían en aspectos del comportamiento de trabajo
en decisiones de empleo o acreditación, se debe
que trata de predecir, lo que puede incluir la can-
demostrar una estrecha relación entre el conte-
tidad y calidad del trabajo, conductas contrapro-
nido de la prueba y el trabajo o los requisitos
ducentes, trabajo en equipo, etc. Las pruebas de
profesionales/ocupacionales.
acreditación y algunas pruebas de empleo están
diseñadas para identificar candidatos que satisfa- Comentario: Por ejemplo, si el contenido de la
gan un determinado nivel de competencia en un prueba muestra las tareas del trabajo con una fide-
dominio objetivo de conocimientos, habilidades lidad considerable (p. ej., con ejemplos de trabajo
y juicios. reales como el manejo de máquinas) o, a juicio de
199

capítulo 11
los expertos, simula correctamente el contenido requisitos específicos de experiencia o nivel edu-
de las tareas del trabajo (p. ej., con determinados cativo. Se debe proporcionar una justificación y la
ejercicios de evaluación del centro) o si la prueba evidencia de respaldo para cada uno de estos re-
muestrea los conocimientos específicos del trabajo quisitos. En las pruebas y evaluaciones, la eviden-
(p. ej., información necesaria para realizar algunas cia incluye, entre otros, la confiabilidad/precisión
tareas) o las habilidades que se requieren para un de los puntajes y la correlación entre las pruebas
desempeño competente, se puede ofrecer eviden- y evaluaciones.
cia relacionada con el contenido como forma En las pruebas de empleo, durante la toma de
principal de evidencia de validación. Si la relación decisiones, la persona responsable puede integrar
entre el contenido de la prueba y el contenido del los puntajes de las pruebas con los datos de la entre-
trabajo no es clara y directa, cobrarán importancia vista, verificaciones de referencias y muchas otras
otras líneas de evidencia de validación. fuentes de información. Las inferencias extraídas
Cuando se presenta una evidencia de valida- de los puntajes de las pruebas se deben limitar a las
ción basada en el contenido de la prueba para que cuentan con evidencia de validación disponi-
un trabajo o tipo de trabajos, la evidencia debe ble. Por ejemplo, en una prueba que mide un solo
incluir una descripción de las principales carac- dominio pertinente muy concreto (como el co-
terísticas del trabajo que la prueba se propone nocimiento de trabajo) sería una inferencia inco-
muestrear. A menudo resulta útil incluir informa- rrecta considerar un puntaje alto como indicador
ción sobre la frecuencia relativa, la importancia de idoneidad global para el trabajo (excluyendo,
y la criticalidad de los elementos. En un examen por tanto, la necesidad de verificar las referencias).
de acreditación, la evidencia deberá incluir una En otras circunstancias, los responsables de tomar
descripción de las principales responsabilidades, decisiones pueden integrar los puntajes de varias
tareas o actividades desempeñadas por los profe- pruebas, o de varias escalas de una prueba.
sionales que la prueba quiere muestrear, así como
los conocimientos y capacidades fundamentales y
necesarias para desempeñar esas responsabilida- Unidad 2. Estándares para las
des, tareas o actividades.
pruebas de empleo

Cuando se integran varios puntajes de pruebas Cuando una prueba se usa para predecir un cri-
(o se integra información de puntajes e infor- terio, la decisión de llevar a cabo estudios empí-
mación que no procede de las pruebas) con la ricos locales de las relaciones predictor-criterio
finalidad de tomar una decisión, se debe explicar y la interpretación de los resultados se deben
claramente el papel que juega cada componente, basar en el conocimiento de las investigaciones
y la inferencia formulada a partir de cada fuente pertinentes.
de información se debe respaldar mediante evi-
Comentario: La literatura acumulada sobre la re-
dencia de validación.
lación entre un tipo específico de predictor y un
Comentario: En la acreditación, es posible que se tipo de criterio puede ser suficientemente grande
exija a los candidatos obtener un puntaje igual o y sistemática como para respaldar la relación
superior a un mínimo especificado en cada una predictor-criterio sin investigación adicional. En
de las pruebas (p. ej., un examen práctico basado algunos contextos, la literatura de investigación
en habilidades y una prueba de conocimientos acumulada puede ser tan importante y sistemática
de selección múltiple), o igual o superior a un que una conclusión dispar de un estudio acotado
puntaje de corte respecto de un puntaje agregado deberá tomarse con precaución, a menos que el
total. También pueden ser obligatorios algunos estudio acotado sea excepcionalmente sólido. Los
200

estudios acotados tienen el máximo valor en con- o en la capacitación relacionada con el trabajo,
textos donde la literatura de investigación acu- según lo indique una revisión apropiada de la
mulada es escasa (p. ej., debido a la novedad del información sobre el trabajo.
predictor o del criterio usado), donde el registro
Comentario: Cuando se construyen criterios
acumulado no es sistemático, o donde la litera-
para representar actividades o comportamientos
tura acumulada no incluye estudios similares al
de trabajo (p. ej., calificaciones de supervisión de
estudio del contexto local (p. ej., el estudio de una
subordinados en dimensiones importantes del
prueba con una literatura acumulada considera-
trabajo), la recopilación sistemática de informa-
ble que trata exclusivamente de trabajos de pro-
ción sobre el trabajo deberá informar el desarrollo
ducción y un contexto local que abarca trabajos
de las medidas de criterio. Sin embargo, no hay
administrativos).
una opción clara entre los numerosos métodos
disponibles de análisis del trabajo. Observe que
Estándar 11.6 el análisis del trabajo no se limita a la observación
directa del trabajo o al muestreo directo de exper-
La dependencia en la evidencia local de las retos en la materia; a menudo, las bases de datos
laciones predictor-criterio determinadas empí- analíticas a gran escala ofrecen información útil.
ricamente como una estrategia de validez está Cuando los criterios de interés son medidas como
supeditada a la determinación de la viabilidad el absentismo, la rotación o los accidentes, no hay
técnica. una clara necesidad de análisis del trabajo para
Comentario: La evidencia pertinente de las re- respaldar el uso de criterios.
laciones predictor-criterio está supeditada a un
número de características, incluyendo (a) los tra- Estándar 11.8
bajos que son relativamente estables y no de un
Los individuos que realizan o interpretan es-
periodo de rápida evolución; (b) la disponibilidad
tudios empíricos de las relaciones predictor-
de una medida de criterio pertinente y confiable;
criterio deben identificar artefactos que pueden
(c) la disponibilidad de una muestra razonable-
haber influido en las conclusiones del estudio,
mente representativa de la población de interés;
y (d) un tamaño de muestra adecuado para es- como errores de medida, restricción de rango,
timar la solidez de la relación predictor-criterio. deficiencias de criterios, contaminación de cri-
Si alguna de estas condiciones no se cumple, se terios o datos omitidos. Se debe documentar
deberá usar una estrategia de validez alternativa. la evidencia de presencia o ausencia de talas
Por ejemplo, como se observó en el comentario características (y de las acciones realizadas para
del Estándar 11.5, la literatura de investigación eliminar o controlar su influencia) y ponerse a
acumulada podría proporcionar una evidencia de disposición según sea necesario.
validación sólida. Comentario: Los errores de medida en los criterios
y las restricciones en la variabilidad de los puntajes
Estándar 11.7 del predictor o el criterio reducen sistemáticamente
las estimaciones de la relación entre las medidas del
Cuando la evidencia empírica de las relacio- predictor y el dominio de constructo de criterio,
nes predictor-criterio es parte de un patrón de pero están disponibles procedimientos de correc-
evidencia usado para respaldar el uso de una ción de los efectos de estos artefactos. Cuando se
prueba, las medidas de criterio usadas deben aplican estos procedimientos, se deben presentar
reflejar el dominio de constructo de criterio de tanto los valores corregidos como los no corregidos,
interés para la organización. Todos los criterios junto con la justificación de los procedimientos
deben representar comportamientos o resulta- de corrección elegidos. No se deben usar pruebas
dos de trabajo importantes, ya sea en el trabajo de relevancia estadísticas para correlaciones no
201

capítulo 11
corregidas en correlaciones corregidas. Otras carac- vinculados a diferentes niveles o probabilidades

terísticas a considerar incluyen cuestiones como, de éxito en los trabajos, grupos de trabajos o ni-
por ejemplo, los datos omitidos para variables veles de trabajos.
de algunos individuos, las decisiones sobre la re-
Comentario: Como se señaló en el capítulo 1, es
tención o eliminación de valores extremos de los
posible que las pruebas sean altamente predicti-
datos, los efectos de la capitalización aleatoria en
vas del desempeño en diferentes trabajos, pero
la selección de predictores a partir de un conjunto
no proporcionen evidencia del diferente grado de
mayor basándose en la solidez de las relaciones pre-
éxito entre los trabajos. Por ejemplo, podría pre-
dictor-criterio, como en el caso de la recopilación
decirse que las mismas personas van a tener éxito
de calificaciones de criterios de supervisores que
en todos los trabajos.
conocen los puntajes de las pruebas de selección.
El capítulo 3, sobre imparcialidad, describe temas
adicionales que se deben tener en cuenta. Estándar 11.11
Si la evidencia basada en el contenido de la
Estándar 11.9 prueba es una fuente primaria de evidencia de
validación que respalda el uso de una prueba
La evidencia de las relaciones predictor-criterio para la selección en un trabajo específico, solo
en una situación local actual no se debe inferir a se debe formular una inferencia similar sobre la
partir de un solo estudio previo de validez, a me- prueba en una nueva situación si el trabajo y la
nos que el estudio previo de las relaciones pre- situación son básicamente los mismos que el tra-
dictor-criterio haya sido hecho bajo condiciones bajo y la situación donde se recopiló la evidencia
favorables (es decir, con un tamaño de muestra de validación original.
grande y un criterio pertinente) y la situación
actual se corresponda estrechamente con la si- Comentario: El uso apropiado de la prueba en
tuación anterior. este contexto requiere que los factores críticos de
contenido del trabajo sean básicamente los mis-
Comentario: Una estrecha correspondencia sig- mos (p. ej., tal como se han determinado por un
nifica que los criterios (p. ej., los requisitos del análisis del trabajo) y que el nivel de lectura del
trabajo o los constructos psicológicos subyacen- material de la prueba no exceda el apropiado para
tes) son básicamente los mismos (p. ej., tal como el nuevo trabajo. Además, el significado original
se han determinado por un análisis del trabajo) de los materiales de la prueba no debe cambiar
y que el predictor es básicamente el mismo. Los sustancialmente en la nueva situación. Por ejem-
juicios sobre el grado de correspondencia se de- plo, “la sal es a la pimienta” puede ser la res-
ben basar en factores que bien pueden afectar a puesta correcta al ítem por analogía “el blanco es
la relación predictor-criterio. Por ejemplo, una al negro” en una cultura donde las personas usan
prueba de juicio situacional que prediga el des- pimienta negra de forma cotidiana, pero el ítem
empeño de los gerentes en un país puede o no tendría un significado diferente en una cultura
predecir el desempeño gerencial en otro país de donde la norma es la pimienta blanca.
cultura muy diferente.
Estándar 11.12
Estándar 11.10
Cuando el uso de una determinada prueba para
Si las pruebas se van a utilizar para tomar de- la selección de personal depende de las relaciones
cisiones de clasificación de trabajos (p. ej., si entre un dominio de constructo de predictor que
el patrón de puntajes de predictor se va a usar la prueba representa y un dominio de constructo
para hacer asignaciones diferenciales de trabajo), de criterio, es necesario establecer dos vincula-
se necesita evidencia de que los puntajes están ciones. En primer lugar, debe existir evidencia de
202

que los puntajes de la prueba son confiables y de se debe justificar en términos de la importancia
que el contenido de la prueba presenta adecua- del contenido para el desempeño acreditado de
damente el dominio de constructo de predictor. una profesión o actividad. Se debe proporcionar
En segundo lugar, debe existir evidencia de la una justificación o evidencia que respalde el ar-
relación entre el dominio de constructo de pre- gumento de que los conocimientos o habilida-
dictor y los principales factores del dominio de des evaluadas son necesarios para el desempeño
constructo de criterio. acreditado de esa actividad y que son coherentes
con el propósito para el cual se estableció el pro-
Comentario: Debe existir una justificación con-
grama de acreditación.
ceptual clara para estas relaciones. Se deberá de-
finir con claridad tanto el dominio de constructo
Comentario: Habitualmente, alguna forma de
de predictor como el dominio de constructo de
análisis del trabajo o práctica proporcionan la
criterio con el que se le vincula. No existe una sola
base principal para definir el dominio de conte-
ruta de preferencia para establecer estas relacio-
nido. Si se usa el mismo examen en la acredita-
nes. La evidencia que respalda las vinculaciones
ción de personas empleadas en una variedad de
entre los dos dominios de constructo incluye pa-
contextos y especialidades, es posible que sea
trones de conclusiones de la literatura de investi-
necesario analizar un número de distintos con-
gación y una evaluación sistemática del contenido
textos de trabajo. Aunque las técnicas de análisis
del trabajo para identificar constructos de predic-
del trabajo pueden ser similares a las usadas en las
tor vinculados al dominio de criterio. Se deben
pruebas de empleo, el enfoque de la acreditación
documentar las bases de los juicios que vinculan
se limita apropiadamente a los conocimientos y
los dominios de constructo de predictor y criterio.
habilidades necesarias para un ejercicio eficaz. Los
Por ejemplo, se podría usar una prueba de
conocimientos y habilidades incluidas en un plan
capacidad cognitiva para predecir el desempeño
de estudios básico diseñado para capacitar a per-
en un trabajo complejo que requiere un análisis
sonas para el trabajo o actividad pueden ser perti-
sofisticado de muchos factores. Aquí, el domi-
nentes, especialmente si el plan de estudios se ha
nio de constructo de predictor sería la capacidad
diseñado para ser coherente con análisis empíricos
cognitiva, y verificar el primer vínculo requeriría
del trabajo o la práctica.
demostrar que la prueba es una medida adecuada
En las pruebas que se usan para la obtención
del dominio de capacidad cognitiva. El segundo
de licencias, no se deben incluir los conocimien-
vínculo podría respaldarse con varias líneas de
tos y habilidades que pueden ser importantes para
evidencia, incluyendo un conjunto de hallazgos
el éxito, pero no se relacionan directamente con el
de investigaciones que demuestren una relación
propósito de la obtención de una licencia (p. ej.,
sistemática entre la capacidad cognitiva y el des-
la protección del público). Por ejemplo, en conta-
empeño en tareas complejas, y por los juicios de
bilidad, las habilidades de marketing pueden ser
expertos en la materia relacionados con la impor-
importantes para el éxito y la evaluación de esas
tancia de la capacidad cognitiva para el desem-
habilidades podría resultar útil para las organiza-
peño en el dominio de desempeño.
ciones que seleccionan contadores. Sin embargo,
es posible que la carencia de esas habilidades no
sea un riesgo para el público y, por lo tanto, estas
Unidad 3. Estándares para la habilidades podrían excluirse correctamente del
acreditación examen para la obtención de licencias. El hecho
de que los profesionales con éxito presenten al-
Estándar 11.13 gunos conocimientos o habilidades es pertinente,
pero no convincente. Esa información se debe
Se debe definir claramente el dominio de conte- cotejar con un análisis del propósito del pro-
nido que abarcará una prueba de acreditación y grama de acreditación y las razones por las que se
203

capítulo 11
requieren los conocimientos o habilidades en una puntajes iguales o superiores a un mínimo espe-
profesión o actividad. cificado en todas las pruebas. En otros casos, la
decisión de aprobar-reprobar se puede basar ex-
clusivamente en un puntaje agregado total. Si las
Estándar 11.14 pruebas se van a combinar en un puntaje agre-
Se deben proporcionar valoraciones sobre la gado, se deberá proporcionar información a los
coherencia de las decisiones de acreditación ba- candidatos sobre el peso relativo de las pruebas.
sadas en pruebas, además de otras fuentes de evi- No siempre es posible informar a los candidatos
dencia de confiabilidad. de la ponderación exacta antes de la administra-
ción de la prueba ya que los pesos pueden depen-
Comentario: Los estándares para la coherencia de der de propiedades empíricas de las distribuciones
la decisión descritos en el capítulo 2 se aplican de los puntajes (p. ej., sus varianzas). No obstante,
a las pruebas que se usan en la obtención de li- se deberá informar a los candidatos de la inten-
cencias y certificación. También pueden ser úti- ción de ponderación (p. ej., la prueba A contri-
les otros tipos de valoraciones de confiabilidad y buye con un 25 % y la prueba B contribuye con
errores estándar de medida asociados, especial- un 75 % al puntaje total).
mente el error estándar condicional en el puntaje
de corte. No obstante, es de importancia funda-
mental la coherencia de las decisiones en relación Estándar 11.16
con la certificación. El nivel de desempeño requerido para aprobar
una prueba de acreditación depende de los co-
Estándar 11.15 nocimientos y habilidades necesarios para el des-
empeño acreditado en la actividad o profesión
Las reglas y procedimientos que se usan para y no se debe ajustar para controlar el número o
combinar puntajes de diferentes partes de una proporción de personas que superan la prueba.
evaluación o puntajes de varias evaluaciones para
Comentario: El puntaje de corte se debe deter-
determinar el resultado general de una prueba
minar mediante un cuidadoso análisis y juicio
de acreditación se deben reportar a los exami-
del desempeño acreditado (véase el capítulo 5).
nandos, preferentemente antes de la administra-
Cuando existan formularios alternativos de una
ción de la prueba.
prueba, el puntaje de corte debe hacer referen-
Comentario: En algunos casos de acreditación, es cia al mismo nivel de desempeño en todos los
posible que se exija a los candidatos que obtengan formularios.
204

12. P
RUEBAS Y EVALUACIÓN
EDUCATIVAS
Antecedentes
El uso de pruebas educativas para informar decisio- Los Estándares se aplican claramente a pruebas
nes sobre el aprendizaje, la instrucción y la política formales cuyos puntajes u otros resultados se usan
educativa tiene una larga historia. Los resultados para propósitos que van más allá del aula, como
de las pruebas se usan para establecer juicios sobre parámetros de referencia o pruebas provisionales
el estado, los avances o los logros de estudiantes que escuelas y distritos usan para supervisar los
individuales, así como de entidades como escuelas, progresos de los estudiantes. Los Estándares tam-
distritos escolares, estados o países. Las pruebas bién se aplican a evaluaciones que se adoptan para
usadas en contextos educativos representan una su uso en diversas aulas y presentan afirmaciones
variedad de enfoques, desde formatos tradiciona- de validez de las interpretaciones de los puntajes
les de ítems abiertos y de selección múltiple hasta para los usos previstos por parte de sus desarro-
evaluaciones de desempeño, incluyendo porfolios lladores. Sin duda, esta distinción no siempre
puntuables. Como se señaló en el capítulo de in- resulta clara. Distritos, escuelas y profesores usan
troducción, en ocasiones se hace una distinción cada vez más una gama de sistemas didácticos y
entre los términos prueba y evaluación, donde este de evaluación coordinados, muchos de los cua-
último abarca fuentes de información más amplias les se basan en tecnología. Estos sistemas pueden
que el puntaje mediante un solo instrumento. En incluir, por ejemplo, bancos de ítems de prueba
este capítulo usamos ambos términos, a veces de que los profesores individuales pueden usar en el
forma intercambiable, porque los estándares exa- desarrollo de pruebas para sus propios fines, ejer-
minados se aplican, en general, a ambos. cicios de evaluación focalizados que se adjuntan
Este capítulo no trata explícitamente las cues- a las lecciones, o simulaciones y juegos diseñados
tiones relacionadas con las pruebas desarrolladas o para fines didácticos o de evaluación. Incluso si
seleccionadas exclusivamente para informar sobre no siempre es posible separar en estos sistemas las
el aprendizaje y la instrucción en el nivel del aula. cuestiones de medida de las cuestiones didácticas
Con frecuencia, esas pruebas tienen consecuen- y de aprendizaje correspondientes, las evaluacio-
cias para los estudiantes e influyen en las acciones que forman parte de esos sistemas y que sirven
nes didácticas, en la ubicación de estudiantes en a propósitos que exceden la enseñanza individual
programas educativos, y en categorías que pueden de un profesor, se inscriben en el ámbito de los
afectar a la admisión universitaria. Los Estándares Estándares. Los desarrolladores de estos sistemas
proporcionan criterios deseables de calidad que tienen la responsabilidad de adherirse a los Están-
se pueden aplicar a estas pruebas. Sin embargo, dares para respaldar sus argumentos.
como en las ediciones anteriores, hay considera- Tanto el tema introductorio como los es-
ciones prácticas que limitan la aplicabilidad de tándares proporcionados en este capítulo se or-
los Estándares en el nivel del aula. A menudo, las ganizan en tres grandes unidades: (1) diseño y
prácticas formales de validez no son factibles en desarrollo de evaluaciones educativas; (2) uso
las pruebas de aula porque las escuelas y profeso- e interpretación de evaluaciones educativas; y
res no tienen los recursos para documentar las ca- (3) administración, calificación y presentación
racterísticas de sus pruebas y estas no se publican de reportes de evaluaciones educativas. Aunque
para uso general. No obstante, se deben conside- las unidades están relacionadas con los capítulos
rar las expectativas básicas de validez, confiabili- que examinan áreas operativas de los estándares,
dad/precisión e imparcialidad en el desarrollo de el análisis se basa en los principios y conceptos
tales pruebas. presentados en los capítulos principales sobre
205

capítulo 12
validez, confiabilidad/precisión e imparcialidad, lo general, los objetivos son de naturaleza cog-

y los aplica a los contextos educativos. Se debe nitiva, como la comprensión por parte del estu-
señalar que este capítulo no trata específicamente diante de los números racionales equivalentes,
sobre el uso de los resultados de las pruebas en pero también puede abordar estados afectivos o
sistemas obligatorios de rendición de cuentas que habilidades psicomotoras. Por ejemplo, los obje-
pueden imponer recompensas o sanciones basadas tivos de enseñanza y aprendizaje podrían incluir
en el desempeño a instituciones como, por ejem- el interés creciente del estudiante por la ciencia o
plo, escuelas o distritos escolares, o a individuos enseñar a los estudiantes a formar letras con lápi-
como profesores o directores. Las aplicaciones de ces o plumas.
rendición de cuentas que comportan agregados Muchas evaluaciones que informan la en-
de puntajes se tratan en el capítulo 13 (“Uso de señanza y el aprendizaje se usan para fines for-
pruebas para la evaluación de programas, estudios mativos. Los profesores las usan en contextos
de políticas y rendición de cuentas”). cotidianos de aula para guiar la instrucción con-
tinua. Por ejemplo, los profesores pueden evaluar
Diseño y desarrollo de evaluaciones a los estudiantes antes de empezar una nueva uni-
educativas dad para comprobar si han adquirido los cono-
cimientos y capacidades indispensables previos.
Las pruebas educativas se diseñan y desarrollan A continuación, los profesores pueden recabar
para proporcionar puntajes que respalden las in- evidencias a lo largo de la unidad para ver si los
terpretaciones para los propósitos y usos previs- estudiantes están consiguiendo los progresos anti-
tos. Por lo tanto, el diseño y desarrollo de pruebas cipados e identificar cualquier laguna o concepto
educativas empieza considerando el propósito de erróneo que necesite resolverse.
la prueba. Una vez que se establecen los propósi- Muchas evaluaciones formales usadas para
tos de las pruebas, se pueden examinar las con- propósitos de enseñanza y aprendizaje no solo
sideraciones relacionadas con aspectos específicos informan la instrucción en clase, sino que tam-
del diseño y el desarrollo. bién proporcionan datos de evaluación indivi-
duales y agregados que otros pueden usar para
Propósitos principales de las pruebas respaldar mejoras en el aprendizaje. Por ejemplo,
educativas los profesores de un distrito pueden administrar
Aunque las pruebas educativas se usan de muchas periódicamente evaluaciones construidas comer-
maneras, la mayoría aborda al menos uno de tres cial o localmente que respondan a los estándares
propósitos principales: (a) formular inferencias estatales de contenido o a los planes de estudio
que informen la enseñanza y el aprendizaje a nivel del distrito. Estas pruebas se podrían usar para
individual o curricular; (b) formular inferencias evaluar el aprendizaje de los estudiantes en una
sobre los resultados de estudiantes individuales y o más unidades de instrucción. Los resultados se
grupos de estudiantes; y (c) informar las decisio- pueden reportar de inmediato a los estudiantes,
nes sobre los estudiantes, como la certificación de profesores y/o responsables de la escuela o el dis-
adquisición de conocimientos o habilidades espe- trito. Asimismo, los resultados se pueden desglo-
cíficos para la promoción, participación en pro- sar por estándar o subdominio de contenido para
gramas especiales de instrucción o la graduación. ayudar a los profesores y responsables didácticos a
identificar los puntos fuertes y débiles del apren-
Información de la enseñanza y el aprendizaje. dizaje de los estudiantes, o para identificar a los
Las evaluaciones que informan la enseñanza y el estudiantes, profesores o escuelas que pueden ne-
aprendizaje empiezan con objetivos claros para el cesitar asistencia especial. Por ejemplo, se podrían
aprendizaje de los estudiantes y pueden implicar diseñar programas especiales para dar tutorías a
una variedad de estrategias para la evaluación de los estudiantes en las áreas específicas que, según
la condición y el progreso de los estudiantes. Por los resultados de las pruebas, presentan carencias.
206

PRUEBAS Y EVALUACIÓN EDUCATIVAS
Debido a que los resultados de las pruebas pueden suficientes para guiar la enseñanza y el aprendi-
influir en las decisiones sobre la instrucción poste- zaje. Los estándares de rendimiento académico,
rior, es importante que los puntajes de dominios que a veces se denominan estándares de desem-
o subdominios de contenido se basen en un nú- peño, conectan los estándares de contenido con
mero suficiente de ítems o tareas que respalde de la información que describe en qué medida los
forma confiable los usos previstos. estudiantes están adquiriendo los conocimientos
En algunos casos, las evaluaciones adminis- y capacidades incluidos en los estándares de con-
tradas durante el año escolar se pueden usar para tenido académico. Los estándares de desempeño
predecir el desempeño del estudiante en una eva- pueden incluir etiquetas de desempeño (p. ej.,
luación sumativa a final de año. Si el desempeño “básico”, “competente”, “avanzado”), descripcio-
pronosticado en la evaluación de final de año es nes de lo que saben y pueden hacer estudiantes
bajo, podrían estar justificadas intervenciones for- de diferentes niveles de desempeño, ejemplos
mativas adicionales. Se pueden usar técnicas esta- de trabajos de estudiantes que ilustren el rango
dísticas, como la regresión lineal, para establecer de rendimiento en cada nivel de desempeño, y
las relaciones predictivas. Una variable confusa en puntajes de corte que especifiquen los niveles de
tales predicciones puede ser el grado en que las desempeño en una evaluación que separa niveles
intervenciones formativas que se basan en resul- adyacentes de consecución. El proceso de estable-
tados provisionales mejoran, a lo largo del año cer los puntajes de corte para estándares de rendi-
escolar, el desempeño de estudiantes con punta- miento académico se conoce normalmente como
jes inicialmente bajos; las relaciones predictivas fijación de estándar.
se reducirán en la medida que el aprendizaje del Aunque a partir de la consideración de las
estudiante mejora. pruebas basadas en estándares se desprende que
las evaluaciones deben alinearse estrechamente
Evaluación de los resultados de los estudiantes. con los estándares de contenido, en general no es
Normalmente, la evaluación de los resultados de posible medir exhaustivamente todos los están-
los estudiantes presenta funciones sumativas, esto dares de contenido usando una sola prueba su-
es, ayuda a evaluar el aprendizaje de los alumnos a mativa. Por ejemplo, los estándares de contenido
la finalización de una secuencia formativa especí- que se centran en la colaboración del estudiante,
fica (p. ej., al final del año escolar). Los resultados la argumentación oral o las actividades en el labo-
de pruebas educativas de los estudiantes pueden ratorio de ciencias no se prestan fácilmente a la
ser considerados con varios tipos de interpretacio- medición mediante pruebas tradicionales. Como
nes de puntajes, incluyendo interpretaciones ba- resultado, se ha restado importancia a algunos
sadas en estándares, interpretaciones basadas en el estándares de contenido en la instrucción a ex-
crecimiento e interpretaciones normativas. Estos pensas de estándares que se pueden medir con
resultados se pueden relacionar con el estudiante pruebas sumativas de final de año. Estas limita-
individual o agregarse por grupos de estudiantes, ciones se pueden solventar mediante el desarrollo
por ejemplo, clases, subgrupos, escuelas, distritos, de componentes de evaluación que se centren en
estados o países. diversos aspectos de un conjunto de estándares de
Por lo general, las interpretaciones basadas contenido comunes. Por ejemplo, las evaluacio-
en estándares de los resultados de los estudiantes nes de desempeño que están más estrechamente
empiezan con estándares de contenido, que espe- conectadas con las unidades formativas podrían
cifican qué se espera que los estudiantes conozcan medir determinados estándares de contenido que
y sean capaces de hacer. Normalmente, estos es- no se evalúan fácilmente mediante una evaluación
tándares los establecen comités de expertos en el sumativa de final de año más tradicional.
área que se someterá a prueba. Los estándares de La evaluación de los resultados de los es-
contenido deben ser claros y específicos, y dar a tudiantes también puede comportar interpre-
los profesores, estudiantes y padres instrucciones taciones relacionadas con los progresos de los
207

capítulo 12
estudiantes o el crecimiento a lo largo del tiempo, interpretaciones referenciadas a la norma. Una

y no con solo el desempeño en un momento es- interpretación referenciada a la norma compara
pecífico. En pruebas basadas en estándares, una el desempeño de un estudiante con el desempeño
consideración importante es medir el crecimiento de otros estudiantes. Estas interpretaciones se
de los estudiantes de un año al siguiente, tanto pueden realizar cuando se evalúa tanto el estado
al nivel de estudiante individual como en un ni- como el crecimiento. Las comparaciones se pue-
vel agregado de varios estudiantes, por ejemplo, den hacer para todos los estudiantes, un subgrupo
en el nivel del profesor, el subgrupo o la escuela. específico (p. ej., otros examinandos que se han
Se usan varias evaluaciones educativas para su- especializado en el campo de estudio de interés
pervisar el progreso o crecimiento de estudiantes para el examinando) o para subgrupos basados
individuales en uno o varios años escolares. En en muchas otras condiciones (p. ej., estudiantes
ocasiones, las pruebas usadas con esta finalidad con desempeño académico similar, estudiantes de
están respaldadas por escalas verticales que abar- escuelas similares). Se pueden desarrollar normas
can un amplio rango de niveles educativos o de para una variedad de poblaciones de interés que
desarrollo, e incluyen (entre otros) baterías de van desde muestras de estudiantes nacionales o
pruebas multinivel convencionales y evaluaciones internacionales hasta estudiantes de un distrito
adaptables computarizadas. En la construcción escolar específico (es decir, normas locales). Las
de escalas verticales para pruebas educativas, es interpretaciones referenciadas a normas deben
importante alinear los estándares u objetivos de considerar las diferencias entre las poblaciones
aprendizaje verticalmente en los distintos niveles objetivo en diferentes momentos de un año es-
y diseñar pruebas en niveles adyacentes (o grados) colar y en diferentes años. Cuando se administra
que tengan una superposición sustancial en el una prueba de forma rutinaria a una población
contenido medido. objetivo completa, como en el caso de una eva-
Sin embargo, existe una variedad de modelos luación estatal, resulta relativamente fácil produ-
estadísticos alternativos para la medición del cre- cir interpretaciones referenciadas a normas y, por
cimiento de los estudiantes y no todos requieren lo general, solo se aplican a un único punto del
el uso de escalas verticales. Al usar y evaluar varios año escolar. Sin embargo, las normas nacionales
modelos de crecimiento, es importante entender para una prueba de rendimiento estandarizada
claramente las preguntas que cada modelo puede se suelen facilitar en varios intervalos dentro del
(y no puede) responder, en qué supuestos se basa año escolar. En ese caso, los desarrolladores deben
cada modelo de crecimiento y qué inferencias indicar si las normas que abarcan un intervalo de
apropiadas se pueden derivar de los resultados de tiempo específico se basaron en datos o se inter-
cada modelo. Los datos incompletos pueden crear polaron de datos recopilados en otros momentos
problemas en algunos modelos de crecimiento. del año. Por ejemplo, las normas de invierno se
Se debe prestar atención a la posibilidad de que basan a menudo en una interpolación de las nor-
algunas poblaciones queden excluidas del mo- mas empíricas recopiladas en otoño y primavera.
delo debido a datos incompletos (por ejemplo, La base para calcular las normas interpoladas se
estudiantes móviles o con baja asistencia). Otros debe documentar, de manera que los usuarios
factores que considerar en el uso de modelos de puedan tener conocimiento de los supuestos sub-
crecimiento son la confiabilidad/precisión relativa yacentes sobre el crecimiento de los estudiantes a
de los puntajes estimados para grupos con dife- lo largo del año escolar.
rentes volúmenes de datos incompletos, y la posi- Debido al tiempo y a los gastos asociados
bilidad de que el modelo trate de forma similar a con el desarrollo de normas nacionales, muchos
los estudiantes independientemente de su ubica- desarrolladores de pruebas reportan normas de
ción en un continuo de desempeño. usuario alternativas que se componen de estadís-
En ocasiones, los resultados de los estudian- ticas descriptivas, basadas en todos aquellos que
tes en pruebas educativas se evalúan a través de han realizado esa prueba o en un subconjunto
208

demográficamente representativo de los exami- estudiantes un acceso equitativo al contenido y las

nandos a lo largo de un periodo de tiempo. Aun- respuestas de la prueba, así como a cualquier ins-
que tales estadísticas (que se basan en personas trucción específica para la ejecución de la prueba
que han hecho la prueba) suelen ser útiles, las (p. ej., estrategias de realización de pruebas);
normas basadas en ellas cambiarán a medida que (e) proporcionando a los estudiantes las adecua-
cambie la composición del grupo de referencia. ciones apropiadas para la prueba a fin de solventar
En consecuencia, las normas de usuario no se necesidades de acceso específicas; y (f ) en los casos
deben confundir con normas representativas de pertinentes, teniendo en cuenta varios criterios y
grupos muestreados más sistemáticamente. no solo un único puntaje de prueba.
Las pruebas que informan las decisiones de
Información de las decisiones sobre los estudian- admisión universitaria se usan junto con otra in-
tes. A menudo, los resultados de las pruebas se formación sobre las capacidades de los estudian-
usan en el proceso de toma de decisiones sobre tes. Los criterios de selección pueden variar dentro
individuos específicos, por ejemplo, sobre la gra- de una institución por especialización académica,
duación en escuelas secundarias, la asignación a expedientes y promedio de calificaciones o clasifi-
determinados programas educativos o la pro- cación en clase. Los puntajes de las pruebas usadas
moción de un grado al siguiente. En niveles de para certificar estudiantes para la graduación de
educación superiores, los resultados de las prue- enseñanza secundaria o las pruebas administradas
bas informan las decisiones de admisión y la asig- al final de cursos específicos de secundaria se pue-
nación del nivel de los estudiantes en diferentes den usar en las decisiones de admisión universi-
cursos (p. ej., normales o de apoyo) o programas taria. Las interpretaciones inherentes de los usos
formativos. de las pruebas de enseñanza secundaria deberán
La imparcialidad es una cuestión fundamental tener el respaldo de varias líneas de evidencia
en todas las pruebas, pero debido a que las decide validación pertinente (p. ej., evidencia con-
siones respecto de la participación, promoción o currente y predictiva). Otras medidas que usan
graduación educativas pueden tener un profundo algunas instituciones para la toma de decisiones
efecto individual, la imparcialidad resulta esencial de admisión son muestras de trabajos anteriores
cuando las pruebas se usan para informar tales de los estudiantes, listas de logros académicos y de
decisiones. En este contexto, la imparcialidad se servicio, cartas de recomendación y declaraciones
puede mejorar a través de una atenta considera- compuestas por los estudiantes evaluados para in-
ción de las condiciones que afectan a las opor- formarse sobre la idoneidad de los objetivos y la
tunidades de los estudiantes para demostrar sus experiencia del estudiante y/o sus competencias
capacidades. Por ejemplo, cuando las pruebas se en la redacción.
usan para la promoción y graduación, la impar- Las pruebas usadas para situar a los estudian-
cialidad de las interpretaciones de puntajes indivi- tes en el nivel universitario apropiado o en cur-
duales se puede mejorar (a) proporcionando a los sos de apoyo juegan un papel importante en las
estudiantes varias oportunidades para demostrar facultades universitarias y en instituciones con
sus capacidades a través de la repetición de prue- programas de cuatro años. La mayoría de las ins-
bas con formularios alternativos u otros medios tituciones usan pruebas de nivel comerciales o
equivalentes de constructo; (b) proporcionando a desarrollan sus propias pruebas para estos fines.
los estudiantes un aviso adecuado de las habili- Por lo general, los ítems de las pruebas de nivel
dades y el contenido sometidos a prueba, junto se seleccionan para servir únicamente a este pro-
con los materiales de preparación apropiados; pósito de forma eficaz y en general no miden ex-
(c) proporcionando a los estudiantes el plan de haustivamente el contenido previo indispensable.
estudios y la instrucción para darles la oportu- Por ejemplo, una prueba de nivel de álgebra solo
nidad de aprender el contenido y las habilidades abarcará un subconjunto del contenido de álgebra
sometidos a prueba; (d) proporcionando a los que se enseña en secundaria. Los resultados de las
209

capítulo 12
pruebas de nivel se usan para exonerar a los estu- principios de diseño universal (un método para el
diantes de asignaturas que normalmente deberían desarrollo de evaluaciones que intenta maximizar
cursar. Los asesores usan otras pruebas de nivel la accesibilidad de una prueba para todos los exa-
para situar a los estudiantes en cursos de apoyo minandos previstos) proporcionan una base para
o en el curso más apropiado de una secuencia de desarrollar evaluaciones educativas de este modo.
introducción de nivel universitario. En algunos Un factor esencial en el proceso es la documenta-
casos, las decisiones de nivel se mecanizan a través ción explícita de los pasos que se toman durante
de la aplicación de puntajes de corte localmente el proceso de desarrollo a fin de proporcionar
determinados en el examen de nivel. Estos pun- evidencia de imparcialidad, confiabilidad/preci-
tajes de corte se deben establecer a través de un sión y validez para los usos previstos de la prueba.
proceso documentado que involucre a los agentes Cuantos mayores son los riesgos asociados con la
apropiados y que se valide a través de la investiga- evaluación, más atención se deberá prestar a esta
ción empírica. documentación. En el capítulo sobre imparciali-
Los resultados de las pruebas educativas tam- dad en las pruebas (cap. 3) y en el capítulo sobre
bién pueden informar las decisiones relacionadas el diseño y desarrollo de pruebas (cap. 4) se deta-
con la asignación de nivel de los estudiantes en llan consideraciones relacionadas con el desarrollo
programas formativos especiales, incluyendo a de pruebas educativas.
estudiantes con discapacidades, estudiantes de En el desarrollo de pruebas educativas se
lengua inglesa y estudiantes dotados y talento- usan una variedad de formatos, desde formatos
sos. Los puntajes de las pruebas nunca se deben tradicionales de ítems abiertos y de selección
usar como único fundamento para la inclusión múltiple hasta evaluaciones de desempeño, in-
de un estudiante en un programa de educación cluyendo porfolios puntuables, simulaciones y
especial o para la exclusión de un estudiante de juegos. Ejemplos de estas evaluaciones de desem-
tales programas. Los puntajes de las pruebas se peño podrían incluir la resolución de problemas
deben interpretar en el contexto del historial, el usando materiales manipulables, hacer inferen-
funcionamiento y las necesidades del estudiante. cias complejas después de recopilar información,
No obstante, los resultados de las pruebas pueden o explicar oralmente o por escrito la justificación
proporcionar una base importante para determi- de un curso de acción gubernamental concreto
nar si un estudiante tiene una discapacidad y cuá- bajo determinadas condiciones económicas. Se
les son sus necesidades educativas. podría usar un porfolio individual como otro tipo
de evaluación de desempeño. Los porfolios pun-
Desarrollo de pruebas educativas tuables son colecciones sistemáticas de productos
Al igual que en todas las pruebas, una vez que se educativos normalmente recopilados, y posible-
han delineado el constructo y los propósitos de mente revisados, a lo largo del tiempo.
una prueba educativa, se debe tener en cuenta En contextos educativos, se suele usar la tec-
la población prevista de examinandos, así como nología para presentar material de evaluación y
los problemas prácticos como, por ejemplo, el para registrar y puntuar las respuestas de los exa-
tiempo y los recursos de evaluación disponibles minandos. Ejemplos incluyen mejoras del texto
que respaldan las tareas de desarrollo. En el desa- mediante instrucciones por audio para facilitar la
rrollo de pruebas educativas, la atención se centra comprensión del estudiante, pruebas adaptables
en la medición de los conocimientos, competen- y basadas en computadora, y ejercicios de simu-
cias y habilidades de todos los examinandos de la lación donde los atributos de las evaluaciones de
población prevista, sin introducir ventajas o des- desempeño se refuerzan mediante tecnología.
ventajas que se deban a características individua- Algunos formatos de administración de pruebas
les (p. ej., cultura, discapacidad, género, idioma, también pueden tener la capacidad de capturar as-
raza/origen étnico) que sean irrelevantes para pectos de los procesos de los estudiantes a medida
el constructo que la prueba trata de medir. Los que resuelven los ítems de la prueba. Por ejemplo,
210

se podría monitorizar el tiempo empleado en los una evaluación sumativa. En tales evaluaciones,
ítems, las soluciones probadas y rechazadas, o la es importante validar las interpretaciones hechas a
edición de secuencias de texto creadas por los partir de los puntajes de las pruebas para cada uno
examinandos. Las tecnologías también permiten de los usos previstos.
proporcionar condiciones de administración de Con frecuencia, se producen tensiones aso-
pruebas diseñadas para adecuarse a estudiantes ciadas con el uso de evaluaciones educativas para
con necesidades especiales como, por ejemplo, distintos propósitos. Por ejemplo, no es probable
distintos orígenes lingüísticos, trastornos de défi- que una prueba desarrollada para controlar el pro-
cit de atención o discapacidades físicas. greso o crecimiento de estudiantes individuales en
Las interpretaciones de los puntajes en prue- distintos años escolares también proporcione efi-
bas basadas en tecnología se evalúan con los mis- cazmente información de diagnóstico detallada y
mos estándares de validez, confiabilidad/precisión factible sobre los puntos fuertes y débiles de los
e imparcialidad que las pruebas administradas a estudiantes. De forma similar, es improbable que
través de medios más tradicionales. Es especial- una evaluación diseñada para ser administrada
mente importante que los examinandos se fa- varias veces a lo largo del curso anual escolar para
miliaricen con las tecnologías de evaluación, de predecir el desempeño de un estudiante en una
manera que cualquier desconocimiento de un evaluación sumativa de final de año proporcione
dispositivo de entrada o interfaz de evaluación información útil sobre el aprendizaje del estu-
no suponga inferencias basadas en varianza irre- diante con respecto a unidades didácticas específi-
levante de constructo. Además, la consideración cas. La mayoría de las pruebas educativas servirán
explícita de las fuentes de varianza irrelevante de mejor para un propósito que para otros, y cuanto
constructo deberá ser parte del marco de validez más propósitos se supone atiende una prueba
a medida que nuevas tecnologías e interfaces se educativa, menos probable será que sirva eficaz-
incorporan a los programas de evaluación. Fi- mente a cualquiera de esos propósitos. Por esta
nalmente, es importante describir los algoritmos razón, los desarrolladores y usuarios de la prueba
de calificación usados en las pruebas basadas en deben diseñar y/o seleccionar evaluaciones educa-
tecnología y los modelos expertos en los que se tivas para conseguir los propósitos que consideran
puedan basar, y proporcionar datos técnicos que más importantes, y deben considerar si se pueden
respalden su uso en la documentación del sistema lograr propósitos adicionales y supervisar la ido-
de pruebas. Sin embargo, esta documentación neidad de cualquier uso adicional identificado.
no debe comprometer la seguridad de la evalua-
ción de forma que la validez de las interpreta-
ciones de los puntajes pueda quedar afectada de Uso e interpretación de
manera adversa. evaluaciones educativas
Evaluación que sirve para distintos propósitos Riesgos y consecuencias de la evaluación
Mediante la evaluación de los conocimientos y Con frecuencia, la importancia de los resultados
habilidades de los estudiantes relacionados con de los programas de evaluación para individuos,
un conjunto específico de objetivos académicos, instituciones o grupos hace referencia a los riesgos
los resultados de las pruebas pueden servir para del programa de evaluación. Cuando los riesgos
una variedad de propósitos, incluyendo la mejora para un individuo son altos y decisiones impor-
de la instrucción para satisfacer mejor las necesi- tantes dependen sensiblemente del desempeño
dades de los estudiantes; la evaluación de planes en la prueba, la responsabilidad de proporcio-
de estudios y planes didácticos en el ámbito dis- nar evidencia que respalde el propósito previsto
trital; la identificación de estudiantes, escuelas o de una prueba es mayor de la que cabría esperar
profesores que requieren ayuda; o la predicción de para pruebas usadas en contextos de bajo riesgo.
las probabilidades de éxito de cada estudiante en Aunque no es posible lograr la exactitud perfecta
211

capítulo 12
en la descripción del desempeño de un individuo, incluyen (a) la contracción de los planes de estu-
es necesario hacer esfuerzos para minimizar los dios de algunas escuelas para centrarse exclusiva-
errores de medida o los errores de clasificación mente en el contenido anticipado de la prueba,
de los individuos en categorías como “aprobado”, (b) la restricción de la gama de métodos didácti-
“reprobado”, “admitido” o “rechazado”. Además, cos para corresponderse al formato de la prueba,
respaldar la validez de interpretaciones para pro- (c) índices de abandono más altos entre los es-
pósitos de alto riesgo (ya sean individuales o insti- tudiantes que no aprueban la prueba, y (d) el
tucionales), requiere generalmente la recopilación fomento de prácticas institucionales o adminis-
de información colateral fidedigna que se pueda trativas que pueden elevar el puntaje de las prue-
usar para ayudar a la comprensión de los factores bas sin mejorar la calidad de la educación. Resulta
que contribuyen a los resultados de la prueba y esencial que quienes encargan y usan pruebas edu-
para corroborar la evidencia que respalda las infe- cativas conozcan esas consecuencias negativas po-
rencias basadas en los resultados. Por ejemplo, los tenciales (incluyendo las oportunidades perdidas
resultados de las pruebas pueden verse influidos para mejorar la enseñanza y el aprendizaje) para
por distintos factores, tanto institucionales como recabar información relacionada con estos proble-
individuales, como la calidad de la educación pro- mas y tomar decisiones sobre el uso de las eva-
porcionada, la exposición de los estudiantes a la luaciones que tengan en cuenta esta información.
educación (p. ej., a través de la asistencia regular
a la escuela) y la motivación de los estudiantes Evaluaciones para estudiantes con
para realizar bien la prueba. Recopilar este tipo de discapacidades y estudiantes que están
información puede contribuir a interpretaciones aprendiendo la lengua inglesa
apropiadas de los resultados de las pruebas. En la edición de 1999 de los Estándares, el ma-
La naturaleza de alto riesgo de algunos pro- terial sobre pruebas educativas para poblaciones
gramas de prueba puede crear dificultades espe- especiales se centraba en la evaluación diagnóstica
ciales cuando se introducen nuevas versiones. Por individualizada y en la asignación educativa de
ejemplo, un estado puede introducir una serie de los estudiantes con necesidades especiales. Desde
pruebas de final de curso para secundaria que se entonces, los requisitos emanados de la legisla-
basen en nuevos estándares de contenido y estén ción federal han incrementado notablemente la
parcialmente vinculadas a los requisitos de gra- participación de las poblaciones especiales en los
duación. El uso operativo de estas nuevas pruebas programas de evaluación educativa a gran escala.
debe ir acompañado de documentación que haya Las poblaciones especiales también se han hecho
sido impartida a los estudiantes sobre contenido más diversas y ahora representan un porcentaje
que responda a los nuevos estándares. Debido a más alto de los examinandos que participan en
las limitaciones de viabilidad, esto puede requerir programas educativos generales. Se diagnostica a
un periodo escalonado cuidadosamente planifi- más estudiantes con discapacidades y se incluye
cado que incluya encuestas especiales o estudios más de estos estudiantes en los programas de edu-
de investigación cualitativos que proporcionen la cación general y en las evaluaciones basadas en
documentación necesaria para la oportunidad de estándares de un estado. Además, el número de
aprendizaje. Hasta que no esté disponible tal do- estudiantes que son estudiantes de lengua inglesa
cumentación, no se deben usar las pruebas para ha aumentado considerablemente y el número in-
los propósitos de alto riesgo previstos. cluido en las evaluaciones educativas ha crecido
Muchos tipos de pruebas educativas se ven en consonancia.
como herramientas de política educativa. Por Como se examinó en el capítulo 3 (“Impar-
encima de los objetivos de la política fijada, es cialidad en las pruebas”), las evaluaciones para
importante considerar los efectos potenciales poblaciones especiales requieren un continuo de
imprevistos de los programas de evaluación a adaptaciones potenciales, que van desde evalua-
gran escala. Estos efectos potenciales imprevistos ciones alternativas especialmente desarrolladas
212

hasta modificaciones y adecuaciones de evalua- usada en un determinado estado tengan conexio-

ciones normales. La finalidad de las evaluaciones explícitas con los estándares de contenido me-
nes y adaptaciones alternativas es incrementar la didos por la evaluación habitual estatal, aunque
accesibilidad de pruebas que, de otro modo, no admita un contenido con menor profundidad,
permitirían a estudiantes con determinadas carac- amplitud y complejidad. Estos requisitos influyen
terísticas exponer sus conocimientos y habilida- claramente en el diseño y desarrollo de evalua-
des. Las evaluaciones para poblaciones especiales ciones alternativas en los programas basados en
también podrían incluir evaluaciones desarrolla- estándares de los estados.
das para estudiantes de lengua inglesa y evalua- Las evaluaciones alternativas en educación
ciones administradas individualmente que se usen se deben llevar a cabo con los mismos requisitos
para el diagnóstico y la ubicación. técnicos que se aplican a las evaluaciones habi-
tuales a gran escala. Esto incluye documentación
Evaluaciones alternativas. El término evaluacio- y datos empíricos que respalden al desarrollo de
nes alternativas que aquí se usa, en el contexto de la prueba, la fijación de estándares, la validez, la
las pruebas educativas, se refiere a las evaluaciones confiabilidad/precisión y las características téc-
desarrolladas para estudiantes con discapacidades nicas de la prueba. Cuando el número de estu-
cognitivas importantes. Basadas en otros estánda- diantes atendidos por las pruebas alternativas es
res de desempeño que los utilizados en las eva- demasiado pequeño para generar datos estadísti-
luaciones habituales, las evaluaciones alternativas cos estables, el desarrollador y los usuarios de la
proporcionan a los estudiantes la oportunidad de prueba deben describir dictámenes alternativos u
demostrar su situación y progreso en el aprendi- otros procedimientos usados para documentar la
zaje. Una evaluación alternativa puede consistir evidencia de validación de las interpretaciones de
en una lista de comprobación de observaciones, la prueba.
una evaluación multinivel con tareas de desem- Cuando las evaluaciones alternativas se usan
peño o un porfolio que incluya respuestas a tareas para programas de pruebas a nivel estatal puede
abiertas o de selección de respuestas. Las tareas surgir una variedad de problemas de compatibili-
de evaluación se desarrollan teniendo en mente dad, por ejemplo, en la agregación de resultados
las características especiales de esa población. Por de las evaluaciones alternativas y habituales o en la
ejemplo, una evaluación multinivel con tareas comparación de datos de tendencias de subgrupos
de desempeño podría incluir procedimientos de cuando se han usado evaluaciones alternativas en
andamiaje donde el examinador elimine los dis- unos años y habituales en otros.
tractores de las preguntas cuando los estudiantes
responden de forma incorrecta, a fin de reducir Adecuaciones y modificaciones. Para permitir
la complejidad de la pregunta. O bien, en una que los sistemas de evaluación incluyan a todos
evaluación de porfolio, el profesor podría incluir los estudiantes, se facilitan adecuaciones y mo-
muestras y otra información de evaluación adap- dificaciones para aquellos estudiantes que las
tada específicamente al estudiante. El profesor po- requieren, incluyendo a quienes participan en
dría evaluar el mismo estándar de lengua inglesa evaluaciones alternativas debido a discapacidades
pidiendo a un estudiante que escriba una historia cognitivas significativas. Las adaptaciones, que
y a otro que secuencie una historia usando tarje- incluyen tanto las adecuaciones como las modi-
tas con gráficos, en función de la actividad que ficaciones, proporcionan acceso a las evaluaciones
proporcione acceso a los estudiantes para que de- educativas.
muestren lo que saben y pueden hacer. Las adecuaciones son adaptaciones del for-
El desarrollo y uso de las pruebas alternativas mato o administración de la prueba (por ejem-
en educación se ha visto enormemente influido plo, cambios en la forma en que se presenta la
por la legislación federal. Las regulaciones federa- prueba, el entorno de la prueba o el modo en
les pueden exigir que las evaluaciones alternativas que los estudiantes responden) que mantienen el
213

capítulo 12
mismo constructo y producen resultados que son proporcionar a algunos estudiantes acceso a la
comparables a los obtenidos por estudiantes que evaluación educativa. Como con las evaluaciones
no usan adecuaciones. Las adecuaciones se pue- alternativas, el uso de modificaciones en progra-
den facilitar a estudiantes que estudian la lengua mas de pruebas educativas presenta problemas de
inglesa para solventar sus necesidades lingüísticas, compatibilidad.
así como a estudiantes con discapacidades para Las pruebas modificadas se deben diseñar y
gestionar características individuales específicas desarrollar con las mismas consideraciones de va-
que, de otro modo, interferirían con la accesibi- lidez, confiabilidad/precisión e imparcialidad que
lidad. Por ejemplo, se puede facilitar a un estu- las pruebas habituales. No es suficiente suponer
diante con dislexia extrema un lector de pantalla que la evidencia de validación asociada con una
que lea en voz alta escenarios y preguntas de una evaluación habitual se puede generalizar para una
prueba que mida las capacidades de investigación versión modificada.
en ciencias. El lector de pantalla se consideraría En el capítulo 3 (“Imparcialidad en las prue-
una adecuación porque la lectura no es parte del bas”) se examinan en detalle las modificaciones y
constructo definido (la investigación en ciencias) adecuaciones para poblaciones especiales.
y se asume que los puntajes obtenidos por el estu-
diante de la prueba serían comparables a los obte- Evaluaciones de competencia en el idioma in-
nidos por estudiantes que hicieran la prueba bajo glés. La presencia cada vez mayor de estudiantes
condiciones habituales. de lengua inglesa en las aulas de EE. UU. se ha
El uso de adecuaciones se debe respaldar por reflejado en una atención creciente en la medi-
la evidencia de que su aplicación no cambia el ción de su competencia en el idioma inglés (ELP,
constructo que mide la evaluación. Tal evidencia por sus siglas en inglés). Como con las pruebas de
puede estar disponible de estudios de aplicaciones contenido basadas en estándares, las pruebas ELP
similares, pero también podría requerir una inves- se basan en estándares ELP y se llevan a cabo con
tigación especialmente diseñada. los mismos estándares de precisión de validez e
Las modificaciones son adaptaciones del for- imparcialidad de las interpretaciones de puntajes
mato o administración de la prueba que cambian para los usos previstos, como otras pruebas a gran
el constructo que se mide a fin de hacerla accesi- escala.
ble para los estudiantes designados, manteniendo Las pruebas ELP pueden servir para una di-
tanto como sea posible el constructo original. versidad de propósitos. Se usan para identificar
Las modificaciones pueden dar como resultado estudiantes como educandos de inglés y clasifi-
puntajes que difieren en significado de aquellos carlos para programas y servicios especiales para
obtenidos mediante evaluaciones habituales. Por estudiantes del idioma inglés, para redesignar es-
ejemplo, se puede facilitar a un estudiante con tudiantes como competentes en inglés y para fines
dislexia extrema un lector de pantalla que lea en de diagnóstico e instrucción. Asimismo, estados,
voz alta los pasajes y preguntas de una prueba distritos y escuelas usan las pruebas ELP para mo-
de comprensión lectora que incluya la decodifi- nitorizar el progreso de estos estudiantes y para la
cación como parte del constructo. En este caso, rendición de cuentas de escuelas y educadores res-
el lector de pantalla se consideraría una modifi- pecto del aprendizaje y progreso de los educandos
cación porque cambia el constructo que se mide de inglés hacia un nivel de competencia.
y los puntajes obtenidos por el estudiante de la Como en cualquier prueba educativa, se
prueba no serían comparables a los obtenidos por puede proporcionar evidencia de validación de las
estudiantes que hicieran la prueba bajo condicio- medidas de ELP mediante el examen del proyecto
nes habituales. En muchos casos, las adecuaciones de la prueba, la concordancia del contenido con
pueden atender las necesidades de acceso del estu- los estándares ELP, la comparabilidad del cons-
diante sin el uso de modificaciones, pero en otros tructo entre los estudiantes, la coherencia de la
casos, las modificaciones son la única opción para clasificación y otras afirmaciones del argumento
214

de validez. La justificación y la evidencia que res- Si procede, cuando se usen los resultados de la
paldan la definición del dominio ELP y las fun- prueba como ayuda para decisiones de asignación,
ciones/relaciones de las modalidades del lenguaje los profesionales de evaluación cualificados deben
(p. ej., lectura, escritura, competencia oral, audi- tener en cuenta aspectos de la prueba que pueden
tiva) con respecto a la competencia en el idioma generar varianza irrelevante de constructo en es-
inglés, son consideraciones importantes en la tudiantes con determinadas características perti-
articulación del argumento de validez para una nentes. Por ejemplo, la competencia en el idioma
prueba ELP y pueden informar la interpretación inglés de los estudiantes o la experiencia educativa
de los resultados de la prueba. Dado que una sola previa podría interferir con su desempeño en una
evaluación no tiene el mismo grado de eficacia prueba de capacidad académica y, si no se tiene en
para atender a todos los propósitos deseados, los cuenta, podría conducir a una clasificación erró-
usuarios deben considerar los usos de las pruebas nea en educación especial. Una vez que se ha ubi-
ELP que tengan mayor prioridad y elegir o desa- cado a un estudiante, se pueden administrar las
rrollar los instrumentos en consonancia. pruebas para supervisar el progreso del estudiante
Las adecuaciones asociadas con las pruebas con respecto a las metas y objetivos de aprendizaje
ELP se deben considerar cuidadosamente, ya que prescritos. Los resultados de las pruebas también
las adaptaciones que son apropiadas para evalua- se pueden usar para informar evaluaciones de la
ciones de contenido habituales pueden poner en eficacia didáctica y determinaciones sobre la ne-
riesgo los estándares ELP que se evalúan. Además, cesidad de continuar, modificar o interrumpir los
los usuarios deben establecer directrices comunes servicios especiales.
para el uso de los resultados de ELP en la toma Se usan muchos tipos de pruebas en la evalua-
de decisiones sobre educandos del idioma inglés. ción de necesidades individualizadas y especiales.
Estas directrices deben incluir políticas y procedi- Esto incluye pruebas de capacidades cognitivas,
mientos explícitos para el uso de los resultados en rendimiento académico, procesos de aprendizaje,
la identificación y redesignación de los educandos memoria visual y auditiva, habla y lenguaje, vista
de inglés como competentes en el idioma inglés, y audición, y comportamiento y personalidad.
un proceso importante debido a la importancia Por lo general, estas pruebas se usan junto con
legal y educativa de estas designaciones. Los or- otros métodos de evaluación (por ejemplo, entre-
ganismos y escuelas de educación locales deben vistas, observaciones conductuales y revisión de
disponer de un fácil acceso a estas directrices. registros) para fines de identificación y ubicación
de estudiantes con discapacidades. Independien-
Evaluaciones individuales. Psicólogos y otros temente de las cualidades en evaluación y de los
profesionales de escuelas y contextos relacionados métodos de recopilación de datos empleados,
usan las pruebas administradas individualmente los datos de evaluación que se usan en la toma
para informar decisiones sobre una variedad de de decisiones de educación especial se evalúan en
servicios que se pueden administrar a los estu- términos de la evidencia que respalda las interpre-
diantes. Los servicios se facilitan a estudiantes do- taciones previstas en relación con las necesidades
tados, así como a aquellos que tienen dificultades específicas de los estudiantes. Los datos también
académicas (p. ej., estudiantes que requieren clase deben juzgar en términos de su utilidad para la
ses de apoyo para la lectura). Hay otros servicios designación de programas educativos apropiados
que se proporcionan a estudiantes que presentan para estudiantes que tengan necesidades especia-
dificultades conductuales, emocionales, físicas o les. Para obtener más información, vea el capítulo
de aprendizaje más severas. Los servicios pueden 10 (“Pruebas y evaluación psicológicas”).
prestarse a estudiantes que reciben clases en aulas
normales, así como a aquellos que reciben ins- Capacidad de evaluar y desarrollo profesional
trucción más especializada (p. ej., estudiantes de La capacidad de evaluar se puede definir, en
educación especial). sentido amplio, como el conocimiento de los
215

capítulo 12
principios básicos de la práctica de evaluación co- Debido a que, por lo general, el personal de la
rrecta, incluyendo la terminología, el desarrollo y escuela administra las pruebas educativas, es im-
uso de metodologías y técnicas de evaluación, y portante que el organismo promotor proporcione
la familiaridad con los estándares por los cuales la supervisión apropiada sobre el proceso y que
se juzga la calidad de las prácticas de evaluación. las escuelas asignen funciones y responsabilida-
Los resultados de las evaluaciones educativas se des locales (p. ej., la coordinación de la prueba)
usan para la toma de decisiones en una variedad para capacitar a las personas que administrarán
de contextos de aulas, escuelas, distritos y estados. la prueba. De forma similar, los desarrolladores
Dado la amplitud y la complejidad de propósitos de la prueba tienen la obligación de respaldar el
de las pruebas, es importante que los desarrollado- proceso de administración de la prueba y propor-
res de pruebas y los responsables de los programas cionar recursos que ayuden a resolver los proble-
de pruebas educativas animen a que los educa- mas que puedan surgir. Por ejemplo, en pruebas
dores se conviertan en consumidores informados de alto riesgo administradas por computadora,
de las pruebas, y entiendan a cabalidad y usen de un soporte técnico eficaz resulta crítico para la
forma apropiada los reportes de resultados que administración local y debe incluir a personas
les llegan. De forma similar, como usuarios de que conozcan el contexto del programa de prue-
la prueba, es responsabilidad de los educadores bas, así como los aspectos técnicos del sistema de
buscar y conseguir la capacidad de evaluar en lo suministro.
tocante a sus funciones en el sistema educativo. Los responsables de los programas de prue-
Los promotores y desarrolladores de pruebas bas educativas deben tener procedimientos for-
pueden promover la capacidad de evaluar de los males para admitir adecuaciones de la prueba
educadores de muchas formas, incluyendo talle- e implicar a personal cualificado en el proceso
res, el desarrollo de materiales escritos y audiovi- de toma de decisiones. Para los estudiantes con
suales, y la colaboración con los educadores en el discapacidades, los cambios didácticos y de eva-
proceso de desarrollo de las pruebas (p. ej., desa- luación se suelen especificar en un programa de
rrollo de los estándares de contenido, redacción y educación individualizado (IEP, por sus siglas en
revisión de los ítems, y fijación de estándares). En inglés). Para los estudiantes de lengua inglesa,
particular, los responsables de programas de prue- las escuelas pueden usar las directrices del es-
bas educativas deben incorporar la capacidad de tado o distrito para compaginar la competencia
evaluar en el desarrollo profesional continuo de idiomática de los estudiantes y la experiencia
los educadores. Además, se deben hacer intentos didáctica con las adecuaciones apropiadas del
continuos para educar a otros agentes del proceso idioma. Personal cualificado debe seleccionar
educativo, incluyendo a los padres, estudiantes y las adecuaciones de la prueba basándose en las
responsables de políticas. necesidades individuales de los estudiantes. En
programas de evaluación a gran escala, resulta
especialmente importante establecer políticas y
Administración, calificación y procedimientos claros para la asignación y uso de
presentación de reportes de las adecuaciones. Estos pasos ayudan a mantener
evaluaciones educativas la comparabilidad de los puntajes de las pruebas
con adecuaciones en evaluaciones académicas de
Administración de pruebas educativas distintos distritos y escuelas. Una vez seleccio-
La mayoría de las pruebas educativas conllevan nadas, las adecuaciones se deben usar de forma
procedimientos estandarizados de administra- sistemática en la instrucción y la evaluación, y
ción. Estos procedimientos incluyen instruccio- los administradores de la prueba deben estar
nes para los administradores y examinandos de familiarizados con los procedimientos para una
la prueba, especificaciones para las condiciones evaluación con adecuaciones. En el capítulo 3
de la evaluación y procedimientos de calificación. (“Imparcialidad en las pruebas”) se proporciona
216

información relacionada con las adecuaciones de métodos, denominados también reglas de deci-
administración de pruebas. sión. Por ejemplo, como parte de los requisitos
de graduación, un estado puede requerir que un
Calificación ponderada y compuesta estudiante obtenga niveles establecidos de des-
La calificación de pruebas y evaluaciones educa- empeño en varias pruebas que miden diferentes
tivas requiere el desarrollo de reglas para la com- áreas de contenido usando una regla de decisión
binación de puntajes de ítems y/o tareas para compensatoria o una no compensatoria. Bajo
obtener un puntaje total y, en algunos casos, para la regla de decisión no compensatoria, el estu-
la combinación de varios puntajes en un puntaje diante tiene que conseguir un nivel determinado
agregado. A veces, los puntajes de varias pruebas de desempeño en cada prueba; bajo la regla de
se combinan en agregados lineales usando pesos decisión compensatoria, es posible que el estu-
nominales, que se asignan a cada puntaje com- diante solo tenga que conseguir un determinado
ponente de acuerdo con un criterio lógico de puntaje agregado total basado en una combina-
su importancia relativa. En ocasiones, los pesos ción de puntajes de las distintas pruebas. Para una
nominales pueden se equívocos debido a que la decisión de alto riesgo, como la relacionada con
varianza del agregado también está determinada la graduación, las reglas usadas para combinar
por las varianzas y covarianzas de los puntajes in- puntajes de distintas pruebas se deben establecer
dividuales componentes. Como resultado, es po- con un conocimiento claro de las implicaciones
sible que el “peso efectivo” de cada componente asociadas. En estas situaciones, las consecuencias
no refleje el peso nominal. Cuando se usan pun- importantes (como calificaciones de aprobado o
tajes agregados, se deben conocer y documentar índices de errores de clasificación) serán diferentes
las diferencias entre los pesos nominal y efectivo. en función de las reglas para combinar los resulta-
Para una sola prueba, a menudo los puntajes dos de las pruebas. Los desarrolladores de pruebas
totales se basan en una simple suma de los pun- deben documentar y comunicar estas implicacio-
tajes de ítems y tareas. Sin embargo, se pueden nes a los responsables de las políticas para propi-
aplicar sistemas de ponderación diferencial para ciar decisiones plenamente informadas.
reflejar el énfasis diferencial sobre contenidos
o constructos específicos. Por ejemplo, en una Reportes de puntajes
prueba de idioma inglés, se podría asignar un ma- Los reportes de puntajes para evaluaciones edu-
yor peso a un extenso ensayo debido a la impor- cativas deben respaldar las interpretaciones y de-
tancia de la tarea y porque no es factible incluir en cisiones de sus audiencias previstas, que incluyen
la prueba más de una tarea escrita extensa. Ade- estudiantes, profesores, padres, directores, res-
más, la calificación basada en modelos de la teoría ponsables de políticas y otros educadores. Se pue-
de respuesta al ítem (IRT) puede dar como resul- den desarrollar y producir diferentes reportes para
tado pesos de ítems que difieren de los pesos no- diferentes audiencias, y los diseños de los reportes
minales o deseados. Estas aplicaciones de la IRT de puntajes pueden diferir en consonancia. Por
deben incluir la consideración y explicación de los ejemplo, los reportes preparados para estudiantes
pesos de los ítems en la calificación. En general, individuales y padres pueden incluir información
las reglas de calificación que se usan en pruebas sobre el propósito de la evaluación, definiciones
educativas se deben documentar y deben incluir de categorías de desempeño y representaciones
una justificación basada en la validez. de error de medida más accesibles para el usuario
Además, los desarrolladores de la prueba de- (p. ej., márgenes de error sobre gráficas de punta-
ben tratar con los responsables de políticas sobre jes). Quienes desarrollan estos reportes se deben
los diversos métodos de combinación de los re- esforzar en proporcionar información que ayude
sultados de diferentes pruebas educativas usadas a los estudiantes a tomar decisiones productivas
para tomar decisiones sobre los estudiantes, y sobre su propio aprendizaje. En contraste, los re-
deben documentar y comunicar claramente estos portes preparados para directores y personal del
217

capítulo 12
distrito pueden incluir resúmenes más detallados, los resultados por contenido o subgrupo. Las op-
pero menos información básica, ya que estas per- ciones proporcionadas a los usuarios de la prueba
sonas suelen tener un conocimiento mucho ma- para realizar consultas de resultados deben res-
yor de estas evaluaciones. paldar los usos e interpretaciones previstos de la
Como se examinó en el capítulo 3, cuando se prueba. Por ejemplo, los sistemas online pueden
han hecho modificaciones a una prueba para al- disuadir o anular la presentación de resultados,
gunos examinandos y estas afectan al constructo en algunos casos exigida por ley, si los tamaños
que se mide, se puede considerar el reporte de esa de muestra de subgrupos específicos están por
modificación ya que afecta a la confiabilidad/pre- debajo de un número aceptable. Además, se de-
cisión de los puntajes de la prueba o a la validez de ben tomar las medidas necesarias para permitir el
las interpretaciones de los puntajes. Por el contra- acceso únicamente a los individuos apropiados.
rio, cuando se hacen adecuaciones que no afectan Al igual que con los reportes de puntajes, la vali-
a la comparabilidad de los puntajes de la prueba, dez de las interpretaciones a partir de sistemas de
no resulta apropiado indicarlas. apoyo online se puede mejorar a través de estu-
En general, los reportes de puntajes de prue- dios de usabilidad donde participen los usuarios
bas educativas se deben diseñar para proporcionar previstos.
información que sea comprensible y útil para los La tecnología facilita la estrecha concordancia
interesados, y no lleven a interpretaciones inde los materiales didácticos y los resultados de las
justificadas de los puntajes. Los desarrolladores pruebas educativas. Por ejemplo, los resultados
de pruebas pueden mejorar significativamente reportados para un estudiante individual podrían
el diseño de los reportes de puntajes llevando a incluir no solo sus puntos fuertes y débiles sino
cabo investigaciones de respaldo. Por ejemplo, el también vínculos directos con materiales didác-
estudio de los reportes disponibles de otras prue- ticos específicos que un profesor podría usar con
bas educativas puede aportar ideas para una pre- el estudiante en el futuro. Se debe proporcionar
sentación eficaz de los resultados de las pruebas. la justificación y documentación que respalda la
Además, los estudios de usabilidad con consumi- eficacia de las intervenciones recomendadas, y
dores de reportes de puntajes proporcionan indi- se debe recomendar a los usuarios que conside-
caciones sobre el diseño del reporte. Se pueden ren esta información junto con otras evidencias
usar diversas técnicas en este tipo de investigacio- y criterios sobre las necesidades formativas de los
nes, incluyendo grupos de enfoque, encuestas y estudiantes.
análisis de protocolos verbales. Por ejemplo, las Cuando se reportan resultados para evaluacio-
ventajas y desventajas de diseños de prototipos nes a gran escala, los promotores o usuarios de
alternativos se pueden comparar mediante la rela prueba deben preparar directrices complemen-
copilación de datos sobre las interpretaciones e tarias para fomentar el uso correcto y las inter-
inferencias formuladas por los usuarios basadas pretaciones válidas de los datos por los medios de
en los datos presentados en cada reporte. comunicación y otros interesados en el proceso de
La capacidad de presentación de reportes evaluación. Estas comunicaciones deben abordar,
online da a los usuarios acceso flexible a los re- probablemente, las consecuencias de la evalua-
sultados de las pruebas. Por ejemplo, el usuario ción (tanto positivas como negativas), así como
puede seleccionar opciones online para desglosar los usos indebidos anticipados de los resultados.
218

Estándares para pruebas y evaluación educativas

Los estándares de este capítulo se han separado planes de estudio para centrarse exclusivamente
en tres unidades temáticas denominadas de la si- en los objetivos de las pruebas, fomenten prácti-
guiente manera: cas didácticas o administrativas diseñadas simple-
mente para subir los puntajes y no para mejorar
1. Diseño y desarrollo de evaluaciones la calidad de la educación, y pierdan un mayor
educativas número de estudiantes debido al posible aban-
2. Uso e interpretación de evaluaciones dono después de pruebas fallidas. La necesidad de
educativas supervisar el impacto de los programas de pruebas
3. Administración, calificación y presentación educativas se relaciona directamente con la im-
de reportes de evaluaciones educativas parcialidad en las pruebas, lo que requiere garan-
tizar que los puntajes de una determinada prueba
Los usuarios de pruebas educativas para eva- reflejan el mismo constructo y tienen básicamente
luación, políticas o rendición de cuentas deben el mismo significado para todos los individuos
consultar los estándares del capítulo 13 (“Uso de de la población de examinandos de destino. En
pruebas para la evaluación de programas, estudios consonancia con los objetivos de evaluación apro-
de políticas y rendición de cuentas”). piados, se deben supervisar las consecuencias ne-
gativas potenciales y, cuando se identifiquen, se
deben solventar en el máximo grado posible. En
Unidad 1. Diseño y desarrollo función del uso previsto, la persona responsable
de evaluaciones educativas de examinar las consecuencias podría ser la auto-
ridad que encomienda, el desarrollador o el usua-
rio de la prueba.
Estándar 12.1
Cuando escuelas, distritos, estados u otras au- Estándar 12.2
toridades encargan programas de pruebas edu-
cativas, se deben describir claramente los usos En contextos educativos, cuando una prueba se
previstos de los resultados de las pruebas por diseña o se usa para servir varios propósitos, se
parte de quien las ha encargado. También es debe proporcionar evidencia de validación, con-
responsabilidad de quienes encargan el uso de fiabilidad/precisión e imparcialidad para cada
pruebas supervisar el impacto e identificar y mi- uno de los usos previstos.
nimizar las consecuencias negativas potenciales
Comentario: En evaluaciones educativas, se ha
cuando sea factible. El desarrollador y/o usuario
convertido en una práctica común usar la misma
de la prueba deberá examinar las consecuencias
prueba para varios propósitos. Por ejemplo, las
resultantes de los usos de la prueba, tanto previs-
pruebas provisionales/de referencia se pueden
tas como imprevistas.
usar para una diversidad de propósitos, inclu-
Comentario: Los programas de pruebas obligato- yendo el diagnóstico de los puntos fuertes y débi-
rios se suelen justificar en términos de sus poten- les del estudiante, el seguimiento del crecimiento
ciales beneficios para la enseñanza y el aprendizaje. individual del estudiante, el suministro de infor-
Se han planteado interrogantes sobre el impacto mación para apoyar la planificación didáctica para
negativo potencial de los programas de pruebas individuos y grupos de estudiantes, y la evalua-
obligatorios, sobre todo cuando se traducen di- ción de escuelas o distritos. Ninguna prueba ser-
rectamente en decisiones importantes para los virá a todos los propósitos con la misma eficacia.
individuos e instituciones. Existe la preocupación Elecciones de diseño y desarrollo de la prueba
de que algunas escuelas estén restringiendo sus que mejoran la validez para un propósito podrían
219

capítulo 12
reducir la validez para otros propósitos. Diferen- se supone, mantienen el constructo sometido a
tes propósitos pueden requerir diferentes tipos de medición) como modificaciones (cambios que, se
evidencia técnica, y el desarrollador de la prueba supone, crean una versión alterada del constructo
debe proporcionar la evidencia apropiada de vali- accesible). El capítulo 3 (“Imparcialidad en las
dez, confiabilidad/precisión e imparcialidad para pruebas”) incluye consideraciones adicionales re-
cada propósito. Si el usuario de la prueba desea lacionadas con la imparcialidad y la accesibilidad
usarla para un propósito no respaldado por la evi- en pruebas y evaluaciones educativas.
dencia disponible, corresponderá al usuario pro-
porcionar la evidencia adicional necesaria. Vea el
capítulo 1 (“Validez”). Estándar 12.4
Cuando una prueba se usa como indicador de
Estándar 12.3 rendimiento en un dominio didáctico o con res-
pecto a estándares específicos de contenido, se
Los responsables del desarrollo y uso de evalua- debe proporcionar evidencia del grado en que la
ciones educativas deben diseñar todos los pasos prueba abarca el rango de conocimientos y revela
pertinentes del proceso de pruebas para promo- los procesos reflejados en el dominio objetivo.
ver el acceso al constructo de todos los indivi- Tanto el dominio probado como el objetivo se de-
duos y subgrupos a quienes se destina la prueba. ben describir con suficiente detalle para que pueda
evaluarse esta relación. El análisis debe explicitar
Comentario: En contextos educativos, es impor-
los aspectos del dominio objetivo que la prueba
tante facilitar a todos los estudiantes (indepen-
representa y también los que no representa.
dientemente de sus características individuales)
la oportunidad de demostrar su competencia en Comentario: Normalmente, las pruebas se de-
el constructo sometido a medición. Las espe- sarrollan para controlar el estado o progreso de
cificaciones de la prueba deben especificar cla- individuos o grupos con respecto a estándares de
ramente todos los subgrupos pertinentes de la contenido locales, estatales, nacionales o profesio-
población objetivo, incluyendo aquellos para nales. Es muy raro que una sola prueba abarque
quienes la prueba no permitiría la demostración la gama completa de desempeños reflejada en los
de conocimientos o habilidades. Los ítems y las estándares de contenido. En el desarrollo de una
tareas se deben diseñar para maximizar el acceso nueva prueba o en la selección de una prueba exis-
al contenido de la prueba a todos los individuos tente, la interpretación apropiada de los puntajes
de la población de examinandos prevista. Se de- como indicadores de desempeño en estos están-
ben implementar herramientas y estrategias para dares requiere documentar y evaluar la relevancia
familiarizar a todos los examinandos con la tec- de la prueba respecto de los estándares y el grado
nología y el formato de evaluación utilizados, y de alineación de la prueba con estos estándares.
se debe evitar que el método de administración Estos estudios de alineación deben abordar varios
y calificación introduzca alguna varianza irrele- criterios, incluyendo no solo la alineación de la
vante de constructo en el proceso de la prueba. prueba con las áreas de contenido incluidas en los
En situaciones en que se cree que características estándares, sino también la alineación con los es-
individuales (como la competencia en el inglés, tándares en términos de variedad y complejidad
los orígenes culturales o lingüísticos, la discapa- de los conocimientos y habilidades que se espera
cidad o la edad) pueden interferir con el acceso demuestren los estudiantes. Además, realizar es-
a los constructos que la prueba intenta medir, se tudios de las estrategias y capacidades cognitivas
deben proporcionar adaptaciones apropiadas que de los examinandos, o estudios de las relaciones
permitan el acceso al contenido, contexto y for- entre los puntajes de la prueba y otros indicado-
matos de respuesta de los ítems de la prueba. Esto res de desempeño pertinentes al dominio objetivo
podría incluir tanto adecuaciones (cambios que, más general, permite la evaluación del grado de
220

respaldo de las generalizaciones en ese dominio. para evitar actividades de preparación de la

Esta información se debe poner a disposición de prueba y distribución de materiales a los es-
todos quienes usen la prueba o interpreten los tudiantes que puedan afectar negativamente
puntajes de la prueba. a la validez de las inferencias obtenidas de los
puntajes.
Estándar 12.5 Comentario: En la mayoría de los contextos de
evaluaciones educativas, el objetivo es usar una
Cuando corresponda, se deben desarrollar nor-
muestra de ítems de prueba para formular in-
mas locales para respaldar las interpretaciones
ferencias respecto de un dominio más general.
previstas de los usuarios de la prueba.
Cuando se producen actividades inadecuadas de
Comentario: La comparación de los puntajes de preparación de la prueba (por ejemplo, la ense-
los examinandos con grupos de normas represen- ñanza excesiva de ítems que son equivalentes a
tativas locales o más generales puede ser infor- aquellos que se usarán en la prueba), la validez
mativa. De este modo, si el tamaño de muestra de las inferencias de los puntajes de la prueba
lo admite, las normas locales suelen ser útiles en se ve afectada de forma negativa. La idoneidad
combinación con las normas publicadas, especial- de las actividades de preparación de la prueba
mente si las poblaciones locales difieren marcada- se puede evaluar, por ejemplo, determinando el
mente de la población en que se basan las normas grado en que las actividades se reflejan en ítems
publicadas. En algunos casos, las normas locales específicos de la prueba y considerando el grado
pueden usarse de manera exclusiva. en que los puntajes de la prueba podrían me-
jorarse artificialmente en consecuencia, sin au-
mentar el verdadero nivel de rendimiento de los
Estándar 12.6
estudiantes.
Se debe proporcionar la documentación del di-
seño, los modelos y los algoritmos de calificación Estándar 12.8
para las pruebas que se administran y califican
usando computadoras o recursos multimedia. Cuando los resultados de la prueba contribuyen
sustancialmente a decisiones sobre la promoción
Comentario: Las pruebas por computadora y mul- o graduación de estudiantes, se debe proporcio-
timedia se deben llevar a cabo con los mismos re- nar evidencia de que los estudiantes han tenido
quisitos de calidad técnica que otras pruebas. Por la oportunidad de aprender el contenido y las
ejemplo, el uso de formatos de ítems mejorados habilidades medidas por la prueba.
mediante tecnología debe estar respaldado con evi-
dencia de que los formatos son un método viable Comentario: Se debe informar a estudiantes, pa-
de recopilar información sobre el constructo, que dres y personal educativo sobre los dominios que
no introducen varianza irrelevante de constructo y incluirá la prueba, la naturaleza de los tipos de
que se han tomado medidas para promover la acce- ítems y los criterios para determinar la destreza.
sibilidad para todos los estudiantes. Se deben hacer esfuerzos razonables para docu-
mentar la enseñanza impartida sobre el contenido
y las habilidades sometidas a prueba, incluso si no
Unidad 2. Uso e interpretación de resulta posible o viable determinar el contenido
evaluaciones educativas específico de la instrucción para cada estudiante.
Además, y cuando sea apropiado, se debe propor-
Estándar 12.7 cionar evidencia de que los estudiantes han tenido
la oportunidad de familiarizarse con el modo de
En contextos educativos, los usuarios de la administración y los formatos de ítems usados en
prueba deben tomar las medidas necesarias la evaluación.
221

capítulo 12
Estándar 12.9 solo los puntajes de una sola prueba sino otra
información pertinente.
Los estudiantes que deben demostrar destreza en
determinados conocimientos o habilidades para Comentario: En general, distintas medidas o
obtener una promoción o un título deben dispo- fuentes de datos suelen mejorar la idoneidad de
ner de un número razonable de oportunidades las decisiones sobre los estudiantes en contextos
para tener éxito en formularios alternativos de educativos y, por lo tanto, los promotores y usua-
la prueba, o se les debe facilitar alternativas téc- rios de la prueba deben tenerlos en cuenta a la
nicamente adecuadas para demostrar su destreza hora de establecer reglas y políticas de decisión.
en los mismos conocimientos o habilidades. Es importante que, además de los puntajes de una
En la mayoría de las circunstancias, cuando se sola prueba, se tome en consideración otra infor-
proporciona a los estudiantes varias oportunida- mación pertinente (p. ej., trabajos de la escuela,
des para demostrar su destreza, el intervalo de observación en el aula, reportes parentales, otros
tiempo entre las oportunidades debe permitirles puntajes de pruebas) cuando esté justificado. Es-
obtener experiencias didácticas pertinentes. tas fuentes de datos adicionales deben demostrar
información pertinente para el constructo pre-
Comentario: El número de oportunidades de visto. Por ejemplo, tal vez no sea recomendable
evaluación y el tiempo entre las oportunidades o legal admitir automáticamente estudiantes en
variará con las circunstancias específicas del un programa de talento si su CI medido está por
contexto. Además, la política puede dictar que encima de 130, sin considerar información per-
algunos estudiantes dispongan de oportunida- tinente adicional sobre su desempeño. De forma
des para demostrar su rendimiento usando un similar, algunos estudiantes con CI medidos por
método diferente. Por ejemplo, algunos estados debajo de 130 podrían ser admitidos basándose
que administran pruebas de graduación en se- en otras medidas o fuentes de datos como, por
cundaria permiten que los estudiantes que hayan ejemplo, una prueba de creatividad, un porfolio
participado en el plan de estudios regular, pero de trabajos o recomendaciones de los profesores.
que no han podido demostrar el nivel de des- En estos casos, otro tipo de evidencia de desem-
empeño requerido en una o más pruebas, mues- peño talentoso sirve para compensar un puntaje
tren, a través de un porfolio estructurado de los de CI más bajo.
trabajos del curso y otros indicadores (p. ej.,
participación en programas de apoyo aprobados,
Estándar 12.11
satisfacción de otros requisitos de graduación),
que tienen los conocimientos y capacidades ne- Cuando se usan puntajes de diferencia o de cre-
cesarios para obtener un título de secundaria. Si cimiento para estudiantes individuales, estos
se usa otro método de evaluación, deberá llevarse puntajes se deben definir claramente y se debe
a cabo con los mismos estándares de calidad téc- reportar evidencia de validación, confiabilidad/
nica que la evaluación principal. En particular, precisión e imparcialidad.
se debe proporcionar evidencia de que el método
alternativo mide las mismas habilidades y tiene Comentario: Se debe reportar el error estándar de
las mismas expectativas de calificación de apro- la diferencia entre puntajes de pretest y postest,
bación que la evaluación principal. la regresión de puntajes de postest en puntajes
de pretest, o datos pertinentes de otros métodos
apropiados para examinar el cambio.
Estándar 12.10 En los casos donde se predicen puntajes de cre-
cimiento para estudiantes individuales, se pueden
En contextos educativos, una decisión o carac- usar resultados basados en diferentes versiones de
terización que vaya a tener un impacto signifi- pruebas realizadas a lo largo del tiempo. Por ejem-
cativo en un estudiante debe tener en cuenta no plo, los puntajes de matemáticas en los grados 3,
222

4 y 5 se podrían usar para predecir el puntaje de cuando estos puntajes se usen como fundamento
matemáticas esperado en el grado 6. En tales ca- para tomar decisiones importantes sobre un es-
sos, si se usan modelos estadísticos complejos para tudiante. Este estándar también es pertinente en
estudiantes individuales, el método para la cons- comparaciones de subpuntajes o puntajes de di-
trucción de modelos deberá ser explícito y estar ferentes componentes de la misma prueba, como
justificado, y se deberá proporcionar información pueden ser los reportados por varias baterías de
técnica e interpretativa de respaldo a los usuarios pruebas de aptitudes, pruebas educativas o prue-
de los puntajes. El capítulo 13 (“Uso de pruebas bas de selección.
para la evaluación de programas, estudios de polí-
ticas y rendición de cuentas”) aborda la aplicación
de modelos más complejos a grupos o sistemas en Estándar 12.13
contextos de rendición de cuentas.
Cuando se prevé que los puntajes de las pruebas
se usen como parte del proceso de toma de deci-
Estándar 12.12 siones sobre ubicación o promoción educativas,
implementación de programas educativos indi-
Cuando se comparan los puntajes de distintas vidualizados o suministro de servicios para estu-
pruebas de un estudiante individual, cualquier diantes de lengua inglesa, se debe proporcionar
decisión educativa basada en la comparación evidencia empírica que documente la relación
debe tener en cuenta el grado de superposición entre los puntajes de pruebas específicas, los
entre los dos constructos y la confiabilidad o programas didácticos y los resultados deseados
error estándar del puntaje de diferencia. de los estudiantes. Cuando no esté disponible la
evidencia empírica, debe advertirse a los usua-
Comentario: Cuando se usan puntajes de di-
rios que ponderen los resultados de la prueba en
ferencia entre dos pruebas como ayuda para la
función de otra información pertinente sobre los
toma de decisiones educativas, es importante
estudiantes.
que las dos pruebas se coloquen sobre una escala
común, ya sea mediante estandarización o me- Comentario: El uso de los puntajes de una prueba
diante otros medios, y, si resulta apropiado, se para decisiones de asignación o promoción debe
normalicen con respecto a la misma población en estar respaldado por evidencia sobre la relación
aproximadamente el mismo momento. Además, entre los puntajes de la prueba y los beneficios
la confiabilidad y el error estándar de los puntajes previstos de los programas educativos resultantes.
de diferencia entre las dos pruebas se ven afecta- De este modo, se debe recopilar evidencia empí-
dos por la relación entre los constructos medidos rica para respaldar el uso de una prueba por una
por las pruebas, así como por los errores estándar escuela universitaria para ubicar a los estudiantes
de medida de los puntajes de las dos pruebas. Por que ingresan en diferentes cursos de matemáticas.
ejemplo, cuando puntajes de una capacidad no De forma similar, en educación especial, cuando
verbal se comparan con puntajes de pruebas de los puntajes de las pruebas se usen en el desarrollo
rendimiento, el carácter superpuesto de los dos de objetivos educativos y estrategias didácticas es-
constructos puede generar una confiabilidad más pecíficos, se necesitará la evidencia que demuestre
baja de los puntajes de diferencia de lo que espera- que la instrucción prescrita (a) está directamente
rían normalmente los usuarios de la prueba. Si las vinculada con los puntajes de la prueba, y (b) pro-
pruebas de habilidad y/o rendimiento incluyen bablemente mejore el aprendizaje del estudiante.
una cantidad significativa de error de medida, esto Cuando haya evidencia limitada sobre la relación
también reducirá la confianza que se pueda poner entre los resultados de la prueba, los planes di-
en los puntajes de diferencia. Todos estos factores dácticos y los resultados de rendimiento de los
afectan a la confiabilidad de los puntajes de di- estudiantes, los desarrolladores y usuarios de la
ferencia entre las pruebas y se deben considerar prueba deberán enfatizar la naturaleza preliminar
223

capítulo 12
de las recomendaciones basadas en la prueba y re- hacerlo o tengan la asistencia o asesoría de per-
comendar a los profesores y a otros responsables sonas que disponen de esa cualificación.
de tomar decisiones a ponderar la utilidad de los
Comentario: Cuando los programas educativos se
puntajes a la luz de otra información pertinente
usan como estrategia para orientar la instrucción,
sobre los estudiantes.
el personal de la escuela que se prevé deberá for-
mular inferencias sobre la planificación didáctica,
Estándar 12.14 puede necesitar asistencia en la interpretación de
los resultados de la prueba para esa finalidad. Esta
En contextos educativos, quienes supervisan a asistencia puede consistir en desarrollo profesio-
otros en la selección, administración e interpre- nal continuo, guías de interpretación, capacita-
tación de puntajes de pruebas, deben estar fa- ción, sesiones informativas y la disponibilidad de
miliarizados con la evidencia de confiabilidad/ expertos para responder a las preguntas que surjan
precisión, la validez de las interpretaciones pre- a medida que se diseminan los resultados de la
vistas y la imparcialidad de los puntajes. Deben prueba.
tener la capacidad de articular y preparar eficaz- La interpretación de algunos puntajes de
mente a otros para que articulen una explicación pruebas es suficientemente compleja para reque-
lógica de las relaciones entre las pruebas usadas, rir que el usuario tenga capacitación y experien-
los propósitos de las pruebas y las interpretacio- cia pertinentes o cuente con la ayuda o asesoría
nes de los puntajes de las pruebas para los usos de personas con esa capacitación y experiencia.
previstos. Los ejemplos incluyen las pruebas de inteligen-
Comentario: Las interpretaciones apropiadas de cia administradas individualmente, inventarios
los puntajes en pruebas educativas dependen de de interés, puntajes de crecimiento en evalua-
la preparación efectiva de los individuos que lle- ciones estatales, pruebas proyectivas y pruebas
van a cabo la administración de la prueba y de la neuropsicológicas.
capacitación apropiada de aquellos que hacen uso
de los resultados de la prueba. Establecer progra-
mas de desarrollo profesional continuo que hagan Unidad 3. Administración,
hincapié en la mejora de la capacidad de evaluar calificación y presentación de
de los profesores e interesados es un mecanismo
que permite a los responsables del uso de prue- reportes de evaluaciones educativas
bas en contextos educativos facilitar la validez de
las interpretaciones de los puntajes. La fijación Estándar 12.16
de requisitos educativos (p. ej., un grado avan-
zado, trabajos académicos pertinentes o asistencia Los responsables de los programas de pruebas
a talleres proporcionados por el desarrollador o educativas deben proporcionar la capacitación,
promotor de la prueba) es otra estrategia que se documentación y supervisión apropiadas, de
puede usar para suministrar documentación de manera que los individuos que administren o
cualificaciones y especialización. califiquen las pruebas sean competentes en los
procedimientos apropiados de administración o
calificación de las pruebas y entiendan la impor-
Estándar 12.15 tancia de adherirse a las instrucciones facilitadas
por el desarrollador.
Los responsables de programas de pruebas edu-
cativas deben tomar las medidas necesarias para Comentario: Además de estar familiarizados con
verificar que los individuos que interpretan los la documentación y los procedimientos estan-
resultados de la prueba para la toma de decisio- darizados de administración de pruebas (inclu-
nes en el contexto escolar estén cualificados para yendo los protocolos de seguridad de pruebas), es
224

importante que los coordinadores y administra- con cada puntaje o nivel de clasificación, y de
dores de pruebas se familiaricen con los materiales información complementaria relacionada con
y procedimientos de las adecuaciones y modifi- los puntajes de resumen de grupo. Además, los
caciones en la evaluación. Por lo tanto, los de- reportes de puntajes deben incluir las fechas de
sarrolladores de pruebas deben proporcionar los administración de las pruebas y los estudios de
manuales y el material de capacitación apropiados normalización pertinentes.
que aborden específicamente la administración de
Comentario: La información de puntajes se debe
pruebas con adecuaciones. Los coordinadores y
comunicar de forma que sea accesible para las
administradores de pruebas también deben reci-
personas que reciben el reporte. La investigación
bir información sobre las características de las po-
empírica relacionada con los usuarios de reportes
blaciones de estudiantes incluidas en el programa
de puntajes puede ser útil para mejorar la claridad
de evaluación.
de los reportes. Por ejemplo, el grado de incer-
tidumbre de los puntajes se podría representar
Estándar 12.17 mediante errores estándar de medida presentados
gráficamente; o se podría proporcionar la proba-
En contextos educativos, cuando sea posible, los bilidad de clasificación incorrecta asociada con los
reportes de las diferencias entre grupos en los niveles de desempeño. De forma similar, cuando
puntajes de las pruebas deben ir acompañados de se reporten los promedios o puntajes de resumen
información contextual pertinente para facilitar de grupos de estudiantes, deben complementarse
la interpretación significativa de las diferencias. con información adicional sobre los tamaños de
Cuando la información contextual apropiada no muestra y los perfiles o dispersiones de la distri-
esté disponible, los usuarios deben ser cautos bución de puntajes. En los reportes de puntajes,
respecto de las interpretaciones indebidas. se debe tener especial cuidado al representar la
Comentario: Las diferencias entre los puntajes información de subpuntajes de manera que fa-
de las pruebas entre subgrupos pertinentes (p. ej., cilite una interpretación apropiada. Los reportes
clasificados por género, raza/origen étnico, es- de puntajes deben incluir la fecha de administra-
cuela/distrito o región geográfica) pueden verse ción, de modo que los usuarios de los puntajes
influidas, por ejemplo, por las diferencias en las puedan considerar la validez de las inferencias
características de los estudiantes, los patrones de con el paso del tiempo. Los reportes de puntajes
elección de cursos, el plan de estudios, las cualifi- también deben incluir las fechas de los estudios
caciones de los profesores o los niveles educativos de normalización pertinentes, de manera que los
parentales. Las diferencias en el desempeño en co- usuarios puedan tener en cuenta la antigüedad de
hortes de estudiantes a lo largo del tiempo pueden las normas cuando formulen inferencias sobre el
verse influidas por los cambios en la población de desempeño de los estudiantes.
estudiantes bajo prueba o los cambios en las opor-
tunidades de aprendizaje para los estudiantes. Se Estándar 12.19
debe recomendar a los usuarios que consideren la
información contextual apropiada y sean cautos En contextos educativos, cuando los reportes
respecto de las interpretaciones indebidas. de puntajes incluyan recomendaciones de inter-
vención formativa o estén vinculados a planes
recomendados o materiales didácticos, se debe
Estándar 12.18 proporcionar la justificación y evidencia que res-
palde estas recomendaciones.
En contextos educativos, los reportes de punta-
jes deben ir acompañados de una presentación Comentario: La tecnología permite asignar,
clara de información sobre cómo interpretarlos, cada vez en mayor medida, intervenciones for-
incluyendo el grado de error de medida asociado mativas específicas a los estudiantes basándose
225

capítulo 12
en los resultados de las evaluaciones. Se puede se use para asignar estudiantes a intervenciones
poner a disposición de los estudiantes conte- formativas concretas, es importante proporcio-
nido digital específico (p. ej., fichas de trabajo o nar una justificación y evidencia empírica que
lecciones) usando una interpretación basada en respalde la alegación de idoneidad de estas asig-
reglas de su desempeño en una prueba basadas naciones. Además, se debe recomendar a los
en estándares. En estos casos, se debe propor- usuarios que consideren estas recomendaciones
cionar documentación que respalde la idoneidad pedagógicas junto con otra información perti-
de las asignaciones formativas. De forma similar, nente sobre los puntos fuertes y débiles de los
cuando el patrón de subpuntajes de una prueba estudiantes.
226

13. U
SO DE PRUEBAS PARA LA
EVALUACIÓN DE PROGRAMAS,
ESTUDIOS DE POLÍTICAS Y
RENDICIÓN DE CUENTAS
Antecedentes
Las pruebas se utilizan extensamente para infor- evidencia del éxito o las carencias de una insti-
mar decisiones como parte de políticas públicas. tución o iniciativa. Este capítulo examina estos
Un ejemplo es el uso de pruebas en el contexto usos. El análisis de la rendición de cuentas se
del diseño y evaluación de programas o iniciati- centra en sistemas que involucran agregados de
vas de políticas. La evaluación de programas es puntajes (como las medias de toda una escuela o
el conjunto de procedimientos usados para emitir institución), porcentajes de estudiantes o pacien-
juicios sobre el diseño, la implementación y los tes con calificaciones por encima de determinado
resultados de un programa. Los estudios de po- nivel, o el crecimiento o resultados de modelos de
líticas son más amplios que las evaluaciones de valor añadido agregados a nivel de aula, escuela o
programas; contribuyen a la evaluación de los institución. Los sistemas o programas que se cen-
planes, principios o procedimientos dictados para tran en la rendición de cuentas para estudiantes
conseguir objetivos públicos generales. Con fre- individuales (por ejemplo, a través de políticas
cuencia, las pruebas proporcionan datos que son de promoción o exámenes de graduación basados
analizados para calcular el efecto de una política, en pruebas) se tratan en el capítulo 12. Sin em-
programa o iniciativa en resultados como, por bargo, muchas de las cuestiones tratadas en ese
ejemplo, el rendimiento o la motivación de los capítulo son pertinentes para el uso de pruebas
estudiantes. Una segunda categoría general del educativas para fines de evaluación de programas
uso de pruebas en contextos de políticas son los o rendición de cuentas en la escuela. Si los progra-
sistemas de rendición de cuentas, que establecen mas o sistemas de rendición de cuentas incluyen
consecuencias (p. ej., recompensas y sanciones) al pruebas administradas a profesores, directores u
desempeño de instituciones (por ejemplo, escue- otros proveedores para fines de evaluación de sus
las o distritos escolares) o individuos (por ejem- prácticas o desempeño (p. ej., programas de “pago
plo, profesores o proveedores de servicios de salud por desempeño” para profesores que incluyan una
mental). Las evaluaciones de programas, estudios prueba de conocimientos o una medida basada en
de políticas y sistemas de rendición de cuentas no la observación de sus prácticas), esas prácticas se
se deben ver necesariamente como categorías dis- deben evaluar según los estándares relacionados
cretas. Con frecuencia, se adoptan combinando con las pruebas y acreditación en el centro de tra-
unas y otras, como en el caso de sistemas de ren- bajo del capítulo 11.
dición de cuentas que imponen requisitos o reco- Los contextos en que tiene lugar las pruebas
mendaciones para usar los resultados de pruebas de evaluación y de rendición de cuentas varían
en la evaluación de los programas adoptados por en cuanto a los riesgos para los examinandos y
escuelas o distritos. para quienes son responsables de promover resul-
El uso de pruebas para evaluaciones de pro- tados específicos (p. ej., profesores o proveedores
gramas, estudios de políticas y rendición de de servicios de salud). Los programas de prue-
cuentas comparte algunas características, inclu- bas para instituciones pueden tener riesgos altos
yendo la medición del desempeño de un grupo cuando el desempeño agregado de una muestra o
de personas y el uso de puntajes de pruebas como de toda la población de examinandos se usa para
227

capítulo 13
formular inferencias sobre la calidad de los servi- para grupos de comparación apropiados. Si bien
cios suministrados y, como resultado, se toman muchas actividades de evaluación se dirigen a
decisiones sobre estados, recompensas o sanciones documentar el desempeño de examinandos in-
institucionales. Por ejemplo, la calidad del plan dividuales, la evaluación de programas y estudios
de estudio y la enseñanza de la lectura se podría de políticas tiene como objetivo el desempeño
juzgar en parte sobre la base de los resultados de de grupos o el impacto de los resultados de las
las pruebas del nivel alcanzado por grupos de es- pruebas en estos grupos. Se puede usar una varie-
tudiantes. De forma similar, a veces los puntajes dad de pruebas para la evaluación de programas
agregados de pruebas psicológicas se usan para y políticas; los ejemplos incluyen las pruebas de
evaluar la eficacia del tratamiento que proporcio- rendimiento estandarizadas administradas por
nan programas u organismos de salud mental, y estados y distritos, pruebas psicológicas publica-
se pueden incluir en los sistemas de rendición de das que miden resultados de interés, y medidas
cuentas. Incluso cuando se reportan los resultados desarrolladas específicamente para los propósitos
de pruebas de forma agregada y se destinan a fide la evaluación. Además, las evaluaciones de pro-
nes de bajo riesgo, la comunicación pública de los gramas y políticas resumen a veces los resultados
datos se podría usar para informar juicios sobre la de distintos estudios y pruebas.
calidad del programa, el personal o sobre los pro- Es importante evaluar cualquier prueba pro-
gramas educativos y podría tener influencia sobre puesta en términos de su relevancia para los ob-
las decisiones normativas. jetivos del programa o política y/o las preguntas
específicas que se pueden solventar con su uso. Es
Evaluación de programas e iniciativas relativamente raro que una prueba esté específica-
de políticas mente diseñada para propósitos de evaluación de
programas o estudios de políticas; por lo tanto,
Como se indicó anteriormente, un programa de a menudo es necesario que aquellos que realizan
evaluación implica habitualmente la formulación pruebas se basen en medidas desarrolladas para
de juicios sobre un solo programa, mientras que otros propósitos. Además, por razones de coste
los estudios de políticas abordan planes, princi- o evidencia, algunas pruebas se pueden adoptar
pios o procedimientos dictados para conseguir para usarlas en una evaluación de programa o es-
objetivos públicos generales. Los estudios de po- tudio de políticas, incluso si se han desarrollado
líticas pueden tratar políticas en varios niveles de para una población de examinandos un tanto
gobierno, incluyendo el local, estatal, federal e diferente. Algunas pruebas se pueden seleccionar
internacional, y se pueden llevar a cabo en con- porque son bastante conocidas y se las considera
textos organizacionales o institucionales tanto especialmente confiables desde la perspectiva de
públicos como privados. No hay una distinción los clientes o consumidores públicos, o porque ya
nítida entre estudios de políticas y evaluaciones existen datos útiles de administraciones anterio-
de programas, y en muchos casos hay una super- res. Se debe proporcionar evidencia de validación
posición sustancial entre los dos tipos de investi- de los puntajes de pruebas para los usos previstos
gaciones. Los resultados de las pruebas suelen ser siempre que se usen pruebas para la evaluación de
una fuente importante de evidencia para el inicio, programas o políticas o para fines de rendición
continuación, modificación, terminación o ex- de cuentas.
pansión de diversos programas y políticas. Debido a realidades administrativas, como las
Las pruebas se pueden usar en evaluaciones de limitaciones de costo y la carga de respuestas, se
programas o estudios de políticas para proporcio- pueden adoptar ajustes metodológicos para au-
nar información sobre el estado de clientes, estu- mentar la eficiencia de las pruebas. Una estrategia
diantes u otros grupos antes, durante y después es obtener una muestra de participantes a evaluar
de una intervención o adopción de política, así a partir de un conjunto más grande de participan-
como para proporcionar información de puntajes tes expuestos a un programa o política. Cuando
228

USO DE PRUEBAS PARA LA EVALUACIÓN DE PROGRAMAS, ESTUDIOS DE POLÍTICAS Y RENDICIÓN DE CUENTAS
un número suficiente de clientes se ve afectado adicional. También puede ser necesario conocer
por el programa o la política que se va a evaluar, el grado en que la información de identificación
y cuando exista el deseo de limitar el tiempo que personal ha sido suprimida del conjunto de datos
se dedica a la evaluación, los evaluadores pueden de acuerdo con la normativa vigente. Al seleccio-
crear diversos formularios de pruebas cortas a par- nar (o desarrollar) una prueba o al decidir el uso
tir de un conjunto más grande de ítems. Mediante de datos existentes en evaluaciones o estudios de
la construcción de un número de formularios de políticas, los investigadores prudentes intentan
pruebas compuestos cada uno por un número re- equilibrar el propósito de la prueba, la proba-
lativamente bajo de ítems y la asignación de los bilidad de que sea sensible a la intervención en
formularios a diferentes submuestras de exami- estudio, su credibilidad con respecto a las partes
nandos (un procedimiento conocido como mues- interesadas y los costos de administración. De lo
treo de matriz), se puede incluir en el estudio un contrario, los resultados de las pruebas pueden
mayor número de ítems del que podría adminis- llevar a conclusiones inapropiadas sobre el pro-
trarse razonablemente a un solo examinando. Este greso, el impacto y el valor general de los progra-
método se suele usar cuando es deseable represen- mas y las políticas bajo revisión
tar un dominio con un gran número de ítems de La interpretación de puntajes de las pruebas
prueba. No obstante, en las pruebas con muestreo en evaluación de programas y estudios de polí-
de matriz, normalmente los puntajes individua- ticas requiere habitualmente el análisis complejo
les no se crean ni interpretan. Debido a que los de un número de variables. Por ejemplo, algunos
procedimientos para el muestreo de individuos o programas son obligatorios para un grupo de
ítems de prueba pueden variar en distintas for- población; otros se dirigen solo a determinados
mas, el análisis e interpretación adecuados de los subgrupos. Algunos están diseñados para afectar
resultados de las pruebas dependen de una clara a las actitudes, creencias o valores; en tanto que
descripción del modo cómo se forman las mues- otros tienen como meta tener un impacto directo
tras y de cómo se diseñan, califican y reportan las en el comportamiento, los conocimientos o las
pruebas. Los reportes de resultados de las pruebas habilidades. Es importante que los participantes
usados para la evaluación o la rendición de cuen- incluidos en cualquier estudio cumplan los crite-
tas, deben describir la estrategia de muestreo y el rios especificados para participar en el programa o
grado de representatividad de la muestra respecto política bajo revisión, de manera que sea posible
de la población pertinente para las inferencias una interpretación apropiada de los resultados de
previstas. la prueba. Los resultados de la prueba reflejarán
En ocasiones, las evaluaciones y estudios de no solo los efectos de las reglas para la selección
política se basan en análisis de datos secundarios: de participantes y el impacto en los participan-
el análisis de los datos recopilados anteriormente tes de programas o tratamientos, sino también
para otros propósitos. En algunos casos, puede ser las características de los participantes. Se puede
difícil garantizar una concordancia correcta entre obtener información contextual pertinente so-
la prueba existente y la intervención o política bre clientes o estudiantes para reforzar las infe-
bajo examen, o reconstruir en detalle las condi- rencias derivadas de los resultados de la prueba.
ciones bajo las cuales se recopilaron originalmente Las interpretaciones válidas pueden depender de
los datos. El análisis de datos secundarios también consideraciones adicionales que no tengan nada
requiere la consideración de los derechos de pri- que ver con la idoneidad de la prueba o su calidad
vacidad de los examinandos y de otros afectados técnica, incluyendo el diseño del estudio, la via-
por el análisis. A veces esto requiere determinar bilidad administrativa y la calidad de otros datos
si el consentimiento informado obtenido de los disponibles. Este capítulo se centra en las pruebas
participantes en la recopilación original de datos y no examina esas otras consideraciones de ma-
resulta adecuado para que se realice un análisis nera sustancial. Sin embargo, para el desarrollo de
secundario sin necesidad de un consentimiento conclusiones defendibles, los investigadores que
229

capítulo 13
llevan a cabo evaluaciones de programas y estu- (p. ej., distrito, escuela, profesor), los riesgos apa-
dios de políticas deben complementar los resul- rejados con los resultados, la frecuencia de la me-
tados de las pruebas con datos de otras fuentes. dición y la inclusión o no de indicadores externos
Estos datos podrían incluir información sobre a la prueba en el sistema de rendición de cuentas.
características del programa, prestaciones, costos, Una cuestión de medición importante en la ren-
antecedentes de clientes, grado de participación y dición de cuentas se deriva de la construcción de
evidencias de efectos secundarios. Debido a que un índice de rendición de cuentas: un número o
los resultados de las pruebas tienen un peso im- etiqueta que refleja un conjunto de reglas para la
portante para la evaluación y los estudios de po- combinación de puntajes y otra información para
líticas, resulta crucial que cualquier prueba usada llegar a conclusiones e informar la toma de deci-
en estas investigaciones sea sensible con respecto siones. Un índice de rendición de cuentas podría
a las preguntas del estudio y apropiada para los ser tan sencillo como un puntaje promedio de
examinandos. pruebas para los estudiantes de un grado especí-
fico de una escuela concreta, pero la mayoría de
Sistemas de rendición de cuentas los sistemas dependen de índices más complejos.
basada en pruebas Estos pueden incluir un conjunto de reglas (a
menudo, denominadas reglas de decisión) para
La inclusión de puntajes de pruebas en sistemas sintetizar distintas fuentes de información como,
de rendición de cuentas del ámbito educativo se por ejemplo, puntajes de pruebas, calificaciones
ha hecho común en los Estados Unidos y otros de graduación, calificaciones de elección de curso
países. En la mayoría de los casos, la rendición y cualificaciones del profesor. Un índice de ren-
de cuentas basada en pruebas tiene lugar en el dición de cuentas también podría crearse a partir
nivel K-12, pero muchos de los problemas que de aplicaciones de modelos estadísticos complejos
surgen en el contexto K-12 son pertinentes para como, por ejemplo, los utilizados en métodos de
los esfuerzos de adoptar una rendición de cuen- modelos de valor añadido. Como se expuso en el
tas basada en resultados en la educación post- capítulo 12, para decisiones de alto riesgo, como
secundaria. Además, los sistemas de rendición la clasificación de escuelas o profesores en cate-
de cuentas pueden incorporar información de gorías de desempeño vinculadas a recompensas o
sistemas de datos longitudinales que relacionan sanciones, el establecimiento de reglas usadas para
el desempeño de los estudiantes en las pruebas crear índices de rendición de cuentas deberá estar
y otros indicadores, incluyendo sistemas que informado por la consideración de la naturaleza
capturan el desempeño de una cohorte desde el de la información que se prevé proporcionará el
nivel pre-escolar hasta educación superior y en sistema y por el conocimiento del efecto de estas
la fuerza laboral. En ocasiones, la rendición de reglas en las consecuencias. Las implicaciones de
cuentas basada en pruebas se produce en sectores estas reglas se deben comunicar a los responsa-
distintos a la educación; un ejemplo es el uso bles de las decisiones, de manera que conozcan
de pruebas psicológicas con el fin crear medidas las consecuencias de cualquier decisión sobre las
de eficacia para proveedores de servicios de sa- políticas que se basan en el índice de rendición
lud mental. Estos usos de las pruebas plantean de cuentas.
cuestiones similares a las que surgen en contex- Los sistemas de rendición de cuentas basada
tos educativos. en pruebas incluyen interpretaciones y supues-
Los sistemas de rendición de cuentas basada tos que van más allá de la interpretación de
en pruebas adoptan una variedad de métodos los puntajes de las pruebas en las que se basan;
para medir el desempeño y exigir a individuos o por lo tanto, requieren evidencia adicional que
grupos responsabilidad por ese desempeño. Estos respalde su validez. Por lo general, los sistemas
sistemas varían en un número de dimensiones, de rendición de cuentas en educación agregan
incluyendo la unidad de la rendición de cuentas los puntajes de los estudiantes de una clase o
230

escuela, y se pueden usar complejos modelos varios sujetos y niveles de grado, y determinar si
matemáticos para generar un resumen esta- se mide el desempeño con respecto a un objetivo
dístico, o índice, para cada profesor o escuela. fijo o se usa un método basado en clasificacio-
Estos índices se suelen interpretar como esti- nes. El desarrollo de un índice de rendición de
maciones de la eficacia del profesor o escuela. cuentas también implica consideraciones políti-
Los usuarios de la información de los sistemas cas, por ejemplo, cómo equilibrar las cuestiones
de rendición de cuentas podrían asumir que los técnicas y la transparencia.
índices de rendición de cuentas proporcionan
indicadores válidos de los resultados educativos Problemas en la evaluación de
previstos (p. ej., competencia en las habilidades programas y políticas y en la
y conocimientos descritos en los estándares de rendición de cuentas
contenido de un estado), que las diferencias en-
tre índices se pueden atribuir a diferencias en la En ocasiones, los resultados de las pruebas se
eficacia del profesor o escuela, y que esas dife- usan como una forma de motivar a los admi-
rencias son razonablemente estables a lo largo nistradores de programas u otros proveedores de
del tiempo y para distintos estudiantes e ítems. servicios, así como para inferir la eficacia ins-
Estos supuestos deben estar respaldados por evi- titucional. Se cree que el uso de estas pruebas,
dencias. Además, los responsables del desarrollo incluyendo el reporte público de los resultados,
e implementación de sistemas de rendición de recomienda a que una institución mejore los
cuentas basada en pruebas sostienen, a menudo, servicios que ofrece a sus clientes. Por ejemplo,
que estos sistemas conducen a resultados especí- en algunos sistemas de rendición de cuentas ba-
ficos, como una mayor motivación del educador sada en pruebas, resultados sistemáticamente
o mejoras de rendimiento; estas afirmaciones deficientes en las pruebas de rendimiento en el
también se deben respaldar con evidencias. En nivel escolar pueden dar como resultado inter-
particular, se deben adoptar medidas para inves- venciones que afectan al personal o a las ope-
tigar cualquier consecuencia positiva o negativa raciones de la escuela. La interpretación de los
potencial del sistema de rendición de cuentas resultados de las pruebas es particularmente
seleccionado. compleja cuando las pruebas se usan como me-
De modo similar, la elección de reglas y datos canismo de políticas institucionales y también
específicos que se usan para crear un índice de como una medida de eficacia. Por ejemplo, una
rendición de cuentas debe reflejar los objetivos y política o programa se puede basar en el su-
valores de quienes están desarrollando el sistema puesto de que proporcionar objetivos claros y
de rendición de cuentas, así como las inferencias especificaciones generales del contenido de una
que el diseño del sistema respalda. Por ejemplo, prueba (p. ej., tipos de temas, constructos, do-
si el objetivo principal de un sistema de rendi- minios cognitivos y formatos de respuestas in-
ción de cuentas es identificar a profesores que cluidos en la prueba) puede ser una estrategia
sean eficaces en la mejora del rendimiento de los razonable para comunicar nuevas expectativas
estudiantes, el índice de rendición de cuentas se a los educadores. Sin embargo, el deseo de in-
debe basar en evaluaciones que estén estrecha- fluir en los resultados de una prueba o evalua-
mente alineadas con el contenido que se prevé ción para demostrar un desempeño institucional
cubrirá el profesor y deberá tener en cuenta aceptable podría llevar a prácticas de evaluación
factores fuera del control del profesor. Normal- inapropiadas como, por ejemplo, enseñar los
mente, el proceso conlleva decisiones como, por ítems de la prueba con antelación, modificar los
ejemplo, determinar si se miden los porcentajes procedimientos de administración, desanimar
sobre un puntaje de corte o sobre una media de a que determinados estudiantes o clientes par-
los puntajes de escala, si se mide el estado o el ticipen en las sesiones de evaluación, o centrar
crecimiento, cómo combinar la información de la enseñanza exclusivamente en las capacidades
231

capítulo 13
que se someten a prueba. Estas respuestas ilus- examinando del propio proceso de evaluación,
tran que cuanto más se usa un indicador para la incluyendo las prácticas de administración y pre-
toma de decisiones, más probabilidades hay que sentación de reportes.
se corrompa y distorsione el proceso que debe Raras veces las decisiones de políticas públi-
medir. Prácticas no deseables (por ejemplo, un cas se basan exclusivamente en los resultados de
énfasis excesivo en las habilidades sometidas a estudios empíricos, ni siquiera cuando los estu-
prueba) podrían sustituir a las prácticas que tie- dios son de alta calidad. Cuanto más expansiva
nen como objetivo que los examinandos apren- e indirecta es la política, más probable es que
dan los dominios más generales medidos por entren en juego otras consideraciones como, por
la prueba. Debido a que los resultados que se ejemplo, el impacto político y económico de
derivan de tales prácticas pueden conducir a es- abandonar, cambiar o mantener la política, o las
timaciones artificialmente altas del desempeño, reacciones de diversos agentes cuando las institu-
el investigador diligente debe estimar el impacto ciones se convierten en objetivo de recompensas
de los cambios en las prácticas de enseñanza que o sanciones. Las pruebas usadas en contextos de
puedan deducirse de la evaluación a fin de inter- políticas pueden estar sujetas a un intenso y de-
pretar correctamente los resultados de la prueba. tallado escrutinio por motivos políticos. Cuando
Examinar las consecuencias potenciales inapro- los resultados de las pruebas contradicen una po-
piadas de las pruebas, así como sus beneficios, sición favorecida, es posible que se hagan inten-
dará como resultado una evaluación más precisa tos de desacreditar el procedimiento, contenido
de los argumentos políticos sobre los tipos espe- o interpretación de la evaluación. Los usuarios de
cíficos de programas de pruebas que inducen a la prueba deben tener la capacidad de defender
mejores desempeños. el uso de la prueba y la interpretación de los re-
Es posible que los investigadores que llevan a sultados, pero también deben reconocer que no
cabo estudios de políticas y evaluaciones de pro- pueden controlar las reacciones de los grupos
gramas no den razones claras a los examinandos interesados.
sobre la participación en el procedimiento de Es esencial que todas las pruebas usadas en
evaluación y, a menudo, oculten los resultados a contextos de rendición de cuentas, evaluación de
los examinandos. Cuando se usa el muestreo de programas o políticas cumplan los estándares de
matriz para la evaluación de programas, es posi- validez, confiabilidad e imparcialidad apropiados
ble que no sea viable suministrar tales reportes. para las interpretaciones y usos previstos de los
Si se hacen escasos esfuerzos para motivar a los puntajes de las pruebas. Además, como se des-
examinandos para que se tomen la prueba con cribe en el capítulo 6, las pruebas deben adminis-
seriedad (p. ej., si no se explica el propósito de trarse por personal con la capacitación apropiada
la prueba), los examinandos tendrían pocas razo- para implementar los procedimientos de admi-
nes para maximizar su esfuerzo en la prueba. De nistración. También es esencial que se asista a los
este modo, los resultados de la prueba podrían responsables de interpretar los resultados del estu-
tergiversar el impacto de un programa, insti- dio para profesionales, medios de comunicación
tución o política. Cuando existan sospechas de y público general. Una cuidadosa comunicación
que una prueba no se ha realizado seriamente, se sobre los objetivos, procedimientos, conclusiones
puede explorar la motivación de los examinandos y limitaciones aumenta la probabilidad de que las
mediante la recogida de información adicional interpretaciones de los resultados sean precisas y
donde sea factible, usando métodos de observa- útiles.
ción o entrevista. Los problemas de preparación
inapropiada y desempeño desmotivado plantean Consideraciones adicionales
preguntas sobre la validez de las interpretaciones
de los resultados de las pruebas. En todo caso, es Este capítulo y los estándares asociados se dirigen
importante considerar el impacto potencial en el a los usuarios de pruebas para la evaluación de
232

programas, estudios de políticas y sistemas de ren- políticas, así como a los educadores, administrado-
dición de cuentas. Los usuarios incluyen a aquellos res y responsables de políticas que trabajan en la
que encargan, diseñan o implementan estas eva- medición del desempeño de las escuelas y la eva-
luaciones, estudios o sistemas, y aquellos que to- luación de la eficacia de programas y políticas de
man decisiones basándose en la información que educación. Además de los estándares siguientes,
proporcionan. Los usuarios incluyen, entre otros, los usuarios deben considerar otros documentos
a los psicólogos que desarrollan, evalúan o aplican disponibles que contienen estándares pertinentes.
233

capítulo 13
Estándares para el uso de pruebas para la evaluación de

programas, estudios de políticas y rendición de cuentas
Los estándares de este capítulo se han separado información sobre las muestras incluidas en
en dos unidades temáticas denominadas de la si- cada estudio individual.
guiente manera:
Comentario: Es importante proporcionar infor-
mación sobre las ponderaciones de muestreo que
1. Diseño y desarrollo de programas de pruebas
podría ser necesario aplicar para obtener inferen-
e índices para la evaluación de programas,
cias precisas sobre el desempeño. Cuando se use
estudios de políticas y sistemas de rendición
el muestreo de matriz, la documentación debe
de cuentas
abordar las limitaciones que se derivan de este
2. Interpretaciones y usos de la información de
método de muestreo, por ejemplo, la dificultad
pruebas usadas en evaluación de programas,
para crear puntajes a nivel individual. Si no se
estudios de políticas y sistemas de rendición
ha usado un muestreo aleatorio simple, los desa-
de cuentas
rrolladores de la prueba también deben reportar
estimaciones apropiadas de la varianza de error
Los usuarios de pruebas educativas para la eva- de muestreo.
luación, políticas o rendición de cuentas también
deben consultar los estándares del capítulo 12
(“Pruebas y evaluación educativas”) y el resto de Estándar 13.2
los estándares de este volumen.
Cuando se usan puntajes de cambio o ganan-
cia, se deben reportar los procedimientos para
Unidad 1. Diseño y desarrollo de la construcción de puntajes, así como sus cuali-
dades y limitaciones técnicas. Además, se deben
programas de pruebas e índices para
reportar los periodos de tiempo entre las admi-
la evaluación de programas, estudios nistraciones de pruebas y se debe prestar aten-
de políticas y sistemas de rendición ción para evitar efectos prácticos.
de cuentas Comentario: El uso de puntajes de cambio o ga-
nancia asume que se utiliza la misma prueba, for-
Estándar 13.1 mularios equivalente de la prueba o formularios
de una prueba escalada verticalmente, y que la
Los usuarios de pruebas que llevan a cabo prueba (o formulario o escala vertical) no ha sido
evaluaciones de programas o estudios de polí- alterada materialmente entre las administraciones
ticas deben describir claramente la población Se debe reportar el error estándar de la diferen-
que ese programa o política tiene por objetivo cia entre puntajes de pretest y el postest, el error
servir y deben documentar el grado de repre- asociado con la regresión de puntajes de postest
sentatividad de la muestra de examinandos en puntajes de pretest, o los datos pertinentes
respecto de esa población. Además, cuando se de otros métodos para examinar el cambio, por
usen procedimientos de muestreo de matriz, ejemplo, aquellos basados en modelos de ecuacio-
se deben proporcionar las reglas para el mues- nes estructurales. Además de las consideraciones
treo de ítems y examinandos, y los cálculos técnicas o metodológicas, los detalles relacionados
de error deben tener en cuenta el método de con la administración de la prueba también pue-
muestreo. Cuando se combinan varios estudios den ser pertinentes para la interpretación de los
como parte de la evaluación de un programa puntajes de cambio o ganancia. Por ejemplo, es
o estudio de política, se debe proporcionar importante considerar que el error asociado con
234

los puntajes de cambio es más alto que el error de la eficacia de los profesores en la mejora del
asociado con los puntajes originales en los cuales rendimiento de los estudiantes, será necesario
aquellos se basan. Si se usan puntajes de cambio, proporcionar evidencia de la idoneidad de esta
se debe reportar la información sobre la confia- inferencia. De forma similar, si las calificaciones
bilidad/precisión de estos puntajes. También es publicadas de proveedores de servicios de salud se
importante reportar el periodo de tiempo entre basan en índices construidos a partir de puntajes
las administraciones de las pruebas y, si se usa la de pruebas psicológicas de sus pacientes, la infor-
misma prueba en varias ocasiones, se debe exami- mación pública deberá incluir información que
nar la posibilidad de efectos prácticos (es decir, ayude a los usuarios a entender qué inferencias
la mejora del desempeño debido a la familiaridad sobre el desempeño del proveedor están justifica-
con los ítems de la prueba). das. Los desarrolladores y usuarios de índices de-
ben tener en cuenta las formas en que el proceso
Estándar 13.3 de combinación de puntajes individuales en un
índice puede introducir problemas técnicos que
Cuando se usen índices de rendición de cuen-
no repercuten en los puntajes originales. Errores
tas, indicadores de eficacia en evaluaciones de
de vinculación, efectos suelo o techo, diferencias
programas o estudios de políticas u otros mo-
de variabilidad en distintas medidas y carencia de
delos estadísticos (por ejemplo, modelos de
una escala de intervalos son algunos ejemplos que
valor añadido), se debe describir y justificar el
podrían no ser problemáticos para el propósito
método para construir tales índices, indicadores
de interpretar puntajes individuales, pero pueden
o modelos, y se deben reportar sus cualidades
representar un problema cuando los puntajes se
técnicas.
combinan en una medida agregada. Finalmente,
Comentario: Un índice que se construye me- cuando las evaluaciones o sistemas de rendición
diante la manipulación y combinación de de cuentas se basan en medidas que combinan va-
puntajes de pruebas deberá estar sujeto a las rias fuentes de información (por ejemplo, cuando
mismas investigaciones de validez, confiabilidad se combinan puntajes de varios formularios de
e imparcialidad que se esperan para los punta- una prueba o cuando se incluye información
jes de las pruebas que fundamentan el índice. externa a la prueba en un índice de rendición
Los métodos y reglas para construir estos índi- de cuentas), será necesario formular explícita-
ces deberán estar disponibles para los usuarios, mente y justificar las reglas para la combinación
junto con la documentación de sus propieda- de la información. Es importante reconocer que
des técnicas. Se deberá evaluar las cualidades y cuando varias fuentes de datos se reducen a un
limitaciones de diversos métodos para la com- solo puntaje o calificación agregados, los pesos y
binación de puntajes, y deberá estar disponible características de distribución de las fuentes afec-
la información que permitiría una replicación tarán a la distribución de los puntajes agregados.
independiente de la construcción de los índi- Se deben investigar los efectos de la ponderación
ces, indicadores o modelos para uso de las partes y las características de distribución en el puntaje
pertinentes. agregado.
Al igual que con los puntajes de pruebas ha- Cuando los índices combinan puntajes de
bituales, deberá presentarse un argumento de pruebas administradas bajo condiciones estándar
validez para justificar las inferencias sobre los ín- con aquellos que incluyen modificaciones u otros
dices como medidas de un resultado deseado. Es cambios en las condiciones de administración,
importante ayudar a que los usuarios entiendan deberá existir una justificación clara de la combi-
el grado en que estos modelos respaldan las in- nación de la información en un solo índice, y se
ferencias causales. Por ejemplo, cuando se usan deberán examinar las implicaciones para la validez
estimaciones de valor añadido como medidas y la confiabilidad.
235

capítulo 13
Unidad 2. Interpretaciones y usos de los usuarios la evidencia relacionada con la validez

de las interpretaciones para cada uno de esos usos,
la información de pruebas usadas en
y será necesario considerar y mitigar los efectos
evaluación de programas, estudios negativos potenciales de algunos usos (p. ej., me-
de políticas y sistemas de rendición jora de la enseñanza) que podrían dar como re-
sultado uso no previstos (p. ej., responsabilidad
de cuentas
de alto riesgo). Cuando las pruebas se usan para
evaluar el desempeño del personal, se deberá exa-
Estándar 13.4 minar la idoneidad de las pruebas para diferentes
grupos de personal (p. ej., profesores habituales,
Se debe recopilar y poner a disposición la evi-
profesores de educación especial, directores),
dencia de validación, confiabilidad e imparcia-
lidad del propósito del uso de una prueba en la
evaluación de un programa, estudio de política o Estándar 13.5
sistema de rendición de cuentas.
Los responsables del desarrollo y uso de pruebas
Comentario: Se debe proporcionar evidencia de la
para fines de evaluación y rendición de cuentas
idoneidad del uso de una prueba en la evaluación
deben tomar medidas para promover interpreta-
de programas, estudios de políticas o sistemas de
ciones precisas y usos apropiados para todos los
rendición de cuentas, incluyendo la relevancia de
grupos a los que se apliquen los resultados.
la prueba respecto de los objetivos del programa,
política o sistema en estudio y la idoneidad de Comentario: Los responsables de la medición
la prueba para las poblaciones interesadas. Los de resultados deben, en la medida de lo posible,
responsables de la publicación o presentación de diseñar el proceso de evaluación para promover
reportes de resultados de pruebas deben propor- el acceso y maximizar la validez de las interpre-
cionar y explicar cualquier información comple- taciones (p. ej., proporcionando las adecuaciones
mentaria que minimice posibles interpretaciones apropiadas) para todos los subgrupos pertinentes
o usos indebidos de los datos. En particular, si de examinandos que participen en la evaluación
una evaluación o sistema de rendición de cuentas del programa o política. Los usuarios de datos
se diseña para respaldar interpretaciones relacio- secundarios deben describir claramente el grado
nadas con la eficacia de un programa, institución en que la población incluida en la base de datos
o proveedor, se deberá investigar y documentar de puntajes incluye a todos los subgrupos perti-
la validez de esas interpretaciones para los usos nentes. Los usuarios también deben documen-
previstos. Los reportes deben incluir precauciones tar cualquier regla de exclusión que se aplique y
contra inferencias no justificadas, por ejemplo, cualquier otro cambio en el proceso de evalua-
la exigencia de responsabilidades a proveedores ción que pueda afectar a las interpretaciones de
de servicios de salud por cambios en los punta- los resultados. De forma similar, los usuarios de
jes de pruebas que posiblemente no están bajo pruebas para fines de rendición de cuentas deben
su control. Si el uso implica una clasificación de hacer lo posible para incluir a todos los subgru-
personas, instituciones o programas en distintas pos pertinentes en el programa de evaluación;
categorías, se debe reportar la coherencia, preci- proporcionar documentación sobre cualquier re-
sión e imparcialidad de las clasificaciones. Si la gla de exclusión, modificaciones de las pruebas u
misma prueba se usa para varios propósitos (p. ej., otros cambios en la prueba o en las condiciones
supervisión del rendimiento de estudiantes indivi- de administración; y facilitar la evidencia relacio-
duales; proporcionar información para ayudar a la nada con la validez de las interpretaciones de los
planificación didáctica para individuos o grupos puntajes para los subgrupos. Cuando se reporten
de estudiantes; la evaluación de distritos, escuelas de forma separada resúmenes de los puntajes por
o profesores), se debe recopilar y proporcionar a subgrupo (p. ej., por grupo racial/origen étnico),
236

los usuarios de la prueba deben llevar a cabo aná- como las reglas de inclusión/exclusión, el pro-
lisis para evaluar la confiabilidad/precisión de los pósito de la prueba, el muestreo de contenido,
puntajes para tales grupos y la validez de las inter- la alineación didáctica y la vinculación con altos
pretaciones de los puntajes, y se debe reportar esta riesgos pueden afectar a los resultados agregados y
información cuando se publiquen los resúmenes. se deben poner en conocimiento de las audiencias
Los análisis de índices complejos usados para la para su análisis o evaluación.
rendición de cuentas o para la medición de la efi-
cacia de un programa deben considerar la posibi-
lidad de sesgo hacia subgrupos específicos o hacia Estándar 13.6
programas o instituciones que prestan servicios a Cuando sea posible, los reportes de las diferen-
esos grupos. Si se detecta sesgo (p. ej., si se de- cias entre grupos en el desempeño de las pruebas
muestra que los puntajes del índice están sujetos deben ir acompañados de la información con-
a un error sistemático relacionado con las caracte- textual pertinente para facilitar la interpretación
rísticas del examinando como la raza u origen ét- significativa de las diferencias. Cuando la infor-
nico), estos índices no se deben usar a menos que mación contextual apropiada no esté disponible,
se modifiquen de forma que se elimine el sesgo. El los usuarios deben ser cautos respecto de las in-
capítulo 3 incluye consideraciones adicionales re-
terpretaciones indebidas.
lacionadas con la imparcialidad y la accesibilidad
en pruebas y evaluaciones educativas. Comentario: Las diferencias observadas en los
Cuando los resultados de la prueba se usan puntajes promedio de pruebas entre grupos
para respaldar acciones relacionadas con la adop- (p. ej., clasificados por género, raza/origen étnico,
ción o cambios de programas o políticas, es posible discapacidad, competencia en el idioma, condi-
que los profesionales que hagan las interpretacio- ción socioeconómica o región geográfica) pue-
nes que conduzcan a tales acciones necesiten asis- den verse influidas por las diferencias en factores
tencia en la interpretación de los resultados para como, por ejemplo, oportunidad de aprendizaje,
este propósito. Los avances tecnológicos han per- experiencia en capacitación, esfuerzo, calidad del
mitido una creciente disponibilidad de los datos y instructor, y el nivel y tipo de apoyo parental. En
reportes para profesores, administradores y otros educación, las diferencias en el desempeño de
agentes que pueden no haber recibido capacita- grupos a lo largo del tiempo pueden verse influi-
ción en el uso e interpretación apropiados de la das por los cambios en la población que se somete
prueba o en el análisis de los datos de puntajes. a la prueba (incluyendo cambios en el tamaño de
Quienes proporcionan los datos o herramien- muestra) o cambios en sus experiencias. Se debe
tas tienen la responsabilidad de ofrecer soporte recomendar a los usuarios que tenga en cuenta la
y asistencia a los usuarios, y los usuarios tienen información contextual apropiada cuando inter-
la responsabilidad de buscar orientación sobre el preten estas diferencias entre grupos y cuando se
análisis e interpretación apropiados. Los respon- diseñen políticas o prácticas para solventar esas
sables de la publicación o presentación de repor- diferencias. Además, si las evaluaciones conllevan
tes de resultados de pruebas deben proporcionar comparaciones de puntajes de pruebas a nivel in-
y explicar cualquier información complementaria ternacional, se debe proporcionar evidencia de la
que minimice posibles interpretaciones indebidas comparabilidad de los puntajes.
de los datos.
A menudo, los resultados de las pruebas para Estándar 13.7
la evaluación de programas o el análisis de políti-
cas se examinan bastante después de que se hayan Cuando se seleccionan pruebas para usarlas en
realizado las pruebas. Cuando este sea el caso, el contextos de evaluación o rendición de cuen-
usuario deberá investigar y describir el contexto tas, se deben describir claramente los usos pre-
en el cual se llevaron a cabo las pruebas. Factores vistos de los resultados y las consecuencias que
237

capítulo 13
se espera promover, junto con las precauciones imprevistas pueden incluir la enseñanza de ítems
contra usos inapropiados. de la prueba con antelación, la modificación de los
procedimientos de administración de la prueba, y
Comentario: En algunos contextos, como la eva-
la disuasión o exclusión de algunos examinandos
luación de un programa curricular específico, es
con respecto a la prueba. Estas prácticas pueden
posible que una prueba tenga un propósito limi-
llevar a la obtención de puntajes artificialmente
tado y no se destine a promover otros resultados
altos y que no reflejen el desempeño en el cons-
específicos distintos a informar la evaluación. En
tructo subyacente o el dominio de interés. Ade-
otros contextos, especialmente con sistemas de
más, estas prácticas podrían estar prohibidas por
rendición de cuentas basada en pruebas, el uso
ley. Los procedimientos de evaluación deben estar
de pruebas se suele justificar con el argumento de
diseñados para minimizar la probabilidad de tales
que mejorará la calidad de la educación al pro-
consecuencias, y los usuarios deben recibir orien-
porcionar información útil a los responsables de
tación y estímulo para abstenerse de prácticas ina-
tomar decisiones y crear incentivos para promo-
propiadas en la preparación para las pruebas.
ver un mejor desempeño por parte de educadores
Se pueden anticipar algunas consecuencias so-
y estudiantes. Este tipo de afirmaciones se debe-
bre la base de investigaciones anteriores y enten-
rán formular explícitamente cuando el sistema
der cómo responden las personas a los incentivos.
sea obligatorio o haya sido adoptado y, cuando
Por ejemplo, las investigaciones demuestran que
esté disponible, se deberá proporcionar evidencia
las pruebas de rendición de cuentas en educación
que respalde su validez. El diseño del programa
influyen en el plan de estudios y la instrucción
deberá incorporar la recopilación y el reporte de
al señalar lo que los estudiantes consideran im-
la evidencia del argumento de validez específico.
portante conocer y ser capaces de hacer. Esta in-
Un argumento determinado respecto de los be-
fluencia puede ser positiva si una prueba potencia
neficios del uso de la prueba, como la mejora del
la atención en resultados útiles de aprendizaje,
rendimiento de los estudiantes, podría estar res-
pero es negativa si restringe el plan de estudios en
paldado por razonamientos lógicos o teóricos, así
formas no previstas. Se deben estudiar y tener en
como por datos empíricos. Se deberá asignar el
cuenta los resultados de estas y otras consecuen-
peso debido a los hallazgos de la literatura cien-
cias negativas comunes, como el posible impacto
tífica que pueden ser incompatibles con el argu-
emocional en profesores y estudiantes (incluso
mento expuesto.
cuando los resultados de las pruebas se usan como
se tiene previsto) y el aumento de las tasas de
abandono. Se debe mantener la integridad de los
Estándar 13.8 resultados de las pruebas esforzándose en eliminar
las prácticas diseñadas para elevar los puntajes sin
Quienes encargan el uso de pruebas en contextos
mejorar el desempeño en el constructo o dominio
de políticas, evaluación o rendición de cuentas,
medido por la prueba. Además, la administración
y aquellos que usan pruebas en tales contextos,
de una medida de auditoría (es decir, otra medida
deben supervisar su impacto y deben identificar
del constructo sometido a prueba) podría detectar
y minimizar las consecuencias negativas.
una posible corrupción de los puntajes.
Comentario: El uso de pruebas en contextos de
políticas, evaluación y rendición de cuentas puede, Estándar 13.9
en algunos casos, acarrear consecuencias imprevis-
tas. Especialmente cuando hay una vinculación En contextos de evaluación o rendición de cuen-
con altos riesgos, quienes encargan las pruebas (así tas, los resultados de las pruebas se deben usar
como quienes usan los resultados) deben adoptar junto con información de otras fuentes cuando
medidas para identificar las consecuencias poten- el uso de la información adicional contribuya a
ciales imprevistas. Las consecuencias negativas la validez de la interpretación general.
238

Comentario: El desempeño en otros indicadores En el caso de modelos de valor añadido, algunos

distintos a las pruebas resulta casi siempre útil y, investigadores defienden la inclusión de caracterís-
en muchos casos, es esencial. Suele ser necesaria ticas demográficas del estudiante (p. ej., raza/origen
la descripción o el análisis de variables como los étnico, condición socioeconómica) como contro-
criterios de selección de clientes, las característi- les, mientras que otros trabajos sugieren que la in-
cas del cliente, el contexto y los recursos, a fin de clusión de esas variables no mejora el desempeño
proporcionar una imagen completa del programa de las medidas y pueden promover consecuencias
o política sometida a revisión y como ayuda para no deseadas como, por ejemplo, la percepción de
la interpretación de los resultados de la prueba. que se establecer estándares más bajos para unos
En contexto de rendición de cuentas, una deci- estudiantes que para otros. Las decisiones respecto
sión que tenga un gran impacto sobre un indivi- a qué variables incluir en tales modelos deberá estar
duo (como un profesor o proveedor de servicios informada por evidencia empírica relacionada con
de salud) u organización (como una escuela o los efectos de su inclusión o exclusión.
centro de tratamiento) deberá tener en conside- En contextos de políticas, un tipo adicional de
ración otra información pertinente además de los información pertinente para la interpretación de re-
puntajes de las pruebas. Ejemplos de esta infor- sultados es el grado de motivación de los examinan-
mación adicional que se podría incorporar en las dos. Es importante determinar si los examinandos
evaluaciones o sistemas de rendición de cuentas consideran seriamente las experiencias de evalua-
son las medidas de las prácticas de educadores o ción, sobre todo cuando los puntajes individuales no
proveedores de servicios de salud (p. ej., obser- se reportan a los examinandos o cuando los puntajes
vaciones en el aula, listas de comprobación) y no se asocian con consecuencias para los examinan-
medidas externas a la prueba de logros de los es- dos. Se deben documentar claramente los criterios
tudiantes (elección de cursos, asistencia al centro de decisión respecto a la inclusión o no de puntajes
educativo). de individuos con motivaciones cuestionables.
239

Glosario
Este glosario incluye definiciones de los términos prueba que ha sido traducido al idioma del grupo
tal como se emplean en el texto y los estándares. de destino y que tiene en cuenta los matices del
Muchos de estos términos presentan diversas defi- idioma y la cultura de ese grupo.
niciones en la literatura relacionada; asimismo, el
adecuación/adecuaciones de la prueba: Ajus-
uso técnico puede diferir del uso común.
tes que no alteran el constructo evaluado y que
accesibilidad: Grado en que los ítems o tareas de se aplican a la presentación, el entorno, el con-
una prueba permiten al máximo número posible tenido, el formato (incluyendo el formato de las
de examinandos demostrar su situación respecto respuestas) o las condiciones de administración de
del constructo de destino sin que lo impidan las la prueba para examinandos específicos, y que se
características del ítem irrelevantes para la medi- incorporan en las evaluaciones o se aplican des-
ción del constructo. Una prueba con una alta cla- pués de diseñar la evaluación. Las pruebas o eva-
sificación en este criterio se considera una prueba luaciones con este tipo de adecuaciones (así como
accesible. sus puntajes) se consideran pruebas o evaluacio-
nes adaptadas. Los puntajes adaptados deben ser
aceleración: Grado de dependencia de los pun-
suficientemente comparables a los puntajes no
tajes de los examinandos respecto de la velocidad
adaptados de manera que puedan agregarse.
a la que se ejecuta una tarea, así como de la exac-
titud de las respuestas. El término no se usa para algoritmos patentados: Procedimientos (a me-
describir pruebas de velocidad. nudo, código informático) usados por editores
comerciales o desarrolladores de pruebas que no
acreditación: Otorgar una credencial autorizada
se divulgan al público por motivos comerciales.
a una persona (por ejemplo, un certificado, una
licencia o diploma) que denota un nivel aceptable alineación: Grado en que el contenido o las de-
de desempeño en un determinado dominio de co- mandas cognitivas de las preguntas de la prueba
nocimiento o actividad. se corresponden con el contenido o las demandas
aculturación: Proceso relacionado con la adqui- cognitivas objetivo descritas en las especificacio-
sición de conocimientos y artefactos culturales, nes de la prueba.
evolutivo por naturaleza y dependiente del tiempo análisis de empleo: Investigación de los puestos
de exposición y la oportunidad de aprendizaje. o clases de trabajo para obtener información so-
adaptación/adaptación de prueba: 1. Cualquier bre los deberes y tareas, las responsabilidades, las
cambio que se realice en el contenido, el formato características requeridas (p. ej., conocimientos,
(incluyendo el formato de las respuestas) o las con- capacidades y competencias), las condiciones la-
diciones de administración con la finalidad de au- borales u otros aspectos del trabajo. Véase análisis
mentar la accesibilidad de la prueba para personas práctico.
que, de otro modo, se enfrentarían a obstáculos análisis de factores: Cualquiera de los métodos
irrelevantes de constructo en la prueba original. estadísticos para describir las interrelaciones de
Una adaptación puede cambiar o no el significado un conjunto de variables mediante la derivación
del constructo que se mide o alterar las interpre- estadística de nuevas variables, denominadas fac-
taciones del puntaje. Una adaptación que cambia tores, menos numerosas que el conjunto original
el significado del puntaje se denomina modifica- de variables.
ción; una adaptación que no cambia el significado
del puntaje se denomina adecuación (consulte las análisis laboral: Investigación de una deter-
definiciones en este glosario). 2. Cambio en una minada ocupación o profesión para obtener
241

Glosario
información descriptiva sobre las actividades y ciencia cognitiva: Estudio interdisciplinario del
responsabilidades de la ocupación o profesión, aprendizaje y el procesamiento de la información.
y sobre los conocimientos, habilidades y capa-
ciencia del comportamiento: Disciplina cien-
cidades necesarias para desempeñar con éxito
tífica, como la sociología, la antropología o la
esa ocupación o profesión. Véase análisis de
psicología, que estudia las acciones y reacciones
empleo.
de seres humanos y animales a través de métodos
argumento de validez: Justificación explícita del observacionales y experimentales.
grado en que la evidencia acumulada y la teoría
coeficiente alfa: Coeficiente de confiabilidad
respaldan una interpretación propuesta de los
de coherencia interna basada en el número de
puntajes para el uso previsto.
partes en que se divide una prueba (p. ej., ítems,
batería: Conjunto de pruebas que normalmente subpruebas o calificadores), las interrelaciones
se administran como una unidad. Por lo general, de las partes y la varianza del puntaje total de la
los puntajes de las pruebas se escalan de manera prueba. También denominado Alfa de Cronbach
que se puedan comparar o usar fácilmente en y, para ítems dicotómicos, KR-20. Véase coefi-
combinación para la toma de decisiones. ciente de coherencia interna, coeficiente de
confiabilidad.
bilingüe/multilingüe: Tener un nivel de compe-
tencia en dos o más idiomas. coeficiente de coherencia interna: Índice de
calibración: 1. En vinculación de puntajes de confiabilidad de los puntajes de las pruebas de-
pruebas, el proceso de relacionar los puntajes de rivado de las interrelaciones estadísticas entre las
una prueba con los puntajes de otra prueba que respuestas a los ítems o los puntajes de diferentes
difieren en confiabilidad/precisión respecto de la partes de una prueba. Véase coeficiente alfa, coefi-
primera prueba, de manera que tengan el mismo ciente de confiabilidad dividido.
significado relativo para un grupo de examinan- coeficiente de confiabilidad dividido: Coefi-
dos. 2. En teoría de respuesta al ítem, el proceso ciente de coherencia interna que se obtiene del
de estimación de los parámetros de la función de uso de la mitad de los ítems de una prueba para
respuesta al ítem. 3. En calificación de las tareas generar un puntaje y de la otra mitad para generar
de respuestas construidas, los procedimientos usa- un segundo puntaje independiente. Véase coefi-
dos durante la capacitación y la calificación para ciente de coherencia interna, coeficiente alfa.
conseguir un nivel deseado de conformidad de la
persona que otorga el puntaje. coeficiente de confiabilidad test-retest: Coefi-
ciente de confiabilidad obtenido mediante la
capacidad de evaluación: Conocimientos sobre administración de la misma prueba por segunda
las evaluaciones que respaldan las interpretaciones vez al mismo grupo después de un intervalo de
válidas de los puntajes de prueba para los fines tiempo y correlacionando los dos conjuntos
previstos, por ejemplo, conocimientos sobre prác- de puntajes; por lo general, se usa como medida
ticas de desarrollo de una prueba, interpretaciones de estabilidad de los puntajes. Véase estabilidad.
de los puntajes de una prueba, riesgos para las in-
terpretaciones válidas de los puntajes, confiabili- coeficiente de confiabilidad: Indicador sin
dad y precisión de los puntajes, administración de unidades que refleja el grado en que los puntajes
la prueba, etc. están libres del error de medida aleatorio. Véase
teoría de generabilidad.
certificación: Proceso mediante el cual se reco-
noce (o certifica) que las personas han demos- coeficiente de generabilidad: Índice de confia-
trado un determinado nivel de conocimientos y bilidad/precisión basado en la teoría de generabili-
capacidades en un dominio específico. Véase lidad (teoría G). Un coeficiente de generabilidad es
cencia, acreditación. la relación de la varianza del puntaje del universo
242

Glosario
con respecto a la varianza del puntaje observado, confiabilidad/precisión: Grado de coherencia

donde la varianza del puntaje observado es igual a de los puntajes de una prueba para un grupo de
la varianza del puntaje del universo más la varianza examinandos a través de aplicaciones repetidas de
de error total. Véase teoría de generabilidad. un procedimiento de medida y que, por consi-
guiente, permite deducir la confiabilidad y cohe-
comparabilidad/comparabilidad de puntaje:
rencia para un examinando individual; grado en
En vinculación de pruebas, grado de comparabi-
que los puntajes están libres de errores aleatorios
lidad del puntaje que se deriva de la aplicación de
de medida para un grupo determinado. Véase teo-
un procedimiento de vinculación. La comparabi-
ría de generabilidad, teoría clásica de los tests,
lidad del puntaje varía a lo largo de un continuum
precisión de medida.
que depende del tipo de vinculación efectuado.
Véase formularios alternativos, equiparación, conjunto de ítems/banco de ítems: Colección o
vinculación, moderación, proyección, escala- grupo de ítems a partir del cual se seleccionan los
miento vertical. ítems de una prueba o escala de prueba durante el
desarrollo de una evaluación, o el conjunto total
componentes de varianza: Acumulación de va-
de ítems a partir del cual se selecciona un subcon-
rianzas de fuentes constituyentes independientes
junto concreto para un examinando durante una
que, en teoría, contribuyen a la varianza global de
prueba adaptable.
los puntajes observados. Tales varianzas, estimadas
mediante métodos de análisis de varianza, suelen consecuencias: Resultados, previstos o imprevis-
reflejar la situación, la ubicación, el tiempo, el for- tos, del uso de las pruebas de manera concreta, en
mulario de la prueba, el evaluador y otros efectos determinados contextos y con ciertas poblaciones.
relacionados. Véase teoría de generabilidad.
consentimiento informado: Autorización de
concordancia/coherencia entre los evaluado- una persona, o del representante legal de una per-
res: Nivel de coherencia con el que dos o más sona, para la ejecución de un procedimiento en o
evaluadores califican el trabajo o desempeño de por esa persona, por ejemplo, la realización de una
los examinandos. Véase confiabilidad entre los prueba o la cumplimentación de un cuestionario.
evaluadores.
constructo: Concepto o característica para cuya
concordancia: En vinculación de puntajes de medición se diseña una prueba.
pruebas para las pruebas que miden constructos
similares, proceso de relacionar el puntaje de una contenido estándar: En evaluación educativa,
prueba con el puntaje de otra, de manera que los una declaración del contenido y las competen-
puntajes tengan el mismo significado relativo para cias que se espera que adquieran los estudiantes
un grupo de examinandos. en una asignatura; con frecuencia, en un grado
concreto o al término de un nivel determinado de
confiabilidad de los evaluadores: Nivel de cohe- escolarización,
rencia entre las repeticiones de un solo evaluador
en la calificación de las respuestas de los examinan- curva característica de ítem (ICC, por sus
dos. Las incoherencias en el proceso de calificación siglas en inglés): Función matemática que re-
que se derivan de influencias que son internas res- laciona la probabilidad de una determinada res-
pecto del evaluador y no de diferencias verdadera puesta de ítem (por lo general, una respuesta
en el desempeño de los examinandos, dan como correcta) con el nivel del atributo medido por el
resultado una baja confiabilidad de los evaluadores. ítem. También denominada curva de respuesta al
ítem o función de respuesta al ítem.
confiabilidad entre los evaluadores: Nivel de
coherencia en el orden de clasificación de las desarrollador de la prueba: Personas u orga-
calificaciones entre los evaluadores. Véase concor- nizaciones responsables del diseño y la cons-
dancia/coherencia entre los evaluadores. trucción de una prueba y de la documentación
243

Glosario
respecto de la calidad técnica para una finalidad dominio de contenido: Conjunto de comporta-
prevista. mientos, conocimientos, capacidades, competen-
cias, actitudes u otras características que medirá
desarrollo de la prueba: Proceso a través del
una prueba, descrito en las especificaciones de-
cual se planifica, construye, evalúa y modifica una
talladas de la prueba y que se suele organizar en
prueba, incluyendo la consideración del conte-
categorías clasificatorias de ítems.
nido, formato, administración, puntaje, propie-
dades de los ítems, escalamiento y calidad técnica dominio de criterios: Dominio de constructo de
para la finalidad prevista. una variable que se usa como criterio. Véase do-
minio de criterios.
descriptor de nivel de desempeño: Descripcio-
nes de lo que los examinandos saben y pueden editor de la prueba: Entidad, persona, organiza-
hacer en niveles específicos de desempeño. ción u organismo que produce o distribuye una
prueba.
diseño de la prueba: Proceso de desarrollo de
especificaciones detalladas sobre el objeto de me- efecto de contexto de ítem: Influencia de la
dición de una prueba y sobre el contenido, nivel posición del ítem, otros ítems administrados, los
cognitivo, formato y tipos de ítems que se van a límites de tiempo, las condiciones de administra-
utilizar. ción, etc., en la dificultad de un ítem y en otras
características estadísticas de un ítem.
diseño universal: Método de evaluación del de-
sarrollo que intenta maximizar la accesibilidad de equiparación: Proceso de relacionar los punta-
una prueba para todos los examinandos a los que jes de formularios alternativos de una prueba de
se dirige. manera que tengan básicamente el mismo signi-
ficado. Por lo general, los puntajes equiparados se
distrito escolar: Organismo educativo local ad- reportan sobre una escala de puntaje común.
ministrado por un consejo público de autoridades
educativas o de otro tipo que supervisa las escue- equivalencia de constructo: 1. Grado en que un
las públicas de educación primaria y secundaria constructo medido por una prueba es básicamente
en una subdivisión política estatal. el mismo que el constructo medido por otra
prueba. 2. Grado en el que un constructo medido
documentación: Conjunto de publicaciones por una prueba en un grupo cultural o lingüístico
(p. ej., manuales de la prueba, manuales com- es comparable al constructo medido por la misma
plementarios, reportes de investigación, guías de prueba en otro grupo cultural o lingüístico.
usuario) desarrolladas por el autor, desarrollador,
usuario o editor de la prueba como ayuda para error aleatorio: Error no sistemático; un com-
las interpretaciones de los puntajes para el uso ponente de los puntajes de pruebas que parece no
previsto. tener relación con otras variables.
documentos de la prueba: Documentos como error de medida: Diferencia entre un puntaje ob-
manuales de la prueba, manuales técnicos, guías servado y el puntaje verdadero correspondiente.
de usuario, conjuntos de muestras e instruccio- Véase error estándar de medida, error sistemático,
nes para los administradores y evaluadores de la error aleatorio, error verdadero.
prueba, que proporcionan información para eva- error estándar de medida condicional: Desvia-
luar la idoneidad y pertinencia técnica de una ción estándar de los errores de medida que afecta
prueba para la finalidad prevista. a los puntajes de los examinandos en un nivel es-
pecífico de puntaje de prueba.
dominio de constructo: Conjunto de atributos
interrelacionados (por ej., comportamiento, acti- error estándar de medida: Desviación estándar
tudes, valores) que se incluyen bajo una etiqueta de los puntajes observados de un individuo en
de constructo. administraciones repetidas de una prueba (o de
244

Glosario
formularios paralelos de una prueba) bajo condi- estabilidad: Grado de invariabilidad a lo largo
ciones idénticas. Debido a que, en general, tales del tiempo de los puntajes de una prueba, eva-
datos no se pueden recopilar, el error estándar luado mediante la correlación de los puntajes de
de medida se suele estimar a partir de datos de un grupo de individuos con los puntajes de la
grupo. Véase error de medida. misma prueba o de una prueba equiparada reali-
zada por el mismo grupo en un momento poste-
error sistemático: Error que incrementa o re-
rior. Véase coeficiente de confiabilidad test-retest.
duce de manera sistemática los puntajes de to-
dos los examinandos o de algunos subconjuntos estándares alternos o alternativos: Estánda-
de examinandos, pero que no está relacionado res de contenido y desempeño en evaluaciones
con el constructo que la prueba intenta medir. educativas para estudiantes con discapacidades
Véase sesgo. cognitivas.
escala: 1. Sistema numérico, y sus unidades, estándares de desempeño: Descripciones de ni-
mediante el cual se reporta un valor en una de- veles de adquisición de conocimientos y capacida-
terminada dimensión de medida. 2. En prue- des incluidos en los estándares de contenido, tal
bas, conjunto de ítems o subpruebas usadas como se articulan a través de las etiquetas de nivel
para medir una característica específica (p. ej., de desempeño (p. ej., “básico,” “competente”,
una prueba de habilidad verbal o una escala de “avanzado”); enunciados de lo que los examinan-
extroversión-introversión). dos saben y pueden hacer en diferentes niveles
escalamiento vertical: En vinculación de prue- de desempeño; y puntajes de corte o rangos de
bas, proceso de relacionar puntajes de pruebas puntajes en la escala de una evaluación que di-
que miden el mismo constructo pero difieren en ferencia niveles de desempeño. Véase puntaje de
dificultad. En general, se usa con las pruebas de corte, nivel de desempeño, descriptor de nivel de
rendimiento y capacidad con contenido o dificul- desempeño.
tad que abarca una variedad de grados y niveles estándares de rendimiento: Véase estándares de
de edad. desempeño.
escalamiento: Proceso de creación de una escala estandarización: 1. En administración de prue-
o un puntaje de escala para mejorar la interpreta- bas, mantener un entorno de evaluación cohe-
ción de los puntajes de una prueba a través de la rente y llevar a cabo las pruebas de acuerdo con
colocación de los puntajes de diferentes pruebas o reglas y especificaciones detalladas, de manera
formularios en una escala común, o mediante la que las condiciones de evaluación sean las mis-
generación de puntajes de escala diseñados para mas para todos los examinandos en una o varias
respaldar las interpretaciones. Véase escala. ocasiones. 2. En desarrollo de pruebas, establecer
especificaciones de la prueba: Documentación una escala de presentación de reportes usando
de la finalidad y los usos previstos de una prueba, normas basadas en el desempeño en las pruebas
así como del contenido, formato, duración, ca- de una muestra representativa de individuos de
racterísticas psicométricas (de los ítems o de la la población sobre la que se prevé se aplicará la
prueba en general), modo de ejecución, admi- prueba.
nistración, puntaje y reportes de puntajes de una
estrategias de ejecución de una prueba: Estra-
prueba.
tegias que los examinandos pueden usar cuando
especificidad: En clasificación, diagnóstico y se- realizan una prueba con el fin de mejorar su des-
lección, proporción de casos que se evalúan como empeño (p. ej., la gestión del tiempo o la elimi-
no satisfactorios o que se prevé no satisfagan los nación de las opciones claramente erróneas en
criterios y los que, en realidad, no satisfacen los una pregunta de respuestas múltiples) antes de
criterios. responder a la pregunta.
245

Glosario
estructura interna: En análisis de pruebas, la es- instrucción y que proporciona información para
tructura factorial de las respuestas a los ítems o adaptar la enseñanza y el aprendizaje en curso con
subescalas de una prueba. el objetivo de mejorar el rendimiento de los estu-
diantes en los resultados educativos previstos.
estudiante de lengua inglesa (ELL, por sus
siglas en inglés): Persona que aún no ha alcan- evaluación neuropsicológica: Tipo especia-
zado un nivel de competencia en inglés. Un ELL lizado de evaluación psicológica de procesos
puede ser una persona cuya lengua materna no normales o patológicos que afectan al sistema
es el inglés, alguien perteneciente a una minoría nervioso central y a las funciones o disfunciones
lingüística que empieza el aprendizaje del inglés, psicológicas y conductuales resultantes.
o una persona que ha desarrollado una compe-
evaluación psicológica: Examen del funciona-
tencia considerable en este idioma. Los términos
miento psicológico que comporta la recopilación,
relacionados incluyen estudiante de inglés (EL),
evaluación e integración de resultados de pruebas
competencia limitada en inglés (LEP), inglés
e información colateral, y la presentación de re-
como segunda lengua (ESL) y cultural y lingüísti-
portes sobre un individuo.
camente diverso.
evaluación sumativa: Evaluación de los cono-
estudio de políticas: Estudio que contribuye a
cimientos y capacidades de un examinando que,
la evaluación de los planes, principios o procedi-
por lo general, se realiza al finalizar un programa
mientos dictados para conseguir objetivos públi-
de aprendizaje, por ejemplo, al terminar una uni-
cos generales.
dad educativa.
evaluación basada en estándares: Evaluación de
evaluación vocacional: Tipo especializado de
la situación de un individuo con respecto a un
evaluación psicológica diseñada para generar hi-
contenido descrito sistemáticamente y a estánda-
pótesis e inferencias sobre los intereses, las ne-
res de desempeño.
cesidades laborales, el desarrollo profesional, la
evaluación cognitiva: Proceso de recolección madurez vocacional y la indecisión.
sistemática de puntajes de pruebas y datos rela-
evaluación: Método sistemático de obtención
cionados con la finalidad de formular un juicio
de información, usado para formular deduccio-
sobre la competencia de una persona para realizar
nes sobre las características de personas, objetos
diversas actividades mentales requeridas para el
o programas; proceso sistemático para medir o
procesamiento, adquisición, retención, concep-
evaluar las características o el desempeño de in-
tualización y organización de información sen-
dividuos, programas u otras entidades con la fi-
sorial, perceptual, verbal, espacial y psicomotora.
nalidad de hacer inferencias; en ocasiones se usa
evaluación de capacidad: Uso de pruebas para como sinónimo de prueba.
evaluar el desempeño actual de una persona en
evaluaciones alternativas/pruebas alternativas:
dominios definidos del funcionamiento cogni-
Evaluaciones o pruebas usadas para evaluar el des-
tivo, psicomotor o físico.
empeño de estudiantes en contextos educativos
evaluación del programa: Recolección y síntesis que no les permiten participar en evaluaciones es-
de evidencias sobre el uso, el funcionamiento y tandarizadas de rendición de cuentas, ni siquiera
los efectos de un programa; conjunto de proce- con adecuaciones. Por lo general, las evaluaciones
dimientos usados para formular juicios sobre el o pruebas alternativas miden el rendimiento res-
diseño, la implementación y los resultados de un pecto de estándares de contenido alternativos.
programa.
evaluaciones de desempeño: Evaluaciones en
evaluación formativa: Un proceso de evaluación las cuales el examinando demuestra realmente
usado por los profesores y estudiantes durante la las capacidades que la prueba pretende medir
246

Glosario
mediante la ejecución de las tareas que requieren evidencia local: Evidencia (por lo general, rela-
esas capacidades. cionada con la confiabilidad/precisión o validez)
recogida en una prueba específica y un conjunto
evaluaciones de referencia: Evaluaciones admi-
específico de examinandos, en una sola institu-
nistradas en contextos educativos a horas espe-
ción o en una ubicación específica.
cificadas durante una secuencia curricular, a fin
de evaluar los conocimientos y habilidades de factor: Cualquier variable, real o hipotética, que
los estudiantes relacionados con un conjunto ex- sea un aspecto de un concepto o constructo.
plícito de objetivos de aprendizaje a largo plazo.
Véase evaluaciones o pruebas provisionales. falso negativo: Error de clasificación, diagnós-
tico o selección que conduce a determinar que
evaluaciones o pruebas provisionales: Evalua- un individuo no cumple el estándar basándose en
ciones administradas durante la instrucción para una evaluación para la inclusión en un grupo con-
evaluar los conocimientos y capacidades de los creto, cuando en realidad sí cumple ese estándar
estudiantes relacionados con un conjunto especí- (o lo cumpliría en ausencia del error de medida).
fico de objetivos académicos, con la finalidad de Véase sensibilidad, especificidad.
informar las decisiones del responsable de las po-
líticas o del educador en el nivel de aula, escuela o falso positivo: Error de clasificación, diagnóstico
distrito. Véase evaluaciones de referencia. o selección que conduce a determinar que un in-
dividuo cumple el estándar basándose en una eva-
evidencia de convergencia: Evidencia basada en
luación para la inclusión en un grupo concreto,
la relación entre los puntajes de la prueba y otras
cuando en realidad no cumple ese estándar (o no
medidas del mismo constructo o de un cons-
lo cumpliría en ausencia del error de medida).
tructo relacionado.
Véase sensibilidad, especificidad.
evidencia de validación predictiva: Eviden-
fijación de estándar: Proceso (a menudo basado
cia que indica la precisión con que los datos de
en juicios) de fijación de puntajes de corte usando
prueba recolectados en un determinado mo-
un procedimiento estructurado que intenta asig-
mento pueden predecir los puntajes de criterios
nar puntajes de pruebas a niveles discretos de
que se obtienen en un momento posterior.
desempeño que, por lo general, se especifican me-
evidencia de validación relacionada con el diante descriptores de nivel de desempeño.
contenido: Evidencia basada en el contenido de
la prueba y que respalda la interpretación prevista formato de respuesta: Mecanismo que usa un
de los puntajes de la prueba para un propósito examinando para responder a un ítem, por ejem-
determinado. Esta evidencia puede abordar ámbi- plo, selección en una lista de opciones (pregunta
tos como la fidelidad del contenido de la prueba de opciones múltiples) o la presentación de una
para actuar en el dominio en cuestión y el grado respuesta escrita (respuesta de rellenado o escrita
en el cual el contenido de una prueba muestra de a una pregunta de respuesta abierta o construida);
forma representativa un dominio, por ejemplo, respuesta oral o desempeño físico.
un plan de estudios o un trabajo. formato/modo de prueba: Forma de presenta-
evidencia discriminante: Evidencia que indica ción del contenido de la prueba al examinando:
si dos pruebas interpretadas como medidas de con papel y lápiz, por computadora, por Internet
diferentes constructos son suficientemente inde- u oralmente con un examinador.
pendientes (no correlacionadas) y que miden real-
formulario de la prueba: Conjunto de ítems o
mente dos constructos distintos.
ejercicios de una prueba que cumple los requisi-
evidencia empírica: Evidencia basada en datos, tos de las especificaciones de un programa de eva-
en contraposición a las evidencias basadas en la luación. Muchos programas de evaluación usan
lógico o la teoría. formularios alternativos, generados de acuerdo
247

Glosario
con las mismas especificaciones, pero con parte misma situación respecto de la característica eva-
o la totalidad de los ítems adaptados de manera luada por una prueba, no tienen el mismo pun-
exclusiva para cada formulario. Véase formularios taje de prueba esperado.
alternativos.
funcionamiento diferencial de los ítems (DIF,
formularios alternativos: Dos o más versiones por sus siglas en inglés): Para un ítem especí-
de una prueba que se consideran intercambiables, fico de una prueba, un indicador estadístico del
en el sentido de que miden los mismos construc- grado en que diferentes grupos de examinandos
tos de la misma forma, tienen el mismo conte- que están en el mismo nivel de capacidad tienen
nido y las mismas especificaciones estadísticas, diferentes frecuencias de respuestas correctas o,
y se administran bajo las mismas condiciones, en algunos casos, diferentes índices de elección de
usando las mismas instrucciones. Véase formula- distintas opciones de ítems.
rios equivalentes, formularios paralelos.
generalización de validez: Aplicación de las evi-
formularios equiparados: Formularios alterna- dencias de validez obtenidas en una o más situa-
tivos de una prueba cuyas puntuaciones se han ciones a otras situaciones similares sobre la base
relacionado a través de un proceso estadístico, de métodos como el meta análisis.
conocido como equiparación, que permite escalar
los puntajes de formularios equiparados para que guía de usuario: Publicación preparada por los
se puedan usar indistintamente. desarrolladores o editores de la prueba para pro-
porcionar información sobre la finalidad, los usos
formularios equivalentes: Véase formularios al- apropiados, la correcta administración, los pro-
ternativos, formularios paralelos. cedimientos de puntaje, los datos normativos, la
formularios paralelos: En teoría clásica de los interpretación de resultados y los estudios de caso
tests, formularios de prueba estrictamente para- de una prueba. Véase manual de la prueba.
lelos que, en teoría, miden el mismo constructo y imparcialidad: Validez de las interpretaciones
tiene los mismos significados y las mismas desvia- del puntaje de una prueba para el uso previsto y
ciones estándar en la población de interés. Véase para individuos de todos los subgrupos pertinen-
formularios alternativos. tes. Una prueba equitativa minimiza la varianza
fraude negativo: Exagerar o falsificar las respues- irrelevante de constructo asociada con las carac-
tas a ítems de la prueba en un intento de aparen- terísticas individuales y los contextos de la prueba
tar deficiencias. que, de otro modo, comprometerían la validez de
los puntajes para algunos individuos.
fraude positivo: Exagerar o falsificar las res-
puestas a ítems de la prueba en un intento de indicación/indicación de ítem/indicación es-
presentarse a sí mismo de manera excesivamente crita: Pregunta, estímulo o instrucción que sus-
positiva. cita la respuesta de un examinando.
función de información de prueba: Función indicador: Marca adjuntada al puntaje de una
matemática que relaciona cada uno de los niveles prueba, a un ítem o a otra entidad para indicar una
de una capacidad o rasgo latente, tal como se de- condición especial. En general, un puntaje de prueba
fine en la teoría de respuesta al ítem (IRT), con el con indicador significa que el puntaje se obtuvo a
recíproco de la varianza de error de medida con- partir de una prueba modificada, con el consiguiente
dicional correspondiente. cambio en el constructo subyacente medido por la
prueba. Es posible que los puntajes con indicador no
funcionamiento diferencial de la prueba (DTF,
sean comparables a los puntajes sin indicador.
por sus siglas en inglés): Desempeño individual
en la prueba o nivel de dimensión que indica que índice de rendición de cuentas: Número o
individuos de diferentes grupos que tienen la etiqueta que refleja un conjunto de reglas para
248

Glosario
la combinación de puntajes y otros datos con la se consideran como atributos psicológicos o ten-
finalidad de extraer conclusiones e informar el dencias interpersonales.
proceso de toma de decisiones en un sistema de
inventario: Cuestionario o lista de comprobación
rendición de cuentas.
que obtiene información sobre las opiniones, in-
reporte interpretativo preparado por com- tereses, actitudes, preferencias, características per-
putadora: Interpretación programada de los re- sonales, motivaciones o reacciones típicas de un
sultados de un examinando basada en los datos individuo ante situaciones y problemas.
empíricos y/o en el juicio de un experto, y que
ítem: Enunciado, pregunta, ejercicio o tarea de
utiliza varios formatos como narraciones, tablas
una prueba en el que el examinando debe selec-
y gráficos. En ocasiones se le denomina puntaje
cionar o construir una respuesta, o realizar una
automatizado o informe narrativo.
tarea. Véase indicación.
infrarrepresentación de constructo: Grado
ítems de anclaje: Ítems administrados con cada
en el cual una prueba no logra capturar aspec-
uno de dos o más formularios alternativos de una
tos importantes del dominio de constructo que
prueba con la finalidad de equiparar los puntajes
se pretende medir, lo que se traduce en punta-
obtenidos en estos formularios alternativos.
jes de prueba que no representan totalmente ese
constructo. ítems, tareas o ejercicios de respuesta cons-
truida: Ítems, tareas o ejercicios cuyas respuestas
interpretación de puntaje conforme a criterios:
o productos propios deben crear los examinandos,
Significado de un puntaje de prueba para un indi-
en lugar de elegir una respuesta de un conjunto
viduo (o de un puntaje promedio para un grupo
definido. Los ítems de respuestas cortas requieren
definido) que indica el nivel de desempeño de los
como respuesta unas pocas palabras o un número;
individuos o grupos en relación con un dominio
los ítems de respuestas extendidas requieren al
de criterios definido. Ejemplos de interpretacio-
menos unas pocas frases y pueden incluir diagra-
nes conforme a criterios incluyen comparaciones
mas, pruebas matemáticas, ensayos o soluciones
para puntajes de corte, interpretaciones basadas
de problemas como, por ejemplo, reparaciones de
en tablas de expectativas e interpretaciones de
red u otros productos de trabajo.
puntaje conforme a dominios. Compárese con
interpretación de puntaje conforme a normas. laboratorio cognitivo: Método de estudio de
los procesos cognitivos que los examinandos usan
interpretación de puntaje conforme a normas:
cuando llevan a cabo tareas como, por ejemplo,
Interpretación de puntaje basada en una compa-
resolver un problema matemático o interpretar
ración del desempeño de un examinando con la
un texto, y que por lo general comporta que el
distribución del desempeño en una población de
examinando piense en voz alta mientras responde
referencia definida. Compárese con interpreta-
la tarea o responda a preguntas de entrevista des-
ción de puntaje conforme a criterios.
pués de realizar la tarea.
intérprete: Alguien que facilita la comunicación
licencia: Concesión (por lo general, por parte de
intercultural mediante la conversión de conceptos
una agencia gubernamental) de autorización o
de un idioma a otro (incluyendo el lenguaje de
permiso legal para la práctica de una ocupación o
signos).
profesión. Véase certificación, acreditación.
intervalo de confianza: Intervalo en el cual es-
manual de la prueba: Publicación preparada por
tará incluido el parámetro de interés con una pro-
los desarrolladores o editores de la prueba para
babilidad especificada.
proporcionar información sobre la administra-
inventario de personalidad: Inventario que ción, el puntaje y la interpretación de la prueba,
mide una o más características que, por lo general, y para facilitar datos técnicos seleccionados sobre
249

Glosario
las características de la prueba. Véase guía de modificación/modificación de prueba: Cam-

usuario, manual técnico. bio en el contenido de la prueba, el formato
(incluido los formatos de las respuestas) o las con-
manual técnico: Publicación preparada por los
diciones de administración, y que se aplica para
desarrolladores o editores de la prueba para facili-
aumentar la accesibilidad de algunas personas,
tar información técnica o psicométrica sobre una
pero que también afecta al constructo medido y,
prueba.
en consecuencia, a los resultados de los puntajes
medición de desempeño laboral: Medición del que difieren en significado de los puntajes de eva-
desempeño laboral observado del titular de un luaciones no modificadas.
cargo, evaluado mediante una prueba de trabajo,
monitor: En administración de pruebas, la per-
una evaluación de conocimientos o calificaciones
sona responsable de supervisar el proceso de la
del desempeño real en el trabajo del titular. Véase
prueba y de implementar los procedimientos de
prueba de trabajo.
administración de la prueba.
meta-análisis: Método estadístico de investi-
muestra aleatoria estratificada: Conjunto de
gación en el cual se combinan los resultados de
muestras aleatorias, cada una de tamaño definido,
estudios comparables e independientes para de-
que provienen de diferentes conjuntos considera-
terminar la dimensión de un efecto global o el
dos como estratos de una población. Véase mues-
grado de relación entre dos variables.
tra aleatoria, muestra.
modelos de crecimiento: Modelos estadísticos
muestra aleatoria: Selección a partir de una
que miden el progreso de los estudiantes en las
población definida de entidades según un pro-
pruebas de rendimiento mediante la comparación
ceso aleatorio, con la selección de cada entidad
de los puntajes de los mismos estudiantes a lo
independiente de la selección de otras entidades.
largo del tiempo. Véase modelos de valor añadido.
Véase muestra.
modelos de valor añadido: Estimación de la
muestra: Selección de un número definido de en-
contribución de las escuelas o profesores indivi-
tidades, denominadas unidades de muestreo (exa-
duales al desempeño de los estudiantes a través
minandos, ítems, etc.), a partir de un conjunto
de técnicas estadísticas complejas que usan datos
especificado más grande de entidades posibles,
de resultados de varios años, los cuales suelen ser
denominado población. Véase muestra aleatoria,
puntajes de pruebas estandarizados. Véase mode-
muestra aleatoria estratificada.
los de crecimiento.
muestreo de dominio o contenido: Proceso de
moderación: Proceso de relacionar puntajes de
selección sistemática de ítems de prueba para re-
pruebas diferentes de manera que los puntajes
presentar el conjunto total de ítems que miden
tengan el mismo significado relativo.
un dominio.
modificación de prueba: Cambios hechos en el
muestreo de matriz: Formato de medición en
contenido, formato o procedimiento de adminis-
el que un gran conjunto de ítems de una prueba
tración de una prueba para aumentar la accesibi-
se organiza en un número de conjuntos de ítems
lidad de la prueba para los examinandos que no
relativamente pequeños, cada uno de los cuales se
pueden realizar la prueba original bajo condicio-
asigna aleatoriamente a una submuestra de exami-
nes estándar. A diferencia de las adecuaciones de
nandos, evitando así la necesidad de administrar
las pruebas, las modificaciones cambian en cierto
todos los ítems a todos los examinandos. No se
grado el constructo que mide la prueba y, por lo
presume la equivalencia de los conjuntos de ítems
tanto, cambian las interpretaciones del puntaje.
pequeños o subconjuntos.
Véase adaptación/adaptación de prueba, modifi-
cación/modificación de prueba. Compárese con nivel de desempeño: Etiqueta o breve enunciado
adecuación/adecuaciones de prueba. que clasifica la competencia del examinando en
250

Glosario
un dominio concreto, por lo general, definido por de exposición o de experiencia con el idioma o
un rango de puntajes de una prueba. Por ejemplo, la cultura mayoritaria requeridos para entender la
etiquetas como “básico” a “avanzado” o “princi- prueba.
piante” a “experto” constituyen rangos generales
orientación: Actividades de instrucción planifica-
para la clasificación de la destreza. Véase niveles
das a corto plazo para los posibles examinandos, fa-
de rendimiento, puntaje de corte, descriptor de
cilitadas antes de la administración de la prueba con
nivel de desempeño, fijación de estándar.
el propósito principal de mejorar sus puntajes en las
nivel de participación: Grado en el que un exa- pruebas. Por lo general, las actividades que aproxi-
minando participa de forma apropiada en la eje- man la instrucción proporcionada por los planes de
cución de la prueba. estudio escolar o los programas de capacitación or-
dinarios no se suelen considerar orientación.
niveles de rendimiento/niveles de destreza:
Descripción de los niveles de competencia de parámetro de capacidad: En teoría de respuesta
los examinandos en un área específica de cono- al ítem (IRT, por sus siglas en inglés), valor teórico
cimientos o capacidad; por lo general, se define que indica el nivel de un examinando respecto de
en términos de categorías ordenadas en un con- la capacidad o rasgo medido por la prueba; aná-
tinuum, por ejemplo, de “básico” a “avanzado,” logo al concepto de puntaje verdadero en la teoría
o “principiante” a “experto”. Las categorías cons- clásica de los tests.
tituyen rangos generales para la clasificación del
percentil: Puntaje de una prueba por debajo del
desempeño. Véase puntaje de corte.
cual se produce un porcentaje determinado de
normas de usuario: Estadísticas descriptivas (in- puntajes para una población específica.
cluyendo los rangos de percentil) para un grupo
población de referencia: Población de exami-
de examinandos que no representa una población
nandos con la que se comparan los examinandos
de referencia bien definida, por ejemplo, todas las
individuales a través las normas de prueba. La po-
personas evaluadas durante un determinado pe-
blación de referencia se puede definir en términos
riodo de tiempo o un conjunto de examinandos
de edad, grado, estado clínico del examinando en
autoseleccionados. Véase normas locales, normas.
el momento de la prueba, o por otras característi-
normas locales: Normas por las cuales los pun- cas. Véase normas.
tajes de una prueba se remiten a una población
porfolio: En evaluación, una recopilación siste-
de referencia limitada y específica de interés
mática de productos educativos o de trabajo que
particular para el usuario de la prueba (p. ej., la
se han reunido o acumulado a lo largo del tiempo,
población de una localidad, organización o ins-
de acuerdo con un conjunto específico de princi-
titución). Las normas locales no pretenden ser
pios o reglas.
representativas de las poblaciones más allá del
contexto limitado. precisión de la clasificación: Grado de precisión
de la asignación de examinandos a categorías es-
normas: Estadísticas o datos tabulares que resu-
pecíficas; grado en que se evitan las clasificaciones
men la distribución o frecuencia de puntajes de
de falsos positivos y falsos negativos. Véase sensi-
prueba para uno o más grupos definidos (por
bilidad, especificidad.
ejemplo, examinandos de diversas edades o gra-
dos), diseñados por lo general para representar precisión de medida: Impacto de un error de
poblaciones más grandes, a las que se denomina medida en los resultados de la medida. Véase
poblaciones de referencia. Véase normas locales. error estándar de medida, error de medida,
confiabilidad/precisión.
oportunidad de aprendizaje: Grado de exposi-
ción de los examinandos a los constructos evalua- programa educativo individualizado (IEP, por
dos a través de los programas educativos y/o grado sus siglas en inglés): Plan documentado que
251

Glosario
perfila los servicios de educación especial para es- procedimientos de la evaluación y las característi-
tudiantes con necesidades especiales y que incluye cas estadísticas de nuevos ítems o formularios de
las adaptaciones necesarias en el aula habitual o en la prueba. Por lo general, una prueba de campo es
las evaluaciones, y los programas o servicios espe- más extensa que una prueba piloto. Véase prueba
ciales adicionales. piloto.
protocolo de respuesta: Registro de las res- prueba de cribado: Prueba que se utiliza para es-
puestas dadas por un examinando a una prueba tablecer categorizaciones amplias de examinandos
específica. como primer paso en decisiones de selección o
procesos de diagnóstico.
proyección: Método de vinculación de punta-
jes en el cual los puntajes de una prueba se usan prueba de destreza basada en computadora:
para predecir los puntajes de otra prueba para un Prueba administrada mediante computadora
grupo de examinandos, con frecuencia, usando que indica si el examinando ha conseguido un
metodología de regresión. nivel determinado de competencia en un domi-
nio específico, en lugar del grado de rendimiento
prueba adaptable computarizada: Prueba adap-
del examinando en ese campo. Véase prueba de
table administrada mediante computadora. Véase
destreza.
prueba adaptable.
prueba de destreza: Prueba diseñada para indi-
prueba adaptable: Forma secuencial de pruebas
car si un examinando ha alcanzado un nivel pre-
individuales en la que se seleccionan ítems sucesivos
visto de competencia o destreza en un dominio.
de la prueba, o conjuntos de ítems, para su adminis-
Véase puntaje de corte, prueba de destreza basada
tración, basándose principalmente en sus propieda-
en computadora.
des y contenidos psicométricos, en relación con las
respuestas del examinando a ítems anteriores. Prueba de grupo: Prueba para grupos de exami-
prueba administrada por computadora: Prueba nandos; por lo general, en un contexto grupal,
administrada mediante computadora; los exami- con procedimientos de administración estandari-
nandos responden mediante el uso del teclado, el zados y supervisados por un monitor o adminis-
ratón u otros dispositivos de respuesta. trador de la prueba.
prueba basada en computadora: Véase prueba prueba de inteligencia: Prueba diseñada para
administrada por computadora. medir el nivel de funcionamiento cognitivo de un
individuo de acuerdo con una teoría de inteligen-
prueba de alto riesgo: Prueba usada para obte- cia reconocida. Véase evaluación cognitiva.
ner resultados que tienen consecuencias directas y
significativas para las personas, programas o insti- prueba de rendimiento: Prueba para medir el
tuciones que participan en la prueba. Compárese nivel de conocimientos o capacidad logrado por
con prueba de bajo riesgo. un examinando en un dominio de contenido so-
bre el cual ha recibido instrucción.
prueba de anclaje: Conjunto de ítems de anclaje
usado para la equiparación. prueba de tiempo: Prueba administrada a los
examinandos a los que se asigna un lapso de
prueba de bajo riesgo: Prueba usada para ob- tiempo prescrito para responder a la prueba.
tener resultados que solo tienen consecuencias
menores o indirectas para las personas, programas prueba de trabajo: Prueba de la capacidad de una
o instituciones que participan en la prueba. Com- persona para realizar las tareas que comprende un
párese con prueba de alto riesgo. trabajo. Véase medición de desempeño laboral.
prueba de campo: Administración de una prueba prueba piloto: Prueba administrada a una mues-
que se utiliza para comprobar la idoneidad de los tra de examinandos para probar algunos aspectos
252

Glosario
o ítems de la prueba, por ejemplo, las instruccio- respuestas correctas, o de forma más general, la
nes, los límites de tiempo, los formatos de res- suma u otra combinación de puntajes de ítems.
puesta o las opciones de respuesta a ítems. Véase
puntaje compuesto: Puntaje que combina varios
prueba de campo.
puntajes de acuerdo con una fórmula definida.
prueba unidimensional: Prueba que solo mide
puntaje de corte: Punto definido en una escala
una dimensión o solo una variable latente.
de puntaje. Los puntajes que coinciden o son
prueba: Dispositivo de evaluación o proce- superiores a ese punto se reportan, interpretan o
dimiento en el cual se obtiene y puntúa una gestionan de forma diferente a los puntajes infe-
muestra sistemática del comportamiento de un riores a ese punto.
examinando en un dominio específico, a través de puntaje de escala: Puntaje obtenido mediante
un proceso estandarizado. la transformación de puntajes brutos. Los pun-
pruebas psicológicas: Uso de pruebas o inventa- tajes de escala se suelen usar para facilitar la
rios para evaluar las características particulares de interpretación.
una persona.
puntaje de ganancia: En pruebas, la diferencia
psicodiagnóstico: Formalización o clasificación entre dos puntajes obtenidos por un examinando
del estado de salud mental basada en evaluaciones en una misma prueba o en dos pruebas equipa-
psicológicas. radas realizadas en diferentes ocasiones, con fre-
cuencia, antes y después de un tratamiento.
puesto: En contextos de empleo, la unidad orga-
nizativa más pequeña, un conjunto de deberes y puntaje de universo: En la teoría de generabili-
responsabilidades asignados que una persona lleva dad, el valor esperado sobre todas las replicaciones
a cabo dentro de una organización. posibles de un procedimiento para el examinando.
Véase teoría de generabilidad.
puntaje agregado: Puntaje total formado por
la combinación de puntajes relacionados con la puntaje holístico: Método para obtener un
misma prueba o con diversos componentes de la puntaje en una prueba, o ítem de una prueba,
prueba. Los puntajes pueden ser brutos o estanda- basándose en un juicio del desempeño general y
rizados. Los componentes del puntaje agregado se usando criterios definidos. Compárese con pun-
pueden ponderar o no, en función de la interpre- taje analítico.
tación que se dé al puntaje agregado.
puntaje verdadero: En teoría clásica de los tests,
puntaje analítico: Método de puntuar respues- promedio de los puntajes que obtendría un in-
tas construidas (por ejemplo, ensayos) en el que dividuo en un número ilimitado de formularios
cada dimensión crítica de un desempeño especí- estrictamente paralelos de la misma prueba.
fico se evalúa y califica por separado, y los valores
resultantes se combinan para obtener un puntaje puntaje: Cualquier número específico resultado
general. En algunos casos, los puntajes de distin- de la evaluación de una persona, por ejemplo,
tas dimensiones se pueden usar para interpretar puntaje bruto, puntaje de escala, una estimación
el desempeño. Compárese con puntaje holístico. de una variable latente, un recuento de produc-
ción, un registro de ausencia, un grado escolar o
puntaje automático: Procedimiento por el cual una calificación.
los ítems de respuestas construidas se califican
puntajes/calificaciones ponderadas: Método
por computadora usando un método basado
de calificación de una prueba en el que se otorga
en reglas.
un diferente número de puntos a una respuesta
puntaje bruto: Puntaje de una prueba que se correcta (o diagnósticamente pertinente) en di-
calcula mediante el recuento del número de ferentes ítems. En algunos casos, la fórmula de
253

Glosario
calificación otorga un distinto número puntos a de verdadero-falso) que genera sistemáticamente

cada respuesta diferente del mismo ítem. errores irrelevantes de constructo en los puntajes
de la prueba.
rango de percentil: Rango de un puntaje deter-
minado basado en el porcentaje de puntajes de sesgo predictivo: Predicción sistemática excesiva
una distribución definida de puntajes que están o deficiente del desempeño de un criterio para
por debajo del puntaje que se califica. personas pertenecientes a grupos diferenciados
por características no relevantes al desempeño del
repetición de la prueba: Administración repe-
criterio.
tida de una prueba, usando la misma prueba o un
formulario alternativo, a veces con capacitación o sesgo: 1. En imparcialidad de pruebas, infra-
instrucción adicional entre las administraciones. rrepresentación del constructo o componentes
irrelevantes de constructo en los puntajes de las
restricción de rango o variabilidad: Reducción
pruebas que afectan diferencialmente el desem-
de la varianza del puntaje observado de una mues-
peño de distintos grupos de examinandos y, en
tra de examinandos comparada con la varianza de
consecuencia, la confiabilidad/precisión y la va-
toda la población de examinandos, como conse-
lidez de los resultados y usos de sus puntajes.
cuencia de las restricciones del proceso de mues-
2. En estadísticas o medición, error sistemático en
treo de examinandos. Véase validez ajustada o
un puntaje de prueba. Véase infrarrepresentación
coeficiente de confiabilidad.
del constructo, varianza irrelevante de constructo,
rúbrica de puntajes: Criterio establecido (inclu- imparcialidad, sesgo predictivo.
yendo reglas, principios e ilustraciones) que se usa
sistema de rendición de cuentas: Sistema que
para puntuar las respuestas construidas a tareas
aplica incentivos o sanciones en función del des-
individuales y agrupamientos de tareas.
empeño del estudiante a instituciones (como es-
rúbrica: Véase rúbrica de puntajes. cuelas o sistemas escolares) o a personas (como
profesores o proveedores de servicios de salud
seguridad de la prueba: Protección del con-
mental.
tenido de una prueba de una versión o uso no
autorizado, a fin de proteger la integridad de los subgrupo relevante: Subgrupo de la población al
puntajes de manera que sean válidos para el uso cual se dirige una prueba y que es identificable de
previsto. alguna manera relevante para la interpretación de
los puntajes para los fines previstos.
selección descendente: Selección de solicitantes
sobre la base de puntajes ordenados por clasifica- teoría clásica de los tests: Teoría psicométrica
ción, de la más alta a la más baja. basada en la idea de que el puntaje observado
de un individuo en una prueba es la suma de
selección: Aceptación o rechazo de solicitantes de
un componente de puntaje verdadero del exa-
una oportunidad laboral o educativa concreta.
minando y de un componente de error aleatorio
sensibilidad: En clasificación, diagnóstico y se- independiente.
lección, proporción de casos que se evalúan como
teoría de generabilidad: Modelo metodológico
satisfactorios –o que se prevé que satisfagan los
para la evaluación de la confiabilidad/precisión
criterios– y los que, en realidad, satisfacen los
en el cual se calculan varias fuentes de varianza
criterios.
de error a través de la aplicación de técnicas esta-
sesgo de respuesta: Tendencia de los examinan- dísticas de análisis de varianza. El análisis indica
dos a responder de una forma o estilo particular la generabilidad de los puntajes por encima de
a los ítems de una prueba (p. ej., asentimiento, la muestra específica de los ítems, las personas y
elección de opciones socialmente deseables, elec- las condiciones de observación que se estudiaron.
ción de las opciones “verdaderas” en una prueba También denominada teoría G.
254

Glosario
teoría de respuesta al ítem (IRT, por sus si- de los puntajes de una prueba para los usos
glas en inglés): Modelo matemático de la rela- previstos.
ción funcional entre el desempeño en un ítem de
validez ajustada o coeficiente de confiabili-
prueba, las características del ítem y la situación
dad: Coeficiente de validez o confiabilidad
del examinando respecto del constructo sometido
—con mayor frecuencia, una correlación pro-
a medición.
ducto-momento— que ha sido ajustado para
trabajo/clasificación del trabajo: Grupo de compensar los efectos de las diferencias en la
puestos de trabajo con suficiente parecido en variabilidad de puntajes, la variabilidad de crite-
deberes, responsabilidades, características reque- rios o la falta de confiabilidad de los puntajes de
ridas y otros aspectos relevantes, de manera que las pruebas o criterios. Véase restricción de rango
se pueden colocar bajo el mismo título de puesto o variabilidad.
laboral.
validez: Grado en que la evidencia acumulada y
uso operativo: Uso real de una prueba, después la teoría respaldan una interpretación específica
finalizado el desarrollo inicial de la prueba, para de los puntajes de una prueba para un uso de-
informar una interpretación, decisión o acción, terminado. Si se prevén varias interpretaciones
basándose total o parcialmente en los puntajes de del puntaje de una prueba para diferentes usos,
la prueba. serán necesarias evidencias de validez para cada
interpretación.
usuario de la prueba: Persona o entidad res-
ponsable de la elección y administración de una variable moderadora: Variable que afecta a la
prueba, de la interpretación de los puntajes pro- dirección o intensidad de la relación entre dos va-
ducidos en un contexto dado y de cualquier deci- riables diferentes a aquella.
sión o acción que se base, en parte, en los puntajes
varianza irrelevante de constructo: Varianza
de una prueba.
en puntajes de examinandos atribuible a factores
Validación cruzada: Procedimiento en el que un extrínsecos que distorsionan el significado de los
sistema de puntaje para la predicción del desem- puntajes y, por lo tanto, reducen la validez de la
peño, derivado de una muestra, se aplica a una interpretación propuesta.
segunda muestra para investigar la estabilidad de
vinculación/vinculación de puntajes: Proceso
la predicción de ese sistema.
de relacionar puntajes de pruebas. Véase formula-
validación: Proceso mediante el cual se inves- rios alternativos, equiparación, calibración, mo-
tiga la validez de una interpretación propuesta deración, proyección, escalamiento vertical.
255

Índice
Acreditación, 189, 195, 199, 203 Error de medida, 36, 38, 197
Adaptaciones, 63, 64 Error estándar de medida, 36, 42, 50
Adecuaciones, 64 Errores aleatorios, 39, 243
comparabilidad, 65 Errores sistemáticos, 39
definición, 213 Escalamiento vertical, 108, 113, 243, 245, 255
lingüísticas, 75 Especificaciones de la prueba, 85, 94
uso apropiado, 68 Estándares de contenido, 207
Administración de la prueba, 91, 126 Estándares de desempeño, 207
Algoritmos de puntaje, 74, 103 Estimaciones de confiabilidad, 38, 47
Alineación, 15 Estudios de políticas, 227, 234
Análisis de empleo, 97, 241 Evaluación
clínica, 3
Calificación de la prueba, 132 psicológica, 169
Capacidad de evaluar, 215 Evaluación de programas, 234
Capacitación de evaluadores, 94, 103, 104 Evaluación psicológica, 169
Clasificación tipos, 174
coherencia de decisiones, 43 Evaluación sumativa, 207, 211, 246
etiquetas de puntajes, 67 Evaluaciones alternativas, 213
Coeficiente de confiabilidad, 35, 42 Evaluaciones de desempeño, 87
Coherencia de decisiones, 43, 51 Evidencia de validación, 15, 73
Comparabilidad de puntajes, 56, 58, 64, 65, 66, 67, Extensión de la prueba, 86, 89, 97, 101
76, 98, 103, 106, 107, 108, 112, 115, 117, 120,
121 Formularios alternativos, 38
Competencia en el idioma inglés, 214, 215 Formularios paralelos, 110
Confiabilidad/precisión, 35 Funcionamiento diferencial de la prueba, 56
documentación, 52
Consecuencias imprevistas, 12, 20, 21, 23, 33, 187, Generabilidad, 36
238 coeficiente, 40
Consentimiento informado, 138, 139, 145, 150, 151, teoría, 36
181, 229, 243 Generalización de validez, 19, 248
Contenido de la prueba, 59
Contexto de la prueba, 60 Imparcialidad, 54, 70
diseño universal, 54
Derechos de autor, 165 Información colateral, 174
Derechos de los examinandos, 148 Infrarrepresentación de constructo, 12
Desarrollo de la prueba, 85 Interpretación de los puntajes, 172
Desempeño de grupos, 51, 112, 228, 237 Interpretaciones de puntajes, 108, 115
Documentación, 98, 137 Interpretaciones referenciadas a normas, 208
confiabilidad/precisión, 44 Irregularidades de la prueba, 153
Dominio de constructo de criterio, 192
Dominio de constructo de predictor, 182 Laboratorios cognitivos, 57, 71, 73, 94
Licenciamiento, 137, 152, 164
Editor de la prueba, 4, 244 Límites de tiempo, 76, 128
Efectos de contexto, 92, 119, 121
Efectos prácticos, 234, 235 Manuales de la prueba, 77, 78, 95, 137, 138, 144,
Engaños, 149 156, 244
Entorno de la prueba, 126, 130, 213 Manuales técnicos, 95, 137, 138, 144, 244
257

Índice
Medidas de personalidad, 37 Puntajes compuestos, 29, 30, 47

Modificaciones, 67, 213, 214 Puntajes de corte, 107, 109, 113
Muestreo de matriz, 52, 127, 134, 232, 234, 250 Puntajes de diferencia, 43, 222, 223
Normas, 109, 117 Rendición de cuentas, 227

locales, 221 índice, 230, 231
usuario, 110, 208, 251 sistemas, 230
Reportes de puntajes, 217, 225
Oportunidad de aprender, 15, 62, 80, 209, 221 Responsabilidades de los examinandos, 148
Oportunidad de aprendizaje, 62 Responsabilidades de los usuarios de la prueba, 159
Retención de registros, 163
Pesos de ítems, 217 Revisión de ítems, 93
Predicción diferencial, 19, 56, 73, 74 Revisión de pruebas, 105
Preparación de la prueba, 27, 221 Revisiones de sensibilidad, 72
Presentación de informes, 133 Rúbricas de puntajes, 44, 61, 90, 91, 94, 104
Procedimientos de seguridad de la prueba, 55, 95, 142
Prueba estandarizada, 38, 49, 156 Seguridad, 72, 95, 132, 159, 188
Pruebas adaptables, 91 Selección de personal, 146, 193, 202
Pruebas adaptables por computadora, 97, 221 Sesgo, 56
Pruebas administradas por computadora, 91, 95, 170, predictivo, 56
171 Sesgo de puntaje, 59
Pruebas de acreditación, 196, 199 Sesgo de respuesta, 13, 254
Pruebas de admisión, 164
Pruebas de alto riesgo, 161, 216 Teoría clásica de los tests, 35, 36, 38, 40, 100, 107,
Pruebas de anclaje, 111, 119 243, 248, 251, 253
Pruebas de campo, 94 Teoría de respuesta al ítem, 35, 36, 48, 90, 100, 107,
Pruebas de certificación, 152 117, 217, 242, 248, 251, 255
Pruebas de colocación, 97
Pruebas de diagnóstico, 178 Usuarios de la prueba, 155
Pruebas de empleo, 190, 199, 200
proceso de validación, 192 Validación cruzada, 31, 91, 101
Pruebas educativas, 205, 206, 210, 216, 217, 219 Variables de criterios, 30, 122
Puntaje del universo, 242 Varianza irrelevante de constructo, 12, 13, 14, 59, 60,
Puntaje observado, 40 61, 70
Puntajes agregados, 79, 217, 228, 235 Vinculación de puntajes, 107, 110, 118
Puntajes brutos, 43, 107, 108, 110, 115, 116, 141,
143, 166, 182, 253
258

Normas de La Prueba

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Normas de La Prueba

Cargado por

Copyright:

Formatos disponibles

ESTÁNDARES para Pruebas Educativas y Psicológicas

American Educational Research Association

BK-AERA-STANDARDS-180078-Text.indd 1 04/04/18 5:53 PM

Copyright © 2018 de la American Educational Research Association, la American Psychological Association

Impreso en los Estados Unidos de América

Library of Congress Control Number: 2018937716

BK-AERA-STANDARDS-180078-Text.indd 2 04/04/18 5:53 PM

BK-AERA-STANDARDS-180078-Text.indd 3 04/04/18 5:53 PM

Unidad 7. Confiabilidad/precisión de medias de grupos����������������������������������������������������51

BK-AERA-STANDARDS-180078-Text.indd 4 04/04/18 5:53 PM

Estándares para puntajes, escalas, normas, vinculación de puntajes y

BK-AERA-STANDARDS-180078-Text.indd 5 04/04/18 5:53 PM

BK-AERA-STANDARDS-180078-Text.indd 6 04/04/18 5:53 PM

Problemas en la evaluación de programas y políticas y en la rendición

BK-AERA-STANDARDS-180078-Text.indd 7 04/04/18 5:53 PM

BK-AERA-STANDARDS-180078-Text.indd 9 04/04/18 5:53 PM

organizaciones patrocinadoras y el comité du- elaboración de las revisiones finales de la presente

BK-AERA-STANDARDS-180078-Text.indd 10 04/04/18 5:53 PM

District of Columbia Psychological Association Otras instituciones

Instituciones académicas y de investigación NCME: Los Estándares para Pruebas

BK-AERA-STANDARDS-180078-Text.indd 11 04/04/18 5:53 PM

BK-AERA-STANDARDS-180078-Text.indd 1 04/04/18 5:53 PM

BK-AERA-STANDARDS-180078-Text.indd 2 04/04/18 5:53 PM

BK-AERA-STANDARDS-180078-Text.indd 3 04/04/18 5:53 PM

BK-AERA-STANDARDS-180078-Text.indd 4 04/04/18 5:53 PM

BK-AERA-STANDARDS-180078-Text.indd 5 04/04/18 5:53 PM

de reportes e interpretación (cap. 6); documen- A menos que se especifique lo contrario en un

BK-AERA-STANDARDS-180078-Text.indd 6 04/04/18 5:53 PM

BK-AERA-STANDARDS-180078-Text.indd 7 04/04/18 5:53 PM

BK-AERA-STANDARDS-180078-Text.indd 8 04/04/18 5:53 PM

BK-AERA-STANDARDS-180078-Text.indd 9 04/04/18 5:53 PM

BK-AERA-STANDARDS-180078-Text.indd 11 04/04/18 5:53 PM

BK-AERA-STANDARDS-180078-Text.indd 12 04/04/18 5:53 PM

BK-AERA-STANDARDS-180078-Text.indd 13 04/04/18 5:53 PM

BK-AERA-STANDARDS-180078-Text.indd 14 04/04/18 5:53 PM

BK-AERA-STANDARDS-180078-Text.indd 15 04/04/18 5:53 PM

los estudiantes (p. ej., estándares de contenido) participan examinandos de diferentes subgrupos

BK-AERA-STANDARDS-180078-Text.indd 16 04/04/18 5:53 PM

BK-AERA-STANDARDS-180078-Text.indd 17 04/04/18 5:53 PM

BK-AERA-STANDARDS-180078-Text.indd 18 04/04/18 5:53 PM

BK-AERA-STANDARDS-180078-Text.indd 19 04/04/18 5:53 PM

BK-AERA-STANDARDS-180078-Text.indd 20 04/04/18 5:53 PM

BK-AERA-STANDARDS-180078-Text.indd 21 04/04/18 5:53 PM

BK-AERA-STANDARDS-180078-Text.indd 22 04/04/18 5:53 PM

la prueba; otros pueden concluir que los benefi- Integración de la evidencia de

BK-AERA-STANDARDS-180078-Text.indd 23 04/04/18 5:53 PM

BK-AERA-STANDARDS-180078-Text.indd 24 04/04/18 5:53 PM

BK-AERA-STANDARDS-180078-Text.indd 25 04/04/18 5:53 PM

BK-AERA-STANDARDS-180078-Text.indd 26 04/04/18 5:53 PM

BK-AERA-STANDARDS-180078-Text.indd 27 04/04/18 5:53 PM

BK-AERA-STANDARDS-180078-Text.indd 28 04/04/18 5:53 PM

BK-AERA-STANDARDS-180078-Text.indd 29 04/04/18 5:53 PM

BK-AERA-STANDARDS-180078-Text.indd 30 04/04/18 5:53 PM

BK-AERA-STANDARDS-180078-Text.indd 31 04/04/18 5:53 PM

los valores de criterio de un subconjunto selec- constructos. Un estudio metaanalítico también

BK-AERA-STANDARDS-180078-Text.indd 32 04/04/18 5:53 PM

BK-AERA-STANDARDS-180078-Text.indd 33 04/04/18 5:53 PM

BK-AERA-STANDARDS-180078-Text.indd 35 04/04/18 5:53 PM

BK-AERA-STANDARDS-180078-Text.indd 36 04/04/18 5:53 PM

BK-AERA-STANDARDS-180078-Text.indd 37 04/04/18 5:53 PM

BK-AERA-STANDARDS-180078-Text.indd 38 04/04/18 5:53 PM

BK-AERA-STANDARDS-180078-Text.indd 39 04/04/18 5:53 PM

propuesta de los puntajes proporcionan un marco sesiones de evaluación independientes (coeficien-

BK-AERA-STANDARDS-180078-Text.indd 40 04/04/18 5:53 PM

Unidad 7. Confiabilidad/precisión de medias de grupos��51