Documentos de Académico
Documentos de Profesional
Documentos de Cultura
net/publication/333148960
CITATION READS
1 12,887
1 author:
Pilar Verdejo
ACET-Latinoamerica
6 PUBLICATIONS 25 CITATIONS
SEE PROFILE
Some of the authors of this publication are also working on these related projects:
All content following this page was uploaded by Pilar Verdejo on 16 May 2019.
www.acet-latinoamerica.org
®
julio 2017
3
Contenido
Introducción ...................................................................................................................... 3
Criterios ............................................................................................................................. 5
Propósitos y modelo de evaluación .................................................................................. 8
Evaluación del aprendizaje ......................................................................................... 10
Perfil de referencia/ modelo de cognición ................................................................... 12
Modelo de observación/ Pruebas estructuradas cerradas .......................................... 14
Pruebas abiertas ............................................................................................................. 15
Lista de verificación ..................................................................................................... 15
Rúbricas o matrices de valoración .............................................................................. 16
Tecnologías digitales en la evaluación ........................................................................... 19
Criterios de calidad del instrumento................................................................................ 20
Principios para la construcción de exámenes de certificación de aprendizajes y
competencias .................................................................................................................. 21
Evaluación para la certificación ................................................................................... 22
Construcción de los exámenes de opción múltiple ......................................................... 23
Determinación del perfil de referencia......................................................................... 23
Tabla de especificaciones y tamaño de la prueba ...................................................... 24
Elaboración de reactivos de acuerdo con el perfil de referencia................................. 25
Calibración y construcción del banco de reactivos ..................................................... 25
Selección de preguntas para el examen ..................................................................... 26
Evaluación estadística del examen y de los sustentantes .......................................... 26
Ejemplos ...................................................................................................................... 28
Tamaño de las pruebas/ exámenes ............................................................................ 31
Aplicación longitudinal ................................................................................................. 31
Recomendaciones para profesionalizar la evaluación en las IES .................................. 32
Referencias ..................................................................................................................... 32
Introducción
La orientación en la educación superior hacia enfatizar los resultados de aprendizaje y la
apertura a reconocerlos cuando son adquiridos por cuenta propia, experiencia laboral o
®
julio 2017
4
proceso formativo, requiere que las instituciones cuenten con procesos robustos, objetivos
y transparentes de evaluación y certificación de aprendizajes.
®
julio 2017
5
Criterios
Para iniciar la reflexión sobre la evaluación, es conveniente tomar como punto de partida la
definición de “criterio”, que según la Real Academia Española (RAE), es la siguiente:
Término que proviene Del lat. tardío criterĭum, y este del gr. κριτήριον kritḗrion, der. de
κρίνειν krínein ‘juzgar’, y tiene dos acepciones:
“Los criterios son todas aquellas herramientas, reglas o principios que utilizamos
para construir los juicios, para juzgar frente a una situación o hecho específico. Las
razones bajo las cuales valoramos o clasificamos son criterios, guías que
®
julio 2017
6
La evaluación del criterio significa establecer relaciones entre el pensamiento crítico, los
criterios y el juicio. “La conexión, evidentemente, se articula sobre la base de que el
pensamiento crítico es un pensamiento hábil, y que las habilidades en sí mismas no pueden
ser definidas sin criterios mediante los cuales puedan ser evaluadas”. (Lipman, 2014).
®
julio 2017
7
El pensamiento crítico y el criterio van más allá de una metodología y seguimiento de reglas
y estándares; requieren del pensamiento inductivo que se basa en la necesaria
observación, experimentación, explicación y modelamiento para la continua reflexión y
prueba del razonamiento y los criterios utilizados.
®
julio 2017
8
La evaluación es una inferencia válida a partir de datos para hacer una afirmación,
®
julio 2017
9
“En todos los casos es condición moral acordar criterios, entender razones y, en
especial, comprenderlo como acto de construcción de conocimiento, pero esta vez
como una construcción de los docentes, entendiendo las razones del alumno, desde el
®
julio 2017
10
propio corazón del reconocimiento de que él también está implicado en lo que el alumno
aprendió.” (Camilloni, et al., 1998)
®
julio 2017
11
Dimensiones
Modelo de
Tipos de conocimiento
cognición
Competencias
transversales
Opción múltiple
Cerrada
s Multirreactivos
Evaluación del Modelo de Instrumentos/
Aprendizaje observación Pruebas
Rúbricas Pruebas de
ejecución
El modelo de observación describe las tareas o estímulos que producirán las evidencias
de los aprendizajes, que determinan los instrumentos o pruebas que se utilizarán para la
medición de los aprendizajes. Dependiendo de varios factores, como pueden ser el tamaño
de grupo, el tipo de aprendizajes, se pueden seleccionar pruebas cerradas estructuradas,
o pruebas abiertas, como son los reportes escritos, reportes orales, portafolios o pruebas
de ejecución. Estas pruebas pueden ser complementarias con la finalidad de contar con un
mayor número y amplitud de evidencias de los aprendizajes.
®
julio 2017
12
El modelo de interpretación describe los criterios para la valoración de las evidencias, que
pueden ser las evidencias que se requiere observar y los estándares de calidad
previamente determinados o rúbricas que describen los niveles de valoración para los
elementos que se observan en las pruebas abiertas.
Los criterios que se utilizan para valorar las evidencias contienen tanto los elementos que
es necesario observar como el estándar o nivel que se espera cumplir para asignar un valor.
Indican las características de un desempeño adecuado de acuerdo con un estándar que
debería ser convenido por los actores involucrados en el proceso de elaboración del
proceso de evaluación.
En el artículo Introducción a los distintos tipos de evaluación y los instrumentos más usuales
de Javier Cortés de las Heras puede encontrar una descripción sintética y las ventajas e
inconvenientes de cada uno de ellos.
El profesor define las competencias y aprendizajes que espera que logren los estudiantes,
y, según sus características, podrá llevar a cabo observaciones directas, pruebas o
exámenes abiertas o cerradas; o ejecuciones para obtener evidencias que muestren el
desarrollo de las competencias y logro de los aprendizajes. Sin embargo, no siempre se
obtienen evidencias por la conducta directa, sino que es necesario realizar inferencias sobre
el nivel de logro y aprendizajes a partir de las respuestas de las estudiantes agrupadas en
dimensiones latentes, y que permiten la interpretación de las variables manifiestas. En este
último caso, las evaluaciones del aprendizaje se basan en la descripción del perfil de egreso
o logro después de la intervención educativa, ya sea un curso o un plan de estudios.
®
julio 2017
13
El perfil se integra por la descripción de las dimensiones que agrupan los aprendizajes
esperados. Las dimensiones son los rasgos latentes constitutivos del aprendizaje, que no
se pueden observar directamente, pero que a través de evidencias obtenidas en las
pruebas se podrá hacer la inferencia del logro del aprendizaje. En la Figura 4 se ilustra la
relación entre rasgo latente y variable manifiesta cuando se diseña la evaluación. Cuando
se hace la inferencia la relación va de la variable manifiesta al rasgo latente.
Para estructurar las pruebas se describen las dimensiones que integran el aprendizaje, sus
elementos y su descripción operativa. Por ejemplo, en la Figura 5, para el área de la Salud
se describe una dimensión que se refiere a la clínica y sus elementos:
®
julio 2017
14
Los aprendizajes en un curso son muy diversos por lo que se requieren varios instrumentos
de evaluación que en su conjunto ofrezcan información para valorar el nivel de desarrollo y
desempeño de los estudiantes.
Siguiendo con el modelo de evaluación, las premisas para el diseño centrado en evidencias
(Mislevy et al, 2003):
En el contexto del aula, las pruebas cerradas son útiles para valorar el avance en algún tipo
de aprendizaje. Es frecuente que las pruebas estructuradas cerradas sean diseñadas por
el colegio de profesores que imparten la misma asignatura a grupos diferentes, y con ello
dar seguimiento a los cursos con la finalidad de garantizar un progreso homogéneo en
alcance y calidad.
La unidad básica de las pruebas cerradas estructuradas son los reactivos/ ítems que
buscan obtener evidencias (variable manifiesta) de los aprendizajes desarrollados. Se les
conoce como reactivos de opción múltiple y multirreactivos. Los primeros tienen una base
que contiene la pregunta o caso a resolver, y varias opciones de respuesta, donde solo una
es correcta; los segundos contienen una base que puede ser un caso o problema del cual
se pueden derivar varios reactivos/ítems de opción múltiple.
En los multirreactivos, cada reactivo que se asocia al caso se resuelve con la información
acompañante general o con un poco más de información que se agrega para dar un mayor
contexto a la pregunta específica. Los reactivos asociados a un multirreactivos deben ser
independientes entre sí.
®
julio 2017
15
Pruebas abiertas
Las pruebas abiertas permiten valorar aprendizajes a partir de las respuestas construidas
o ejecutadas por los estudiantes. Las pruebas abiertas principales son: ejecución, reporte
oral, reporte escrito, portafolio de trabajo. Para otorgar una valoración y puntuación a un
reactivo abierto es necesario utilizar una guía que describa al evaluador cuáles son los
elementos que se deben observar y cuáles son las evidencias que deben estar presentes
para confirmar que el estudiante ha logrado el aprendizaje. Las guías pueden ser listas de
verificación o matrices de valoración:
Lista de verificación
Las listas de verificación enuncian las acciones o evidencias que se deben cumplir, y a las
cuales se les puede asignar una puntuación. En la Tabla 2 se muestra un ejemplo de lista
de verificación para una presentación oral.
Desempeño Sí No
El alumno utiliza ejemplos claros, muestra evidencias y/o se apoya con material
gráfico
®
julio 2017
16
Rúbrica global
La rúbrica global se utiliza cuando se toleran errores en el proceso, siempre que éste sea
de alta calidad. El estudiante se enfrenta a un problema o situación compleja, cuya
respuesta correcta no es única. El sinodal o profesores evalúan el proceso, producto y
resultado sin valorar de forma separada los elementos constitutivos; tiene la ventaja de ser
un proceso de evaluación rápido.
Nivel 4 Nivel 3
La respuesta está caracterizada por: El estudiante selecciona los procedimientos y estrategias
• El estudiante selecciona e implementa los conceptos apropiados para resolver el problema; sin embargo, la respuesta/
relevantes y procedimientos y estrategias necesarias solución no es completamente correcta debido a alguna de las
para resolver el problema. siguientes causas:
• El estudiante considera todas las restricciones de la • Hay evidencia de que el estudiante tiene una mala
situación del problema. concepción o ha fallado en considerar conceptos
relevantes para resolver correctamente el problema.
• La solución y todo el trabajo relevante es correcto o
hay un error menor debido a algún error de cómputo • El estudiante falla en considerar las restricciones del
o de copia. problema.
• El estudiante ha considerado una variable irrelevante
o falla en considerar una variable relevante.
• La respuesta/ solución es correcta en lo general, sin
embargo no se proporcionó información de cómo el
estudiante llegó a la solución.
Nivel 2 Nivel 1
El estudiante selecciona los procedimientos y estrategias El estudiante proporciona una respuesta/ solución incompleta y/o
apropiados para resolver el problema; sin embargo, la respuesta/ incorrecta. Adicionalmente, se aprecian uno o varias de las
solución no es completamente correcta debido a alguna de las siguientes evidencias:
siguientes causas: • El estudiante considera una restricción o variable del
• Hay evidencia que el estudiante tiene varias malas problema.
concepciones y ha fallado en considerar conceptos • El estudiante comprende algunos conceptos
relevantes necesarios para resolver correctamente el relevantes al problema.
problema.
• El estudiante selecciona una estrategia o
• El estudiante falla en considerar varias de las procedimiento totalmente inapropiado.
restricciones del problema.
• El estudiante considera algunas variables irrelevantes
y falla en considerar variables relevantes.
• El estudiante no lleva a cabo los procedimientos/
estrategias suficientes para alcanzar la solución.
• La respuesta/ solución general es correcta, sin
embargo, no hay información de cómo alcanzó la
solución.
®
julio 2017
17
Rúbrica analítica
®
julio 2017
18
Para construir una rúbrica es importante cumplir con las siguientes características:
®
julio 2017
19
Al igual que se hizo con las pruebas cerradas, es necesario llevar a cabo un proceso de
validación, tanto para contar con la validez de contenido como para su confiabilidad. En el
primer caso, se recurre a profesionales del campo; y en el segundo, a las personas que
participarán como jueces en el proceso de evaluación.
Como para su aplicación se recurre a jueces, se realiza una aplicación piloto de las rúbricas,
pidiendo a varios jueces que valoren la misma respuesta o producto utilizando la rúbrica, y
pidiéndoles que expliquen el proceso de reflexión y criterios aplicados, para después hacer
la comparación de las respuestas de los jueces y ajustar la rúbrica.
®
julio 2017
20
La confiabilidad se refiere a:
®
julio 2017
21
Cuando las pruebas incluyen ítems de respuesta construida o abierta, es necesario elaborar
los criterios de valoración y validarlos con los profesionales y con los jueces que participarán
en la evaluación.
El resultado de la certificación asegura que la persona está calificada para desempeñar con
calidad el trabajo o tarea que ampara el certificado o su homologación para el
reconocimiento del nivel de formación correspondiente. Aunque se debate mucho sobre si
la certificación da cuenta cabal y global de los aprendizajes, ya que muchos no son
observables directamente, la certificación es un proceso que puede incluir, no solo una
prueba sino también, requisitos previos o evidencias provenientes de fuentes diversas que
sustenten el juicio de los evaluadores.
®
julio 2017
22
Por ejemplo: en los campos de salud, se exige la recertificación periódica, por lo que los
consejos profesionales de las diferentes especialidades han desarrollado procesos e
instrumentos que les permitan certificar a los profesionales del área. En México, para
cumplir con este requerimiento legal, se creó el Comité Normativo Nacional de Consejos de
Especialidades Médicas (CONACEM)1 como “organismo auxiliar de la Administración
Pública Federal a efecto de supervisar los conocimientos, habilidades, destrezas, aptitudes
y calificación de la pericia que se requiere para la certificación y renovación de la vigencia
de la misma o recertificación, en las diferentes especialidades de la medicina” “…El
CONACEM, se integra por la Academia Nacional de Medicina de México, A.C., la Academia
Mexicana de Cirugía, A.C., y por aquellos CONSEJOS constituidos en asociaciones civiles
cuyo objeto social comprenda la evaluación para la certificación y recertificación de médicos
especialistas y subespecialistas”.
Caso que se observa y califica por jueces con base en una guía o rúbrica de
valoración.
Los exámenes de ejecución pueden estar diseñados para valorar varias habilidades y
destrezas, por lo que, en algunas ocasiones, tienen varios sitios o estaciones de evaluación.
1
Estatutos, http://www.conacem.org.mx/index.php/marco-juridico/estatutos-conacem
®
julio 2017
23
2
Ver Standards for workplace testing and credentialing en Standards for Educational and Psychological Testing. 2014, p. 178
-182
®
julio 2017
24
®
julio 2017
25
En las pruebas en las que se reportan calificaciones por subtemas, es necesario que el
número de reactivos del subtema sea entre 15 y 20 reactivos y que sean suficientemente
distintas cada una de ellas, es inaceptable una calificación con menos de diez reactivos.3
Para la calificación total, subtema o una combinación de ellas, se requiere estimar los
índices de confiabilidad y precisión.4
En algunos casos, la calificación se calcula de forma global de manera que los bajos
resultados en un área o subtema son compensados por altos resultados en otro. En otros
casos, se requiere una calificación aprobatoria en todas las áreas del examen.
Asignar un porcentaje de respuestas como punto de corte puede resultar arbitrario a menos
que se conozca el contenido y dificultad de la prueba, así como los requerimientos
profesionales y laborales, y la relación que existe entre ambos. El punto de corte se fija por
los especialistas y no debe ajustarse para limitar o asegurar un número de personas que
aprueben la certificación.
Los especialistas revisan que los reactivos y la prueba correspondan al perfil de referencia,
es decir, aseguran la validez de contenido del examen. Es un proceso continuo desde su
diseño hasta su implementación.
3
Meije, Rob R., Boevé, Anja J., Tendeiro, Jorge N., Bosker, Roel J., Albers, Casper J. 2017. The Use of Subscores in Higher
Education: When Is This Useful?. Frontiers in Psychology. March. doi: 10.3389/fpsyg.2017.00305.
4
Standard 2.3 en Standards for Educational and Psychological Testing. 2014. AERA, APA, NCME.
5
Constructing Written Test Questions for the Basic and Clinical Sciences. 2016. National Board of Medical Examiners, y en
Haladyna TM. 1997. Writing Test Items to Evaluate Higher-Order Thinking. Needham Heights, MA: Allyn & Bacon
®
julio 2017
26
El tamaño de la muestra deberá ser tal que permita obtener al menos trescientas respuestas
para cada reactivo.
En las aplicaciones siguientes, se recomienda utilizar reactivos que han tenido buen
comportamiento en los años anteriores. Para comparar resultados se recomienda
incorporar al menos 25% de reactivos anteriores al examen. Si se requiere calibrar reactivos
nuevos, se pueden aplicar durante los procesos de certificación, pero sin tomarlos en
cuenta para la calificación en curso.
®
julio 2017
27
Las medidas establecidas por la ASTM7 más utilizadas para las pruebas de certificación
son:
6
Estándar 11.13, en Standards for Educational and Psychological Testing. 2014. AERA, APA, NCME.
7
ASTM. 2013. Standard Practice for Professional Certification Performance Testing. Designation: E2849 – 13.
®
julio 2017
28
Ejemplos
Está integrado por un componente de Lectura con 50 preguntas de opción múltiple OM, de
Escritura con 61 preguntas de OM más un ensayo, Matemáticas con 55 preguntas de OM,
Ciencia con 60 preguntas OM, y Estudios Sociales con 60 preguntas de OM.
Proceso para la demostración de aprendizajes adquiridos por cualquier medio, del Centro
Nacional de Evaluación para la Educación Superior (CENEVAL), en México. Este proceso
de evaluación consta de tres instrumentos:
– Examen de Comprensión Lectora (ECL) con 24 reactivos con relación a tres textos
de tipo: argumentativo e icónico-verbal, Literario y Científico
En educación superior hay una gran cantidad de pruebas para valorar los resultados de
aprendizaje de aplicación general. Por su alcance a nivel internacional, se mencionan las
siguientes:
®
julio 2017
29
• Pensamiento crítico
• Razonamiento analítico
• Resolución de problemas
La prueba The International Critical Thinking Basic Concepts & Understandings fue
desarrollada para su aplicación en línea. Se enfoca en los conceptos y principios del
pensamiento crítico:
®
julio 2017
30
Este tipo de pruebas es común y existen muchos ejemplos, algunos de ellos son: Critical
Thinking in Higher Education, Civic Competency, Quantitative literacy in Higher Education,
Communicatoin Literacy, de varias instituciones y organizaciones, que se pueden consultar
en los reportes del ETS, con extensiones variables, pero en general menores a 100
preguntas, algunas de opción múltiple en combinación con escalas Likert y respuestas
cortas construidas.
Examen entre 170 a 200 preguntas para responderse en cuatro horas y media. Califican en
puntaje en lugar de porcentaje de aciertos para comparar año con año.
Se integran por dos elementos: examen teórico que consiste en una prueba con 150
preguntas basadas en casos, distribuidas en áreas temáticas; y un elemento práctico que
consiste en una prueba de ejecución, en un centro hospitalario certificado por el Consejo
®
julio 2017
31
como centro de formación, con base en un caso clínico y valorado por jueces utilizando
pautas de observación.
En la siguiente tabla se muestra el resultado, con datos reales, de la relación del tamaño
de una prueba de opción múltiple de cuatro opciones de respuestas, con la medida de
confiabilidad alfa de Cronbach.
Número de reactivos
Aplicación longitudinal
Las aplicaciones longitudinales se utilizan para obtener información y contar con medidas
a través del tiempo que permitan observar la evolución y tendencias de los resultados de
los procesos que se miden. La base de los exámenes es el perfil de referencia que para las
comparaciones longitudinales deberá permanecer estable durante el tiempo en el que se
llevará a cabo el estudio. Para estos estudios es necesario:
8
El alfa de Cronbach es una media ponderada de las correlaciones entre las variables que forman parte de la prueba o escala.
®
julio 2017
32
Referencias
Arribalzaga, E.B. (2016). ¿Cuál es el criterio médico – quirúrgico? Inmanencia.
Recuperado
dehttp://ppct.caicyt.gov.ar/index.php/inmanencia/article/viewFile/10836/9660
Austin, M.W. (11 de junio de 2012). Standards of Critical Thinking. Thinking Towards Truth
[Entrada en blog]. Recuperado de
https://www.psychologytoday.com/intl/blog/ethics-everyone/201206/standards-
critical-thinking
Camilloni, A., Celman, S., Litwin, E. y Palou de Maté, M. del C. (1998). La evaluación de los
aprendizajes en el debate didáctico contemporáneo. Editorial: Paidós.
®
julio 2017
33
Case, S., & Swanson, D. (1998). Como elaborar preguntas para evaluaciones escritas en
el área deficiencias básicas y clínicas. Philadelphia: National Board of Medical
Examiners.
Cortés De las Heras, J. (2009). Introducción a los distinto tipos de evaluación y los
instrumentos más usuales. Recuperado de
http://mestreacasa.gva.es/c/document_library/get_file?folderId=500001688024&na
me=DLFE-399422.pdf
Daniel, M.F., De la Garza, M.T., Slade, C., Lafortune, L., Pallascio, R., y Mongeau, P.
(2003). ¿Qué es el pensamiento dialógico crítico?. Perfiles Educativos, vol XXV,
num. 102, pp. 22 – 39
Haladyna, T.M. (2006). Roles and importance of validity studies. In Downing, S.M., &
Haladyna, T.M. (Eds.), Handbook of Test Development (pp. 739-755). Mahwah, NJ:
LEA.
Liu,O.L., Frankel, L., Roohr, K. C. (2014). Assessing Critical Thinking in Higher Education:
Current State and Directions for a Next-Generation Assessment (Research Report
No. RR-14-10). Princeton, NJ: Educational Testing Service.
http://dx.doi.org/10.1002/ets2.12009
Lipman, M. (1988). Critical Thinking--What can it be? Educational Leadership. 46(1) p38-
43. Recuperado de
http://www.ascd.org/ASCD/pdf/journals/ed_lead/el_198809_lipman.pdf
®
julio 2017
34
DOI: 10.2307/1176219
Messick, S. (1990). Validity of Test Interpretation and Use. Princeton: Educational Testing
Service, Princeton, N.J.
Messick, S. (1988). Validity. In R.L. Linn (Ed.), Educational Measurement. (3a. ed., pp. 13-
103). New York: Macmillan. https://onlinelibrary.wiley.com/doi/epdf/10.1002/j.2330-
8516.1987.tb00244.x
Mislevy, R., Almond, R., Lukas, J. (2003). A Brief Introduction to Evidence-centered Design.
Research report. Princeton: Educational Testing Service.
Roohr, K. C., Graf, E. A., & Liu, O. L. (2014). Assessing quantitative literacy in higher
education: An overview of existing research and assessments with
recommendations for next-generation assessment (ETS Research Report No. RR-
14-22). Princeton, NJ: Educational Testing Service. http://doi:10.1002/ets2.12024
Torney-Purta, J., Cabrera, J. C., Roohr, K. C., Liu, O. L., & Rios, J. A. (2015). Assessing
civic competency and engagement in higher education: Research background,
frameworks, and directions for next-generation assessment (Research Report No.
RR-15-34). Princeton, NJ: Educational Testing Service.
http://dx.doi.org/10.1002/ets2.12081
Zapata Maya, Y.P. (2010). La formación del pensamiento crítico: entre Lipman y Vygotsky.
Tesis de Filosofía. Bogota: Pontificia Universidad Javeriana. Recuperado de
https://repository.javeriana.edu.co/bitstream/handle/10554/6767/tesis83.pdf?seque
nce=1
®
julio 2017