Está en la página 1de 35

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/333148960

Criterios para la evaluación y evaluación del criterio: la profesionalización de la


evaluación en las instituciones de educación superior

Article · June 2017

CITATION READS

1 12,887

1 author:

Pilar Verdejo
ACET-Latinoamerica
6 PUBLICATIONS   25 CITATIONS   

SEE PROFILE

Some of the authors of this publication are also working on these related projects:

Desarrollo de competencias médicas View project

Innovación docente View project

All content following this page was uploaded by Pilar Verdejo on 16 May 2019.

The user has requested enhancement of the downloaded file.


Criterios para la evaluación y evaluación del criterio: la
profesionalización de la evaluación en las instituciones
de educación superior

Pilar Verdejo París


2

Ciudad de México, 2017.

Aseguramiento de la Calidad en la Educación y en el


Trabajo, S.C

Prol. Reforma 1190, despacho 2812


Cruz Manca Santa Fe, Cuajimalpa
Ciudad de México, 05349
+52 (55) 5292 2232

www.acet-latinoamerica.org

®
julio 2017
3

Contenido
Introducción ...................................................................................................................... 3
Criterios ............................................................................................................................. 5
Propósitos y modelo de evaluación .................................................................................. 8
Evaluación del aprendizaje ......................................................................................... 10
Perfil de referencia/ modelo de cognición ................................................................... 12
Modelo de observación/ Pruebas estructuradas cerradas .......................................... 14
Pruebas abiertas ............................................................................................................. 15
Lista de verificación ..................................................................................................... 15
Rúbricas o matrices de valoración .............................................................................. 16
Tecnologías digitales en la evaluación ........................................................................... 19
Criterios de calidad del instrumento................................................................................ 20
Principios para la construcción de exámenes de certificación de aprendizajes y
competencias .................................................................................................................. 21
Evaluación para la certificación ................................................................................... 22
Construcción de los exámenes de opción múltiple ......................................................... 23
Determinación del perfil de referencia......................................................................... 23
Tabla de especificaciones y tamaño de la prueba ...................................................... 24
Elaboración de reactivos de acuerdo con el perfil de referencia................................. 25
Calibración y construcción del banco de reactivos ..................................................... 25
Selección de preguntas para el examen ..................................................................... 26
Evaluación estadística del examen y de los sustentantes .......................................... 26
Ejemplos ...................................................................................................................... 28
Tamaño de las pruebas/ exámenes ............................................................................ 31
Aplicación longitudinal ................................................................................................. 31
Recomendaciones para profesionalizar la evaluación en las IES .................................. 32
Referencias ..................................................................................................................... 32

Introducción
La orientación en la educación superior hacia enfatizar los resultados de aprendizaje y la
apertura a reconocerlos cuando son adquiridos por cuenta propia, experiencia laboral o

®
julio 2017
4

proceso formativo, requiere que las instituciones cuenten con procesos robustos, objetivos
y transparentes de evaluación y certificación de aprendizajes.

Las instituciones de educación superior utilizan procesos y herramientas de evaluación


producidos por organizaciones especializadas en evaluación, generalmente bajo el
principio de evitar conflictos de interés al ser juez y parte en la evaluación de los resultados
de la formación que proporcionan. Sin embargo, las características y sellos distintivos de la
formación, propios de cada institución, no siempre son considerados y reflejados en las
evaluaciones externas.

Frente a esta situación, la opción de construir procesos e instrumentos de evaluación de


forma colaborativa entre instituciones de educación superior y actores sociales, y la
rigurosidad y profesionalismo con los que se utilicen los aspectos metodológicos y técnicos
que garanticen validez en la evaluación, dotan de oportunidades a las instituciones para
ampliar y profundizar en sus alternativas de evaluación.

En las instituciones de educación superior se pueden tener diversos momentos y niveles


jerárquicos de evaluación (institución, departamento o aula) de acuerdo con su propósito,
como se puede observar en la Tabla 1 donde se presentan algunos ejemplos.

Propósito Institución Departamento Aula

Exámenes de ingreso a grado (licenciatura) o


X
posgrado.

Exámenes de egreso de grado o posgrado. X

Exámenes departamentales de un área de


X
conocimiento y nivel educativo.

Exámenes intermedios de grado (licenciatura). X

Exámenes de aula a nivel propios de cada


X
profesor.
Fuente: elaboración propia.
Exámenes de certificación específica en
colaboración con organizaciones externas o X
procesos externos.

Exámenes especiales de formación


complementaria, por ejemplo: lenguas
X
extranjeras, tecnologías de información,
interculturalidad, ciudadanía, entre otros.

Tabla 1. Ejemplos de propósito y nivel

En algunas instituciones se cuenta con instancias especializadas para la elaboración de


dichos instrumentos, pero no siempre es el caso. Lo más común es que los profesores
participen en alguno de los procesos institucionales, departamentales y, en algunos casos,
en los consejos consultivos de las pruebas que se desarrollan por organizaciones externas,
pero necesariamente lo hacen en el proceso de evaluación en el aula. Ya sea por la

®
julio 2017
5

necesidad de interpretar y utilizar los resultados de las evaluaciones institucionales o por


las necesidades del aula, por ello es importante que los profesores profundicen en las bases
conceptuales y metodológicas del diseño de procesos y herramientas de evaluación.

Criterios
Para iniciar la reflexión sobre la evaluación, es conveniente tomar como punto de partida la
definición de “criterio”, que según la Real Academia Española (RAE), es la siguiente:
Término que proviene Del lat. tardío criterĭum, y este del gr. κριτήριον kritḗrion, der. de
κρίνειν krínein ‘juzgar’, y tiene dos acepciones:

1. m. Norma para conocer la verdad.


2. m. Juicio o discernimiento.

En la toma de decisiones, en cualquier contexto, las personas, de forma explícita o tácita,


aplican criterios de acuerdo con el propósito que persiguen. Aunque la forma de
razonamiento es un proceso personal, “es posible indicar y describir a grandes rasgos las
distintas maneras en que los hombres piensan realmente. Algunas de ellas son mejores
que otras y se pueden enunciar las razones por las cuales son mejores. Quien comprende
cuáles son las mejores maneras de pensar y por qué son mejores, puede, si lo desea,
modificar su propia manera de pensar para que resulte más eficaz, es decir, para realizar
mejor el trabajo que el pensamiento es capaz de realizar y que otras operaciones mentales
no pueden llevar a cabo con la misma eficacia”. (Dewey, 1989, 21).

El segundo elemento que considerar es el proceso de evaluación por el cual se estima,


aprecia o se calcula el valor de algo. La Real Academia Española (RAE), define el término
“evaluar” en su tercera acepción, como “Estimar los conocimientos, aptitudes y rendimiento
de los alumnos”. En el contexto educativo, el criterio para diseñar el proceso de evaluación
deberá considerar el sistema y contexto en el cual se dan las acciones educativas, así como
la consecución de sus metas.

Los conocimientos científico, social y humano se complementan entre sí, explicando la


realidad y dando cuenta de los contextos, intenciones, propósitos y tendencias de los
fenómenos. Los conocimientos se presentan y difunden en los medios de información y
comunicación del campo científico y son analizados, revisados, aprobados e incorporados
a los medios científicos que se rigen por los criterios dominantes del campo. El contexto
educativo, también genera y valida los criterios que utiliza para llevar a cabo el proceso
educativo y valida las expectativas de resultados de aprendizaje y competencias en
concordancia con el avance científico y profesional de los campos de conocimiento.

Los criterios surgen y se aplican en contextos sociales, culturales, científicos y académicos


para sustentar el razonamiento.

“Los criterios son todas aquellas herramientas, reglas o principios que utilizamos
para construir los juicios, para juzgar frente a una situación o hecho específico. Las
razones bajo las cuales valoramos o clasificamos son criterios, guías que

®
julio 2017
6

determinan y nos ayudan en el acto deliberativo. Así, los estándares, leyes,


estatutos, reglas, preceptos, requisitos, límites, convenciones, normas, fines,
propósitos, objetivos, métodos, programas, medidas, etc., son parte del aparato
racional (…) funcionan en el proceso de indagación de forma dinámica y crítica.”
(Zapata Maya, 2010, 29)

Evaluación del criterio/ pensamiento crítico


El buen juicio se sustenta en el criterio que utiliza, por lo que la selección y evaluación del
criterio requiere de una explicitación clara y precisa del criterio a evaluar.

El criterio está relacionado con lo que se considera un pensamiento crítico en un campo de


conocimiento y profesional que comparten una base de conocimiento y estándares que
fundamentan los marcos teóricos, heurísticos y procedimentales, y que están guiados por
estándares intelectuales. El pensamiento crítico se define como un pensamiento ordenado
que utiliza la indagación e investigación para abordar las situaciones o problemas,
identificar variables, establecer relaciones, analizar y ponderar las relaciones, proponer
argumentos propios, libre de prejuicios y sesgos, que considera y pondera los
contraargumentos, y que basa sus decisiones en un proceso racional. Para seleccionar los
criterios (Lipman,1988), se debe descansar en otros criterios que funcionan como meta-
criterios. Los criterios se pueden valorar por su confiabilidad, fuerza, relevancia y por su
coherencia y consistencia.

La evaluación del criterio significa establecer relaciones entre el pensamiento crítico, los
criterios y el juicio. “La conexión, evidentemente, se articula sobre la base de que el
pensamiento crítico es un pensamiento hábil, y que las habilidades en sí mismas no pueden
ser definidas sin criterios mediante los cuales puedan ser evaluadas”. (Lipman, 2014).

El contexto de aplicación, el campo de conocimiento y ejercicio profesional son


determinantes en la aceptabilidad de los criterios y su utilidad probada a través de
evidencias sobre su validez y consistencia. La evaluación del criterio tendrá que ubicarse
dentro de su campo de aplicación, con sus reglas y convenciones. “Una de las principales
funciones de los criterios es proporcionar las bases para las comparaciones. (…) Los
criterios especifican los requerimientos generales, y los estándares representan el grado en
el que esos requerimientos tienen que cumplirse para una instancia particular”. (Lipman,
1988)

El uso de criterios específicos de acuerdo con el contexto, la reflexión sobre su pertinencia


y aplicabilidad, y las adecuaciones al contexto son la base para un buen juicio.

El pensamiento crítico es el proceso de razonamiento que se basa en la identificación y


selección de la base de conocimiento e información relevante, precisa y adecuada a la
situación o problemática, la construcción de alternativas de solución o respuestas, el
análisis de sus implicaciones y la ponderación de cada opción, así como la coherencia entre

®
julio 2017
7

la información, criterios, argumentos y propuestas; y la claridad para su comunicación.


Estos estándares para valorar un pensamiento crítico se refieren a la corrección lógica,
integridad y equidad.

“La corrección lógica se refiere al razonamiento correcto para arribar a las


conclusiones; integridad se refiere al pensamiento y evaluación profunda y
minuciosa, evitando el pensamiento y crítica superficiales; la equidad se refiere a la
imparcialidad, libre de sesgo y preconcepciones que distorsionan el pensamiento.”
(Austin, 2012)

El pensamiento crítico y el criterio van más allá de una metodología y seguimiento de reglas
y estándares; requieren del pensamiento inductivo que se basa en la necesaria
observación, experimentación, explicación y modelamiento para la continua reflexión y
prueba del razonamiento y los criterios utilizados.

“El pensamiento crítico no es singular, sino que abarca varios modos de


pensamiento. En otras palabras, para que el pensamiento crítico dialógico ocurra
debe darse un pensamiento lógico, creativo, responsable y metacognitivo. El
pensamiento crítico resulta de la utilización de la totalidad de estos modos
cognoscitivos”. (Daniel, 2003)

Por ejemplo, en el campo de la Medicina:

“(…) el buen criterio, entonces es la aplicación del examen y descubrimiento de la


Verdad bajo el doble concepto de la ciencia y arte, de la teoría y de la práctica. Así,
la cirugía que no es una ciencia exacta pero que deber aplicar principios científicos,
es un arte al aplicar esos principios a necesidades específicas de un paciente en
determinadas circunstancias particulares y en un momento establecido.

(…) el criterio es una suma de capacidades físicas, emocionales, intelectuales,


morales, de entrenamiento y experiencias que se aprenden, desarrollan y actualizan
a lo largo de la vida de un médico que permiten aplicar principios científicos en cada
situación particular y que su única entrega es el bienestar del enfermo. Si cada
profesional reconoce en forma rigurosa y con honestidad sus capacidades y
limitaciones, si se mantiene sensible a las necesidades de sus pacientes y de su
actualizable profesión, participará en el desarrollo y la comprensión de su propio
criterio médico-quirúrgico”. (Arribalzaga, 2016)

Los criterios que pueden sustentar la selección y diseño de un proceso de evaluación en


educación incluyen el proceso de razonamiento sobre el propósito de la evaluación y el
contexto del proceso educativo, así como la incorporación de la base de conocimiento
generada por la investigación educativa sobre el aprendizaje, su evaluación y sobre los
métodos de evaluación y validación.

®
julio 2017
8

Propósitos y modelo de evaluación


Los propósitos de la evaluación en la educación pueden ser muy diversos, pero los más
comunes en las instituciones de educación son los siguientes:

• indicador sumativo para calificar los logros de aprendizaje de un estudiante con el


fin de la promoción o certificación
• indicador formativo del desempeño de un estudiante para promover el aprendizaje
• indicador de impacto en contraste con poblaciones sin intervención y de mayor
duración
• rendición de cuentas de logro del proceso, programa o proyecto

En el caso de evaluaciones de resultados de aprendizaje y competencias, las evaluaciones


deben representar plenamente las competencias que demanda un mundo cada vez más
complejo y cambiante, y pueden acelerar la adquisición de estas competencias si guían las
acciones de los docentes y permiten a los estudiantes evaluar su progreso. (Pellegrino,
2014)

La evaluación es una inferencia válida a partir de datos para hacer una afirmación,

“(…) la validez es un juicio evaluativo integrado por el grado en el que la evidencia


empírica y los razonamientos teóricos apoyan las inferencias y acciones adecuadas
y apropiadas, basadas en las calificaciones de pruebas u otros modos de
evaluación”. (Messick,1989)

La evaluación requiere de un modelo que relacione los propósitos y objeto de evaluación


con la selección de los instrumentos y la interpretación de los resultados. En el modelo se
reflejan los fundamentos, prioridades y finalidades de la evaluación, que sirven de guía para
explicitar cada uno de los elementos y permiten diseñar el proceso con los actores
principales involucrados. En la Figura 1 se relacionan los elementos del modelo.

®
julio 2017
9

Fuente: elaboración propia.


Figura 1. Modelo de evaluación.

El objeto de evaluación puede ser un plan de estudios, un programa de intervención, los


aprendizajes de los estudiantes. En todos los casos, es necesario describir sus
características y contexto de la evaluación para delimitar los aspectos que se considerarán
en el proceso. Las dimensiones o factores que se consideran o seleccionan para la
evaluación están en función del objeto de evaluación y de su propósito.

El propósito de la evaluación influye en todos los elementos del modelo de evaluación,


puede ser formativa con fines de retroalimentación, de resultados o logro, de impacto o de
rendición de cuentas. En cada caso, la metodología para el desarrollo de los instrumentos
y procesos de evaluación tendrá especificaciones propias para cumplir con su propósito.

En el contexto educativo, los criterios para la evaluación deberán considerar el sistema y


contexto en cual se dan las acciones educativas y la consecución de sus metas.

Para el caso de la evaluación educativa, se explicitan las dimensiones que integran el


aprendizaje y su descripción en términos de resultados de aprendizaje. Para cada
dimensión es necesario describir los indicadores, evidencias y criterios que dan cuenta del
resultado de aprendizaje en términos observables. Esta información es la base para
seleccionar los instrumentos o fuentes de información para obtener las evidencias y para
interpretar los resultados, añadiendo los criterios de calidad para valorar las evidencias.

“En todos los casos es condición moral acordar criterios, entender razones y, en
especial, comprenderlo como acto de construcción de conocimiento, pero esta vez
como una construcción de los docentes, entendiendo las razones del alumno, desde el

®
julio 2017
10

propio corazón del reconocimiento de que él también está implicado en lo que el alumno
aprendió.” (Camilloni, et al., 1998)

Evaluación del aprendizaje


La evaluación del aprendizaje tiene tres elementos constitutivos que se relacionan entre sí
para garantizar congruencia entre el aprendizaje y su evaluación: la cognición, la
observación y la interpretación, Figura 2.

Fuente: Pellegrino, 2014.


Figura 2. Triángulo de la evaluación del aprendizaje.

• Cognición: los aspectos de logro que se evaluarán.


• Observación: las tareas que se utilizarán para reunir evidencias sobre el logro.
• Interpretación: los métodos utilizados para analizar la evidencia.

Para la selección y diseño de los instrumentos para la evaluación del aprendizaje es


necesario hacer el análisis del modelo de cognición o aprendizajes, el modelo de
observación y el modelo de interpretación (Mislevy, 2003). De forma esquemática en el
diagrama se indican los tres modelos y los elementos que pueden contener. El modelo
centrado en evidencias (ECD) considera la ruta de:

• Partir de un aprendizaje/ dominio (constructo)


• Resolver una tarea que produzca datos y evidencias
• Inferir con las evidencias el nivel del logro del aprendizaje/ dominio
ración propia.

®
julio 2017
11

Dimensiones

Modelo de
Tipos de conocimiento
cognición

Competencias
transversales
Opción múltiple
Cerrada
s Multirreactivos
Evaluación del Modelo de Instrumentos/
Aprendizaje observación Pruebas

Fuente: elaboración propia.


Reportes escritos
Abiertas
Reportes orales
Estándares
Modelo de Portafolios
interpretación

Rúbricas Pruebas de
ejecución

Figura 3. Modelo de evaluación.

Siguiendo a Mislevy, el modelo de evaluación del aprendizaje se integra por tres


componentes: modelo de cognición, modelo de observación y modelo de interpretación,
Figura 3.

El modelo de cognición describe los aprendizajes: sus dimensiones, tipo de conocimiento


y competencias, y las evidencias que darán cuenta de estos. Esta descripción requiere el
concurso de los actores involucrados en el proceso de formación: los académicos e
investigadores que están actualizados sobre el campo de conocimiento; y los profesionales
que aplican los conocimientos, certifican y validan las competencias en diferentes
contextos,

El modelo de observación describe las tareas o estímulos que producirán las evidencias
de los aprendizajes, que determinan los instrumentos o pruebas que se utilizarán para la
medición de los aprendizajes. Dependiendo de varios factores, como pueden ser el tamaño
de grupo, el tipo de aprendizajes, se pueden seleccionar pruebas cerradas estructuradas,
o pruebas abiertas, como son los reportes escritos, reportes orales, portafolios o pruebas
de ejecución. Estas pruebas pueden ser complementarias con la finalidad de contar con un
mayor número y amplitud de evidencias de los aprendizajes.

“(…) diseñar instrumentos y aplicarlos, optar por alguna metodología en lugar de


otras, nos permitirá tener acceso a una cierta cantidad de información en relación
con lo que se desea evaluar. Su capacidad para dar cuenta de diferentes tipos de
conocimientos dependerá de la sensibilidad de dichos instrumentos para captar o
capturar los datos buscados. El cuidado en su aplicación (elección del momento,
características de la situación, clima creado para su realización, etcétera) también

®
julio 2017
12

incidirá en la validez y confiabilidad de los datos que se obtengan.” (Camilloni, et al.,


1998)

El modelo de interpretación describe los criterios para la valoración de las evidencias, que
pueden ser las evidencias que se requiere observar y los estándares de calidad
previamente determinados o rúbricas que describen los niveles de valoración para los
elementos que se observan en las pruebas abiertas.

Los criterios que se utilizan para valorar las evidencias contienen tanto los elementos que
es necesario observar como el estándar o nivel que se espera cumplir para asignar un valor.
Indican las características de un desempeño adecuado de acuerdo con un estándar que
debería ser convenido por los actores involucrados en el proceso de elaboración del
proceso de evaluación.

El diseño de la evaluación puede seguir un modelo centrado en la tarea en donde los


estudiantes desempeñan tareas significativas e importantes, y el propósito es realizarlas
correctamente; o un modelo centrado en un constructo o rasgo latente, donde lo que
interesa son las competencias que subyacen en el desempeño de la tarea. Este último inicia
identificando los conocimientos, habilidades y otros atributos que deberían evaluarse y que
guían la selección de las tareas. (Messick, 1994)

En el artículo Introducción a los distintos tipos de evaluación y los instrumentos más usuales
de Javier Cortés de las Heras puede encontrar una descripción sintética y las ventajas e
inconvenientes de cada uno de ellos.

Perfil de referencia/ modelo de cognición


En el análisis del modelo de cognición y construcción del perfil de referencia es necesario
describir el proceso educativo, los aprendizajes esperados de los estudiantes, la enseñanza
por el profesor, el contexto del proceso educativo y de evaluación, y las expectativas e
intervención del observador o evaluador.

El profesor diseña el proceso de enseñanza - aprendizaje para el logro de un conjunto de


aprendizajes, y diseña el proceso de evaluación de logro y de aprendizajes en el marco del
contexto del proceso educativo, de la evaluación y del sistema institucional de
reconocimiento de aprendizajes.

El profesor define las competencias y aprendizajes que espera que logren los estudiantes,
y, según sus características, podrá llevar a cabo observaciones directas, pruebas o
exámenes abiertas o cerradas; o ejecuciones para obtener evidencias que muestren el
desarrollo de las competencias y logro de los aprendizajes. Sin embargo, no siempre se
obtienen evidencias por la conducta directa, sino que es necesario realizar inferencias sobre
el nivel de logro y aprendizajes a partir de las respuestas de las estudiantes agrupadas en
dimensiones latentes, y que permiten la interpretación de las variables manifiestas. En este
último caso, las evaluaciones del aprendizaje se basan en la descripción del perfil de egreso
o logro después de la intervención educativa, ya sea un curso o un plan de estudios.

®
julio 2017
13

El perfil se integra por la descripción de las dimensiones que agrupan los aprendizajes
esperados. Las dimensiones son los rasgos latentes constitutivos del aprendizaje, que no
se pueden observar directamente, pero que a través de evidencias obtenidas en las
pruebas se podrá hacer la inferencia del logro del aprendizaje. En la Figura 4 se ilustra la
relación entre rasgo latente y variable manifiesta cuando se diseña la evaluación. Cuando
se hace la inferencia la relación va de la variable manifiesta al rasgo latente.

Fuente: elaboración propia.


Figura 4. Relación entre rasgo latente y variables manifiestas.

Un rasgo latente o dimensión es un estado del sujeto que no se observa directamente y


que se busca valorar por su expresión a través de conductas o desempeños que muestran
su existencia. El modelo de rasgo latente y observable que se utiliza en las evaluaciones
cerradas estandarizadas basan sus inferencias en las respuestas a un conjunto de reactivos
o ítems de acuerdo con un modelo de interpretación.

Para estructurar las pruebas se describen las dimensiones que integran el aprendizaje, sus
elementos y su descripción operativa. Por ejemplo, en la Figura 5, para el área de la Salud
se describe una dimensión que se refiere a la clínica y sus elementos:

● Dimensión 1. (Rasgo latente 1): Dominio y aplicación de la clínica


– Elemento 1: Diagnóstico
▪ Descripción: Reconoce los elementos que definen al paciente enfermo.
Identifica y explica la secuencia habitual del proceso diagnóstico. Explica y
aplica las diferentes estrategias utilizadas para realizar el diagnóstico clínico
– Elemento 2: Tratamiento
– Elemento 3: Pronóstico

Figura 5. Ejemplo de dimensiones en el área de salud.

®
julio 2017
14

Un perfil de referencia puede contener varias dimensiones y elementos que servirán de


base para desarrollar el modelo de observación con el tipo de tareas e instrumentos que
permitan obtener las evidencias necesarias para la evaluación.

Los aprendizajes en un curso son muy diversos por lo que se requieren varios instrumentos
de evaluación que en su conjunto ofrezcan información para valorar el nivel de desarrollo y
desempeño de los estudiantes.

Modelo de observación/ Pruebas estructuradas cerradas


Las pruebas estructuradas cerradas son herramientas que se diseñan rigurosamente para
garantizar validez en la medición y obtener un resultado para sustentar el juicio de valor
sobre los conocimientos, habilidades o competencias de los individuos.

En el contexto de un plan de estudios, una prueba de final de carrera o de certificación es


una herramienta para obtener información sobre el desarrollo de los conocimientos,
habilidades, competencias que requiere un profesional para el ejercicio de su profesión,
como resultado de su formación.

Siguiendo con el modelo de evaluación, las premisas para el diseño centrado en evidencias
(Mislevy et al, 2003):

● La evaluación debe construirse sobre el conocimiento importante del dominio de


interés, cómo se aprende y utiliza el aprendizaje.
● Basar en evidencias la cadena de razonamiento entre lo que dice y hace el
participante en la evaluación y las inferencias acerca de lo que sabe y puede hacer.
● El propósito de la evaluación debe sustentar las decisiones de diseño que reflejan
las limitaciones, recursos y condiciones de uso.

En el contexto del aula, las pruebas cerradas son útiles para valorar el avance en algún tipo
de aprendizaje. Es frecuente que las pruebas estructuradas cerradas sean diseñadas por
el colegio de profesores que imparten la misma asignatura a grupos diferentes, y con ello
dar seguimiento a los cursos con la finalidad de garantizar un progreso homogéneo en
alcance y calidad.

La unidad básica de las pruebas cerradas estructuradas son los reactivos/ ítems que
buscan obtener evidencias (variable manifiesta) de los aprendizajes desarrollados. Se les
conoce como reactivos de opción múltiple y multirreactivos. Los primeros tienen una base
que contiene la pregunta o caso a resolver, y varias opciones de respuesta, donde solo una
es correcta; los segundos contienen una base que puede ser un caso o problema del cual
se pueden derivar varios reactivos/ítems de opción múltiple.

En los multirreactivos, cada reactivo que se asocia al caso se resuelve con la información
acompañante general o con un poco más de información que se agrega para dar un mayor
contexto a la pregunta específica. Los reactivos asociados a un multirreactivos deben ser
independientes entre sí.

®
julio 2017
15

Pruebas abiertas
Las pruebas abiertas permiten valorar aprendizajes a partir de las respuestas construidas
o ejecutadas por los estudiantes. Las pruebas abiertas principales son: ejecución, reporte
oral, reporte escrito, portafolio de trabajo. Para otorgar una valoración y puntuación a un
reactivo abierto es necesario utilizar una guía que describa al evaluador cuáles son los
elementos que se deben observar y cuáles son las evidencias que deben estar presentes
para confirmar que el estudiante ha logrado el aprendizaje. Las guías pueden ser listas de
verificación o matrices de valoración:

● Listas de verificación (checklists) que se utilizan para confirmar que se ha cumplido


con los elementos o evidencias requeridos en el desempeño.
● Matrices de valoración o rúbricas que se utilizan para valorar niveles de desempeño
en la resolución de problemas complejos.

En la resolución de problemas complejos, la respuesta no es única y sus componentes


pueden tener diferente calidad por lo que es necesario describir varios niveles de logro o
desempeño. Generalmente, a través de las pruebas abiertas se obtienen varias evidencias,
y para su evaluación se construye una matriz de valoración con los elementos a observar
en el producto o respuesta del estudiante. Estas matrices de valoración también se
denominan rúbricas.

Lista de verificación
Las listas de verificación enuncian las acciones o evidencias que se deben cumplir, y a las
cuales se les puede asignar una puntuación. En la Tabla 2 se muestra un ejemplo de lista
de verificación para una presentación oral.

Desempeño Sí No

El alumno muestra conocimiento sobre el tema

Las ideas y conceptos de la presentación son fáciles de entender

El alumno utiliza ejemplos claros, muestra evidencias y/o se apoya con material
gráfico

El alumno hace uso de lenguaje apropiado para el tipo de presentación

Los gestos y el lenguaje corporal son adecuados

Mantiene contacto visual con el público todo el tiempo

El alumno articula claramente

Tabla 2. Ejemplo de lista de verificación.

®
julio 2017
16

Rúbricas o matrices de valoración


La rúbrica es una guía que se utiliza para valorar y otorgar una puntuación a los elementos
del producto o examen de ejecución. Contiene criterios preestablecidos que permiten
determinar niveles de ejecución de diferente calidad. Los descriptores definen qué observar
a cada nivel de ejecución. A continuación, se describen dos tipos de matrices de valoración:
global y analítica.

Rúbrica global

La rúbrica global se utiliza cuando se toleran errores en el proceso, siempre que éste sea
de alta calidad. El estudiante se enfrenta a un problema o situación compleja, cuya
respuesta correcta no es única. El sinodal o profesores evalúan el proceso, producto y
resultado sin valorar de forma separada los elementos constitutivos; tiene la ventaja de ser
un proceso de evaluación rápido.

A continuación, en la Tabla 3 se presenta un ejemplo de rúbrica global para la resolucíón


de problemas con base en la propuesta del National Center for Research on Evaluation,
Standards, and Student Testing (CRESST). Schreyer Institute for Teaching Excellence.
Penn State www.schreyerinstitute.psu.edu, 2007.

Nivel 4 Nivel 3
La respuesta está caracterizada por: El estudiante selecciona los procedimientos y estrategias
• El estudiante selecciona e implementa los conceptos apropiados para resolver el problema; sin embargo, la respuesta/
relevantes y procedimientos y estrategias necesarias solución no es completamente correcta debido a alguna de las
para resolver el problema. siguientes causas:

• El estudiante considera todas las restricciones de la • Hay evidencia de que el estudiante tiene una mala
situación del problema. concepción o ha fallado en considerar conceptos
relevantes para resolver correctamente el problema.
• La solución y todo el trabajo relevante es correcto o
hay un error menor debido a algún error de cómputo • El estudiante falla en considerar las restricciones del
o de copia. problema.
• El estudiante ha considerado una variable irrelevante
o falla en considerar una variable relevante.
• La respuesta/ solución es correcta en lo general, sin
embargo no se proporcionó información de cómo el
estudiante llegó a la solución.

Nivel 2 Nivel 1
El estudiante selecciona los procedimientos y estrategias El estudiante proporciona una respuesta/ solución incompleta y/o
apropiados para resolver el problema; sin embargo, la respuesta/ incorrecta. Adicionalmente, se aprecian uno o varias de las
solución no es completamente correcta debido a alguna de las siguientes evidencias:
siguientes causas: • El estudiante considera una restricción o variable del
• Hay evidencia que el estudiante tiene varias malas problema.
concepciones y ha fallado en considerar conceptos • El estudiante comprende algunos conceptos
relevantes necesarios para resolver correctamente el relevantes al problema.
problema.
• El estudiante selecciona una estrategia o
• El estudiante falla en considerar varias de las procedimiento totalmente inapropiado.
restricciones del problema.
• El estudiante considera algunas variables irrelevantes
y falla en considerar variables relevantes.
• El estudiante no lleva a cabo los procedimientos/
estrategias suficientes para alcanzar la solución.
• La respuesta/ solución general es correcta, sin
embargo, no hay información de cómo alcanzó la
solución.

Tabla 3. Ejemplo de rúbrica global.

®
julio 2017
17

Rúbrica analítica

La matriz de valoración o rúbrica analítica se utiliza cuando se requiere más detalle en la


evaluación, y generalmente se utiliza para evaluaciones formativas para retroalimentar a
los estudiantes sobre su desempeño. Se asigna una puntuación a cada elemento, que se
pondera para calcular un puntaje final numérico; tiene la ventaja de que las puntuaciones
de los elementos reflejan un perfil de fuerzas y debilidades, que sirve de base para
establecer un plan de mejora. La matriz de valoración establece el criterio de cada nivel o
puntuación. En la Tabla 4 se muestra un ejemplo de matriz de valoración analítica.

Un ejemplo de la utilidad de las rúbricas analíticas para dar seguimiento al desarrollo de


competencias es su uso para valorar trabajos o proyectos elaborados en diversos
momentos y ordenados cronológicamente en un portafolio, lo que permite observar el
avance en el tiempo.

Tabla 4. Ejemplo de rúbrica analítica.

Las matrices de valoración se pueden convertir en calificaciones numéricas asignando


puntuaciones a cada uno de los elementos y niveles. En la Tabla 5 se muestra un ejemplo:

®
julio 2017
18

Tabla 5. Ejemplo de asignación de calificación.

Características de las rúbricas

Para construir una rúbrica es importante cumplir con las siguientes características:

1. Continuidad en la escala: el cambio en calidad de un nivel de ejecución al siguiente


debe ser “igual” en todos los intervalos; los criterios de ejecución deben reflejar esta
continuidad.
2. Paralelismo en los criterios: cada descriptor debe mantener paralelismo con sus
descriptores vecinos, en términos del lenguaje utilizado en cada oración.
3. Coherencia en los criterios: aun cuando los descriptores son diferentes para
distintos niveles de ejecución, los cambios se deben referir a cambios en calidad
para un mismo criterio.
4. Validez de contenido: permite evaluar lo relevante en el dominio, no lo que es fácil
de observar y/o calificar.
5. Confiabilidad de la medida: ofrece resultados consistentes para distintos jueces,
distintos examinados y distintos tiempos.

Para diseñar una rúbrica analítica se recomiendan los siguientes pasos:

• Paso 1. Examinar los objetivos de aprendizaje a los que se referirá la tarea.


Redactar los elementos del dominio.

®
julio 2017
19

• Paso 2. Identificar las evidencias específicas, observables, que se desee muestre


el examinado durante el desarrollo de la tarea, para cada elemento del dominio.
Ubicarlas en el nivel de ejecución que les corresponda.
• Paso 3. Hacer una lluvia de ideas para encontrar características que describan
cada evidencia en el resto de los niveles de ejecución. Estas características se
convertirán en los descriptores del criterio.
• Paso 4. Redactar descripciones narrativas detalladas por cada evidencia para
caracterizar el desempeño esperado en los diferentes niveles de calidad
establecidos, por ejemplo, Excelente, Muy Bueno, Mínimamente Aceptable y No
Acreditado.
• Paso 5. Revisar continuamente la rúbrica, después de cada aplicación.

Validación de las rúbricas/ matrices de valoración

Al igual que se hizo con las pruebas cerradas, es necesario llevar a cabo un proceso de
validación, tanto para contar con la validez de contenido como para su confiabilidad. En el
primer caso, se recurre a profesionales del campo; y en el segundo, a las personas que
participarán como jueces en el proceso de evaluación.

Como para su aplicación se recurre a jueces, se realiza una aplicación piloto de las rúbricas,
pidiendo a varios jueces que valoren la misma respuesta o producto utilizando la rúbrica, y
pidiéndoles que expliquen el proceso de reflexión y criterios aplicados, para después hacer
la comparación de las respuestas de los jueces y ajustar la rúbrica.

Tecnologías digitales en la evaluación


Las tecnologías digitales permiten enriquecer los reactivos / ítems con recursos multimedia
utilizando imágenes, gráficos, videos, audios y software.

En las pruebas estandarizadas, en la base del reactivo o en las opciones de respuesta se


pueden combinar textos y materiales multimedia. Dependiendo de las condiciones de
aplicación de los instrumentos de evaluación se podrán seleccionar los recursos multimedia
adecuados, ya que pueden ser instrumentos de aplicación en papel o con ordenadores
personales: locales o en línea.

Es importante considerar que la evaluación deberá emular, en la medida de lo posible, el


contexto de aprendizaje y de aplicación de la acción o toma de decisiones que el estudiante
ejecutará para demostrar el nivel de logro del aprendizaje.

Si se cuenta con la posibilidad de aplicación de los instrumentos utilizando ordenadores


personales, se deberá seleccionar o producir el material multimedia de acuerdo con las
especificaciones técnicas que indique el sistema de aplicación de la prueba, por ejemplo:
características de las imágenes, formato y tamaño del video o audio.

®
julio 2017
20

Criterios de calidad del instrumento


Cualquier instrumento de evaluación requiere ser analizado y validado para garantizar la
mayor objetividad y calidad en la evaluación. Los estándares que más se utilizan para las
evaluaciones que se desarrollan profesionalmente están acordados por la American
Educactional Research Association, la American Psychological Association y el National
Council on Measurement in Education.

Los criterios que se utilizan son de confiabilidad y validez.

La confiabilidad se refiere a:

● Precisión de la medida (discrimina entre novatos y expertos).


● Acuerdos entre los especialistas y jueces con los criterios y tipo de tareas de la
evaluación.
● Consistencia de los resultados de aplicación de la evaluación en diferentes
ocasiones, contextos y asesores.
● Comparabilidad del proceso y resultados de las evaluaciones en diversas
ocasiones.

La validez se refiere al grado en el que la evidencia y modelo de evaluación sustentan las


interpretaciones. Para ello se consideran los siguientes aspectos:

● Validez de contenido: verifica que el instrumento mida el rasgo/ dimensión o


constructo de interés.
● Validez estructural: coherencia entre las dimensiones del instrumento y las
correlaciones con las puntuaciones.
● Validez externa: características convergentes, discriminantes y predictivas.

En el aula, la validación para asegurar la calidad de la prueba se realiza por consulta,


revisión y acuerdos entre diferentes profesores y especialistas durante el proceso de
construcción de la prueba. Los instrumentos se valoran con grupos de estudiantes, de tal
forma que se tenga información sobre la comprensión del instrumento y para verificar que
mida correctamente el desempeño o el constructo/ rasgo.

La validez puede ser empírica o procedimental (Haladyna, 2006). En la parte empírica se


consideran los estudios de alineación de los modelos de la prueba: cognitivo, observación
e interpretación. Como evidencia procedimental se incluyen las especificaciones de la
prueba; los estudios y revisiones de sesgo y sensibilidad; y el uso de evaluación centrada
en evidencias (ECD) o algún otro enfoque de diseño. Como evidencia empírica se utilizan
estudios con laboratorios cognitivos para identificar la validez de contenido y el análisis de
los resultados obtenidos. Como evidencia basada en la estructura interna, se considera el
análisis estructural para verificar la dimensionalidad, y la calidad psicométrica de la prueba.

La validez externa se basa en los estudios de predicción o resultados concurrentes con


otras pruebas; y estudios que involucran a expertos y actores que definen el deber ser del
dominio de la prueba.

®
julio 2017
21

En las pruebas estructuradas cerradas a gran escala, el análisis de confiabilidad y validez


se basa en el análisis psicométrico de los instrumentos con base en modelos estadísticos:
frecuentistas, de teoría de respuesta al ítem, y estructurales. Los instrumentos se validan a
través de aplicaciones piloto, con al menos trescientos sustentantes, para calibrar los ítems
y las pruebas.

Cuando las pruebas incluyen ítems de respuesta construida o abierta, es necesario elaborar
los criterios de valoración y validarlos con los profesionales y con los jueces que participarán
en la evaluación.

Principios para la construcción de exámenes de certificación de aprendizajes y


competencias
Uno de los principales beneficios que ha tenido la explicitación de los resultados de
aprendizaje y competencias que se esperan tenga un profesional o egresado de un proceso
educativo, es la posibilidad de construir procesos de evaluación independientes a los
procesos de formación que permitan inferir si el nivel de aprendizaje y competencia del
sustentante cumple con los criterios establecidos. Es una opción para el reconocimiento de
los aprendizajes a lo largo de la vida, pero también permite otorgar una certificación a los
profesionales que requieren una actualización y demostración de aprendizajes, habilidades
y competencias de forma recurrente durante su vida profesional.

La certificación, en términos generales, se define como el proceso formal que reconoce y


valida las cualificaciones del individuo en ciertas áreas. Es un reconocimiento al
especialista, basado en un examen de competencia que puede ser escrito y/o observado,
y no requiere estar asociado con el requisito de haber tomado un curso o currículo
específico, un ejemplo de ello se puede ver en la International Test and Evaluation
Association (https://www.itea.org/professional-development/professional-certification/).

El resultado de la certificación asegura que la persona está calificada para desempeñar con
calidad el trabajo o tarea que ampara el certificado o su homologación para el
reconocimiento del nivel de formación correspondiente. Aunque se debate mucho sobre si
la certificación da cuenta cabal y global de los aprendizajes, ya que muchos no son
observables directamente, la certificación es un proceso que puede incluir, no solo una
prueba sino también, requisitos previos o evidencias provenientes de fuentes diversas que
sustenten el juicio de los evaluadores.

Mediante el proceso de certificación se verifica que el profesional haya desarrollado las


competencias requeridas para un área compleja de conocimiento, que incluye la
demostración de los retos, responsabilidades y aspectos emergentes que exige el ejercicio
profesional o el campo de acción. Por lo mismo, en algunos campos profesionales se ha
impuesto el requisito de recertificación periódica para garantizar a la sociedad un
desempeño adecuado, dentro de los estándares de competencia vigentes. En algunas
áreas de conocimiento y campos profesionales, los gremios profesionales y los centros

®
julio 2017
22

educativos ofrecen oportunidades de actualización a través de las instancias de educación


continua, presencial o en modalidades abiertas, de estudio autorregulado, en línea.

Por ejemplo: en los campos de salud, se exige la recertificación periódica, por lo que los
consejos profesionales de las diferentes especialidades han desarrollado procesos e
instrumentos que les permitan certificar a los profesionales del área. En México, para
cumplir con este requerimiento legal, se creó el Comité Normativo Nacional de Consejos de
Especialidades Médicas (CONACEM)1 como “organismo auxiliar de la Administración
Pública Federal a efecto de supervisar los conocimientos, habilidades, destrezas, aptitudes
y calificación de la pericia que se requiere para la certificación y renovación de la vigencia
de la misma o recertificación, en las diferentes especialidades de la medicina” “…El
CONACEM, se integra por la Academia Nacional de Medicina de México, A.C., la Academia
Mexicana de Cirugía, A.C., y por aquellos CONSEJOS constituidos en asociaciones civiles
cuyo objeto social comprenda la evaluación para la certificación y recertificación de médicos
especialistas y subespecialistas”.

La certificación se basa en pruebas diseñadas bajo los principios y estándares de la


evaluación y psicometría, y se desarrollan con los especialistas del área para cumplir con
los requisitos de contenido profesionales y legales.

Tanto los organismos profesionales, como las entidades certificadoras requieren de la


adhesión a un código de ética profesional.

Evaluación para la certificación


La evaluación para la certificación se basa en los principios de evaluación por competencias
que requiere de al menos dos momentos e instrumentos de evaluación:

1. Examen escrito, compuesto por reactivos que exploran los conocimientos y


competencias para resolver casos y problemas.

Reactivos de opción múltiple con material acompañante de texto, audio,


video o multimedia.

2. Examen de ejecución, que explora las competencias para resolver un caso en


situación y contexto real y, en su caso, la ejecución de un procedimiento físico y uso
de herramientas o instrumental propio del área o de la especialidad.

Caso que se observa y califica por jueces con base en una guía o rúbrica de
valoración.

Los exámenes de ejecución pueden estar diseñados para valorar varias habilidades y
destrezas, por lo que, en algunas ocasiones, tienen varios sitios o estaciones de evaluación.

1
Estatutos, http://www.conacem.org.mx/index.php/marco-juridico/estatutos-conacem

®
julio 2017
23

La elaboración de los instrumentos de evaluación se lleva a cabo con los colegios


profesionales y con especialistas y académicos ya certificados de alto reconocimiento, con
base en los siguientes lineamientos:

• Psicométricos: Standards for Educational and Psychological Testing, desarrollados


por la American Educational Research Association (AERA), American
Psychological Association (APA), y el National Council on Measurement in
Education (NCME)
• Calidad del procesos, elaborados por los organismos de evaluación como
Standards for Quality and Fairness 2014 del Educational Testing Service (ETS); y
por organismos profesionales, como por ejemplo, en las ciencias médicas el
National Board of Medical Examiners (NBME), en Estados Unidos, y la CONACEM
en México.

Construcción de los exámenes de opción múltiple

Determinación del perfil de referencia


El perfil de referencia representa las competencias, conocimientos, y habilidades que
definen y domina el profesional que se certifica. La Tabla 6 sugiere un formato para facilitar
la descripción del perfil de referencia.

Se describen las principales áreas de conocimiento y práctica del profesional.


Generalmente corresponden a las áreas que han determinado los centros de formación y
participan paneles de expertos del campo profesional. Se busca representar los
conocimientos y habilidades necesarios para un desempeño efectivo, seguro y una forma
apropiada para valorarlos, en una agrupación por subtemas o componentes amplios con la
finalidad de asignar y distribuir el conjunto de reactivos para poder sustentar un juicio sobre
el nivel de desempeño de acuerdo con el resultado en el examen.

En el caso del examen para certificación2, como la certificación es un proceso continuo, se


requiere elaborar versiones diferentes de la prueba cada año, pero todas las formas o
versiones deben tener las mismas especificaciones, medir los mismos dominios y utilizar la
misma ponderación para cada componente o subtema. Las formas alternas deben tener la
misma escala de calificaciones para retener su significado.

Periódicamente cada especialidad deberá reevaluar los conocimientos y habilidades que


mide el examen para cubrir los requerimientos de la certificación. Cuando los cambios son
sustanciales, es necesario revisar el perfil de la especialidad, el contenido de la prueba y
redefinir el punto de corte del examen.

2
Ver Standards for workplace testing and credentialing en Standards for Educational and Psychological Testing. 2014, p. 178
-182

®
julio 2017
24

Tabla 6. Perfil de referencia

Tabla de especificaciones y tamaño de la prueba


El tamaño de la prueba es el resultado de estimar el número de reactivos necesarios para
cubrir todos los aspectos descritos en el perfil de referencia, así como cumplir con los
requerimientos psicométricos que le den validez a la prueba, sin causar fatiga en los
sustentantes por el tiempo de respuesta. En la Tabla 7, se presenta un ejemplo de formato
para la tabla de especificaciones.

Tabla 7. Tabla de especificaciones.

En los ejemplos de pruebas de certificación de altas especialidades los tamaños de las


pruebas se encuentran en el rango de los 100 a los 200 reactivos, con duración de entre
dos a cuatro horas.

®
julio 2017
25

En las pruebas en las que se reportan calificaciones por subtemas, es necesario que el
número de reactivos del subtema sea entre 15 y 20 reactivos y que sean suficientemente
distintas cada una de ellas, es inaceptable una calificación con menos de diez reactivos.3
Para la calificación total, subtema o una combinación de ellas, se requiere estimar los
índices de confiabilidad y precisión.4

En algunos casos, la calificación se calcula de forma global de manera que los bajos
resultados en un área o subtema son compensados por altos resultados en otro. En otros
casos, se requiere una calificación aprobatoria en todas las áreas del examen.

La decisión de aprobado o no aprobado debe ser cuidadosamente considerada y se debe


articular con la base conceptual o empírica que la sustenta. Definir el nivel mínimo de
conocimientos y habilidades para una certificación es una tarea muy importante y difícil. La
argumentación se basa en que la decisión de aprobado o no aprobado distingue entre un
desempeño adecuado y el no adecuado. Esta decisión se lleva a cabo con el panel de
expertos de la especialidad.

Asignar un porcentaje de respuestas como punto de corte puede resultar arbitrario a menos
que se conozca el contenido y dificultad de la prueba, así como los requerimientos
profesionales y laborales, y la relación que existe entre ambos. El punto de corte se fija por
los especialistas y no debe ajustarse para limitar o asegurar un número de personas que
aprueben la certificación.

Elaboración de reactivos de acuerdo con el perfil de referencia


La mayoría de las preguntas deberán estar basadas en escenarios reales. Se busca que el
sustentante demuestre su formación y experiencia. Para la elaboración de reactivos de
opción múltiple se siguen los lineamientos generales para este tipo de pruebas,
específicamente para las ciencias médicas se siguen los del National Board of Medical
Examiners5. Se desarrollan reactivos con material en texto, gráficos, audio y video.

Los especialistas revisan que los reactivos y la prueba correspondan al perfil de referencia,
es decir, aseguran la validez de contenido del examen. Es un proceso continuo desde su
diseño hasta su implementación.

Calibración y construcción del banco de reactivos


El conjunto de reactivos elaborados integra un banco de reactivos, que deberá cubrir los
requerimientos de la tabla de especificaciones y deberán ser en cantidad suficiente de cada
uno de los elementos y niveles de dificultad para contar con suficiente número de reactivos

3
Meije, Rob R., Boevé, Anja J., Tendeiro, Jorge N., Bosker, Roel J., Albers, Casper J. 2017. The Use of Subscores in Higher
Education: When Is This Useful?. Frontiers in Psychology. March. doi: 10.3389/fpsyg.2017.00305.
4
Standard 2.3 en Standards for Educational and Psychological Testing. 2014. AERA, APA, NCME.
5
Constructing Written Test Questions for the Basic and Clinical Sciences. 2016. National Board of Medical Examiners, y en
Haladyna TM. 1997. Writing Test Items to Evaluate Higher-Order Thinking. Needham Heights, MA: Allyn & Bacon

®
julio 2017
26

que sirvan de base para integrar diferentes versiones de la prueba. Generalmente, se


recomienda contar con un banco de reactivos calibrado con al menos tres veces el tamaño
de la prueba.

Selección de preguntas para el examen


En la etapa inicial de la construcción de una prueba para certificación, es requisito probar
los reactivos en una aplicación piloto, en donde lo que se valora es el funcionamiento de
los reactivos, y la validez y confiabilidad del instrumento. Para esta aplicación piloto se
recomienda integrar versiones de acuerdo con la tabla de especificaciones y procurar una
muestra de sustentantes que represente a la población objetivo de la evaluación, que
incluya individuos de los que se conoce su desempeño y que se pueden clasificar como
novatos y expertos. Las versiones se diseñan con un conjunto de reactivos compartidos
para posteriormente, durante el análisis, hacer las igualaciones necesarias entre las
dificultades de las pruebas.

El tamaño de la muestra deberá ser tal que permita obtener al menos trescientas respuestas
para cada reactivo.

En las aplicaciones siguientes, se recomienda utilizar reactivos que han tenido buen
comportamiento en los años anteriores. Para comparar resultados se recomienda
incorporar al menos 25% de reactivos anteriores al examen. Si se requiere calibrar reactivos
nuevos, se pueden aplicar durante los procesos de certificación, pero sin tomarlos en
cuenta para la calificación en curso.

Se revisa el comportamiento psicométrico del reactivo, así como el análisis de distractores


para seleccionar aquellos que se encuentran dentro de los rangos de aceptación
establecidos para el consejo de certificación.

Evaluación estadística del examen y de los sustentantes


Al término de la aplicación del examen, cada reactivo se valora estadísticamente para
verificar su comportamiento en el examen. Se verifican los valores de correlación y
consistencia del examen, y para cada reactivo: dificultad, discriminación y comportamiento
de los distractores. Se utiliza la teoría clásica o la teoría de respuesta al ítem dependiendo
del número de casos disponibles. De acuerdo con los valores obtenidos se eliminan los
reactivos cuya dificultad es muy alta o muy fácil, tienen una discriminación menor a 0.1 o
sus distractores no son escogidos por los sustentantes.

Los sustentantes se califican con el número de reactivos remanente después de eliminar


aquellos que presentaron un comportamiento inapropiado para el examen.

Varios organismos profesionales otorgan las calificaciones en puntaje para igualar su


valoración cada año, ya que los porcentajes de aciertos pueden variar cada año de acuerdo

®
julio 2017
27

con las versiones. El proceso de igualación (equating) asegura la comparación equitativa


de los desempeños a través de los años6.

El punto de corte se establece con los especialistas antes de asignar la calificación de


aprobación para la certificación.

Las medidas establecidas por la ASTM7 más utilizadas para las pruebas de certificación
son:

• Confiabilidad: medida de la consistencia de la prueba que arroja los mismos


resultados cuando se aplica al mismo sustentante en otra ocasión en condiciones
similares (ASTM 7.1). Una medida de confiabilidad es el Alfa de Cronbach.
• Validez: medida de la congruencia de la prueba con el campo profesional (ASTM
2.1.22).
• Reporte de resultados a los candidatos: guía para que puedan remediar sus fallas
(ASTM 7.2).
• Tamaño de la prueba: menor tamaño posible para evitar fatiga (ASTM 7.3.1).
• Eficiencia de la prueba: velocidad que se requiere en la prueba cuando es un factor
para considerar en el ejercicio profesional (ASTM 7.4.1).
• “Gating ítems”: preguntas críticas que en caso de fallar el sustentante queda
suspendido. (ASTM 7.5)
• Error de medida: estimación estadística de los resultados obtenidos en la
calibración de la prueba (ASTM 7.6.1).
• Cuando se utilizan formas paralelas (ASTM 5.2.1):
– La dificultad: en el modelo de teoría clásica, la dificultad entre formas debe
ser igualada (equated). El rango recomendable de valores p va de 0.35 a
0.95
– La discriminación: en teoría clásica el mínimo aceptable de punto biserial es
0.05
– Contenido: Cada una de las formas paralelas debe integrarse de acuerdo
con el perfil de referencia.
• El punto de corte debe establecerse para demostrar que el sustentante certificado
puede desempeñar competentemente los requisitos del campo profesional. Se
debe justificar el método que se utiliza para establecer el estándar (ASTM 5.2.4).

También se realizan estudios para verificar la unidimensionalidad de los elementos de la


prueba y su correlación para emitir un juicio integrado sobre la competencia.

6
Estándar 11.13, en Standards for Educational and Psychological Testing. 2014. AERA, APA, NCME.
7
ASTM. 2013. Standard Practice for Professional Certification Performance Testing. Designation: E2849 – 13.

®
julio 2017
28

Ejemplos

Pruebas de certificación equivalentes a un nivel educativo

Se pueden mencionar muchos ejemplos de pruebas de certificación equivalentes a un nivel


educativo, estas pruebas se basan en los perfiles de egreso del nivel correspondiente. Dos
ejemplos relevantes considerando el prestigio de las instituciones que elaboran esas
pruebas son los siguientes:

High School Equivalency Test (HiSET) del ETS

Está integrado por un componente de Lectura con 50 preguntas de opción múltiple OM, de
Escritura con 61 preguntas de OM más un ensayo, Matemáticas con 55 preguntas de OM,
Ciencia con 60 preguntas OM, y Estudios Sociales con 60 preguntas de OM.

Proceso de evaluación para acreditar el bachillerato del CENEVAL

Proceso para la demostración de aprendizajes adquiridos por cualquier medio, del Centro
Nacional de Evaluación para la Educación Superior (CENEVAL), en México. Este proceso
de evaluación consta de tres instrumentos:

– Examen General de Competencias Disciplinares Básicas (EGCD) con 180 reactivos


de OM que incluye: Matemáticas, Ciencias Experimentales, Humanidades y
Ciencias Sociales

– Examen de Comprensión Lectora (ECL) con 24 reactivos con relación a tres textos
de tipo: argumentativo e icónico-verbal, Literario y Científico

– Examen de Habilidades de Expresión y Argumentación Escritas (EHEAE) con tres


preguntas para escoger una y desarrollar un texto abierto.

Pruebas para valorar resultados de aprendizaje en educación superior

En educación superior hay una gran cantidad de pruebas para valorar los resultados de
aprendizaje de aplicación general. Por su alcance a nivel internacional, se mencionan las
siguientes:

Assessment of Higher Education Learning Outcomes (AHELO)

La OECD ha llevado a cabo la prueba de factibilidad de un instrumento para valorar los


resultados de aprendizaje genéricos y de algunos campos profesionales que representen
acuerdos comunes a nivel internacional, con fines de comparación entre distintos
programas de formación. En esta prueba, las competencias genéricas se basaron en la
prueba del Collegiate Learning Assessment (CLA) que se diseñó para la medición del
pensamiento crítico, resolución de problemas y habilidades de razonamiento lógico.

Algunos de los aspectos que se valoran son:

®
julio 2017
29

• Pensamiento crítico
• Razonamiento analítico
• Resolución de problemas

Learning Skills of Science (LSS)

El Weizmann Institute of Science, desarrolló el programa Learning Skills of Science (LSS),


adoptado por el programa Gatsby Science Enhancement Programme (SEP) en Reino
Unido, el cual tiene como objetivo ayudar a los profesores a enseñar y desarrollar destrezas
para el aprendizaje de contenido científico. Asimismo, provee actividades que facilitan
oportunidades de aprendizaje explícito, guiado y bien planificado, fomentando el desarrollo
de seis habilidades de orden superior como son: investigación, resolución de problemas,
habilidades de pensamiento y competencias para el aprendizaje que las desglosan de la
siguiente forma:

• Recuperación de información de libros, bibliotecas, expertos e internet


• Escuchar y observar en presentaciones y a través de videos
• Lectura científica de artículos y libros de texto
• Representación de datos por símbolos, dibujos, gráficas y tablas
• Escritura científica de reportes, caso de estudios, conferencias, resúmenes
y bibliografías
• Presentación de conocimientos de forma oral y multimedia

The International Critical Thinking Basic Concepts & Understandings

La prueba The International Critical Thinking Basic Concepts & Understandings fue
desarrollada para su aplicación en línea. Se enfoca en los conceptos y principios del
pensamiento crítico:

• Análisis del pensamiento


• Evaluación del pensamiento
• Disposición del pensamiento
• Habilidades del pensamiento
• Obstáculos al pensamiento crítico

Brinda un reporte con una calificación sobre el entendimiento de los conceptos


fundamentales del pensamiento crítico, que se entrega al alumno y al profesor. Los
estudiantes pueden tomar la prueba ocho veces en un período de cuatro años, esto permite
a los alumnos analizar y comparar su progreso a lo largo de ese periodo.

®
julio 2017
30

Pruebas de certificación especializadas y de aptitud

Prueba para certificación de Maestros – College Board (PCMAS)

Consta de dos componentes: la Prueba de Conocimientos Fundamentales y Competencias


Profesionales (PCMAS General) y la Prueba de Especialidad (PCMAS Especialidad).

Prueba de Aptitud Académica del College Board

Con 85 preguntas de opción múltiple, que mide razonamiento verbal, razonamiento


matemático y redacción indirecta, con la finalidad de evaluar el potencial académico del
estudiante para proseguir estudios universitarios.

Pruebas para competencias transversales

Este tipo de pruebas es común y existen muchos ejemplos, algunos de ellos son: Critical
Thinking in Higher Education, Civic Competency, Quantitative literacy in Higher Education,
Communicatoin Literacy, de varias instituciones y organizaciones, que se pueden consultar
en los reportes del ETS, con extensiones variables, pero en general menores a 100
preguntas, algunas de opción múltiple en combinación con escalas Likert y respuestas
cortas construidas.

Pruebas para certificación profesional

International Board of Heart Rhythm Examiners (IBHRE)

Examen entre 170 a 200 preguntas para responderse en cuatro horas y media. Califican en
puntaje en lugar de porcentaje de aciertos para comparar año con año.

Adult Transesophageal echocardiography (TOE)

Es un examen de la European Society of Cardiology que se lleva a cabo en dos etapas:


una parte teórica con preguntas de opción múltiple que se resuelve en línea (iPads) y que
consta de 50 preguntas relacionadas con casos TOE con el despliegue del eco
correspondiente (90 minutos), y 75 preguntas teóricas (110 minutos); y una segunda parte
práctica en donde el candidato presenta un portafolio con 125 casos clínicos.

Acute Cardiac Care de la Acute Cardiovascular Care Association

Es un proceso de dos partes: un examen escrito, y un portafolio con evidencias de su


práctica profesional y registro educativo.

Exámenes de certificación y recertificación del Consejo Mexicano de Cardiología

Se integran por dos elementos: examen teórico que consiste en una prueba con 150
preguntas basadas en casos, distribuidas en áreas temáticas; y un elemento práctico que
consiste en una prueba de ejecución, en un centro hospitalario certificado por el Consejo

®
julio 2017
31

como centro de formación, con base en un caso clínico y valorado por jueces utilizando
pautas de observación.

Tamaño de las pruebas/ exámenes


El tamaño del examen se calcula tomando como base las recomendaciones técnicas para
la elaboración de exámenes, la cobertura de las áreas de competencia a examinar, y su
relación con la medida de confiabilidad alfa de Cronbach8, entre otras.

En la siguiente tabla se muestra el resultado, con datos reales, de la relación del tamaño
de una prueba de opción múltiple de cuatro opciones de respuestas, con la medida de
confiabilidad alfa de Cronbach.

Número de reactivos vs alfa de Cronbach


alfa
0.9
0.8
0.7
0.6
0.5

Fuente: elaboración propia.


0.4
0.3
0.2
0.1
0
15 33 46 60 78 91 109 122 136 150

Número de reactivos

Figura 6. Tamaño y confiabilidad de la prueba

Aplicación longitudinal
Las aplicaciones longitudinales se utilizan para obtener información y contar con medidas
a través del tiempo que permitan observar la evolución y tendencias de los resultados de
los procesos que se miden. La base de los exámenes es el perfil de referencia que para las
comparaciones longitudinales deberá permanecer estable durante el tiempo en el que se
llevará a cabo el estudio. Para estos estudios es necesario:

• Revisar el perfil de referencia para actualizar la descripción de contenido de los


exámenes, su correspondencia con los programas de formación y con los
requerimientos del ejercicio profesional.
• Mantener la estructura del examen durante un periodo en el que se desea comparar los
resultados de forma longitudinal.

8
El alfa de Cronbach es una media ponderada de las correlaciones entre las variables que forman parte de la prueba o escala.

®
julio 2017
32

Recomendaciones para profesionalizar la evaluación en las IES


La evaluación en las instituciones de educación cumple varias funciones y es parte
sustantiva de los procesos y sistemas de aseguramiento de la calidad. Es importante que
las instituciones cuenten con un grupo de profesionales de la evaluación que respalden los
diferentes procesos que se llevarán a cabo y que proporcionen los criterios y políticas de
cada uno de ellos. Entre las funciones que deben ejecutar se pueden mencionar las
siguientes:

• Desarrollo de criterios y políticas institucionales para el aseguramiento de la calidad


en la formación.

• Selección y diseño del modelo o modelos de evaluación de los aprendizajes y


competencias.

• Criterios para la certificación de aprendizajes y competencias durante la formación


y de aprendizajes adquiridos por cuenta propia o por experiencia laboral.

• Formación y capacitación en evaluación de los distintos actores que participan en el


proceso de evaluación: profesores, aplicadores, investigadores.

• Criterios y políticas para las estrategias de evaluación a nivel aula y programas de


formación.

• Integración y comunicación de resultados de evaluación a nivel institucional.

• Sistematización y documentación de los procesos de aseguramiento de la calidad


de la formación, su evaluación y resultados.

Referencias
Arribalzaga, E.B. (2016). ¿Cuál es el criterio médico – quirúrgico? Inmanencia.
Recuperado
dehttp://ppct.caicyt.gov.ar/index.php/inmanencia/article/viewFile/10836/9660

Austin, M.W. (11 de junio de 2012). Standards of Critical Thinking. Thinking Towards Truth
[Entrada en blog]. Recuperado de
https://www.psychologytoday.com/intl/blog/ethics-everyone/201206/standards-
critical-thinking

Camilloni, A. (2000). La calidad de los programas de evaluación y de los instrumentos que


los integran. La evaluación de los aprendizajes en el debate contemporáneo. 2ª
reimpresión. México: Paidós.

Camilloni, A., Celman, S., Litwin, E. y Palou de Maté, M. del C. (1998). La evaluación de los
aprendizajes en el debate didáctico contemporáneo. Editorial: Paidós.

®
julio 2017
33

Case, S., & Swanson, D. (1998). Como elaborar preguntas para evaluaciones escritas en
el área deficiencias básicas y clínicas. Philadelphia: National Board of Medical
Examiners.

Celman, S. (1998). ¿Es posible mejorar la evaluación y transformarla en herramienta de


conocimiento? La evaluación de los aprendizajes en el debate didáctico
contemporáneo, 35, 66.

Cortés De las Heras, J. (2009). Introducción a los distinto tipos de evaluación y los
instrumentos más usuales. Recuperado de
http://mestreacasa.gva.es/c/document_library/get_file?folderId=500001688024&na
me=DLFE-399422.pdf

Daniel, M.F., De la Garza, M.T., Slade, C., Lafortune, L., Pallascio, R., y Mongeau, P.
(2003). ¿Qué es el pensamiento dialógico crítico?. Perfiles Educativos, vol XXV,
num. 102, pp. 22 – 39

Dewey, J. (1989). Cómo pensamos. Nueva exposición de la relación entre pensamiento y


proceso educativo. México: Paidós

ETS. HiSET – Resumen informativo de la Información General sobre los Exámenes


(TAAG), 2018. Iowa Testing Program. The University of Iowa. Educational Testing
Service, ETS.

Haladyna, T.M. (2006). Roles and importance of validity studies. In Downing, S.M., &
Haladyna, T.M. (Eds.), Handbook of Test Development (pp. 739-755). Mahwah, NJ:
LEA.

Jara Paredes, M.A. (2015). Validez y Confiabilidad en la Construcción de Reactivos


utilizados en pruebas de opción múltiple (POM).
http://dx.doi.org/10.13140/RG.2.1.3277.3843

Liu,O.L., Frankel, L., Roohr, K. C. (2014). Assessing Critical Thinking in Higher Education:
Current State and Directions for a Next-Generation Assessment (Research Report
No. RR-14-10). Princeton, NJ: Educational Testing Service.
http://dx.doi.org/10.1002/ets2.12009

Lipman, M. (2014). Pensamiento complejo y educación (2ª. Edición). Madrid: Ediciones de


la Torre.

Lipman, M. (1988). Critical Thinking--What can it be? Educational Leadership. 46(1) p38-
43. Recuperado de
http://www.ascd.org/ASCD/pdf/journals/ed_lead/el_198809_lipman.pdf

Messick, S. (1994). The interplay of evidence and consequences in the validation of


performance assessments. Education Researcher, 23(2), 13-23.

®
julio 2017
34

DOI: 10.2307/1176219

Messick, S. (1990). Validity of Test Interpretation and Use. Princeton: Educational Testing
Service, Princeton, N.J.

Messick, S. (1988). Validity. In R.L. Linn (Ed.), Educational Measurement. (3a. ed., pp. 13-
103). New York: Macmillan. https://onlinelibrary.wiley.com/doi/epdf/10.1002/j.2330-
8516.1987.tb00244.x

Mislevy, R., Almond, R., Lukas, J. (2003). A Brief Introduction to Evidence-centered Design.
Research report. Princeton: Educational Testing Service.

Pellegrino, J. W. (2014). Assessment as a Positive Influence on 21th Century Teaching and


Learning: A Systems Approach to Progress. Singapore: International Association for
Educational Assessment.

Roohr, K. C., Graf, E. A., & Liu, O. L. (2014). Assessing quantitative literacy in higher
education: An overview of existing research and assessments with
recommendations for next-generation assessment (ETS Research Report No. RR-
14-22). Princeton, NJ: Educational Testing Service. http://doi:10.1002/ets2.12024

Torney-Purta, J., Cabrera, J. C., Roohr, K. C., Liu, O. L., & Rios, J. A. (2015). Assessing
civic competency and engagement in higher education: Research background,
frameworks, and directions for next-generation assessment (Research Report No.
RR-15-34). Princeton, NJ: Educational Testing Service.
http://dx.doi.org/10.1002/ets2.12081

Zapata Maya, Y.P. (2010). La formación del pensamiento crítico: entre Lipman y Vygotsky.
Tesis de Filosofía. Bogota: Pontificia Universidad Javeriana. Recuperado de
https://repository.javeriana.edu.co/bitstream/handle/10554/6767/tesis83.pdf?seque
nce=1

®
julio 2017

View publication stats

También podría gustarte