Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Instrumentos de Evaluacion PDF
Instrumentos de Evaluacion PDF
en línea
Anestesiología
E A N ES
NO D T ES
Mexicana de M
EX
ICA IO
L
Revista
O
IO
GÍ
C
EG
AA
COL
.C.
ANT
GÍA
ES
LO
SO
IO
CI
ED ES
AD ST
MEXI NE
CANA DE A
ARTÍCULO DE REVISIÓN
Vol. 30. No. 3 Julio-Septiembre 2007
pp 158-164
Instrumentos de evaluación
Dr. Alberto Javier García-Garro,* Cit. Gregorio Ramos-Ortega,**
Dr. Manuel Antonio Díaz de León-Ponce,*** T.R. Alfredo Olvera-Chávez****
SUMMARY
Two factors are important in the development of good tests: reliability and
validity. Generally speaking, more extensive tests are more reliable than
others, i.e., reliable tests will go on using scores as long as non reliable
tests exist. This way, the test is reliable. All tests are less-than-perfect
medigraphic.com
indicators of the qualities or abilities being measured. Errors may occur in all
test settings. Thus, a reliable test may also be defined as a test with a small
measurement standard error. Furthermore, test items are not easy to elab-
orate. Interdependent questions decrease the accuracy of a test, and hence
its validity. Most smart testers are aware that categorical answers are usu-
ally wrong. If only one answer is right and two others are equal, then these
two should be wrong; such items are relatively easy to elaborate, since they
are mere declarative statements. Concurrent and predictive validity: If a
new test is validated by comparison with an existing parameter, it has con-
current validity. Tests designed to predict their own results have predictive
validity. Total validity = content validity + criterion validity + construct validity.
Thus, the validity of a instrument for measurement is assessed based on
three types of evidence. Validity and reliability both measure a degree, not
an absolute value, i.e., a test may have a higher or lower degree of reliability
or validity.
Los instrumentos, como herramientas utilizadas para reco- Los debates de grupos focales son una técnica de investiga-
lectar información nos ayudan a la medición, la cual consti- ción cualitativa privilegiada en la investigación de cien-
tuye una actividad presente en la práctica docente, ésta a su cias sociohumanas. En grupos pequeños, puede ser domina-
vez nos aproxima al monitoreo y evaluación del proceso do por una o dos personas, pero si el grupo es de más de 10
educativo. ¿Qué instrumentos y cuáles son las característi- ó 12 personas, su desarrollo puede ser difícil, por lo que es
cas para usarse en la recolección de datos con fines más allá recomendable efectuarse al menos dos debates de grupos
de la medición, dando cuenta del monitoreo y la evalua- focales entre cada grupo participante(5).
ción?, ¿Son las encuestas buenos instrumentos para tal fin?,
¿Serán mejor los debates de grupos focales? UBICACIÓN
EXAMEN
OTROS PUNTOS PARA DESARROLLAR
ENCUESTAS EFECTIVAS Por otra parte y particularizando la evaluación, en este
caso del aprendizaje, entraremos en una dimensión esen-
Mantenerla bien centrada, corta, sencilla, clara, efectuar una cial del proceso de enseñanza, aspecto de los más polémi-
prueba preliminar y abordar la confidencialidad. cos y de mayor interés en la práctica educativa por su pa-
pel fundamental dirigido a mejorar la enseñanza sin perder • Proporcionan poca retroalimentación cualitativa sobre
de vista que esta dimensión nos centra en el poder y el la situación de enseñanza.
control que el docente ejerce sobre el alumno al valorar • Generan ansiedad en los alumnos («ansiedad de prue-
los conocimientos de habilidades y destrezas a los que han ba»).
llegado como resultado del proceso docente, así como el • La capacidad de lectura y adivinar son factores que dis-
proceso mismo de la construcción. El instrumento por ex- torsionan las calificaciones.
celencia empleado es sin duda el examen, el cual es resul- • Es preciso determinar la complejidad de los objetivos a
tado de diversas concepciones sobre el aprendizaje y no el evaluar (a mayor cantidad y complejidad de objetivos
motor que lo transforma(6). más reactivos).
Elaborar exámenes entraña una sólida formación docen- • Es menester identificar el tiempo disponible para su res-
te-investigador expresados en su propuesta técnica, que dé puesta, por lo general se dispone de un tiempo predeter-
cuenta de cómo elaborar exámenes, su manejo estadístico minado para la aplicación de la prueba.
de datos, su construcción de reactivos objetivos, entre otros.
Aun así hemos de considerar que dentro de las técnicas for- A continuación se presentan los conceptos, usos y apli-
males de la evaluación, estos son los instrumentos de uso cación, así como las recomendaciones específicas para la
más generalizado, por lo que es preciso considerar al menos elaboración de diferentes tipos de reactivos a incluir en una
que su intención es lograr una evaluación objetiva, libre de prueba objetiva.
interpretaciones idiosincrásicas al establecer juicios sobre
los aprendizajes de los alumnos. REACTIVOS DE OPCIÓN MÚLTIPLE
Las pruebas objetivas se caracterizan por estar cons-
truidas a base de reactivos cuya respuesta no deja lugar a Los reactivos de opción múltiple están constituidos en su
dudas respecto a su corrección o incorrección, trabajan- forma clásica, por un enunciado incompleto o una pregunta
do el estudiante sobre una situación estructurada a la que (encabezado, tallo, tronco o base) en el que se plantea el
no aporta más que respuestas concretas; este tipo de prue- problema a resolver y varias posibles respuestas (opciones o
ba es posible emplearla con fines selectivos, diagnósti- alternativas) una de las cuales es la correcta y las otras inco-
cos, formativos, sumativos o de certificación, lo cual ya rrectas (distractores).
impone ciertas modalidades según el propósito para el Los aprendizajes que se pueden medir con los reactivos
que va a ser empleada. de opción múltiple se relacionan con contenidos declarati-
El nivel de estructuración de los reactivos influye de vos (datos, hechos, conceptos y principios) en las catego-
manera importante en el tipo de procesos cognoscitivos y rías de conocimiento, comprensión, aplicación y análisis de
de aprendizaje significativo que logran los alumnos. la taxonomía de Bloom.
Un reactivo útil y valioso, combina su correcta construc- Los reactivos no son fáciles de estructurar. La habilidad
ción, la relación con los logros que se busca medir y su y experiencia en la redacción son importantes. Cuando se
integración equilibrada al resto de reactivos incluidos en emplea un número reducido de opciones; el reactivo dismi-
una prueba. Un buen reactivo se caracteriza por su validez nuye su valor de medición.
de contenido; es decir su contenido corresponde al objetivo
de aprendizaje para el cual fue elaborado(7). • Cada reactivo debe ser independiente de los otros. Los
En general este tipo de pruebas objetivas tienen alguna reactivos interdependientes disminuyen la exactitud de
característica que no necesariamente se traducen en fortale- una prueba y por tanto su validez.
zas del mismo, a pesar de ello señalamos a continuación: • Si todas las opciones son homogéneas respecto al tópico
(tema) abordado en el tallo, serán más razonables.
• Son más fáciles de contestar que los de tipo ensayo. • La longitud de las opciones no debe dar la clave de la
Los de opción múltiple permiten la medición en grandes respuesta.
grupos, ya que son relativamente fáciles de calificar al • Al construir la prueba, se debe evitar que un reactivo
medigraphic.com
cotejar con la respuesta tipo (plantilla de respuestas).
• Gran parte de los reactivos pueden responderse por me-
contenga la respuesta de otros.
• El tallo debe ser claro, simple y presentar sólo un pro-
dio de aprendizajes memorísticos o aprendizajes poco blema.
significativos. • La mayoría de los aplicadores inteligentes de pruebas
• Adecuados para medir los resultados en los niveles de saben que las respuestas categóricas por lo general son
aprendizaje de conocimiento, comprensión y aplicación; erróneas.
inadecuados para organizar y expresar ideas. • Si sólo una respuesta puede ser correcta y dos son igua-
• No son válidos para explorar destrezas y actitudes. les, entonces estas dos deben ser incorrectas.
• Se deben evitar asociaciones verbales entre la base y la de una persona; una prueba sólo es una muestra pequeña de la
respuesta correcta. conducta. En el desarrollo de buenas pruebas son importan-
tes dos factores: la confiabilidad y la validez, atributos del
REACTIVOS DE RESPUESTA ALTERNA instrumento a considerar antes de interpretar las calificacio-
(ALTERNATIVAS CONSTANTES) nes obtenidas tras la aplicación de los instrumentos(8,9).
A fin de perfeccionar la evaluación de test psicológicos,
Este tipo de reactivos se caracterizan por limitar la respuesta Cronbach (1951) introdujo en la evaluación dos elementos
a una de dos opciones o alternativas (verdadero — falso; sí a considerar en la confiabilidad de los instrumentos: 1) equi-
— no; nunca — siempre; correcto — incorrecto; o respues- valencia confiabilidad interna o consistencia interna) y 2)
tas similares) para calificar una aseveración o enunciado. estabilidad (confiabilidad externa).
Son reactivos relativamente fáciles de construir, pues son Ambos elementos confieren cierto grado de precisión de
simples enunciados declarativos. la prueba.
El número de respuestas calificables por cada mil pala-
bras de examen o por cada minuto que éste dure es conside- MÉTODOS Y CÁLCULO DE LA CONFIABILIDAD
rablemente superior al número de respuestas calificables en
un examen de selección múltiple y probablemente muy su- Existen diversos métodos y procedimientos para medir la
perior a muchos otros tipos de examen. confiabilidad de los instrumentos. En general los coeficien-
Los reactivos buscan comprobar el conocimiento, por lo tes de confiabilidad aceptables para pruebas de rendimien-
que se debe: to escolar se encuentran entre .60 y .80.
• Procurar construir reactivos que requieran sólo una res- CONFIABILIDAD INTERNA
puesta correcta.
• Evitar la utilización de palabras que descubran la res- 1) Método de la división por pares o método de mitades
puesta. partidas (split-halves).
• Omitir más de tres palabras en un solo enunciado, omita En este método se requiere sólo una aplicación de la
sólo palabras o datos claves. medición. Específicamente la prueba se aplica a un grupo
• Si la respuesta es numérica, indicar las unidades en que de sujetos y más tarde el conjunto total de reactivos es divi-
debe ser expresada. dido en dos mitades. Si la prueba es confiable, entonces las
• Proporcionar instrucciones claras y específicas sobre la puntuaciones de las personas en cada mitad deberían ser
forma de responder(7). similares y el grado de similitud se evalúa utilizando la
correlación. La forma más efectiva para mejorar la confiabi-
REACTIVOS DE RESPUESTA BREVE O SIMPLE lidad es agregar más conceptos a una prueba. Si hablamos
en forma general, las pruebas más extensas son más confia-
Son enunciados interrogativos que deben ser respondidos a bles que otras.
través de una palabra, frase o enunciado corto. Consiste en tomar a cada uno de los reactivos como uni-
Este tipo de reactivos se recomienda para medir conoci- dad y compararlo con el resto de los reactivos que integran
mientos de asociaciones. No son adecuados para medir re- la prueba, esto nos va a proporcionar información sobre la
sultados complejos como comprensión, aplicación, análisis consistencia interna de la prueba(10,11).
y organización.
ANÁLISIS DE REACTIVO
RECOMENDAMOS PARA SU ELABORACIÓN
Los reactivos producirán mayor confiabilidad en un cues-
• Asegurarse que la pregunta plantea un problema concreto. tionario si discriminan bien entre los individuos. Hay dos
• Los grupos de respuestas y sus relaciones deben ser del métodos comunes para verificar el poder de discriminación
mismo tipo y naturaleza.
• Elaborar columnas claras y ordenadas.
medigraphic.com de los reactivos. Para cada reactivo en la prueba o cuestio-
nario, se calcula la correlación entre la puntuación de cada
persona en el reactivo y su puntuación en la prueba como
VALIDACIÓN DE LOS INSTRUMENTOS un todo.
Después se totalizan las puntuaciones de estos dos gru-
Uno de los problemas más comunes con el uso de las pruebas pos de personas para cada reactivo en la prueba. Esto es, la
es la interpretación errónea de las calificaciones. Ninguna prueba de confiabilidad continúa utilizando puntuaciones
prueba proporciona una imagen perfecta de las habilidades en tanto existan pruebas no confiables.
Si una prueba es lo suficientemente confiable, la pregunta Validez total = validez de contenido + validez de crite-
siguiente es ¿qué tan válida es?, o en forma más exacta, si los rio + validez de constructo;
juicios y decisiones que se basan en la prueba son válidos.
Para tener validez, las decisiones e inferencias que se ba- así, la validez de un instrumento de medición se evalúa
san en la prueba deben tener respaldo por evidencia. Se habla sobre la base de tres tipos de evidencia. Entre mayor evidencia
de validez de una prueba al grado en que mide el atributo o de validez de contenido, validez de criterio y validez de cons-
característica para la cual fue elaborada; así una prueba es tructo tenga un instrumento de medición éste se acerca más a
válida si realmente mide lo que se supone debe medir(13,14,18). representar lo que pretende medir; y aún surgen nuevas pre-
Una prueba sobre conocimientos de historia debe medir guntas acerca de la validez. ¿Cuáles son las consecuencias de
medigraphic.com
esto y no conocimientos de literatura histórica. utilizar un planteamiento de evaluación particular para la en-
señanza y el aprendizaje? Sam Messic (1975) formuló dos pre-
EVIDENCIAS RELACIONADAS CON LA VALIDEZ guntas importantes que deben considerarse al tomar cualquier
DE CONTENIDO decisión sobre el uso de una prueba: ¿La prueba es una buena
medida de la característica que se supone debe evaluar? ¿Se
Una prueba tiene validez de contenido si está hecha con debe utilizar la prueba para los fines propuestos? La primera
una muestra representativa de los objetivos y contenidos pregunta se asocia con la validez del constructo; la segunda se
abordados. refiere a la ética y los valores (Moss, 1992).
Algunos factores pueden interferir en la validez de las Asegúrese de que sus alumnos sepan cómo utilizar todos
pruebas que se aplican en las situaciones de un salón de los materiales de la prueba
clases, las pruebas de rendimiento estandarizadas deben se- Ejemplos:
leccionarse de modo que los incisos en la prueba midan los
conocimientos adquiridos en las clases; así mismo, los estu- 1. Siga las instrucciones para administrar la prueba con exac-
diantes deben contar con las habilidades necesarias para titud.
presentar la prueba. Si los estudiantes obtienen calificacio- 2. Asegúrese de que los estudiantes estén tan cómodos como
nes bajas en una prueba de ciencias no por su falta de cono- sea posible durante la prueba.
cimientos sobre las ciencias, sino porque tienen dificulta- 3. Recuerde que ninguna calificación en las pruebas es per-
des para leer las preguntas, no comprenden las instrucciones fecta.
o no tienen tiempo suficiente para terminar, entonces la prue-
ba no es una medida válida del rendimiento en ciencias de EVALUACIÓN POR NORMAS O POR CRITERIOS
esos estudiantes.
Las pruebas, cuestionarios, guías de observación, listas Los métodos de evaluación deben ser los más adecuados
de cotejo y escalas evaluativas son sólo algunos ejemplos para evaluar integralmente. De lo antes dicho, debe ser evi-
de instrumentos de medición, los cuales requieren de un dente el contraste entre evaluación basada en competencias
procedimiento específico para su elaboración. y la evaluación tradicional por norma. Mientras que la eva-
La validez y la confiabilidad son medidas de grado, por luación basada en competencias evalúa el desempeño de un
lo cual se entiende que una prueba puede tener mayor o individuo a partir de criterios preestablecidos, la evalua-
menor grado de confiabilidad o validez. ción por norma se encarga de comparar el desempeño de un
Una prueba debe ser confiable a fin de ser válida. Sin individuo con el desempeño del grupo; no obstante, los
embargo, la confiabilidad no garantizará validez; una prue- métodos que se utilizan para realizar una evaluación basada
ba puede ser confiable pero no válida; mas una prueba que en normas son similares a los métodos tradicionales.
es válida necesariamente tiene que ser confiable. Los si- Los enfoques integrados buscan combinar conocimien-
guientes lineamientos podrían ayudarle a incrementar la to, comprensión solución de problemas, habilidades técni-
confiabilidad y validez de las pruebas estandarizadas. cas, actitudes y valores en la evaluación:
Asegúrese de que la prueba en realidad cubra el conteni-
do de la unidad de estudio: • Estar orientada al problema.
• Ser interdisciplinaria.
1. Compare las preguntas de la prueba con los objetivos del • Considerar la práctica.
curso. • Cubrir grupos de competencias.
2. Una matriz de contenido de la conducta podría ser útil en • Demandar habilidades analíticas.
este caso. • Combinar la teoría y la práctica.
3. Utilice las pruebas de rendimiento y normas locales siem-
pre que sea posible. En el contexto de medicina, los métodos que incluyen
4. ¿Sus alumnos experimentan alguna dificultad con la prue- más niveles de evaluación integrada que los exámenes for-
ba como no tener tiempo suficiente, el nivel de lectura y males son: Problemas con el manejo del paciente por ejem-
demás? De ser así, analice estos problemas con personal plo: simulaciones escritas sobre problemas del paciente (caso
idóneo de la escuela. clínico).
REFERENCIAS
1.
medigraphic.com
Almeida N. Desarrollo de instrumentos en la investigación epide-
miológica. En: Epidemiología sin números. Washington, D.C.:
5. García CF. La medición y evaluación educativa. En: Lifshitz A,
Editor. Educación Médica. Enseñanza y aprendizaje de la clíni-
Organización Panamericana de la Salud; 1992:43-57. ca. México: Auroch; 1997:168-9.
2. Bedolla G. Cómo estimar e interpretar y mejorar la confiabilidad 6. Díaz BA. El problema de la teoría de la evaluación y cuantifica-
de una evaluación. Monterrey, México: UDME; 1983:9-10. ción del aprendizaje. En: Díaz Barriga, A. (compilador) El exa-
3. Davey DD, McGoogan E, Somrak MT, et al. Competency asses- men. Textos para su historia y debate. México, CESU/UNAM/
sment and proficiency testing. Act Cytol 2000;44:939-43. Plaza y Valdés Editores 2000:304-314.
4. Donají RC, Espinosa AP. Competencia clínica en hipertensión 7. Rojas MI. La educación basada en normas de competencia
arterial sistémica de alumnos de pregrado de dos escuelas de (EBNC) como nuevo modelo de formación profesional en
medicina. Rev Invest Clin 2000;52:132-9. México. En: Valle Flores, MA (Coordinadora). Formación en
medigraphic.com