Está en la página 1de 30

Mejorando el aprendizaje de los estudiantes con técnicas efectivas de aprendizaje: directivas

prometedoras desde la Psicología Cognitiva y Educacional


[Extracto]

John Dunlosky, Katherine Rawson, Elizabeth Marsh, Mitchell J Nathan & Daniel T, Willingham
Psychological Science in the Public Interest, 2013, 14(1):4-58.

Traducción: Juan Carlos Valle Lisboa, Camila Zugarramurdi, Valentina Paz, Roberto Aguirre

Resumen

Muchos estudiantes están siendo dejados de lado por un sistema educativo que algunas personas creen que
está en crisis. Mejorar los resultados educativos requerirá de esfuerzos en muchos frentes, pero una premisa
central de esta monografía es que una parte de la solución implica ayudar a los estudiantes a regular mejor su
aprendizaje a través de técnicas efectivas de aprendizaje. Afortunadamente, los psicólogos educacionales y
cognitivos han estado desarrollando y evaluando técnicas de aprendizaje fáciles de usar que podrían ayudar a
los estudiantes a alcanzar sus metas de aprendizaje. En esta monografía, discutimos 10 técnicas de
aprendizaje en detalle y ofrecemos recomendaciones acerca de su utilidad relativa. Seleccionamos técnicas
que se espera sean fáciles de usar y que por lo tanto puedan ser adoptadas por muchos estudiantes. Además,
algunas técnicas (por ejemplo el Subrayado y la Re-lectura) fueron seleccionadas porque los estudiantes
reportan utilizarlas mucho, lo que vuelve muy importante el saber qué tan bien funcionan. Las técnicas
involucran la Interrogación elaborativa, la Auto-explicación, la realización de resúmenes, el Subrayado (o
marcado), la Mnemotécnica de palabras clave, el Uso de imágenes para el aprendizaje de textos, la Re-lectura,
Pruebas de práctica, Práctica distribuida y Práctica entrelazada. A los efectos de ofrecer recomendaciones
acerca de la utilidad relativa de esas técnicas, evaluamos si sus beneficios se generalizan a través de cuatro
categorías de variables: condiciones de aprendizaje, características de los estudiantes, materiales a estudiar y
criterios de tareas. “Condiciones de aprendizaje” incluye aspectos del entorno de aprendizaje en el cual se
implementa la técnica, como por ejemplo si el estudiante estudia solo o en grupo. “Características del
estudiante” incluye varias variables, tales como edad, habilidad y nivel de conocimiento previo. “Materiales”
varían de conceptos simples a problemas matemáticos a textos científicos complicados. “Tareas de criterio”
incluye diferentes medidas de resultado que son relevantes para los logros de los estudiantes, tales como esas
que se basan en la memoria, la solución de problemas y comprensión.
Hemos intentado proveer revisiones detalladas de cada técnica, lo que vuelve a esta monografía algo larga.
También hemos escrito la monografía en una manera modular, así es fácil de usar. En particular, cada revisión
está dividida en las siguientes secciones:

1. Descripción general de la técnica y por qué debería funcionar.


2. ¿Qué tan generales son los efectos de de esta técnica?

1
a. Condiciones del aprendizaje
b. Características de los estudiantes.
c. Materiales.
d. Tareas de criterio.
3. Efectos en contextos educativos representativos.
4. Aspectos de la implementación.
5. Evaluación general.

La revisión de cada técnica puede ser leída de forma independiente de las otras y variables particulares de
interés pueden ser comparadas entre técnicas.

Adelantando nuestras recomendaciones finales, las técnicas varían mucho con respecto a su generalizabilidad
y potencial para mejorar el aprendizaje de los estudiantes. Las Pruebas de práctica y la Práctica distribuida
recibieron una alta evaluación de utilidad, porque benefician a estudiantes de diferentes edades y habilidades
y han mostrado reforzar el desempeño de los estudiantes en muchas tareas de criterio e incluso en contextos
educativos. Interrogación elaborativa, Auto-explicación y Práctica entrelazada reciben una evaluación de
utilidad moderada. Los beneficios de de esas técnicas se generalizan entre variables, pero más allá de su
potencial, no llegan a ser evaluadas como de alta utilidad porque la evidencia de su eficacia es limitada. Por
ejemplo, la Interrogación elaborativa y la Auto-explicación no han sido correctamente evaluadas en contextos
educativos y los beneficios de la Práctica entrelazada ha comenzado a ser investigada sólo recientemente, por
lo que la efectividad real de estas técnicas es desconocida. Sin embargo, las técnicas que recibieron
calificaciones de utilidad moderada son bastante prometedoras para recomendar su uso en situaciones
apropiadas, que describiremos en detalle en la revisión de cada técnica. Cinco técnicas recibieron una
evaluación de utilidad baja: Resumen, Resaltado, Palabra clave mnemónica, Uso de imágenes para el
aprendizaje de texto y Relectura. Estas técnicas fueron calificadas como de baja utilidad por numerosas
razones. Resumen y Uso de imágenes para el aprendizaje del texto han demostrado ayudar a algunos
estudiantes en algunas tareas de criterio, pero las condiciones bajo las cuales estas técnicas producen
beneficios son limitadas, y todavía se necesitan muchas investigaciones para explorar completamente su
eficacia general. La Palabra clave mnemónica es difícil de implementar en algunos contextos, y parece
beneficiar a los estudiantes en un número limitado de materiales y por corto plazos de retención. La mayoría
de los estudiantes reportan releer y resaltar como técnicas utilizadas, sin embargo estas técnicas no refuerzan
sistemáticamente el rendimiento estudiantil, por lo que otras técnicas deben utilizarse en su lugar (por ejemplo,
las Pruebas de práctica en lugar de volver a leer). Nuestra esperanza es que esta monografía fomente mejoras
en el aprendizaje de los estudiantes, no sólo mostrando qué técnicas tendrán probablemente los efectos más
generalizables, sino también alentando a los investigadores a continuar investigando las técnicas más
prometedoras. En consecuencia, en nuestras observaciones de clausura, discutimos algunos temas sobre
cómo estas técnicas podrían ser implementadas por profesores y estudiantes, y destacamos las direcciones
para futuras investigaciones.

2
Introducción
Si se dispusiera de técnicas sencillas que los profesores y los estudiantes pudieran utilizar para mejorar el
aprendizaje y el rendimiento de los estudiantes, ¿se sorprendería si no se les informara sobre estas técnicas y
si muchos estudiantes no las usaran? ¿Qué pasa si los estudiantes en su lugar están adoptando técnicas de
aprendizaje ineficaces que socavan su logro, o al menos no lo mejoran? ¿No deberían dejar de usar estas
técnicas y empezar a usar las que son eficaces? Los psicólogos han estado desarrollando y evaluando la
eficacia de las técnicas para el estudio y la instrucción por más de 100 años. Sin embargo, algunas técnicas
eficaces están subutilizadas -muchos profesores no aprenden acerca de ellas y, por lo tanto, muchos
estudiantes no las usan, a pesar de las evidencias que sugieren que las técnicas podrían beneficiar al
estudiante con poco esfuerzo adicional. Además, algunas técnicas de aprendizaje que son populares y
utilizadas con frecuencia por los estudiantes son relativamente ineficaces. Una potencial razón para la
desconexión entre la investigación sobre la eficacia de las técnicas de aprendizaje y su uso en la práctica
educativa es que debido a que hay tantas técnicas disponibles que sería difícil para los educadores examinar
las investigaciones pertinentes para decidir cuáles muestran una eficacia promisoria y podrían ser
implementadas por los estudiantes (Pressley, Goodchild, Fleet, Zajchowski, & Evans, 1989).

Para hacer frente a este desafío, exploramos la eficacia de 10 técnicas de aprendizaje (enumeradas en la Tabla
1) que los estudiantes podrían utilizar para mejorar su éxito en una amplia variedad de dominios de contenido.
Las técnicas de aprendizaje que consideramos aquí fueron seleccionadas sobre la base de los siguientes
criterios. Seleccionamos algunas técnicas (p. ej., Autodiagnóstico, Práctica distribuida) porque una encuesta
inicial de la literatura indicó que podrían mejorar el éxito del estudiante en una amplia gama de condiciones. Se
incluyeron otras técnicas (por ejemplo, Releer y Destacar) porque los estudiantes reportan usarlas con
frecuencia. Además, los estudiantes son responsables de regular una cantidad creciente de su aprendizaje a
medida que progresan desde primaria hasta el ciclo básico y de secundaria a la universidad. Los estudiantes
que continúan su educación toda la vida también necesitan seguir regulando su propio aprendizaje, ya sea en
el contexto de la educación de postgrado, el lugar de trabajo, el desarrollo de nuevos pasatiempos o actividades
recreativas.

Por lo tanto, limitamos nuestras opciones a las técnicas que podrían ser implementadas por los estudiantes
sin asistencia (por ejemplo, sin requerir tecnologías avanzadas o materiales extensos que tendrían que ser
preparados por un maestro). Puede que se requiera algún entrenamiento para que los estudiantes aprendan a
usar una técnica con fidelidad, pero en principio, los estudiantes deben ser capaces de usar las técnicas sin
supervisión. También, elegimos técnicas para las cuales se disponía de suficiente evidencia empírica para
apoyar al menos una evaluación preliminar de la eficacia potencial. Por supuesto, no pudimos revisar todas las
técnicas que cumplen estos criterios, dada la naturaleza profunda de nuestras revisiones, y estos criterios
excluyen algunas técnicas que parecen muy prometedoras, como las técnicas que son impulsadas por
tecnologías avanzadas. Debido a que los maestros tienen más probabilidades de aprender sobre estas técnicas
en las clases de psicología educativa, examinamos cómo algunos libros de texto sobre Psicología educativa

3
los cubrían (Ormrod, 2008, Santrock, 2008, Slavin, 2009, Snowman, McCown y Biehler, 2009, Sternberg &
Williams, 2010, Woolfolk, 2007).

Tabla 1. Técnicas de aprendizaje

Técnica Descripción

1. Interrogación elaborativa Se genera una explicación de por qué un hecho o afirmación es


verdadero.

2. Auto-explicación Se explica cómo la nueva información se relaciona con información


ya conocida, o se explican los pasos tomados durante la resolución
de problemas.

3. Resumen Se escriben Resumenes (de distintas extensiones) de los textos a


aprender.

4. Resaltar y Subrayar Se marcan porciones potencialmente importantes de los materiales a


aprender mientras se lee.

5.Memoria mnemónica con Se usan palabras clave e imágenes para asociar materiales orales.
palabras clave

6. Imágenes del texto Se intentan formar imágenes mentales del texto mientras se lee o
escucha.

7. Relectura Se reestudia el texto nuevamente luego de la lectura inicial.

8. Pruebas de práctica Auto-evaluación o exámenes de práctica sobre el material a aprender.

9. Práctica distribuida Se implementa un cronograma de práctica que distribuye


temporalmente las actividades de estudio.

10. Práctica espaciada Se implementa un cronograma de práctica que mezcla distintos tipos
de problemas, o un cronograma de estudio que mezcla distintos tipos
de material dentro de una misma sesión de estudio.

Nota. Ver texto por una descripción detallada de cada técnica de aprendizaje y ejemplos relevantes de su uso.

A pesar del potencial de algunas de las técnicas, muchos de estos libros de texto no proporcionaron cobertura
suficiente, lo que incluiría revisiones actualizadas de su eficacia y análisis de su generalización y limitaciones
potenciales. Por lo tanto, para todas las técnicas de aprendizaje enumeradas en la Tabla 1, revisamos la
literatura para identificar la generalizabilidad de sus beneficios en cuatro categorías de variables: materiales,
condiciones de aprendizaje, características del estudiante y tareas de criterio. La elección de estas categorías
se inspiró en el modelo de Jenkins (1979) (para un ejemplo de su uso en contextos educativos, véase Marsh &
Butler, en prensa), y ejemplos de cada categoría se presentan en la Tabla 2. Los materiales se refieren al
contenido específico que se espera que los estudiantes aprendan, recuerden o comprendan. Las condiciones

4
de aprendizaje se refieren a aspectos del contexto en los que los estudiantes están interactuando con los
materiales a ser aprendidos. Estas condiciones incluyen aspectos del propio entorno de aprendizaje (por
ejemplo, ruido frente a quietud en un aula), pero en gran parte pertenecen a la forma en que se implementa una
técnica de aprendizaje. Por ejemplo, una técnica podría utilizarse sólo una vez o muchas veces (una variable
denominada dosis) cuando los estudiantes están estudiando, o se podría usar una técnica cuando los
estudiantes estuvieran leyendo o escuchando los materiales aprendidos.

Tabla 2. Ejemplos de las cuatro categorías de variables para la generalización.

Materiales Condiciones de aprendizaje Características Criterio de las


de los estudiantesa tareas

Vocabulario Cantidad de práctica (dosis) Edad Recuerdo con


pistas

Equivalentes de traducción Práctica de libro abierto o libro Conocimiento previo Recuerdo libre
cerrado de la materia

Contenido de clase Lectura vs. escucha Capacidad de la Reconocimiento


memoria de trabajo

Definiciones científicas Aprendizaje incidental vs. Habilidad verbal Resolución de


intencional problemas

Textos narrativos Instrucción directa Intereses Argumentación

Textos expositivos Aprendizaje por Inteligencia fluida Escritura de


descubrimiento ensayos

Conceptos matemáticos Tiempo entre relecturasb Motivación Creación de


portfolios

Mapas Tipo de Pruebas de prácticac Logros previos Pruebas de


logros

Diagramas Aprendizaje individual vs. Eficacia personal Cuestionarios de


grupal clase

a. Algunas de estas características están más basadas en estados (por ejemplo la motivación) y otras en rasgos (por
ejemplo, inteligencia fluida); esta distinción es relevante para la maleabilidad de las características, pero una discusión de
esta dimensión está por fuera de los objetivos del presente artículo.
b. La condición de aprendizaje es específica de la relectura.
c. La condición de aprendizaje es específica de la prueba de práctica.

5
Cualquier número de características del estudiante también podría influir en la eficacia de una técnica de
aprendizaje dada. Por ejemplo, en comparación con los estudiantes más avanzados, los estudiantes más
jóvenes en los primeros grados no pueden beneficiarse de una técnica. Las capacidades cognitivas básicas de
los estudiantes, como la capacidad de memoria de trabajo o la inteligencia fluida general, también pueden
influir en la eficacia de una técnica dada. En un contexto educativo, el conocimiento del dominio se refiere al
conocimiento válido y relevante que un estudiante trae a una lección. El conocimiento del dominio puede ser
requerido para que los estudiantes utilicen algunas de las técnicas de aprendizaje enumeradas en la Tabla 1.
Por ejemplo, el uso de imágenes mientras lee textos requiere que los estudiantes conozcan los objetos e ideas
a los que se refieren las palabras para que puedan producir imágenes internas de los mismos. Los estudiantes
con algún conocimiento de dominio sobre un tema también pueden encontrar más fácil el uso de la Auto-
explicación y la Interrogación elaborativa, que son dos técnicas que implican contestar a preguntas de "por
qué" sobre un concepto particular (por ejemplo, "¿Por qué partículas de hielo se elevan dentro de un ¿nube?").
El conocimiento del dominio puede mejorar los beneficios de sumarizar y destacar también. Sin embargo,
aunque algunos conocimientos del dominio beneficiarán a estudiantes mientras que comienzan a aprender
nuevo contenido dentro de un dominio dado, no es un requisito previo para utilizar la mayor parte de las técnicas
de aprendizaje.

El grado en que la eficacia de cada técnica de aprendizaje se obtiene a través de largos intervalos de retención
y se generaliza a través de diferentes tareas de criterio es de importancia crítica. Nuestras revisiones y
recomendaciones se basan en pruebas que normalmente se relacionan con el rendimiento objetivo de los
estudiantes en cualquier número de tareas de criterio. Las tareas de criterio (Tabla 2, columna más a la
derecha) varían con respecto a los tipos específicos de conocimiento que utilizan. Algunas tareas están
destinadas a aprovechar la memoria de los estudiantes para obtener información (por ejemplo, "¿Qué es el
condicionamiento operante?"), otras son en gran parte para aprovechar la comprensión de los estudiantes (por
ejemplo, "Explicar la diferencia entre el condicionamiento clásico y el condicionamiento operante" ), y todavía
otras están destinados a aprovechar la aplicación de los conocimientos de los estudiantes (por ejemplo,
"¿Cómo aplicarías el condicionamiento operante para entrenar a un perro a sentarse?"). De hecho, Bloom y sus
colegas dividieron los objetivos de aprendizaje en seis categorías, desde la memoria (o conocimiento) y la
comprensión de los hechos hasta su aplicación, análisis, síntesis y evaluación (Bloom, Engelhart, Furst, Hill, &
Krathwohl, 1956) Taxonomía, véase Anderson & Krathwohl, 2001).

Al analizar cómo influyen las técnicas en el desempeño de los criterios, hacemos hincapié en investigaciones
que han ido más allá de demostrar una mejor memoria para el material objetivo, midiendo la comprensión,
aplicación y transferencia de conocimiento de los estudiantes. Nótese, sin embargo, que si bien la adquisición
de conocimiento factual no se considera el único o último objetivo de la escolarización, consideramos
descaradamente que los esfuerzos para mejorar la retención del conocimiento por parte de los estudiantes
son esenciales para alcanzar otros objetivos de instrucción; si uno no recuerda ideas, hechos o conceptos
básicos, aplicarlos puede resultar difícil, sino imposible. Los estudiantes que han olvidado los principios de
álgebra no podrán aplicarlos para resolver problemas o utilizarlos como base para el aprendizaje de cálculo (o

6
física, economía u otros dominios relacionados), y los estudiantes que no recuerdan qué es el
condicionamiento operante probablemente tendrá dificultades para aplicarlo para resolver problemas de
comportamiento. No estamos defendiendo que los estudiantes pasen su tiempo robóticamente memorizando
hechos; en cambio, estamos reconociendo la importante interacción entre, por un lado, la memoria de un
concepto y, por otro, la capacidad de comprenderlo y aplicarlo.

Un objetivo de esta monografía es alentar a los estudiantes a usar la técnica o técnicas de aprendizaje
apropiadas para lograr un objetivo de instrucción dado. Algunas técnicas de aprendizaje se centran
principalmente en reforzar la memoria de los estudiantes para los hechos (por ejemplo, la Palabra clave
mnemónica), otros se centran más en mejorar la comprensión (por ejemplo, Auto-explicación), y otros pueden
mejorar la memoria y la comprensión (por ejemplo, exámenes de práctica). Así, nuestra revisión de cada técnica
de aprendizaje describe cómo puede usarse, su efectividad para producir retención y comprensión a largo plazo
y su amplitud de eficacia entre las categorías de variables enumeradas en la Tabla 2.

Revisión de las Técnicas de Aprendizaje


En las siguientes series de revisiones, consideramos la evidencia disponible para la eficacia de cada una de las
técnicas de aprendizaje. Cada revisión comienza con una breve descripción de la técnica y una discusión sobre
por qué se espera que mejore el aprendizaje del estudiante. A continuación, consideramos la generalización
(con respecto a las condiciones de aprendizaje, los materiales, las características de los estudiantes y las
tareas de criterio), resaltamos cualquier investigación sobre la técnica que se ha llevado a cabo en contextos
educativos representativos y abordamos cualquier problema identificado para implementar la técnica. En
consecuencia, las revisiones son en gran medida modulares: cada una de las 10 revisiones se organiza en torno
a estos temas (con encabezados correspondientes) para que los lectores puedan identificar fácilmente la
información más relevante sin necesariamente tener que leer la monografía en su totalidad. Al final de cada
revisión, ofrecemos una evaluación global para cada técnica en términos de su utilidad relativamente baja,
moderada o alta. Los estudiantes y maestros que no lo están haciendo deben considerar el uso de técnicas
designadas como de alta utilidad, porque los efectos de estas técnicas son robustos y generalizan
ampliamente. Las técnicas podrían haber sido designadas como utilidad baja o utilidad moderada por cualquier
número de razones. Por ejemplo, una técnica podría haber sido designada como de baja utilidad porque sus
efectos se limitan a un pequeño subconjunto de materiales que los estudiantes necesitan aprender; La técnica
puede ser útil en algunos casos y adoptada en contextos apropiados, pero, en relación con las otras técnicas,
sería considerada de baja utilidad debido a su generalización limitada. Una técnica también podría recibir una
calificación de utilidad baja o moderada si se mostraba prometedora, pero no había evidencia suficiente para
apoyar la confianza en la asignación de una evaluación de utilidad más alta. En estos casos, alentamos a los
investigadores a seguir explorando estas técnicas en entornos educativos, pero los estudiantes y los
profesores pueden querer tener cuidado antes de adoptarlos ampliamente.

7
Lo más importante, dado que cada evaluación de la utilidad podría haber sido asignada por una variedad de
razones, discutimos la justificación para una evaluación dada al final de cada revisión. Finalmente, nuestra
intención fue realizar revisiones exhaustivas de la literatura sobre cada técnica de aprendizaje. Para las
técnicas que se han revisado ampliamente (por ejemplo, la Práctica distribuida), sin embargo, nos basamos en
revisiones anteriores y las complementamos con cualquier investigación que apareció después de haber sido
publicadas. Para muchas de las técnicas de aprendizaje, se han publicado demasiados artículos para citarlos
a todos; Por lo tanto, en nuestra discusión de la mayoría de las técnicas, citamos un subconjunto de artículos
relevantes.

[VARIAS SECCIONES OMITIDAS]

4. Resaltar y Subrayar
Cualquier educador que haya examinado los materiales de estudio de los estudiantes está acostumbrado a ver
libros de texto marcados y multicolores. Evaluaciones sistemáticas de los libros y otros materiales de estudio
de los estudiantes apoyan que Resaltar y Subrayar son comportamientos comunes (por ejemplo, Bell & Limber,
2010; Lonka, Lindblom-Ylänne, & Maury, 1994; Nist & Kirby, 1989). Cuando se les pregunta a los propios
estudiantes qué hacen al estudiar, generalmente informan que subrayan, resaltan o marcan de alguna manera
el material a medida que tratan de aprenderlo (por ejemplo, Cioffi, 1986; Gurung, Weidert, & Jeske, 2010).
Tratamos estas técnicas como equivalentes, dado que, conceptualmente, deberían funcionar de la misma
manera (y al menos un estudio no encontró diferencias entre ellas; Fowler & Barker, 1974, Experimento 2). Estas
técnicas generalmente atraen a los estudiantes porque son fáciles de usar, no implican capacitación y no
requieren que los estudiantes inviertan mucho más tiempo de lo que ya requieren para leer el material. La
pregunta que hacemos aquí es: ¿una técnica tan fácil de usar ayudará realmente a los estudiantes a aprender?
Para comprender los beneficios específicos de Resaltar y Subrayar (por brevedad, en lo sucesivo, nos
referiremos a ellas como Resaltado), no consideramos estudios en los que el marcado activo de texto se
combinó con otras técnicas comunes, como la toma de notas (por ejemplo, Arnold, 1942; Brown & Smiley, 1978;
Mathews, 1938). Aunque muchos estudiantes reportan combinar múltiples técnicas (por ejemplo, Annis &
Davis, 1978; Wade, Trathen & Schraw, 1990), cada técnica debe evaluarse de manera independiente para
descubrir cuáles son cruciales para el éxito.

4.1 Descripción general del resaltado y subrayado y por qué deberían funcionar. Como introducción a estos
temas, comenzaremos con una descripción de un experimento prototípico. Fowler y Barker (1974, Exp. 1)
hicieron que los estudiantes leyeran artículos (con un total de aproximadamente 8.000 palabras) sobre el
aburrimiento y la vida urbana en Scientific American and Science. Los estudiantes fueron asignados a uno de
tres grupos: un grupo control, en el que solo leían los artículos; un grupo de resaltado activo, en el que los
estudiantes eran libres de resaltar la cantidad de texto que quisieran; o un grupo de resaltado pasivo, en el que
los estudiantes leían textos resaltados por los participantes en el grupo de resaltado activo. Todos recibieron
1 hora para estudiar los textos (el tiempo destinado a esta tarea fue igual para todos los grupos); a los
estudiantes del grupo de resaltado activo se les indicó que marcaran material particularmente importante.

8
Todos los sujetos regresaron al laboratorio una semana después y se les permitió revisar sus materiales
originales durante 10 minutos antes de realizar una prueba en formato múltiple opción de 54 ítems. En general,
los grupos de resaltado (tanto activo como pasivo) no superaron al grupo control en la prueba final, un resultado
que lamentablemente se ha repetido en gran parte de la literatura (por ejemplo, Hoon, 1974; Idstein & Jenkins,
1972; Stordahl & Christensen, 1956).

Sin embargo, los resultados de un análisis más detallado sobre el rendimiento en los dos grupos de resaltado
son informativos sobre los efectos que el resaltado podría tener en el procesamiento cognitivo. Primero, dentro
del grupo de resaltado activo, el desempeño fue mejor en los ítems de la prueba en que se preguntaba acerca
de los contenidos expuestos en secciones resaltadas (ver Blanchard & Mikkelson, 1987; Johnson, 1988 por
resultados similares). Segundo, el beneficio de resaltar fue mayor para los resaltadores activos (quienes
seleccionaron qué resaltar) que para los resaltadores pasivos (quienes vieron la misma información resaltada,
pero no la seleccionaron ellos mismos). En tercer lugar, el beneficio de resaltar se acompañó de un pequeño
costo en las preguntas de la prueba que preguntaban acerca de contenidos que no se habían resaltado.

Para explicar tales hallazgos, los investigadores a menudo señalan un fenómeno cognitivo conocido como el
efecto de aislamiento, por lo que un elemento semántico o fonológicamente único en una lista es recordado
mucho mejor que sus contrapartes menos distintivas (ver Hunt, 1995, para una descripción de este trabajo).
Por ejemplo, si los estudiantes están estudiando una lista de palabras categóricamente relacionadas (por
ejemplo, "escritorio", "cama", "silla", "mesa") y una palabra de una categoría diferente se presenta (por ejemplo,
"vaca"), será más probable que los estudiantes la recuerden que si la hubieran estudiado en una lista de
palabras relacionadas categóricamente (por ejemplo, "cabra", "cerdo", "caballo", "pollo"). La analogía con
resaltar es que una oración resaltada, subrayada o en mayúscula "saltará" del texto de la misma manera que lo
haría la palabra "vaca" si estuviera aislada en una lista de palabras para tipos de muebles. De acuerdo con esta
expectativa, varios estudios han demostrado que leer texto resaltado promueve la memoria posterior del
material marcado: los estudiantes tienen más probabilidades de recordar cosas que el experimentador destacó
o subrayó en el texto (por ejemplo, Cashen & Leicht, 1970; Crouse & Idstein, 1972; Hartley, Bartlett, &
Branthwaite, 1980; Klare, Mabry, & Gustafson, 1955; ver Lorch, 1989 para una revisión).

La selección activa de la información debería beneficiar el recuerdo más que simplemente leer el texto marcado
(dado que el primero aprovecharía los beneficios de la generación, Slamecka & Graf, 1978, y el procesamiento
activo en general, Faw & Waller, 1976). El texto marcado atrae la atención del lector, pero procesamiento
adicional debería ser requerido si el lector tiene que decidir qué material es el más importante. Tales decisiones
requieren que el lector piense sobre el significado del texto y cómo sus diferentes partes se relacionan (es
decir, el procesamiento organizativo; Hunt & Worthen, 2006). En el experimento de Fowler y Barker (1974), este
beneficio se reflejó en la mayor ventaja del grupo de resaltadores activos sobre los resaltadores pasivos que
recibieron el mismo texto subrayado por otros. Sin embargo, el resaltado activo no siempre es mejor que recibir
material que ya ha sido resaltado por un experimentador (por ejemplo, Nist & Hogrebe, 1987), probablemente

9
porque los experimentadores generalmente son mejores que los estudiantes al resaltar las partes más
importantes de un texto.

De manera más general, la calidad del resaltado es probablemente crucial si ayuda a los alumnos a aprender
(por ejemplo, Wollen, Cone, Britcher, & Mindemann, 1985), pero desafortunadamente, muchos estudios no
contienen ninguna medida de cuánto o qué tan conveniente es el resaltado de los estudiantes. Aquellos
estudios que han examinado la cantidad de texto marcado han encontrado una gran variabilidad en lo que los
estudiantes realmente marcan, con algunos estudiantes marcando casi nada y otros marcando casi todo (por
ejemplo, Idstein & Jenkins, 1972). Algunos datos interesantes provinieron del grupo de resaltado activo en el
trabajo de Fowler y Barker (1974). El rendimiento de la prueba se correlacionó negativamente (r = –.29) con la
cantidad de texto que se había resaltado en el grupo de resaltado activo, aunque este resultado no fue
significativo dado el pequeño tamaño de la muestra (n = 19).

Marcar demasiado texto es probable que tenga múltiples consecuencias. En primer lugar, marcar demasiado
reduce el grado en que el texto marcado se distingue de otro texto, y es menos probable que las personas
recuerden el texto marcado si no es distintivo (Lorch, Lorch, & Klusewitz, 1995). En segundo lugar, es probable
que se requiere menos procesamiento para marcar una gran cantidad de texto que para destacar los detalles
más importantes. De acuerdo con esta última idea, es más probable que se observen beneficios de marcar el
texto cuando los experimentadores imponen límites explícitos a la cantidad de texto que los alumnos pueden
marcar. Por ejemplo, Rickards y August (1975) encontraron que los estudiantes limitados a subrayar una sola
oración por párrafo luego recordaban más de un texto de ciencia que un grupo control que no subrayaba. De
manera similar, Johnson (1988) encontró que marcar una oración por párrafo ayudó a los estudiantes
universitarios en una clase de lectura a recordar la información subrayada, aunque esto no se tradujo en un
beneficio general.

4.2 ¿Qué tan generales son los efectos de Resaltar y Subrayar? Hemos delineado mecanismos hipotéticos
mediante los cuales el resaltado podría ayudar a la memoria, y las características particulares del resaltado
que serían necesarias para que estos mecanismos fueran efectivos (por ejemplo, resaltar solo material
importante). Sin embargo, la mayoría de los estudios no han demostrado beneficios de resaltar (como se suele
usar) más allá del beneficio de la simple lectura, y por lo tanto, la pregunta sobre la generalidad de los beneficios
del resaltado es en gran medida discutible. Debido a que la investigación sobre el resaltado no ha sido
particularmente alentadora, pocas investigaciones han evaluado sistemáticamente los factores que podrían
moderar la efectividad de la técnica; por ejemplo, no podríamos incluir una subsección de Condiciones de
aprendizaje (sección 4.2a) a continuación, dada la falta de evidencia relevante. En la medida en que lo permita
la literatura, esbozamos las condiciones conocidas para moderar la efectividad del resaltado. También
describimos cómo nuestra conclusión sobre la relativa ineficacia de esta técnica se sostiene en una amplia
gama de situaciones.

10
4.2b Características de los estudiantes. Resaltar no ha ayudado a los aprendices básicos de la Fuerza Aérea
(Stordahl & Christensen, 1956), niños (por ejemplo, Rickards & Denner, 1979), y estudiantes de recuperación (es
decir, estudiantes que obtuvieron un promedio de 390 en la sección verbal del SAT; Nist & Hogrebe, 1987), así
como estudiantes prototípicos (por ejemplo, Todd & Kessler, 1971). Es posible que estos grupos hayan tenido
dificultades para resaltar solo el texto relevante, dado que otros estudios han sugerido que la mayoría de los
estudiantes universitarios resaltan demasiado. Los resultados de un estudio con aviadores sugirieron que el
conocimiento previo podría moderar la efectividad del resaltado. En particular, los aviadores leyeron un pasaje
sobre motores de aviones que no estaba marcado (condición control) o tenía información clave subrayada
(Klare et al., 1955). Los experimentadores tenían acceso a los puntajes de aptitud mecánica previa de los
participantes y relacionaron el puntaje obtenido en el experimento a esos puntajes. El texto marcado fue más
útil para los aviadores que habían recibido puntuaciones altas. Este estudio incluyó textos premarcados y no
examinó lo que los participantes habrían subrayado por sí mismos, pero parece probable que los estudiantes
con poco conocimiento de un tema tengan dificultades para identificar qué partes de un texto son más o menos
importantes (y, por lo tanto, se beneficien menos del resaltado activo de lo que lo harían estudiantes bien
informados).

Otra posibilidad interesante proviene de un estudio en el que los experimentadores motivaron a los
participantes de forma extrínseca al prometerles que quienes obtuvieron mejores puntajes en un examen
recibirán $5 (Fass & Schumacher, 1978). Los participantes leían un texto sobre enzimas; a la mitad de los
participantes se les dijo que subrayaran palabras y frases claves. Todos los participantes tomaron una prueba
en formato múltiple opción de 15 ítems. Se observó un beneficio de subrayar entre los estudiantes que podían
ganar el bono de $5, pero no entre los estudiantes del grupo control. Por lo tanto, aunque los resultados de este
estudio deben replicarse, parece que algunos estudiantes pueden tener la capacidad de resaltar de manera
efectiva, pero no siempre lo hacen.

4.2c Materiales. Conclusiones similares sobre el marcado de texto provienen de estudios que utilizan una
variedad de materiales de texto sobre temas tan diversos como la aerodinámica, las escuelas griegas antiguas,
la agresión y Tanzania, que van desde unos pocos cientos de palabras hasta unos pocos miles. Todd y Kessler
(1971) manipularon la longitud del texto (todos los materiales eran relativamente cortos, con longitudes de 44,
140 o 256 palabras) y encontraron que el subrayado no era efectivo independientemente de la longitud del
texto. Fass y Schumacher (1978) manipularon si un texto sobre enzimas era fácil o difícil de leer; la versión fácil
estaba en un nivel de lectura de séptimo grado, mientras que la versión difícil estaba en un nivel de lectura de
escuela secundaria y contenía oraciones más largas. Se encontró una diferencia entre el grupo que resaltó y el
grupo control para el rendimiento en una prueba en formato múltiple opción entre el texto fácil y el texto difícil.

4.2d Tareas de criterio. Se ha observado una ausencia de beneficio en el resaltado tanto en las pruebas
inmediatas como en las lejanas, con retrasos que van desde 1 semana hasta 1 mes. Se han examinado diversas
medidas dependientes, entre las que se incluyen el recuerdo libre, preguntas fácticas y de comprensión en
formato múltiple opción, y pruebas de completar oraciones.

11
Quizás lo más preocupante son los resultados de un estudio que sugiere que subrayar puede ser perjudicial
para la capacidad posterior de hacer inferencias. Peterson (1992) hizo que estudiantes de educación superior
leyeran un capítulo de 10.000 palabras de un libro de texto de historia; dos grupos subrayaban mientras
estudiaban durante 90 minutos, mientras que a un tercer grupo solo se le permitió leer el capítulo. Una semana
después, a todos los grupos se les permitió revisar el material durante 15 minutos antes de realizar una prueba
(los dos grupos de subrayado difirieron en si revisaron una copia limpia del texto original o una que contenía
su subrayado). Todos volvieron a realizar la misma prueba 2 meses después, sin tener otra oportunidad de
revisar el texto. La prueba de opción múltiple consistió en 20 preguntas que sondeaban hechos (y que podían
estar vinculados a referencias específicas en el texto) y 20 preguntas que requerían inferencias (que tendrían
que basarse en conexiones a lo largo del texto y no podrían vincularse a información subrayada específica).
Los tres grupos tuvieron un desempeño similar en las preguntas que sondeaban hechos, pero los estudiantes
que habían subrayado (y revisado sus textos marcados) estaban en desventaja con respecto a las preguntas
de inferencia. Este patrón de resultados requiere replicación y extensión, pero una posible explicación es que
el subrayado estándar llama la atención más a los conceptos individuales (promoviendo la memoria factual)
que a las conexiones entre los conceptos (como lo requieren las preguntas de inferencia). De acuerdo con esta
idea, en otro estudio, quienes subrayan y esperaban que una prueba final estuviera en un formato de opción
múltiple obtuvieron mejores puntajes que quienes subrayan y esperaban que una prueba final estuviera en
formato de respuesta breve (Kulhavy, Dyer, & Silver, 1975), independientemente del formato real de la prueba
final. La información subrayada puede alinearse naturalmente con el tipo de información que los estudiantes
esperan en las pruebas de opción múltiple (por ejemplo, S. R. Schmidt, 1988), pero los estudiantes pueden tener
menos certeza sobre qué subrayar cuando estudian para una prueba de respuesta corta.

4.3 Efectos en contextos educativos representativos. Como se mencionó al principio de esta sección, las
encuestas acerca de los libros y otros materiales de estudio de los estudiantes han mostrado que Resaltar y
Subrayar es una práctica frecuente en contextos educativos (por ejemplo, Bell & Limber, 2010; Lonka et al.,
1994). Menos claras son las consecuencias de estos comportamientos. Estudios en el aula han examinado si
que el instructor indique a los estudiantes qué subrayar afecta el rendimiento de los mismos en las pruebas.
Por ejemplo, Cashen y Leicht (1970) hicieron que estudiantes de psicología leyeran artículos de Scientific
American sobre aprendizaje de animales, suicidio y conflicto grupal, cada uno de los cuales contenía cinco
afirmaciones críticas, que estaban subrayadas en rojo para la mitad de los estudiantes. Los artículos estaban
relacionados con los contenidos del curso, pero no se habían trabajado en la clase. Los puntajes de los
exámenes en los ítems relacionados con las afirmaciones críticas fueron más altos cuando las afirmaciones
estaban subrayadas en rojo en comparación a cuando no lo estaban. Curiosamente, los estudiantes en la
condición de subrayado también obtuvieron mejores calificaciones en las preguntas acerca de oraciones
adyacentes a las afirmaciones críticas (en lugar de tener una puntuación peor en las preguntas sobre
información no subrayada). El beneficio de los elementos subrayados se repitió en otra clase de psicología
(Leicht & Cashen, 1972), aunque los efectos fueron más débiles. Sin embargo, no está claro si los resultados
de estos estudios se generalizarían a una situación en la que los estudiantes se encargaran de resaltar por

12
ellos mismos, ya que probablemente marcarían más de cinco declaraciones en un artículo (y, por lo tanto,
mostrarían menos discriminación entre información importante y trivial).

4.4 Problemas para la implementación. Los estudiantes ya están familiarizados con y adoptan
espontáneamente la técnica de resaltar; el problema es que la forma en que usualmente se implementa la
técnica no es efectiva. Mientras que la técnica como se usa normalmente no suele ser perjudicial para el
aprendizaje (vea Peterson, 1992, para una posible excepción), puede ser problemático en la medida en que
impide que los estudiantes se involucren en otras estrategias más productivas.

Una posibilidad que debe ser explorada es si los estudiantes podrían ser entrenados para resaltar de manera
más efectiva. Se encontraron tres estudios enfocados en capacitar a los alumnos en la técnica de subrayado.
En dos de estos casos, la capacitación involucró una o más sesiones en las que los estudiantes practicaron la
lectura de textos para buscar ideas principales antes de marcar cualquier texto. Los estudiantes recibieron
comentarios sobre los textos de práctica antes de marcar (y ser evaluados con) el texto objetivo, y la
capacitación mejoró el rendimiento (por ejemplo, Amer, 1994; Hayati & Shariatifar, 2009). En el tercer caso, los
estudiantes recibieron comentarios sobre su capacidad para subrayar el contenido más importante de un texto;
críticamente, a los estudiantes se les pidió que subrayaran lo menos posible. En una condición, los estudiantes
incluso perdieron puntos por subrayar material extraño (Glover, Zimmer, Filbeck, & Plake, 1980). Los
procedimientos de capacitación en los tres casos involucraron recibir comentarios, y todos tenían alguna
protección contra el uso excesivo de la técnica. Dado el entusiasmo de los estudiantes por Resaltar y Subrayar
(o tal vez el entusiasmo excesivo, dado que los estudiantes no siempre usan la técnica correctamente),
descubrir formas para garantizar que esta técnica se use de manera efectiva podría ser más fácil que
convencer a los estudiantes para que la abandonen por completo a favor de otras técnicas.

4.5 Resaltar y Subrayar: Evaluación general. Sobre la base de la evidencia disponible, calificamos el resaltado
y el subrayado como de baja utilidad. En la mayoría de las situaciones que se ha examinado y con la mayoría
de los participantes, el resaltado hace poco para mejorar el rendimiento. Puede ayudar cuando los estudiantes
tienen el conocimiento necesario para resaltar de manera más efectiva, o cuando los textos son difíciles, pero
en realidad puede afectar el desempeño en tareas de alto nivel que requieren la inferencia. Las investigaciones
futuras deben estar dirigidas a enseñar a los estudiantes cómo resaltar de manera efectiva, dado que es
probable que los estudiantes continúen usando esta técnica popular a pesar de su relativa ineficacia.

[VARIAS SECCIONES OMITIDAS]

8. Pruebas de práctica (PP)


Es probable que muchos estudiantes vean las pruebas como una necesidad indeseable de la educación, y
sospechamos que la mayoría de los estudiantes preferirían tomar la menor cantidad de pruebas posible. Esta
visión de las pruebas es comprensible, dado que la experiencia de la mayoría de los estudiantes con las pruebas
implica evaluaciones sumativas de alto nivel que se administran para evaluar el aprendizaje. Esta visión de las

13
pruebas también es desafortunada, ya que eclipsa el hecho de que las pruebas también mejoran el aprendizaje.
Desde el estudio seminal de Abbott (1909), más de 100 años de investigación han arrojado varios cientos de
experimentos que demuestran que las Pruebas de práctica mejoran el aprendizaje y la retención (para
revisiones recientes, ver Rawson y Dunlosky, 2011; Roediger & Butler, 2011; Roediger, Putnam , & Smith, 2011).
Incluso en 1906, Edward Thorndike recomendó que "la recuperación activa de un hecho desde dentro es, por
regla general, mejor que su impresión desde fuera" (p. 123, Thorndike, 1906). El siglo de investigación sobre
Pruebas de práctica desde entonces ha apoyado la recomendación de Thorndike al demostrar la amplia
generalización de los beneficios de las Pruebas de práctica.

Nótese que usamos el término prueba de práctica (PP) aquí (a) para distinguir las pruebas que se completan
como una práctica o actividad de aprendizaje fuera de clase de las evaluaciones que son administradas por un
instructor en clase, y (b) para abarcar cualquier forma de PP en la que los estudiantes puedan participar por su
cuenta. Por ejemplo, las PP podrían involucrar la práctica de recordar información diana mediante el uso de
fichas virtuales o reales, completar problemas de práctica o preguntas incluidas al final de los capítulos de los
libros de texto, o completar las Pruebas de práctica incluidas en los materiales electrónicos complementarios
que acompañan cada vez más los libros de texto.

8.1 Descripción general de las Pruebas de práctica y por qué debería funcionar.
Como ejemplo ilustrativo del poder de las PP, Runquist (1983) presentó a estudiantes universitarios una lista
de pares de palabras para su estudio inicial. Después de un breve intervalo durante el cual los participantes
completaron tareas de relleno1, la mitad de los pares de palabras se evaluaron a través de una PP de recordar
con pistas y la mitad no se evaluó. Los participantes completaron una evaluación final de todos los pares, ya
sea 10 minutos o 1 semana después. El desempeño de la evaluación final fue mejor para los pares que se
evaluaron en la PP que para los pares que no (53% versus 36% después de 10 minutos, 35% versus 4% después
de 1 semana). Si bien este estudio ilustra el método de comparar el desempeño entre condiciones que
involucran o no una PP, muchos otros estudios han comparado una condición de PP con condiciones más
estrictas que involucran presentaciones adicionales de la información que se debe aprender. Por ejemplo,
Roediger y Karpicke (2006b) presentaron a estudiantes universitarios un breve texto expositivo para su estudio
inicial seguido de una segunda prueba de estudio o de una PP. Una semana después, el recuerdo fue
considerablemente mejor en el grupo que había tomado la PP que en el grupo que había vuelto a estudiar (56%
versus 42%). Como otra demostración particularmente convincente de la potencia de las PP en comparación
con el reestudio, Karpicke y Roediger (2008) presentaron a estudiantes de licenciatura traducciones de swahili-
inglés para ciclos de estudio y PP hasta que los ítems se recordaron correctamente una vez. Después del primer
recuerdo correcto, los ítems se presentaron solo en ciclos de reestudio sin PP, o solo en ciclos de PP sin
reestudio. El rendimiento en una prueba final 1 semana después fue sustancialmente mayor después de las PP
continuas (80%) que después de reestudio continuo (36%).

1
N de T. Las pruebas de rellenos se utilizan en muchos experimentos para “distraer” al participante antes de evaluar su
capacidad de recordar algo aprendido

14
¿Por qué las PP mejoran el aprendizaje? Mientras que una gran cantidad de estudios han establecido la
generalidad de los efectos de hacer pruebas, las teorías sobre por qué mejora el aprendizaje se han quedado
atrás. No obstante, explicaciones teóricas están emergiendo cada vez más para explicar dos tipos diferentes
de efectos de prueba, que se conocen como efectos directos y efectos mediados (Roediger & Karpicke, 2006a).
Los efectos directos se refieren a los cambios en el aprendizaje que surgen del acto de tomar una prueba en
sí, mientras que los efectos mediados se refieren a los cambios en el aprendizaje que surgen de una influencia
de la prueba en la cantidad o el tipo de codificación que tiene lugar después de la prueba (por ejemplo, durante
una posterior oportunidad de estudio).

Con respecto a los efectos directos de las PP, Carpenter (2009) propuso recientemente que las pruebas pueden
mejorar la retención al desencadenar procesos de elaboración en la recuperación 2. El intento de recuperar
información diana implica una búsqueda en la memoria a largo plazo que activa información relacionada, y
esta información activada puede codificarse junto con la información diana recuperada, formando una traza
que permite múltiples vías para facilitar el acceso posterior a esa información. En apoyo de esta teoría,
Carpenter (2011) hizo que los alumnos estudiaran pares de palabras poco relacionadas (por ejemplo, "madre"
- "niño") seguidas de un reestudio o una PP. En una evaluación final posterior, la recuperación de la palabra
diana se realizó a través de una palabra previamente no presentada pero fuertemente relacionada (por ejemplo,
"padre"). El desempeño fue mayor después de una PP que después de un reestudio, presumiblemente porque
la PP aumentó la probabilidad de que la información relacionada se activara y codificara junto con la palabra
diana durante el aprendizaje.

Respecto a los efectos mediados de las PP, Pyc y Rawson (2010, 2012b) propusieron una teoría similar, según
el cual las PP facilitan la codificación de mediadores más efectivos (es decir, información elaborada que
conecta las pistas y dianas) durante las oportunidades de posteriores de reestudio. Pyc y Rawson (2010)
presentaron a estudiantes traducciones de swahili-inglés en un bloque de estudio inicial, al que siguieron tres
bloques reestudio; para la mitad de los participantes, cada ensayo de reestudio fue precedido por una PP. Se
pidió a todos los estudiantes que generarán e informaran una palabras clave mediadora durante cada ensayo
de reestudio. En la evaluación una semana después, en comparación con los estudiantes que solo habían vuelto
a estudiar, los estudiantes que habían participado en la PP tenían más probabilidades de recordar a sus
mediadores cuando se les pedía que recordaran a partir de una palabra clave, y eran más propensos a recordar
la palabra diana a partir de su mediador.

La evidencia reciente también sugiere que las PP pueden mejorar la forma en que los estudiantes organizan
mentalmente la información y la forma en que procesan los aspectos idiosincráticos de ítems individuales, que
juntos pueden apoyar una mejor retención y un mejor desempeño en las evaluaciones (Hunt, 1995, 2006).
Zaromb y Roediger (2010) presentaron a alumnos listas con palabras de diferentes categorías taxonómicas

2
N de T. Retrieval, recuperación en este contexto refiere a acceder a un elemento almacenado en memoria

15
(por ejemplo, verduras, ropa) en ocho bloques de estudio, o en cuatro bloques de estudio, cada uno de los
cuales era seguido por una PP. Replicando efectos conocidos de las PP, el recuerdo 2 días después fue mayor
cuando los ítems habían pasado por PP (39%) que cuando solo se habían estudiado (17%). Es importante
destacar que la condición de PP también superó la condición de estudio en medidas secundarias,
principalmente referidas a procesamiento organizativo y el procesamiento idiosincrático.

8.2 ¿Qué tan generales son los efectos de las Pruebas de práctica? Dado el volumen de investigación sobre
los efectos de usar pruebas, una revisión exhaustiva de la literatura está más allá del alcance de este artículo.
En consecuencia, nuestra síntesis a continuación se basa principalmente en estudios de los últimos 10 años
(que incluyen más de 120 artículos), que creemos que representan el estado actual del campo. La mayoría de
estos estudios compararon condiciones que involucran PP con condiciones que no involucran PP o que
involucran solo reestudio; sin embargo, también consideramos el trabajo más reciente que involucra diferentes
condiciones de PP entre sí para explorar cuándo funcionan mejor las PP.

8.2a Condiciones de aprendizaje. La mayoría de las investigaciones sobre PP han utilizado formatos de prueba
que implican el recuerdo de la información diana a partir de pistas, pero algunos estudios también han
demostrado efectos de prueba con otros formatos de PP basados en el recuerdo, incluidos el recuerdo libre,
las preguntas de respuesta corta y completar espacios en blanco. Un número creciente de estudios que utilizan
PP de múltiple opción también han informado sobre los efectos de hacer pruebas. En estos formatos, la
mayoría de las investigaciones anteriores han involucrado PP que recurren a la memoria para obtener
información presentada de manera explícita. Sin embargo, varios estudios también han mostrado efectos de
prueba para las PP que abarcan la comprensión, incluida las preguntas de respuesta corta y las preguntas
múltiple opción basadas en inferencias (por ejemplo, Agarwal & Roediger, 2011; Butler, 2010; C. I. Johnson &
Mayer, 2009). Los efectos de hacer pruebas también se han demostrado en un estudio en el que la práctica
consistía en predecir (versus estudiar) los valores de entrada y salida en una tarea de aprendizaje de función
inductiva (Kang, McDaniel y Pashler, 2011) y un estudio en el que los participantes practicaron (vs.
reestudiaron) procedimientos de reanimación (Kromann, Jensen, & Ringsted, 2009). Algunas investigaciones
han demostrado los efectos de hacer pruebas, incluso cuando las PP se realizan con el material a la
vista(Agarwal et al., 2008; Weinstein, McDermott, & Roediger, 2010).

Es importante tener en cuenta que las PP pueden beneficiar el aprendizaje incluso cuando el formato de la PP
no coincide con el formato de la prueba de criterio (esto es, la evaluación final). Por ejemplo, la investigación
ha demostrado efectos cruzados de PP múltiple opción sobre evaluaciones posteriores de recuerdo a partir de
pistas (Fazio, Agarwal, Marsh y Roediger, 2010; Marsh, Agarwal y Roediger, 2009; Roediger & Marsh, 2005), PP
de recuerdo libre sobre evaluaciones finales de tipo múltiple opción y de respuesta corta que requerían
inferencias (McDaniel, Howard, & Einstein, 2009), y PP de recuerdo a partir de pistas sobre evaluaciones finales
de recuerdo libre y de reconocimiento (Carpenter, Pashler, & Vul, 2006; Vaughn & Rawson, 2011).

16
Aunque varios formatos de PP funcionan, algunos funcionan mejor que otros. Glover (1989) presentó a los
estudiantes un breve texto de exposición para su estudio inicial y luego manipuló el formato de la prueba
práctica (recuerdo libre, complete el espacio en blanco o reconocimiento) y el formato de la prueba final
(recuerdo libre, rellene el espacio en blanco o reconocimiento). En los tres formatos de prueba final, el
desempeño fue mayor después de la práctica de recuerdo libre que siguiendo la práctica de completar el
espacio en blanco, que a su vez fue mayor que el rendimiento después de la práctica de reconocimiento. De
manera similar, Carpenter y DeLosh (2006) encontraron que la práctica de recuerdo libre superó a la práctica
de recuerdo a partir de pistas y reconocimiento, independientemente de si la prueba final se realizó en un
formato de recuerdo libre, recuerdo a partir de pistas o reconocimiento, y Hinze y Wiley (2011) encontraron que
el desempeño en una prueba final de múltiple opción fue mejor después del recuerdo de párrafos a partir de
pistas que siguiendo la práctica de completar el espacio en blanco. Se necesita más trabajo para apoyar
conclusiones prescriptivas sólidas, pero la evidencia disponible sugiere que las PP que requieren respuestas
más generativas (por ejemplo, recordatorio o respuesta corta) son más efectivas que las PP que requieren
respuestas menos generativas (por ejemplo, complete el espacio en blanco o reconocimiento).

Además del formato de PP, otras dos condiciones de aprendizaje que influyen fuertemente en los beneficios
de la PP son la dosificación y el tiempo. En cuanto a la dosificación, la conclusión más simple es que más es
mejor. Algunos estudios que apoyan esta conclusión han manipulado el número de PP, y el rendimiento de la
prueba final siempre ha sido mejor después de múltiples PP que después de una única PP (por ejemplo,
Karpicke & Roediger, 2007a, 2010; Logan & Balota, 2008; Pavlik & Anderson, 2005). En otros estudios, los
experimentadores han variado el número de PP para manipular el nivel de éxito alcanzado durante la práctica.
Por ejemplo, Vaughn y Rawson (2011) observaron un desempeño significativamente mayor en la prueba final
cuando los estudiantes intentaban recordar a partir de pistas hasta que lograban recordar los ítems
correctamente de 5 a 6 veces, que cuando solo lo hacían hasta recordar los ítems correctamente solo una vez.
Varios otros estudios han demostrado que el desempeño en la prueba final mejora a medida que aumenta el
número de respuestas correctas durante la práctica (por ejemplo, Karpicke & Roediger, 2007b, 2008; Pyc &
Rawson, 2009, 2012a; Rawson y Dunlosky, 2011), aunque con rendimientos decrecientes a medida que se
alcanzan niveles de criterio más altos. Si bien estos estudios han involucrado manipulaciones de la dosis dentro
de una sesión de práctica, otros estudios que han manipulado la cantidad de sesiones de práctica también han
encontrado que cuanto más es mejor (Bahrick, 1979; Bahrick, Bahrick, Bahrick, & Bahrick, 1993; Morris & Fritz,
2002; Rawson & Dunlosky, 2011).

Sin embargo, el beneficio de las PP repetidas a su vez depende de la sincronización de las PP. Varios estudios
han aumentado la cantidad de pruebas presentadas en sucesión inmediata dentro de una sesión y han
encontrado efectos mínimos o inexistentes, en contraste con los beneficios considerables observados cuando
se espacian las pruebas repetidas (por ejemplo, Carpenter & DeLosh, 2005; Cull, 2000; Glover, 1989; Karpicke &
Bauernschmidt, 2011). Con respecto a los intervalos de tiempo involucrados con el espaciado, más tiempo es
mejor. Las PP repetidas producen mayores beneficios cuando los retrasos entre los ensayos dentro de una
sesión son más largos que cortos (por ejemplo, Pashler, Zarow, & Triplett, 2003; Pavlik & Anderson, 2005; Pyc

17
& Rawson, 2009, 2012b), cuando los ensayos se completan en diferentes sesiones de práctica en lugar de todas
en la misma sesión (por ejemplo, Bahrick, 1979; Bahrick & Hall, 2005; Kornell, 2009; Rohrer, 2009; Rohrer &
Taylor, 2006), y cuando los intervalos entre las sesiones de práctica son más largos que cortos (Bahrick et al.,
1993; Carpenter, Pashler, & Cepeda, 2009, aunque el retraso óptimo entre sesiones puede depender del intervalo
de retención (ver Cepeda et al., 2009; Cepeda, Vul, Rohrer, Wixted, & Pashler, 2008). Discutimos los efectos de
retraso en la sección Práctica distribuida a continuación.

8.2b Características del estudiante. Una gran mayoría de los estudios han involucrado a estudiantes
universitarios como participantes, pero los efectos de las pruebas también se han demostrado en participantes
de edades muy diversas. Los estudios que involucran muestras no universitarias han diferido algo en el tipo, la
dosificación o el momento de las PP involucradas, pero se ha demostrado algún tipo de efecto de prueba con
niños de preescolar y kindergarten (Fritz, Morris, Nolan, & Singleton, 2007; Kratochwill & Conzemius, 1977),
estudiantes de la escuela primaria (Atkinson & Paulson, 1972; Bouwmeester & Verkoeijen, 2011; Fishman, Keller
& Atkinson, 1968; Gates, 1917, Metcalfe & Kornell, 2007; Metcalfe, Kornell & Finn, 2009; Myers, 1914; Rea &
Modigliani, 1985; Rohrer, Taylor, & Sholar, 2010; Spitzer, 1939), estudiantes de ciclo básico de secundaria
(Carpenter et al., 2009; Glover, 1989; McDaniel, Agarwal, Huelser, McDermott, & Roediger, 2011; Metales, Kornell,
& Son, 2007; Sones & Stroud, 1940), estudiantes de secundaria avanzados (Duchastel, 1981; Duchastel &
Nungester, 2009; Nungester & Duchastel, 1982), y estudiantes más avanzados, como estudiantes de medicina
de 3º y 4º año (Krommann et al., 2009; Rees, 1986; Schmidmaier et al., 2011). En el otro extremo del continuo,
los efectos de las pruebas también se han demostrado con estudiantes de mediana edad y con adultos
mayores (Balota, Duchek, Sergent-Marshall, & Roediger, 2006; Bishara & Jacoby, 2008; Logan & Balota, 2008 ,
Maddox, Balota, Coane, & Duchek, 2011; Sumowski, Chiaravalloti, & DeLuca, 2010; Tse, Balota, & Roediger,
2010). En contraste con el rango relativamente amplio de edades cubiertas en la literatura de efectos de prueba,
una investigación sorprendentemente mínima ha examinado los efectos de las pruebas en función de las
diferencias individuales en el conocimiento o la capacidad. Carroll, Campbell-Ratcliffe, Murnane y Perfect
(2007) presentaron a estudiantes de primer año y avanzados de psicología dos pasajes de un libro de
psicología paranormal. Los estudiantes completaron una PP de respuesta corta en uno de los pasajes y luego
hicieron una prueba final en ambos pasajes, ya sea 15 minutos o 1 día después. Ambos grupos mostraron
efectos de prueba similares en ambos puntos de tiempo (con un 33% y un 38% de precisión mejor,
respectivamente, en el material que se había practicado en comparación con el material que no lo había hecho).
Aunque estos resultados iniciales constituyen una evidencia alentadora de que los efectos de la prueba pueden
ser robustos en todos los niveles de conocimiento, es necesario trabajar más antes de que se puedan sacar
conclusiones sólidas acerca de hasta qué punto el nivel de conocimiento modera los efectos de las pruebas.

Del mismo modo, muy poca investigación ha examinado los efectos de las pruebas en función de los niveles
de capacidad académicamente relevantes. En un estudio de Spitzer (1939), 3.605 estudiantes de sexto grado
de 91 escuelas primarias diferentes leyeron un breve texto y realizaron una prueba inmediata, para proporcionar
una línea de base de la capacidad de comprensión de lectura. En los grupos de interés aquí, todos los
estudiantes leyeron un texto experimental, la mitad completaron una PP múltiple opción, y luego completaron

18
una evaluación final múltiple opción, ya sea 1 o 7 días después. Spitzer reportó el desempeño en la evaluación
final para el texto experimental por separado para los tercios superior e inferior de los estudiantes en función
de su desempeño en la evaluación de línea de base. Como se muestra en la Figura 7, tomar la PP benefició a
ambos grupos de estudiantes. Dicho esto, el efecto de prueba parecía ser algo mayor para los lectores de
mayor capacidad que para los lectores de menor capacidad (con aproximadamente un 20%, frente al 12% de
mejora en los aciertos), aunque Spitzer no informó las estadísticas inferenciales pertinentes.

Fig. 7. Precisión promedio en un test final administrado 1 día o una semana luego de una sesión de aprendizaje,
que o bien incluyó o bien no un ensayo de prueba, para los estudiantes del tercio superior y el inferior de los
puntajes obtenidos en una preuba de línea de base de la habilidad en Spitzer (1939). Las barras de error
representan los errores estándar.

Finalmente, la evidencia de los estudios que involucran poblaciones de pacientes es al menos sugerente con
respecto a la generalidad de los efectos de la prueba a lo largo de diferentes niveles de capacidad de
aprendizaje. Por ejemplo, Balota et al. (2006) descubrieron que las PP espaciadas mejoraron la retención en
intervalos de tiempo cortos no sólo para adultos jóvenes y adultos mayores sanos, sino también para adultos
mayores con enfermedad de Alzheimer. Del mismo modo, Sumowski et al. (2010) encontraron que una PP
produjo mayores efectos en personas con impedimentos de memoria vs. personas con memoria intacta, todas
de mediana edad con esclerosis múltiple (d = 0,95 vs d = 0,54, respectivamente, agrupados en función de su
desempeño en una evaluación de memoria). En suma, varios estudios han sugerido que las PP pueden
beneficiar a individuos con diferentes niveles de conocimiento o capacidad, pero la medida en que la magnitud
del beneficio depende de estos factores sigue siendo una cuestión abierta.

8.2c Materiales. Muchos de los estudios que han demostrado efectos de prueba han involucrado materiales
lingüísticos relativamente simples, incluyendo listas de palabras y pares de palabras asociadas. Sin embargo,

19
la mayoría de los conjuntos de materiales utilizados han tenido cierta relevancia educativa. Una considerable
mayoría de los estudios que utiliza materiales asociados han incluido traducciones de idiomas (incluyendo
chino, iñupiaq, japonés, lituano, español y swahili) o palabras de vocabulario emparejadas con sinónimos. Otros
estudios han ampliado los efectos a pares de títulos de libros y nombres de autor, nombres y rostros, objetos
y nombres, e imágenes y traducciones a otros idiomas (por ejemplo, Barcroft, 2007; Carpenter & Vul, 2011;
Morris & Fritz, 2002; Rohrer, 2009). Un número considerable de estudios también ha mostrado efectos de
prueba para información factual, incluyendo hechos de trivia y preguntas de conocimiento general (por ejemplo,
Butler, Karpicke, & Roediger, 2008; Smith & Kimball, 2010) y hechos extraídos de unidades de aula en Ciencia,
Historia y Psicología (por ejemplo, Carpenter et al., 2009, McDaniel et al., 2011; McDaniel, Wildman, & Anderson,
2012). Investigaciones anteriores mostraron que las PP ayudaron a los niños a aprender multipilcación y listas
de reglas ortográficas (Atkinson y Paulson, 1972; Fishman et al., 1968; Rea & Modigliani, 1985), y estudios
recientes han reportado un mejor aprendizaje de definiciones de palabras (Metcalfe et al. al., 2007) y
definiciones de conceptos de término clave a partir del material de clase (Rawson & Dunlosky, 2011).

Un número cada vez mayor de estudios ha mostrado beneficios para aprender de materiales de texto de
diversas extensiones (de 160 palabras a 2000 palabras o más), de diversos géneros de texto (por ejemplo,
entradas de enciclopedia, artículos de revistas científicas, pasajes de libros de texto) y una amplia gama de
temas (por ejemplo, economía de la Guerra Civil, ecolocación de murciélagos, nutrias marinas, teoría del Big
Bang, fósiles, exploración del ártico, tucanes). Las PP han mejorado el aprendizaje a partir de conferencias en
video y de animaciones narradas sobre temas como el desarrollo de adultos, relámpagos, neuroanatomía e
historia del arte (Butler & Roediger, 2007; Vojdanoska, Cranney, & Newell, 2010).

Aunque gran parte del trabajo sobre los efectos de la prueba ha utilizado materiales lingüíisticos, también se
ha demostrado que las PP respaldan el aprendizaje de materiales que incluyen información visual o espacial,
incluyendo el aprendizaje de características y ubicaciones en mapas (Carpenter & Pashler, 2007; Rohrer et al.,
2010), identificando aves (Jacoby, Wahlheim, & Coane, 2010), nombrando objetos (Helder y Shaughnessy, 2008;
Morris & Fritz, 2002), aprendiendo ubicaciones espaciales de objetos (Sommer, Schoell, & Büchel, 2008),
aprendiendo símbolos (Coppens, Verkoeijen, & Rikers, 2011) e identificando partes representadas de una flor
(Glover, 1989). Por último, el trabajo reciente ha extendido los efectos de la prueba al aprendizaje no declarativo,
incluyendo el aprendizaje de habilidades de resucitación (Kromann et al., 2009) y el aprendizaje inductivo de
las funciones de entrada-salida (Kang, McDaniel et al., 2011).

8.2d Tareas de criterio. A pesar de que el recuerdo a partir de pistas es la tarea de criterio más comúnmente
usada, los efectos de la prueba también se han demostrado con otras formas de pruebas de memoria,
incluyendo el recuerdo libre, el reconocimiento y completar espacios en blanco, así como preguntas de opción
múltiple que requieren de memoria para obtener información explícitamente indicada en el material de texto.

En cuanto a la transferencia, el método más usado ha implicado el uso de las mismas preguntas sobre la
información en PPs y pruebas de criterio. Sin embargo, como se describe en la subsección sobre las

20
condiciones de aprendizaje (8.2a), muchos estudios también han mostrado efectos de prueba cuando se
evalúa la misma información diana utilizando diferentes formatos de prueba para PPs y tareas de criterio.
Además, un número creciente de estudios ha demostrado que la práctica de ensayar un subconjunto de
información influye en la memoria para información relacionada pero no evaluada (Chan, 2009, 2010; Chan,
McDermott, & Roediger, 2006; Cranney et al., 2009) aunque los beneficios no siempre se trasnfieren a la
información relacionada (véase Carroll et al., 2007, Duchastel, 1981).

Aunque la mayor parte de la investigación ha consistido en PPS y tareas de criterio basadas en memorizar,
varios estudios recientes también han presentado resultados alentadores sobre la medida en que las PPs
pueden beneficiar la comprensión. Los efectos positivos se han demostrado en pruebas de criterio que
requieren inferencias o la aplicación de información previamente aprendida (Agarwal & Roediger, 2011; Butler,
2010; Foos & Fisher, 1988; Johnson & Mayer, 2009; Karpicke & Blunt, 2011; McDaniel et al., 2009), incluyendo
pruebas de criterio que utilizaron diferentes preguntas o diferentes formatos de prueba que los utilizados
durante la práctica. Por ejemplo, Karpicke y Blunt (2011) encontraron que practicar el recuerdo libre del material
de texto facilitaba el desempeño en una prueba de criterio subsiguiente que incluía preguntas de respuesta
corta basadas en la inferencia, así como en una prueba de cartografía de conceptos. De hecho, el desempeño
en mapa conceptual fue mejor después de la práctica de recordar libremente durante el estudio que después
de la cartografía conceptual durante el estudio. Del mismo modo, Butler (2010) presentó a los estudiantes
textos expositivos para el estudio inicial, que fueron seguidos por reestudio o por PPs repetidas de respuesta
corta (con retroalimentación) sobre los hechos y conceptos clave de los textos. Una semana después, el
desempeño en las nuevas preguntas de respuesta corta basadas en la inferencia, basándose en los hechos y
conceptos claves, fue mejor después de las PPs que después del reestudio (véase la figura 8). Los resultados
de un experimento adicional (Exp. 3) son particularmente sorprendentes, ya que la prueba de criterio implicaba
una transferencia excesiva, en que las preguntas requerían aplicar los conceptos de un dominio en un dominio
novedoso (por ejemplo, los estudiantes tenían que aplicar información de las alas de murciélago para hacer
inferencias sobre el desarrollo de nuevos tipos de aeronaves).

21
Fig. 8. Precisión en los test finales que consistían en preguntas que evalúan la transferencia basada en
inferencias, basados en conceptos o hechos clave, administrada una semana después de una sesión de
aprendizaje que involucraba ya sea pruebas de práctica o re-estudio, en Butler (2010). Las barras de error
representan el error estándar.

Por último, estudios recientes también han mostrado efectos de pruebas que implican otras formas de
transferencia. Jacoby et al. (2010) presentaron a los alumnos imágenes de aves y sus nombres de familia para
su estudio inicial, seguido de un estudio adicional de los pares de imagen-nombre o por PPS en las que a los
alumnos se le mostraron imágenes de aves e intentaban recordar la familia apropiada antes de que se le
muestre la respuesta correcta. La prueba de criterio subsiguiente incluyó a las mismas familias de aves, pero
incluyó nuevas imágenes de aves de esas familias. Los estudiantes fueron más precisos en la clasificación de
las nuevas aves después de la PPs que después del reestudio sólo. De manera similar, Kang, McDaniel y Pashler
(2011) examinaron el aprendizaje de funciones inductivas bajo condiciones en las que los alumnos estudiaron
pares de valores de entrada-salida o predijeron la salida para un valor de entrada dado, antes de mostrar la
salida correcta. El grupo de predicción superó al grupo de solo estudio en una prueba de criterio para pares
entrenados y pares de extrapolación no entrenados.

Además de establecer los efectos de PPs a través de una serie de evaluaciones diferentes, los estudios también
han demostrado efectos de prueba a través de muchos intervalos de retención. De hecho, a diferencia de la
literatura disponible sobre otras técnicas de aprendizaje, la investigación contemporánea sobre los efectos de
PPs ha utilizado intervalos cortos de retención con menos frecuencia que intervalos de retención más largos.
Aunque un buen número de estudios ha demostrado los efectos de PPs después de cortos retrasos (0-20
minutos), la gran mayoría de las investigaciones recientes ha implicado retrasos de al menos 1 día y el intervalo
de retención más utilizado es de 1 semana. La preferencia por utilizar intervalos de retención más largos puede
deberse en parte a los resultados de varios estudios que informan que los efectos de la prueba son mayores
cuando se administran las pruebas finales después de retrasos más prolongados (Chan, 2009; CI Johnson &
Mayer, 2009, Kornell, Bjork, & Garcia, 2011; Roediger & Karpicke, 2006b; Runquist, 1983; Schmidmaier et al.,
2011; Toppino & Cohen, 2009; Wenger, Thompson, & Bartling, 1980; Wheeler, Ewers, & Buonanno, 2003). Es
impresionante que se hayan observado efectos de prueba después de intervalos aún más largos, incluyendo
intervalos de 2 a 4 semanas (por ejemplo, Bahrick & Hall, 2005; Butler & Roediger, 2007; Carpenter, Pashler,
Wixted, & Vul, 2008; Kromann et al., 2009; Rohrer, 2009), de 2 a 4 meses (McDaniel, Anderson, Derbish, &
Morrisette, 2007; Morris & Fritz, 2002; Rawson & Dunlosky, 2011), de 5 a 8 meses (McDaniel et al., 2011; Rees,
1986), 9-11 meses (Carpenter et al., 2009) e incluso de 1 a 5 años (Bahrick et al., 1993). Estos hallazgos son
una gran noticia para estudiantes y educadores, dado que una meta educativa clave es el conocimiento
duradero y no sólo mejoras temporales en el aprendizaje.

8.3 Efectos en contextos educativos representativos. Como se describió anteriormente, gran parte de la
investigación sobre los efectos de las PPs ha involucrado materiales, tareas e intervalos de retención
educativos relevantes. Además, varios estudios han reportado efectos de pruebas usando materiales de aula

22
auténticos (es decir, materiales tomados de clases en las que los estudiantes participantes estaban inscriptos,
Carpenter et al., 2009; Cranney et al., 2009; McDaniel et al., 2007; Rawson & Dunlosky, 2011; Rees, 1986,
Vojdanoska et al., 2010). Mientras que las tareas de criterio en estos estudios implican pruebas inventadas por
el experimentador o cuestionarios de preguntas sin consecuencias, la investigación también ha demostrado
los efectos de PPs en las evaluaciones reales del curso (Balch, 1998; Lyle & Crawford, 2011; McDaniel et al.,
2011; McDaniel et al., 2012).

Por ejemplo, un estudio de McDaniel et al. (2012) incluyó a estudiantes matriculados en un curso de psicología
en línea sobre el cerebro y el comportamiento. Cada semana, los estudiantes podían ganar puntos de curso
completando una actividad de práctica en línea hasta cuatro veces. En la actividad en línea, parte de la
información se presentaba para PPs con retroalimentación, parte para reestudio y parte de la información no
se presentaba. Los exámenes posteriores de la unidad incluyeron preguntas que se habían presentado durante
las PPs y también nuevas preguntas relacionadas, centradas en diferentes aspectos de los conceptos
practicados. Como se muestra en la Figura 9, los puntajes en los exámenes de la unidad fueron más altos para
información que había sido evaluada en las PPS, que para información reestudiada o información no
practicada, tanto para preguntas repetidas como para nuevas preguntas relacionadas.

Fig. 9. Puntajes en exámenes de curso cubriendo ítems que fueron presentados en las pruebas de práctica, en
el reestudio o no presentados durante las actividades de aprendizaje online que los estudiantes completaron
para obtener puntos en el curso. El examen del curso incluyó algunas preguntas que habían sido presentadas
durante las pruebas de práctica así como nuevas preguntas que se basan en la misma información. Por
simplicidad los resultados aquí reportados colapsan dos experimentos reportados en McDaniel, Wildman, and
Anderson (2012).

8.4 Cuestiones de aplicación. Las Pruebas de práctica parecen ser relativamente razonables con respecto a
demandas de tiempo. La mayoría de la investigación ha demostrado los efectos de las PPs cuando la cantidad
de tiempo asignado para la PP es modesto y se equipara con el tiempo asignado para re-estudiar. Otro mérito

23
de las Pruebas de práctica es que se puede implementar con un entrenamiento mínimo. Los estudiantes
pueden participar en auto-pruebas basadas en la memoria de una manera relativamente directa. Por ejemplo,
los estudiantes pueden autocomprobarse mediante la creación de tarjetas flashcards (también está disponible
un software libre y de bajo costo para hacer flashcards) o usando el sistema de toma de notas Cornell (que
implica dejar una columna en blanco al tomar notas en clase y entrar términos clave o preguntas en él poco
después de tomar notas para usar para la auto-prueba al revisar las notas en un momento posterior, para más
detalles, véase Pauk & Ross, 2010). Las formas más estructuradas de exámenes prácticos (por ejemplo,
exámenes de respuesta múltiple, de respuesta corta y de llenado en blanco) a menudo están disponibles para
los estudiantes a través de problemas de práctica o preguntas incluidas al final de los capítulos del libro o en
el suplemento electrónico, materiales que acompañan a muchos libros de texto. Dicho esto, los estudiantes
probablemente se beneficiarían de alguna instrucción básica sobre cómo utilizar con mayor eficacia las
Pruebas de práctica, ya que los beneficios de la prueba dependen del tipo de prueba, dosis y tiempo. Como se
ha descrito anteriormente, la PP es particularmente ventajosa cuando incluye recordar y se continúa hasta que
los elementos se responden correctamente más de una vez dentro y entre sesiones de práctica y con intervalos
más largos en comparación con intervalos más cortos entre ensayos o sesiones.

En cuanto a la eficacia de la PP en relación con otras técnicas de aprendizaje, algunos estudios han demostrado
los beneficios de las Pruebas por sobre mapas conceptuales, toma de notas, y el uso de imágenes (Fritz et al.,
2007; McDaniel et al., 2009; Neuschatz, Preston, Toglia, & Neuschatz, 2005), pero las comparaciones más
frecuentes han consistido en la comparación de PPs versus reestudio individual. El resultado más frecuente es
que las Pruebas de práctica superan al reestudio, aunque este efecto depende en cierta medida de la medida
en que los exámenes de práctica vayan acompañados de retroalimentación que incluya la presentación de la
respuesta correcta. Aunque muchos estudios han demostrado que solamente hacer la prueba de práctica (sin
retroalimentación) supera el reestudio, algunos estudios no han logrado encontrar esta ventaja (en la mayoría
de estos casos, la precisión en la prueba de práctica ha sido relativamente baja). En contraste, la ventaja de las
Pruebas de práctica con la retroalimentación sobre el estudio es extremadamente robusto. Las Pruebas de
práctica con retroalimentación también superan sistemáticamente las Pruebas de práctica por sí solas.

Otra razón para recomendar la implementación de la retroalimentación con las Pruebas de práctica es que
protege contra los errores de perseverancia cuando los estudiantes responden incorrectamente en una prueba
de práctica. Por ejemplo, Butler y Roediger (2008) encontraron que una PP múltiple opción aumentó las
intrusiones de falsas alternativas en la evaluación final (de recuerdo a partir de pistas) cuando no se
proporcionó retroalimentación, mientras que no se observó este aumento cuando se dio la retroalimentación.
Afortunadamente, el efecto correctivo de la retroalimentación no requiere que se presente inmediatamente
después de la prueba de práctica. Metcalfe et al. (2009) encontraron que el rendimiento en la evaluación final
para las respuestas inicialmente incorrectas era realmente mejor cuando la retroalimentación se había
retrasado que cuando había sido inmediata. También es alentadora la evidencia que sugiere que la
retroalimentación es particularmente eficaz para corregir errores de alta confianza (por ejemplo, Butterfield &
Metcalfe, 2001). Por último, observamos que los efectos de los errores de las pruebas de la práctica en el

24
desempeño subsiguiente tienden a ser relativamente pequeños, a menudo no se obtienen y son fuertemente
menospreciados por los beneficios positivos de las pruebas (por ejemplo, Fazio et al., 2010; Kang, Pashler, et
al., 2011; Roediger & Marsh, 2005). Por lo tanto, las preocupaciones potenciales acerca de los errores no
constituyen un problema serio para la implementación, particularmente cuando se proporciona
retroalimentación.

Por último, aunque nos hemos centrado en el uso de las PP por parte de los estudiantes, de acuerdo con el
propósito de esta monografía, observamos brevemente que los instructores también pueden apoyar el
aprendizaje de los estudiantes aumentando el uso de Pruebas de práctica de bajo o ningún impacto en la
calificación en el aula. Varios estudios también han reportado resultados positivos de la administración de
evaluaciones sumativas que son más cortas y más frecuentes que largas y menos frecuentes (por ejemplo, un
examen por semana en lugar de sólo dos o tres exámenes por semestre), no sólo para los resultados del
aprendizaje, pero también en las calificaciones de los estudiantes de factores tales como la satisfacción del
curso y la preferencia por las pruebas más frecuentes (por ejemplo, Keirs, 1934; Kika, McLaughlin, & Dixon,
1992; Leeming, 2002, para una revisión, véase Bangert-Drowns, Kulik, & Kulik, 1991).

8.5 Pruebas de práctica: Evaluación general. Sobre la base de la evidencia descrita anteriormente, clasificamos
las pruebas prácticas como de alta utilidad. Los efectos de las pruebas se han demostrado a través de una
impresionante gama de formatos de prueba de práctica, tipos de material, edades de aprendizaje, medidas de
resultado e intervalos de retención. Por lo tanto, las Pruebas de práctica tienen una amplia aplicabilidad. Las
Pruebas de práctica no son particularmente intensivas en tiempo con relación a otras técnicas, y se pueden
implementar con un entrenamiento mínimo. Por último, varios estudios han proporcionado pruebas de la
eficacia de las Pruebas de práctica en contextos educativos representativos. Con respecto a las
recomendaciones para la investigación futura, una brecha identificada en la literatura se refiere a la medida en
que los beneficios de las Pruebas de práctica dependen de las características de los alumnos, tales como el
conocimiento previo o la capacidad. Explorar las diferencias individuales en los efectos de la prueba se alinearía
bien con el objetivo de identificar la mayor generalización de los beneficios de las PP. Por otra parte, la
investigación dirigida a identificar más a fondo las causas de los efectos de las PP puede proporcionar más
información sobre la maximización de estos efectos.

Comentarios de clausura: Utilidad relativa de las técnicas de aprendizaje.


Nuestro objetivo fue proporcionar revisiones suficientemente extensas como para permitir que cualquier
persona interesada en usar una técnica particular juzgará su utilidad para sus propias metas de instrucción o
de aprendizaje. También, nos dimos cuenta de que ofrecer algunas evaluaciones generales (y las razones
detrás de ellas) podría ser útil para los lectores interesados en obtener rápidamente una visión general sobre
qué técnica puede funcionar mejor. Para ello, hemos proporcionado una evaluación de cómo se comportó cada
técnica con respecto a la generalización de sus beneficios a través de las cuatro categorías de variables
enumeradas en la Tabla 2, las cuestiones de implementación y las evidencias para su efectividad del trabajo
en contextos educativos representativos (véase la Tabla 4).

25
Tabla 4. Evaluación de utilidad y puntuación de generalización de cada técnica de aprendizaje

Tareas de Dificultades de Contextos


Técnica Utilidad Aprendiz Materiales criterio implementación educacionales

Interrogación
elaborativa Moderada P-I P I P I

Auto-explicación Moderada P-I P P-I Q I

Resumen Baja Q P-I Q Q I

Resaltar y
subrayar Baja Q Q N P N

Memoria
mnemónica con
palabras clave Baja Q Q Q-I Q Q-I

Imágenes del texto Baja Q Q Q-I P I

Relectura Baja I P Q-I P I

Pruebas de
práctica Alta P-I P P P P

Práctica
distribuida Alta P-I P P-I P P-I

Práctica espaciada Moderada I Q P-I P P-I


Nota. Un indicador positivo (P) muestra que la evidencia disponible demuestra eficacia de la técnica de aprendizaje
respecto a una determinada variable o dificultad. Un indicador negativo (N) muestra que la técnica es principalmente
ineficiente para una determinada variable. Un indicador calificado (Q) indica que la técnica mostró resultados positivos en
algunas condiciones (o en algunos grupos) pero no en otros. Un indicador insuficiente (I) indica que la evidencia disponible
es insuficiente para determinar definitivamente su utilidad para uno o más factores de una variable o dificultad.

Respecto a estas evaluaciones, nuestra muestra era indicar (a) si existen evidencias suficientes para apoyar
conclusiones sobre la generalizabilidad de una técnica, cuestiones para su implementación, o su eficacia en
contextos educativos, y (b) si existen pruebas suficientes indicadoras de que la técnica funciona. Por ejemplo,
las Pruebas de práctica recibieron una evaluación positiva (P) para tareas de criterio. Esta evaluación indica
que hemos encontrado suficiente evidencia para concluir que las Pruebas de práctica benefician el desempeño

26
estudiantil a través de una amplia gama de tareas de criterio e intervalos de retención. Por supuesto, esto no
significa que el trabajo adicional en esta área (es decir, pruebas con diferentes tareas de criterio) no sería
valioso, pero la extensión de la evidencia es lo suficientemente prometedora como para recomendar las
Pruebas de práctica a los maestros y estudiantes. Una evaluación negativa (N) indica que la evidencia
disponible demuestra que la técnica de aprendizaje no beneficia el desempeño para la categoría o problema
en particular. Por ejemplo, a pesar de su popularidad, se destacó el no aumentó del rendimiento a través de una
variedad de tareas de criterio, por lo que la técnica de referencia recibió una evaluación negativa para esta
variable. Una evaluación calificada (Q) indica que tanto la evidencia positiva como la negativa han sido
reportadas con respecto a una categoría o asunto particular. Por ejemplo, la palabra clave mnemónica recibió
una evaluación Q de los materiales porque la evidencia indica que esta técnica funciona para el aprendizaje de
materiales que son amigables con las imágenes, pero no funciona bien para materiales que no se pueden
imaginar fácilmente. Una evaluación de Insuficiente (I) indica que no se dispone de pruebas suficientes para
sacar conclusiones sobre los efectos de una técnica dada para una categoría o problema en particular. Por
ejemplo, la Interrogación elaborativa recibió una evaluación I para las tareas de criterio, porque actualmente no
sabemos si sus efectos son duraderos en intervalos de retención educativos relevantes. Cualquier celda en la
Tabla 4 con una evaluación I destaca la necesidad de más investigación sistemática.

Finalmente, algunas celdas incluyen más de una evaluación. En estos casos, existe suficiente evidencia para
evaluar una técnica en una dimensión de una categoría o problema, pero no hay evidencia suficiente para
alguna otra dimensión. Por ejemplo, la autoexplicación recibió una evaluación de PI para las tareas de criterio
porque la evidencia disponible es positiva en una dimensión (generalizable en una serie de tareas de criterio),
pero es insuficiente en otra dimensión clave (sería el caso si el beneficio de la autoexplicación se generalizarse
a través de intervalos de retención más largos). Otro ejemplo, la relectura recibió una evaluación de QI para las
tareas de criterio porque la evidencia de la efectividad de esta técnica durante largos intervalos de retención
está evaluada (es decir, en algunas condiciones de aprendizaje, no produce un efecto para intervalos de
retención más largos). Además, es insuficiente la evidencia disponible que es relevante para documentar su
efectividad a través de diferentes tipos de tareas de criterio (por ejemplo, la relectura aumenta el rendimiento
en las tareas de recuperación, pero se sabe poco sobre sus beneficios para la comprensión). Cuando las
técnicas tienen evaluaciones múltiples para una o más variables, los lectores necesitarán consultar las
revisiones para más detalles.

Por último, hemos utilizado estas etiquetas (P, N, Q, I) para desarrollar una evaluación general de utilidad para
cada una de las técnicas de aprendizaje. Las evaluaciones de la utilidad reflejan en gran medida la manera en
que los beneficios de cada técnica de aprendizaje se generalizan a través de las diferentes categorías de
variables (por ejemplo, para cuántas variables una técnica específica recibió una evaluación P). Por ejemplo, la
palabra clave mnemónica y el uso de imágenes para el aprendizaje de texto se clasificaron bajas en utilidad en
parte porque sus efectos se limitan a materiales que son susceptibles de imágenes y porque pueden no
funcionar bien para estudiantes de todas las edades. Aún así, algunos maestros pueden decidir que los
beneficios de las técnicas con calificaciones de baja utilidad coinciden con sus metas de instrucción para sus

27
estudiantes. Por lo tanto, aunque ofrecemos estas evaluaciones fáciles de usar de cada técnica de aprendizaje,
también alentamos a los maestros y estudiantes interesados a leer cuidadosamente cada revisión para tomar
decisiones informadas sobre las técnicas que mejor satisfagan sus metas de instrucción y aprendizaje.

Implicaciones para la investigación sobre técnicas de aprendizaje


Un objetivo principal de esta monografía fue desarrollar recomendaciones basadas en la evidencia para
profesores y estudiantes sobre la utilidad relativa de varias técnicas de aprendizaje. Relacionado con el anterior,
otro objetivo fue identificar áreas que no han sido investigadas y que requerirán más investigación antes de
que se puedan hacer recomendaciones basadas en la evidencia para su uso en educación. Algunas de estas
brechas son inmediatamente evidentes al inspeccionar la Tabla 4. Para resaltar algunas, se puede subrayar
que todavía no sabemos hasta qué punto muchas de las técnicas de aprendizaje beneficiarán a los estudiantes
de varias edades, habilidades y niveles de conocimiento previo. Del mismo modo, con pocas excepciones (por
ejemplo, Pruebas de práctica y Práctica distribuida), el grado en que muchas de las técnicas apoyan el
aprendizaje duradero (por ejemplo, durante varias semanas) es en gran parte desconocido. Lo anterior, en parte
porque las investigaciones de estas técnicas tienen típicamente la práctica y la prueba de criterio en la misma
sesión (para una discusión de las limitaciones de esta investigación de sesión única, véase Rawson & Dunlosky,
2011). Finalmente, se han evaluado pocas técnicas en contextos educativos representativos. Esta evaluación
(junto con la Tabla 4) sugiere dos direcciones para la investigación futura que podrían tener implicaciones
inmediatas para la educación. Primero, se necesita más investigación para explorar completamente el grado
en que los beneficios de algunas técnicas generalizan a las variables enumeradas en la Tabla 2.

Particularmente importantes serán las investigaciones que evalúen el grado en que las interacciones entre las
variables limitan o magnifican los beneficios de una técnica dada. En segundo lugar, el beneficio de la mayoría
de las técnicas en entornos representativos de la educación debe ser más ampliamente explorado. Las
versiones fáciles de usar de las técnicas más prometedoras deben ser desarrolladas y evaluadas en
investigaciones controladas llevadas a cabo en contextos educativos representativos. Idealmente, las medidas
de criterio incluirían pruebas de alto riesgo, tales como el desempeño en exámenes dentro de la clase y en las
pruebas de logro. Nos damos cuenta de que estos esfuerzos de investigación pueden ser laboriosos y
costosos, pero conducirlos será crucial para recomendar cambios educativos que tengan una probabilidad
razonable de mejorar el aprendizaje y el logro de los estudiantes.

Implicaciones para los estudiantes, los maestros y el rendimiento estudiantil


Pressley y colaboradores (Pressley, 1986; Pressley, Goodchild, et al., 1989) desarrollaron un modelo de buen
usuario de estrategias, según el cual un usuario sofisticado de las mismas conocería técnicas con las que logra
importantes objetivos vitales (es decir, estrategias), sabe cuándo y cómo usar esos métodos y los utiliza en
combinación con una rica red de conocimientos no estratégicos que posee sobre el mundo (p. 302). Sin
embargo, Pressley, Goodchild, et al. (1989) también señalaron que “... muchos estudiantes están
comprometidos con estrategias ineficaces. (...) Además, no hay suficiente evaluación profesional de las
técnicas que se recomiendan en la literatura, con muchas estrategias sobrevaloradas por los proponentes ...”

28
(p. 301). Estamos de acuerdo con dichas afirmaciones y esperamos que las revisiones actuales tengan un
impacto positivo con respecto al fomento de una mayor evaluación científica de las técnicas.

Con respecto al compromiso de los estudiantes con estrategias ineficaces, encuestas recientes han indicado
que con mayor frecuencia los estudiantes apoyan el uso de la relectura y el resaltado, dos estrategias que
encontramos que tienen una utilidad relativamente baja. Sin embargo, algunos estudiantes reportan usar
Pruebas de práctica. Estos estudiantes parecen beneficiarse del uso de estas últimas. Por ejemplo, Gurung
(2005) pidió a los estudiantes universitarios describir las estrategias que usaron para preparar los exámenes
de la clase en un curso introductorio de Psicología. La frecuencia de uso de Pruebas de práctica de los
estudiantes se correlacionó significativamente con su rendimiento en un examen final (véase también Hartwig
& Dunlosky, 2012). Dado que las Pruebas de práctica son relativamente fáciles de usar, los estudiantes que no
utilizan actualmente esta técnica deben ser capaces de incorporar en su rutina de estudio.

¿Por qué no muchos estudiantes consistentemente utilizan técnicas efectivas? Una posibilidad es que a los
estudiantes no se les indique qué técnicas son efectivas o cómo usarlas efectivamente durante la educación
formal. Parte del problema puede ser que no se informe a los profesores sobre la eficacia de las diversas
técnicas de aprendizaje. Dado que muy probablemente los maestros aprenden sobre estas técnicas en las
clases de Psicología educativa, es revelador que la mayoría de las técnicas no reciben cobertura suficiente en
los libros de texto de dicha subdisciplina. Examinamos seis libros de texto (citados en la Introducción) y,
excepto los mnemónicos basados en imágenes (por ejemplo, la palabra clave mnemónica), ninguna de las
técnicas fue cubierta por todos los libros. Además, en el subconjunto de libros de texto que describieron una o
más de estas técnicas, la cobertura en la mayoría de los casos era relativamente mínima, con una breve
descripción de una técnica dada y relativamente poca orientación sobre su uso, efectividad y limitaciones. Por
lo tanto, es poco probable que muchos profesores obtengan una introducción suficiente a las técnicas que
funcionan mejor y cómo entrenar el uso de ésas por parte de los estudiantes.

Un segundo problema puede ser que se le da una prima a la enseñanza de los contenidos de los estudiantes y
las habilidades de pensamiento crítico, mientras que se dedica menos tiempo enseñando a los estudiantes a
desarrollar técnicas y estrategias efectivas para guiar el aprendizaje. Como señala McNamara (2010), “... hay
una asunción abrumadora en nuestro sistema educativo de que lo más importante para entregar a los
estudiantes es el contenido ...” (p. 341, cursiva en el original). Una preocupación es que los estudiantes que
obtienen buenos resultados en grados anteriores, en los que el aprendizaje está ampliamente supervisado,
pueden tener dificultades más adelante, cuando se espera que regulen gran parte de su propio aprendizaje,
como en la escuela secundaria o la universidad. Enseñar a los estudiantes a usar estas técnicas no tomaría
mucho tiempo y sería probablemente más beneficioso si el uso de las técnicas fuese enseñado
consistentemente a través de varias áreas de contenido, de modo que los estudiantes pudieran experimentar
ampliamente sus efectos sobre el aprendizaje y las calificaciones.

29
Sin embargo, incluso así, las recomendaciones sobre cómo entrenar a los estudiantes para que usen las
técnicas más efectivas se beneficiaría de más investigaciones. Una cuestión clave se refiere a la edad más
temprana en que una técnica dada podría (o debería) ser enseñada. Los maestros pueden esperar que los
estudiantes de la escuela primaria sean capaces de usar muchas de las técnicas, pero incluso estos
estudiantes pueden necesitar alguna guía sobre cómo implementarlas más efectivamente. Ciertamente,
identificar la edad en la que los estudiantes tienen la capacidad de autorregulación para usar efectivamente
una técnica (y la cantidad de entrenamiento necesario para hacerlo) es un objetivo importante para la
investigación futura. Otro problema es la frecuencia con la que los estudiantes deberían ser entrenados
nuevamente o se les debería recordar cómo usar las técnicas para asegurarse de que continuarán usándolas
cuando no se les indique que lo hagan. Teniendo en cuenta el potencial de algunas de las técnicas de
aprendizaje, sería valiosa la investigación sobre el desarrollo profesional que implica la capacitación de los
profesores para ayudar a los estudiantes a utilizar las técnicas.

Más allá de la formación de los estudiantes en el uso de estas técnicas, los profesores también podrían
incorporar algunas de ellas en el diseño de sus clase. Por ejemplo, al comenzar una nueva sección de una
unidad, un profesor podría comenzar con una prueba de práctica (con retroalimentación) sobre las ideas más
importantes de la sección anterior. Cuando los estudiantes están practicando problemas de una unidad en
matemáticas, los problemas recientemente estudiados podrían ser entrelazados con problemas relacionados
de unidades anteriores. Los profesores también podrían aprovechar la Práctica distribuida re-presentando los
conceptos y actividades más importantes a lo largo de varias clases. Al introducir conceptos claves o hechos
en clase, los maestros pueden involucrar a los estudiantes en preguntas explicativas al animarlos a considerar
cómo la información es nueva para ellos, cómo se relaciona con lo que ya saben, o por qué puede ser cierto.
Incluso, las tareas pueden ser diseñadas para aprovechar muchas de estas técnicas. En estos ejemplos (y en
otros proporcionados en las subsecciones de Temas para la Implementación), los maestros podrían
implementar una técnica para ayudar a los estudiantes a aprender, sin importar si los estudiantes son
conscientes de que una técnica particular está siendo usada.

Nos damos cuenta de que muchos factores son responsables cada vez que un estudiante no consigue avanzar
en la escuela (Hattie, 2009) y, por lo tanto, un cambio en cualquier factor puede tener un efecto relativamente
limitado en el aprendizaje y el logro del estudiante. Las técnicas de aprendizaje descritas en esta monografía
no son una panacea (solución universal y única) para mejorar el logro de todos los estudiantes. Quizá,
obviamente, sólo beneficiarán a los estudiantes motivados y capaces de usarlas. Sin embargo, cuando se usan
adecuadamente, sospechamos que producirán mejoras significativas en el desempeño en el aula, en las
pruebas de logro y en muchas tareas que se encuentran a lo largo de la vida. Es obvio que muchos estudiantes
no están usando técnicas de aprendizaje eficaces pero podrían usar las técnicas más efectivas sin mucho
esfuerzo, por lo que debería animarse a los maestros a capacitar más consistentemente (y explícitamente) a
los estudiantes para que usen técnicas de aprendizaje.

30

También podría gustarte