Está en la página 1de 17

CÓMO CITAR (APA): Howard‐Jones, P.A., & Jay, T. (2016). Reward, learning and games.

Current
Opinion in Behavioral Sciences, 10, 65–72. https://doi.org/10.1016/j.cobeha.2016.04.015

ESPAÑOL

Resumen

El vínculo entre recompensa y aprendizaje se ha estudiado principalmente científicamente en el


contexto del aprendizaje por refuerzo. Este tipo de aprendizaje, que se basa en la respuesta
dopaminérgica del mesencéfalo, difiere mucho del aprendizaje valorado por los educadores,
que normalmente implica la formación de memoria declarativa. Sin embargo, con los
conocimientos recientes sobre la modulación de la función del hipocampo por la dopamina del
mesencéfalo, la comprensión científica de la respuesta del mesencéfalo a la recompensa puede
volverse más relevante para la educación. Aquí, consideramos el potencial de nuestra
comprensión actual de la recompensa para informar el aprendizaje educativo y consideramos
sus implicaciones para las intervenciones similares a juegos en el aula.

Introducción

Recompensa y educación: la búsqueda de una relación entre recompensa y logro educativo

Los profesores utilizan regularmente incentivos para involucrar a sus alumnos, pero los
investigadores han tenido dificultades para desarrollar una visión basada en la evidencia para
respaldar esta práctica. En parte, las dificultades se derivan de identificar los beneficios
educativos claros de ofrecer recompensas. En los primeros estudios se informaron algunos
efectos de la recompensa sobre la memoria [1-3], mientras que otras investigaciones no han
sido concluyentes [4]. De hecho, incluso se ha cuestionado el efecto de las recompensas sobre
la motivación general del desempeño [5]. Loftus [6] informó sobre los efectos de la recompensa
sobre la codificación y sugirió que surgen de una mayor atención, más bien de la recompensa
en sí. Al mostrar que los elementos asociados a la recompensa se recordaban más y también se
fijaban con más frecuencia durante la codificación, Loftus [6] demostró que las recompensas
pueden centrar la atención de los individuos más en algunos estímulos que en otros, lo que
puede hacerlos más destacados y memorables. Las recompensas en escalas de tiempo más
largas también han mostrado resultados poco prometedores, sin efectos positivos surgidos
cuando se ofrecieron incentivos financieros y "entradas para eventos" a los jóvenes de 15 a 16
años a cambio de mejorar sus resultados de exámenes nacionales [7] y se notificaron efectos
negativos para el aprendizaje regulado [8]. La naturaleza mixta de estos hallazgos destaca la
necesidad de una comprensión más sofisticada de la recompensa y el aprendizaje, para generar
principios e hipótesis más seguros para probar. En este artículo, nos centramos en las posibles
implicaciones para el aprendizaje basado en juegos de los efectos conocidos de la recompensa
sobre la atención y la formación de la memoria declarativa. La formación de la memoria
declarativa tiene un significado especial en la educación, posiblemente porque el conocimiento
que puede hacerse explícito es más convenientemente evaluable [9]. Comenzamos
considerando las explicaciones de recompensa del comportamiento de aprendizaje por refuerzo
en entornos dinámicos que requieren acciones para optimizar la recompensa y, por lo tanto,
tienen un parecido modesto con los entornos de juego populares. Consideramos los vínculos
entre la recompensa y la atención, y cómo los procesos de aprendizaje de recompensa pueden
explicar los supuestos beneficios de los entornos de juego más allá de la memoria declarativa.
Finalmente, revisamos los esfuerzos actuales para implementar este entendimiento en el aula.
Debemos enfatizar desde el principio que las limitaciones de espacio no permiten una revisión
completa de los conceptos actuales y la comprensión de la relación entre recompensa y
memoria, sino que nos enfocamos en la relación potencial entre la comprensión emergente en
esta área y la educación. Esperamos que nuestro artículo describa las incertidumbres actuales
en el desarrollo de un "puente" entre la neurociencia y la educación en esta área, y pueda
proporcionar una guía útil para futuras investigaciones. (Para una excelente revisión de cómo la
motivación de recompensa influye en la memoria, con énfasis en la memoria declarativa, se
remite al lector a Miendlarzewska, Bavelier y Schwarz [10]).

Motivación, aprendizaje reforzado y dopamina del mesencéfalo

Los debates destinados a mejorar el diálogo entre la neurociencia y la educación han identificado
la recompensa como un área donde los nuevos conocimientos científicos podrían informar la
comprensión educativa y mejorar la práctica en el aula. Sin embargo, es importante señalar que
el significado de términos como "recompensa" difiere mucho entre su uso en educación y su
significado en neurociencia cognitiva. En un contexto educativo, las recompensas suelen ser
ofertas materiales o símbolos sociales de reconocimiento destinados a influir en el
comportamiento, y la motivación puede incluir el deseo de alcanzar metas a largo plazo. En
neurociencia cognitiva, como en el presente artículo, podemos considerar la recompensa para
incluir reforzadores materiales y sociales, y la motivación como asociada con estados o estímulos
afectivos positivos y negativos, y más a menudo con conductas a corto plazo que pueden incluir
acercamiento o retraimiento. de estímulos [11]. La motivación de aproximación asociada a los
estímulos positivos es el fenómeno más cercano al uso educativo del término "motivación" (y es
en este sentido que se utilizará más adelante el término motivación). Estas diferencias en el uso
del lenguaje se ven aumentadas por las que caracterizan diferentes subcampos dentro de la
literatura científica sobre cognición-motivación [12]. La motivación de acercamiento a un
estímulo positivo está codificada por la absorción de dopamina desde el mesencéfalo hacia una
región llamada estriado ventral y, en particular, un pequeño núcleo de neuronas densamente
pobladas dentro de esta región llamada núcleo accumbens. Se ha demostrado que esta actividad
dopaminérgica del mesencéfalo aumenta cuando los seres humanos están expuestos a una
variedad de placeres, incluidos la comida [13], el dinero [14] y los juegos de computadora [15].
Este tipo de motivación visceral y a corto plazo puede tener mucho que ver con nuestro deseo
diario de resolver problemas que cosechan beneficios inmediatos, pero probablemente menos
que ver con perspectivas menos gratificantes inmediatamente, como el objetivo de seguir un
programa difícil. de estudio con el fin de avanzar en nuestro perfil profesional o académico. Sin
embargo, parece una hipótesis razonable que las motivaciones viscerales de momento a
momento sí influyen en el aprendizaje de los niños en el aula. Hay mucho que no entendemos
acerca de los mecanismos por los cuales los juegos "listos para usar" influyen en el sistema de
recompensas. Los estudios en el contexto de asociaciones putativas entre los juegos de
computadora, la adicción y el sistema de recompensas han comparado los juegos basados en
acción que involucran recompensas [p. Ej. 15] a los estudios de DA en el aprendizaje por refuerzo
(RL), ya que estos juegos implican aprender a realizar acciones que optimicen la recompensa en
un entorno dinámico. La acción recompensada se ha propuesto como un factor potencialmente
importante en el potencial de los videojuegos para influir en la función cognitiva. Los estudios
de aprendizaje por refuerzo pueden, por lo tanto, proporcionar información sobre la función de
DA en los juegos, aunque una advertencia importante aquí es que, aunque se acepta como
central, el papel exacto de DA dentro de RL (y los procesos relacionados con la recompensa en
general) sigue siendo controvertido. El RL es un tipo de aprendizaje compartido por muchos
animales y que se considera que apoya, por ejemplo, la búsqueda de alimentos entre fuentes
naturales de alimentos [16]. Los procesos neurales que se cree que subyacen al RL implican
proyecciones eferentes del área tegmental ventral (VTA) que liberan DA a una amplia gama de
estructuras como la corteza prefrontal (PFC), el núcleo accumbens (NAc), la amígdala y el
hipocampo [17]. Se cree que esta vía dopaminérgica (el circuito mesocortico-límbico) juega un
papel clave en el refuerzo de la conducta gratificante. Cuando una recompensa 'mejor de lo
esperado' (error de predicción positiva) es señalada por la activación de neuronas DA, las
asociaciones aprendidas señal-recompensa resultantes producen un cambio en el
comportamiento de búsqueda de recompensa [18], lo que ayuda a optimizar nuestro
comportamiento en un entorno cambiante. En el aprendizaje por refuerzo, es la liberación fásica
de DA (es decir, un pulso a corto plazo) lo que se considera que codifica el error de predicción y
proporciona esta importante señal de aprendizaje. Sin embargo, los datos humanos para este
modelo son algo circunstanciales debido a las dificultades éticas para medir directamente la
transmisión de DA y la dependencia, en cambio, de una señal de neuroimagen BOLD como proxy
[19]. Un primer intento de medir directamente la liberación de DA en relación con el error de
predicción sugiere que esto puede estar mediado de una manera más compleja por el contexto
de lo que se suponía originalmente [20]. Además, tanto la actividad DA fásica como la tónica
parecen estar implicadas en el estado motivacional [21], y ambas contribuyen a los niveles
extracelulares de DA que regulan la respuesta condicionada.

La asociación entre el error de predicción y el aprendizaje reforzado enfatiza el papel de la


experiencia previa reciente en la respuesta fásica de la dopamina, en términos del valor
esperado de las recompensas anteriores. Este valor esperado tiene en cuenta tanto la posible
magnitud de la recompensa como su probabilidad. Los estudios en primates sugieren que la
variación (o incertidumbre) en esta probabilidad puede influir en los niveles tónicos de
dopamina, produciendo un aumento sostenido entre una señal de que puede estar llegando una
recompensa y la entrega de la recompensa [22]. Este efecto parece máximo con una
incertidumbre de recompensa del 50%. También se ha informado de pruebas de una relación
similar entre la dopamina y la incertidumbre de la recompensa en dos estudios en humanos que
utilizan resonancia magnética funcional [23, 24]. Esta respuesta a la incertidumbre se ha
utilizado para explicar nuestra atracción por los juegos de azar [25], aunque es probable que
muchos otros factores pertinentes a los videojuegos, como la novedad [26] y la interacción social
[27], también desempeñen un papel en determinando la liberación de DA en el mesencéfalo.

Recompensa y atención

Aunque el error de predicción forma una parte importante de las teorías de aprendizaje
asociativo que implican recompensa, los mecanismos neurobiológicos por los cuales la
codificación DA del error de predicción contribuyen a este aprendizaje no se comprenden bien
[28], pero se cree que implican una mayor atención a las predicciones deficientes. (o
'sorprendentes') resultados. El papel de la liberación de DA en el mesencéfalo para orientar la
atención tiene cierto apoyo de estudios en animales [p. Ej. 29], mientras que el papel de la DA
del mesencéfalo en la atención ha generado mayor interés en las teorías del TDAH con déficit
de dopamina, donde se cree que el fracaso en el desarrollo de la liberación anticipatoria de
dopamina da como resultado una falta de actividad de las células dopaminérgicas en respuesta
a la atención [30]. En paradigmas activos, como los escenarios naturalistas que implican la
selección de acciones, los movimientos sacádicos pueden tener una relación bidireccional con
la tarea. Pueden estar influenciados por la naturaleza y los valores de las acciones en curso y
pueden influir en la tarea mediante la selección de la información sensorial que impacta más
fuertemente en las acciones del observador [ver 31 para revisión]. De manera más directa, a
través del aprendizaje de asociaciones de estímulo-recompensa (pavloviano) (o aprendizaje de
recompensa), los estímulos que de otro modo serían neutrales a la tarea en cuestión pueden
imbuirse de valor y captar la atención de manera poderosa y persistente. Esto proporciona una
base para considerar cómo la experiencia con un entorno de juego puede, independientemente
de la situación actual, seguir captando la atención. En otras palabras, puede proporcionar un
fundamento científico para establecer un ejercicio de entrenamiento con un entorno de juego
para respaldar el compromiso con el entrenamiento (por ejemplo, [32,33], independientemente
de los cambios momento a momento en la disponibilidad de recompensas dentro del juego. La
posibilidad de una mayor atención amplía los beneficios potenciales de manipular la
recompensa para incluir los muchos tipos de aprendizaje educativo que dependen menos de la
formación de la memoria declarativa (por ejemplo, habilidades de razonamiento, creatividad,
etc.). Estos efectos de atención también pueden ayudar a explicar por qué se informa que los
videojuegos son benefician a sus jugadores en muchos dominios que normalmente se
consideran distintos, como la visión, la función cognitiva, la toma de decisiones, el tiempo de
reacción y el equilibrio entre velocidad y precisión, atención y causalidad [ver 34 para una
revisión]. Estos juegos altamente atractivos ofrecen programas de recompensa por realizar
muchas respuestas por unidad de tiempo. El aumento de las actividades en las regiones objetivo
de las neuronas dopaminérgicas, incluido el estriado ventral, ha b een reportados en estudios
de resonancia magnética funcional de videojuegos [35], [15] (pero ver [36], [37] con respecto a
preocupaciones metodológicas). Esta participación del cuerpo estriado en estos estudios, y en
particular sus regiones ventrales, parece sugerir la implicación de los procesos de recompensa y
el neuromodulador dopamina en los beneficios reportados en los videojuegos de acción. Sin
embargo, otros neuromoduladores, en particular la acetilcolina, han aparecido con más fuerza
en algunas explicaciones de los beneficios de los videojuegos [34] y los beneficios en sí mismos
no siempre se han demostrado de forma coherente [p. Ej. 38], con algunos informes de efectos
negativos [39].

Recompensa y memoria declarativa

La actividad dopaminérgica del mesencéfalo también parece influir en la formación de la


memoria declarativa [40], que es una capacidad de gran interés para los educadores [9]. En un
estudio de adultos incentivados con dinero para recordar escenas visuales, Adcock et al. [41]
informó que la activación anticipatoria en el área tegmental ventral, núcleo accumbens e
hipocampo predijo el recuerdo y fue mayor para recompensas más altas, y la actividad en el
hipocampo y el área tegmental ventral se correlacionó con la memoria mejorada a largo plazo
de los participantes para la escena posterior. El hipocampo es parte de un sistema de lóbulo
temporal medial necesario para la formación y consolidación de la memoria declarativa en
tareas como el recuerdo de hechos [42-44], pero también para la transferencia de reglas
aprendidas a situaciones nuevas [45] (sin embargo, es menos necesario para muchos tipos no
declarativos de memoria a largo plazo, como el aprendizaje de habilidades y la formación de
hábitos, que también son de importancia educativa [46]). Estos hallazgos apoyan la hipótesis de
que la motivación de recompensa promueve la formación de memoria declarativa a través de la
liberación de dopamina en el hipocampo justo antes del aprendizaje [47]. El sistema
mesolímbico de la dopamina también está fuertemente interconectado con las neuronas
serotoninérgicas, pero la serotonina no parece estar involucrada en la formación de la memoria
del hipocampo [48]. La potenciación a largo plazo (LTP), que sigue siendo el modelo más
ampliamente aceptado para el aprendizaje y la memoria, generalmente se divide en una fase
temprana y una tardía. Se considera que la fase temprana comprende cambios en la fuerza
sináptica y la retención asociada, en una escala de minutos y quizás horas. La última fase se
considera responsable de hacer que los recuerdos sean más permanentes, a través de procesos
de plasticidad sináptica que implican la síntesis de proteínas [49]. Los estudios en animales de
potenciación a largo plazo (LTP) en el hipocampo (HC) muestran que, además de las bien
conocidas condiciones de Hebbian (entrada presináptica y fuerte despolarización postsináptica),
la LTP tardía requiere la acción del neurotransmisor dopamina para una codificación exitosa [50].
Los receptores D1 / D5 parecen bloquear la plasticidad a largo plazo del hipocampo en el cerebro
de los mamíferos. Desempeñan un papel fundamental en la codificación y el almacenamiento
de información en el HC, y su activación en respuesta a la recompensa conduce a un mayor
procesamiento de HC y minimiza la detección de desajustes, lo que favorece el almacenamiento
[51]. Dichos estudios revelan que la dopamina está menos involucrada en los procesos de la LTP
temprana. En los roedores, por ejemplo, la memoria temprana no se ve afectada por el
antagonismo de los receptores D1 / D5 [52]. En una población humana que sufría una pérdida
de neuronas dopaminérgicas relacionada con la edad, el tratamiento con el precursor de la
dopamina levodopa condujo a un patrón similar [53]. Es decir, las mejoras en la memoria
episódica fueron más sólidas en las pruebas tardías que en las tempranas, lo que sugiere un
efecto retroactivo de la DA del mesencéfalo en la memoria humana respaldado por otros
estudios de imagen y de comportamiento humano [54] [55-57]. En términos del aula, esto
sugiere que los efectos que surgen de los intentos de estimular la liberación de DA en el
mesencéfalo pueden no observarse de inmediato, pero pueden ser más evidentes unos días
después de la sesión de aprendizaje. También se ha observado una curva en U invertida para la
dosis en un estudio de reconocimiento recompensado en el que participaron participantes más
jóvenes [58]. En esencia, dicha curva predice que un pequeño aumento de DA puede mejorar el
rendimiento, mientras que uno grande puede reducirlo. La curva también puede explicar por
qué sólo se ha informado de una mejora modesta en la memoria cuando se duplica un incentivo
monetario [59]. Dado que la línea de base de los individuos puede ubicarse en diferentes puntos
a lo largo de esta curva, pueden existir diferencias individuales en términos de los beneficios
potenciales de la recompensa por la mejora de la memoria. Las fuentes genéticas de variabilidad
individual incluyen genes que afectan la transmisión de dopamina. Los estudios de correlación
entre la disponibilidad de dopamina determinada genéticamente y los procesos de memoria
confirman el papel de los procesos dopaminérgicos del hipocampo en la codificación de eventos
motivacionales [60,61]. Estos genes explican muy poca variación para proporcionar una base
factible para adaptar los enfoques individuales a los perfiles genéticos de los alumnos. Sin
embargo, sí sugieren un valor potencial al incluir información genética en las intervenciones
educativas que implican, por ejemplo, nuevos programas de recompensas, con el fin de mejorar
la detección de los efectos principales. Esta conexión entre la actividad dopaminérgica y la
memoria sugiere que las estimaciones de la respuesta del cerebro a la recompensa pueden
proporcionar un predictor más preciso del rendimiento de la memoria que las recompensas en
sí mismas y ayudar a explicar por qué los estudios de comportamiento que se enfocan en el valor
absoluto de la recompensa han producido resultados inconsistentes. Ya sea que el efecto
recompensa-memoria requiera atención como mediador o implique un proceso más directo, el
vínculo entre ellos, por supuesto, sigue siendo de gran interés educativo.

Juegos de recompensa y aprendizaje educativo

De interés para los educadores es si los estudiantes se beneficiarían si los principios de diseño
se pudieran identificar para "gamificar" el aprendizaje con programas de recompensa que
conduzcan a mejoras en la formación de la memoria declarativa. Arriba, ha habido varias
referencias a videojuegos que, aunque se sabe que aumentan la dopamina del cerebro medio,
no proporcionan un vehículo adecuado para identificar y probar tales principios de diseño
potenciales. Al abordar esta brecha, Howard-Jones et al. [62] combinó el aprendizaje educativo
con una tarea de bandido de cuatro brazos para la cual se había validado un modelo
neurocomputacional de cambios en la dopamina fásica [p. Ej. dieciséis]. Se pidió a los adultos
que jugaran un juego de preguntas en el que podían ganar los puntos revelados al seleccionar
una de las cuatro casillas, si respondían correctamente una pregunta de prueba de opción
múltiple posterior. Los cambios en la dopamina fásica podrían estimarse sobre la base del error
de predicción asociado con cada selección, y esta medida predijo la recuperación correcta de
información de manera más efectiva que las propias apuestas. Este efecto se observó para
recordar y, por lo tanto, puede explicarse por una mejora de la atención. El análisis anatómico
del hipocampo sugiere que los niveles tónicos de dopamina pueden ser un predictor más fuerte
de la función codificadora del hipocampo que los niveles fásicos [40]. Una forma potencial de
manipular la respuesta dopaminérgica tónica es introduciendo incertidumbre. En esencia, y en
contraste con que se le ofrezca una recompensa, al estudiante se le ofrece la oportunidad de
ganar una recompensa (por ejemplo, puntos) de acuerdo con algún mecanismo arbitrario (por
ejemplo, una rueda de la fortuna o el lanzamiento de una moneda) a cambio de completar con
éxito una desafío académico (ver Figura 1). Para muchos educadores, este es un enfoque
contrario a la intuición para aumentar la participación. A menudo se aconseja a los profesores
que proporcionen consistencia en las recompensas como medio para garantizar la motivación,
en la creencia de que los estudiantes considerarán injusta la interrupción de la relación entre el
rendimiento y la recompensa. Sin embargo, un análisis del diálogo de los niños cuando compiten
por recompensas inciertas no identificó tales preocupaciones. Se informó de una "charla
deportiva" más bien motivacional, en la que las pérdidas se atribuían a la mala suerte y las
ganancias celebradas como afirmaciones de habilidad [62]. El mismo estudio informó una
respuesta emocional adicional a un juego similar cuando los adultos respondían preguntas de
recompensas inciertas, en lugar de ciertas, lo que puede sugerir un compromiso emocional
adicional con la tarea. Un estudio reciente de resonancia magnética funcional comparó los
efectos de intercalar períodos cortos de 28 segundos de estudio de adultos con preguntas y
respuestas ejemplares (solo estudio), con respuestas a preguntas para obtener puntos
(autoevaluación) y respuestas a preguntas para recompensas inciertas en aumento
determinadas por una rueda de la fortuna ( basado en juegos) [63]. A medida que las tareas se
volvieron más parecidas a un juego (solo estudio-> autoevaluación-> basadas en juegos), se
logró un mayor aprendizaje y un mayor compromiso autoinformado, con diferencias
individuales en la ganancia de aprendizaje predichas por el grado de desactivación de la
configuración predeterminada. modo de red, asociado con la distracción mental [64]. Sin
embargo, la inclusión de la competencia evita que tales ganancias se atribuyan por completo a
la manipulación del programa de recompensas. La llegada de un entorno similar al deporte
cuando las recompensas son inciertas también puede ayudar a combatir los posibles efectos
negativos de la motivación de recompensa. La anticipación de la recompensa puede volverse
demasiado estresante, neutralizando sus beneficios y reduciendo la actividad estriatal [65],
posiblemente a través de la mediación de la serotonina [66]. Se puede suponer que las
recompensas que están estrechamente relacionadas con el logro se reflejan con más fuerza en
la autoestima y la autoestima. Esto puede explicar por qué los niños, cuando se les da la opción,
eligen problemas académicos que tienen más del 50% de probabilidades de resolver con éxito.
Clifford y Chou, en un estudio de estudiantes de cuarto grado, encontraron que estos
estudiantes parecían más cómodos en las tareas con las que se sentían entre el 79% y el 96%,
confiando en [67]. Esto llama la atención sobre cómo los estudiantes pueden experimentar
diferentes tipos de incertidumbre dentro de un entorno escolar que pueden impactar de
diferentes maneras en su comportamiento y, por lo tanto, en su rendimiento.

Ozcelik y col. [68] probó más directamente la hipótesis de que la recompensa incierta podría
incrementar el aprendizaje en contextos relevantes para la educación. En su estudio, los
estudiantes de educación superior en un curso de ingeniería de software estaban aprendiendo
sobre bases de datos utilizando un juego basado en computadora que otorgaba puntos por
respuestas correctas. Los investigadores asignaron aleatoriamente a 140 estudiantes de
educación superior a dos grupos, y ambos experimentaron el aprendizaje de conceptos de bases
de datos en un entorno virtual, que incluía responder preguntas a cambio de puntos. Un grupo
ganó puntos por las respuestas correctas, mientras que el otro grupo ganó un número de puntos
determinado por el azar. Los estudiantes en la condición de incertidumbre lograron mayores
mejoras en su desempeño. Además, los investigadores utilizaron el análisis de ruta estadística
para demostrar que la mejora de la motivación era un agente causal de este efecto. Cabe señalar
que este estudio evaluó a los estudiantes sobre su capacidad para aplicar sus conocimientos a
problemas novedosos, demostrando los efectos de la recompensa incierta en un nivel de
aprendizaje que era más profundo que el mero recuerdo de los hechos. En otra intervención en
el aula (N = 449), un grupo de clases de niños de 9 a 10 años recibió preguntas periódicas de
opción múltiple durante talleres de 90 minutos que requerían que pequeños equipos de
alumnos asignaran fichas a las respuestas que creían correctas [69]. En este grupo de "riesgo",
se devolvió al grupo el doble de fichas asignadas a la respuesta correcta y se perdieron las
asignadas a las respuestas incorrectas. Este grupo de clases logró puntajes de evaluación más
altos al final de sus talleres que el grupo que recibió un número fijo de fichas para una respuesta
correcta. Curiosamente, de acuerdo con la comprensión actual de la influencia retroactiva de la
dopamina, la mejora del aprendizaje fue evidente solo después de un retraso de una semana y
no fue detectable de inmediato. Sin embargo, estas intervenciones cuasiexperimentales en el
aula son notoriamente difíciles de controlar, y los autores instan a tener precaución al
interpretar sus resultados, señalando que la discusión del contenido durante los descansos no
pudo ser monitoreada y que esto puede haber contribuido a los resultados del aprendizaje.
También sugieren que una discusión entusiasta sobre el contexto del juego podría explicar las
diferencias en las dos condiciones de aprendizaje que solo se notan después de una semana. Los
participantes en el estudio de Ozcelik et al solo fueron evaluados inmediatamente después de
su experiencia de aprendizaje, por lo que estos datos no pueden informar sobre la probabilidad
de efectos retroactivos en el aula. Los ensayos a gran escala (N = 10.000) que exploran los
efectos de ofrecer recompensas inciertas a niños de 12 a 13 años en las clases de ciencias están
comenzando ahora en el Reino Unido [70]. Aunque la posible utilidad educativa de las
recompensas inciertas es prometedora, hay muchas cuestiones científicas que deben abordarse
antes de que su base teórica sea segura. La mayor parte del trabajo sobre la actividad de las
neuronas de la dopamina se ha realizado en ratas anestesiadas, con algunos estudios en
primates no humanos despiertos y un número poco común de estudios en humanos despiertos
en los que participaron pacientes de Parkinson [p. Ej. 20]. Las diferencias en los enfoques
utilizados hacen que sea difícil comparar la cantidad de estallidos y las características de cada
estallido en primates y roedores no humanos, y se sabe mucho menos acerca de las posibles
diferencias entre los procesos humanos y no humanos que subyacen a los efectos de
reconocimiento de recompensa. Dado que hay evidencia de actividad humana asociada con la
liberación de dopamina en el mesencéfalo que varía con la edad [71], el género [35], los
antecedentes genéticos [72], el estrés [73] y rasgos como optimismo [74], extroversión [75],
aversión al riesgo [24] e impulsividad [76,77], ¿qué tipo de diferencias individuales podrían
existir en la respuesta de los estudiantes individuales a las intervenciones educativas que
implican una recompensa incierta? También es probable que los procesos humanos estén
fuertemente influenciados por el contexto. Por ejemplo, en la figura 1, ¿cómo podría influir la
incertidumbre asociada con la realización de la tarea educativa en la actividad de la neurona
dopaminérgica? Además, y quizás lo más desalentador en términos científicos, las
intervenciones prácticas pueden involucrar entornos de clase que son altamente sociales. Se
sabe, por ejemplo, que podemos experimentar un error de predicción egocéntrico que está
codificado por una respuesta DA fásica cuando observamos que nuestro competidor falla
inesperadamente [78]. ¿Qué implicaciones debemos esperar para nuestro aprendizaje
educativo al observar a nuestro competidor, y cómo los procesos son influenciados por el
discurso social y los contextos culturales del aula? Finalmente, vale la pena señalar que algunas
otras características que pueden estar, y a menudo están, presentes en los juegos educativos
también tienen el potencial de mejorar la memoria a través de la acción de la dopamina del
mesencéfalo. La novedad no suele aparecer junto con la recompensa en el discurso educativo,
pero las similitudes en la relación de la novedad y la recompensa con la memoria a menudo
hacen que se consideren juntas en la literatura científica moderna. La novedad y los contextos
novedosos, como la recompensa, involucran la modulación del mesencéfalo del hipocampo y la
activación de la actividad de VTA, y los estudios nuevamente implican a los receptores D1 / D5
en bloqueando la plasticidad a largo plazo del hipocampo, mejorando así la memoria a largo
plazo para eventos nuevos [47]. Al igual que con la incertidumbre de la recompensa, la novedad
puede influir en la respuesta tónica de la dopamina [59] y también puede tener implicaciones
para teorizar juegos de aprendizaje, ya que los efectos de la novedad en la memoria humana
incluyen los tipos de novedad contextual de fondo que son típicos en los juegos [79]. La
exploración de entornos novedosos para las palabras mejora su memoria [80] o un
acontecimiento novedoso pero educativo no relacionado [81]. Aunque menos estudiado, el
simple acto de elegir / agencia mejora la memoria [82], también a través de la interacción
estriato-hipocampal.

Conclusiones y desafíos futuros

La neurociencia cognitiva emergente de la recompensa, la memoria y su interrelación promete


una nueva perspectiva sobre el papel potencial de la recompensa en la educación y, en
particular, en el desarrollo de juegos educativos. Se cree que la liberación de dopamina del
mesencéfalo juega un papel importante en el aprendizaje de la asociación de recompensas y
acciones en el aprendizaje por refuerzo y el aprendizaje por recompensa, y dicha liberación
también puede mejorar la formación de la memoria declarativa. Los procesos candidatos para
esta mejora incluyen la orientación atencional (que también puede ayudar a explicar los
supuestos beneficios cognitivos de los videojuegos) y / o, más directamente, a través de la
función de activación del hipocampo. Actualmente, la ciencia requerida para informar la
manipulación de los programas de recompensas para beneficio educativo es muy incompleta.
Hay algunas lagunas importantes en nuestro conocimiento, sobre todo en lo que respecta a los
procesos mediante los cuales la producción de dopamina del mesencéfalo influye en la función
de la memoria. Sin embargo, la evidencia existente ya puede proporcionar un estímulo para
discutir, formular y probar nuevas intervenciones. La oferta de recompensas inciertas, por
ejemplo, con el fin de aumentar la respuesta tónica de la dopamina y así modular la función del
hipocampo, presenta una aplicación fácilmente realizable de la comprensión actual. Creemos
que los tipos de información analizados aquí pueden contribuir a comprender cómo los juegos
pueden apoyar el aprendizaje, más allá de la noción popular de "hacer que el aprendizaje sea
divertido". Si bien la práctica educativa enfatiza nociones tales como “consistencia de
recompensa” [83], esta breve revisión ha resaltado cuestiones de programación de
recompensas y escala de tiempo de efectos que desafían las perspectivas educativas actuales.
Tales conocimientos pueden informar sobre cómo se puede programar la recompensa para
estimular la DA del mesencéfalo, cómo se puede secuenciar la presentación del contenido de
aprendizaje para explotar dichos procesos y cuándo se pueden observar los efectos asociados
en el aprendizaje. Hemos revisado algunas pruebas preliminares, aunque limitadas, de la eficacia
educativa de los nuevos enfoques que implican recompensas inciertas. Tales intervenciones, si
se planifican cuidadosamente, también pueden contribuir a ampliar la base de conocimientos
tanto educativos como científicos. Es probable que los intentos de implementación en el aula
destaquen muchos problemas para la transferencia exitosa de conocimientos entre la
neurociencia y la educación que permanecen en su mayoría inexplorados. Para abordar estos
problemas, se necesitarán estudios de la respuesta del sistema de recompensa que involucren
tareas que estén más alineadas educativamente, junto con la investigación de las diferencias
individuales en las relaciones de recompensa-aprendizaje dentro de los contextos educativos.
La investigación que busque profundizar la comprensión científica y, al mismo tiempo,
proporcionar información sobre la práctica educativa, requerirá un enfoque transdisciplinario
[84] que implique la colaboración y el diálogo en estos dos campos diversos. La popularidad de
los artículos de prensa sobre la dopamina ha hecho que se la denomine "el neurotransmisor
preferido de los medios" [85], y ya se está involucrando con los tipos de neuromitos que
desvirtúan la práctica y las actitudes educativas [86]. Un enfoque transdisciplinario no solo
ayudará a generar conocimientos científicos de relevancia educativa, sino que también ayudará
a construir y transmitir mensajes a los educadores que aseguren su aplicación adecuada.

--

References

1. Eysenck MW, Eysenck MC: Effects of incentive on cued-recall. Quarterly Journal of


Experimental

Psychology Section a-Human Experimental Psychology 1982, 34:489-498.

2. Heinrich BA: Motivation and long-term memory. Psychonomic Science 1968, 12:149-&.

3. Weiner B: Motivation and memory. Psychological Monographs: General and Applied 1966,
80:1-22.

4. Nilsson LG: Motivated memory - dissociation between performance data and subjective
reports.

Psychological Research-Psychologische Forschung 1987, 49:183-188.

5. Deci EL, Koestner R, Ryan RM: A meta-analytic review of experiments examining the effects
of
extrinsic rewards on intrinsic motivation. Psychological Bulletin 1999, 125:627-668.

6. Loftus GR: Eye fixations and recognition memory for pictures. Cognitive Psychology 1972,
3:525-551.

7. Sibieta L, Greaves E, Sianesi B: Increasing Pupil Motivation: Evaluation Report and Executive

Summary. Edited by. London: Education Endowment Foundation; 2014.

8. Wehe HS, Rhodes MG, Seger CA: Evidence for the negative impact of reward on self-regulated

learning. Quarterly Journal of Experimental Psychology 2015, 68:2125-2130.

9. Schilhab TSS: Knowledge for Real: On implicit and explicit representations and education.

Scandinavian Journal of Educational Research 2007, 51:223-238.

10. Miendlarzewska EA, Bavelier D, Schwartz S: Influence of reward motivation on human


declarative

memory. Neuroscience and Biobehavioral Reviews 2016, 61:156-176.

11. Harmon-Jones E, Harmon-Jones C, Price TF: What is Approach Motivation? Emotion Review
2013,

5:291-295.

12. Braver TS, Krug MK, Chiew KS, Kool W, Westbrook JA, Clement NJ, Adcock RA, Barch DM,
Botvinick

MM, Carver CS, et al.: Mechanisms of motivation-cognition interaction: challenges and

opportunities. Cognitive Affective & Behavioral Neuroscience 2014, 14:443-472.

13. Farooqi IS, Bullmore E, Keogh J, Gillard J, O'Rahilly S, Fletcher PC: Leptin regulates striatal
regions

and human eating Behavior. Science 2007, 317:1355-1355.

14. Knutson B, Adams CM, Fong GW, Hommer D: Anticipation of monetary reward selectively
recruits

nucleus accumbens. Journal of Neuroscience 2001, 21:1-5.

15. Koepp MJ, Gunn RN, Lawrence AD, Cunningham VJ, Dagher A, Jones T, Brooks DJ, Bench CJ,
Grasby

PM: Evidence for striatal dopamine release during a video game. . Nature 1998, 393:266-268.

16. Daw ND, O'Doherty JP, Dayan P, Seymour B, Dolan RJ: Cortical substrates for exploratory
decisions

in humans. Nature 2006, 441:876-879.

17. Barrot M: The ventral tegmentum and dopamine: A new wave of diversity. Neuroscience
2014,

282:243-247.
18. Steinberg EE, Keiflin R, Boivin JR, Witten IB, Deisseroth K, Janak PH: A causal link between
prediction

errors, dopamine neurons and learning. Nature Neuroscience 2013, 16:966-U248.

19. D'Ardenne K, McClure SM, Nystrom LE, Cohen JD: BOLD responses reflecting dopaminergic
signals

in the human ventral tegmental area. Science 2008, 319:1264-1267.

20. Kishida KT, Saez I, Lohrenz T, Witcher MR, Laxton AW, Tatter SB, White JP, Ellis TL, Phillips
PEM,

Montague PR: Subsecond dopamine fluctuations in human striatum encode superposed error

signals about actual and counterfactual reward. Proceedings of the National Academy of

Sciences of the United States of America 2016, 113:200-205.

21. Ikemoto S, Yang C, Tan A: Basal ganglia circuit loops, dopamine and motivation: A review and

enquiry. Behavioural Brain Research 2015, 290:17-31.

22. Fiorillo CD, Tobler PN, Schultz W: Discrete Coding of Reward Probability and Uncertainty by

Dopamine Neurons. Science 2003, 299:1898-1902.

23. Preuschoff K, Bossaerts P, Quartz SR: Neural differentiation of expected reward and risk in
human

subcortical structures. Neuron 2006, 51:381-390.

24. Tobler PN, O'Doherty JP, Dolan RJ, Schultz W: Reward value coding distinct from risk
attituderelated uncertainty coding in human reward systems. Journal of Neurophysiology 2007,

97:1621-1632.

25. Shizgal P, Arvanitogiannis A: Gambling on dopamine. Science 2003, 299:1856-1858.

26. Rangel-Gomez M, Meeter M: Neurotransmitters and Novelty: A Systematic Review. Journal


of

Psychopharmacology 2016, 30:3-12.

27. Baez-Mendoza R, Schultz W: The role of the striatum in social behavior. Frontiers in
Neuroscience

2013, 7:14.

28. Puig MV, Antzoulatos EG, Miller EK: Prefrontal dopamine in associative learning and
memory.

Neuroscience 2014, 282:217-229.

29. Lee HJ, Youn JM, O MJ, Gallagher M, Holland PC: Role of substantia nigra-amygdala
connections in

surprise-induced enhancement of attention. Journal of Neuroscience 2006, 26:6077-6081.


30. Tripp G, Wickens JR: Research Review: Dopamine transfer deficit: a neurobiological theory
of

altered reinforcement mechanisms in ADHD. Journal of Child Psychology and Psychiatry 2008,

49:691-704.

31. Gottlieb J, Hayhoe M, Hikosaka O, Rangel A: Attention, Reward, and Information Seeking.
Journal of

Neuroscience 2014, 34:15497-15504.

32. Kucian K, Grond U, Rotzer S, Henzi B, Schoenmann C, Plangger F, Gaelli M, Martin E, von
Aster M:

Mental number line training in children with developmental dyscalculia. Neuroimage 2011,

57:782-795.

33. Jaeggi SM, Buschkuehl M, Jonides J, Perrig WJ: Improving fluid intelligence with training on
working

memory. Proceedings of the National Academy of Sciences (USA) 2008, 105:6829-6833.

34. Bavelier D, Green CS, Pouget A, Schrater P: Brain Plasticity Through the Life Span: Learning
to Learn

and Action Video Games. In Annual Review of Neuroscience, Vol 35. Edited by Hyman SE:

Annual Reviews; 2012:391-416. Annual Review of Neuroscience, vol 35.]

35. Hoeft F, Watson CL, Kesler SR, Bettinger KE, Reiss AL: Gender differences in the
mesocorticolimbic

system during computer game-play. Journal of Psychiatric Research 2008, 42:253-258.

36. Egerton A, Mehta MA, Montgomery AJ, Lappin JM, Howes OD, Reeves SJ, Cunningham VJ,
Grasby

PM: The dopaminergic basis of human behaviors: A review of molecular imaging studies.

Neuroscience and Biobehavioral Reviews 2009, 33:1109-1132.

37. Weinstein AM: Computer and Video Game Addiction-A Comparison between Game Users
and

Non-Game Users. American Journal of Drug and Alcohol Abuse 2010, 36:268-276.

38. Murphy K, Spencer A: Playing video games does not make for better visual attention skills.
Journal

of Articles in Support of the Null Hypothesis 2009, 6:1-20.

39. Bailey K, West R, Anderson CA: A negative association between video game experience and

proactive cognitive control. Psychophysiology 2010, 47:34-42.

40. Shohamy D, Adcock RA: Dopamine and adaptive memory. Trends in Cognitive Sciences 2010,
14:464-472.

41. Adcock RA: Reward-motivated learning: mesolimbic activation precedes memory formation.

Neuron 2006, 50:507-517.

42. Cohen JD, Perlstein WM, Braver TS, Nystrom LE, Noll DC, Jonides J, Smith EE: Temporal
dynamics of

brain activation during a working memory task. Nature 1997, 386:604-608.

43. Eichenbaum H: Hippocampus: Cognitive processes and neural representations that underlie

declarative memory. Neuron 2004, 44:109-120.

44. Nadel L, Moscovitch M: Memory consolidation, retrograde amnesia and the hippocampal
complex.

Current Opinion in Neurobiology 1997, 7:217-227.

45. Myers CE, Shohamy D, Gluck MA, Grossman S, Kluger A, Ferris S, Golomb J, Schnirman G,
Schwartz R:

Dissociating hippocampal versus basal ganglia contributions to learning and transfer. Journal

of Cognitive Neuroscience 2003, 15:185-193.

46. Cooper JM, Vargha-Khadem F, Gadian DG, Maguire EA: The effect of hippocampal damage
in

children on recalling the past and imagining new experiences. Neuropsychologia 2011,

49:1843-1850.

47. Lisman JE, Grace AA: The hippocampal-VTA loop: Controlling the entry of information into
longterm memory. Neuron 2005, 46:703-713.

48. Thomas SA: Neuromodulatory Signaling in Hippocampus-Dependent Memory Retrieval.

Hippocampus 2015, 25:415-431.

49. Baudry M, Bi XN, Gall C, Lynch G: The biochemistry of memory: The 26 year journey of a 'new
and

specific hypothesis'. Neurobiology of Learning and Memory 2011, 95:125-133.

50. Lisman JE, Grace AA, Duzel E: A neoHebbian framework for episodic memory; role of
dopaminedependent late LTP. Trends in Neurosciences 2011, 34:536-547.

51. Hansen N, Manahan-Vaughan D: Dopamine D1/D5 Receptors Mediate Informational


Saliency that

Promotes Persistent Hippocampal Long-Term Plasticity. Cerebral Cortex 2014, 24:845-858.

52. Bethus I, Tse D, Morris RGM: Dopamine and Memory: Modulation of the Persistence of
Memory

for Novel Hippocampal NMDA Receptor-Dependent Paired Associates. Journal of Neuroscience


2010, 30:1610-1618.

53. Chowdhury R, Guitart-Masip M, Bunzeck N, Dolan RJ, Duzel E: Dopamine Modulates Episodic

Memory Persistence in Old Age. Journal of Neuroscience 2012, 32:14193-14204.

54. Murayama K, Kuhbandner C: Money enhances memory consolidation - But only for boring

material. Cognition 2011, 119:120-124.

55. Spaniol J, Schain C, Bowen HJ: Reward-Enhanced Memory in Younger and Older Adults.
Journals of

Gerontology Series B-Psychological Sciences and Social Sciences 2014, 69:730-740.

56. Wittmann BC, Schott BH, Guderian S, Frey JU, Heinze HJ, Duzel E: Reward-related fMRI
activation of

dopaminergic midbrain is associated with enhanced hippocampus-dependent long-term

memory formation. Neuron 2005, 45:459-467.

57. Schott BH, Sellner DB, Lauer CJ, Habib R, Frey JU, Guderian S, Heinze HJ, Duzel E: Activation
of

midbrain structures by associative novelty and the formation of explicit memory in humans.

Learning & Memory 2004, 11:383-387.

58. Apitz T, Bunzeck N: Dopamine Controls the Neural Dynamics of Memory Signals and Retrieval

Accuracy. Neuropsychopharmacology 2013, 38:2409-2417.

59. Wittmann BC, Dolan RJ, Duzel E: Behavioral specifications of reward-associated long-term
memory

enhancement in humans. Learning & Memory 2011, 18:296-300.

60. Wittmann BC, Tan GC, Lisman JE, Dolan RJ, Duzel E: Reprint of: DAT genotype modulates
striatal

processing and long-term memory for items associated with reward and punishment.

Neuropsychologia 2013, 51:2469-2477.

61. Bertolino A, Di Giorgio A, Blasi G, Sambataro F, Caforio G, Sinibaldi L, Latorre V, Rampino A,

Taurisano P, Fazio L, et al.: Epistasis between dopamine regulating genes identifies a nonlinear

response of the human hippocampus during memory tasks. Biological Psychiatry 2008, 64:226-

234.

62. Howard-Jones PA, Demetriou S, Bogacz R, Yoo JH, Leonards U: Toward a science of learning
games.

Mind, Brain and Education 2011, 5:33-41.

63. Howard-Jones PA, Jay T, Mason A, Jones H: Gamification of Learning Deactivates the Default
Mode
Network. Frontiers in Psychology 2016, 6:16.

64. Christoff K, Gordon AM, Smallwood J, Smith R, Schooler JW: Experience sampling during fMRI

reveals default network and executive system contributions to mind wandering. Proceedings

of the National Academy of Sciences of the United States of America 2009, 106:8719-8724.

65. Callan DE, Schweighofer N: Positive and negative modulation of word learning by reward

anticipation. Human Brain Mapping 2008, 29:237-249.

66. den Ouden HEM, Daw ND, Fernandez G, Elshout JA, Rijpkema M, Hoogman M, Franke B,
Cools R:

Dissociable Effects of Dopamine and Serotonin on Reversal Learning. Neuron 2013, 80:1090-

1100.

67. Clifford MM, Chou FC: Effects of Payoff and Task Context on Academic Risk Taking. Journal
of

Educational Psychology 1991, 83:499-507.

68. Ozcelik E, Cagiltay NE, Ozcelik NS: The effect of uncertainty on learning in game-like
environments.

Computers & Education 2013, 67:12-20.

69. Devonshire IM, Davis J, Fairweather S, Highfield L, Thaker C, Walsh A, Wilson R, Hathway GJ:
RiskBased Learning Games Improve Long-Term Retention of Information among School Pupils.

Plos One 2014, 9:9.

70. EEF: Educational Endowment Foundation: Engaging the Brain's Reward System. Edited by:

Educational Endowment Foundation; 2015. vol 2015.]

71. Van Leijenhorst L, Moor BG, de Macks ZAO, Rombouts SARB, Westenberg PM, Crone EA:
Adolescent

risky decision-making: Neurocognitive development of reward and control regions.

Neuroimage 2010, 51:345-355.

72. Lancaster TM, Linden DE, Heerey EA: COMT val158met predicts reward responsiveness in
humans.

Genes Brain and Behavior 2012, 11:986-992.

73. Marinelli M, McCutcheon JE: Heterogeneity of dopamine neuron activity across traits and
states.

Neuroscience 2014, 282:176-197.

74. Wu CC, Samanez-Larkin GR, Katovich K, Knutson B: Affective traits link to reliable neural
markers of

incentive anticipation. NeuroImage 2014, 84:279-289.


75. Cohen MX, Young J, Baek JM, Kessler C, Ranganath C: Individual differences in extraversion
and

dopamine genetics predict neural reward responses. Cognitive Brain Research 2005, 25:851-

861.

76. Hahn T, Dresler T, Ehlis A-C, Plichta MM, Heinzel S, Polak T, Lesch K-P, Breuer F, Jakob PM,
Fallgatter

AJ: Neural response to reward anticipation is modulated by Gray's impulsivity. Neuroimage

2009, 46:1148-1153.

77. Simon JJ, Walther S, Fiebach CJ, Friederich H-C, Stippich C, Weisbrod M, Kaiser S: Neural
reward

processing is modulated by approach- and avoidance-related personality traits. Neuroimage

2010, 49:1868-1874.

78. Howard-Jones PA, Bogacz R, Yoo JH, Leonards U, Demetriou S: The neural mechanisms of
learning

from competitors. Neuroimage 2010, 53:790-799.

79. Fenker DB, Frey JU, Schuetze H, Heipertz D, Heinze HJ, Duzel E: Novel scenes improve
recollection

and recall of words. Journal of Cognitive Neuroscience 2008, 20:1250-1265.

80. Schomaker J, van Bronkhorst MLV, Meeter M: Exploring a novel environment improves
motivation

and promotes recall of words. Frontiers in Psychology 2014, 5:6.

81. Ballarini F, Martinez MC, Perez MD, Moncada D, Viola H: Memory in Elementary School
Children Is

Improved by an Unrelated Novel Experience. Plos One 2013, 8:7.

82. Murty VP, DuBrow S, Davachi L: The Simple Act of Choosing Influences Declarative Memory.
Journal

of Neuroscience 2015, 35:6255-6264.

83. Steer A: Learning Behaviour Principles and Practice – What Works in Schools, Section 2 of
the

report of the Practitioners’ on School Behaviour and Discipline chaired by Alan Steer

Edited by. London, UK: Department for Education and Skills (DfES); 2006. [DfES (Series Editor):

84. Howard-Jones PA, Holmes W, Demetriou S, Jones C, Tanimoto E, Morgan O, Perkins D, Davies
N:

Neuroeducational research in the design and use of a learning technology. Learning Media and

Technology 2015, 40:227-246.


85. Bell V: The unsexy truth about dopamine. In The Observer. Edited by; 2013.

86. Howard-Jones PA: SCIENCE AND SOCIETY Neuroscience and education: myths and messages.

Nature Reviews Neuroscience 2014, 15:817-824.

También podría gustarte