Está en la página 1de 19

NEUROCIENCIA COGNITIVA DE LA MOTIVACIN Y EL APRENDIZAJE

Intro
Avances recientes en la neurociencia cognitiva de la motivacin y el aprendizaje han
demostrado un rol crtico para la dopamina en el mesencfalo y sus objetivos en la prediccin de
recompensa. Evidencia adicional sugiere que las neuronas de dopamina en el mesencfalo
sealan un error de prediccin de recompensa, permitiendo que un organismo prediga, y
aumente la probabilidad de recompensa en el uturo. Esta opinin ha sido un gran !"ito en la
contabilizacin de una amplia gama de enmenos de reuerzo de aprendizaje en animales y
seres humanos. #in embargo, aunque las teoras actuales de la dopamina del mesencfalo
orecen un buen c$lculo del comportamiento habitual conocido como aprendizaje de estmulo%
respuesta, revisamos evidencia que sugiere que otros procesos cognitivos y neuronales est$n
implicados en el comportamiento motivado, dirigido a objetivos. #e discute cmo esta
distincin se asemeja a la cl$sica distincin en la neurociencia cognitiva de la memoria
declarativa y no declarativa entre sistemas de memoria, y tambi!n se discuten temas comunes
entre las unciones mnemot!cnicas y motivacionales. &or 'ltimo, se presentan datos que
demuestran los vnculos entre los procesos mnemot!cnico y el aprendizaje por reorzamiento.
En la pasada d!cada ha habido un creciente inter!s en la neurociencia de la motivacin y la
recompensa, este inter!s tiene su raiz en una serie de estudios neuroisiolgicos de las
propiedades de respuesta de la dopamina en el mesencealo de primates que reciben
recompensa.
Estos estudios plantean un rol undamental de la dopamina en el aprendizaje por estimulo%
respuesta, la adiccin y el movimiento. ( a la vez prometen una uniicada e"plicacin uniendo
sistemas de neurociencia con comportamiento motivado.
#in embargo, mas all$ de las ortalezas de lo planteado, en un nivel psicolgico estos modelos
est$n limitados en su capacidad de capturar muchos de los enmenos cognitivos involucrados
en la motivacin y el incentivo.
En el trabajo se planta revisar y discutir como estos deectos pueden ser solucionados
situ$ndolos en un conte"to psicolgico y neural m$s amplio que considera un entendimiento
m$s cognitivo del comportamiento dirigido por objetivos o metas. En particular se realizaran
distinciones operacionales elucidadas en la literatura del comportamiento animal a in de sugerir
que mientras las teoras del aprendizaje por reorzamiento de la dopamina pueden entregar una
buena e"plicacin al aprendizaje habitual )estimulo%respuesta*, otros sistemas neuronales est$n
ampliamente involucrados en el comportamiento dirigido por objetivos.
#e hablar$ sobre como esta distincin se parece la cl$sica distincin en la neurociencia
cognitiva de la memoria entre los sistemas de memoria declarativa y no declarativa
)procedimental*. +omo tambi!n e"aminar recientes avances en la literatura reciente sobre
vnculos entre las unciones mnemnicas y de decisin.
,inalmente se presentar$ un nuevo e"perimento que prueba los paralelos entre el aprendizaje
por reorzamiento y los procesos de la memoria mediando la demostracin de procesos
representacionales caractersticos de memoria declarativa emergente en el conte"to de una tarea
de aprendizaje por reorzamiento
Dopamina y aprendizae por re!orzamien"o
-a dopamina y su receptor mas prominente, el .+uerpo estriado/, ocupa un ne"o entre la
motivacin y la accin. El sistema en que este ne"o opera tuvo un gran avance cuando la
neuroisiologa y el modelado computacional reconocieron que en la actividad de la dopamina
en primates que reciban recompensa apareca un denominado 0error de recompensa0.
,igura 1. Ilustra de orma esquem$tica algunos resultados que apoyan esta interptracion. Aqu,
un mono sediento recibe irregularmente gotas de jugo, las cuales son sealadas u advertidas por
.seales visuales/. +uando la recompensa )gotas de jugo* es inesperada 2la seal ha sido
raramente reorzada o se entrega sin seal3, las neuronas secretoras de dopamina son
sicamente e"citadas. 4o obstante la respuesta no es un simple reporte de recompensa5 cuando
la responsa es completamente esperada, las neuronas de dopamina no responden a la misma.
6as a'n, cuando las seales son parcialmente predictivas de la recompensa, la uerza de la
respuesta sica para la recompensa esta modulada y tiene relacin lineal con el grado en el que
la recompensa es esperada. ,inalmente, cuando la recompensa es esperada pero alla en llegar,
las neuronas son brevemente inhibidas bajo su nivel de activacin. Esta dierencia en el nivel de
activacin entre a recompensa observada y la esperada es lo que se denomina .error de
prediccin de la recompensa/.
En conclusin lo que se plantea es que la relacin entre el error de la dopamina y el
aprendizaje, es que internamente se puede predecir la recompensa (se aprende que viene una
recompensa) y que la encargada de comenzar de interiorizar una situacin x es la dopamina ya
que relaciona una situacin con el estado agradable que su secrecin genera, por ejemplo el
mono aprenda que al ver una imagen determinada recibira agua, entonces con las reiteradas
vinculaciones el mono aprende que al ver esa imagen recibir el agua y por lo tanto la
dopamina deja de !activarse! en cambio, cuando el estimulo llega de la nada, la dopamina se
activa para as comenzar a vincular los elementos de la situacin con esto favorable que es
!alimento! y de esa forma relacionar que bajo esas condiciones o bajo ese !estimulo! se genera
esa respuesta agradable"
,I789A 1. 9epresentacin esquem$tica de la respuesta de la dopamina del me#en$%!a&o a
recompensa que es predicha probabilsticamente por distintas pistes visuales: basada en
los estudios de ,iorillo, ;<<=, 6arris, ;<<>.
Esas seales de error se pueden utilizar para actualizar las predicciones de recompensa y, por
ende, mejorar cada vez m$s )por ejemplo, en este caso, para aprender lo que es la probabilidad
de recompensa asociadas a cada seal*. Aparece tambi!n en los estudios un algoritmo de
aprendizaje de dierencia%temporal, que e"plica la respuesta de la dopamina que generaliza el
modelo esencialmente encadenando predicciones hacia atr$s en el tiempo. Esto se releja en el
hecho que, adem$s de responder a recompensas no predichas, las neuronas tambi!n responden a
seales predoctoras de recompensa. &or lo tanto, la e"citacin entre la seal y la recompensa
completamente predicha no activa las neuronas, sino que la prediccin de la seal que hace.
6odelos de aprendizaje el reuerzo de la dopamina han tenido tambi!n una inluencia
importante en la comprensin de la motivacin en el aprendizaje en la neurociencia cognitiva
humana. E"iste mucha evidencia que sugiere que mecanismos similares de dopamina en el
mesenc!alo subyacen a una variedad de comportamientos relacionados con recompensa en
humanos. -a evidencia del involucramiento de la dopamina del mesenc!alo viene del estudio
de individuos con la enermedad de &ar?inson, la cual cauda p!rdida de las neuronas
contenedoras de dopaminas. Aunque los sntomas m$s relevantes son motores, estudios indican
que la enermedad causa tambi!n d!icit cognitivo en el aprendizaje por recompensa, mientras
otras ormas de aprendizaje permanecen intactas. Estos descubrimientos apoyan al decir que el
.+8E9&@ E#A9IAB@/ avorece un sistema especializado de habituacin o aprendizaje por
recompensa, h$bitos y aprendizaje procedimental.
+uriosamente la gente enerma de &ar?inson se ve aectada en el aprendizaje por eedbac? o
estimulo%respuesta, sin embargo, las otras ormas de aprendizaje se conservan intactasC esto
apoya lo planteado de que la dopamina tiene un eecto en al aprendizaje de ese tipo estimulo
respuesta y que se mantenga en el tiempo.
9esumiendo, la idea del sistema de prediccin de error dopamnico ha obtenido un poder muy
e"plicatorio, y aparece para abrir un rango en la unidad de la neuroisiologa enocada al
comportamiento motivado en humanos y animales
Mo"i'a$i(n y $ompor"amien"o orien"ado )a$ia e& &o*ro de me"a# + o,e"i'o#
(a se ha discutido la evidencia isiolgica y comportamental que apoya a idea de la accin de la
dopamina en el aprendizaje por reorzamiento. 4o obstante, un reto clave en la interpretacin de
manipulaciones neuronales como lo son las lesiones o la psicoarmacologa es la posibilidad de
que un comportamiento aparentemente intacto puede ser ayudado por sistemas compensatorios.
Be hecho, entre las m$s importantes conclusiones que surgen del estudio del condicionamiento
en animales y el aprendizaje en humanos es el descubrimiento de que un comportamiento 'nico
)como el presionar una palanca, o eleccin de respuesta* puede surgir potencialmente desde
m'ltiples procesos que son ambos disociables desde un punto de vista neuronal y
comportamental. En esta seccin, se plantea como el sistema de aprendizaje por reorzamiento
mediante dopamina encaja en este panorama mayor.
En estudios de animales, una particularmente importante disociacin ha sido trazada por
e"perimentos que prueban las representaciones mnemnicas subyacentes a una accin
particular5 especicamente, si la accin es o no manejada por el conocimiento de una
recompensa esperada )0meta0, como la comida*. Interesantemente, los e"perimentos revelan que
las ratas a veces demuestran conocimiento del resultado o las consecuencias, pero bajo otras
circunstancias se comportan como si lo ignoraran )no supieran del resultado*.
8n tpico e"perimento trata de la devaluacin de la recompensa. &rimero, una rata hambrienta
es entrenada para presionar una palanca para recibir alimento, y entonces luego se pasa a una
prueba que consiste en presionar la palanca bajo circunstancias en las que el animal no quiere la
comida, por ejemplo, cuando ha sido alimentado hasta saciarse y no comer$ la comida, si se le
es entregada. -e pregunta critica es si la rata, despu!s de haber sido alimentada, va a dejar de
presionar la palanca durante la prueba, o si seguir$ presion$ndola, a pesar de que ya no se
encuentre hambrienta.
-a prueba se realizar$ sin alimentos de manera que una reduccin de presionar la palanca en la
ase de prueba )en relacin a pulsar la palanca para algunos resultados que a'n se desea* se
puede atribuir a los animales sabiendo que los resultados se asocia con la accin.
Be hecho, bajo ciertas circunstancias una rata que previamente se encontraba hambrienta reduce
la presin de la palanca una vez que se alimenta hasta ser satisecha. Dajo otras circunstancias,
el comportamiento de presionar la palanca persiste sin ser aectado aunque el animal se
encuentre satisecho. +uando la devaluacin provoca una disminucin en el presionar la
palanca, el comportamiento demostrado releja el conocimiento de los objetivos asociados
)recibir comida*, por lo que tal conducta se ha deinido como comportamiento dirigido hacia el
logro de metas u objetivos. En contaste, cuando persiste la presin en la palanca a'n despu!s de
la devaluacin del resultado )obtener comida*, se cree entonces que tal comportamiento deriva
de un habito de estimulo%respuesta adquirido por los anteriores reuerzos en lugar de los
conocimientos especicos de la meta u objetivo particular, y por tanto, ha sido categorizado
como 0habitual0 )estimulo%respuesta* en lugar de dirigido por el cumplimiento de metas. &or
supuesto, esta alta de sensibilidad a la devaluacin del comportamiento no demuestra que los
animales son, literalmente, ignorantes de la accin%resultado, solo que esta inormacin no
inluye en su decisin de presionar la palanca. 8n n'mero de actores parece impactar las
dierencias entre el comportamiento dirigido por objetivos y el habitual )estimulo%respuesta* en
los estudios de devaluacin. 4otablemente, el conocimiento sobre la identidad del objetivo )de
la accin* parece a apoyar el comportamiento anticipado en entrenamiento, el cual es a menudo
sensible a la devaluacin, pero comportamientos a menudo se vuelven insensibles a la
devaluacin m$s all$ del entrenamiento, evidenciando una transicin a un comportamiento
0habitual0.
#imilar a los h$bitos, los modelos de dierencia%temporal de aprendizaje por reorzamiento
mediante dopamina no ensean o hacen uso de ning'n conocimiento del resultado de la accin,
trabajan en vez por aprendizaje solo del atractivo general de las acciones candidatas
)disponibles*. &or esa razn, como las tempranas teoras estimulo%respuesta de la psicologa
conductista, estas teoras que predicen la insensibilidad al resultado de un test de devaluacin, al
igual que los animales en el momento habitual de comportamiento. 4otablemente, lesiones en la
seccin dor#o &a"era& que involucra al stratium )cuerpo estriado % receptor de dopamina* genera
una sensibilidad persistente a la devaluacin )es decir, que parecen alterar la ormacin de
h$bitos y deja el comportamiento perpetuamente dirigido por objetivos o metas*.
En conjunto, entonces, hay una llamativa correspondencia entre la categora psicolgica de
h$bitos, las propiedades del algoritmo de dierencia temporal, y la isiologa y anatoma
uncional de los sistemas de dopamina.
#i las teoras del aprendizaje por reorzamiento dopamin!rgico corresponden a la categora
psicolgica de h$bitos, E+mo podemos e"tender este entendimiento a categoras separadas de
comportamiento motivado por la obtencin de objetivosFmetas y los substratos neuronalesG
6ucho menos detalle se conoce, ya sea a nivel isiolgico o de c$lculo, sobre la conducta
dirigida a objetivos )como se deine operativamente m$s arriba*. -a especulacin se centra en la
corteza prerontal, que en la neuropsicologa y la representacin ptica, parece estar
especialmente implicados en el objetivo de representacin, decisin y planiicacin. Be hecho,
las lesiones a una amplia red de regiones, incluida la divisin de corteza prerontal, perturba el
comportamiento dirigido objetivo de las ratas, lo que deja de responder a la devaluacin%
insensitiva, aparentemente habitual.
+omputacionalmente, el comportamiento orientado hacia el logro de metas u objetivos parece
corresponder bien a una categora dierente de algoritmo de llamado aprendizaje .basado en
modelo/ )model%based*. A dierencia del aprendizaje de .dierencia%temporal/, cuyos
algoritmos planean acciones por aprendizaje de representacin H llamado .mundo%modelo/
)Iorld%model* H de las contingencias en la tarea, incluyendo que acciones conllevan a cada
resultado. +omo el comportamiento dirigido por objetivos, entonces, el aprendizaje .basado en
modelo/ )model%based* se basa en el conocimiento de los resultados y por lo tanto es capaz de
mostrar de inmediato, sensibilidad a direccin motivacional. &or esas razones, variaciones en el
aprendizaje .basado en modelo/ )model%based* ha sido sugerido como candidato para modelos
de aprendizaje por reorzamiento de comportamiento dirigido a objetivos. #in embargo, estos
modelos a'n no gozan del mismo nivel de las limitaciones isiolgicas y de comportamiento
como lo hacen los modelos de aprendizaje de .dierencia%temporal/.
&ara 9esumir )6E4@# 6A- JKL*, por todos sus !"itos, el mas celebrado y mejor entendido
medio de la neurociencia cognitiva del aprendizaje por recompensa es tambi!n aquel que menos
merece el nombre .cognitivo/ H el sello, bajo control dopamin!rgico, de h$bitos de estimulo
respuesta. Estos procesos parecen ser neuronal, conductual y computacionalmente dierentes de
las acciones dirigidas a objetivos. Esto subraya la necesidad de una comprensin detallada
similar de las acciones encaminadas a objetivos, tanto en s mismos y en t!rminos de cmo
interact'an con las inluencias habituales.
En el caso de los humanos una sugerente idea es que las acciones dirigidas por objetivos es aqu
deinida especicamente en t!rminos de una demanda representacional o mnemnica % El
comportamiento depende de los conocimientos sobre la identidad de la espera recompensa. El
dominio de la memoria desde hace mucho tiempo present una distincin entre los procesos
declarativos y no declarativa )procedimental*. El primero ha estado estrechamente asociados
con ormaciones r$pidas, representaciones e"plcitas y el lbulo temporal medio )6A-*, la
'ltima con los h$bitos de estmulo%respuesta y con el .+uerpo estriado/. 6as recientemente, la
memoria declarativa se ha visto tambi!n envuelta con la corteza prerontal, la cual tambi!n
tradicionalmente esta implicada en la accin dirigida por objetivos.
Aodas estas consideraciones sugieren paralelos entre el comportamiento dirigido por objetivos y
la memoria declarativa. Be hecho, hace tiempo ha sido sugerido que el conocimiento
subyacente al comportamiento dirigido por objetivos est$ representado en la memoria
declarativa.
En el resto de este articulo, hacemos una revisin de la idea de m'ltiples sistemas de memoria
con particular inter!s en e"traer implicancias para la recompensa y la motivacin. &or 'ltimo,
concluimos con un e"perimento que e"plora una de estas analogas.
-I-TEMA- DE MEMORIA MULTIPLE
B!cadas de investigacin en la neurociencia cognitiva del aprendizaje y la memoria han dado
lugar han llevado a la opinin generalizada de que la memoria es independiente ayudada por
m'ltiples sistemas cognitivos y neuronales. En el nivel m$s amplio, la memoria a largo plazo es
a menudo separada en los procesos declarativos y no%declarativos )procedimental*. 8n
relativamente bien e"plorado sistema declarativo esta pensado para apoyar la memoria a largo
plaza para eventos o episodios % denominado memoria episdica. 6emorias episdicas son
ormadas r$pidamente )despu!s incluso de una e"periencia 'nica*, y sus representaciones son
ricas en detalles, incluyendo representaciones de la relacin entre m'ltiples estmulos
arbitrariamente asociados. 6emorias episdicas son tambi!n le"ibles, pueden ser recuperadas y
tener acceso en base a pistas parciales, y pueden ser generalizadas a nuevos estmulos y
conte"tos.
&orque estos detalles y la relacin entre ellos son accesibles por recuperacin mnemnica, la
e"periencia subjetiva de memoria episdica en humanos es a menudo e"plicita, e implica la
conciencia.
+abe sealar, sin embargo, que no hay datos que apoyen la presuncin de que las
representaciones episdicas son ellas mismas concientes: de hecho, un creciente numero de
estudios sugiere que las presentaciones episdicas pueden dirigir el comportamiento sin ninguna
evidencia de la conciencia. en humanos y animales.
-a memoria episdica tradicionalmente es contrastada contra la memoria de largo plazo por
procedimientos o h$bitos, como se discuti arriba, una orma de memoria no declarativa
)procedimental*. Este tipo de aprendizaje se caracteriza por la adquisicin incremental de
asociaciones estimulo%respuesta sobre muchas e"periencias, y se piensa que es especica de
estmulo e inle"ible.
Evidencia convergente proveniente de estudios en animales y humanos indica que la memoria
episdica depende de orma critica del lbulo temporal medial, incluyendo el
hipocampo y los crtices de los alrededores del lbulo temporal medial. En humanos,
dao en el lbulo temporal medial perjudica el nuevo aprendizaje episdico mientras
adultera otros procesos de aprendizaje. #imilarmente, en animales, dao en el lbulo
temporal medial conduce a deiciencias en el aprendizaje r$pido de las asociaciones
arbitrarias entre los estmulos co%ocurrentes, mientras gradualmente el aprendizaje
estmulo%respuesta se mantiene intacto. 9ecientes datos de .Ima*en por re#onan$ia
ma*n%"i$a !+n$iona&/ proporcionar una mayor relacin entre la actividad del lbulo
temporal medial y la memoria episdica, demostrando que el grado de actividad del
lbulo temporal medial durante el aprendizaje predice con !"ito la ormacin de
memorias episdicas. +uriosamente, entonces, las caractersticas de las memorias
episdicas con base en el lbulo temporal medial se parece a las acciones dirigidas por
objetivos5 se orman r$pidamente, suportanFapoyan el aprendizaje temprano y son
le"ibles. Esto sugiere que el lbulo temporal medial puede contribuir al
comportamiento dirigido por objetivos. 9elativamente algunos estudios han
directamente e"aminado el vnculo entre los sistemas del lbulo temporal medial y las
acciones dirigidas por objetivos. #in embargo, algunos soportes para esta hiptesis
vienen de los estudios en animales que demuestran que lesiones en el hipocampo
interrumpen una medida de comportamiento dirigido a objetivos de las ratas, aunque no
de la devaluacin, descrito anteriormente. En tareas de laberintos para ratas, las lesiones
del hipocampo tambi!n perturban la estrategia .espacial/ que predomina en el
entrenamiento temprano o a los principios de la ormacin )y que por tanto, puede ser
an$loga a la accin dirigida por objetivos*. -uego adem$s del entrenamiento, una
aparentemente habitual estrategia de .respuesta/ predomina, la cual es a la vez sensible
a daos cuerpo estriado dorsal.
Adem$s, la corteza prerontal se asocia tradicionalmente con el comportamiento dirigido por
objetivos, y es tambi!n cada vez m$s reconocida por un rol en la memoria episdica.
9ecientes estudios de Imagen por resonancia magn!tica uncional demuestran que la
medida de la actividad en la corteza prerontal durante la codiicacin de elementos
)tems* es predictivo del !"ito posterior en la memorizacin de aquellos elementos,
como se observa en el lbulo temporal medial. -a corteza prerontal se piensa que
contribuye a la memoria episdica mediante la interaccin con el lbulo temporal
medial para controlar y guiar los procesos mnemnicos necesarios para el !"ito tanto de
la codiicacin como la recuperacin de los recuerdos. 6'ltiples subregiones corteza
prerontal se piensa que apoyan dierencialmente a distintos aspectos de la memoria
episdica, tanto durante la codiicacin, como la recuperacin.
&recisamente que subregiones de la corteza prerontal est$n involucrados en las acciones
dirigidas por objetivos en humanos no est$n del todo claras, pero la corteza prerontal
dorsolateral es un punto de interseccin entre los procesos dirigidos por objetivos y los
procesos episdicos. -esiones en la corteza prerontal dorsolateral est$n asociadas con
deiciencias en la planiicacin y la toma de decisiones )tal vez relacionadas con el
n'cleo de contribuciones cognitivas tambi!n similar a los que apoyan la memoria
episdica como las unciones ejecutivas, atencional y de memoria de trabajo. 4o esta
claro si la corteza prerontal dorsal, o en su lugar territorios m$s mediales en los seres
humanos, son an$logos a la corteza prerontal prelimbica,, donde las lesiones destituyen
las respuestas dirigidas a objetivos, las $reas rontal medial, corteza prerontal
ventromedial y corteza rontal medial occipital tambi!n est$n estrechamente
relacionados con la recompensa y la toma de deciosiones, aunque veces son vistos
como m$s estrechamente aliados con sistemas de h$bitos dopaminergicos%stratiales
@tro vnculo entre la memoria episdica y el comportamiento dirigido por objetivos se sugiere
por los intrigantes )MIE9A(* recientes hallazgos que demuestran que la participacin
de una red que involucra tanto lobulo temporal medial y la corteza prerontal podran
estar involucradas en la imaginacin de episodios en el uturo 2implicada en los
episodios de imaginar en el uturo3. Estudios de Imagen por resonancia magn!tica
uncional revelan la superposicin de las redes que est$n activas en ambas tareas de
recordar e imaginar 5@NNN
&acientes con problemas en el lbulo temporal medial, conocidos por sus diicultades
mnemnicas, tambi!n muestran dao cuando se les pide que imagine y describa eventos
especicos a uturo.
Aodo esto tiene notable resonancia con el comportamiento dirigido por objetivos, el cual
depende de una representacin de una e"pectativa especica de recompensa, en el
uturo, para ser candidato de accin. E"plicaciones computacionales del
comportamiento dirigido por objetivos en t!rminos de aprendizaje por reorzamiento
.basado%modelo/ enatiza la evaluacin de candidatos de cursos de accin por la
enumeracin de sus consecuencias uturas. En su e"amen, Duc?ner y +arrol destacan
todos estos ejemplos como implicados en la .proyeccin personal/, nosotros preerimos
hacer hincapi! en un punto mas mundano que consiste en que la planiicacin y la
imaginacin se base en recuerdos.
,inalmente, como ha sido mencionado, una caracterstica adicional la memoria episdica basada
en el lbulo temporal medial que tiene importantes paralelos con el comportamiento dirigido a
objetivos es flexibilidad representacional H la habilidad para recuperar, acceder y generalizar
conocimiento aprendido en nuevos conte"tos y entornos. El aprendizaje por habito, en contraste,
se entiende como resultado de una ormacin de presentaciones relativamente inle"ibles que
son especiicas a el estimulo y el conte"to en el que son aprendidos. Esta disociacin se ha
demostrado en animales y humanos usando aprendizaje bi$sico y tareas de transerencia para
evaluar las contribuciones del lbulo temporal medial y .cuerpo estriado/ en una tarea simple.
En estos estudios, los sujetos primero participar en aprendizaje de estmulo%respuesta graduales,
entonces son probados para transerir, generalizar, o invertir lo que han aprendido a nuevos
conte"tos, estmulos, o eedbac? Baos en el lbulo temporal medial especicamente aecta a la
le"ibilidad de transerir o generalizar, sin impactar signiicativamente en la habilidad de
aprender asociaciones individuales. Bao en el cuerpo estriado resulta en el patrn opuesto5
aprendizaje lento, pero generalizacin intacta.
9ecientes datos de imagen por resonancia magn!tica uncional de individuaos sano demuestran
una acrecentada actividad del hipocampo durante el aprendizaje se relaciona satisactoriamente
con el uso le"ible de los conocimientos ya adquiridos, mientras la relacin opuesta ue
encontrada entre la actividad del cuerpo estriado y la transerencia de conocimiento. -a analoga
con el comportamiento dirigidito a objetivo nos lleva atr$s hasta Bic?inson )1JK<*, quien
planteaba que el acto de combinar accin%resultado y la inormacin del valor del resultado para
ajustar la consiguiente devaluacin del comportamiento es en si mismo un ejemplo de
representacin de la le"ibilidad que caracteriza a conocimiento declarativo. +uriosamente, a
pesar de que e"iste una gran cantidad de pruebas disociando ambos comportamiento dirigido
por objetivos y sistemas episdicos de h$bitos, muchas cuestiones siguen siendo desconcertante
en cuanto a la naturaleza de la relacin entre estos sistemas. &rimero, en el dominio de la
memoria, e"iste algunas evidencias de que el cuerpo estriado y el lbulo temporal medial
podran no ser independientes, sino m$s bien podran interactuar competitivamente durante el
aprendizaje. Ambas interacciones competitivas y cooperativas, han sido propuestas entre los
sistemas dirigidos a objetivos y los .habituales/ )o de h$bito* en aprendizaje por reorzamiento.
En segundo lugar, y tal vez relacionados, es importante sealar que el sustrato neural de todos
estos sistemas est$n sustancialmente interrelacionados, lo que sugiere interacciones m$s ricas
que las entendidas hasta ahora. +omo ya se ha sealado, a pesar de las divisiones uncionales
propuestas entre corteza prerontal y cuerpo estriado, la corteza prerontal y el cuerpo estriado
est$n interconectados va .bucles/ corticistriatales, y el lbulo temporal medial se conecta con
ambos territorios. 4o es sorpresivo entonces que los recientes trabajos de anatoma uncional de
condicionamiento sugiero que los sistemas dirigidos por objetivos y de habituacin ).habitual/
o de .habito/* cada uno involucra ambos contribuciones prerontales y del cuerpo estriado.
Adem$s, todas estas regiones )y no solo el cuerpo estriado* son sustancialmente inervadas
)alcanzadas o aectadas* por la dopamina. Be hecho, interesantes )GGG* nuevos datos indican que
la dopamina del mesenc!alo, motivacin y la recompensa modulan la memoria episdica
basada en el lbulo temporal medial, as como el tradicional aprendizaje por reorzamiento
-I-TEMA- DE MEMORIA. RE-UMEN E IMPLICACIONE- PARA EL
APRENDIZAJE POR RE/ORZAMIENTO
-os estudios revisados aqu sugieren que el comportamiento es guiado por m'ltiples ormas de
memoria, subyacidos por dierentes sistemas neuronales. Estos sistemas de memoria,
paralelos en sus caractersticas anatmicas y uncionales a nivel de sistema han estado
m$s o menos de orma independientemente descritos en el conte"to de la motivacin y
el comportamiento dirigido por objetivos.
Esas dos literaturas son complementarias en que los sistemas dopamergicosFde h$bito han sido
estudiados con mayor proundidad en el aprendizaje por recompensa mientras m$s se
conoce sobre las unciones mnemnicas de los sistemas episdicosF lbulo temporal
medial que sobre las acciones dirigidas por objetivos con los cuales nosotros le
identiicamos. Oasta ahora hemos discutido vnculos tericos, conceptuales y
anatmicos entre las caractersticas de los sistemas descritos para los dierentes
mecanismos de la accin motivada, y entre sistemas de memoria subyacentes a
dierentes procesos mnemnicos. Aunque los paralelos entre estos sistemas son
convincentes en la supericie, preguntas abiertas undamentales siguen en lo que
concierne a cmo los sistemas de memoria inorma nuestro entendimiento de el
comportamiento motivado dirigido por objetivos.
El paralelo de mecanismos neuronales y cognitivos implicados tanto en la memoria declarativa
y las acciones dirigidas por objetivos sugieren que los procesos mnemnicos podran
contribuir a la eleccin del comportamiento motivado. 8na incertidumbre clave
concierne a la naturaleza de las relaciones entre memoria y procesos de eleccin y sus
respectivos sustratos neuronales )por ejemplo, E#on esencialmente uno y al mismo
tiempoG, Eo est$n separadosFson independientes, con un sistemas de accin dirigida a
objetivos haciendo uso por otra parte de un sistema mnemnico independienteG.
Adem$s, en la actualidad se sabe muy poco acerca de la implicacin comportamental de
los procesos mnemnicos para la eleccin de comportamiento motivado, ya que estos
dos aspectos de comportamiento han sido evaluados de manera independiente. En la
siguiente seccin, se presenta un intento preliminar para unir este O8E+@ )vaco*
mediante e"aminacin directa a los cambios mnemnicos representacionales que
ocurren durante el aprendizaje por reorzamiento.
CONE0IONE- ENTRE A-PECTO- MOTIVACIONALE- Y MNEMONICO- DEL
APRENDIZAJE Y LA ELECCCION. -IMULTANEO APRENDIZAJE
REPRE-ENTACIONAL Y POR RE/ORZAMIENTO
-a le"ible transerencia de conocimiento ha sido e"plorada en animales y humanos usando el
paradigma de .Equivalencia Adquirida/. En equivalencia adquirida, una ormacin
)entrenamiento* previo para el tratamiento de dos estmulos como equivalentes aumenta
posterior a la generalizacin entre ellos H a'n cuando esos estmulos son
supericialmente muy dismiles. En un protocolo est$ndar, los sujetos primero aprenden
que dos estmulos )como dos caras, #1 y #=* son asociadas con el mismo resultado )por
ejemplo, una escena visual especica, @1*, mientras otros dos estmulos, #; y #>, est$n
ambos asociados con un resultado dierente )una escena visual dierente: @;*, haciendo
)creando* dos pares de estmulos que son equivalentes el uno al otro respecto a su
prediccin de un resultado )#1%#=: #;%#>*. -uego, los sujetos aprenden que #1 esta
tambi!n asociado con un resultado distinto @= y #; con @>. &osteriormente, cuando
probamos en cuanto a si #= predice a @= o @>, los sujetos tienden a responder .@=/, a
pesar de no tener e"periencia previa con una vinculacin #=%<=. Esto sugiere que los
sujetos aprenden equivalencias entre estmulos con id!nticos resultados de tal manera
que son capaces de generalizar le"iblemente su conocimiento sobre los resultados de
un estimulo a otro.
+onvergentes evidencias sugieren que la equivalencia adquirida, as como otras ormas de
transerencia le"ible, dependen del lbulo temporal medial pero no del cuerpo estriado.
8na interpretacin com'n de este enmeno es que este releja cambios en el nivel de la
representacin del estmulo5 #1 y #= )y #; y #>* est$n codiicados como m$s similares
entre s en uncin de sus resultados similares, causando conocimiento posteriormente
aprendido sobre cualquiera para generalizar autom$ticamente )P8EEE 5I*.
En este sentido, hemos desarrollado una tarea de aprendizaje y transerencia que se adapta al
paradigma de equivalencia adquirida en un conte"to de aprendizaje por reorzamiento.
-os sujetos primero ueron involucrados en una tarea basada en recompensa tpica del
aprendizaje por reorzamiento5 los sujetos deban seleccionar entre cuatro caras
)estimulo* en cada ensayo )#1%#>*, cada uno de los cuales ue asociado a una
probabilidad dierente de recompensa monetaria.
-as probabilidades de recompensa eran cambiadas gradualmente y de orma azarosa, lo que
llevo a cambios en la din$mica de la preerencia de los sujetos, ya que ellos tedian a
escoger las opciones que son m$s a menudo recompensadas.
#in que los sujetos lo supieran, los cuatro estmulos ueron divididos en ; pares )#1 Q
#=: #; Q #>* dentro de cada uno de los cuales las probabilidades de reuerzo din$mico
se unan. Esto da lugar a historias de reuerzo correlativo, enmascarada por la
aleatoreidad en la entrega de la recompensa y por la propia toma de muestra desigual de
las opciones por parte de los sujetos. )Aenga en cuenta que los sujetos solo eran
inormados sobre la recompensa de la opcin que escogian en una prueba )ensayo*
particular5 con el in de descubrir el valor de una opcin, debian, por consiguiente,
escogerla*.
Oipotetizamos que si procesos episodicos relacionales estan envueltos durante el aprendizaje
por reorzamiento, entonces esta manipulacin deberia resultar en adquisicin de
equivalencia para los estmulos pares que comparten una subyacente probabilidad
com'n de reorzamiento. &ara probar esta hiptesis, posteriormente entrenamos a
sujetos con nuevas probabilidades de recompensa para uno de cada de cada par de
estimulos )#1, #;*: inalmente, sondeamos )investigamos* las elecciones de los sujetos
para los estimulos pares en los cuales no habian sido re%entrenadosFre%adiestrados )#=,
#>*. #i la eleccin basada en reorzamiento es modulada por procesos de relacin
mnemnica, los sujetos deberian cambiar sus preerencias sobre #= ( #> para relejar el
.re%entreno/ de #1 ( #;. #i la eleccin basada en reorzamiento es independiente de
estos procesos H y en cambio esta manejada solamente por h$bitos de estimulo%
respuesta H entonces se espera que los sujetos mantengan la misma respuesta a la #; (
#> como antes del .re%entrenamiento/ con #1 ( #;.
Adicionalmente hipotetizamos que cualquier generalizacin entre opciones equivalentes ser$
visible durante la tarea inicial de eleccin, en los procesos en curso de ajuste de
preerencia manejada por recompensa. Aqu, si el aprendizaje relacional impacta el
aprendizaje por reorzamiento, entonces eedbac? acerca #1, por ejemplo, debera
tambi!n manejar las preerencias acerca de su estimulo apareado, #=.
Besde una perspectiva del aprendizaje por reorzamiento, la estructura de recompensa
involucra una estructura de mayor orden escondida en la orma de correlaciones entre el
valor de los estmulos. #imple, m!todos de aprendizaje por reorzamiento de primer
orden del tipo asociado con sistemas de dopamina mesoestriatal seran ciegos a esta
estructura, y no se esperar$ una muestra de alguna transerencia entre los estimulos
equivalentes. 6ecanismos mas soisticados de aprendizaje H como el .aprendizaje por
modelo/ sobre una tarea de estructura de mayor orden H se requerir$la e"ibicin de
transerencia. Esto, como se coment, esta estrechamente asociado con las acciones
dirigidas por objetivos.
M%"odo#
&A9AI+I&A4AE#
-os datos ueron reportados de 1J adultos sanos )1J mujeres: de entre 1K%;> aos*:
todos eran diestros, y hablantes nativos de ingl!s. #e perdi la inormacin de dos
participantes adicionales debido a problemas de sotRare. Aodos los participantes
recibieron S1< por hora de participacin, con el e"perimento de una duracin
apro"imada de 1 hora. +onsentimiento por escrito ue obtenido de todos los
participantes, de acuerdo con los procesos aprobados por la junta de revisin
institucional de la 8niversidad de #tanord.
AA9EA
El e"perimento consista en = ases5 Entrenamiento, re%entrenamiento y prueba de transerencia.
&antalla de muestra eventos de cada una de las ases en la igura ;.
-a ase inicial ),ase 1* consista en ><< pruebas. En cada prueba, cuatro otos
de caras se presentaban en la pantalla del computador y el sujeto tenia = segundos para
eligir entre ellas usando el teclado. -a otote la cara ueron tomadas de la base de datos
de #tanord )( A 6I P8EG*. -as mismas cuatro otos ueron presentadas en cada
prueba, y su ubicacin ue cambiado aparentemente de orma aleatoria. Ares cuartos de
segundo despu!s de la eleccin ingresada, los sujetos reciban un eedbac? )una
recompensa de S.;T, o nada*. Esta notiicacin se mantena en la pantalla por 1
segundo: luego se pona en blanco por un intervalo de dos segundos y segua con la
siguiente prueba.
-os sujetos ueron instruidos que cada cara estaba asociada con una probabilidad
dierente de recompensa, que esa probabilidad podra cambiar lentamente, y que su
objetivo era encontrar la cara m$s recompensante en un tiempo dado y elegirla para as
ganar la mayor cantidad de dinero. Aambi!n ueron instruidos que la recompensa estaba
ligada con la identiicacin de la cara, y no con la posicin de la cara.
#igura $" Ejemplo de pantalla de eventos de aprendizaje y transferencia de las fases de un
paradigma de equivalencia aprendida" %anse los mtodos para la descripcin de la
tarea fases"
-as recompensas ueron asociadas probabilisticamente con cada cara. #in saber los sujetos, que
las caras estaban agrupadas en pares equivalentes )aqu nos reerimos a las caras #1 Q #= y #;
Q #>*. -a posibilidad de recompensa escogiendo #1 o #= )Al igual que #; o #>* era la misma
en cada una de las pruebas particulares. -a probabilidad de recompensa para cada par de caras
cambiaba en el tiempo, sin embargo, se esparcan entre el ;TU y el VTU de acuerdo a los
caminos y campos aleatorios gaussianos con lo que releja las condiciones de rontera. Bos
instancias de los caminos aleatorios ueron usados )por ejemplo, dos parares de secuencias de
probabilidad, uno ilustrado en la igura =*, contrapesados entre sujetos, y cada seleccin de las
opcion de probabilidades ueron cercanas al in de la ase de entrenamiento )para minimizar
preerencias prorrogadas en la transerencia de prueba*. 2OAD-A &89A# IEA# BE
6EA@B@ A#I P8E +OI4@ 6A4BA9I4C 4@ #E BI+E &W E# +OI4AN3 Aambi!n
contrapesados estaba el mapeo de la oto de las caras a n'meros, y el mapeo entre los pares de
cras y los caminos aleatorios.
-a pase de re%entrenamiento ),ase ;* consista en >< pruebas que eran las mismas de la ase 1,
e"ceptuando que los sujetos escogian una entre dos caras )#1 y #;*, y la recompensa, cuando
llegaban, ueron de S1 en lugar de S.;T )para promover un mejor cambio en el conte"to entre las
ases de entrenamiento y re%entrenamiento*. En esta ase, las probabilidades de recompensa para
#1 eran constantemente de ;<U y para #;, constantemente K<U.
,I789A =. Ejemplo de probabilidad de que una eleccin de una u otra cara par se reorzar$n,
en uncin del n'mero de prueba. &robabilidades de reuerzo cambiaban de acuerdo a los
caminos aleatorios, como se detallo en .metodos/ p.
Bespu!s del entrenamiento, los sujetos ueron probados en transerencia ),ase =*. -os sujetos
ueron instruidos que ellos haran elecciones adicionales entre los pares de caras, con un S1 por
cada recompensa, pero no serian inormados de la recompensa hasta el inal. Aodos los posibles
pares de combinaciones de caras ueron presentados T veces )entrelazadas*, con la prueba de
sondeo critica )caras #= M# #>*, intercaladas un tiempo e"tra de T veces, por un total de =T
pruebas.
Al inal del e"perimento, los sujetos ueron inormados de cuantas veces ganaron en la
ultima ase, y ueron pagados )como se les haba inormado anteriormente* un quinto del total
del total del dinero acumulado a lo largo de las tres ases del e"perimento. -uego respondan a
una serie de preguntas evaluando sus estrategias duran aprendizaje y eran interrogados.
&nlisis' Ejecucin de &prendizaje y (ransferencia" Aranserencia ue evaluadaFcalculada de
acuerdo a la raccin de elecciones )sobre 1< o de 1<* de cara #> sobre #= en la ase ,ase = del
E"perimento. En este caso, la preerencia de la #> sobre la #=, por ejemplo, ue llevado a ser el
numero de elecciones de #> durante ese periodo, dividido por el numero de opciones de
cualquiera #= o #>. -a raccin de elecciones de cara #; sobre #1 tambi!n ue calculada para
comparaciones. #e evaluaron las preerencias de reerencia entre caras #> y #= )y #; y #1* para
el nal de la ase de entrenamiento )ase 1*, usando las 'ltimas 1< elecciones a partir de la ase
)a partir del cambio de preerencias r$pidamente 2EGGG3, a raz de las luctuaciones de los
pagos*. (a que surgen de un pequeo n'mero de pruebas, esas medidas ueron cuantizadas y
delimitadas: ueron tambi!n a menudo altamente sesgadas )torcidasG* )(a que muchos sujetos
tienden a hacer elecciones consistentes sobre pruebas repetidas, particularmente durante la ase
; y =*. &or todas estas razones, estas medidas son inadecuadas para los estadsticos de 7auss, y
en consecuencia los comparamos mediante pruebas de seales no param!tricas
&nlisis )*odelo+,asado- de Elecciones" Batos de la ase 1 ueron analizados por una
adecuacin simple del modelo Aprendizaje%P )EGG* a la ase de entrenamiento en la eleccin de
secuencias% Be acuerdo a esto, los sujetos asignaron a cada cara un valor M1C. M> de acuerdo a
la e"periencia previa de recomenzase. Estos asumieron que C
#e supone que estos sean conocidos por un delta regla5 si se ha elegido la opcin c r y la
recompensa )1 o <* recibieron, a continuacin, se actualiz Mc seg'n X Mc Mc Y Z )r % Mc*. En
este sentido, la libre par$metro Z controla el tipo de aprendizaje. Adem$s, habida cuenta de
estimaciones de valor en un juicio, que se supone que elegir al azar entre las opciones con
probabilidades &1. . . &> seg'n un sotma" distribucin5 &c [ e"p )\ Mc*, )BaR, @]Boherty, et
al., ;<<^*. -a libre par$metro \ controla la e"clusividad con la que las opciones se centran en
los m$s altos valores de opcin.
&ara cada sujeto, los par$metros Z y \ han sido elegidos mediante un gradiente de b'squeda
para ma"imizar la probabilidad de que el sujeto observ la secuencia de eleccin, condicionada
por las recompensas recibidas. )Es decir, el producto m$s de los juicios de los elegidos para &c c
utilizando valores adquirida por el modelo de los premios entregados con anterioridad.*
+on el in de buscar indicios de equivalencia adquirida durante la ase de entrenamiento, este
modelo se compar con un modelo elaborado en el que los comentarios de la eleccin de una
cara )por ejemplo, #1 o #;* se aplica tambi!n a aprender sobre su equivalente pareja )o #= #>,
respectivamente*. &or supuesto, los eectos de equivalencia se espera que sea inerior a
completar y desarrollar con el tiempo, como sujetos aprendido gradualmente la equivalencia. En
ausencia de una descripcin ormal de este tipo de aprendizaje de orden superior, se considera
un modelo simpliicado en el que se enrentan a una retroalimentacin sobre sus impactos
asociados a un grado que es constante durante toda la ase de entrenamiento. )Aenga en cuenta
que esto tiende a subestimar cualquier eecto observado equivalencia, por 0promedio0 en partes
de la tarea antes de la equivalencia podra haber sido adquirida*. En particular, si c ue elegido,
con los p y, a continuacin, adem$s de actualizar Mc que el anterior, Mp tambi!n se actualizar$
en uncin Mp
X Mp Y _ )r % Mp* con un segundo tipo de aprendizaje libre de par$metros _. +omo control, el
mismo modelo se ajuste dos veces m$s, con los sustituye por cada uno de los caras no
correlacionadas )cara de #1, #; y #>*.
#e compararon los modelos de acuerdo a la probabilidad que asigna a la capacitacin de datos,
penalizado por el par$metro adicional utilizando el criterio de inormacin bayesiano )DI+:
#chRartz, 1JVK*. &ara cada modelo, el DI+ se sumaron las puntuaciones m$s sujetos.
9E#8-AAB@#
#e encontr que dos sujetos usaron una simple regla de .gano%mantengo%pierdo%cambio/
durante la etapa de entrenamiento )siguiendo estrictamente para m$s del JTU de todas las
opciones*. #iendo esta una estrategia e"plcitamente dirigida por reglas, puede ser
cualitativamente dierente al aparente aprendizaje incremental e"hibido por los otros sujetos,
consideramos que estos sujetos por separado no serian incluidos en el grupo de analizados
presentados abajo )quedaron negros*. +uriosamente, a dierencia del resto del grupo, ninguno de
estos sujetos presenta indicios de un eecto de equivalencia adquirida bajo ninguna de las
medidas presentadas a continuacin. #in embargo, si estos sujetos son incluidos en el grupo ha
analizar, la conclusiones aportadas seguiran siendo substancialmente las mismas. )En este caso,
una prueba estadstica, sealada mas adelante, alla en conseguir signiicancia )importancia*, el
resto de los resultados no cambian cualitativamente.*
#igura ." /a media (0 1 + 23E*) por cinto de elecciones de cara 3$ vs" 32 (par entrenado) y 3.
vs" 34 (par de sondeo de transferencia) en tres fases experimentales" &l final de la fase 2
entrenamiento ()inicial-) no 5ay preferencias sistemticas entre cualquier de los dos pares de
estmulos, una preferencia por 3$ sobre 32 se desarrolla durante re+entrenamiento (#ase $)6
este persiste y se transfiere a la preferencia en 34 sobre 3. en la transferencia final de la
prueba"
E`E+8+I@4 BE A&9E4BIaA`E ( A9A4#,E9E4+IA
,igura > muestra la eleccion de estimulos sobre las = ases del e"perimento. +omo se muestra,
en el inal de la ase inicial de entrenamiento ),ase 1*, la poblacin no e"hibe preerencia por la
+ara #; sobre #= )media ^<U elecciones de >, & 7 b .=*. En la ase de re%entrenamiento ),ase
;), ellos desarollan una uerte preerencia por la cara #; sobre la #1 )median K=U choices, 7 c
Te%T*, y esta preerencia se mantiene en la ase de sondeo )median K<U choices, 7 c .<T*.
,undamentalmente, en la ase de sondeo )ase =*, la poblacin muestra una preerencia por la
cara #> sobre la #= )mediana V<U de opciones, & c.<T: esta prueba no alcanza signiicacin
cuando los dos sujetos .gano%mantengo%pierdo%cambio/ est$n incluidos*, lo que releja la
preerencia por la ormacin cara #; sobre #1.
El eecto de equivalente adquirida tambien se puede observar en una comparacin dentro de los
sujetos, comparando las preerencias de cada sujeto con > sobre = en la ase de transerencia a
su correspondiente puntaje al inal de la ase de entrenamiento. Aqu la dierencia de la media
en preerencias es ;=U )& c.<T en una seal de prueba en parejas*. )EGGGG*.
,ormalmente no hicimos el intento de evaluar si la tarea de aprendizaje era e"plicita o
implcita. #in embargo, sorprendentemente, a pesar de las claros eectos de equivalencia
adquirida, cuando posteriormente se pegunt sobre que estrategias siguieron durante el
e"perimento, ninguno de los sujetos reporto hacer notado que las probabilidades de la
recompensa de los estmulos estaban unidos el uno al otro durante el entrenamiento. En cambio,
los sujetos inormaron un intento general de descubrir la cara con mas .suerte/, y rechazar las
de .mala suerte/. -os sujetos presentaban la incapacidad de verbalizar su uso de las
equivalencias durante la conduccin de sus elecciones, no es sorprendente dada la ruidosa
distribucin de estoc$stico de reuerzo a trav!s de las opciones, y es coherente con otros
inormes en relacin de los seres humanos, conocimientos le"ible )por lo general dependiente
del lbulo temporal medial* conduciendo elecciones sin hacerlo de orma conciente. )sin
conciencia conciente, -IAE9A-6E4AE 5#*.
A4A-I#I# .DA#AB@ E4 6@BE-@/ ).6odel%Dased/* BE E-E++I@4E#
&ara buscar indicaciones de equivalencia adquirida durante la ase inicial de entrenamiento,
tambi!n e"aminamos como las elecciones cambiaban prueba%por%prueba, y consultamos
tambi!n su los comentarios )eedbac?* sobre un estmulo tambi!n impacto la eleccin
subsecuente de su pareja equivalente. Aales ajustes ueron e"aminados por un modelo
computacional de eleccin de tarea%por%tarea para los datos sin tratar, como ue descrito en la
seccin de m!todos. Be hecho, el simple modelo de aprendizaje por reorzamiento asume que
los sujetos usan la recompensa para estimar un valor para cada estimulo, y escogen en
correspondencia a eso )o en consecuencia a eso*. +omparamos la aplicacin de cuatro modelos
de las elecciones de los sujetos prueba%por%prueba )ver m!todos*5 una lnea de base est$ndar, la
cual asume que los sujetos aprenden solo sobre los estmulos que escogen, un aumento en la
equivalencia adquirida sobre el valor de un estimulo adicional a la actualizacin del valor de su
pareja )pareja* )a un grada determinado por un par$metro de tasa de segundo aprendizaje*, y dos
modelos de control, en los cuales el eedbac? sobre un estimulo en lugar de actualizaciones o
bien de los estmulos no equivalentes.

-a libertad de los par$metros de los modelos eran aptos por objeto aprovechar al m$"imo la
probabilidad de observar la secuencia real de eleccin. &equeas tasas de aprendizaje positivo
ueron encontrada por eedbac? sobre una cara aectando su pareja equivalente )mediana de JU
del tamao de la tasa de aprendizaje por la cara escogida*, consistente con un eecto de
equivalencia adquirida. Estas eran solo ligeramente m$s grande que la mediana de la tasa de
aprendizajes apropiados para las caras no equivalentes en modelos de control )cada uno ;U, p b
.1T en pruebas de signos )seales* pareadas*.
#in embargo, slo en el caso de las caras equivalentes estaban justiicados los parametos
adicionales justiicados por la correspondiente mejora en el ajuste de los datos, tal como se
evalu mediante la puntuacin de +riterio Dayesiano de Inormacin ),igura T*. +omo puede
observarse, el modelo con mejor ajuste ue el que contenia aprendizaje sobre la equivalencia de
caras, por un margen muy uerte que constituyen pruebas contra los otros modelos de acuerdo a
los convenios propuestos por )Wass y 9atery, 1JJT*. &enalizados por los par$metros
adicionales, los modelos de control que aprendieron sobre caras no equivalentes se ajustaban a
los datos ligeramente peor que los de .basados en modelo/ )base model H el modelo base*.
)+abe sealar, que estos resultados globales sobre los individuos: vistos individualmente, no
todos los sujetos se ajustan a justiicar aprendizaje sobre la equivalencia de rostros tampoco
rechazan el aprendizaje sobre el control de caras )EGG* *.
En conjunto, estos hallazgos sugieren que un similar eecto de equivalencia adquirida
puede ser observado incluso durante la ase inicial de entrenamiento.
BI#+8#Id4
-os resultados de este e"perimento demuestran, usando un serie de dierentes medidas, un
robusto eecto de equivalencia adquirida en el conte"to de tareas de un aprendizaje por ensayo%
y%error en humanos. 4uestros m!todos, y nuestros resultados, mezclan aspectos de la literatura
del aprendizaje episdico y por reorzamiento.
,I789A T. 9egistro panalizado de cocientes de probabilidades )la dierencia en%DI+ F ;, m$s
grande es mejor* para tres modelos de prueba por pruebas de eleccin versus un modelo de
reerencia. En comparacin con el modelo de reerencia )los cuales aprenden solo acerca de la
cara elegida*, el modelo que adicionalmente aprende sobre la cara equivalente a la escogida
).equivalente/* esta uertementeFampliamente avorecido. -os dos modelos de control, que
aprenden sobre una de las caras no equivalentes, se ajustan a los datos no mejor que la
reerencia.
6ostramos que le"ible, representaciones relacionales H tradicionalmente considerados
distintivos de un sistema de memoria episdica y asociados con el lbulo temporal medial H
desarrollado durante el curso del aprendizaje por reorzamiento y guia las elecciones de los
sujetos. Especicamente, dirante el aprendizaje inicial, las elecciones de los sujetos de cada
estimulo individual aparece siendo impactado )aectado* por el eedbac? recibido sobre su
pareja equivalente.
Adem$s, cuando investigamos en la ase inal de transerencia, la eleccin de los sujetos en el
novedoso emparejamiento #=%#> releja sus recientes e"periencias de reorzamiento con dos
otros, distintos, estmulos )#1%#;*, en vez de su e"periencia previa con los mismos #= y #> )o
por si mismos. Esta transerencia relacional no podria ser esperada en un simple orma de
estimulo respuesta de aprendizaje por reorzamiento de habito de la tradicionalmente asociados
con el cuerpo estriado. Equivalencia adquirida ha sido previamente observada en animales
)usando condicionamiento cl$sico* y en humanos usando paradigmas donde las equivalencias
est$n establecidas usando distintos emparejamientos de estimulo%resultado.
Batos neuropsicologicos previos, indican que un dao en el cuerpo estriado reduce el
aprendizaje asociativo inicial, pero no aecta la generalizacin, mientras el da del hipocampo
entorpece la generalizacin, pero pasa por alto el aprendizaje inicial. Estas lesiones resultan
enatizantes en una disociacin entre el aprendizaje )dependiente del cuerpo estriado* y
generalizacin )dependiente del hipocampo* 5I.
En cambio, los presentes descubrimientos demuestras generalizacin entre elementos
equivalentes durante el aprendizaje inicial. Este resultado indica que los mecanismos
relacionados contribuyen al aprendizaje por reorzamiento en esta tarea.
Esto concuerda con uno de los principales puntos de la anterior revisin, que el aprendizaje por
ensayo%y%error no es e"clusivamente del dominio de los mecanismos de habito mesostriatal
pero puede tambi!n implicar un sistema dirigido a objetivos que uncional y anatmicamente
releja a la memoria episdica. +onsistente con esta interpretacin, los 'ltimos datos adquiridos
por .imagen por resonancia sensorial/ demuestran que la actividad del hipocampo durante el
aprendizaje predice posteriormente la generalizacin en la ase de transerencia.
Besde una perspectiva de aprendizaje por reorzamiento, los resultados demuestran que los
sujetos e"plotan )sacan provecho* estructuras correlacinales de mayor orden en el
reorzamiento de contingencias. Esto se e"tiende en un hallazgo reciente que los sujetos estan
habilitados para usar similares estructuras de mayor orden cuando son instruidos sobre eso. Aal
aprendizaje esta m$s all$ de las teoras est$ndar de aprendizaje de dierencia H temporal del
aprendizaje por reorzamiento del cuerpo estriado. Interesantemente, identiicando o
modelando estas estructuras de mayor orden es computacionalmente de estrecha relacin con el
tipo de modelado ) contingencias de accin%resultado y valores del resultado* , se cree que
subyacen la accin dirigida por objetivos. En este sentido, mientras no usamos un reto de
devaluacin de recompensa para poner a prueba la direccin por objetivos como en la literatura
del condicionamiento de animales, las pruebas de equivalencia adquirida por el impacto del
aprendizaje relacional en las elecciones juega un rol similar. Esto sera importante, en el uturo,
para comparar estos dos ensayos a in de comprender mejor en que medida los procesos
e"aminados aqu corresponden a la distincin .encaminada por objetivos/ versis .habitual/ )de
habito* del condicionamiento de animales. #i la sensibilidad relacional releja el compromiso de
un sistema dirigido por objetivos, esperamos que tambi!n prediga sensibilidad a la devaluacin.
8na posible interpretacin, por consiguiente, es que las elecciones en la presente tarea se
originan en su totalidad de un sistema de aprendizaje de reorzamiento dirigido por objetivos,
que )particularmente desde la argumentacin e identiicacin con los procesos de memoria
episdica del lbulo temporal medial* se espera la incorporacin de la relevante estructura
relacional. #i esto es cierto, entonces la analogia con la literatura animal )en la cual el
comportamiento se convierte en h$bito con sobre%entrenamiento* sugiere que la inormacin
relacional debera tener menos inluencia despu!s de mayor entrenamiento5 es decir, el eecto
de equivalencia adquirida deberia disminuir.
Be manera A-AE94AAIMA, y quiz$s m$s intrigante, el comportamiento observado aqu
pueden surgir contribuciones conjuntas de ambos sistemas. 6ucho debate actual se centra en la
posibilidad, y en la posible naturaleza, de una interaccin entre el aprendijaze no declarativo
)procedimental* y declarativo, as como entre el comportamiento de h$bitos y dirigido a
objetivos. -os presentes resulrrados son consistentes con la posibilidad de que las elecciones
observadas aqu surgan de un sistema habitual )de habito*, de estimulo%respuesta, pero est$n
imbuidos )implicadosG* con una soisticada mayor capacidad de la transerencia en virtud de un
proceso de representacin )representacional* cooperativo que codiica regularidades
relacionales entre estmulos. &or esta e"plicacin, la equivalencia en la probabilidad de
recompensa de los tems )elementos* conduce a la elaboracin de representaciones similares
para ellos, de manera que incluso un simple aprendizaje estimulo%respuesta sobre una ser$
autom$ticamente transerido al otro.
8n n'mero de modelos de equivalencia adquirida y aprendizaje por reorzamiento trabajan de
esta orma. +uyas representaciones pueden ser guiadas po un modelo aprendido de la estructura
de la tarea, u otro tipo de relacional aprendizaje estimulo%estimulo. #i esta interpretacin es
correcta, entonces el presente e"perimento ejercita ambos relacional, procesos de aprendizaje de
representacin episdica y aprendizaje de reorzamiento habitual )o de h$bitos*, contribuyendo
cooperativamente. Esta es una intrigante posibilidad dado que, como discutimos en el presente
estudio, estos procesos son vistos a menudo como separados, e incluso como compitiendo. El
desarrollo m$s proundo de estas tareas de este tipo debera permitir un an$lisis cuidadoso de
estos dierentes componentes, como est$n modulados por motivacin y deseabilidad, y como
cambian a trav!s del tiempo.
+uriosamente, interacciones similares entre aparentemente dierentes tipos de aprendizajes han
sido tambi!n reportados en estudios de comportamiento en el dominio de la psicologa social
donde e"plicaciones de dos sistemas de comportamiento al menos supericialmente recuerdan a
las que se e"aminan ac$ son tambi!n populares.&rimero, en un e"perimento con cierta semejaza
al nuestro, demuestra un eecto de .diusin de la activacin/ previa asociacin estimulo%
estimulo condicionada en subsecuente )posterior* condicionamiento evaluativo. En particular,
cuando dos estmulos )9@#A9@# de personas* coe"isten )ocurren en paralelo*, el posterior
desarrollo de actitudes hacia una persona .se e"tiende/ a la otra. Al igual que con la
equivalencia adquirida, este eecto parece ocurrir independientemente de la coincidencia en el
conte"to de condicionamiento evaluativo e"plicito, pero, notablemente, es demostrado el uso de
procedimiento sensorial pre%condicionado que se cree depende del hipocampo. &or el contrario,
en otro e"perimento, eectos de previsin implcita llamado actividad inconciente de objetivo, el
cual ha sido previamente asumido para surgir dentro de un sistema del tipo asociativo de
h$bitos )o habitual*, ha sido recientemente demostrado a impactar mas implcitamente,
presumiblemente dirigido a objetivos, posterior aprendizaje en una nueva tarea )tarea
novedosa*. -a demostracin de aparente aprendizaje por cruzamiento%de sistema a trav!s de las
especies, paradigmas y dominios suguiere paralelos que merecen mucha m$s investigacin.
Con$&+#i(n
El reciente inter!s en la neurociencia cognitiva de la motivacin y la recompensa se han
enocado en el rol de las neuronas dopamin!rgicas del mesencfalo en la prediccin de
recompensa. Este trabajo ha demostrado que los modelos de prediccin de recompensa de la
neuronas dopaminergicas del mesencfalo satisactoriamente e"plican un ancho H pero tambi!n
limitado H rango de los comportamientos motivados: especicamente, aquellos que subyacen el
habitual aprendizaje por estimulo%respuesta. 8n sistema relativamente menos comprendido
aparece para apoyar lo que reiere la &sicologa +onductual como .conducta orientada hacia el
logro de metas/. Ac$, hemos visto en t!rminos generales los sustratos neuronales y psicolgicos
para esos aspectos de comportamiento, y hemos tomado una particular nota en el paralelo entre
esos sistemas y los involucrados en la memoria. Oemos reportado adem$s resultados de un
e"perimento en el cual se 5an sometido simultneamente (888) ejercicios de aprendizaje
nemnico relacional y aprendizaje por reorzamiento. -os resultados, deliberadamente, tienden
a desdibujar la marcada dicotoma entre los sistemas en estos campos.
,inalmente, no debera ser ninguna sorpresa que la toma de decisiones se basa en gran medida
de la memoria, y que tambi!n ambas cuentan conFse basan en otras capacidades cognitivas
compartidas. 4o obstante, la literatura tiene paralelos substantivos, uerzas complementarios, y,
en 'ltima instancia, una gran similitud en t!rminos de las principales cuestiones pendientes.
Estos, en resumen, son temas acerca de la modularidad. El gran !"ito de la neurociencia
cognitiva, incluso en estas $reas, ha sido el raccionamiento de la uncin: a'n queda mucho por
entender acerca de cmo estas racciones se transorman en comportamiento. &or ejemplo, Elos
procesos relacionales y los de reuerzo de aprendizaje cooperan o compitenG E+mo subyacen
las dierentes clases de inormacin para una decisin )dirigida* distribuidas por todo el
cerebroG EOasta qu! punto esto es dierente de otros tipos de inormacin declarativaG Aales
preguntas integradoras representan los pr"imos pasos para el desarrollo en ambas $reas.

También podría gustarte