Está en la página 1de 20

CONDICIONAMIENTO, EMOCIÓN Y MOTIVACIÓN

Aprendizaje de incentivo y regulación emocional de la conducta


Matías López y Raúl Cantora, Universidad de Oviedo

INTRODUCCIÓN

El estudio en sujetos animales de las bases conductuales, cognitivas y neurobiológicas de


los procesos de condicionamiento (aprendizaje asociativo) ha contribuido notablemente a
determinar la participación de estos procesos en la regulación emocional y motivacional de la
conducta. Son muchos los psicólogos actuales del aprendizaje que reconocen que los animales
poseen mecanismos capaces de detectar y retener información acerca de los estímulos del
ambiente y las consecuencias de su conducta, incluida su valoración afectiva, y que usan esa
información en la satisfacción de sus necesidades primarias. Jerzy Konorski, un pionero en el
estudio de la relación entre aprendizaje y motivación, resaltó con acierto en su obra de 1967 que
los estímulos o señales del ambiente pueden adquirir a través del condicionamiento propiedades
motivacionales de incentivo capaces de instigar la conducta. A este respecto, formuló la distinción
entre conducta consumatorias y preparatoria para referirse, respectivamente, a las respuestas de
un organismo que podrían reflejar los atributos sensoriales específicos de los acontecimientos con
los que interactúa y sus cualidades afectivas o motivacionales. Recogiendo esta tradición, en este
capítulo se revisa primero la naturaleza asociativa de las representaciones cognitivas formadas
por los animales durante el condicionamiento clásico y el instrumental, prestando especial
atención a la codificación de los atributos sensoriales y afectivos de los estímulos. Seguidamente
se analiza el problema del control motivacional de la conducta instrumental partiendo de la noción
de aprendizaje incentivo y su influencia reguladora sobre la conducta. Por último, se alude al papel
relevante de la motivación de incentivo en la adicción a las drogas, problemática que refleja muy
claramente la interacción entre procesos de aprendizaje, afectivos y motivacionales en el
desarrollo y mantenimiento de las conductas adictivas.

REPRESENTACIÓN DE RELACIONES ASOCIATIVAS

Uno de los aspectos más estudiados del condicionamiento a nivel cognitivo es el tipo de
asociaciones formadas entre los elementos integrantes de la situación de aprendizaje (ver Hall,
2002). En el condicionamiento clásico los elementos componentes son un estímulo biológicamente
relevante (el estímulo incondicionado, EI) que se presenta en conjunción temporal con un estímulo
inicialmente neutro (el estímulo condicionado, EC). Definitorio en esta variedad de
condicionamiento es que los estímulos se producen con independencia de cualquier actividad que
el animal pueda realizar. En el condicionamiento instrumental, en cambio, el reforzador (o
consecuencia) sigue a la ejecución de una conducta específica por parte del sujeto (respuesta
instrumental, R). Sin restar importancia a los mecanismos que intervienen en la producción de los
cambios conductuales adquiridos en estos paradigmas experimentales, lo que nos interesa aquí
es comentar la naturaleza de las representaciones cognitivas que el animal posee de las
relaciones asociativas que percibe entre los estímulos del ambiente y entre la conducta y sus
consecuencias.
Uno de los procedimientos experimentales más empleadas para estudiar la naturaleza de
la representación interna en que se codifica la experiencia de aprendizaje es la técnica
de devaluación del reforzador. Esta técnica, aplicada a una situación de condicionamiento clásico,
consiste básicamente en reducir el valor hedónico o motivacional del EI (alimento, por ejemplo)
una vez producido el condicionamiento. Para ello se empareja el alimento con una sustancia tóxica
capaz de producir malestar gástrico hasta que deja de ser apetecible para el animal. Si el EC
recupera algún recuerdo del EI (esto significa que el sujeto ha representado información sobre sus
atributos específicos) perderá su capacidad de provocar la respuesta condicionada (RC) al
adecuar el organismo su comportamiento al valor modificado del alimento. En el contexto del
condicionamiento instrumental, una vez que el animal ha aprendido a realizar una respuesta
particular para conseguir la recompensa alimenticia, se le inyecta la solución tóxica. Es obvio que,
si la ejecución de la respuesta está determinada por el conocimiento que el sujeto posee de las
consecuencias de su conducta, su motivación para realizar la respuesta deberá disminuir.

Condicionamiento Clásico

Una fructífera línea de investigación llevada a cabo por Holland y otros investigadores (ver
Pickens y Holland, 2004) resulta muy demostrativa acerca de la capacidad de los animales para
codificar información sobre las propiedades sensoriales específicas del EI en el condicionamiento
clásico. En un experimento recogido en Holland (1990), presentaba a unas ratas por separado dos
tonos de distinta frecuencia (ECs), cada uno asociado con una solución de sacarosa a la que
incorporaba un sabor distintivo para diferenciarlos (EIs). Tras varias sesiones de
condicionamiento, las ratas desarrollaron la habilidad de acercarse al comedero (la respuesta
condicionada) donde se depositaban los fluidos (ver figura 1). En la segunda fase del experimento,
ahora sin los sonidos, las ratas recibieron una de las soluciones gustativas seguida de una
inyección de cloruro de litio (LiCl) para provocarles aversión a ese sabor en concreto y lo
rechazaran. En la fase final de prueba presentaron de nuevo por separado los sonidos a las ratas,
esta vez sin su correspondiente sabor, para evaluar si producían la respuesta condicionada de
aproximación al comedero. Como se puede ver a la derecha de la figura 1, la conducta de
acercarse al comedero en presencia del tono (T2) cuyo sabor había sido devaluado con LiCl fue
menor que la tendencia a aproximarse al comedero cuando estaba el tono alternativo (T1), el
estímulo asociado con el sabor no devaluado. Resultados como éste indican que durante el
condicionamiento clásico los animales forman una asociación EC-EI entre las representaciones
internas de los estímulos, de modo que la activación del recuerdo del EI (de sus propiedades
sensoriales específicas) por el estímulo asociado tiene el mismo efecto conductual que su propia
presentación. Esto es, aplicado a los datos de este experimento, las ratas evitan acercarse a la
señal relacionada con el sabor devaluado como si fuese el mismo sabor una vez modificado su
valor hedónico o motivacional.

Otro experimento del mismo autor resulta, si cabe, más convincente aún para apoyar la
idea anterior. Esta vez, dos grupos de ratas recibieron varias presentaciones de un tono seguido
de un sabor distintivo hasta que aprendieron a realizar la respuesta condicionada de aproximación
al comedero. En una fase posterior, las ratas recibieron una nueva exposición al tono, pero esta
vez sin el sabor. En los animales asignados al grupo experimental, al tono le seguía de inmediato
una inyección de LiCl para provocarles malestar gástrico, mientras que en los sujetos del grupo
de control el litio se administraba varias horas después de la exposición al tono. Es importante
recalcar que aquí, a diferencia del otro experimento, no se emparejó directamente el LiCl con el
sabor sino con el tono (el EC) que lo representaba, de ahí el interés en citar este experimento.
Holland argumentó que el recuerdo del sabor activado por el sonido llegaría a asociarse con el
LiCl durante la fase de devaluación. De acuerdo con este argumento, en la prueba final, las ratas
experimentales mostraron una fuerte aversión al sabor, lo cual indica que el tono fue capaz de
activar su representación gracias a la asociación formada anteriormente entre esos dos
acontecimientos.

Condicionamiento instrumental

La representación de relaciones asociativas no es exclusiva del condicionamiento clásico.


En el condicionamiento instrumental el experimentador dispone una contingencia entre una
conducta particular del sujeto y un reforzador, resultando en un aumento posterior de la conducta.
Al indagar sobre la naturaleza asociativa de esta variedad de aprendizaje se ha sugerido que la
asociación principal es la formada entre la respuesta del sujeto y sus consecuencias reforzantes
(ver Colwill, 1994). Con la técnica de devaluación del reforzador se ha comprobado en muchos
estudios de laboratorio que la ejecución instrumental se basa en la codificación de información
sobre las consecuencias de la conducta. Como ejemplo, describiremos un experimento de Colwill
y Rescorla (1985) sobre esta cuestión. En este estudio enseñaron a unas ratas privadas de comida
a realizar dos respuestas instrumentales distintas, una reforzada con una solución de sacarosa y
la otra con bolitas de comida. Luego, en la fase de devaluación, proporcionaron a las ratas los dos
reforzadores por separado, uno seguido de LiCl para hacer desagradable ese reforzador y el otro
sin los efectos aversivos del litio. Al final hicieron una prueba de elección donde las ratas podían
realizar cualquiera de las dos respuestas, pero sin obtener los reforzadores. Los resultados del
experimento mostraron que las ratas preferían realizar la respuesta cuyo reforzador conservaba
el valor afectivo o motivacional inicial, a expensas de la respuesta cuyo reforzador había sido
devaluado. El mismo efecto obtuvieron estos autores cuando saciaban a los animales con uno de
los reforzadores antes de realizar la prueba. Con este procedimiento de asociación específica,
comprobaron que las ratas realizaban menos la respuesta con la que habían obtenido durante el
condicionamiento el reforzador del que luego se saciaron. Estos datos indican que los animales
codifican o representan información acerca de las consecuencias de su conducta durante el
aprendizaje instrumental.

Si bien lo expuesto hasta aquí nos lleva a concluir que las expectativas sobre el valor de
las consecuencias de la conducta determinan en gran medida el comportamiento tardío del animal,
a veces, la ejecución de una respuesta instrumental puede automatizarse como consecuencia de
la práctica o repetición. Algunos autores (por ej., Dickinson y Balleine, 1993) han incorporado en
su análisis de la conducta motivada la distinción entre acción instrumental para referirse a aquellas
respuestas que resultan afectadas por la modificación del valor de sus consecuencias tras el
condicionamiento y hábito en alusión a las respuestas cuya ejecución no depende del valor actual
del reforzador. En estudios de laboratorio con ratas se ha constatado que variables como la
magnitud del entrenamiento instrumental pueden hacer que la conducta controlada por sus
consecuencias (asociación respuesta-consecuencia) se automatice tomando la forma de un hábito
mecánico rígido (asociación estímulo-respuesta). Por ejemplo, Adams (1982), en un estudio de
devaluación del reforzador, enseñó a dos grupos de ratas a presionar una palanca para obtener
bolitas de sacarosa como recompensa. En un grupo limitó el entrenamiento a la realización de 100
respuestas reforzadas, mientras que en el otro prolongó el entrenamiento hasta que las ratas
obtuvieron 500 reforzadores. Tras el entrenamiento, inyectó a la mitad de los sujetos de cada
grupo con LiCl después de consumir las bolitas de sacarosa para modificar su valor motivacional,
mientras que al resto de animales no inyectó el litio. En la prueba final observó que la devaluación
del reforzador había reducido la frecuencia de la respuesta en los sujetos que tuvieron un
entrenamiento breve en comparación con los sujetos que recibieron el entrenamiento prolongado
y con los sujetos de control que no recibieron el tratamiento de devaluación. La conclusión que se
extrae de este experimento es que la práctica prolongada resulta en una ejecución de la respuesta
menos deliberada y exenta del control por sus consecuencias. En otras palabras, la acción
instrumental que en principio parece orientada a la obtención de la recompensa se convierte en
una respuesta automática. Según esta idea, las conductas compulsivas, como la búsqueda de
drogas, probablemente se basan en procesos y mecanismos de aprendizaje diferentes a los que
intervienen en la fase inicial de adquisición de la respuesta, una cuestión que se tratará más
adelante.

CODIFICACIÓN DE LOS ESTÍMULOS

Los trabajos revisados en la sección anterior sugieren que los animales pueden formar
representaciones internas de la estructura causal de su entorno y de las consecuencias de su
conducta. Pero, ¿qué propiedades de los estímulos codifican en esas relaciones asociativas? En
otras palabras, ¿qué atributos de un EI puede activar el EC en su ausencia? Como antes se
mencionó, de acuerdo con Konorski, un EC podría recuperar información tanto de los atributos
específicos del EI (modalidad sensorial, intensidad) como de sus propiedades afectivas o cualidad
motivacional (sabor, valor nutritivo, en el caso del alimento). Muchos estudios conductuales con
animales sugieren que el procesamiento de los estímulos tiene lugar tanto a nivel sensorial como
afectivo. De hecho, algunos modelos teóricos actuales del condicionamiento (por ej., Wagner y
Brandon, 1989) desarrollan en su explicación los argumentos inicialmente expuestos por Konorski.

Propiedades sensoriales

Una segunda prueba realizada al final del experimento de Holland (1990) descrito con
anterioridad nos permite abordar esta cuestión. Esta prueba parte de la observación de que
algunos mamíferos, como los roedores, muestran expresiones faciales específicas ante un fluido
aplicado directamente en la cavidad oral dependiendo de su valor hedónico positivo o negativo
(ver Berridge, 2000). Por ejemplo, la infusión de una solución de sacarosa en la cavidad bucal de
la rata a través de una cánula provoca una reacción típica de ingestión que comprende
movimientos rítmicos de la boca, sacar la lengua y lamerse de las patas, signos propios de una
valoración hedónica positiva del fluido. Sin embargo, estas reacciones cambian cuando al fluido
dulce le sigue una sustancia tóxica como el cloruro de litio (LiCl) que provoca malestar gástrico.
Tras el condicionamiento aversivo de la solución con litio, las ratas muestran respuestas de
rechazo como frotarse la barbilla, agitar la cabeza y las patas delanteras. Estas reacciones
orofaciales reflejan una valoración hedónica negativa de la solución ingerida.
Basándose en esta técnica, Holland registró mediante una videocámara las expresiones
faciales de sus ratas cuando les infundía la solución de sacarosa (sin los sabores distintivos
añadidos a la solución durante el condicionamiento) en presencia de los dos estímulos auditivos.
El resultado fue que los animales efectuaron más respuestas de rechazo -como si la sacarosa les
resultase desagradable al paladar- en presencia del tono (T2) asociado con el sabor que fue
devaluado más tarde; en cambio, mostraron más reacciones orofaciales de ingesta en presencia
del tono (T1) relacionado con el sabor que no se había devaluado (ver figura 2). Es importante
señalar que cuando administraron la sacarosa en ausencia de los estímulos auditivos los animales
no mostraron reacciones faciales de rechazo, pero sí de ingesta. Una posible explicación de estos
resultados es que los estímulos auditivos pudieron activar las propiedades sensoriales específicas
de los sabores con los que se habían asociado durante la fase inicial de condicionamiento.

Existen muchas pruebas empíricas de que también en el condicionamiento instrumental los


animales codifican información sobre la naturaleza sensorial del reforzador obtenido. Los estudios
de devaluación del reforzador con el procedimiento de saciedad sensorial antes citados (ej., Colwill
y Rescorla, 1985) así lo atestiguan. En otros trabajos se ha estimado la transferencia de las
propiedades adquiridas por un EC en el condicionamiento clásico al control de la conducta
instrumental. Por ejemplo, Colwill y Rescorla (1988) presentaron a unas ratas dos estímulos (luz
y tono) cada uno asociado con un reforzador diferente (bolitas de comida y una solución de
sacarosa). Luego, en ausencia de los estímulos, enseñaron a las ratas por separado dos
respuestas instrumentales, una reforzada con comida y la otra con sacarosa. En la prueba
posterior de transferencia los animales pudieron realizar por vez primera las dos respuestas en
presencia de los estímulos condicionados, constatándose que preferían realizar la respuesta que
compartía el reforzador con el EC que estaba presente en ese momento. Es difícil explicar este
dato apelando a las propiedades motivacionales de los estímulos, dado que son positivas en
ambos casos; más bien, cada estímulo pudo activar las propiedades sensoriales específicas del
reforzador con el que se asoció inicialmente.

La activación de la representación de las propiedades sensoriales o perceptivas de los


estímulos vía mecanismos asociativos puede relacionarse con la codificación de imágenes
mentales y otros aspectos de la cognición en humanos. Por ejemplo, recientemente se ha
demostrado aplicando técnicas de neuroimagen que las áreas cerebrales activadas al percibir
determinados aspectos de una escena visual (movimiento, rostros, objetos) se activan también
cuando se pide al sujeto que imagine esos aspectos de la escena visual. Asimismo, se ha
comprobado en humanos que la exposición repetida a una secuencia de estímulos formada por
una clave auditiva y otra visual hace que el estímulo auditivo active por sí mismo las regiones
cerebrales activadas en un principio por la clave visual (ver O´Craven y Kanwisher, 2000). Estos
hallazgos muestran un claro paralelismo entre la evocación de las propiedades sensoriales de un
estímulo en tareas de imaginación mental en el hombre y la representación generada
asociativamente durante el condicionamiento clásico en animales.

Propiedades afectivas

Aunque algunos psicólogos rehúyen hablar de procesamiento afectivo y emocional en los


animales, actualmente podemos emplear diversas medidas fisiológicas (presión sanguínea, tasa
cardíaca, actividad neuroendocrina) y conductuales (actividad espontánea, respuestas faciales)
como indicadores de sus estados afectivos (ver Berridge, 2000; Paul, Harding y Mendl, 2005). En
el presente contexto, el término procesamiento afectivo se emplea para referirnos a la
representación de las propiedades apetitivas o aversivas (valor hedónico) de los reforzadores
primarios. A través del condicionamiento clásico, los estímulos o señales del ambiente pueden
adquirir también propiedades hedónicas capaces de motivar y atraer hacia ellos la conducta, un
aspecto, el de la motivación de incentivo, que será tratado en un apartado más adelante.

La experimentación animal nos muestra que las representaciones formadas durante el


aprendizaje asociativo incorporan también información sobre las propiedades afectivas de los
estímulos. Como prueba de que un EC puede evocar una representación de los atributos afectivos
del EI podemos considerar el fenómeno de bloqueo del condicionamiento. En el bloqueo un animal
no logra aprender una asociación EC-EI, ni producir la respuesta condicionada, cuando está
presente otro estímulo asociado anteriormente con el mismo EI. Este efecto se puede atenuar
(desbloqueo) cuando se modifican algunas propiedades del EI, como su cantidad, entre las dos
fases del procedimiento. Sin embargo, se ha demostrado tanto en el condicionamiento clásico
como en un paradigma instrumental que el bloqueo del condicionamiento se mantiene cuando se
cambian las características cualitativas del EI entre las fases del experimento, por ejemplo, de
agua a comida (Williams, 1994). Puesto que estos dos reforzadores poseen cualidades
sensoriales muy diferentes, la conclusión derivada de estos trabajos es que el bloqueo será
efectivo cuando las propiedades afectivas generales del EI se mantienen constantes. En suma,
sugieren que los animales procesan información sobre la cualidad afectiva de los estímulos.

Otros fenómenos conductuales, como la aversión condicionada al sabor o el desarrollo de


preferencias alimenticias, denotan fuertemente que mediante el condicionamiento se puede
modificar el valor afectivo de un estímulo. Como antes se señaló, la técnica de devaluación del
reforzador supone la asociación de un estímulo gustativo con una sustancia tóxica. Como
resultado de esta experiencia, el animal evita consumir el fluido, pero, además, cambian sus
reacciones orofaciales de un patrón de ingesta a otro de rechazo cuando se le fuerza a probar el
fluido, un aspecto considerado anteriormente. Algunos autores como Garcia (1989) han sugerido
que el condicionamiento con sustancias eméticas como el LiCl hace que el sabor adquiera un
valor hedónico negativo como muestran las reacciones orofaciales del animal (frotarse la barbilla,
agitar la cabeza). En apoyo de esta idea, se ha observado que la administración de fármacos
bloqueadores de las respuestas de náusea antes del tratamiento aversivo hace que los animales
no manifiesten respuestas orofaciales de rechazo -indicativo de que el sabor preserva sus
cualidades afectivas positivas originales- si bien evitan consumir el fluido de modo voluntario. En
cambio, si el tratamiento aversivo se realiza con drogas reforzantes como las anfetaminas, los
animales también evitan consumir la solución gustativa, pero muestran las reacciones orofaciales
de ingestión (movimientos rítmicos de boca, lamerse las patas) características de la valoración
hedónica positiva del fluido (Limebeer y Parker, 2000; Parker, 2003).

En un estudio reciente de nuestro laboratorio (Cantora, López, Aguado, Rana y Parker,


2005), hemos podido comprobar que en la adquisición de una aversión gustativa actúan dos
procesos de aprendizaje diferentes, de un lado, la evitación del fluido por la anticipación de las
consecuencias gástricas negativas de la ingesta y, de otro, un cambio en la valoración hedónica
o afectiva de la solución gustativa. Concretamente, en una fase primera de nuestro estudio, dimos
a unas ratas a beber una solución de sacarina seguido de la administración de LiCl para provocar
aversión. Otros animales, de control, recibieron el litio varias horas después de la exposición al
fluido. En una segunda fase de extinción, que duró varios días, obligamos a la mitad de las ratas
de cada condición experimental a probar la sacarina infundiéndola a través de una cánula
implantada en la cavidad bucal; el resto de animales tuvo acceso a la sacarina en botellas de
cristal sin forzarlos a beber. El resultado fue que las supresiones de las reacciones faciales de
ingesta provocadas por la aversión desaparecieron en dos ensayos de extinción, mientras que la
conducta de evitación del fluido se mantuvo durante cuatro o cinco sesiones más. Esto indica que
el tratamiento aversivo modificó las propiedades hedónicas del fluido, un proceso que se produce
de forma independiente del aprendizaje acerca de las consecuencias gástricas negativas de la
ingesta.

De igual modo que un sabor agradable verá reducido su valor hedónico cuando se asocia
con malestar gástrico, sabores poco apetecibles pueden volverse preferidos al relacionarse con
consecuencias altamente nutritivas o con otros fluidos de valor hedónico positivo. La adquisición
de preferencias por determinados tipos de alimentos se atribuye a la modificación de sus
propiedades afectivas vía procesos de condicionamiento clásico. Por ejemplo, en una larga serie
de estudios Sclafani y colaboradores (ver Sclafani, 2004) han comprobado que cuando dan de
beber a las ratas una solución de sacarina seguido de una infusión intragástrica de una solución
líquida rica en carbohidratos o en grasas desarrollan una preferencia por la sacarina en
comparación con otro sabor asociado con una infusión de agua. También las ratas pueden
desarrollar preferencias por soluciones escasamente atractivas hedónicamente hablando (como
la quinina) cuando se asocian con una solución de sacarosa de alto valor calórico, lo que provoca
un aumento del consumo del animal y la aparición de reacciones orofaciales de ingesta propias
de los fluidos percibidos como hedónicamente positivos.

Bases cerebrales

La investigación neurobiológica con técnicas de lesión cerebral, estimulación eléctrica,


inmunohistoquímicas o de neuroimagen, ha contribuido notablemente a desentrañar las áreas
cerebrales implicadas en el control emocional y motivacional de la conducta (ver Berridge, 2004;
Cardinal, Parkinson, Hall y Everitt, 2002). No se pretende aquí ofrecer una visión completa de los
circuitos cerebrales de la emoción y la motivación sino simplemente mencionar algunas
estructuras particularmente relevantes en el procesamiento afectivo de los estímulos, como
la amígdala (AMG) y la corteza orbitofrontal (COF).

La AMG es probablemente la estructura más implicada en la experiencia emocional. En el


caso humano, su lesión provoca alteraciones del aprendizaje evaluativo, déficits de la percepción
emocional de expresiones fáciles y en el recuerdo de acontecimientos emotivos (McGaugh, 2004).
Neuroanatómicamente, la AMG posee diversos subnúcleos, dos de ellos críticos en el
procesamiento emocional, el núcleo central (AC) y el basolateral (ABL). A este último núcleo
alcanza información sensorial tanto subcortical (procedente de los núcleos sensoriales del tálamo)
y cortical (áreas sensoriales primarias de la corteza cerebral). Además de centro de recepción
información, la amígdala, a través del núcleo central, AC, envía proyecciones a diversas áreas del
hipotálamo, el hipocampo y las áreas corticales de asociación (como la corteza orbitofrontal) que
controlan la producción de respuestas motoras, autonómicas y endocrinas características del
condicionamiento clásico de estados emocionales. El daño cerebral en estas estructuras ocasiona
severas alteraciones en la expresión de diferentes respuestas emocionales. Por ejemplo, en el
aprendizaje del miedo, las lesiones experimentales en las áreas basolateral y central de la AMG
impiden que se condicionen dos respuestas propias de la rata en situaciones de peligro, la
respuesta de paralización motora y la reacción de sobresalto (ver LeDoux, 2000; Maren, 2001,
2005).

Diversas fuentes señalan el núcleo basolateral de la amígdala, ABL, como el centro


responsable de la adquisición de significado emocional o motivacional por los estímulos neutros
tanto en el condicionamiento clásico aversivo como en el apetitivo (ver Holland y Gallagher, 2004).
Como se señaló anteriormente al referirnos a la técnica de devaluación del reforzador, la
producción de la RC a un estímulo condicionado se ve afectada por la modificación del valor
motivacional del EI tras el condicionamiento. Sin embargo, este efecto de deterioro de la RC no
se produce tras la lesión neurotóxica de la ABL. Empleando esta técnica, Hatfield, Han, Conley,
Gallagher y Holland (1996) presentaron a dos grupos de ratas lesionadas y a otros dos de control
(sin lesión) una luz (EC) seguido de comida. Tanto los sujetos lesionados como los de control
adquirieron con normalidad la RC de aproximarse al comedero en presencia de la luz, lo que indica
que la lesión en la ABL no impidió la formación de la asociación EC-EI. Luego, procedieron a
provocar aversión a la comida con LiCl en uno de los grupos lesionados y en otro de control. La
lesión en la ABL tampoco interfirió con el condicionamiento aversivo gustativo. Lo novedoso fue
que en una prueba posterior con la luz sola las ratas del grupo lesionado y devaluado realizaron
la RC normalmente, es decir, no adaptaron su conducta al nuevo valor del EI, como sí lo hicieron
los sujetos de control no lesionados que sólo recibieron el tratamiento de devaluación (ver figura
3). Esto significa que la lesión en la ABL impide la representación del valor afectivo del EI en el
condicionamiento clásico y afecta a la capacidad del EC para acceder a esa representación. Por
el contrario, el núcleo central de amígdala, AC, no parece intervenir en la atribución de significado
afectivo o motivacional al EC durante el condicionamiento clásico. Hatfield y sus colaboradores,
con un diseño análogo al anterior, apreciaron una disminución grande de la RC tanto en animales
lesionados en la AC como en sujetos de control no lesionados que habían tenido el tratamiento de
aversión.

En otra serie de estudios recientes realizados con esta misma técnica se ha evaluado el
efecto de una lesión neurotóxica en la corteza orbitofrontal, COF, sobre la adquisición de
propiedades de incentivo por parte de un EC. Esta estructura tiene conexiones con la ABL y se
activa igualmente por la exposición a una recompensa primaria y sus estímulos relacionados. Sin
embargo, se piensa que la ABL y la COF desempeñan distintas funciones -si bien
complementarias- en la representación de información en el condicionamiento clásico.
Concretamente, como sugieren los resultados recién expuestos, se precisa la ABL para la
formación de la asociación EC-EI y el acceso a la representación del valor afectivo del EI. En
cambio, de la COF dependería el mantenimiento de la información sobre la asociación formada
durante el condicionamiento y su uso para la realización de la respuesta adecuada. Por ejemplo,
Pickens, Sadoris, Gallagher y Holland (2005) han podido comprobar que una lesión neurotóxica
en la COF deteriora la ejecución de la RC sólo cuando se produce tras el condicionamiento
aversivo. De mediar la representación de la asociación EC-EI y del valor afectivo del EI, la lesión
en tal caso no debería influir en la ejecución de la RC cuando se realiza una vez producida la
aversión.

CONTROL MOTIVACIONAL DE LA CONDUCTA

En la sección anterior se ha visto que a través del condicionamiento clásico los estímulos
pueden adquirir nuevas propiedades hedónicas o afectivas. Ahora se trata de explicar cómo
influyen esas propiedades en la ejecución de la conducta aprendida. El término motivación de
incentivo alude precisamente a la motivación basada en la expectativa o anticipación de las
propiedades afectivas de los reforzadores. Gracias a su asociación con una recompensa, los
estímulos pueden adquirir propiedades condicionadas de incentivo y generar estados
motivacionales capaces de instigar la conducta, una idea presente en los analistas más
representativos del campo de la motivación (ej., Toates, 1986). Con la técnica del registro de las
reacciones orofaciales del animal se puede ejemplificar muy bien esta noción de motivación de
incentivo. Por ejemplo, en ratas, la presentación de un ruido (EC) seguido de sacarosa provoca
una respuesta condicionada de aproximación al bebedero y la conducta consumatoria de ingesta
del fluido. Pero, cuando más tarde se da agua al animal a través de una cánula implantada en la
cavidad oral en presencia del ruido, se producen las reacciones orofaciales de ingesta propias de
las sustancias dulces, indicativo de que el EC ha adquirido la valencia afectiva de la sacarosa. Por
el contrario, si el ruido se asocia con una sustancia desagradable (quinina), la rata manifiesta
reacciones orofaciales de rechazo al infundirle agua en presencia del ruido, esto es, evoca un
estado afectivo similar al que produce la sustancia amarga (Delamater, LoLordo y Berridge, 1986).

La influencia motivadora en la conducta de las propiedades de incentivo adquiridas por un


EC (incentivo condicionado) puede examinarse con el procedimiento de transferencia clásico-
instrumental. En este paradigma de laboratorio se evalúa la influencia de una señal de incentivo
sobre la ejecución de una conducta instrumental. Como ejemplo, un trabajo de Lovibond (1983).
En una primera fase, este autor presentó a unos conejos dos estímulos, una luz y un ruido, el
primero seguido de sacarosa -infundida directamente en la cavidad oral- y el segundo sin
consecuencias reforzantes. Luego enseñó a los conejos a realizar una respuesta instrumental
(presionar una tecla) para obtener la solución de sacarosa y, por último, evaluó la propensión de
los animales a realizar esa respuesta ante los dos estímulos por separado sin recompensa.
Lovibond comprobó que los animales preferían realizar la respuesta cuando estaba presente la
luz, esto es, ante la señal que había adquirido propiedades de incentivo. Como prueba este tipo
de estudios, el condicionamiento clásico hace que los estímulos neutros adquieran propiedades
condicionadas de incentivo capaces de motivar la conducta. Sin embargo, el valor apetitivo o
aversivo adquirido por un reforzador (su valor afectivo o hedónico) constituye también una fuente
de motivación de la conducta. El término aprendizaje de incentivo refiere al proceso de aprendizaje
responsable de que el valor afectivo o motivacional de una recompensa cambie con la experiencia.

Aprendizaje de Incentivo

La teoría de incentivo desarrollada por Dickinson y sus colaboradores (ver Dickinson y


Balleine, 1994, 2002) sostiene que la ejecución de una respuesta instrumental requiere la
integración del conocimiento adquirido a través de dos procesos de aprendizaje diferentes. Por un
lado, el conocimiento de las consecuencias de la conducta codificado en la forma de una
asociación respuesta-reforzador, una cuestión analizada en un apartado anterior; por otro lado, el
aprendizaje acerca de las propiedades hedónicas o afectivas del reforzador. La ejecución de la
respuesta requiere la activación de las representaciones cognitivas de estos dos tipos de
conocimiento. En una larga serie de estudios, Dickinson se propuso evaluar la naturaleza de este
proceso de aprendizaje de incentivo. En esencia, revitaliza la vieja idea expuesta por Tolman
(1949) según la cual los estados motivacionales modifican el valor de incentivo de los reforzadores
primarios. Para Tolman, consumir un alimento en un estado de alta motivación (hambre) aumenta
su valoración afectiva, mientras que consumirlo en un estado de saciedad reduce su valor
atractivo. El aprendizaje sobre las propiedades de incentivo de un reforzador depende, según esta
noción, del consumo o interacción directa con el reforzador en la condición de motivación
relevante. Este proceso de aprendizaje de incentivo se ha explorado en animales con dos
procedimientos, la técnica de devaluación del reforzador y modificando el estado o nivel de
motivación del animal durante el proceso de aprendizaje.

Antes se comentó un experimento de Colwill y Rescorla (1985) realizado con la técnica de


devaluación del reforzador. Tras enseñar a unas ratas a presionar una tecla para obtener sacarosa
como recompensa, condicionaron una aversión a la sacarosa asociándola varias veces con LiCl.
Con esta experiencia repetida, los animales pudieron aprender acerca de las nuevas propiedades
de incentivo (negativas) del reforzador antes de realizarse la prueba. Según la noción de
aprendizaje de incentivo, el tratamiento aversivo no debería afectar a la ejecución de la respuesta
instrumental sin una experiencia consumatoria previa con el reforzador devaluado. Balleine y
Dickinson (1991) realizaron un experimento parecido para evaluar esta hipótesis. Concretamente,
estos autores enseñaron primero a sus ratas a realizar una respuesta instrumental para obtener
sacarosa como recompensa. Realizaron una sola sesión de entrenamiento para evitar que una
experiencia masiva con el reforzador atenuase el efecto de la devaluación (como se recordará, la
conducta puede automatizarse debido a la repetición). Nada más concluir esta sesión, unos
animales fueron inyectados con LiCl para provocarles aversión a la sacarosa, mientras que otros
fueron inyectados varias horas más tarde para que no desarrollaran aversión. Al día siguiente,
proporcionaron la sacarosa a la mitad de los sujetos de cada grupo a fin de que la bebiesen, esta
vez sin que tuviesen que realizar la respuesta instrumental para obtenerla. Los otros sujetos
recibieron agua durante esta sesión para igualar su nivel de privación. Por último, efectuaron una
prueba donde todas las ratas podían realizar la respuesta instrumental sin acceder a la sacarosa.
En esta prueba (ver figura 4) realizaron menos la respuesta instrumental las ratas que recibieron
el tratamiento aversivo y luego fueron re expuestos a la sacarosa, es decir, los que tuvieron la
experiencia de aprendizaje de incentivo. En cambio, la devaluación no afectó a la conducta
instrumental en los animales que no probaron la sacarosa tras la devaluación. La conclusión final
del experimento es que la experiencia consumatoria con el reforzador tras la devaluación permitió
a los animales aprender su nuevo valor de incentivo negativo. Sin esta experiencia, la ejecución
de la respuesta instrumental sigue estando determinada por el valor hedónico inicial de la
recompensa. En coherencia con este resultado, se ha demostrado que si se inyecta un fármaco
antiemético (ondansetron) a las ratas justo antes de la exposición al reforzador devaluado, no
aprenden el valor de incentivo negativo del reforzador y continúan realizando la respuesta a pesar
del tratamiento de aversión (Balleine, Garner y Dickinson, 1995).
La misma conclusión se extrae de los estudios donde se modifica el nivel de motivación de
los animales en distintas fases del experimento. Por ejemplo, en nuestro laboratorio hemos visto
el efecto que tiene aumentar o disminuir el nivel de sed de unos animales entre el entrenamiento
instrumental y la prueba. Cuando se enseña a los animales a realizar la respuesta estando
saciados de agua y la prueba se realiza bajo sed, no se aprecia incremento alguno en la tasa de
respuesta. Su conducta no difiere de la de sujetos de control que están saciados durante el
condicionamiento y en la prueba. Sin embargo, si las ratas consumen el reforzador mientras están
sedientas (22,5 horas sin beber agua) antes del condicionamiento, aumenta su tasa de respuesta
durante la prueba. Este hecho se explica asumiendo que los animales asignan al reforzador un
alto valor de incentivo al consumirlo en el estado de alta motivación (López y Paredes, 1999). El
patrón inverso se observa al reducir el nivel de motivación de las ratas entre las fases de
entrenamiento y de prueba. En ese caso, disminuye la tasa de respuesta de los animales sólo si
tienen la oportunidad de probar el reforzador estando saciados antes de la prueba (López, Balleine
y Dickinson, 1992). La manipulación mediante fármacos del estado motivacional de los animales
tiene los mismos efectos. Por ejemplo, se sabe que la colecistoquinina -un péptido asociado con
la saciedad a corto plazo- hace disminuir el valor de incentivo positivo del alimento. Bajo la
influencia de esta sustancia, aumentar el nivel de privación de comida de las ratas no influye en
su conducta incluso después de probar la comida estando altamente motivados (Balleine, Davies
y Dickinson, 1995). En conjunto, estos hallazgos indican que el estado motivacional de un animal
no influye directamente en la ejecución de la respuesta instrumental sino a través del aprendizaje
de las propiedades de incentivo de la recompensa.

Una mención aparte requiere el hecho de que modificar el valor del reforzador a través de
una experiencia de aprendizaje de incentivo no influye en la ejecución de la conducta instrumental
tras un entrenamiento prolongado. Como se dijo antes, en estas circunstancias, la conducta se
automatiza (adopta la forma de un hábito E-R) y se vuelve relativamente independiente del valor
actual de sus consecuencias. Dickinson, Balleine, Watt, González y Boakes (1995) examinaron
esta posibilidad en ratas que habían aprendido a presionar una palanca para obtener comida
estando con hambre. El entrenamiento instrumental constó de 4 sesiones en unos sujetos y de 12
sesiones en otros. Luego dieron la comida a la mitad de los sujetos de cada condición mientras
estaban saciados, el estado de motivación en el que se realizaría la prueba posteriormente. El
resultado fue una reducción apreciable de la tasa de respuesta en los sujetos que probaron la
comida cuando estaban saciados, esto es, los que aprendieron acerca de su bajo valor de
incentivo en ese estado motivacional, pero -lo importante aquí- es que este efecto sólo se produjo
en los sujetos con un entrenamiento restringido. Con un entrenamiento más prolongado la
conducta de los animales no se dejó influir por los cambios en el nivel de motivación o por la
experiencia consumatoria previa.

Bases Cerebrales

La investigación neurobiológica ha identificado diferentes sistemas cerebrales para los


procesos de motivación de incentivo dependientes del condicionamiento clásico (incentivo
condicionado) y para el control motivacional de la ejecución instrumental. La adquisición de
propiedades de incentivo condicionado por las claves ambientales parece depender del sistema
dopaminérgico mesolímbico, formado por fibras nerviosas que emplean dopamina (DA) como
neurotransmisor y las áreas o estructuras cerebrales a las que proyectan, en particular el núcleo
accumbens (NAc). Por su parte, en el control motivacional de la conducta instrumental intervienen
estructuras corticales como la corteza prefrontal (CPF) y la gustatoria (CG), la primera mediando
la anticipación de las consecuencias reforzantes de la respuesta y la segunda en el proceso de
aprendizaje acerca de las propiedades de incentivo del reforzador.

El sistema dopaminérgico mesolímbico lo conforman fibras nerviosas que parten del tronco
cerebral (el área tegmento ventral) y proyectan sus axones al núcleo accumbens, la amígdala y la
corteza prefrontal, entre otras estructuras del sistema límbico. De ellas, el núcleo accumbens
(NAc) parece desempeñar una función crítica en los procesos de recompensa mediados por
reforzadores naturales y por drogas adictivas como la cocaína o la anfetamina. Diversos estudios
indican que la actividad funcional de las neuronas del sistema mesolímbico dopaminérgico se
corresponde con la motivación de incentivo, esto es, con la capacidad de un EC para instigar la
conducta. Un procedimiento que ha permitido analizar esta cuestión es la técnica de transferencia
clásico-instrumental. Como ya se dijo, esta técnica permite medir la influencia de un estímulo
condicionado clásicamente sobre la ejecución de una respuesta instrumental que comparte el
mismo reforzador. Por ejemplo, Dickinson, Smith y Mirenowicz, (2000) han comprobado que la
administración de drogas que bloquean los receptores de dopamina impide la adquisición de
propiedades de incentivo por los estímulos o señales ambientales. Concretamente, estos autores
inyectaron a unas ratas un fármaco antagonista de la dopamina (pimocida) antes de condicionar
una luz (EC) con comida como EI. Las ratas habían aprendido por separado a presionar una
palanca para conseguir bolitas de comida como recompensa. En la prueba de transferencia
posterior, observaron que la luz no facilitaba la ejecución de la respuesta en comparación con
otros sujetos que no habían sido inyectados con la droga. Lo mismo sucede cuando el fármaco
antagonista se administra a los animales justo antes de la prueba de transferencia, que no
promueve la ejecución de la respuesta instrumental cuando está presente el EC. Esto indica que
la supresión de la dopamina impide tanto la adquisición como la expresión de las propiedades
motivacionales de incentivo por un EC. Un resultado similar se ha obtenido en estudios que
emplean técnicas citotóxicas de lesión cerebral; una lesión específica del NAc parece anular la
influencia motivadora sobre la conducta de un incentivo condicionado (Hall, Parkinson, Connor,
Dickinson y Everitt, 2001).

Sin embargo, las estructuras dopaminérgicas y en particular el NAc no parecen


determinantes en la representación cognitiva del valor hedónico o afectivo del reforzador. Por
ejemplo, Balleine y Killcross (1994) vieron que unas ratas lesionadas en el NAc adecuaban su
conducta apropiadamente al valor modificado de la recompensa producido por un cambio en el
nivel de motivación. Las ratas aprendieron perfectamente a presionar una palanca para obtener
comida mientras estaban con hambre. Sin embargo, una vez saciadas de cara a la prueba, dejaron
de responder sólo si habían probado la comida en el estado de baja motivación, el mismo resultado
que se observa en animales no lesionados. Esto indica que su conducta es sensible a los cambios
que se producen en el valor de la recompensa a pesar de la lesión en el NAc. Es de interés señalar
que en este estudio la lesión del NAc perjudicó las respuestas de aproximación al comedero de
los animales, lo que indica que sí alteró el valor de incentivo condicionado de las señales
ambientales asociadas con la comida.
En cuanto a los sistemas cerebrales implicados en la motivación de la conducta
instrumental, varias líneas de investigación sugieren que la anticipación de la recompensa
depende de la corteza prefrontal (CPF), concretamente la región orbitofrontal. Por ejemplo,
Balleine y Dickinson (1998) realizaron una lesión neurotóxica en la CPF de unas ratas antes de
enseñarles a realizar dos respuestas instrumentales cada una reforzada con un reforzador distinto.
La lesión cerebral no impidió que los animales aprendiesen ambas respuestas. De hecho, sus
tasas fueron similares a las de otros sujetos de control sin lesionar. Concluido el entrenamiento
instrumental, devaluaron uno de los reforzadores con el procedimiento de saciedad específica
sensorial que, como se recordará, consiste en proporcionar a las ratas una cantidad ilimitada del
reforzador hasta que se sacian. En una prueba posterior de elección entre las dos respuestas, los
sujetos de control no lesionados realizaron menos la respuesta cuyo reforzador había sido
devaluado, un resultado coherente con la propuesta de que los sujetos codifican información sobre
las consecuencias de la conducta. Lo destacable del estudio fue que las ratas lesionadas en la
CPF realizaron ambas respuestas por igual, lo que indica que esta estructura interviene en la
detección y codificación de la contingencia instrumental, esto es, en la capacidad del animal para
anticipar las consecuencias de su conducta.

En cuanto al sistema cerebral responsable del aprendizaje de las propiedades hedónicas o


afectivas del reforzador (aprendizaje de incentivo), parece depender de la integridad de la corteza
gustatoria (CG), una estructura que participa en el desarrollo de aversiones gustativas y de
preferencias alimenticias. Por ejemplo, Balleine y Dickinson (2000) han analizado el efecto que
produce una lesión en la región insular de esta estructura sobre la conducta instrumental. El
procedimiento que emplearon es similar al descrito antes. Enseñaron primero a unas ratas
privadas de comida a realizar dos respuestas, una reforzada con comida y la otra con una solución
de almidón. Luego proporcionaron a las ratas uno de los reforzadores (comida) mientras se
encontraban saciadas para que aprendiesen su bajo valor de incentivo en ese estado de
motivación. El efecto de esta experiencia se evaluó en una prueba posterior donde los animales,
saciados, podían elegir entre las dos respuestas. En las ratas de control sin lesión apareció el
efecto de aprendizaje de incentivo esperado, realizaron en menor medida la respuesta cuyo
reforzador había sido devaluado antes de realizar la prueba. En cambio, los sujetos lesionados
realizaron ambas conductas con la misma frecuencia (ver figura 5). La interpretación de estos
resultados es que la lesión en la CG alteró la capacidad de las ratas para codificar el nuevo valor
de incentivo del reforzador sobre la base de su experiencia consumatoria en el estado de
motivación relevante. Esto es, la corteza insular gustatoria parece constituir el sustrato neuronal
del proceso de aprendizaje de incentivo que media el control motivacional de la conducta
instrumental.

ADICCIÓN A LAS DROGAS E INCENTIVO

El consumo repetido de sustancias adictivas como la morfina, la cocaína o el alcohol


produce modificaciones en la organización cerebral que desencadenan la dependencia fisiológica
y conductual de la droga. Una parte importante del estudio experimental sobre las conductas
adictivas deriva del interés por determinar la contribución de los mecanismos asociativos del
condicionamiento (reforzamiento y motivación de incentivo principalmente) en la adquisición de la
adicción a las drogas. La explicación más convencional es que las personas adictas consumen la
droga para experimentar sus consecuencias positivas (placer) y evitar los efectos desagradables
de su retirada (el síndrome de abstinencia). Los modelos animales de la adicción a las drogas
intentan reflejar en sus explicaciones las propiedades más notorias de las conductas adictivas,
como el deseo irrefrenable de tomar droga, la pérdida del autocontrol o la recaída tras un período
de abstinencia y desintoxicación (ver Cardinal y Everitt, 2004; Shalev, Grimm y Shaham, 2002).
Una cuestión central es conocer las razones por las que la experiencia repetida con una droga
adictiva deriva en patrones de búsqueda y consumo compulsivos. La investigación recogida en
los apartados anteriores indica que los estímulos ambientales relacionados con la administración
de la droga y sus consecuencias placenteras adquieren propiedades de incentivo positivo que
generan estados motivacionales y expectativas de recompensa que pueden contribuir a la
adquisición y mantenimiento de la adicción.

Acciones y hábitos

La característica conductual que mejor define la dependencia de una droga adictiva en el


ser humano es la pérdida de la capacidad para controlar su uso debido al consumo repetido de la
droga. Como se expuso en un apartado anterior, algunos modelos del aprendizaje han sugerido
que las respuestas instrumentales pueden automatizarse como consecuencia de la práctica y el
reforzamiento prolongado. La distinción entre acciones y hábitos propuesta por Dickinson y
Balleine (1993) alude precisamente al grado en que la conducta responde a la anticipación de sus
consecuencias reforzantes o al aprendizaje estímulo-respuesta. Esta distinción es análoga a la
efectuada por Tifffany (1990) en su influyente análisis de las conductas adictivas cuando se refiere
a la transición desde una fase inicial de consumo ocasional y deliberado de la droga (procesos
cognitivos) a su búsqueda compulsiva y la pérdida de control (procesos automáticos).

El paradigma de devaluación del reforzador instrumental es pertinente para evaluar en


animales si la conducta reforzada con sustancias adictivas responde a un proceso de tipo
automático o controlado. Como se recordará, con recompensas naturales (comida, bebida) se ha
visto repetidas veces que la devaluación del reforzador con sustancias tóxicas o mediante
procedimientos de saciación específica produce un deterioro en la ejecución de la respuesta
instrumental, lo que evidencia su carácter controlado o la dependencia del valor motivacional
actual del reforzador. Varios estudios han llegado recientemente a esta misma conclusión para el
caso de conductas reforzadas con drogas adictivas. Por ejemplo, Samson, Cunningham,
Czachowski, Chappell, Legg y Shannon (2004) entrenaron a unas ratas a presionar una palanca
para obtener etanol como recompensa. Tras el entrenamiento proporcionaron a parte de los
animales la solución de tanol seguido de una inyección de LiCl para devaluar sus propiedades
reforzantes, mientras que otros animales no recibieron el tratamiento aversivo. El resultado que
obtuvieron es comparable al que se produce con los reforzadores primarios, esto es, una
disminución significativa de la tendencia de los animales a realizar la respuesta de presión de
palanca tras la devaluación del valor reforzante del etanol. Con una técnica de devaluación
diferente y empleando cocaína como recompensa, Olmstead, Lafond, Everitt y Dickinson (2001)
han obtenido un resultado análogo. Estos autores enseñaron a sus ratas a presionar una palanca
(respuesta inicial) para poder realizar una segunda acción (respuesta final) que tenía como
consecuencia reforzante una infusión intravenosa de cocaína. Esta secuencia de dos respuestas
es equivalente a la distinción entre la conducta de búsqueda de la droga y el acceso final a la
misma. Después del aprendizaje, extinguieron la respuesta final haciendo que su ejecución no
produjese la droga. Este tratamiento de devaluación provocó en los animales una disminución de
la conducta inicial de búsqueda de la droga cuando realizaron una prueba posterior con esa
respuesta sola. Este resultado puede interpretarse diciendo que la ejecución de la respuesta
depende del conocimiento del animal la relación existente entre la conducta de búsqueda de la
droga y la posibilidad de obtenerla. Es decir, sería un proceso controlado en la medida en que la
ejecución instrumental depende de la representación cognitiva de las consecuencias reforzantes
de la conducta. Otros estudios, en cambio, han aportado pruebas en contra de esta interpretación.
Es el caso de Miles, Everitt y Dickinson (2003) que observaron que la devaluación con litio
producía una disminución de una respuesta reforzada con sacarosa, pero no afectaba a la
ejecución de una conducta reforzada con cocaína. Estos datos los interpretaron como una prueba
de que los animales desarrollan un fuerte hábito E-R que podría explicar la persistencia de la
conducta encaminada a la obtención de la droga.,

Con todo, los estudios mencionados no han evaluado qué influencia ejerce la magnitud del
entrenamiento sobre la ejecución de una respuesta instrumental reforzada con drogas adictivas.
En nuestro laboratorio hemos realizado recientemente un estudio sin publicar aún con esta
finalidad. Concretamente, enseñamos a unas ratas a realizar la respuesta de presión de palanca
reforzándola con una solución de etanol. Unos animales tuvieron dos sesiones de entrenamiento
instrumental con el alcohol, mientras que otros recibieron un total de ocho sesiones de
entrenamiento. Luego se devaluó el alcohol con LiCl en la mitad de las ratas de cada condición de
entrenamiento (limitado o prolongado) y se comprobó su efecto sobre la ejecución de la respuesta
en extinción. El resultado fue una disminución apreciable de la respuesta en los animales que
recibieron el tratamiento de devaluación, pero lo más importante fue que este efecto no dependió
del nivel de entrenamiento recibido. Estos resultados los interpretamos en el sentido de que la
conducta refleja la anticipación del valor reforzante del etanol y que el entrenamiento prolongado
no convirtió esta acción en un hábito rígido. Parece por tanto que el reforzamiento sistemático no
es un principio que explique el carácter compulsivo de las conductas de búsqueda y consumo de
drogas. Los mecanismos de la motivación de incentivo pueden, como seguidamente se verá,
responder a este interrogante.

Sensibilización del incentivo

La explicación más conocida de la adicción a las drogas es la hipótesis hedónica. En sus


diferentes versiones (placer-dolor, reforzamiento positivo-negativo, procesos oponentes), esta
teoría propone que la experiencia inicial con una droga conlleva efectos placenteros
(reforzamiento positivo) pero su uso continuado provoca tolerancia y dependencia física de la
droga, y su retirada los síntomas desagradables de la abstinencia. La evitación de los síntomas
de abstinencia actuaría como fuente de reforzamiento negativo de las conductas de búsqueda y
consumo de la droga (ver Baker, Piper y Fiore, 2004). La versión de los procesos oponentes de la
hipótesis hedónica analiza todos los aspectos relacionados con la adicción en términos de
procesos afectivos opuestos. Según esta teoría, la administración de una droga adictiva provoca
en el organismo una respuesta afectiva primaria intensa y de signo positivo, pero su retirada
produce una reacción secundaria débil de signo negativo. El uso repetido de la droga modifica
este patrón afectivo, reduciendo la intensidad del componente positivo e intensificando la reacción
opuesta que se traduce en la tolerancia a la droga y la intensificación de los síntomas de
abstinencia (Solomon, 1977). Sin embargo, como reflejan los estudios más recientes, el estado
desagradable derivado de la retirada de la droga no parece tan determinante en la motivación de
la conducta adictiva como las propiedades reforzadoras o de incentivo positivo de la droga. De
hecho, algunas drogas de abuso no producen síndrome de retirada, como las anfetaminas o la
cocaína. Por ejemplo, en animales privados de cocaína durante un período de abstinencia se
observa un fuerte incremento de la conducta de búsqueda de la droga bajo extinción cuando
reciben una pequeña dosis (priming) inmediatamente antes de la prueba; sin embargo, la
administración de fármacos como naltrexona que bloquean los receptores opiáceos y
presumiblemente precipitan el síndrome de retirada no parece reactivar la conducta instrumental
de búsqueda de la droga. La teoría hedónica tampoco logra explicar por qué algunas personas
recaen en la droga tras un período de abstinencia prolongado habiendo desaparecido ya los
síntomas aversivos de su retirada.

Desde una orientación psicobiológica, la hipótesis dopaminérgica ha ganado peso entre las
explicaciones de la adicción a las drogas. El eje nuclear de este planteamiento es que las
sustancias adictivas modifican los sistemas cerebrales –sistema dopaminérgico mesolímbico- que
median las propiedades reforzantes de las recompensas naturales (Berridge y Robinson, 1998).
La solidez de esta hipótesis procede de varias fuentes de investigación, conductual, farmacológica
y neurobiológica. Por ejemplo, se sabe que la administración intracraneal de anfetamina o de
cocaína incrementa los niveles de dopamina en el NAc que, como ya se dijo, es clave en la
motivación de incentivo. De acuerdo con la hipótesis dopaminérgica, se ha visto que unas ratas
entrenadas a presionar una palanca para auto administrarse estas sustancias responden
insistentemente incluso cuando se bloquea con fármacos antagonistas los receptores de
dopamina. También se ha comprobado en ratas que la vuelta al contexto asociado con la
administración repetida de la droga produce la recuperación de la respuesta instrumental tras su
extinción. Sin embargo, este efecto de recuperación de la respuesta se atenúa al bloquear los
receptores dopaminérgicos. Probablemente, la recaída en la droga por la exposición a las señales
asociadas con su consumo se debe al incremento de la actividad en los circuitos cerebrales
dopaminérgicos.

Una de las principales nociones incorporadas en las versiones más recientes de la hipótesis
dopaminérgica es el concepto de motivación de incentivo. Se ha sugerido que la búsqueda y
consumo compulsivo de sustancias adictivas se debe a la sensibilización de los sistemas
cerebrales (actividad neuronal incrementada) en los que se basa la motivación de incentivo (ver
Berridge, 2001, 2003; Robinson y Berridge, 2001, 2003). La idea central defendida es que la
sensibilización de los circuitos cerebrales de la dopamina por la administración de drogas adictivas
contribuye a incrementar el valor de incentivo positivo de las drogas y de los estímulos ambientales
relacionados con su uso. Este proceso de sensibilización de incentivo dotaría a las claves
ambientales relacionadas con la droga con la capacidad de desencadenar su búsqueda
compulsiva y la recaída tras un período de abstinencia prolongado.

Un aspecto muy llamativo de esta teoría es que distingue entre el impacto hedónico de la
droga, relacionado con la experiencia subjetiva de placer, y la motivación para buscarla
o deseo de la droga. La teoría supone que la sensibilización de las neuronas dopaminérgicas es
responsable del deseo obsesivo de la droga, pero no del placer que produce su consumo. De
hecho, la teoría puede explicar algunos aspectos paradójicos de la adicción, como el hecho de
que persista la búsqueda compulsiva de la droga a pesar de que no aumente el placer producido
por ella. También puede explicar la recaída en la droga sin recurrir a los efectos reforzantes
derivados de la reducción de las consecuencias desagradables de la abstinencia. Wyvell y
Berridge (2000, 2001) han aportado pruebas convincentes de que deseo y placer son dos
procesos psicológicos diferentes mediados por la actividad de distintos sistemas cerebrales. En el
primero de estos estudios, emplearon un paradigma de transferencia clásico-instrumental para
estudiar los efectos de la administración directa de anfetamina, un agonista de la dopamina, en el
NAc. Comprobaron que la activación de la neurotransmisión dopaminérgica por la anfetamina
incrementó las propiedades de incentivo de los estímulos asociados con el reforzador
instrumental. Para ello, enseñaron primero a unas ratas a presionar una palanca para obtener
sacarosa como recompensa y, por separado, a asociar una luz (EC) con ese mismo reforzador. El
día de la prueba, inyectaron a las ratas con anfetamina directamente en el NAc y vieron su
influencia en la capacidad de la luz para facilitar la conducta instrumental. En esta prueba de
transferencia la luz se presentaba a intervalos regulares. Observaron que la anfetamina provocaba
un aumento importante de la respuesta instrumental cuando estaba presente la luz, pero no en su
ausencia (ver figura 6, parte superior). Esto significa que la estimulación de la neurotransmisión
de dopamina en el NAc aumenta la eficacia incentivadora de los estímulos condicionados
clásicamente sobre la conducta instrumental. También de interés, el experimento demostró que la
inyección de anfetamina en el NAc no provoca en las ratas un aumento de las reacciones
orofaciales de ingesta -indicativas del valor hedónico positivo de la sacarosa- cuando se les
administraba esta solución directamente en la cavidad bucal. De hecho, la destrucción neurotóxica
del sistema dopaminérgico mesolímbico no impide que las ratas manifiesten reacciones faciales
de rechazo cuando se les provoca una aversión gustativa, lo que demuestra que aprenden el valor
de incentivo negativo del sabor condicionado. De acuerdo con lo expuesto antes, estos resultados
permiten concluir que las alteraciones duraderas de la actividad neuronal del sistema
dopaminérgico producidas por el consumo repetido de una sustancia adictiva aumentan la
saliencia de las señales ambientales de incentivo y su influencia motivadora en las conductas de
búsqueda compulsiva y consumo de la droga. En cambio, estos mecanismos de sensibilización
neuronal no determinan el impacto hedónico de la droga o el placer que produce su consumo en
el organismo.

Muy relevante también para el análisis de las conductas adictivas, y en especial de la


recaída en la droga, es el hallazgo de Wyvell y Berridge (2001) de que la administración repetida
de anfetamina a las ratas por vía intraperitoneal aumenta la saliencia de las señales de incentivo
y su influencia facilitadora sobre la conducta de búsqueda de la droga incluso cuando los animales
no están bajo sus efectos. En este experimento unas ratas aprendieron, en sesiones separadas,
a presionar una palanca para obtener una solución de sacarosa y a asociar un tono (EC+) con ese
mismo reforzador; otro estímulo auditivo diferente (EC-) se presentaba intercalado con el primero,
pero sin sacarosa. Tras esta fase de entrenamiento, inyectaron a la mitad de los sujetos con
anfetamina durante seis días consecutivos y luego permanecieron diez días más en sus jaulas sin
la droga. El resto de animales, de control, recibió inyecciones vehículo de salino. Finalmente,
realizaron una prueba de transferencia clásico-instrumental donde se presentaban los dos ECs
intercalados a intervalos regulares mientras las ratas realizaban la conducta instrumental en
extinción. Inmediatamente antes de la prueba, la mitad de las ratas de cada condición
(sensibilizados y controles) recibía una micro inyección de anfetamina en el NAc, mientras que el
resto de animales era inyectado con salino. El resultado (ver figura 6, parte inferior) fue que todas
las ratas (sensibilizadas y controles) presionaron más la palanca en presencia del tono asociado
con la recompensa, EC+, que, ante el otro estímulo, lo que replica el efecto básico de facilitación
de la respuesta por el incentivo condicionado descrito en el experimento anterior. Lo más relevante
fue que en las ratas sensibilizadas ese efecto facilitador sobre la conducta instrumental fue muy
superior al observado en los sujetos de control. En definitiva, se puede concluir de estos estudios
que el tratamiento con anfetamina (sensibilización del sistema dopaminérgico) incrementa el poder
de incentivo de los estímulos (ECs) asociados con la recompensa. En los términos expuestos por
la teoría de la sensibilización del incentivo, este proceso podría dotar a las claves ambientales con
la capacidad de provocar la búsqueda compulsiva de la droga o el deseo irrefrenable de obtenerla
con independencia del placer derivado de su consumo.

RESUMEN

La revisión efectuada de la investigación experimental con animales sobre los procesos de


condicionamiento nos lleva a reconocer que aprendizaje, emoción y motivación son tres aspectos
fundamentales y estrechamente relacionados del funcionamiento psicológico de los animales,
resultando de alto valor heurístico para la comprensión de la conducta humana. En el primer
apartado se mostró la complejidad y riqueza de las representaciones cognitivas formadas por los
animales durante el condicionamiento y cómo retienen en esas representaciones asociativas
información sobre los propiedades sensoriales y afectivas de los estímulos relevantes del entorno.
El empleo de técnicas conductuales como el registro de las expresiones faciales de los animales
y técnicas neurobiológicas de lesión cerebral han contribuido decididamente a que conozcamos
la dimensión afectiva y emocional de la conducta animal. En la segunda parte del capítulo se
abordó la cuestión de la relación entre aprendizaje y motivación, particularmente la motivación
basada en la expectativa o anticipación de las propiedades afectivas o hedónicas de los
reforzadores y su influencia reguladora sobre la conducta. La teoría moderna del incentivo
considera que la ejecución de la conducta instrumental requiere la interacción entre estados
motivacionales y expectativas cognitivas. Concretamente, el control motivacional de la conducta
está participado por el conocimiento cognitivo de las consecuencias de la conducta y el
conocimiento acerca de su valor hedónico o afectivo. Por último, se puso de relieve que el
concepto de incentivo ocupa un puesto central en las teorías explicativas actuales de la adicción
a las drogas. La motivación de incentivo se identifica con la actividad del sistema cerebral
dopaminérgico relacionado con los procesos de recompensa. La sensibilización del sistema de
incentivo por la estimulación continuada con drogas adictivas aumenta el poder de incentivo de
las señales asociadas con su administración provocando el deseo compulsivo de la droga con
independencia del placer que produzca su consumo.
REFERENCIAS

Adams, C.D. (1982). Variations in the sensitivity of instrumental responding to reinforcer devaluation. Quarterly Journal of Experimental Psychology, 34B, 77-98.
Baker, T., Piper, M. y Fiore, M. (2004). Addiction motivation reformulated: an affective processing model of negative reinforcement. Psychological Review, 111, 33-51.
Balleine, B., Davis, A. y Dickinson, A. (1995). Cholecystokinin attenuates incentive learning in rats. Behavioral Neuroscience, 109, 312-319.
Balleine, B. y Dickinson, A. (1991). Instrumental performance following reinforcer devaluation depends upon incentive learning. Quarterly Journal of Experimental Psychology, 43B,
279-296.
Balleine, B. y Dickinson, A. (1998). Goal-directed instrumental action: contingency and incentive learning and their cortical substrates. Neuropharmacology, 37, 407-419.
Balleine, B. y Dickinson, A. (2000). The effect of lesions of the insular cortex on instrumental conditioning: evidence for a role in incentive memory. The Journal of Neuroscience, 20, 8954-8964.
Balleine, B., Garner, C. y Dickinson, A. (1995). Instrumental outcome-devaluation is attenuated by the anti-emetic ondansetron. Quarterly Journal of Experimental Psychology, 48B,
235-251.
Balleine, B. y Killcross, S. (1994). Effects of ibotenic acid lesions of the nucleus accumbens on instrumental action. Behavioral Brain Research, 15, 181-193.
Berridge, K.C. (2000). Measuring hedonic impact in animals and infants: Microstructure of affective taste reactivity patterns. Neuroscience and Biobehavioral Reviews, 24, 173-198.
Berridge, K.C. (2001). Reward learning: reinforcement, incentives, and expectations. En D.L. Medin (ed.), The Psychology of Learning and Motivation, vol. 40 (págs. 223-278). New
York: Academic Press.
Berridge, K.C. (2003). Pleasures of the brain. Brain and Cognition, 52, 106-128.
Berridge, K.C. (2004). Motivation concepts in behavioral neuroscience. Physiology and Behavior, 81, 179-209.
Berridge, K.C. y Robinson, T.E. (1998). What is the role of dopamine in reward: hedonic impact, reward learning, or incentive salience? Brain Research Reviews, 28, 309-369.
Cantora, R., López, M., Aguado, L., Rana, S. y Parker, L. (2005). Extinction of a saccharin-lithium association: Assessment by consumption and taste reactivity. Learning and
Behavior (en prensa).
Cardinal, R.N., y Everitt, B.J. (2004). Neural and psychological mechanisms underlying appetitive learning: links to drug addiction. Current Opinion in Neurobiology, 14, 3156-162.
Cardinal, R.N., Parkinson, J.A., Hall, J. y Everitt, B.J. (2002). Emotion and motivation: the role of the amygdale, ventral striatum, and prefrontal cortex. Neuroscience and Biobehavioral
Reviews, 26, 321-352.
Colwill, R.M. (1994). Associative representations in instrumental contingencies. En D.L. Medin (Ed.), The psychology of learning and motivation, (vol. 31, págs. 1-72). San Diego:
Academic Press.
Colwill, R.M. y Rescorla, R.A. (1985). Post-conditioning devaluation of a reinforcer affects instrumental responding. Journal of Experimental Psychology: Animal Behavior
Processes, 11, 120-132.
Colwill, R.M. y Rescorla, R.A. (1988). Associations between the discriminative stimulus and the reinforcer in instrumental learning. Journal of Experimental Psychology: Animal
Behavior Processes, 14, 155-164.
Delamater, A.R., LoLordo, V.M. y Berridge, K.C. (1986). Control of fluid palatability by exteroceptive pavlovian signals. Journal of Experimental Psychology: Animal Behavior
Processes, 12, 143-152.
Dickinson, A. y Balleine, B. (1993). Actions and responses: The dual psychology of behavior. En N. Eilan, R.A. McCarthy y M.R. Brewer (Eds.), Spatial representation: problems in
phylosophy and psychology (págs. 277-293). Oxford: Blackwell.
Dickinson, A. y Balleine, B. (1994). Motivational control of goal-directed action. Animal Learning and Behavior, 22, 1-18.
Dickinson, A. y Balleine, B. (2002). The role of learning in the operation of motivational systems. En R. Gallistel (Ed.), Steven´s handbook of experimental psychology. Vol. 3. Learning,
motivation, and emotion. (págs. 497-533). NY: John Wiley.
Dickinson, A. y Balleine, B., Watt, A., González, F. y Boakes, R.A. (1995). Motivational control after extended instrumental training. Animal Learning & Behavior, 23, 197-216.
Dickinson, A., Smith, J. y Mirenowicz, J. (2000). Dissociation of Pavlovian and instrumental incentive learning under dopamine antagonists. Behavioral Neuroscience, 114, 468-483.
García, J. (1989). Food for Tolman: Cognition and cathexis in concert. En T. Archer y L.-G. Nilsson (Eds.), Aversion, avoidance, and anxiety (págs. 45-85). Hillsdale, NJ: Erlbaum.
Hall, G. (2002). Associative structures in Pavlovian and instrumental conditioning. En R. Gallistel (Ed.), Steven´s handbook of experimental psychology. Vol. 3. Learning, motivation,
and emotion. (págs. 1-45). NY: John Wiley.
Hall, J., Parkinson, J.A., Connor, T.M., Dickinson, A. y Everitt, B.J. (2001). Involvement of the central nucleus of the amygdala and nucleus accumbens core in mediating Pavlovian
influences on instrumental behaviour. European Journal of Neuroscience, 13, 1984-1992.
Hatfield, T., Han, J.S., Conley, M., Gallagher, M. y Holland, P. (1996). Neurotoxic lesion of the basolateral but not central amygdala interfere with Pavlovian second-order conditioning
and reinforcer-devaluation effects. Journal of Neuroscience, 16, 5256-5265.
Holland, P.C. (1990). Event representation in Pavlovian conditioning: image and action. Cognition, 37, 105-131.
Holland, P.C., y Gallagher, M. (2004). Amygdala-frontal interactions and reward expectancy. Current Opinion in Neurobiology, 14, 148-155.
Konorski, J. (1967). Integrative activity of the brain. Chicago: University of Chicago Press.
LeDoux, J.E. (2000). Emotions circuits in the brain. Annual Review of Neuroscience, 23, 155-184.
Limebeer y Parkr. L.A. (2000). The antiemetic drug ondansetron interferes with lithium-induced conditioned rejection reactions, but not lithium-induced taste avoidance in
rats. Journal of Experimental Psychology: Animal Behavior Processes, 26, 371-384.
López, M., Balleine, B. y Dickinson, A. (1992). Incentive learning and the motivational control of instrumental performance by thirst. Animal Learning and Behavior, 20, 322-328.
López, M. y Paredes, C. (1999). Sensitivity of instrumental responses to an upshift in water deprivation. Animal Learning & Behavior, 27, 280-287.
Lovibond, P.F. (1983). Facilitation of instrumental behavior by a Pavlovian appetitive conditioned stimulus. Journal of Experimental Psychology: Animal Behavior Processes, 9, 225-
247.
Maren, S. (2001). Neurobiology of Pavlovian fear conditioning. Annual Review of Neuroscience, 24, 897-931.
Maren, S. (2005). Synaptic mechanisms of associative memory in the amygdala. Neuron, 47, 783-786.
McGaugh, J.L. (2004). The amygdala modulates the consolidation of emotionally arousing experiences. Annual Review of Neuroscience, 27, 1-28.
Miles, F.J., Everitt, B.J. y Dickinson, A. (2003). Oral cocaine seeking by rats: action or habit? Behavioral Neuroscience, 117, 927-938.
O´Craven, K.M., y Kanwisher, N. (2000). Mental imagery of faces and places activates corresponding stimulus-specific brain regions. Journal of Cognitive Neuroscience, 12, 1013-1023.
Olmstead, M.C., Lafond, M.V., Everitt, B.J. y Dickinson, A. (2001). Cocaine seeking by rats is a goal-directed action. Behavioral Neuroscience, 115, 394-402.
Paul, E.S., Harding, E. y Mendl, M. (2005). Measuring emotional processes in animals: the utility of a cognitive approach. Neuroscience and Biobehavioral Reviews, 29, 469-491.
Parker, L.A. (2003). Taste avoidance and taste aversion: Evidence for two different processes. Learning and Behavior, 31, 165-172.
Pickens, C.L. y Holland, P.C. (2004). Conditioning and cognition. Neuroscience and Biobehavioral Reviews, 28, 651-661.
Pickens, C.L., Saddoris, M.P., Gallagher, M. y Holland, P.C. (2005). Orbitofrontal lesions impair use of cue-outcome associations in a devaluation task. Behavioral Neuroscience, 119,
317-322.
Robinson, T.E. y Berridge, K.C. (2001). Incentive-sensitization and addiction. Addiction, 96, 103-114.
Robinson, T. y Berridge, K.C. (2003). Addiction. Annual Review of Psychology, 54, 25-53.
Samson, H.H., Cunningham, C.L., Czachowski, C.L., Chappell, A., Legg, B. y Shannon, E. (2004). Devaluation of ethanol reinforcement. Alcohol, 32, 203-212.
Sclafani, A. (2004). Oral and postoral determinants of food rewards. Physiology and Behavior, 81, 773-779.
Shalev, U., Grimm, J.W. y Shaham, Y. (2002). Neurobiology of relapse to heroin and cocaine seeking: a review. Pharmacological Reviews, 54, 1-42.
Solomon, R.L. (1977). Addiction: an opponent-process theory of acquired motivation: the affective dynamics of addiction. En J.D. Maser (Ed.), Psychopathology: Experimental
models (págs. 66-103). San Francisco: Freeman.
Tiffany, S.T. (1990). A cognitive model of drug urges and drug-use behavior: role of automatic and nonautomatic processes. Psychological Review, 97, 147-168.
Toates, F. (1986). Motivational systems. Cambridge, UK: Cambridge University Press.
Tolman, E.C. (1949). The nature and functioning of wants. Psychological Review, 56, 357-369.
Wagner, A.R. y Brandon, S.E. (1989). Evolution of a structured connectionist model of Pavlovian conditioning (AESOP). En S.B. Klein y R.R. Mowrer (Eds.), Contemporary learning
theories: Pavlovian conditioning and the status of traditional learning theory (págs. 149-189). Hillsdale, NJ: Erlbaum.
Williams, B.A. (1994). Blocking despite changes in reinforcer identity. Animal Learning and Behavior, 22, 442-457.
Wyvell, C.L. y Berridge, K.C. (2000). Intra-accumbens amphetamine increases the conditioned incentive salience of sucrose reward: enhancement of reward “wanting” without
enhanced “liking” or response reinforcement. The Journal of neuroscience, 20, 8122-8130.
Wyvell, C.L. y Berridge, K.C. (2001). Incentive sensitization by previous amphetamine exposure: increased cue-triggered “wanting” for sucrose reward. The Journal of
Neuroscience, 21, 7831-7840.

También podría gustarte